基于多维数据融合的“校园贷”风险控制研究
2023-06-25钱珺金君仰季新国
钱珺 金君仰 季新国
摘 要:“校园贷”作为信息化和消费金融行业快速发展的产物,是消费金融行业市场的重要组成部分。近年来,不良因素的介入使得“校园贷”沦为某些恶意利用者违法犯罪的工具和平台,高校亟需一份合适的“校园贷”自身视角方案。研究以构建金融管理服务中心和XGBoost风险评估模型为核心,从疏导、防范等多角度入手,满足大学生合理借贷需求同时,降低和防范高校“校园贷”风险,让高校“校园贷”处于有效的监管和风险控制之下。
关键词:校园贷;XGBoost建模;多维融合;防范策略;风险评估
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)04-0174-03
Research on Risk Control of“Campus Loan”Based on Multi-Dimensional Data Fusion
QIAN Jun1, JIN Junyang2, JI Xinguo3
(1.School of Information Technology, Nanjing Forest Police College, NanJing 210023, China; 2.Shaoxing Public Security Bureau Yuecheng branch, Shaoxing 312099, China; 3.Information Management Center, Nanjing Forest Police College, NanJing 210023, China)
Abstract: The “campus loan” is an important part of the consumer finance industry market as a result of the rapid development of information technology and the consumer finance industry. In recent years, the inclusion of unfavorable factors has transformed “campus loan” into a tool and platform for some criminals to commit crimes, and universities need suitable schemes of “campus loan” urgently from their own perspectives. The research takes the construction of financial management service center and the XGBoost risk assessment model as cores, from the guidance, prevention and other perspectives, meets college students' reasonable lending needs while reducing and preventing the risks of college “campus loan”. Then the college “campus loan” is under effective supervision and risk control.
Keywords: campus loan; XGboost modeling; multi-dimensional integration; prevention strategy; risk assessment
0 引 言
“校園贷”以其超前的消费理念和针对大学生群体的突出特征,在高校中得到快速传播和发展。以“校园贷”之名伪装的高利贷、围绕非法平台“校园贷”的电信诈骗、侵害公民合法权益的“裸贷”等违法犯罪事件以及负债、暴力催收等借贷衍生问题,导致大学生身心健康受到消极影响。本文结合不良“校园贷”的界定和运作机制分析,使用风险控制理论,对“校园贷”风控模型进行了构建与研究,采用了知名P2P网贷公司Leading Club的公开借贷信息,以该数据作为研究样本,分析风险要素作为根据,为“校园贷”风控模型方案提供核心评估环节的科学支撑。
1 高校“校园贷”发展现状
随着社会消费的爆炸式增长和信息技术的迅速发展,网络贷款及其衍生产物“校园贷”随着互联网金融繁荣发展而兴起。国内高校针对“校园贷”管理总体普遍呈重处置、轻疏导和防范的特点。在处置方面,开展排查和整治行动,如对校内各类型“校园贷”活动情况开展摸排、清除并抵制校内不良“校园贷”活动宣传、学校有关部门统计学生校园贷数据等。在疏导方面,开展学生教育引导工作,如大学生法律意识培训讲座、辅导员加强师生交流沟通、开放心理健康咨询;开展学生受教育资助工作,如落实国家奖助学金教育资助政策、贫困家庭学生补助帮扶;开展建立大学生创新创业就业基金,如高校向应届毕业生提供创新创业活动政策保障和科研技术支持、提供小额免息贷款。多数高校在为学生建立正确的消费等观念上,做了大量的教育引导工作,并致力于突发案件的应急处置,但不可否认,非法不良“校园贷”在诱导非理性超前消费、套路借贷上仍然对在校学生造成巨大危害[1]。
2 高校“校园贷”风险控制模型的构建
2.1 高校金融管理服务中心
高校大学生是主流消费群体,为他们提供安全、适宜的信用消费信用贷款,有助于在高校学生中逐步培养起成熟、理性的消费意识和信用观念[2]。本文引入“高校金融管理服务中心”的概念,以消除或减少风险要素来实现风险的规避或降低。高校金融管理服务中心一方面对内承接学生的借贷需求,另一方面对外与社会金融机构(如银行、合法网贷平台等)签订校企合作协议,建立合作项目。
高校金融服务管理中心接受网贷平台的合作申请,对风控能力、经营模式、不良记录等申请信息进行审核后,准许平台服务入驻;从网贷平台中接收学生借贷信息,监测管理学生借贷风险,并完善学生借贷信息数据和提高风控预测能力;学生借贷申请需提交至高校金融管理服务中心,经中心审核通过方可从网贷平台申请借款。通过中心对外及对内的双向业务,将不良“校园贷”渗入校园的风险排除,从而形成对学生利益的保护,将大学生普遍缺乏金融防范意识、不成熟消费观的风险要素影响降到最低。
2.2 基于XGBoost算法的评估模型实证分析
借贷评估工作,一般分为传统风险评估和现代风险度量方法。在现阶段的金融借贷市场中,基于专家的人工审核评估主观性强、科学性较弱、经验的高度依赖性,已很难适应当前信息化、大数据的金融行业发展模式。在多数的现代金融行业中,利用机器学习等技术的算法模型评估风险已广泛应用[3]。本文引入风控管理评估模型,利用算法模型的构建,对“校园贷”借贷中的风险进行科学评估,为该风控模型提供可靠支撑。作为评估核心,“校园贷”风控管理模型接受学生提交的申请,并输入模型,根据已经训练构建完善的模型输出评估意见,评估意见将给出申请人本次申请的违约预测,将可能违约的预测结果定为“不准许申请”,将没有违约可能的预测结果定为“准许申请”;并对于评估结果为“准许申请”的样本提交反馈给高校金融服务中心;同时对于评估结果为“不准许申请”的样本,将进一步提交给学工部门。同时,模型接收高校金融管理服务中心在业务运行过程中产生的真实借贷数据,这些数据也将被列入训练样本中,对模型进一步优化,使其获得更好的预测评估效果。
2.2.1 数据来源与指标选取
基于某借贷平台的37 946条数据信息,首先对影响借贷违约的因素进行分析,并从中选取评估指标,随后通过XGBoost算法建立模型,利用训练后的模型对实时提交的学生借贷申请进行风险评估预测,为高校金融管理服务中心的数据研判工作提供有效依据。
本文将大学生个人信息中的家庭年收入(annual_inc)、未结算的贷款数量(open_acc)、地址区位(addr_state)等作为引入构建该风控模型的变量指标;将大学生个人在校信息中的学制(emp_length)、学位(emp_title)等作为引入构建该风控模型的变量指标;同时将其他一般贷款信息引入该风控模型。根据风险评估模型实验需求,选取其中相关人群数据部分,并筛选部分数据信息变量,主要包含loan_amnt、term、emp_title、annual_inc、loan_status等,这些变量及其数据将参与“校园贷”风险评估模型构建中的训练和验证分析。
2.2.2 数据清洗处理与采样
数据预处理,首先利用拉格朗日插值法(lagrange)对缺失值进行近似值的估算填补[4];再通过绘制箱线图对这些数据进行异常值的判断,标准的箱线图上下边缘则代表了该组数据的最大值和最小值,即在箱体外部的数据则称为异常数据,将箱线图中处于上、下边缘线外的数据进行筛除。
2.2.3 数据标准化及特征选取
数据标准化和特征值选取,通过标准化处理,可以使得不同的特征变量具有相同的尺度,即将特征的值控制在一定的范围内,这样目标变量就可以由多个相同尺寸的特征变量进行控制,不同的信息变量对模型参数的影响程度保持一致。本文采用Z-score标准化(标准分数),其公式为:(X为原始数据, 为数据平均数,s为数据标准差)。本文采用单变量统计检验的方法对本数据表格中的信息变量即特征进行选择处理。引入python函数库sklearn.feature_selection中函数SelectKBest、f_classif,進行特征的选取,构造处理的关键代码为[5]:
x_new = SelectKBest(f_classif,k=10).fit(X,y).get_support(indices=True)
经过特征选取,根据计算得分排序,得到10个最具价值的特征,结果如表1所示。后续的模型构造训练学习及检验,将使用该10个特征进行运算。
2.2.4 训练样本与检验样本的选取
参照热力值对照表,得知变量间相关性系数整体处于0.0~0.4的区间内,且多数处于0.0~0.2的区间内,呈弱或极弱相关,变量间的互相影响程度小,符合模型要求。将所有样本数据分为训练组数据和检验组数据,其中训练组数据用于构建模型,检验组数据用于检验模型的准确性和预测评估。构建模型的训练样本和检验样本如表2所示。
XGBoost由树模型的迭代来直接影响学习的效果,理论上迭代次数越多,则模型的训练效果越好,但通常情况下,模型会因树模型的迭代次数过多而产生过拟合的风险,使预测值在训练集数据下表现良好,而在测试集数据下表现不佳。
依次对num_boost_round、max_depth/min_child_weight、gamma、subsample、colsample_bytree和eta学习率参数进行调整,使模型在平均绝对误差上尽可能小并处于适度拟合的状态。最终得到该数据集下各参数最佳参数值如表3所示,模型拟合状态如图1所示处于适度拟合,同时模型的评价指标mae(Loss-1)由模型最初状态得分-0.612 9上升为调参结束后的得分-0.249 6。
在模型建立、训练、参数调优后,针对模型的最优状态进行预测能力检验。利用验证数据集输入模型,并得到数据集中各组数据所对应的预测值,预测能力结果如表4所示,该模型能够在对大学生群体“校园贷”的风控运行机制中,发挥较好的学生借贷风险预警和校园金融风险分析辅助作用。
3 结 论
“校园贷”仍是金融领域中的一个重要组成部分,并在当今信息技术和消费金融快速发展中扮演合理存在的重要角色。面对风险,仅仅依赖处置无益于高校“校园贷”的有效整治。创新高校“校园贷”金融服务体系,把风险控制与联合整治融入整体构建中,满足学生合理借贷需求同时,降低和防范高校“校园贷”风险,让“校园贷”在有效监管和风险控制下成为真正服务于学生群体的“安心贷”。
参考文献:
[1] 贡怡丁.高校“校园贷”治理现状及对策研究 [D].合肥:安徽大学,2020.
[2] 张春莲,徐丽丽,冯云珠.“互联网+”背景下的高校网络诈骗及风险防范 [J].现代交际,2020(6):187+186.
[3] 王元彬,张尧,李计广.数字金融与碳排放:基于微观数据和机器学习模型的研究 [J].中国人口·资源与环境,2022,32(6):1-11.
[4] 赵莉,孙娜,李丽萍,等.拉格朗日插值法在数据清洗中的应用 [J].辽宁工业大学学报:自然科学版,2022,42(2):102-105+117.
[5] 冯凯媛,罗庆斌,郑明辉,等.基于多特征融合的恶意网页检测方法研究 [J].湖北民族大学学报:自然科学版,2021,39(1):80-85.
作者简介:钱珺(1990—),女,回族,安徽安庆人,讲师,硕士,研究方向:电子数据检验和网络犯罪侦查。
收稿日期:2022-09-27
基金项目:江苏高校哲学社会科学研究项目(2020SJA0567);江苏高校哲学社会科学研究项目(2022SJYB0089)