基于逻辑回归的消费贷款需求分析
2020-12-29朱思霖
朱思霖
摘 要: 为了提升个人消费信贷产品的申请意愿,对影响消费信贷需求的因素进行了分析。通过对消费信贷数据的描述性分析、探索性分析,来挖掘贷款申请条件与申请人数之间的关联,得出城市、还款方式、放款时间、审批时间、担保方式、年龄限制、身份限制等7个因素对消费贷款需求的影响作用。对消费贷款需求问题进行总结,以期通过挖掘个人消费贷款数据背后的秘密,为消费信贷产品的设计提供有针对性地建议。
关键词: 申请意愿; 消费信贷需求; 因素; 影响; 建议
中图分类号:TP391.1 文献标识码:A 文章编号:1006-8228(2020)12-14-04
Abstract: In order to increase the willingness to apply for personal consumer credit products, the factors that affect consumer credit demand are analyzed. Through descriptive analysis and exploratory analysis of consumer credit data, the relationship between loan application conditions and the number of applicants is explored, and the 7 factors affecting the consumer loan demand are obtained, i.e. the city, repayment method, loan time, approval time, guarantee method, age limit, identity limit, etc. The issues of demand for consumer loans are summarized, hoping to provide targeted suggestions for the design of consumer credit products by mining the secrets behind personal consumer loan data.
Key words: the willingness to apply; consumer credit demand; factors; affect; suggestion
0 引言
消費信贷业务是商业银行最重要的资产业务,同时也是商业银行的主要赢利手段。该信贷方式主要是通过放款收回本金和利息,扣除成本后获得利润。据全球宏观经济数据平台CEIC的数据显示,中国的国内信贷在2020年1月1日已达31,964,194.2百万美元[1],约合人民币223万亿元。如此庞大的信贷规模,不但说明了中国金融市场的快速持续增长,同时也反应了民众消费意识的觉醒。
近年来,随着互联网浪潮席卷全球,互联网金融正以超出人们预期的速度发展,贷款这件事也从线下走到了线上。从现象上来说,这不仅仅是方式上的转变,更是观念上的、行为上的重大转变,由此带来的影响值得学者从多个方面进行研究。文献[2-6]分别从消费需求方面、政策研究方面、大学生决策行为方面、个人信用风险方面给出了相关的对策建议。众多学者对消费信贷的研究加速了信用经济时代的来临,然而我国尚未建立完善的个人信用机制,关于消费信贷这项业务还有许多新的课题尚待研究。本文以狗熊会数据科学精品案例库欧亚联合研究组提供的消费贷款数据[7]为例,通过描述性分析方法、探索性分析方法,试图分析影响消费贷款申请人数的因素,进而挖掘个人消费贷款数据背后的秘密,从而为消费信贷产品的设计提供有针对性地建议。
1 数据说明
本文所用数据共包含1046条消费贷款信息,每条数据包含公司名称、申请人数、城市、贷款金额、还款期限、月供、还款总费用、担保方式、申请条件等15个变量,各个变量详细情况见表1。为了分析影响消费贷款申请人数的因素,本文以申请人数为因变量,各个维度的影响因素为自变量。
在该消费贷款数据中,贷款的申请人数是我们关注的焦点所在。其中,申请人数的最小值为0人次,最大值为62898人次,其平均值为1208人次,中位数仅为44人。而申请人数为0的有395项,占比37.76%,剩余651项申请人数均大于0。由于数据间差异较大,分布较为离散,在后文的分析中,将以贷款产品是否有人申请为因变量,对申请人数按“0”——无人申请、“1”——有人申请进行建模分析。
2 描述性分析
2.1 贷款内容因素
还款方式方面,我们绘制出不同还款方式的消费贷款申请人数对比的箱线图,如图1所示。从图1中可以看到,分期还款的方式最受欢迎,申请人数存在最大值为62898,平均申请人数也最大,平均申请人数为1267人次;到期还款方式申请的人数较少,且平均值较低,平均申请人数为241人次;而随借随还类型的产品则几乎是无人问津,平均申请人数也最低,平均申请人数为47人次。
2.2 贷款条件因素
担保方式方面,包含了信用贷、抵押贷、自由选、担保贷四种情况。在图2中,我们绘制出不同的担保方式的产品最高申请人数,以及平均申请人数的柱状图。其显示信用贷最受消费者欢迎,其次是抵押贷与自由选这两种担保方式也有较好的市场反应,而担保贷则在消费市场遇冷,无论是最高申请人数还是平均申请人数方面,较前几种担保方式都相差甚远。
2.3 贷款地域因素
归属城市方面,包含了北京、上海、广州、南京等12个城市。在图3中,我们绘制了不同城市的产品平均申请人数的柱状图,其显示消费金融在北京、重庆、深圳、上海、成都等城市更加火爆,而在南京、青岛、济南等城市则相对冷清。
2.4 申请条件的关键词分析
对不同消费贷款产品的申请条件进行提取汇总,并作为文本分析的语料。使用Python中jieba库的逆文档频率(Term Frequency-Inverse Document Frequency,TF-IDF)算法和TextRank算法对申请条件进行关键词提取,并取排序前10的关键词,两种算法的关键词提取结果如图4所示。比较两种提取结果,我们发现,两种算法的重叠关键词占比接近70%。相同的关键词部分突出地表达了申请条件看中“银行流水”、“记录信用”、“身份证明”、“所属单位”,不同的关键词部分,TextRank算法显示的结果更注重是否是“公务员”、“所属单位或”是否是“银行员工”,TF-IDF算法显示的结果更注重是否有“公积金”、“名下财产”以及申请人的年龄。
3 建模分析
3.1 Logistic回归模型
本部分研究的目的是验证各个维度因素是否会影响产生贷款申请的行为发生,由于是否申请消费贷款是一个二元离散变量,在因变量为非连续型二分变量的时候,适合选择Logistic回归模型[8]。具体的研究模型可参照公式⑴:
其中,[p]表示申请消费贷款发生的概率,[1-p]表示该行为不发生的概率。[β0]为常数项,[Xi]为解释变量,分别对应还款方式、担保方式、审批时间、放款时间、期限最低范围、期限最高范围、月管理费、还款总费用、月供、贷款总金额、期限等11个自变量,另外,[βi]代表解释变量的回归系数,其中[i=0,1,…,11],[ε]为随机误差项。
3.2 逐步回归
为了精简模型,排除无效变量的干扰,使用赤池信息准则(Akaike Information Criterion,AIC)结合逐步回归选出最优变量子集[9]。AIC准则的数学表达可参照公式⑵,其中,[q]是进入模型当中的自变量个数,[n]为样本量,[SSE]是残差平方和,在样本量[n]固定的情况下,[q]越小,[SSE]越小,[AIC]越小。而[q]越小代表着模型越简洁,[SSE]越小代表着模型越精准,即拟合度越好,综上所述,[AIC]越小,即模型就越简洁和精准。
通过AIC准则结合向前逐步回归方法,筛选出5个自变量进入逻辑回归模型,这5个自变量分别为担保方式、审批时间、还款方式、放款时间、所在城市。
3.3 文本挖掘
通过前文中对申请条件的关键词分析,我们猜测申请条件可能会对消费者的申请意愿造成影响。故此本文对申请条件进行挖掘并引入年龄限制、身份限制作为哑变量建立回归模型,建模结果如表2所示。通过读表可以看出,引入新创造的贷款条件变量建立的回归模型具有一定的解释力(P值<0.001),即至少有一个自变量对因变量有显著影响。另外,不论是[R2]还是调整[R2]均达到0.8以上,即该情况下建立的模型拥有的变动程度能模拟80%的总变动程度,说明模型的拟合优度较好。
4 总结与展望
本文通过描述性分析方法、回归建模方法,分析并挖掘了影响消费贷款申请人数的关键因素,并得到如下结论:影响消费者是否申请消费贷款的关键特征因素包括城市、还款方式、放款时间、审批时间、担保方式、年龄限制、身份限制等7个因素。公司在进行消费信贷产品方面的设计时,可有针对性地进行设计。如在担保方式及还款方式方面,消费者更喜欢信用贷、分期还款的方式;对于审批时间,1~3个月为宜;对于放款时间,0~8天内放款的产品消费者更爱申请;对于年龄限制,有明确年龄要求的产品,消费者申请的意愿越高;对于身份限制方面,要求提供证明、证件、工作合同、流水、住址等信息的,消费者申请的意愿较低,推测该类申请条件较硬性且隐私涉及更多,不易受到消费者喜爱。后续的研究,将尝试引入其他机器学习相关算法实现具体申请人数的预测,为消费信贷产品的设计提供更有针对性地建议。
参考文献(References):
[1] CEIC.中国——国内信贷[EB/OL].[2020.03]. https://www.ceicdata.com/
[2] 刘凤娟,宁云才.物联网环境下基于年龄差异的消费金融需求异同分析[J].财会月刊,2019.12:162-169
[3] 贾进.消费信贷资产证券化的发展困境、国际经验与未来发展建议[J].政策研究,2019.6:3-12
[4] 彭小辉,王静怡,王坤沂.博弈视角下大学生互联网消费信贷决策行为研究[J].审计与经济研究,2020.1:120-127
[5] 朱振涛,孙敏,沈建红.信用卡逾期行为的影响因素及行为预测研究[J].南京工程學院学报(社会科学版),2019.19(3):46-53
[6] 王正位,周从意,廖理,张伟强.消费行为在个人信用风险识别中的信息含量研究[J].经济研究,2020.1:149-163
[7] 狗熊会.消费贷款[EB/OL].[2020.03].http://teach.xiong99.com.cn/
[8] 王济川,郭志刚.Logistic回归模型——方法与应用[M].高等教育出版社,2001.
[9] Jonathan D.Cryer,Kung-Sik Chan.潘红宇等译.时间序列分析及应用(第二版)[M].机械工业出版社,2011.