APP下载

基于数据挖掘和K-Means模型的金融数据可视化分析

2023-07-17王译啡宋雅蓉

计算机时代 2023年7期
关键词:可视化聚类

王译啡 宋雅蓉

关键词:金融借贷数据;可视化;K-Means 聚类;Python;第三方库

0 引言

大力发展普惠金融,是我国全面建成小康社会的必然要求,意在为微小企业、农民、城镇低收入人群等弱势群体提供有效的金融服务。之前研究表明,从解决居民融资问题的实际效果来看,P2P 借贷确有缓解难以获得正规金融服务的人群融资困难的问题,但普惠金融的发展效益并没有很好的呈现出来,其原因包括不同类型的服务客体参与贷款的主观能动性差异。投资者对不同类型的服务客体主观偏好不显著等等[1]。所以在信息时代发展的背景下,需要利用大数据技术在数据处理与分析中的效能,与金融业务紧密融合,才能使金融服务的深度和广度得以提升。

然而金融行业数据复杂且专业,难以让一些不具备金融专业背景的信息使用者所理解。利用数据可视化手段将大量信息整合,转化为图片或线条呈现,无疑是理解海量数据的高效方式。不同的企业,应用可视化技术的程度是不相同的,许多用户还是使用Excel 电子表格工具来进行数据比对,如vlookup 等方式,或是制作一个气泡效果图来发现异常。但受到数据量和效率成本等限制,有时通过Excel 分析展示数据的效果并不理想[2]。Python 语言有更高的效率和可扩展性,并且可以用于研究算法模型,数据量庞大且复杂时用Python 能更好的进行可视化呈现。

本文以普惠金融为背景,基于P2P 平台LendingClub 的贷款数据,用Python 语言进行多维度可视化分析,产生用户画像,深度挖掘用户的各项特征与金融服务之间的关系,找出参与贷款活动主观能动性差异的关键因素,并利用机器学习算法实现大数据背景下对金融服务对象的精确细分,更利于金融服务的个性化推广。

1 数据描述及探索

1.1 数据集简介

P2P 贷款需要借助电子商务平台来确立借贷关系,体现了在互相网环境下的新型金融模式,美国Lending Club 是世界最大的P2P 互联网金融平台,业务范围是美国51 个州[3],并且Lending Club 平台对外公开了真实交易数据供学者研究,本文下载了该平台公开的2007 年至2018 年所有数据,共2260701 条记录(151个特征),从中筛选出2018年第四季度的所有数据,共计128412 条记录,对所有特征进行整理并分析后筛选出15 个特征供后续分析研究使用,如表1 所示。

1.2 探索性数据分析

用Python 的Pandas 库对数据进行了描述性统计分析,如图1 所示,显示数据完整性较好,仅emp_title与emp_length 属性有少量的缺失值,由于缺失值占比很小,后期处理时直接进行删除。另外,用describe 函数对浮点类型的数据进行了数值范围的统计分析,用unique 函数对一些object 類型变量进行了取值探索。

2 数据分析与模型构建

2.1 单变量可视化探索

首先对客户的基本信息进行分析,选取purpose,home_ownership,emp_length 变量,选择利用Python 中Plotly 库进行数据可视化,Plotly 绘图底层是plotly.js,可以在网页上实现交互功能,便于多维数据的复杂性分析展示[4],如图2 左侧所示,客户借款主要用于债务整合,以贷养贷,房屋改善等,客户信用评估等级B 和C 占多数,基本呈现正态分布;从饼图中也能看出有接近一半的客户是拥有住房的,但是面临着房贷压力,有将近四成的客户(39.4%)处于租房状态,经济压力较大。工作年限在十年以上的客户占三成,LC 客户平均工作年限在五年左右。

其次是对客户贷款的情况进行系统分析,选择出loan_amnt,int_rate, dti 和total_acc 这四个变量,利用Python 中Seaborn 库进行绘制,从图2 右侧四张分布图可以看出,公司主要以小额贷款为主,贷款金额分布在0.5-4 万美元,贷款金额在1-2 万区间的居多;利率分布主要集中在5%-15%,处于合理范围;借款人的信用度集中在25 左右,普遍信用度较低,这也正是因为P2P 模式门槛低,审核简单,所以很多融资困难,贷款困难的个人或企业会选择该模式的原因[5]。Dti 是借款人每月所缴的债务总额(不包括LC贷款)除以借款人每月收入,能够反映贷款对借贷人的压力指数,结果显示大部分客户dti都集中在30%以下,原有的债务压力不算太重,这也是衡量借款人还款能力的重要指标。

2.2 多变量可视化探索

多变量探索是为了发现变量与变量之间的关联性,利用Seaborn 库中的boxplot 方法绘制图3 左侧的箱图,能看出还款状态与借款金额之间的关系:延期还款的金额总体比已全部还清状态下的借款金额要高一些;从不良公众记录与贷款金额的关系来看,不良记录越多的,能申请到的贷款金额就越低,可见LC是有严格把关;年收入的多少与被验证状态的关系表现并不明显,但是能发现年收入高其很多收入来源是有被LC 验证的;统计发现,借款人职位排在前三的职位分别是老师。经理和护士,并且这三类人员的借款金额也相对较高。

散点图矩阵将多维数据中的各个维度两两组合绘制成一系列的按规律排列的散点图,对海量数据进行变量之间关系的展示,利用Seaborn 库中的pairplot方法进行如图3 右侧散点矩阵绘制,通过kind='reg'参数能够在图中加入最佳拟合线,拟合线能更清楚的表现两个变量是如何变化的[5],图中显示installment 与loan_amnt 几乎呈现完全正相关趋势,贷款金额越高,分期付款期数相对固定的情况下,每月还款金额肯定也就越高;从annual_inc 与loan_amnt 变化拟合线可以看出,也近乎是正相关,客户年收入越高,能申请到的贷款金额就越高;annual_inc 与dti 近似拟合为负相关,体现出年收入越高,还款压力就相对越小。

2.3 K-means 建模

聚类算法可以根据数据属性之间的信息关系进行分组,最终使组内样本的相似度最大,组间相似度最小[6],本文采用的K-means 模型是经典的聚类算法,用于对客户进行分组,以便于更好的绘制用户画像,了解客户情况。基于对原始数据的探索分析,最终选定'int_rate', 'loan_status', 'emp_length', 'open_acc', 'dti' 这五个属性来构建聚类模型。对于K-means 方法,K 的取值是一個难点,这里采用SSE 方法尝试找到最优的K 数值[7],如图4 所示,并没有出现所谓的“拐”点,随着K 值的增大,SSE 的值逐渐减小,当K=3 时,减小幅度明显增大,所以最终确定K 为3。

所选取属性中int_rate 和emp_length 数据类型都是object,需要将它们转化为float 数字类型,另外,loan_status 是一个关键特征,反映了当前贷款的还款情况,包含了多个类别,根据Lending Club 官网标准解释,对不同类别赋予不同权重以便后续处理,已全额偿还和还在偿还期内的为好客户,赋予较高值;逾期和核销贷款的用户赋予较低值,具体为:'Fully Paid': 10,'Current': 9,'In Grace Period': 5,'Late (16-30 days)':1,'Late (31-120 days)':0.5,'ChargedOff':-1。然后对所有数据进行标准化处理,使所有数据落入一个限定的区间,从而去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位的指标能够进行比较和加权[8]。本文采用的z-score 标准化,利用公式:新数据=(原数据-均值)/标准差,将原始数据映射到新的区间[9]。然后使用Python 中的sklearn 库,对数据进行聚类分析,从而得到聚类的中心点和每类的人群数目。为了更清晰的显示聚类的结果,利用Matplotlib 可视化库进行雷达图绘制,如图5 所示。

通过图5 的聚类结果进行特征分析,该图绘制在一个圆形极坐标系上,共五个特征维度,图中点越靠近某特征的,证明该特征越明显,反之亦然。由于之前确定k 值为3,故所有数据被分为三类,每个客户群都有不同的表现特征,第一类人群共计54258 人,图中黑色表示,总体来说这类人群工作年限较长,信用度较高,借款利率相对较低,并且借款状态的值越高,证明拖欠可能性越低,证明此类客户为优质客户群,也是应该重点维系和长期合作的对象。第二类人群共计60812 人,此类人群数量最大,但第二类人群几乎在第一类人群特征中包含了,只是对比第一类人群的工作年限相对较低,可能新客户占比较多,但信用度和还款能力较好,属于重要发展和重要保持客户。第三类客户共计1616 人,该类客户的明显特点是借款状态值很低,证明很多属于经常拖欠,延期和违约的,并且该类客户的利率相较于其他客户较高,证明还款周期较长,此类为低价值客户,后期可重点对其进行分析,探究拖欠原因并针对性地解决。

3 结论与建议

3.1 研究结论

本文以Lending Club 公司2018 年Q4 季度的128412 条贷款数据(27 个特征)为研究对象,结合金融数据特点,基于Python 强大的第三方库,对数据进行探索性分析,并以多类别可视化图形的方式呈现,完成了对Lending Club(正文简称LC)平台上的借款客户画像绘制,实现了对该平台借贷业务的整体分析,同时通过对用户进行分类,来分析了解客户是否具有还款意愿及偿还能力。总的来说,本文对金融借贷数据进行的可视化研究和探索具有较好的应用价值和实际意义。

3.2 研究建议

在金融信贷业务领域中,需要明确信贷机构的目标客户群、目标客户的特征以及客户画像信息,以Lending Club 平台的P2P 小额借贷业务为例,完整、健全的客户信息有利于公司更好的进行资格审查。因此可进一步细化借贷标准,完善征信体系,同时也有利于风控人员系统分析,把控违约风险,让借款人养成良好的履约记录,防止“跑路”情况的发生。另一方面,根据数据分析结果可以看出,借款人的信用度,工作年限,收入,借款时间等对利率和还款情况也是有一定影响的,因此借款人需要自律、守信,预防超支及过度消费行为,在规定期限内还款。最后,借贷公司可以加强与银行的合作,吸纳更多有经济实力和还款能力的优质客户并适当提高其贷款额度,从而进一步推动普惠化发展。

猜你喜欢

可视化聚类
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
基于DBSACN聚类算法的XML文档聚类
基于高斯混合聚类的阵列干涉SAR三维成像
一种层次初始的聚类个数自适应的聚类方法研究
自适应确定K-means算法的聚类数:以遥感图像聚类为例