基于K-means数据分析法的金融客户风险研究
2022-11-26夏广伟何清泉李雨珊
夏广伟,何清泉,李雨珊
(1.长沙民政职业技术学院,湖南 长沙 410004;2.保险职业学院,湖南 长沙 410114)
进入21世纪,伴随着新科技革命的深入发展,互联网成为时代潮流,为社会发展创造了无限机遇,使得居民消费方式发生了巨大的改变,消费支付由“现金付款”变成“货币+信用支付”的形式(如图1所示),为居民生活带来了更多便利。信用支付主要利用客户个人信用等级获得一定预支信用额度,具体通过信用卡形式体现。信用卡“预支”功能给客户消费带来极大便利,促进社会消费,并帮助商业银行在积累优质客户、提升收益方面发挥了重要作用[1]。如何在为客户提供便利的同时,进一步降低信用预支功能带来的烂账、坏账等风险,有效促进信用卡业务的良性发展,是银行业亟待解决的问题。本文通过基于K-means 算法的客户分类方法对信用卡客户进行精确识别并分类,动态划分客户风险等级,有利于规避银行在拓展信用卡业务时可能出现的风险,助力银行高质量获客、精细化客户管理,提高银行风险管理能力。
图1 信用卡支付方式
一、银行信用卡客户分类
信用卡拥有支付和消费信贷的双重属性,不同客户群体的信用透支额度不同,客户消费信贷的风险也存在巨大差异[2]。为了有效预防客户消费信贷过程中可能出现的信用风险,银行有必要对信用卡客户群体进行风险识别,精选优质客户,规避与防范信用风险。
根据余旋关于信用卡客户的分类方法[3],信用卡客户大致可以分为4类。
(一)低端客户
低端客户指的是低贡献、高风险客户。一般包含两类客户群体:一类是刷卡消费形式单一,每次消费额度大(如消费值大于额度60%以上),且每月还款额度基本维持在银行最低要求的客户;另一类是征信中存在不良行为的客户,如每次消费爆卡的客户。
(二)中端客户
中端客户指高贡献、高风险客户。这一类客户的特点是用卡频率较高,对银行贡献度较大,他们几乎月刷卡率都在60%以上。同时,此类客户也会存在最低额度还款和分期还款的行为,属于既有贡献又有风险的一类。
(三)潜力客户
潜力客户是指低贡献、低风险客户。这一类客户的刷卡额度一般不高,消费使用频率较低,且几乎不存在分期情况,因此对银行的贡献较低,但是由于消费都是按时全额还款,这意味着此类客户发生死账、坏账的风险极低,属于银行较喜欢的客户类型。
(四)高端客户
高端客户指高贡献、低风险客户。一般指信用卡每月的使用频率很高,月使用额度60%以上,且全额还款或分期还款低。高端客户消费的商户质量高,消费能力强,消费商户真实度高,消费方向多元化,这些信息表明客户资产雄厚,信用值极好,可以享受银行提供的最优质的服务。
二、K-means算法
(一)算法定义
K-means 算法,即k 均值聚类算法(kmeans clustering algorithm),是一种迭代求解的分类算法。其计算过程是:首先,将采集的数据分为若干个组,产生随机的初始聚类中心;然后,分别计算各类目数据与这些聚类中心之间的距离;最后,根据距离的远近将类目数据对象进行重新分配。在计算过程中,会根据现有对象不断更新聚类中心,直到满足某个终止条件为止,终止条件可以不设置,也可以是要求的最小数目。聚类的核心思想是将物理或抽象的对象集合分为由类似属性对象组成的多个类(cluster),目前常用的聚类算法有划分法、层次法、密度法、网格法等[4]。
(二)算法步骤
K-means聚类算法是经典且应用广泛的划分方法之一,具有理论可靠、算法简单、收敛速度快、能有效处理大数据集等优点[5]。算法步骤如下。
步骤一:预设k个对象数据来形成初始的聚类中心:a=a1,a2,a3...ak;
步骤二:分析采集的数据样本,将每个样本的值用符号xi来表示,分别计算每个值到所有的k个聚类中心的距离,得到结果后,进行对比分析,将每个样本分配到与聚类中心距离最近的类中;
步骤三:计算完成后,会产生新的类集aj=,重复上面的计算过程来更新聚类中心;
通常情况下,可以通过重复上面的操作步骤来提高精确度,直到结果符合预期为止。K-means算法流程如图2所示。
图2 K-means算法流程图
三、基于K-means算法的客户分类
本文计算所用数据来源于泰迪大数据平台,经过预处理后选择6万条信用卡客户数据,数据集主要包括客户编号、逾期、强制停卡记录、婚姻、个人月收入、年龄、呆账等26 个关键字段,部分字段的 具体值如图3所示。
图3 数据表部分字段值
(一)基于K-means算法的客户分类方法
首先对客户数据进行预处理,然后利用Kmeans算法对客户类型进行统计分析,评定客户风险等级,为银行信用卡客户业务处理提供合理建议,具体处理方法如下:
(1)确定分析目标。
(2)数据清洗,确定并完善关键字段。
(3)构建K-means 聚类模型,对客户风险类型进行聚类分析。
(4)根据聚类计算结果评估客户风险。
(5)依据聚类分析产生的客户类型,为银行提出合理建议。
客户风险分析的具体流程如图4所示。
图4 客户风险分析流程图
(二)数据预处理
为了方便进行数据统计分析,首先对数据字段值进行预处理,如将逾期、强制停卡记录的值设置为1和2,表示“是”和“否”两种状态;将婚姻的值设置为1、2和3,分别代表“未婚”“已婚”和“其他”;同理,将个人月收入、年龄、月刷卡额分别以不同的值来代表不同的区间段,等等。部分字段的具体设置属性说明(见表1):
表1 部分字段说明
续表
(三)基于K-means的数据分析
1.分析工具
本文采用python 语言对处理好的信用卡客户数据进行建模分析,图5为经过清洗后的客户数据统计量结果。
图5 数据清洗及描述截图
从统计结果可以看出,信用卡交易原始数据大小为60 000 行、26 列,如果以存在“逾期”“呆账”“强制停卡记录”“退票记录”“拒往记录”和“瑕疵户”等6 个关键字段作为分析指标,则风险用户的数据大小为2 002 行、26 列,低风险或无风险的客户数据大小为57 998行、26列;如果以存在“呆账”“强制停卡记录”“退票记录”“拒往记录”等4 个关键字段作为分析指标,则风险用户的数据大小为2 339行、26列,低风险或无风险的客户数据大小为57 661行、26列。本文以第一种的6个关键字段来作为风险行为特征分析指标。
2.构建FJS特征模型
根据客户风险行为、经济状况、收入情况等影响客户信用风险的主要因素,构建信用卡客户FSJ特征模型,即客户风险行为特征(F)、客户经济状况特征(J)、客户收入情况特征(S)。分别对客户上述数据进行统计分析,得到特征值排名前五的数据,如表2、表3和表4所示。
表2 风险行为特征数据统计表
表3 经济状况数据统计表
续表
表4 收入情况数据统计表
3.聚类处理
由于不同字段数据的极差区别较大,为了更好了解信用卡客户数据分布情况,进一步将数据做标准化处理,同时为了提高精度,设置合适的聚类的中心点数目,通过计算簇内误差平方和(SSE)来选择合适的k值。
其中,C 为样本集合,p 为簇内样本中心,mi为簇内每个样本点。以此方法为依据,当出现明显拐点时,则k值最优。
由图6可以看出,簇内误差平方和在4 和5 时出现了较大拐点,当k值大于5时,则误差平方和减少的趋势不再明显,所以可设置最佳类簇数量为5,得到聚类中心数据如图7所示。
图6 簇内误差平方和
图7 FJS聚类中心
将聚类中心数据进行计算处理,可以得到客户聚类分群表,如表5所示。
表5 客户聚类分群表
经过计算,得到5 个聚类中心,表中的聚类类别1~5 表示五种类型的客户,类别个数代表该聚类中心附近的客户数量。其中,风险行为特征数据值越小,说明风险越大;经济状况风险特征值越小,说明经济状况越差;收入情况风险特征绝对值越小,说明收入情况越稳定。
4.聚类分类结果分析与建议
从聚类结果上看,客户被分成5 种不同的类型,结合实际情况可将客户分类如下:非目标客户、高风险客户、中风险客户、一般客户、优质客户。
非目标类客户:对应表中聚类类别序号为2的客户,此类客户风险行为分值很高、且经济情况很差、收入状况一般。他们是客户中的瑕疵户,在用卡过程中频繁出现逾期、呆账等行为,建议银行将此类客户定为非目标客户,在后续的营销过程中,逐步降低其用卡额度,或者根据情况限制其使用信用卡。
高风险客户:对应表中聚类类别序号为5的客户,此类客户风险行为分值一般,经济状况较差,收入情况较差。他们在信用卡的使用过程中出现过逾期等不良行为,且在银行信用记录较差。针对此类高风险客户,银行需要大力提升监管力度,对客户的状况进行深入了解,避免出现其他风险。
中风险客户:对应表中聚类类别序号为3的客户,此类客户风险行为分值一般,经济状况一般,收入波动较大。他们一般缺乏稳定的收入来源,在信用卡使用过程中很可能出现资金周转问题。银行需要谨慎对待此类客户,建议定期发送分期或提额短信来提高客户的活跃度。同时,加大与客户沟通频率,以便及时调整客户风险等级,优化服务策略。
一般客户:对应表中聚类类别序号为4 的客户,此类客户风险行为分值一般,经济情况较好,收入情况较好。他们在平时用卡过程中基本未出现逾期等不良情况,风险性低。建议银行定期给此类客户增加临时额度,额度多少可根据分值变化综合评定。并且可以适当向此类客户推荐其他产品,这样不仅可以增加客户黏性,也能够获得更多的收益。
优质客户:包括数据集中未被选中的客户(无风险行为客户)以及实验结果中聚类类别序号为1的客户,此类客户风险分析值很低,经济情况良好,收入情况良好。此类客户完全能够按时还款,消费刷卡符合自身收入水平,无不良行为记录。根据数据反映出的客户特点,建议银行进行个性化服务,如对消费频繁的客户,做好及时回访和定期提额;对额度需求较大的客户,给予优惠贷款利率或提供专属分期服务;对其他优质客户还可以根据其自身特点,提供优先推荐体验新业务和关联产品推送等服务,以进一步增加客户满意度和忠诚度,提升客户价值和银行的经济效益。
四、总结
本文采用Python语言对采集的信用卡客户信息数据进行分析,提出一种基于K-means 聚类分析法的评价模型,与银行传统的客户分类方法相比,该模型能从多个维度和角度对客户的风险进行评估,不仅可以更精确实现客户分类,有效降低银行在发放信用卡过程中可能出现的风险,也能够对客户后续用卡的行为进行有效预测,进而及时向银行提出合理建议,以便其调整对客户的服务策略。