基于数据挖掘的房贷信用风险评估系统设计
2020-04-10马楠蓝李雨芹吴沁欣
马楠蓝 李雨芹 曹 云 吴沁欣
(西华大学,四川 成都 610039)
1 基本软件与模型介绍
在构建该信用风险评估系统时,一是采用的是Weka软件。该软件能对数据进行初步处理、分类、回归、聚类、关联规则等,并实现可视化操作。本文对收集的数据采用了初步处理、利用Apriori关联规则挖掘分析的方法。
二是利用MSBNx贝叶斯网分类工具,采用贝叶斯信念网络分类进行类型划分,利用相关的算法。以此确定出因素之间的相关关系以及相应的概率,为模型的建立以及结论的产生提供参考依据。
2 房贷信用风险样本调查结果
本文选取6类最具代表性的指标,即财产状况、年龄、婚姻状况、有无固定电话、信用保证金额、信用等级。由于Weka软件只识别英文,将以上6类用英文代替,分别是property、age、status、telephone、credit amount、class。调查结果如表1所示。
表1 样本调查结果
3 数据挖掘过程
3.1 数据初步处理
首先对数据进行初步处理,以保证数据挖掘的质量。依次进行数据缺失项处理;数据的标准化处理;数据的规范化处理,规范到[-1,+1]区间。
3.2 Apriori关联规则挖掘分析
使用Apriori算法获取关联信息并进行分析,对初步处理的数据进行关联规则挖掘。采用支持度、置信度2个指标,分别确定数据集的频繁程度、Y在包含X的事物出现的概率。同时将满足最小支持度、最小置信度阈值的规则称为强规则。
首先,采用支持度阈值为25%、置信度阈值为85%,对挖掘的最佳关联规则第 1、2条进行分析。结果表明有房产与信用额度有强关联(lift=1.22>1);年龄在35~49与信用额度小关联较小(lift=1.07)。随后采用置信度阈值为55%进行分析,找出:“status=male single,telephone=none ==> property=real estate”规则的置信度和提升读。结果表明有房产单身男性与没有电话号码有强关联规(lift=1.22)。
4 数据挖掘分类分析结果
通过上述过程得出的结果,运用MSBNx工具中的贝叶斯信念网络分类方法进行分析,得出最终的结果。
贝叶斯信念网络分类:首先,将年龄与信用额度离散成 3类,得到年龄与信用额度离散结果,随后,构建贝叶斯信念网络分类进行类型划分,如图1中椭圆圈及箭头所构成的网络。最后,可求得信用等级(class)好(Good)、坏(bad)的概率。例:求“有车、年龄超过 50岁、无电话、信用额小于 3000”的信贷评级。
图1 信用风险评估结果
根据系统给出的结果得出good、bad概率分别为0.835443、0.164557,信用等级好的概率大,故银行可提供贷款给借款人。
5 结语
由于实际情况复杂,本文只选取6类代表性指标调查,设计出信用风险评估系统,并给出操作示范。最终决策客观、规范,实现风险控制的目标。同时为其他需要信用风险评估的机构或组织提供了一个有效的操作方法,这是该信用风险评估系统更为深层的作用。