大数据在传统贷款风控中的应用
2018-02-09刘扬姬建华
刘扬+姬建华
摘 要 当前互联网金融高速发展的背景下,在地区性贷款主体中,始终存在无法准确应用大数据提升自身经营发展的现象,制约着自身的业务规模和风控质量。大数据在传统贷款中的应用,重点在于第三方反欺诈准入、信用风险规范、贷中预警管理等方面。除了构建传统信贷模型,还要构建非金融数据的风控模型,多种强弱变量结合进行风险建模,降低变量缺失给模型带来影响,同时最大程度解决传统贷款存在的制约问题。
关键词 传统贷款风控;大数据风控
中图分类号 G2 文献标识码 A 文章编号 1674-6708(2018)204-0119-02
1 传统贷款风控模型缺点
1)传统贷款风控模型基于人行征信数据建立,构建了客户与金融机构间的借贷关系,包括信用额度、逾期记录、还款记录、使用额度比例、坏账记录、记录时间等,其中最为重要的变量是各种还款逾期、不良及坏账的数据。但是金融数据模型中仅有十几项变量,任何变量的缺失,可能都会导致模型失效。
2)截至2015年4月底,人行征信系统已经收录的自然人数达到8.64亿,企业及其他组织数量达到2 068万户,其中有信贷记录的自然人有3.61亿人,有中征码的企业及商户组织有1 023万户,全国仍有近10亿无借贷记录的个人无法进行有效信用评估。
所以,需要通过大数据将消费、日常阅读、娱乐、社交等相对较强或较弱的变量相结合,进行风险建模,延伸征信数据的广度,以及降低部分变量的缺失或失真对模型的稳定性影响。
2 数据来源与存储
2.1 大数据的来源
数据获取的类别包含3类,分别是客户黑名单数据、客户行为数据、客户基本社会特征数据。其中客户黑名单数据包含了客户的风险名单信息、多头借贷信息、黑产信息、黑中介信息、第三方信用评分以及失信被执行和人行征信的数据,客户行为数据通过分析客户的运营商数据、社交数据及消费数据判断客户行为状况,客户基本社会特征数据将通过公开可查询到的社保信息、公积金信息、公检法公开数据等方面获取。
其中在客户黑名单数据获取方面,结合企业自身切实的科技实力,采用对接第三方大数据风控平台及申报对接人行征信系统的方式,快速、全面、集中的查询客户黑名单信息;在客户行为数据方面,可通过运营商、电商数据爬取授权,分析客户的还款能力与消费习惯,同时也以此确定客户的生活圈、真实住址、紧急联系人等数据;在客户基本社会特征数据方面,采用对接已实现爬取不同地区政府公开数据的服务商,快捷满足政府公开数据的收集。
在上述这些数据来源获取和合作的同时,要注意只能通过合规的手段获取数据,并与客户之间建立清晰的权利义务说明,保护客户隐私以及正确使用合作来源的数据。当线上数据获取受限时,通过线下由客户主动提供数据的方式仍是有效的一种,此时尽职调查、外访核实、资料鉴真工作将是重点。
2.2 客户唯一标识与标签化存储
在数据获取之后,如何合理组织客户数据与建立存储模型是大数据存储过程中的关键。该过程中,客户唯一标识、数据整合规则是首先要确定的。一般以客戶的名称、证件类型、证件号码的组合为关键识别属性,通过关键识别属性的对比确定唯一客户或者相似客户,之后结合信息覆盖与归并的规则,将客户信息更新与整合。除此之外,黑名单的建立与旧数据标识要同步进行,只有这样才能在数据整合过程中保证客户信息的时效与健全。
当客户数据增长以千的单位时,对客户的标签化分类是精准管理客户的必经阶段。可以通过设置维度的不同分值,系统自动评判部分维度分值,如消费能力、收入、社交偏好、家庭结构等。最终会成总分值,比对模型分值的区间特点预测用户的还款能力与消费需求。
3 实际应用
3.1 反欺诈准入
一旦审批通过恶意欺诈的借款,那么该笔借款的不良逾期风险极高,还款意愿也极低。通常情况下,因为违约成本的存在,以恶意欺诈为出发点的客户,提交的资料不是与自己相关、真实的。并且现在贷款进件中的欺诈行为,往往是多人配合、有计划进行。所以,通过大数据识别恶意欺诈客户,是大数据建立风控模型的重中之重,也是进件准入标准的重要组成部分。
3.1.1 客户唯一标识是反欺诈的前提
因为贷款违约成本的存在,客户填写自身的真实资料,再将欺诈作为目的的借款只占到极少数,毕竟国家在社会信用体系的建设越来越完善,自身的信用重要程度越来越高,没有人会不关心自身的信用状况。所以通过大数据识别出进件信息是借用、伪造他人的信息是先行条件,以此过滤掉绝大多数的欺诈申请。因为客户唯一标识是反欺诈的前提。
3.1.2 客户唯一标识在反欺诈中的运用
客户唯一标识初级的组合是客户名称、证件类型、证件号码的搭配,之后通过实名手机号、银行卡号或人脸数据等其他唯一ID扩展客户唯一标识,丰富客户唯一识别的属性,这样将在识别客户欺诈时增加唯一识别的成功率,及时发现及拒绝准入,设置风控的第一层防火墙。
另外,在客户唯一识别后,客户相关的动态信息将为准入提供判断。比如一段时期内多次申请贷款,通过同一设备向多家贷款机构申请贷款,在一段时期内更换过多部手机或地址,贷款填写个人的地址与实际地址间隔极远等等这些情况,都将通过客户相关联的动态信息知悉,拒绝该客户的进件,并加入系统黑名单中。
在业内的统计中,四要素、三要素属实提供的客户,欺诈的概率不到1/3。短期内多次申请超过5次的客户,欺诈率将是正常群体的3.2倍之多。申请时填写的地址与实际住址距离超过22公里以上的客户,欺诈的概率是最高的。
3.2 信用风险防范规范
经过业内统计数据显示,因为有欺诈行为的客户都是相对固定的,所以,在欺诈客户黑名单积累过程中,数量将越来越趋向于稳定,这部分人的欺诈成功率将降到最低。但是因为家庭变故、工作不稳定等个人情况的出现,原先没有欺诈风险的客户出现欺诈倾向,这部分的预防将需要时效性更强、行为数据更广的数据来扩充客户数据维度,完善更全面的风控模型系统。endprint
所以,风控模型要控制的阶段不仅仅是贷前进件的阶段,同时要在贷中与贷后两个环节都要参与,并且提供更深层次的数据挖掘与动态分析,降低因信用风险造成的企业损失,巩固企业稳定发展、盈利的目标。这也是信用风险防范规范要说明的核心内容。
3.2.1 行为数据的深层挖掘
进件时风控审批时,都要对客户本身的信用风险做分析,就是对客户的还款能力与还款意愿做评估。因为信用风险将会随着时间的变化出现波动,所以贷后中要重点把控客户信用风险的变化,最有效的手段就是对客户行为数据的更深的挖掘与分析。一般的做法会通过分析客户较全面的行为数据,从中挖掘归纳出主要的规律,以此判断客户近期的信用风险波动是否会达到这一规律,发生信用风险。
3.2.2 行为数据的动态监测
动态检测客户行为数据,可以通过以下几方面进行,比如用户的通话记录、消费、收支变化、出行路线、社交动态等,保证分析数据的真实、客观、全面,生成客户信用风险波动报告。
业内分析数据表明,有以下特征的客户违约出现信用风险的几率低,包括出行方式选择商务类座位,飞机、高铁为主且次数一年超过4次以上,在居住地消费高,对财经信息关注高,使用固定手机号等特征。而有以下特征的客户违约出现信用风险的几率高,包括短期内频繁信用卡取现,网络游戏花费接近收入等特征。
总体来看,还款意愿较强的客户大多受教育程度高、道德水平也较高,而消费水平与收入不匹配,且消费方向并非用于提升收入水平的客户还款能力有风险。大数据在贷中管理阶段的重要性已经超过了贷前进件审批,所以信用风险防范规范中重要的一部分在于利用大数据监控客户信用风险变化。
3.3 贷中预警管理及催收处理
3.3.1 建立風险识别预警机制
利用大数据及时监测客户信用风险的变化,监测收支变化、负债新增、社交状态异常等维度变动,建立自动信用风险识别与预警机制,信用风险发生前完成预警,及早进行风险处理,减少人工参与,提高贷中管理效率。
3.3.2 建立客户紧急联系人库
贷款业务中坏账的出现通常是由于客户的失联导致的。在贷前进件时,对客户紧急联系人库的建立应当已经开始进行。在这个过程中,大数据发挥的最大作用,是构成紧急联系人交叉关联网状模型,对无法直接联系到客户通过多人的转接建立再联系,重新建立起与客户的联系,之后进行催还借款,降低失联带来的损失。而且,根据业内的数据统计,电话联系借款人的触达率远高于其他通讯方式,仍然是最重要的催收手段。
3.3.3 不良债权的处理
催收效果不明显或者没有合适的催收机构,且企业有资产出表需求时,一般贷款机构会将这些不良债权进行转卖或者证券化。此类做法的核心就是风险的定价模型,但当前行业标准中风险定价体系仍旧是一片空白,不能在这一点上企业的需求,在大数据风控的运用中,可以尝试去进行原型的建立。
参考文献
[1]中国人民银行调查统计司 http://www.pbc.gov.cn/ diaochatongjisi/116219/index.html
[2]全国集中统一的企业和个人征信系统简介http://www. pbccrc.org.cn/zxzx/zxzs/201506/d708068ce66c4cd6bbd 5c37884b93c05.shtml.endprint