大数据“慧眼”谈风控

2016-05-30凌小山钟元癸

时代金融 2016年15期

凌小山　钟元癸

【摘要】数据贴近了人们的工作生活，已经渐渐的作为大家工作生活中的一项型的生产工具。在如今这个信息技术快速发展的时代，大数据不仅仅是成为了一个热词，同时与人们的生活产生了密切的关系，在文中主要就大数据时代的风控进行探讨。

【关键词】大数据风控消费

在大数据成为热词的那段时间，大数据风控似乎往往作为互联网金融企业代言词。就拿“E租宝”这样的庞氏骗局企业，在宣传中也号称“引领大数据在行业信用管理和风控防范之中的应用趋势”。

当然，我首先检讨一下，自认为我们塔塔数据是行业的引领者，这段时间看到了一家银行已经有“税E融”也看到了他们组建了大数据工作站，开展了大数据风控的各项探索。已经运用大数据DT引进大量外部数据，在工商族谱、社交数据上做欺诈分析，利用逻辑回归，支持向量机（SVM），决策树等模型补充或替代传统的打分卡，在更广泛的数据源上开始进行建模分析等。在这种背景下我迫切的感受到了压力，作为数据供应商与方案解决商我们不能夜郎自大了。

一、行业内对于如何落地大数据风控存在的疑问

第一，不同的消费场景下，客户客群的特征是不一样的，收集到的客户信息差异可能很大，这些大数据方法的客观性无法保证。就如针对热爱社交的年轻群体，能够爬取到有价值的社交数据，知识图谱就能发挥出一些价值。但针对贷款主流群体来说，这些人的数据就很难获取了。

第二，目前的信用体系中，贷款审批的衡量、反欺诈能力、额度评估能力与催收手段等等，共同决定了风险决策。大数据与风险决策落地探索依旧是困难重重。也许在不同的场景下，有些可能是反欺诈的决定性更强些，有些可能是额度的评定更强些，有些可能是催收的手段来的更直接。抛开具体的贷款场景来运用大数据风控依旧不是很成熟。

第三，算法模型具有一定的适用性和局限性的，还需要通过不断地实践创新内测来完善。

第四，传统的金融产品的风控决策也是以数据作支持的。人工的风控决策是信审人员长期与调查借款人信息与经验的判断，风险控制在大数据与DT应用初期与信贷专员的经验还需要有机结合，因为损失性的贷款成本是无法的估量的。

第五，大数据风控成本。从基础的设施投入、系统研发，大量的外部数据成本、再到到昂贵的大数据人才聘用，以及不初期出现的损失贷款，这些投入也是无法想象的。

第六，大数据风控若是没有高瞻远瞩可持续经营的理念牵头人，没有一帮拥有激情的的人才团队，是没有最终的胜利，大数据的产出都存在很大的未知数。这些未知数让很多望而止步。

二、让大数据风控落地产生价值

如何能让大数据风控落地，继而产生可观的价值，路漫漫其修远兮，我们既然跨出了一大步，我更希望大家永不止步。基于目前首先该建立效果评估体系，循序渐进开展大数据风控各项工作：

第一，在产品上线的阶段，有放贷限额，小范围测试；而业务成熟阶段，则会追求更高的批过率和更低的坏账率，并寻求两者之间最佳平衡。

第二，用量化指标进行衡量。也就是说，大数据风控作为风控的方法，应该用清晰的指标来衡量取得的成果。

第三，指标的物理含义是一般人都能理解的。只有让为投入买单的老板们理解了大数据风控的衡量指标，他们才能作出决策以开展持续的技术投入。

第四，完备的指标。比如，实施了一种大数据风控技术，可能带来坏账率的下降，但同时也可能带来批过率的下降。虽然坏账少了，但业务量也降低了。但从“得”的指标上衡量，是没有意义的。要“得”与“失”结合起来，根据企业不同的发展阶段，选择不同的技术。

在该评估体系下，决策者将能清晰地衡量具体的风控技术来带的ROI，然后决策该采用什么样的技术手段。在有清晰的产出预期下，大数据风控的投入就可以循序渐进的执行。人们将不再困惑于各种难以理解的模型算法，而是把它们当成工具，然后选择最优的算法即可。

三、大数据风控系统评估

基于大数据的思想，人们提出了很多模型来做风控系统。同一种模型用不同的模型参数又可以横向衍生出很多新的模型。那么在众多的数学模型中，怎样知道应该使用哪一种模型呢？模型评估体系的建设就显得尤为重要。通常评估一个模型的好坏应该从模型的三个属性去评估：

第一，精确性：在预测状态变量时，模型必须有一定的精确性。

第二，稳健性：模型应该对于目标总体中的所有样本都有效，而不仅仅是对开发测试样本有效。

第三，合理性：模型表现出来的趋势对于观测到的行为必须有意义。

在这里我们主要讲模型的精确性。KS值、EVA、洛伦兹曲线（ROC）是被广泛使用的模型精确性评估指标。在统计学中，KS值是用来衡量模型的区分能力。通俗来讲就是模型区分好客户与坏客户的能力。好客户是指守约客户，坏客户是指违约客户。KS值越大，模型的识别能力就越强，反之，就越弱。ROC曲线的作用是衡量信贷模型的目标累积强度。这里的目标是指违约客户，通俗来讲ROC曲线的凸度大小反应了模型识别坏客户的能力。凸度越大说明模型越优秀，如：在20%的总体人群中就能够辨别出60%的所有违约人群。ROC曲线凸度大小和KS值大小是正相关关系。ROC曲线的凸度越大，相对应模型的KS值就越大。这些指标有助于多个模型甄别，模型参数优化的情况。即便对于当前来看不错的模型，我们也应该定期检验模型的重要评估指标。评估体系的建立固然重要但同时也要充分认识模型的局限性。在利用模型制定信贷策略时，我们应该信奉“实践是检验真理的唯一标准”。

目前芝麻征信关于企业征信的产品已经在做内测，其他已经取得或者已经备案的企业征信大数据公司和我们塔塔数据致力于向消费金融公司和各大商业银行普及大数据技术，提供标准化、模块化、的大数据风控系统，以降低消费金融企业客户使用大数据技术的资金成本和技术门槛。但是作为数据业类人来说我觉得更多的来自于技术本身对既有业务管理体系和决策层知识结构的挑战，它的应用也是双面的，可能会对企业与银行的业务带来混乱和灾难。明确的效果评估体系，能给大数据风控技术落地带来有效的指导和管控，把业务的开展统一到一个目标体系上来。

综上基于在大数据不够大，数据来源的客观性、信息传播的击鼓传花特性以及传统的风险模型都需要大量的模型实践积累的高昂的损失贷款成本、时间成本和数据引入成本。

因此在大数据时代初期阶段，我们在风控应用上应做好有长期的积累与探索的思想准备，在信息不对称性与共享的信息经济中，DT更多的是作为新型的生产工具，在各大银行消费型贷款业务、P2P互联网金融业务中都应需要与征信服务公司和塔塔数据提供商进行多方位战略合作从而提升在数据积累和建模等多方面的能力以面对新经济形势带来的机遇与挑战。

参考文献

[1]巴曙松，侯畅，唐时达.大数据风控的现状、问题及优化路径[J].金融理论与实践，2016，（02）：23-26.

[2]白璐.新技术抢占大数据风控“蓝海”[J].上海信息化，2016，（02）：62-6.