谈互联网时代下大数据统计在银行风控场景的应用
2021-11-28李佼洋
文/李佼洋
(对外经济贸易大学统计学院)
在人类发展历程中,三次科技革命给生产生活带来了巨大的变革。虽然目前尚无对第四次革命的通用定义,但大量学者认为互联网的应用正是一个新时代开始的标志。在信息高速传递的网络中,数据密集型产业在互联网时代迎来了日新月异的更迭,银行业作为其中的代表,从其数据化、线上化、智能化的成果可见一斑。2019年央行发布了《金融科技(FinTech)发展规划(2019-2021年)》,时值规划的最后一年,关于强化金融科技合理应用的远景布局已有显著的实践成果,在与互联网技术的碰撞下,科学规划运用大数据统计已成为当今银行业转型发展的重要战略[1]。
一、互联网时代下大数据统计对银行的意义
2015年国务正式印发《促进大数据发展行动纲要》。银行业作为典型的与数字打交道的行业,在经营货币信贷业务的各个环节均生产、加工、使用了海量的数据。以信贷审批为例,围绕单一客户,通过对个人收入水平的分析可以推测其偿债能力,通过对抵押物的价值评估可以衡量担保措施的力度。但随着互联网的发展,大数据统计使信息变得结构化和线上化,银行对数据的处理和应用也从单样本、单变量分析转变为了大样本、大数据的综合应用。在时代背景之下,互联网金融的概念逐渐清晰,数据驱动成为银行业乃至金融业发展的核心力量。
(一)外部统计数据带来新的利润增长点
互联网时代的到来极大拓展了银行业务的想象空间。从数据维度来看,对个人信用的评估不再局限于银行流水、工作证明和资产证件等,对企业信用的评估也不再局限于财务报表、供销合同和评级报告等。来自外部场景的统计数据,如个人生活产生的通讯、购物、出行和保单数据,生产经营活动产生的商流、物流和资金流数据,极大地帮助了银行从业者去刻画更丰富立体的客户画像。甚至对于传统金融产品无法覆盖的缺乏信贷记录或资产证明的客群,通过大数据统计也可以对他们作出相对客观的信用评价。从展业模式来看,传统银行依靠网点展业的线下模式也正逐渐被颠覆。过去,部分区域性银行和小型股份制银行在四大行的挤压下本就面临严重的经营困境,加上展业地域受限,难以摸索出长期的生存之道。而互联网时代下,践行数字化转型的银行在拓宽展业区域、扩建营销渠道、提高客户体验、丰富产品维度和实现业务增长等方面均享受到了传统线下展业模式无法带来的红利。
(二)内部数据统计增强核心竞争力
除成立之初就定位于互联网展业的银行和四大行外,绝大部分银行的基础数据规模和数据质量均有不同程度的缺失,科技与系统建设水平良莠不齐。在外部数据逐渐标准化和同质化的大环境下,银行自建数据生态将成为未来的核心竞争力,内部统计数据将成为银行的核心资产。无论起点如何,内部数据治理都必然会成为银行业发展转型的一项长期重要工作,数据部门的建设和数据架构的搭建,应成为每一家银行机构顶层设计中的核心组成部分。信息和数据天然是银行设计金融产品、提供金融服务和管理金融资产的基础。银行既是数据的应用方,更是数据的生产方,加强内部数据管理和统计能力建设,是传统银行享受互联网金融红利和科技赋能成果的必经之路。
二、大数据统计在风控场景中的应用
围绕对借款人还款能力与还款意愿的评估,大数据提供了维度丰富的描述性风险属性信息。从申请环节的准入判断、定额定价,到审核环节的反欺诈识别、信用评估,再到放款环节的支用监控、放款审查,最后到贷后环节的风险预警、催收策略,每一个环节都调用了不同来源、不同属性的数据。除了将数据本身作为风险管理的依据,从业者们更将数据统计加工成特定含义的衍生变量和特定用途的数据模型,从而使得秒级信审和线上信审变成可能。但大数据风控绝不仅限于对信审方式的升级,更根植于流程扁平化、决策自动化和监控数字化等方方面面。
(一)统计数据应用的五个层级
通常来讲,从原始数据到决策应用,一般会经历五个层级的转化,分别是:数据层、治理层、分析层、决策层和应用层。在数据层,主要完成的是数据的收集工作。无论是通过外部数据源获得,还是从银行自有渠道采集,目的都是收集到尽可能准确、有效、及时的“一手数据”。但事实上,这些底层的“一手数据”往往是不标准的、缺失的、甚至存疑的。于是在第二层,治理层,从业者需要运用统计学方法对庞杂的底层数据进行清洗,进一步提升数据的结构化价值。同时,根据不同的应用场景,需要对原始数据进行统计加工,将最能准确刻画用户的变量呈现出来。前两层通常需要花费相当多的时间去识别数据的价值和构建决策的逻辑,只有做好前两层的基础建设,才能顺利地进入第三层。在分析层,从业者需要对样本的特征数据进行描述性统计分析,找到特定的趋势,按特征属性对样本进行归类或分层,从而对网络另一端素未谋面的用户有一个总体的了解。然后进入专业壁垒和经验要求均较高的决策层,从业者通过统计建模得出具有统计学意义的结论,对决策形成支撑依据。最后在应用层,通过对统计结论赋予不同的业务含义,在最终目的的指引下作出业务上的判断,完成一整套数据驱动的风控动作。
(二)大数据统计对风控效能的提升
根据行业报告披露,大数据风控的升级可以使风控运营成本降低20-30%。这意味着大数据在改善风险表现的同时,风控动作本身付出的成本也在降低。此外更有难以量化评估的是因时效性提升带来的隐性收益。从人力成本的角度分析,传统信审需要实地尽调、纸质资料收集、人员访谈等一系列面对面的操作,不仅占用大量人力资源,且因为人工参与过多,操作风险难以把控,质检与复核的难度相当大,最终的风控效果往往因人而异,参差不齐。而如果银行风控系统在前述第一、二层能产出保质保量的数据,那么风控模型输出的稳定性和策略规则的有效性可以得到有效保障,风控结果的可靠程度与量化程度亦是传统人工主导的信审模式无法比拟的。从时间成本的角度来看,大数据与统计科学的应用可以将KYC周期从几天压缩到几秒,亦可以将抵押物价值评估和确权行为从几周压缩到几分钟。传统信贷用户从提交纸质资料到银行网点,到最终放款成功,历时短则数周,长则数月,信审周期的拉长无形降低了资金周转效率,不仅客户体验较差,同时在漫长的信审周期中,借款人的信用状况、经营状况、负债状况等也可能发生极大的改变,风控结果可能出现严重的时滞[2]。可以看到,大数据的应用在改善风控结果和提升资金效率方面都有着卓越的成效。
三、数据统计应用中存在的问题与思考
自大数据概念提出以来,互联网金融步入高速发展阶段,监管体系同样也处在不断建设的过程中,大数据统计技术在给银行业带来变革与机遇的同时,也带来了一系列现实的问题。其中数据来源的合规性、数据产品质量和内部组织架构协同是较为常见的影响银行数字化转型的问题。
(一)统计数据来源的合规性问题
2019年下半年,国内数家数据厂商相继被有关部门调查,调查重点多围绕旗下爬虫部门。互联网时代下,数据的可获得性大大增强,此前各行业从业者虽然有《个人信息保护法》和《网络安全法》作为工作规范,但并没有针对数据的法律准绳。生活中,每一个人都是一个生产数据的单位,数据本质上承载了很多私密信息,人们可能对自己的数据隐私并不敏感,但数据厂商却对它们趋之若鹜,最典型的当属爬虫产业的盛行。大数据不仅将每个人的“秘密”公之于众,更频频发生安全事件,大到一个政府的国家安全数据泄露,小到一个普通人的身份信息盗用,数据黑产盛行,监管压力空前增加。2021年9月,已酝酿三年的《中华人民共和国数据安全法》将正式实施。大数据在创造时代红利的同时,也必将走向合规化,野蛮生长的时代已经结束,随着法律法规的健全,泛数据行业未来必将走入监管体系内,成为有法可依的市场化工具。
(二)数据产品的质量问题
随着数据产品的日益增多,数据产品的质量也变得参差不齐,且使用者极难穿透底层逻辑,产品间同质化的情况也逐渐突出。实际应用中,数据产品的有效性通常显得极不稳定。对底层数据的检验可以通过完整性、有效性、一致性、唯一性和时效性五个方面进行分析,但对于衍生变量和成型的数据产品就难以通过以上的维度进行衡量。无论是数据产品的提供方还是使用方,都难以做好事前检查,更多的问题是暴露在生产环境中,只能事后发现。对此,头部数据厂商和研究机构可能需要联合制定行业标准,通过市场化的优胜劣汰,最终形成稳定健康的行业环境。
(三)内部组织架构的问题
银行在完成数字化转型的时候通常需要自上而下的布局,这个转型由科技驱动还是业务驱动是很多银行面临的难题。高度分散的系统环境与数据架构无法为大数据统计的应用提供有效的框架支撑,此时科技部门就显得尤为重要;但同时,作为数据的实际应用方,业务部门则更贴近使用场景,是数据实现经济价值的最重要一环。故而出现了银行业务部门与科技部门协同效应差的问题,加上内部决策机制的掣肘,技术与业务的双向驱动难以实现。因此,此类长期的战略规划不仅需要前瞻的顶层设计,更要辅以健全的制度保障,可以尝试采用敏捷小组或类事业部的统一行动单位,才能顺利达成最终目的。
四、结束语
互联网时代下,银行业的数字化转型是大势所趋。统计科学与大数据的应用为广大银行,尤其是中小银行带来了前所未有的机遇。以风险管理为代表的核心部门,无疑成为转型的先驱,大数据统计从质效上均对传统工作模式带来了颠覆性的变革,数据也成为银行的核心资产。但与此同时产生的合规性问题、数据质量问题和转型过程中内部组织配合的问题也是不容忽视的发展痛点。因此,大数据要走上健康的发展道路,以及实现长久的应用,必有赖于外部监管环境日渐完善、市场机制逐渐建立,以及银行内部强有力的架构与制度。历经一定时期的规范发展后,大数据方能成为真正的生产要素,在统计学的支撑下产生最大化的、持续的经济价值。