机器学习在金融风险管理中的应用探析
2019-11-28徐怡
徐 怡
(安徽大学经济学院,安徽 合肥230601)
随着经济社会各领域从数字化向智能化大步迈进,传统的风险管理体系与金融创新发展新模式不相适应,金融风险管理问题日益突出。2018年我国P2P平台爆雷事件接连不断,资金池、自融、关联担保导致提现困难问题屡见不鲜,“跑路风”不断蔓延,网贷行业操作风险的集中爆发显示出金融风险管理协同发展的紧要性和急迫性。近年来,在互联网、大数据、超级计算等新理论新技术以及经济社会发展需求的共同驱动下,人工智能开始逐步应用于金融风险管理领域。2017年7月8日国务院印发《新一代人工智能发展规划》,明确提出要建立金融大数据系统,提升金融多媒体数据处理与理解能力,鼓励金融行业应用智能客服、智能监控等技术和装备,以及建立金融风险智能预警与防控系统。因此,机器学习作为人工智能的核心,研究机器学习在金融风险管理中的应用有助于金融机构建立有效的内部风险管理系统、监管部门创建良好的外部风险控制环境。
一、机器学习的含义
图1 机器学习基本框架
机器学习是人工智能的核心,它与大数据革命息息相关。图1为机器学习运行的基本框架,与传统的数据处理方法相比,它使用的算法允许计算机在未编程的情况下,通过对样本数据的特征学习识别数据间的关系并建模,对模型进行数千次或数万次的精确度优化,以提高模型的样本外预测能力。其学习形式有两种:有监督的和无监督的。在有监督的机器学习中,已有经验可以将样本特征标签化,在建立统计模型后基于特定的输入预测结果。在无监督机器学习中,学习样本不带标签信息,数据分析可以在不估算因变量情况下用于识别模式。
二、机器学习的分析方法
机器学习的分析方法有很多,总结起来有三大类统计方法:回归、分类和聚类。回归和分类都可以通过监督机器学习来解决,而聚类则遵循无监督的方法。
图2 信贷风险的回归分析
分类对离散型变量进行预测。逻辑回归是其最常见的方法,将输出转化为0到1之间的概率,再根据这个概率进行判断。以贷款者年龄预测信贷风险为例(见图3),若模型计算新样本的信贷风险超过设定阈值,一般认为会违约。当分析多因素影响时,观测结果可以通过支持向量机将低维的空间映射到高维的空间进行分类,并在各类别中赋予变量数值。
图3 信贷风险的分类分析
聚类通过自助法寻找数据的类重心,进而将数据划分为若干个不相交的簇,每个簇表示一个潜在的类别,这些类别在执行算法之前是未知的,聚类即是自动形成簇结构的过程。它既可以单独运行寻找数据内在的分布结构,也可作为过渡将无监督学习的输出作为监督学习方法的输入。以图4所示的反洗钱分析为例,它可以在不清楚哪些因素导致欺诈的情况下检测欺诈行为,并将检测结果应用于新的模型中。
图4 聚类分析
决策树是一种以实例为基础的非参数化监督学习方法,它可以通过分类和回归有效处理复杂的非线性数据,并将结果进行可视化展示。该方法在本质上是从训练数据集中归纳出分类规则,据此持续分类直到决策终点。其学习的策略是以损失函数为目标函数的极小化。决策树在风险管理领域应用较早,图5为银行信贷分析中根据客户特征判定其违约概率示例。
图5 决策树分析
图6 深度学习分析
深度学习方法在传统的模型方法上进行了发展和优化。传统模型关注的是定义良好的结构化数据集,而深度学习则是通过在学习过程中应用分层算法,并将原始数据转换为识别复杂模式,从而模仿人类大脑(见图6)。每种算法都关注于数据的特征表示,这些表示的分层允许模型合并大量的输入,包括低质量或非结构化数据。最重要的是,这些分层不是编程设计的,而是由模型从各种数据中学到的。然而,深度学习模型非常复杂,通常需要数百万或数亿数据集。
三、机器学习在金融风险管理中的应用
1.评估信用风险
金融机构逐渐放弃了传统的线性信用风险回归模型,并开始将机器学习方法与传统模型结合起来用于捕获信用风险常见的非线性关系,以提高它们预测金融风险的能力。无监督方法通常用于探索数据,而回归和分类方法可以预测违约率、违约损失率等关键信用风险变量。
ZestFinance公司将机器学习算法应用于信用风险评分模型中,这是机器学习提供融资授信决策的早期探索之一。ZestFinance具有模型开发和数据分析能力,除了资产状况还将更多非传统数据信息纳入模型中,致力于从应用程序、社交媒体信息以及用户个人习惯等基本资料中挖掘风险因子,分类并标签化不同类型的复杂数据,对借款人借款行为背后的线索及线索间的关联性进行学习,最终根据评分做出准确的信贷决策。有关数据显示,与传统信贷管理业务比较,ZestFinance的处理效率提高了将近90%,在风险控制方面,其模型相比于传统信用评估模型性能则提高了40%[1]。
国内众多金融机构也已经将机器学习应用于信用风险控制系统,如中国工商银行从2007年起专门建立了数据仓库,通过对客户的违约率、违约损失率等进行动态监测和实时预警,为银行把控信用风险、提升融资服务效率做出了巨大贡献。蚂蚁金服旗下的征信机构芝麻信用,运用无监督学习从用户信用历史、行为偏好、履约能力、身份特质、人脉关系五个维度对海量信用数据进行处理,进而得出用户信用状况综合评分,并在信用卡、消费金融等上百个场景为用户提供授信担保服务[2]。
然而,机器学习模型复杂的“黑盒子”性质、对异常值的敏感性导致数据过度拟合和违反直觉的预测难以解释,使得机器学习不适合全面纳入金融机构的持续风险监测中。而且这些尚未形成司法一致性定义的数据对于监管机构来说过于复杂,给审计工作带来了越来越大的困难。尽管机器学习模型存在缺陷,但它可以成功地用于优化现有的具有调节功能的信用风险模型。这一能力的价值在中国市场则被成倍放大——其不仅可以在很大程度上帮助中国这一新兴且制度不完善的信贷市场突破发展瓶颈,更能帮助企业有效构建用户模型,评估信用等级,预测预防信用风险。
2.反欺诈
金融机构已经开始利用机器学习来检测信用卡欺诈。信用卡的大交易量为模型提供了足够的数据,进而可以通过监督学习进行训练、反向测试和模型验证,预先确定欺诈性交易的关键特性,并能够将它们与正常交易区分开来。无监督学习是近年才发展起来的反欺诈方法,它无需任何训练和标签,通过关联分析和相似性分析发现欺诈用户间的联系,并在更多群组中发掘新型欺诈行为。无监督学习也可以用于反洗钱或打击恐怖主义融资活动,聚类可以识别与其他数据无关联性的异常值,这种方式可以有效发现异常并减少假阳性。
信息时代金融机构的客户征信成本不断增加,通过对客户信息与交易纪录的自主学习可以有效甄别异常交易,减少欺诈事件发生。招商银行围绕“数据+模型+算法”,采用深度学习技术进行风险管理,在申请流程中生物识别技术可以迅速核实相关信息,资金发放后通过无监督学习自主优化反欺诈模型,对资金流向进行监测以防止客户将贷款资金用于民间借贷。英国银行业创业公司Monzo通过总结交易模式建立了一个模型,能够实现事中拦截及时阻止诈骗嫌疑人完成交易,降低合规风险。这令该公司的预付费卡欺诈率从2016年6月的0.85%降至2017年1月的不到0.1%。
中国银行开发贸易融资业务反洗钱核查项目,运用机器学习对交易内容真实性进行侦测,并综合运用文本分析、图像识别等技术进行交叉验证,审核阶段耗时由原来的2小时下降到2分钟,提升了反洗钱系统的侦测率,大大降低了人工操作的时间成本。一些国际监管机构,例如澳大利亚证券及投资委员会、新加坡货币当局及美国证券交易委员会,都将机器学习应用于可疑交易识别。具体做法包括从证据文件中识别和提取利益主体,分析用户的交易轨迹、行为特征和关联信息,充分降低误报率,更快更准确地打击地下洗钱等犯罪活动[3]。
欺诈类违规行为是很难界定的,银行也没有得到执法机构的充分反馈究竟哪些交易确实存在欺诈行为。因此,只使用历史数据进行反欺诈算法很难用于检测新的欺诈行为。相比于传统检测方法,无监督学习最大的优势在于可以提前预警。由于违法者在潜伏期的行为依然符合某种规律,具有某些一致性,同样还是会被无监督算法捕捉到,进而帮助用户创建新的检测规则,一旦发现客户遇到新型未知欺诈,无监督检测可以早期预警,帮助客户在欺诈解决方案的各个方面提升机制、提高效率。
3.监督交易员行为
监视交易违规行为是另一个日益发展的领域,机器学习越来越多地被用于检测流氓交易、内幕交易和基准操纵行为。及时发现这些违规行为很重要,因为它们可能对金融机构和声誉造成重大损害。早期的监控技术往往依赖于监控和评估单一交易行为。机器学习方法的改进能力,处理大型复杂数据的模型,使得新一代的系统能够评估整个交易组合,并将信息与交易员的其他活动联系起来,包括电子邮件、电话和签到,甚至是基于深度学习的语言处理和文本挖掘。交易员的行为可以与其他交易员的“正常”行为进行比较。系统检测任何偏离正常模式的情况,并通知金融机构的合规团队。
英国智能语音公司向大银行出售基于机器学习的语音转录工具,可用来监控交易员的电话,以检测内幕交易等不正当行为的迹象。其他的专业公司如Xcelerit和Kinetica向银行和投资公司提供接近实时的风险敞口跟踪,让它们能随时监控自己的资本要求。信托业也不例外,我国中航信托建立的COSO全面风险管理系统,通过系统对项目及公司整体的风险轮廓进行线上统计和监测,实现对项目存续期管理的常规监控和重点风险预警提示。
监管部门在这个层面上应用机器学习也面临几个挑战。首先,通常没有标记数据来培训算法,因为金融机构与开发人员共享过去的违规信息会带来法律权责问题的复杂性。此外,系统需要可审计,但由于机器学习模型的设计目的是不断地从数据中学习,因此很难向合规官员解释为什么某个行为会引发警报。为了更好地解决这些问题,监管部门正在尝试将人工决策与机器学习有效结合起来,系统数据可以用来了解相关交易员的全面信息,并设计一个更适合审计和监管目的的算法模型。
四、促进机器学习发展的建议
1.积极完善法律法规
加快机器学习在风险管理领域应用是未来的发展方向,有关机构应该正视这种趋势,积极完善金融立法体系有关的工作,为机器学习发展创造良好的市场环境,同时也必须重视机器化应用给风控工作造成的冲击,未雨绸缪地开展前瞻性研究和战略性部署。要借鉴国外先进的有关风险防范的法律法规,从宏观角度将机器学习纳入法律体系,修订、补充现有法律法规中与其不相符的部分以填补监管的空白,加大金融犯罪的惩治力度,为金融机构的健康发展提供强有力的法律保障。特别地,相关部门应在金融交易一致性、合规性等方面加快立法速度,对识别数字签名、保护消费者信息等方面作出详细规定,以保障机器学习健康有序地开展[4]。
2.形成长效监管机制
应加快形成符合中国国情的风险管理长效监管机制。根据实际需要和各自的特点,明确各领域监管主体并赋予其监管权限,对监管层次和监管内容予以更为详细的划分,以加快对机器学习参与的风险管理领域监管的合作。一方面,争取由国家层面牵头建立以“一委一行两会”为主,相关部门为辅的机器学习监管机构体系,形成长效合作机制,将监管重点从传统银行的资产负债流动性管理转换为金融交易和客户信息的安全性保护。另一方面,加强机器学习监管的国际分工合作,加快参与机器学习风险国际治理机制的形成,打造统一的公开信息共享平台,带动各国金融机构的交流互动并形成多层次的监管体系。
3.提升信息开发能力
信息开发是机器学习提供服务的重要能力指标,要加强技术创新、业务创新、模式创新。在系统设计过程中,应尽可能包含数据处理、模型拟合、交叉验证和异常处理等重要环节,建立关联数据集敏感度监测系统,并对信息二次利用的安全性和合法性标准进行契合度核查。将新模型纳入系统之前要进行算法漏洞扫描和压力测试,对单元测试、系统测试、用户测试等分别进行维护并提供单独的情景模拟,以实现对信息和环境时变的更新控制。为了识别可能出现的过度拟合、极端异常值等问题的原因,必须定期进行在险价值评估,并动态完善安全保障措施,结合渗透测试和技术审核,及时修复出问题编码和系统漏洞。
4.摆正人类决策位置
智能时代的到来是通过自动化技术的运用扩展数据来源,将更多的数据纳入分析体系来提高传统业务的决策效率,应该清醒地认识到它与人类决策的互补而非取代作用,毕竟机器学习更多的是通过数据敏感性分析信息单位间的相关性,进而得出决策结论。因果分析法相比,即使对业务完全不熟悉的金融工具也能自动进行交易策略,甚至模拟专家进行决策,这必然会隐含许多新的风险。所以,必须对前期数据来源、算法编程等环节进行严格审查,高资产净值和更复杂业务的交易仍需要面对面的风险度量,尤其在国际市场动荡、监管政策变革等个别极端情况下,必须介入人类决策,由风险管理人员进行必要的风险检测及应急计划制定。
5.人才引进员工培养
既懂机器学习又懂风险管理的复合型人才十分匮乏,这是制约我国机器学习技术在风控领域深入应用的瓶颈因素。必须要增强核心科研人员和技术操作人员的储备,尤其要增大福利待遇引进全能型、复合型人才。鉴于数据特征的时变性,强化专业性、技术性、实用性人才开发以适应发展要求[5]。员工素质能力对于提高风险管理的安全性和可靠性发挥重要作用,为了更好地促进机器学习在风险管理中的应用,应注重培养技术人员相关基本金融知识、业务操作和技术更新,管理人员应及时掌握新型风险的相关知识,动态调整监测模型,进而提高机器学习应用的风险防控能力。
6.重视消费者保护
一方面,机器学习不断提高的数据挖掘能力使得消费者的隐私保护受到严重破坏,个人信息泄露的现象屡见不鲜。无论从保护消费者基本权利,还是从机器学习的长久发展考虑,都亟须相关部门加强相关法律约束和行政监管,明确金融机构相关告知义务、信息安全保障义务,有效保证机器学习在风险管理应用中的信息安全[5]。另一方面,消费者应提高对风险管理相关业务的了解程度。随着金融新产品新服务的创新活跃,消费者应及时知晓与之相关的风险点,提高自身的风险识别和防范能力。相关金融机构要为消费者提供实时的信息和持续的教育,提高业务流程的透明度,为金融产品的真实性和安全性负责,指导帮助消费者认识风险因素并正确地报吿安全问题。
结 语
智能时代机器学习的发展,为风险管理工作带来了巨大的便利。监督学习、无监督学习和深度学习等自动化技术在金融风险管理领域的应用,尤其是信用风险和欺诈行为的监测方面,大大提高了数据挖掘和数据分析能力,有效地减少了人工处理的时间成本,提升了金融机构风险管理的效率。然而,我们也应该清醒地认识到,对于机器学习的应用还存在诸多局限和争议,算法的透明度和解释度依然是其面临的重大挑战,摆正机器学习和人类决策的位置至关重要。只要我们主动求变应变,合理发挥人工智能发展的先发优势,“智能经济”时代一定会加速到来。