联邦学习技术助力银行风控策略组合优化

2023-01-14罗勇

银行家 2022年12期

罗勇

利率市场化改革的深入和数字经济的发展，促使越来越多的服务向数字化、线上化迁移，突如其来的新冠肺炎疫情更是加速了这一趋势，银行开始谋求业务的数字化转型和突破。2021年《数据安全法》与《个人信息保护法》的出台，与《网络安全法》一同形成了数据合规领域的“三架马车”，监管政策强度日趋加大，银行数字化转型既要通过海量客户行为数据准确识别客户、营销获客、控制风险，又要确保客户信息安全，符合数据使用的法律规定，数据的保护意识和对数据价值挖掘的需求之间的矛盾开始日益凸显。

在此背景下，隐私计算技术逐步受到关注，Gartner在2020年和2021年连续两年将隐私增强计算列为最重要的战略趋势之一，并预测到2025年，60%的大型企业机构将使用一种或多种隐私增强计算技术；2021年6月，麦肯锡在《Fintech2030：全球金融科技生态扫描》中认为，自动因子发现、知识图谱和图计算，以及基于隐私保护的增强分析将发挥更大的价值，并将其列为金融机构应关注的首要技术趋势。通过多方安全计算、联邦学习、可信执行环境等相关技术将数据价值连通，推动数据安全共享，在多方数据融合的基础上充分发挥大数据所产生的价值，释放数据红利，正在成为各界实现数字化转型、推动数据要素化发展的创新解决方案。

金融行业风控能力建设面临数据难题

近年来，风险控制能力越来越成为金融行业的隐形门槛。信息不对称，个人、企业用户信用记录缺失，人工核验成本高，逾期客户的风险识别困难等，都对金融机构管控风险带来了很大挑战。特别是近几年金融业务快速发展，恶意欺诈、过度消费、重复授信等乱象浮现，并且手段越来越专业化、产业化、隐蔽化和场景化。而传统风控手段因维度单一、效率低下、范围受限等原因，越来越难以满足复杂的场景应用需求。金融行业需要各个行业维度的数据去覆盖各类业务产品与风控需求，从而能够使业务人员及时准确地洞察不同来源与业务场景的风险行为变化。而大数据分析的风控手段又常常依赖于数据，但数据滥用又带来了数据隐私安全问题。同时，并不是有越多的数据补充就越能有效提升风控能力。样本缺失、数据质量不高、有效数据维度欠缺等问题，使得通过挖掘数据价值来提升风控模型效果与保证风控数据的可用性在双向平衡性中进退维谷。

传统的风险控制流程大致经历了两个阶段——传统风控和大数据风控。传统风控偏向线下，包含人工审核环节，审核时间长，用户体验不太好；大数据风控偏向线上，依赖海量的数据，人工和机器审核相结合，支持批量和实时处理，用户体验较好。然而，随着互联网的高速发展，大数据风控同样面临一系列挑战。

总体而言，数据不足，分享不够。数据是大数据风控的血液。数据的可得性、全面性、准确性决定了大数据风控的生命力。金融机构可以在大数据风控的模型构建方面发挥主动性，也可以自己积累数据；同时，外部数据特别是互联网、政务数据也不可或缺。但目前很多政务等外部数据保存在不同地方，联通不够，导致众多的信息孤岛。

数据保护意识和数据融合矛盾凸显。随着数据相关法规的陆续出台，个人隐私保护意识逐步增强，对数据的获取和融合难度也逐渐加大。

易受到隐蔽化、团伙化的攻击。大数据风控的数据来源和运营过程都在线上。网络攻击可以在任何时候、任何地点发动，难以预测，隐蔽性强。这就要求风控策略加快迭代速度、缩短周期，同时还要保证不损失风控精准度。

联邦学习技术正成为解决金融风控问题的关键

上述问题是金融行业风控领域的常见问题，而隐私计算技术的应用正在成为这些问题的一个有效的技术解。隐私计算是面向隐私信息全生命周期保护的计算理论和方法，是隐私信息的所有权、管理权和使用权分离时隐私度量、隐私泄漏代价、隐私保护与隐私分析复杂性的可计算模型与公理化系统。它可以在保证数据提供方不泄露原始数据的前提下，对数据进行分析计算，实现数据在流通与融合过程中的“可用不可见”。其中，联邦学习（Federated Learning）是一种多个参与方在保证各自原始私有数据不出数据方定义的私有边界的前提下，协作完成某项机器学习任务的机器学习模式，在金融领域更具可用性。

一方面，联邦学习技术可以在保护用户信息不泄露的前提下将多元、多维度的数据纳入联合风控模型中，从而实现更精细的洞察，构建更精准的风控模型。另一方面，金融机构与外部机构之间也可基于联邦学习技术，利用多维度数据建立联合金融风险模型、择优导流、共享黑名单等，在数据没有离开本地的情况下，扩充多方特征或样本，提高模型效果（见图1）。

图1 联邦学习示意图

在金融风控领域，联邦学习技术主要有如下应用场景：一是择优导流。可基于银行风险标签，和合作机构的客户交易、浏览等行为数据构建联合风控模型，提高消费贷、小微贷等信贷产品引流的客群质量，提升信贷审批通过率，把控贷款风险。二是贷前准入。可基于外部数据构建风控模型及风控规则作为信贷决策流的补充，提高贷前风控能力。例如，通过税务、用电、发票等数据衡量小微企业的经营状况及风险水平，促进普惠金融。三是贷中预警。可针对银行贷款客户，与外部机构共同构建贷中预警模型，量化违约概率，联合监控贷中违约风险。四是联合反洗钱、联合反诈。即可与多金融机构共建反洗钱、反欺诈模型。五是黑名单共享。即可与多机构共享黑名单，而不泄露查询客户。

联邦学习等新技术在银行业的应用实践

以某银行的数据贷款产品为例，旨在展示银行无需大范围改变风险控制流程，但在最小样本的前提下，基于联邦学习、回溯推演等新技术，通过持续迭代的闭环，实现银行风险控制策略组合的最优化，最大程度提升银行的获客精准度和客户质量，有效降低银行信贷产品的不良率和获客成本。

联邦学习技术的应用，实质上跨越了传统多方信贷业务的数据壁垒，为风险策略优化提供了可靠的外部数据支撑。因此，结合联邦学习的应用特点，风险策略优化应采用新的迭代路径，以期充分利用外部数据价值。

新技术应用的价值体现，主要体现在以下几个方面（见图2）。

图2 基于联邦学习技术的风险控制策略组合优化

联邦学习的技术价值：客户KYC、精准画像与智能导流。联邦学习平台打通了行内与行外数据可信交换的安全通道，构建了银行通用的数据产品库，助力了银行数字化金融转型。基于此平台，可在银行与政务企业、互联网企业、其他机构之间架设安全的数据桥梁，提升数据安全及隐私保护水平；降低金融信息壁垒，激发业务创新；提升金融风险防范能力，促进行业健康发展。在联合风控方面，可实现择优导流、贷前准入、贷中预警、联合反欺诈、黑名单共享等场景应用；在精准营销方面，可实现获新、高潜客户挖掘、交叉营销等场景应用。

大数据风险控制技术价值：风控策略可视化、可定制及可监测。银行风控系统提供信贷业务贷前、贷中、贷后全生命周期的风控业务决策结果输出，能准确识别客户和风险，贯穿信贷业务全流程，提供一站式解决方案。一是实现风控数据特征管理，包括风控策略配置、模型管理以及发布和测试管理等，同时可实现反欺诈策略、数据采集和管理，以及对风控中各类名单的管理；二是实现风控策略的实时调用和决策，以及支持全自动、半自动、人工审核方式；三是实现风控预警规则管理和预警处置；四是实现风控运营分析，满足风控运营管理需求。在数据运营方面，联邦学习技术具备完备的数据结构体系和完善的运营支撑能力，通过对资产、产品、渠道、营销、风控等全方位的监控和预警，全流程监控报表，可视化前端展示，可实现风险及时预警、前瞻性预测，驱动业务和风控的优化和提升，满足互联网业务的高频迭代需求。

交易日志回溯技术价值：策略可回溯，决策有依据，效果可预估。传统的风控流程往往以串行为主，导致流程节点靠后的规则缺乏充分的进件样本进行分析验证，策略的调整甚至下架主要依赖专家经验。银行风控系统创新性引入了并行化的风控规则设计，产品上线以来积累了大量数据样本。基于回溯推演平台，可实现针对历史生产数据的策略回溯功能，根据历史积累的样本和所有规则集的结果，推演不同渠道、不同客群、不同策略阈值的通过率、逾期率等业务指标的预期表现，实现效果可预估、调整有依据。可视化的前台展示为风险人员提供了包括预期通过率、拒绝原因、逾期率表现等在内的风险表现分析和相关报表展现，为风险人员的风险决策提供了便利。借助于大数据的算力可实现决策流程中决策节点之间针对大量风险规则的自动寻优，寻找阶段性最优解，并由风险策略人员通过回溯平台进行策略变更前后的全流程验证，为智能化风险决策提供依据。通过此平台，可改变原有仅通过专家经验进行风险策略迭代的现状，实现风险策略的快速、智能化迭代，快速提高产品的通过率，提升导流客户的使用率，从而加大合作机构的流量投放，提升机构合作意愿，实现双赢。

在保障数据可用不可见的前提下，联邦学习技术的应用作为基础能力，可以服务于银行业务部门开展数字化产品创新，如与客户开展银企、银政等数据智能决策方面的合作，核心企业集团总部与附属机构、上下游企业开展数据共享等场景。在银行数字化产品创新方面，基于闭环的风控能力，可以帮助银行开展数字化信贷产品创新，提供数据交互、风险决策、贷后监控等底层技术能力；在与客户开展数据智能决策合作方面，面向大流量平台、政府机构等，可以通过联合建模的方式提供场景金融服务，有效利用场景数据拓宽获客渠道和收入来源；在服务数字化转型方面，可以为一些有数字化基础的核心企业总部，提供金融科技赋能，辅助其整合集团与附属机构、上下游企业的各类数据，实现企业集团内部的数据共享，提高内部管理效率，进而实现数据变现。

基于联邦学习、回溯推演等新技术，通过持续迭代，风控策略组合不断优化。经过ABTest生产验证和投产部署，在风险管控上表现亮眼、成绩突出。通过分析组合风控策略执行前后的有效数据样本，比对前后不同风险维度数据，风险管控成效重点表现在以下三个方面。

资产规模快速提升。在整体流量不变的情况下，依托授信通过率大幅提升420%、件均授信增加10%、资产规模呈倍数增长。这在当下数据合规趋严的大背景下，降低了有效准入人均数据成本，在资产规模提升的同时，进一步压降了无效成本的支出。

客群质量显著提升。产品在授信准入时，除满足风险规则外，也要满足一些模型分数。综合客户模型准入率由17.17%提升到51.59%，传统客户模型准入率由26.58%提升到59.51%。此外，新增准入的客户并非集中在通过线上的中低分段，而是在各高分段线性增加，表明客群质量在组合风控策略下有明显提升。

较好捕捉风控规则。渠道引流通过率低的原因很大程度上是渠道方不知道银行的准入规则，但在银行准入规则不能泄露的情况下，前筛模型筛选后的客户能否降低命中规则成为评判前筛模型的重要标准。目前前筛规则能够较好捕捉客户多头申请和共债、收入过低、非银机构借贷等维度的规则，这些维度规则的命中率平均下降20%。前筛规则实现了客户精准画像，增大了符合银行准入客户流量。

综上，在新技术下，风险控制策略组合持续迭代优化，实现了精准捕捉客户画像、客群质量显著增加和资管成效全面提升。

结论和展望

联邦学习技术是在保障数据安全的前提下实现数据价值流通的一种重要技术手段。技术价值的凸显和政策环境的助力，使联邦学习技术在数据相关产业悄然兴起。在算法协议不断优化、硬件性能逐步增强之下，联邦学习技术的可用性大大提升，越来越多的企业入局隐私计算的研发和产品化。金融机构利用联邦学习技术可对运营商、政务、征信等数据实现应用场景所需的价值融合，从而为用户提供安全可信任的聚合金融服务。基于内外部数据合作，在联合风控方面，可实现择优导流、贷前准入、联合反欺诈、黑名单共享等场景应用；在精准营销方面，可实现获新、高潜客户挖掘、交叉营销等场景应用。

在传统的银行风险控制流程基础上，利用联邦学习和回溯推演等新技术，通过持续迭代的闭环，实现在最小样本的前提下风险控制策略组合的最优化，具有较强的可行性和推广性。