联邦学习在保险行业的应用探索
2023-08-31陈晓静杨润昌上海对外经贸大学金融管理学院
陈晓静 杨润昌 洪 璟 上海对外经贸大学金融管理学院
联邦学习作为隐私计算的一种,一方面,可以助力保险行业实现精准营销,细分客户需求,提供差异化的保险产品;另一方面,可以提高保险行业对风险评分、风险筛查和反保险欺诈监测的风险管理能力,使更多保险机构服务中小微企业,提升服务实体经济的水平。同类保险公司的保险产品类似、客户特征相近,保险公司可以建立横向联邦学习框架,得到更加精确的风控及定价模型。保险公司与医院、通信公司等其他行业机构开展数据合作,建立纵向联邦学习框架,从更多维度对客户进行画像,提高业务水平,防范保险欺诈。我国保险业逐步进入高质量发展阶段,需要加快转变发展方式,以更加积极的心态迎接行业转型,而联邦学习则为保险业创新发展提供了一种新思路。
一、联邦学习在保险业的应用场景
联邦学习由数据源、联邦学习系统、多方客户端三大要素构成。联邦学习本质上是由各个参与方在本地将原始数据处理之后,进行模型更新,再对各个参与方的模型进行汇总优化,最后将得到的优化模型反馈给各个参与方。
根据参与方数据分布情况的不同,联邦学习可以细分为横向联邦学习、纵向联邦学习与迁移联邦学习。横向联邦学习是指在参与方用户重叠部分较少、数据特征相似性高的情况下,对数据按照横向(用户维度)进行切分,并取出数据特征相似但用户不同的部分进行训练。纵向联邦学习是指在参与方用户重叠部分较多、数据特征相似性低的情况下,对数据按照纵向(数据特征维度)进行切分,并取出用户相似但数据特征不同的部分进行训练。迁移联邦学习是指在参与方用户与数据特征重叠部分都较少的情况下,采用迁移学习代替数据切分,以规避数据切分后规模较小的问题。
根据是否具有中心服务器,联邦学习架构可以细分为去中心化联邦学习架构和中心化联邦学习架构。去中心化联邦学习架构不需要中心服务器,各个参与方将自有的原始数据在本地处理后梯度发送给下一个参与方,与其所有的数据进行迭代。在每一个参与方都进行迭代运算更新模型之后,再将最终的模型分发到各个参与方,以达到联邦学习的目的。
根据业务安全等级的不同,联邦学习可以分为高安全等级业务和低安全等级业务。其中,高安全等级业务包括智能风控、反保险欺诈等;低安全等级业务包括智能营销、智能运营等。
(一)高安全等级业务
1.智能风控
保险公司进行风险控制所面临的难题主要有以下几点:第一,内部数据质量欠佳。传统保险公司收集客户信息主要通过保险营销员进行面对面的沟通验证,获取的数据质量参差不齐,部分数据不能满足保险业或者保险公司的要求。第二,内部信息割裂。保险公司承保、理赔等各个环节的数据信息流动不畅,甚至各省市分支机构内部数据的共享也难以进行。第三,与其他保险公司合作困难,缺少统一可信的信息数据共享平台。另外,从所需的数据类型来看,保险公司的风控活动除了依赖内部数据,同时需要收集以下数据:行业欺诈观察名单、公共记录、第三方聚合数据、社交媒体数据和个人设备数据。值得注意的是,非结构化数据的使用率从2018 年的不到50%飙升至2021年的81%。
联邦学习实现了数据融合、联合建模以及模型发布等一体化方案,提高了大数据风控能力,提升了风控效果。大量非结构化数据需要利用联邦学习进行处理分析,通过跨行业、跨公司建立联邦学习框架,可以充分利用多维度的特征数据,建立全方位的风险防控体系。以美国医疗信息局(MIB)为例,MIB为保险公司提供投保人在其他机构投保人寿保险的记录,以此帮助保险公司筛查不合理的投保与理赔行为。这种数据共享方式与联邦学习相比,多了一个数据信息的“中间商”,不可避免地会给保险公司带来综合治理成本的增加,而联邦学习直接将多方数据所有者联结在一起,在减少数据流通环节的同时,降低数据泄露的可能性。
2.反保险欺诈
同证券、银行等金融行业一样,作为金融业三大支柱之一的保险业面临着保险欺诈风险。在金融欺诈中,保险领域的欺诈比例尤为突出。国际保险监督官协会测算,全球每年有20%~30%的保险理赔案件涉嫌欺诈,损失金额约800亿美元。
反保险欺诈有四个难点:第一,传统的风险管理体系主要依赖人工,受员工业务水平以及职业道德影响,保险机构应对反保险欺诈的手段单一,难以实时察觉违规行为;第二,保险机构间缺少信息共享机制,客户的投保信息涉及个人隐私,受法律法规限制,难以在不同保险机构间共享;第三,保险诈骗罪的定罪量刑标准较高,使得犯罪分子有可乘之机;第四,随着科技进步,机器学习、知识图谱等技术得到广泛应用,反保险欺诈手段日益多样化。
针对层出不穷的保险欺诈现象,保险公司运用多种反保险欺诈技术。《反保险欺诈技术现状》研究发现,保险公司最常用的反保险欺诈技术包括:危险信号自动标记、预测建模、文本挖掘、报表制作、案例管理、异常报告和数据可视化/关联分析。基于单一保险公司数据构建的传统反欺诈模型难以应对更加复杂的欺诈手段,而联邦学习可以打破保险公司与银行、医疗机构等拥有投保人财务状况以及健康信息等行业间的数据孤岛现象,通过分析投保人的金融特征、健康状况等信息,构建反保险欺诈体系,为保险业风险管控提供更全面、完善的保障。
(二)低安全等级业务
1.智能营销
《2019 年中国保险行业智能风控白皮书》统计数据显示,保险公司一年中与客户的接触次数仅为1—2次,长期型保单如人身险只有在需要理赔或到期时,保险公司才会与客户联系,而车险等短期险如果没有保险事故发生,则一般不与客户接触。传统的保险销售工作由于与客户接触过少、了解不深,难以挖掘客户的潜在需求,而过度营销往往会催生客户的反感厌恶。联邦学习通过多维度客户画像,对不同客户的需求进行细分。一方面,联邦学习能够快速捕捉生产生活中的风险因子并进行定价分析,为保险公司创新产品提供便利,在市场竞争中占得先机,同时能够根据场景灵活定制保险产品,识别客户的潜在风险,提供差异化的精准定价,提升销售成功率,降低退保率;另一方面,联邦学习通过持续收集客户反馈信息,不断提高模型精确度,实现模型迭代升级,并随着市场的发展而不断完善。
2.智能运营
通过联邦学习,保险公司可以实现对客户的全维度用户画像,充分了解客户日常生活所需,通过对客户的特征标签进行分类管理,节省运营管理成本;同时,方便保险营销员与特定客户定期沟通联系,建立良好的客户关系,为保险公司创造更多的价值和利润。智能运营将保险从产品升级到服务,实现以单个保险产品的销售激发出潜在的多险种购买需求,并且以联邦学习为基础构建的人工智能能够实现24小时在线服务,更快地响应客户需求,降低人力成本。
二、联邦学习在保险业应用的挑战
(一)安全性挑战
虽然发明联邦学习的初衷是为了解决数据安全问题,但时至今日,联邦学习仍然要面对多种攻击带来的安全风险,主要有四种攻击:第一,投毒攻击。投毒攻击分为数据投毒攻击和模型投毒攻击。顾名思义,数据投毒攻击,是指在参与方的本地数据中加入错误、有偏差的数据,降低参与方模型的精确度,从而影响中心服务器模型的计算结果。模型投毒攻击,是指通过向中心服务器发送参数错误的模型数据,影响中心服务器的模型运算。第二,后门攻击,即通过注入对抗性触发器来操纵训练数据的子集,使得在被窜改数据集上训练的模型在嵌入相同触发器的测试集上出现错误预测,目的是使模型在特定样本上预测出错,而不改变其在其他样本上的预测结果(邱晓慧等,2022)。第三,搭便车攻击,即不进行本地数据处理,而是通过构建虚假参数发送至中心服务器,以此获得由中心服务器生成的最终模型数据。这种攻击方式具体又分为普通搭便车与伪装搭便车,后者更加隐蔽,危害更大。第四,女巫攻击,即通过伪造多个恶意节点,影响中心服务器的模型运算,导致最终模型丧失精确性。相较于搭便车攻击,女巫攻击的危害更大。
(二)技术标准不统一带来普及困难
目前,联邦学习的标准主要有国际、国内两大类。《联邦学习技术金融应用白皮书》显示,国际标准以IEEE 发布的《联邦学习基础架构与应用指南》(IEEE/P3652.1-2020:IEEE Guide for Architectural Framework and Application of Federated Machine Learning)为主。而国内标准则分为三个团体标准,第一个是中国信息通信研究院发布的《基于联邦学习的数据流通产品技术要求与测试方法》(BDC 41-2020);第二个是中国人工智能开源软件发展联盟发布的《信息技术服务联邦学习参考架构》(AIOSS-03-2019);第三个是中关村金融科技产业发展联盟发布的《联邦学习金融行业应用指南》(T/ZFIDA0004-2020)。目前,我国尚未形成全国统一的联邦学习技术标准体系。由于多方参与以及利用多种隐私信息计算的特性,不同的联邦学习技术标准体系将会对数据安全性、模型精确性等方面产生影响。因此,亟待有关政府部门或行业协会联合行业内的金融科技企业统一制订联邦学习技术标准。
(三)缺少模型评估以及激励机制
一方面,不同体量保险公司的客户数量差异巨大,头部保险公司更容易占据优质的客户资源,规模效应带来的低成本使得头部保险公司在个性化产品定价与建立精确的风控模型中处于有利地位;另一方面,中小型保险公司获取信息的渠道有限,所获取的数据量也难以满足风险建模需要。联邦学习仅提供了数据隐私处理的方法,无法解决激励效应不足导致参与方不愿意投入资源建设相关平台的现状。正如《联邦学习技术金融应用白皮书》所述:“建立联邦学习激励机制的难点在于,一是如何尽量公平地评估每个参与方的贡献量;二是如何吸引更多的机构参与联邦学习贡献其数据与计算资源,并形成正向激励;三是如何对恶意的参与方进行识别和惩罚,量化贡献价值并对联邦学习系统的最终模型性能进行建模。”
(四)技术能力不平衡
联邦学习需要参与方进行数据分析处理后上传平台,因此,每一个参与方的数据处理能力应当尽量相当,否则会出现因数据处理速度不同,导致其他参与方在模型迭代过程中需要等待较长时间,最终影响模型建设的效率,增加各个参与方的运营成本。《反保险欺诈技术现状》调查显示,有68%的受访者表示,有限的IT 资源是反保险欺诈最大的挑战。技术能力以及资源的不足导致中小型保险公司很难有效地参与联邦学习框架。
三、联邦学习在保险业应用建议
(一)设定激励机制
激励机制的设定主要从两个方面考虑,即正向激励机制与反向激励机制。正向激励机制鼓励参与方尽可能整合数据资源以及提高数据质量,而反向激励机制则是对贡献数据量较少以及数据质量不高的参与方采取惩罚措施。第一,激励机制的设定可以从数据的数量及质量入手,比如数据贡献量较大的参与方可以向数据贡献量较少的参与方收取一定的费用,从而提高行业内头部保险公司数据共享的积极性。第二,以政府为核心建立信息数据共享中心,这样既能够保证数据的高质量,又可以确保本地数据的安全性,同时还可以为金融监管提供便利。
(二)建设数据平台互联互通
各机构的联邦学习平台一般都是基于自有知识产权的算法,引入更多的参与方需要对平台进行适配性调整。为了使数据流通管理更加便捷高效,业内应建立统一的标准数据库,采用相同的技术协议,如此既可以减少平台维护成本,避免资源浪费,又可以使数据共享流程易于操作。同时,构建数据共享平台有利于数据确权,保护数据所有者的合法权益,避免数据被滥用,也便于被监管。
(三)多种隐私计算技术助力信息数据安全
虽然联邦学习可以保证极高的隐私安全性,但通过模型反演,仍然可以使数据重现。因此,联邦学习需要其他辅助技术诸如可信执行环境、同态加密、安全多方计算等技术的支持,才能做到既保护隐私数据安全,又能高效地获得可靠的结果。以保险公司查询投保人疾病史为例,在该场景下,保险公司和医疗机构建立纵向联邦学习框架,保险公司需要向相关医疗机构提供查询条件,医疗机构根据查询条件进行查询并反馈结果。借助隐私保护计算的PSI(隐私集合求交)能够实现数据库数据及查询条件的“双盲”,保护数据和个人隐私的安全。再者,以智能风控为例,所需数据上传前要经过加密以及脱敏程序,授权使用的数据需要在区块链存证,既要对上链前的数据来源、生成机制、存储过程进行真实性交叉验证,又要做到上链后的数据使用可记录、过程可审计、不可篡改等。