APP下载

基于联邦学习的联合建模在保险行业的实践

2022-10-13蒋农

网络安全技术与应用 2022年8期
关键词:同态联邦保险公司

◆蒋农

(中国人民财产保险股份有限公司杭州市分公司 浙江 310000)

1 背景

我国正在全面深入推进“互联网+”战略,打造数字经济新优势。众多的传统行业拥抱互联网。在推进“数字化转型”的进程中,面临着“以产品为中心”向“以客户为中心”的战略转型。传统行业通过多年的积累,已拥有大量的客户数据,但主要是客户的交易数据,缺少客户的行为数据,难以洞察客户潜在需求。而互联网企业则相反,他们把持了巨大的流量资源,能够对客户的网络行为有更加全面的了解。传统行业希望与互联网企业进行客户数据共享来构建更为全面完整的客户画像体系。

但是简单的数据共享必定带来客户个人信息泄露问题。国家已经或正在出台的《数据安全法》、《个人信息保护法》等法律和《刑法》相关条款都规定了企业对和客户信息安全和个人隐私保护的义务。如何解决既能保护数据安全又能实现数据共享呢?联邦学习技术在这一领域开始发挥重要作用。

联邦学习构建了一个隐私保护机器学习系统,使得拥有数据的多方能够联合建立并训练数据模型,并且任意一方的数据都不会泄露给其他参与者,打破数据孤岛。

除了数据孤岛,企业也有保护核心高价值数据的需求,通过隐私计算和联邦学习实现数据的所有权和使用权分离是一种有效的解决方式。

2 联邦学习的分类

联邦学习最早在 2016 年由谷歌提出,其本质是一种分布式机器学习技术,或机器学习框架,目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果。

我们把每个参与共同建模的数据拥有方称为参与方,根据多个参与方之间数据分布、业态、数据特征的不同,把联邦学习分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习。以多家企业对客户数据进行联合建模为例,对三类联邦学习的适用场景解释如下:

2.1 横向联邦学习

横向联邦学习适用于各企业的业态相同但触达客户不同的场景,即客户特征重叠多,客户样本重叠少时的场景,比如不同地区的保险公司,他们的业务相似(特征相似),但用户不同(样本不同)。

在传统的机器学习建模中,通常是把模型训练需要的数据集合到一个数据中心然后再训练模型,之后预测。在横向联邦学习中,可以看作是基于样本的分布式模型训练,分发全部数据到不同的机器,每台机器从服务器下载模型,然后利用本地数据训练模型,之后返回给服务器需要更新的参数;服务器聚合各机器上的返回的参数,更新模型,再把最新的模型反馈到每台机器。

在这个过程中,每台机器都是相同且完整的模型,且机器之间不交流不依赖,在预测时每台机器也可以独立预测,可以把这个过程看作成基于样本的分布式模型训练。

2.2 纵向联邦学习

纵向联邦学习的适用于各企业的业态不同,但是触达的客户相同的场景,即客户样本重叠多,客户特征重叠少的场景,比如同一地区的保险公司和电信运营商,他们触达的用户都为该地区的居民(样本相同),但业务不同(特征不同)。

某保险公司拥有大量的精准车险客户数据,包括承保、理赔相关的标签,希望能与某电信运营商合作联合建模,以便挖掘到对宠物保险有需求的客户,因为电信运营商拥有相同的客户覆盖,但有额外的客户行为数据。但是由于国家的数据保护条款和各企业自身对数据的严格规定,双方都不能直接将客户数据与对方共享。针对这个问题,可以通过纵向联邦学习来解决。

两家企业的客户数据都有共同的ID,但是特征是完全不一样的,可以通过一方特征来弥补另一方特征的不足。首先进行用户匹配,需要找出用户的交集,但是不能泄露差集。通过 RSA 和 Hash 的机制,保证双方最终只用到交集部分,且差集部分不向对方泄露。这个过程中,各方的原始数据,以及数据加密态都没有被传输。双方通过损失中间结果,用同态加密的机制进行交互,模型训练完之后,会各自得到一个模型,各自的模型会部署在各自的一方。

2.3 联邦迁移学习

当参与者之间数据特征和数据样本重叠都很少时可以考虑使用联邦迁移学习,如不同地区的保险公司和电信运营商之间的联合。

迁移学习,是指利用数据、任务或模型之间的相似性,将源领域学习过的模型,应用于目标领域的一种学习过程。迁移学习的核心是,找到源领域和目标领域之间的相似性,即模型中的不变量。

3 同态加密技术

前文中提到联合建模双方通过同态加密的机制进行数据交互。同态加密可以不通过对数据进行解密,而直接进行运算。

传统的加密技术存在一个问题:原始信息倘若经过AES或DES等加密方式进行加密后,就无法再将其运用到其他计算工作中去了。而通过同态加密的方式能对数据加密后仍然可以下对其进行相应的数据计算。

同态加密分为全同态加密、部分同态加密和层次同态加密。全同态加密可以对相关数据进行多次的乘法和加法运算,例如f(En(m1),En(m2),…,En(mk))=En(f(m1,m2,…,mk))。部分同态加密是指同态加密算法中仅对于加法或乘法有同态的性质,部分同态加密能做的事情,全同态加密也能做;但是全同态加密一般计算开销比较大,所以部分同态加密方案够用的时候没必要选用全同态加密。层次同态加密算法是指可进行有限次的加法或乘法运算,它较部分同态加密算法有较高的效率,也有广泛运用,如BGN 算法、姚氏混淆电路等。

联邦学习模型训练整个过程的本质是通过局部算子的安全加密,然后利用同态加密的性质进行联合运算,隐藏各自局部信息的过程。首先,B方对特征进行同态加密,然后给到A方,A方会对自己的特征进行分箱处理,在分箱中进行密文求和的操作,再把结果给到B方进行解密。在这个过程中,没有明文数据传输,A方不知道B方的特征值,同时B方也不知道A方特征值,从而在安全隐私保护的情况下,完成了特征工程的计算。

4 联邦学习开源框架

目前业界中主要的联邦学习框架有FATE,TensorFlow Federated,PaddleFL,Pysyft等。

FATE(Federated AI Technology Enabler)是微众银行AI部门发起的开源项目,为联邦学习生态系统提供了可靠的安全计算框架。FATE项目使用多方安全计算(MPC)以及同态加密(HE)技术构建底层安全计算协议,以此支持不同种类的机器学习的安全计算,包括逻辑回归、基于树的算法、深度学习和迁移学习等。FATE提供20多个联邦学习算法组件涵盖LR,GBDTDNN等主流算法,覆盖了常规商业应用场景建模需求,涵盖联邦特征工程,联邦机器学习模型训练,联邦模型评估,联邦在线推理。

谷歌开源的TensorFlow Federated框架较好地支持横向联邦学习。其中,可以通过FederatedLearning(FL)API,与Tensorflow/Keras交互,完成分类、回归等任务。用户也可以通过其提供的FederatedCore(FC)API,通过在强类型函数编程环境中将TensorFlow与分布式通信运算名相结合,简洁地表达新的联合算法。

PaddleFL是一个基于PaddlePaddle的开源联邦学习框架。它提供很多联邦学习策略及其在计算机视觉、自然语言处理、推荐算法等领域的应用。此外,PaddleFL还将提供传统机器学习训练策略的应用,例如多任务学习、联邦学习环境下的迁移学习。PaddleFL 开源框架中包含了 DiffieHellman笔安全算子,及LR等机器学习算法。PaddleFL的优势在于通过与百度机器学习开源框架PaddlePaddle的交互,吸引相关生态开发者加入开发。

PySyft是用于安全和隐私深度学习的Python库,它在主流深度学习框架(例如PyTorch和TensorFlow)中使用联邦学习,差分隐私和加密计算(例如多方计算(MPC)和同态加密(HE))将隐私数据与模型训练分离。

5 联邦学习在保险行业中的实践

某财产保险公司与本地区的电信运营商合作,基于存量的客户交易数据,通过联邦学习构建多方共同训练客户模型,挖掘客户潜在需求。

5.1 联合建模过程

电信运营商基于FATE开源框架开发了“AI联邦学习平台”,并提供了企业间互操作的功能。运营商利用其覆盖了数亿用户、拥有数百特征变量的生态数据,包括用户基础画像、通话行为、上网行为、短信行为、账单行为、关系网络等,与保险公司丰富的业务场景结合,联合建模,可在精准营销、反欺诈、智能核保等方面进行应用。

联合建模首先确定统一的客户ID,如手机号码或身份证号作为模型的输入变量,同时兼顾应用场景需要,附加了其他可选特征码,如设备号、IP地址、WI-FI标识、MAC地址等,通过模型机器学习过程,输出为客户标签。

图1 服务架构和业务流程

5.2 挖掘车险客户的非车险需求

某保险公司以车险业务为主,并正在积极向非车险业务渗透。对于存量的车险客户,保险公司缺少非车险相关的客户标签。以开展宠物保险为例,宠物保险价格相对较高,面向的客户群必须有较高的认同性,只有精准筛选出目标客户才能获得理想的转化率。保险公司希望获取关爱宠物、有较高的收入的年轻人群,而这些标签在保险公司既有的客户画像中不存在。

而电信运营商却能通过客户的上网行为、使用APP的习惯、通讯记录等流量数据中,精准地捕捉到目标客户群。

通过联邦学习平台,保险公司、运营商在不泄露客户隐私的情况下共享了客户标签。通过精准营销,转化率为提高了一个数量级。

首先,保险公司对现有存量的客户数据按已有标签进行初步筛选,通过传统的客户分类方法实现了约9.5:1筛选率的漏斗,将漏斗输出的客户资源向数据交易平台发起查询申请。

然后,电信运营商开始对宠物保险标签建档,采用的模型规则有:URL规则,即特定宠物相关网址的规则,宠物相关活动场所的电信消费规则等。模型初步建好以后,用Y样本进行验证,即用于评估效果好坏的历史用户情况,比如针对有宠物险需求的用户进行短信、电话等触达,了解其中哪些客户是有意向进一步了解宠物保险内容的,哪些是已购买宠物保险的。通过验证,修改或改善模型。

双方确定客户样本对齐ID:首选为手机的IMEI号或手机号。

联邦学习平台调用保险侧引擎和电信侧引擎,开始联合建模,并进行模型训练。

经过几轮训练,保险公司得到客户本地样本,获取了额外标签。

保险公司根据新产生的标签实施精准营销,二次筛选率约为52:1,最终的营销对象锁定在总客户数量的1/500左右,以最低的营销成本换取了19%左右的转化率。

5.3 保险个性化定价

传统保险公司想做个性化定价是一件非常困难的事情。由于数据量不足,对客户的画像不够全面,做千人千面的定价是非常难的。通过与互联网企业合作,可以融合海量的客户行为数据,极大地扩充客户标签,对客户实施精准分类、精准定价。

保险公司拥有承保和理赔数据等几十个维度的数据,合作互联网企业拥有客户的人口属性、职业、兴趣爱好、教育状况、财务状况等几百个维度的数据。通过架设联邦学习平台,实施客户精准分类,构建了一个基于联邦学习的保险定价机制。

6 结束语

互联网企业拥有的海量数据对于传统金融行业及机构来说是数字化转型的有力驱动力。基于联邦学习的智慧金融能实现保护数据安全基础上打破数据壁垒,实现行业上下游业务场景的深度结合,解决保险企业、中介机构及代理人数据孤立、客户精准分层等困扰。联邦学习概念的落地,需要传统行业和互联网行业共同努力,借助开源框架或收费框架,搭建符合实际需求的平台,并通过合理的商务合作模式保证合作双方的利益,推进“互联网+”战略有效实施。

猜你喜欢

同态联邦保险公司
保险公司和再保险公司之间的停止损失再保险策略选择博弈
一“炮”而红 音联邦SVSound 2000 Pro品鉴会完满举行
关于半模同态的分解*
拉回和推出的若干注记
不慎撞死亲生儿 保险公司也应赔
保险公司中报持股统计
303A深圳市音联邦电气有限公司
保险公司预算控制分析
一种基于LWE的同态加密方案
HES:一种更小公钥的同态加密算法