机器学习算法保险场景应用

2020-05-06贾延延

合作经济与科技 2020年9期

□文/贾延延冯键

（1.中国再保险（集团）股份有限公司博士后科研工作站；2.中国科学院计算技术研究所；3.中国再保险（集团）股份有限公司信息技术中心北京）

［提要］各行各业在生产运营过程中，不断产生珍贵的数据资产，这种积累的大数据，为机器学习算法的发展提供了良好的基础，如何利用机器学习算法挖掘大数据中蕴含的价值和规律关乎企业的核心竞争力。本文分析各种机器学习算法的特点，剖析保险企业的发展痛点，探讨如何用机器学习算法赋能保险企业发展，并给出金融科技的典型应用案例。

一、引言

人工智能是计算机科学的一个分支，它利用计算机模拟和扩展人类智能，它包括自然语言处理、图像分析、语音识别、机器人等多个子领域。机器学习算法是人工智能发展到一定阶段的产物，正是强大的机器学习算法创造了自动驾驶、智能家居、语音助手、人脸识别等各种方便人们生产生活的技术条件。不仅如此，在人工智能时代，金融企业也不甘落后，大力倡导金融科技。如何用技术赋能传统金融行业，如何用机器学习算法挖掘大数据所蕴含的商机是所有金融企业正在认真思考的问题。

二、机器学习算法概述

（一）机器学习的概念。机器学习旨在研究如何通过计算机手段，利用经验来改善系统自身的性能。此处，经验可以理解为数据，机器学习算法即为从数据中产生模型的算法。模型通常指从数据中学习得到的结果，可以是一条规则也可以是一棵决策树或者是其他的表示形式。通俗来讲，机器学习是指通过计算机学习数据中的内在规律，获得新的经验和知识，赋予计算机智能性，使计算机能够像人类那样去决策。

（二）机器学习算法分类

1、有监督的机器学习。有监督的机器学习算法使用带标签的训练数据集进行训练，输入由数据特征和标签两部分组成。按照预测标签的数据类型划分，若输出标签为离散值，则将这种有监督的机器学习算法称为分类算法；若输出标签为连续值，则为回归分析。典型的有监督学习算法，例如线性回归、支持向量机等。

（1）线性回归：以最基础的线性回归模型为例来阐述回归分析的原理。通过样本属性的线性组合可以得到一个预测函数，如公式（1）所示，其中xi代表样本的某一个属性维度，wi和b表示待确定的权值和偏差。线性模型虽然简单，但是很多复杂的非线性模型都可以通过在线性模型的基础上加入高维映射或者层级关系得到。线性回归即试图学习到一个能够尽可能准确的预测样本实数型输出的线性模型。

（2）支持向量机：将样本集表示为｛（x1，y1），（x2，y2），…，（xn，yn）｝，其中，yi可以取正负两类，如何在样本空间中找到一个超平面，使得不同类别的样本被合理分开呢？这是分类学习的典型目的。如果存在若干个能将样本正确分类的超平面，选择哪一个超平面能提高分类鲁棒性呢？支持向量机（SVM）学习方法能解决这个问题，SVM法用公式（2）定义超平面，其中w标记了平面法向量，b为决定超平面和原点距离的位移项。根据公式，可以计算样本点到超平面的距离。支持向量为距离超平面最近的几个样本点。将异类样本点对到超平面的距离之和称为“间隔”，支持向量机法的基本思想即通过优化参数w和b，找到使得“间隔”最大的超平面。

2、无监督的机器学习。无监督的机器学习算法是指训练样本无标签，通过对样本特征进行分析，找出样本间存在的规律和关系。典型的无监督学习算法如K均值聚类和密度聚类。

（1）K均值聚类：K均值聚类算法的基本做法为：首先在样本集合中选择K个样本作为初始均值，这K个均值代表聚类中存在K个聚类簇。然后，重复下列操作：①计算每一个样本与各均值之间的距离。②根据每个样本点最近的均值向量确定样本点的簇标记，将样本点归入该簇。③新计算均值。直到均值向量不再更新。

（2）密度聚类：基于密度的聚类假设样本的密度反映了样本的聚类关系，通过样本密度来确定样本之间的可连接性，再通过样本间的可连接性划分聚类簇。

3、半监督的机器学习。半监督学习是有监督学习和无监督学习的结合，旨在利用未标记样本的信息来提升学习性能。典型的半监督学习算法如半监督支持向量机、半监督聚类等。

（1）半监督支持向量机：支持向量机法试图找到具有最大间隔的划分超平面，但是在半监督学习中，样本空间中存在大量的未标记类别的样本点，此时，半监督支持向量机法不仅要找到将两类有标记样本分开的划分超平面，而且此超平面必须穿过未标记样本的低密度区域。典型的半监督支持向量机法例如TSVM。

（2）半监督聚类：当在无监督聚类中引入某些“必连”或者“勿连”的监督信息时，无监督学习转化为半监督学习。此处“必连”是指样本必然属于同一簇，相应的，“勿连”是指样本必然不属于同一簇。典型算法如带约束的K均值算法。

4、强化学习。强化学习是指算法根据一定的概率（P）执行某种动作（A），改变自身的状态（X），获得某种奖励（R），与环境（E）发生交互的循环过程。学习目标是找到使得长期积累奖励最大的策略。

三、保险行业痛点

层出不穷的保险产品已经成为人类生命健康、财产安全的保护伞。然而，传统保险行业存在销售渠道单一、销售人员业务水平良莠不齐、保险条款晦涩难懂、保险理赔困难等严重制约保险业务发展的痛点问题。不仅如此，保险行业的科技化和智能化程度也令人堪忧，主要体现在以下几个方面：

（一）保险欺诈问题严重。据保监会统计，国际保险诈骗金额约占保险总赔付额的10%～30%，某些特殊险种的欺诈金额占比甚至达到总赔付额的50%。与发达国家相比，我国的保险欺诈问题更为严重。并且，无论在保险行业层面或者政府层面，我国都缺乏保险反欺诈的专业机构，难以利用高科技手段，大规模查杀保险欺诈行为；加之，对保险欺诈行为的行政处罚或经济处罚力度不够，使得保险欺诈问题成为保险行业发展的毒瘤，不仅增加了保险公司的运营成本，造成资源浪费，还极大地损伤了保险消费者的正当权益，破坏市场秩序。

（二）保险产品创新乏力。我国保险市场细分程度不高，保险产品结构相对单一；大量保险公司的产品理念过于保守，造成保险产品种类不够丰富，难以满足客户的实际需求。与主流电商平台相比，保险公司的科技化和智能化程度明显落后，难以充分挖掘历史保单信息的价值，无法高效实现保险产品的智能推荐和精准营销。更不善于利用科技手段分析历史销售数据，针对不同目标人群的特点开发新款保险产品。不仅如此，大量保险公司甚至急需数据治理手段，需解决将大量历史数据电子化、信息化的问题，然后才能为人工智能算法提供条件。

（三）承保和理赔环节智能化程度低。保险承保是指保险人对投保人所提出的投保申请进行审核并做出决定的过程。在这一过程中保险核保是尤为重要的一环。在这一环节中人工智能算法大有可为，然而目前保险核保的智能化水平还较低，造成了大量的资源浪费和效率损失。

保险理赔困难是长期困扰保险业的棘手问题。它是多方面原因造成的。一方面，我国保险销售职业门槛不高，从业人员数量巨大，但是人员综合素质普遍偏低，中高级从业人才稀缺。正是由于销售人员专业知识不够，对保险产品的权责不明确，单纯为了业绩而销售，并且从业人员流动性大。造成一旦出现赔付纠纷，消费者经常找不到负责人，进而对保险行业产生怀疑。另一方面，对于非专业人士的普通消费者来说，保险合同条款显得篇幅冗长，内容晦涩难懂，投保人很难独立理解保险权责，这使得消费者在投保的过程中天然的处于弱势地位。传统的依靠提升保险销售人员素质去解决保险理赔纠纷问题的效果是缓慢且微弱的。那么，变线下销售为线上销售，借助人工智能算法来另辟蹊径，改变投保人在保险知识层面的弱势地位就变得尤为重要。