基于改进Tri-Training算法的大数据保险业客户分类研究

2018-05-25林志鸿

韶关学院学报 2018年3期

林志鸿

（湄洲湾职业技术学院信息工程系，福建莆田351254）

经过改革和重组后，我国保险市场呈现了以多个大规模保险企业为主，数量不断增长的众多小保险企业为辅的格局.同时，国外的大型保险公司也进入我国保险市场，我国保险企业面临着激烈的竞争.我国保险公司需要寻求新的盈利模式，才能够在激烈的竞争中立于不败之地.目前，信息技术正处于迅猛发展的阶段，几乎各个领域都涉及到正在快速增长的大数据.大数据的增长速度保持在60%左右.在大数据背景下，保险业发展的根本就在于建立良好的客户管理体系.保险行业需要依据大数据资源确立健全的客户评价体系，进行相应的客户评价和分类.通过对客户的细分，保险公司能够有效地采取相应的客户战略，针对不同的客户群体特征，选择不同的保险产品，实现客户资源的优化.为了提高保险业客户分类的有效性，应该选择一种行之有效的分类方法.半监督学习技术是新型的机器学习方法，能够同时使用标记和未标记样本，通过未标记样本为辅助手段，获得最佳的保险业客户分类效果，非常适用于保险业客户大数据的处理［1］.

1 保险业客户细分的指标

对于保险业客户大数据的特点，首先应对保险业客户的信息有一个基本的了解，针对保险业客户的行为特点，建立适宜的客户细分指标体系，能够确定客户的行为特征，分析出客户能够带来的利润，确定具有较高企业价值的客户［2］.依据RFM理论，保险业客户可以通过R（相邻两次购买保险产品的时间间隔），F（在一个时期间购买保险产品的次数）和M（在一个时期购买保险产品的金额）进行客户细分.针对目前保险业客户大数据的特征，增加了相应的客户细分指标，主要包括：客户的基本信息、客户的交易行为、客户在保险企业浏览、检索等操作特点以及客户购买保险后续保的状况等.

2 改进Tri-Training分类算法的基本理论

Tri-Training算法对采样进行标记，可以形成3个带有标记的样本集合，能够确保3个样本集能够具有普遍意义，能够涵盖全部类别，避免带标记样本均衡的缺陷.改进后Tri-Training算法具有更好泛化性能，能够获得更高的分类正确率.首先，将不同样本集取出，接着，对不同样本进行随机采样.算法利用随机采样法确定样本集类别数，定义为H，再确定不同类别样本的数量，利用随机采样函数从每个类中任意选取标记样本，这样就获得了3类标记样本集.算法流程如下：

输入：带标记样本集（定义为L），没有标记样本集（定义为U），测试集（定义为T）和分类器（定义为H）.

输出样本：利用分类模型对测试集进行分类所获得的分类精度［3］.

步骤1：利用样本集对分类器进行训练.

步骤2：利用分类采样技术将样本集L划分为3个子集合，从而获得3个带标记的样本集，定义为Li（i=1,2,3）.

步骤3：利用3个带有标记的样本集训练3个分类器Hi（i=1,2,3）.

步骤4：进行分类器分类错误率的初始化（ei=0.6）.分类器的分类性能利用如下的公式进行判别［4］：

步骤5：进行未标记样本的预测分类，进行分类器的迭代训练.

步骤6：循环执行步骤3～步骤5，当分类器的分类错误率不变时，分类器预测迭代结束.

步骤7：训练好分类器后，利用分类器对测试集进行分类，确定分类器的分类正确率.

步骤8：算法结束.

3 基于改进Tri-Training算法的大数据保险业客户分类流程

基于改进Tri-Training算法的大数据保险业客户分类主要包括：大数据输入、数据预处理、分类器迭代训练和分类结果4个部分［5-7］.

（1）大数据输入：将收集的数据输入至大数据保险业客户分类系统.

（2）数据预处理：提取保险业潜在客户的特征，选择恰当的基本特征对保险业潜在客户所蕴藏的属性进行量化处理，获得分类器需要的数据格式.利用仿真程序进行保险业潜在客户大数据的预处理，在构建保险业客户分类模型时，选择保险业客户细分指标为基本特征，能够验证改进Tri-Training算法的鲁棒性.

（3）迭代训练：分类器的迭代训练师通过数据预处理所获得的客户细分集，对分类器进行相应的训练，同时能够对分类器进行测试.利用改进的Tri-Training算法对3个分类器同时进行训练.分类采样技术是通过提取标记样本集中不同类的保险业客户，再针对提取的不同类别的客户样本进行随机采样，能够获得3个带标记的样本集合.重复这些步骤得到的样本集训练不同的分类器，通过训练后的3个分类器共同对没有标记的样本集中各个样本进行标记.相对于一个分类器对未被标记样本的分类，其他两个分类器如果得到相同的结论，此时这些未被标记的样本将归入至这个分类器的带有标记样本集中，并且利用该分类器对新的样本集进行迭代训练，当分类器的分类结果不变化时，迭代训练结束.

（4）分类结果：将最终保险业大客户的分类结果输出.

基于改进Tri-Training算法的大数据保险业客户分类流程见图1.

图1 基于改进Tri-Training算法的大数据保险业客户分类流程

4 实例研究

随机从10个保险公司分别选取1 000个客户，共10 000个客户，其中7 000个客户为训练样本（训练集中标记样本的比例40%），3 000个客户为测试样本.利用改进的Tri-Training算法对其进行分类，将客户划分为6类，分别为黄金客户（购买保险的需求较多的高端客户，对于该类客户一定要建立良好的客户关系），重要发展客户（保险销售的主要目标群体，通过有效的收集刺激该群体的购买欲望）、重要挽留客户（容易流失的投保能力强的客户，应该努力保留这类客户）、重点维持客户（购买能力有限的投保群体，该类客户对于保险公司利润贡献是一定的）、普通客户（无法从中获得利润的群体，只要保持一般的维持关系即可）和无价值客户（该类客户对于保险公司利润基本无作用，可以放弃的群体）.

分别利用传统的支持向量机、传统的Tri-Training算法和改进的Tri-Training算法对样本进行训练，最终对测试样本进行测试，测试结果见表1.基于改进的Tri-Training算法相对于支持向量机和传统的Tri-Training算法具有更高的分类准确率，能够有效地对大数据保险业进行分类，能够根据分类结果，针对不同类别客户的特点，选择不同的应对策略，确保公司的利润.

表1 保险公司客户测试样本分类结果（标记样本的比例40%）

为了分析标记样本比例对分类准确率的影响，将标记样本的比例从40%提高至60%，进行相应的保险业客户分类，测试结果见表2.当测试样本中标记样本的比例从40%增加至60%时，对于不同的客户类型获得的分类准确率都有提高，结果表明，随着测试样本集中标记样本比例的增加，保险业客户分类结果的准确率将随之增加.

表2 保险公司客户测试样本分类结果（标记样本的比例60%）

5 结论

保险业正处蓬勃发展的阶段，提升客户关系管理是增加保险企业利润的关键.在大数据背景下，有效地对客户进行分类，使保险公司能够有效地识别不同的客户群体.针对不同的客户特征增加新的保险业务，能够极大地提高客户满意度，提升保险业的服务质量.利用改进的Tri-Training算法提升了大数据保险业客户分类的准确率，仿真分析表明改进的Tri-Training算法能够提高大数据保险业客户分类的精度，将其应用于保险业客户分类中具有较好的可行性，能够提高保险业客户细分的性能，这样就能够极大地提升保险业的市场战略水平，提升保险公司的核心竞争力.

［1］李品睿，许守任，许晖.基于RFM模型的核心客户识别与关系管理研究——以保险业为例［J］.现代管理科学，2015（6）：24-26.

［2］葛春燕.数据挖掘技术在保险公司客户评估中的应用研究［J］.软件，2013，34（1）：116-118.

［3］张栩晨.利用 tri—training 算法解决推荐系统冷启动问题［J］.计算机科学，2016，43（12）：108-114.

［4］徐海龙，龙光正，别晓峰，等.结合tri-training半监督学习和凸壳向量的 SVM主动学习算法［J］.模式识别与人工智能，2016，29（1）：39-46.

［5］彭雅琴，宫宁生.一种自适应的 tri-training 半监督算法［J］.计算机系统应用，2016，25（8）：130-134.

［6］胡学钢，马利伟，李培培.一种基于 tri-training 的数据流集成分类算法［J］.数据采集与处理，2017，32（5）：853-860.

［7］王雷，杨思春.基于改进 tri-training 算法的中文问句分类［J］.安徽工业大学学报（自然科学版），2016，33（2）：172-176.