K-means聚类在A保险公司客户细分模型中的研究

2021-10-28徐华杰

网络安全技术与应用 2021年9期

◆徐华杰

◆徐华杰

（华东师范大学计算机工程学院上海 200000）

实现客户管理、转变传统保险营销模式是保险行业大数据应用最重要的一个方向[1]。本文以上海市A保险公司的真实生产客户数据为基础，通过K-means训练客户样本数据，实现保险金融行业对客户的精准营销[2]。本算法基于平均轮廓系数（Average Silhouette Coefficient）寻找最优K值[8]和 K－means 算法搭建真实客户的聚类模型，然后基于改进的RFM客户模型进行聚类因子建模，迭代优化，该模型可用于产品开发师的设计指南，经真实市场验证可知，该模型可以提升保单投保率和续保率。

保险客户；K-means；RFM模型；无监督学习

1 引言

保险公司都有着大量的客户数据信息，对于千万级别的客户数据，大部分公司对其利用并不充分，造成了严重的资源浪费。而且随着不断变化的互联网金融环境，其原有的保险代理人中介营销模式已经无法应对当前的需求大环境，想要真正地实现精准营销，必须从客户数据源着手，通过技术手段进行数据挖掘，并对数据挖掘结果进行聚类操作，进而指定更加完备的精准营销策略。

本文所研究的客户分类技术将是以上海某保险集团真实客户数据为例，对保险公司客户数据整合利用的应用可以更加使系统从科学的视角将保险公司的源数据、技术手段和业务流程进行综合探究，客户管理不仅可以提高本项目组在公司内部的核心竞争力，还可以提高客户对公司品牌的忠诚度和公众认可度，同时还可以降低营销成本，大幅提升服务效率。

2 数据集提取和标准化处理

2.1 数据集提取

RFM模型是体现用户对公司价值高低的一种指标，本模型由三个指标组成，分别是用户最近一次购买时间（R）、指定周期内的消费频率（F）以及总消费金额（M），本研究基于特定的业务场景提出了LBTRM模型。

2.2 数据标准化

由于生产环境的数据库数据存在数据缺失、数据重复、数据不合理等问题，为保证聚类效果需要对数据集进行离群点删除、数据缺失值补填等标准化处理，数据处理流程如下：

2.2.1查看数据分布情况以及缺失值审查

本研究第一步是通过Python的数据处理包进行数据集基本信息的查看，原始数据的基本描述性信息包括所有特征的数据类型以及数值型特征的五值分布（mean、std、min、max、count），缺失值审查，包括查看缺失值的总函数。

第二步是查看不同属性间的相关联系性，相关性高就代表两个特征在建立模型的时候作用效果是一样的，为降低运算复杂度降低原始数据的维度，需要将其删除其一。由实验可知，身高和体重的相关性非常高，这两个属性模型的训练贡献度大体相同，可删除其一。

2.2.2类别变量独热编码

One-Hot编码又称为一位有效编码，比如性别存在两个类别，分别是男和女，那么其独热编码形式为[1，0]代表男，[0，1]代表女。本研究针对客户的性别、机构、是否吸烟、工作编码、支付方式、所在机构、是否结婚等特征进行独热编码。

2.2.3数据标准化处理

通过sklearn包中的API对独热编码前的矩阵进行标准化处理，然后合并所有维度，最后得到的是一个200000*334的高维矩阵。

3 平均轮廓系数以及K-means聚类

3.1 平均轮廓系数

平均轮廓系数（Average Silhouette Coefficient）是权衡聚类成果好坏的重要指标之一，它由簇内聚合度（Cohesion）和簇间分离度（Separation）两部分组成，其中簇内聚合度是衡量同一簇内样本点差别的参数，而簇间分离度是衡量不同簇间差异的参数，因而两者组合而成的轮廓系数综合反映了同一簇内和不同簇间的状况。

3.2 K-means聚类

K-means 作为一种无监督聚类算法在各种业务场景中得到较为普及的运用。聚类算法就是按照样本之间的相似度，旨在将没有标签信息的数据分为几个类别的过程，其中同一个类簇之间的样本相似度大，不同类簇之间的样本相似度小，这是在无监督学习的任务上完成的基本工作之一，K-means 是将给定数据集中的数据使用其不同特征进行聚类的算法模型，之所以称该模型为K-均值是因为它可以利用无监督学习，将数据集分为K个不同的簇，且每个簇的聚类核心点采用簇中所含值的平均值计算而来。簇的个数K是用户手动指定的，每一个簇经过其聚类核心点（即簇中所有点的中心）来描述。

“孩子，我对不起你……”范坚强失声道，“本来，你是不应该活着的，但你是我在这世上唯一的亲人了，当我看到你脖子上戴的玉佩时，我就知道，你是那个我找了二十多年的亲人。所以，才把你关在石屋里。你不知道，我每天在石屋外面徘徊，心里有多难过。”范坚强的话里带着几份凄凉。

3.3 K-means实验步骤和结果

3.3.1自动确定聚类数目

数据标准化处理后，经过平均轮廓系数测验得到最佳的KMeans聚类模型，由实验结果可知，ß当K=3时聚类模型效果最好。

本研究将K-means应用于实际的客户数据集，数据集标准化完成后，利用平均轮廓系数进行初始聚类数目的确定，确认完数目之后作为K-means模型的输入，进行聚类。

（1）实验结果

当K=3时，聚类效果最佳，聚类模型所生成的雷达图如图1所示。

（2）实验结果分析

对于第0类，可以从雷达图中看出，该类人群的年收入和负债都比较高，年龄都在中年偏上左右，此年龄段常常事业有成，收入不菲，但是房贷车贷家庭支出压身，该类客户为了更好地保护自己或者家人的安全会投健康险或者意外险等险种，公司规划产品时可以针对这两款险种进行一些创新和优惠，加大投保力度。

对于第1类，可以从雷达图中看出，该类人群的最大购买能力较高，但是收入较低，且该类人群普遍是未成年或者老年人，该类人群通常作为被保人或者受益人存在，公司在以后规划产品时可针对此人群设计教育保险套餐以及一些老年疾病保险。该类人群是最应该发展的人群。

对于第2类，可以从雷达图中看出，该类人群收入较高，但是最大购买能力较小，支付方式也大部分为趸交，所以公司在以后规划产品时可以设计价格较低并支持持续缴费的短期产品。

图1 客户聚类雷达图

4 讨论

结合目前在金融界的研究情况，成熟的保险公司收集了上千万的客户数据，但是大多数保险公司对其利用并不充分，造成了严重的资源浪费。而且随着不断变化的互联网金融环境，其原有的保险代理人中介营销模式已经无法应对当前的需求大环境，2018下半年，中国银保监会再次提出了“科技赋能，营销创新“的要求，受银保监会监管的保险公司即使有想改变传统销售模式的动机，却缺少科学的科技支持。想要真正地转变传统代理人营销模式，保留现有客户是关键，需要提升客户对企业的忠诚度，因此本文所探究的客户管理将以A保险公司生产环境的客户为依托，对客户进行分类梳理，客户管理不仅可以提高本项目组在公司内部的核心竞争力，还可以提高客户的忠诚度和公众认可度，同时还可以降低营销成本，可以大幅提升服务效率。结合以上客户管理的优势，因此本文提出并进行了以下工作：

（1）本文提出了将K-means算法应用于非图像数据进行聚类并介绍了K-means算法的原理和基本流程，随后介绍了平均轮廓系数的原理，分析比较并找到了确定最优K值的方法，实验得知平均轮廓系数所得出的K值进行模型训练时准确率最高。

（2）本文针对A公司客户提出了LBTRFM模型并人工制作数据集，并介绍了人工制作客户数据集的一般流程，包括去重、填补、独热编码等流程

（3）本文通过对分析K-means算法的缺陷提出了采用随机梯度下降算法进行迭代优化，从而降低落入局部最小值的概率。

5 结语

虽然本论文对真实保险客户进行提取并利用K-means模型进行分类，但在整个对保险客户挖掘的研究过程中仍存在着以下几点不足之处。

（1）是否存在比欧氏距离更好的度量公式来计算相似度，客户的不同特征对于客户画像的影响不尽相同，是否可以考虑对于不同特征加权，消除特征平行性。

（2）对于独热编码后的矩阵维度过高，是否要引入当前火热的深度神经网络进行特征提取，矩阵降维，再将降维后的数据输入进模型进行计算，减少模型计算时间。

今后研究的工作重点是探究适用于保险客户数据特征训练的神经网络，旨在提升算法的执行效率以及准确率。

[1]樊仙仙.基于聚类分析的 H 银行客户细分及营销策略研究[D].华东理工大学，2015.

[2]李艳君.K-means聚类算法在银行CRM系统客户细分中的应用[D].哈尔滨工业大学，2017.

[3]陈叶旺，申莲莲，钟才明，等.密度峰值聚类算法综述[J].计算机研究与发展，2020，57（02）：378-394.

[4]徐森，皋军，花小朋，李先锋，徐静.一种改进的自适应聚类集成选择方法.自动化学报，2018，44（11）：2103-2112.

[5]杨玉梅.基于信息熵改进的K-means 动态聚类算法[J].重庆邮电大学学报（自然科学版），2016，28（2）：254-259.

[6]Dutta Dipankar，Sil Jaya，Dutta Paramartha .Automatic clustering by multi-objective genetic algorithm with numeric and categorical features. Expert Systems With Applications，2019（137）：357-379.

[7]Ye Zong-Lin，Cao Hui，Zhang Yan-Bin，Jia Li-Xin. Outlier factor based partitional clustering analysis with constraints discovery and representative objects generation.Neurocomputing， 2016（173）：1538-1553.

[8]贾瑞玉，李玉功.类簇数目和初始中心点自确定的K-means 算法[J].计算机工程与应用，2018，54（7）：152-158.

[9]Arshad A，Riaz S，Jiao L. Semi-supervised deep fuzzy c-mean clustering for imbalanced multi-class classification.IEEE Access，2019（7）：28100-28112.