Apriori算法在保险业中的应用

2010-07-27于燕丽

中国新技术新产品 2010年1期

于燕丽

（1.中国海洋大学信息科学与工程学院,山东青岛 266071；2.青岛理工大学琴岛学院计算机工程系, 山东青岛 266106）

1 引言

客户作为企业的一种资产，对提高企业竞争力的重要性日益增加。在当前竞争激烈的商业时代,所有公司都纷纷从以产品为中心转向以客户为中心，保险业格外突出。如何找出新客户、失去的客户及老客户尤其是给公司带来最大利润的20%的“黄金客户”各属性间的关联规则[1]，同时又能以用户易理解的形式概括出来，这是决策者策划营销产品的关键。保险公司经过多年发展,已积累了大量宝贵的客户数据资源,如何处理这些海量数据,更好地汇总、分析这些历史数据并从中挖掘出业务内在规律,将其变为有用的信息和商机,将会主导未来相当长时间内各个保险公司的工作战略。

数据挖掘（Data Mining，简称 DM），简单的讲就是从大量数据中挖掘或抽取出知识。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识，这些知识是隐讳的、事先未知的、潜在有用的信息。[2]

常用的数据挖掘方法有：（1）关联分析。（2）序列模式分析。（3）分类分析。（4）聚类分析。（5）孤立点分析。在这些分类方法中,关联分析方法由于自身的优点而广被使用。

2 数据挖掘在保险公司客户管理中的应用

2.1 Apriori算法

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法[3]。其核心是基于两阶段频集思想的递推算法。该算法的基本思想：

2.1.1 找出所有的频繁项集：根据定义，这些项集出现的频繁性至少和预定义的最小支持度一样，即满足Support不小于Minsupport的所有项目子集。

2.1.2 由频繁项集产生强关联规则：根据定义，这些规则必须满足最小支持度和最小置信度。挖掘关联规则的总体性能由第一步决定。

频繁项集的生成原理：从包含每个项的C1中找出1项频繁集的集合L1。然后，连接LK-1产生K项候选集的集合CK，并根据Apriori性质删除那些具有非频繁子集的候选集。最后，扫描数据库一次，统计候选集的支持计数，与最小支持计数相比，形成频繁集。[4]

表1 数据样本

2.2 数据挖掘在某保险公司中的应用

2.2.1 数据预处理

现有某保险公司统计的个人投保数据若干，从中取出10人的三维数据作为解释说明算法应用代表，将这些数据作为抽样数据分析关联规则，以供公司决策层使用。数据见表1。

在表1中编号表示投保人保单号的唯一标识。insurance表示该保险公司的个人保险的类型：A（养老保险类），B（意外伤害保险类），C（未成年保险类）。

age和income为连续数值型数据，对其进行离散化、分组：age 分为 a：1-18，b：19-30，c：31-45，d：46-60，e：61-80 共 5 组；income 分为 m：1200-6000，n：6000-120000，o：12000-36000，p：36000以上共 4组。A 用 x表示，B用y表示，C用z表示。通过数据预处理转换后得到的数据见表2。

表2 数据预处理后的数据项目集

经过数据预处理之后，将一些对结果影响不大的数据预先清除掉，以便提高算法的效率。

2.2.2 算法的实现：对以上数据进行Apriori算法，求出频繁集，求出置信度。然后由置信度得到年龄、收入、险种之间的关联关系。因此，当有客户上门时，我们就可以对症下药了。这对企业的工作的展开有很大的推动作用。

表3是算法的核心内容：

2.2.3 算法的结果

进行Apriori算法，得到的结果如图程序运行结果下（图1）：

通过算法的运行，我们得到了如上的结果。从图中可以看出，年龄在19岁-30岁、收入在1200元-6000元的客户和年龄在31岁-45岁、收入在6000元-12000元的客户买意外伤害类保险的可能性都是100%。当然，通过运用Apriori算法，我们还会得到其他类似的关联关系，这些都对企业的决策有着重要的指导作用。