APP下载

Apriori算法在保险业中的应用

2010-07-27于燕丽

中国新技术新产品 2010年1期
关键词:项集置信度保险公司

于燕丽

(1.中国海洋大学 信息科学与工程学院,山东 青岛 266071;2.青岛理工大学琴岛学院 计算机工程系, 山东 青岛 266106)

1 引言

客户作为企业的一种资产,对提高企业竞争力的重要性日益增加。在当前竞争激烈的商业时代,所有公司都纷纷从以产品为中心转向以客户为中心,保险业格外突出。如何找出新客户、失去的客户及老客户尤其是给公司带来最大利润的20%的“黄金客户”各属性间的关联规则[1],同时又能以用户易理解的形式概括出来,这是决策者策划营销产品的关键。保险公司经过多年发展,已积累了大量宝贵的客户数据资源,如何处理这些海量数据,更好地汇总、分析这些历史数据并从中挖掘出业务内在规律,将其变为有用的信息和商机,将会主导未来相当长时间内各个保险公司的工作战略。

数据挖掘(Data Mining,简称 DM),简单的讲就是从大量数据中挖掘或抽取出知识。一个通用的定义是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取人们感兴趣的知识,这些知识是隐讳的、事先未知的、潜在有用的信息。[2]

常用的数据挖掘方法有:(1)关联分析。(2)序列模式分析。(3)分类分析。(4)聚类分析。(5)孤立点分析。在这些分类方法中,关联分析方法由于自身的优点而广被使用。

2 数据挖掘在保险公司客户管理中的应用

2.1 Apriori算法

Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法[3]。其核心是基于两阶段频集思想的递推算法。该算法的基本思想:

2.1.1 找出所有的频繁项集:根据定义,这些项集出现的频繁性至少和预定义的最小支持度一样,即满足Support不小于Minsupport的所有项目子集。

2.1.2 由频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小置信度。挖掘关联规则的总体性能由第一步决定。

频繁项集的生成原理:从包含每个项的C1中找出1项频繁集的集合L1。然后,连接LK-1产生K项候选集的集合CK,并根据Apriori性质删除那些具有非频繁子集的候选集。最后,扫描数据库一次,统计候选集的支持计数,与最小支持计数相比,形成频繁集。[4]

表1 数据样本

2.2 数据挖掘在某保险公司中的应用

2.2.1 数据预处理

现有某保险公司统计的个人投保数据若干,从中取出10人的三维数据作为解释说明算法应用代表,将这些数据作为抽样数据分析关联规则,以供公司决策层使用。数据见表1。

在表1中编号表示投保人保单号的唯一标识。insurance表示该保险公司的个人保险的类型:A(养老保险类),B(意外伤害保险类),C(未成年保险类)。

age和income为连续数值型数据,对其进行离散化、分组:age 分为 a:1-18,b:19-30,c:31-45,d:46-60,e:61-80 共 5 组 ;income 分为 m:1200-6000,n:6000-120000,o:12000-36000,p:36000以上共 4组。A 用 x表示,B用y表示,C用z表示。通过数据预处理转换后得到的数据见表2。

表2 数据预处理后的数据项目集

经过数据预处理之后,将一些对结果影响不大的数据预先清除掉,以便提高算法的效率。

2.2.2 算法的实现:对以上数据进行Apriori算法,求出频繁集,求出置信度。然后由置信度得到年龄、收入、险种之间的关联关系。因此,当有客户上门时,我们就可以对症下药了。这对企业的工作的展开有很大的推动作用。

表3是算法的核心内容:

2.2.3 算法的结果

进行Apriori算法,得到的结果如图程序运行结果下(图1):

通过算法的运行,我们得到了如上的结果。从图中可以看出,年龄在19岁-30岁、收入在1200元-6000元的客户和年龄在31岁-45岁、收入在6000元-12000元的客户买意外伤害类保险的可能性都是100%。当然,通过运用Apriori算法,我们还会得到其他类似的关联关系,这些都对企业的决策有着重要的指导作用。

表3

图1 程序运行结果

3 结束语

本文在一个有1000条记录的客户数据集上测试了该算法。 所以对于这一数据集来说,该方法的结果还是有实用价值的。如果有规模更大的企业,它的客户记录应该更多,这样用更多的数据训练可能会提高该方法的准确性。

[1]罗华等.数据挖掘与数据仓库技术及其在保险业中的应用.微计算机信息 2004

[2]陈京民.数据仓库与数据挖掘技术[M].电子工业出版社,2002.8

[3]洪玉峰,汤静煜.数据挖掘技术及工具发展和应用.北京统计,2004.12

[4]邵峰晶、于忠清.数据挖掘原理与算法[M];中国水利水电出版社;2007.6

猜你喜欢

项集置信度保险公司
硼铝复合材料硼含量置信度临界安全分析研究
保险公司和再保险公司之间的停止损失再保险策略选择博弈
不慎撞死亲生儿 保险公司也应赔
保险公司中报持股统计
正负关联规则两级置信度阈值设置方法
保险公司预算控制分析
置信度条件下轴承寿命的可靠度分析
一种频繁核心项集的快速挖掘算法
多假设用于同一结论时综合置信度计算的新方法✴
一种新的改进Apriori算法*