贝叶斯分类算法在车险行业的应用
2020-03-16周鋆洁
周鋆洁
摘要:在信息迅猛发展的21世纪,一系列挖掘算法不断改进,使之体系结构更加科学化。在庞大的挖掘算法体系结构下,分类算法的研究应用于多种领域,但目前少有对车险行业的科学研究。下面将围绕其分支——朴素贝叶斯分类算法,从原理及其发展近况、优点及其局限性展开对车险行业续保意愿问题的研究与分析,并检验其结果的有效性。
关键词:贝叶斯算法;分类;后验概率;车险
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2020)02-0257-02
贝叶斯分类算法利用统计方法构造分类器,是分类算法中最简便、易理解且具有广泛的实用性的算法。谈及朴素贝叶斯都能联想到先验概率、后验概率等名词,朴素贝叶斯算法恰是在贝叶斯定理和特征条件独立的假设下提出的分类方法,具有强烈的理想色彩,其中最常利用的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(NBM),本文主要研究后者并以此来展开。
1 贝叶斯定理
1.1 贝叶斯公式基本思想
朴素贝叶斯作为一种生成算法,其思想主要是由结果推原因、由已知推测未知,即再发生一次同类型的事件时来预测它是由什么原因导致的,也就是我们所常说的后验概率。根据笔者收集到的资料得知,朴素贝叶斯分类器基于这样一个假定:给定目标值时,属性间条件相互独立。条件相互独立,即概率论中的独立性条件,指的是将一个样本划分为若干个互不相容的部分,通过计算其在整体中所占比重来得知其发生的概率,那么其所有部分的概率和必然为1。对于已知的观测数据,一个猜测结果的好坏受“该猜测本身能独立的可能性大小(先验)”和“该猜测生成我们观测到的数据的可能性大小”的影响。
1.2 朴素贝叶斯的优缺点
1.2.1 主要优点
1) 其发源于古典数学理论,使其底蕴深厚且具有稳定的分类效率,兼具科学性和实用性;
2) 对较小规模的数据预测效果较好,能够执行多分类任务,适宜增量式训练,特别是当数据量超出内存时,我们可以通过划分批次,来进行增量训练;
3) 其对缺失数据不太敏感,算法简单高效,可与其他算法思想结合形成更高效灵活的分类器,数据分类的正确性更高;
4) 属于生成式模型,通过计算概率,按权重进行分类,操作简单。
1.2.2 主要缺点
1) 理论上说,朴素贝叶斯模型与其他分类方法相比具有较小误差率。但这在实际中难以实现,这是由于朴素贝叶斯模型假设在实际应用中往往是不成立的、带理想性质的,在属性值较多或属性间相关程度较大时,其分类效果较差;
2) 实验需事先知道其先验概率,但先验概率主要取决于假设模型中的样本,因此可能存在由于假设的先验模型不准确或数值存在误差而导致预测效果不佳、缺乏可用性;
3) 由于是根据先验和数据来计算后验概率从而决定分类依据,所以分类决策存在由于出现两级数据或缺乏概率数据而导致结果和现实有所偏差;
通过以上贝叶斯分类模型的优缺点比较,可以得知:大体上讲,此算法仍能延续至今而不被替换的原因就在于它作为一种基本的简便算法能解决多分类的复杂问题,并易于与其他算法思想结合生成更好的分类器、实用性极强。而究其缺点,例如在数据方面的偏差,伴随如今技术的高速发展,早已有研究学者提出利用拉普拉斯平滑技术、属性加权方法等有效解决此类问题。故朴素贝叶斯模型在未来很长一段时间内不会消弭,仍具有较广的适用性。
2 朴素贝叶斯算法的研究现状
1) 树状分支结构拓展: Kononenko提出针对属性条件独立性假设的半朴素贝叶斯分类模型,使用属性组这一概念,中心思想是利用组内关联、组间独立(高内聚、低耦合)的特点[1];石洪波等人的限制性的双层贝叶斯分类模型[2];
2) 属性选择(即率先剔除冗余或无关属性):Langley等人提出属性选择算法(FSS)(贪婪搜索和前向搜索)[3];Ratanamahatan提出选择性朴素贝叶斯分类算法(SBC)[4];
3) 属性加权:王国才等人提出以粗糙集为基础的特征加权朴素贝叶斯[5];王峻等人的选择性加权朴素贝叶斯分类器(SWNBC)[6];
目前针对此类算法,国外研究成果远远超过国内,但不可否认的是朴素贝叶斯算法的研究已经达到了相当高的程度,伴随着研究的深入开展,其体系框架也越来越完善。
3 实例应用
3.1 问题提出
目前中国车险保费的多少,主要取决于车本身的各项情况,包括车型、车价、用途、购车年限等,从而导致了国内单调的车险定价模式,车型雷同,保费也大同小异。而未来,同样的车型,车险的价格可能会因人的驾驶行为的不同而被区别,同样的一台车,不同的人来开,续保费用也会有所不同,例如人的年龄、职业、性别、家庭及驾驶的熟练程度等,续保的概率也會因受这些因素的影响而发生变动。针对续保问题,考虑到其影响因素众多,笔者就调查的数据进行截取分析。
3.2 车险主要影响因素解读
(1) 性别
由于男女思维方式、消费理念、驾驶习惯上的差异,女性一般较为谨慎,对汽车周边产品的消费欲望较低,驾驶行为比较规范,因而续保意愿普遍偏低,而男性则相反。
(2) 年龄
研究表明:随车主年龄的增加,续保概率呈单调上升趋势。主要原因:一方面,年龄较大的客户,经济基础相对较好,对价格更容易接受,所以一般会比较稳定的选择续保,另一方面,年龄较大的客户赔付水平较低,保险公司会主动利用各种优惠来争取这部分目标客户。
(3) 车价
根据生活实际,价格昂贵的车承担的风险大,车主一般会考虑到在转保的过程中发生意外事故而不能及时赔付的状况,为规避利益损失,车主选择续保的概率更大。
(4) 事故
当驾驶人极易出现车辆摩擦、碰撞状况,或对驾驶技术不自信时,车主一般会选择续保以减少损失,当然此类因素受年龄、性别等因素影响,结果不可预测。
3.3 数据预处理
假设以上数据之间相互独立,接下来对涉及的名词进行数据预处理:
owner_sex(性别),当sex=0时代表女性,sex=1时代表男性;
owner_age(年龄),当age=0时代表年龄在18~35岁;age=1时代表年龄在36~55岁;age=2时代表年龄在56~75岁;
Car_price(车价),当price=0时代表车价在30万元以下的车型,price=1时代表车价在30万以上的车型;
Car_accident(事故),当accident=0时代表在行驶期间没发生事故,accident=1时代表在行驶期间发生事故;
Continue(续保),当continue=0时代表没有续保车险,continue=1时代表续保车险;
3.4 结果预测
通过上表及朴素贝叶斯算法原理计算数据后,假设需要分类的未知样本为R=(sex=1,age=1,price=0,accident=1)。
则根据上述概率,得到(保留小数点后4位):
P(continue=“yes”)=4/9;
P(continue=“no”)=5/9;
P(R|continue=yes)=0.75*0.75*0.25*0.5=0.0703;
P(R|continue=no)=0.4*0.2*0.6*0.4=0.0192;
P(R|continue=yes)*P(continue=yes)=0.0313;
P(R|continue=no)*P(continue=no)=0.0107;
因此,对于样本R,朴素贝叶斯分类预测continue=“yes”,即购买30万以下车型且发生过事故的36~55岁男性车主续保的意愿比不续保的意愿强烈。
3.5 改进思想
转变贝叶斯算法思想,利用权重或結合决策树的思想[7]~8],对贝叶斯分类器进行拓展,以得到更合理的预测结果。结合前人提出的属性加权和属性选择,对变量赋予恰当的权重,如此可根据未来的发展变化,任意改变系数去求续保概率,更贴合实际。
4 结束语
贝叶斯分类算法功能极其强大,当之与属性加权、信息增益、决策树等算法结合起来,分类性能显著提升。所以在研究问题时不能只考虑单一的朴素贝叶斯算法,要突破特征属性的独立性假设。在今后,改进贝叶斯分类算法仍然是一个重要的研究方向,还有很多领域的算法也等待改进。
参考文献:
[1] KONENKO I.Semi-naive Bayesian classifier[C].Machine Learning-EWSL-91.Springer Berlin Heidelberg,1991:206-219.
[2] 石洪波,王志海,黄厚宽.一种限定性的双层贝叶斯分类模型[J].软件学报,2004(2).
[3] LANGLEY P,SAGE S.Induction of selective Bayesian classifiers[C].Proceedings of the Tenth international conference onUncertainty in artificial intelligence.Morgan Kaufmann Publishers Inc,1994:399-406.
[4] RATANAMAHATANA C A,Gunopulos D.Scaling up the naive Bayesian classifier:Using desicion trees for feature selection[J].2002.
[5] 王国才,张聪.一种基于粗糙集的特征加权朴素贝叶斯分类器[J].重庆理工大学学报:自然科学,2010(7):86-90.
[6] 王峻,刘淮生.一种选择性的加权朴素贝叶斯分类器[J].湖南文理学院学报:自然科学版,2008,20(1):77-79.
[7] 张华忠.贝叶斯算法研究[J].数字技术与应用,2013(11):102-102.
[8] 孙秀亮.基于属性加权的选择性朴素贝叶斯分类研究[D].哈尔滨工程大学,2013.
【通联编辑:李雅琪】