基于驾驶行为的UBI车险定价模型

2020-08-01

电子科技大学学报(社科版) 2020年4期

[闽江学院福州 435108]

引言

随着经济的快速发展，我国已成为全球汽车增长速度最快的国家[1]。如图1所示，截至2018年底，我国汽车保有量达2.4亿辆，比2017年净增2 285万辆，增长了10.51%。虽然新车销售增速较上年下降了2.8%，但未来发展空间依然巨大。

伴随着汽车保有量的增长，汽车保险稳步成为我国第一大财险险种。1988年我国车险保费首次超过企财险，以20亿元的规模、占财险38%的比重开启了高速增长的新纪元[2]。如图2所示，进入新世纪后，车险第一大财险的地位更趋稳固，保费由2000年的400亿元激增到2018年的8 183.38亿元，在财险中的占比接近8成。

汽车市场的成长和大数据时代的耦合催生了车联网的繁荣发展。车联网（Internet of Vehicles）以车内网、车际网和车载移动互联网为基础，实现了车与车、路、行人及互联网之间的无线通讯和信息交换，构建了智能化交通管理、智能动态信息服务和车辆智能化控制一体化的大系统网络[3]，使车辆行驶状态及其周边环境信息的采集、数据的传输与处理变得经济可行。车联网的发展为数字车险的发展提供了急需的数据，为车险市场效率低下、欺诈盛行、保费计算困难等老问题的解决提供了新的可能。由图2可见，我国车险保费日渐触顶，增速放缓已成常态。作为产险业最大的利润来源，2018年车险虽然实现了10.53亿元承保利润，但同比大幅减少63.36亿元，降幅达到85.75%，承保利润率仅0.14%，已逼近盈亏关口[4]。2018年车险对产险业的利润贡献不及保证保险和农业保险，已退居第三位，车险市场的发展亟需大数据技术的推广与应用。

车联网技术的兴起提高了保险业大数据的可得性，使其具备了对定价数据搜集、整理及分析的有效手段，催生了基于驾驶行为定价的新型车险UBI（Usage Based Insurance），有助于驾驶行为较好的被保险人获得适当的保费优惠。长期以来，由于我国保险公司对国家统一制定的条款费率的依赖过大，造成车险费率自由化改革后，行业缺乏车险定价所需的数据统计体系，造成定价风险过大、投保核保混乱等问题[5]。为更好地解决车险现存的问题，适应车险发展的趋势，保险公司必须改进现有车险的定价模式。在车联网及大数据兴起的时代背景下，以对UBI车险定价模式的改进为核心的车险市场化改革已成为必然趋势。

一、文献回顾

随着车联网的发展，基于驾驶行为定价势将成为车险的主流定价方法。传统车险以“人车”基本状况等先验因子为基准进行定价，高度依赖历史信息与既有的静态变量，不能将适时信息等动态因素纳入模型，会使部分“人车”状况并不理想，但谨慎驾驶者承担过高的费率，导致费率厘定的不公平。

学界很早就开始关注驾驶行为对车险定价的作用。Vickrey主张通过征收汽油税或根据平均轮胎寿命进行定价，以解决车险费率不能促使驾驶者改变驾驶习惯和减少驾驶的问题[6]。Butler认为行驶里程是车辆使用情况最重要的测度，对行驶里程不同的车辆不应适用相同的费率[7]。Litman指出，UBI保险根据行驶里程等驾驶行为定价，除更精准外，还有助于提高安全驾驶意识，降低出险率[8]。Litman进一步强调，在现有不同种类的里程保险中，基于车联网的里程保险更能反映车险的风险成本，更值得推行[9]。还有学者指出，现行的无赔款优待（NCD）完全取决于偶发性的索赔频次，忽视了驾驶行为改进的影响，也有悖精算公平[10]。

王和强调，信息技术一直是保险业存在的前提和支撑，更是其发展的引擎和决定力量，不断推动着保险科技的产业化[11]。随着车联网技术向车险的渗透，车险进入了移动互联网商业模式时代。在车联网和大数据技术的推动下，郁佳敏认为UBI车险将快速成长[12]。UBI车险将为财产保险业开辟新的成长空间，也将成为车联网商业模式成功的关键[13]。在车险费率市场化改革的大背景下，UBI车险使差异化、精细化、个性化的车险服务成为现实[14]。借助于大数据技术，UBI车险将显著改善车险市场效率，助推有车联网定价优势的保险公司胜出，提高车险定价的公平性[15]。

随着大数据技术的发展，越来越多的学者探索用数据挖掘技术，如随机森林、神经网络、支持向量机等机器学习算法为车险定价[16～18]。随着车联网技术的发展，保险公司能够采集到被保险车辆较为详细的驾驶数据，这为促进汽车保险定价的合理性和公平性提供了可能[19～20]。行驶里程数是最重要的费率因子，但行驶里程数仅突显了车辆使用的风险暴露性，忽视了“三急”（急加速、急减速和急转弯）等车辆使用方式对风险的放大性[21～22]。对如何基于驾驶行为信息对车险定价，学界仍存在分歧。Weinder使用傅立叶分解法区分了不同的速度-加速度模式[23]；Wüthrich用聚类分析法对速度-加速度模式进行分类[24]；Gao & Wüthrich用主成分法和瓶颈神经网络提取速度-加速度模式[25]。高光远和孟生旺建立了预测索赔频率的泊松广义可加模型，发现驾驶行为因子是车险定价的重要费率因子，对索赔频率具有显著的非线性影响[26]。

在车联网、大数据技术日益成熟的背景下，车险应结合驾驶行为信息定价而非仅依赖行驶里程数定价。关于UBI车险定价，现有文献多试图从高频车联网数据中提取风险因子，很少从实际索赔数据中提取驾驶行为因子。对于UBI车险业务，我国保险实务界仍处于探索阶段，目前市场上尚无成熟的产品。学界虽然对此表现出了深厚的兴趣，但主要集中在理论探讨，仅提出了一些简单的定价模型。本文试图基于车联网大数据，从驾驶行为的视角构建车险索赔频率模型，并基于驾驶行为所导致的索赔频率在各水平间的概率分布对UBI车险实施动态定价，既贯彻NCD的思想，也间接影响、引导驾驶者改变驾驶行为，为车险的持续稳定发展提供支持。

二、数据与模型

（一）数据

数据由驾驶者基本信息和驾驶行为信息两部分构成，其中驾驶者基本信息来自某财产保险公司，主要包括性别、年龄、历史出险次数及车型、车龄等个人信息；驾驶行为信息由某车联网信息技术公司的车载OBD采集，主要内容包括行驶里程数、出行时间、超速行为、“三急”行为以及违章行为等[27]。

驾驶行为数据共包含10个特征变量和1个分类变量。10个特征变量分别是月总行驶里程、早晚高峰驾驶时间占比、夜间行车时间占比、周末行车时间占比、80～120 km/h行车时间占比、高于120 km/h行车时间占比、急加速次数、急减速次数、急转弯次数和违章次数。分类变量为被保险人的年出险索赔次数，取0～4共5种水平。样本规模为400个有效观测。表1给出了各变量的描述性统计。

表 1 各变量的描述性统计

表1中，各变量的偏度几乎全部为正，反映了数据的右厚尾性，说明在“三急”和日常驾驶中，存在部分被保险人远超平均水平的情况。Jarque-Bera检验结果显示，仅高峰时段驾驶时间占比等少数几个变量的分布接近正态，其他变量均不符正态分布的假定。

基于驾驶行为进行保险定价，需了解各类驾驶行为是否对被保险人的出险索赔存在影响。表2给出了各驾驶行为变量是否对出险索赔存在影响的皮尔逊卡方检验，检验结果表明，仅“三急”、高速行驶和违章行为共5个变量对出险索赔次数存在显著影响。同时，表2中各变量的VIF值表明各变量间并不存在共线性问题。

（二）模型设定

在现有保险定价文献中，广义线性模型得到了广泛应用，但其对不同分布均有十分严格的假定。泊松分布要求被解释变量的均值与方差相等；负二项分布要求数据过离散，方差要大于均值[28]。在索赔频次既定的条件下，各索赔频次间存在着有序的结构与分类，更适合运用有序分类的Logistic模型进行拟合。为此，本文建立以下多元有序分类的Logistic模型，

表 2 各特征变量对出险索赔次数影响的卡方检验

Yi是有序分类变量，分别取值0～4，代表年出险次数。over120ratio为速度超过120 km/h行驶时间占比；suddenacceleration为急加速次数；suddenbrake为急刹车（急减速）次数；suddensteering为急转弯次数；breaches为违章次数；mileage为行驶里程数；rushhoursratio为高峰时段行车时间占比；nighthoursratio为夜间行车时间占比；weekendhoursratio为周末行车时间占比；eight120ratio为速度在80～120 km/h行车时间占比。

由于因变量为0～4的有序分类变量，可以采用Logistic回归、决策树、随机森林、神经网络等方法进行分类。但有序多分类Logistic模型有助于准确捕捉因变量与自变量间的关系，识别对出险索赔有显著影响的驾驶行为，进而为UBI车险定价提供经验证据，为改变人们的驾驶行为提供正确的方向指引。在诸多分类方法中，Logistic模型有助于揭示自变量对因变量的影响程度及其显著性，既可指导剔除对因变量影响程度较小的自变量，又可基于AIC、BIC信息准则进行变量选择，得到精简高效的模型，为UBI车险实施更稳健的定价。同时，出险索赔次数有助于将被保险人分为不同的风险组别，而不只是简单地识别其在计数上的不同，因而分析驾驶行为对出险索赔次数的影响，更适宜用有序分类的Logistic模型。

三、实证结果与UBI车险定价

（一）模型回归结果

由于OBD采集了众多的驾驶行为数据，经筛选仍须保留10个解释变量。共线性检验表明各变量间并不存在共线性；皮尔逊卡方检验显示仅少数驾驶行为变量对出险索赔次数存在显著影响。基于UBI车险实践和现有文献资料，给出了UBI车险出险索赔次数的有序分类logistic模型回归结果（见表3）。

基于AIC、BIC最小化原则，Brant比例优势检验和Omodel平行性检验，表3中模型2为最优模型。由表3中的模型2可知，over120ratio（速度超过120 km/h行驶时间占比）、suddenacceleration（急加速次数）、breaches（违章次数）和mileage（行驶里程数）4个变量对出险索赔次数存在显著的影响。Suddenbrake（急刹车次数）和suddensteering（急转弯次数）对出险索赔次数存在不显著的影响。

over120ratio（速度超过120km/h行驶时间占比）每上升1%，发生较多出险索赔次数的优势比将上升0.486 5（e0.396-1=0.486 5）。高速行驶缩短了驾驶者的反应时间，将显著提高车祸发生的概率。suddenacceleration（急加速次数）每上升1次，发生较多出险索赔的优势将是发生较少出险索赔优势的1.292 3倍（e0.256=1.292 3），表明急加速对车祸，尤其是对追尾类事故的发生存在着显著的正向影响。breaches（违章次数）每增加1次，发生更多出险索赔的优势将是发生较少出险索赔优势的3.129 4倍（e1.141=3.129 4）。违章次数对出险次数的高解释能力表明，传统车险降低出险概率的做法依然十分有效，加强保险人与交警的合作既必要也高效。mileage（行驶里程数）每增长1公里，发生较多出险索赔次数的优势比将上升0.001 9（e0.002-1=0.001 885），与传统广义线性模型以行驶里程为索赔次数重要解释变量的理论相符。suddensteering（急转弯次数）每增加1次，发生较多出险索赔次数的优势比将上升0.065 2（e0.063-1=0.065 2），说明“一停二看三通过”，减少急转弯是避免车祸的有效手段。Suddenbrake（急刹车次数）每增加1次，发生较多出险索赔次数的优势比将下降0.015 6（e-0.016-1=-0.015 6），说明关键时刻有效的刹车仍然是降低出险次数的有效手段。

表 3 有序分类logistic模型回归结果

由表4可知，在其他变量均取其均值时，超速行使（over120ratio）在其均值处每增加1单位，将降低低出险索赔次数的概率，提升高出险次数的概率；在其他变量均取其均值时，急加速（suddenacceleration）在其均值处每上升1个单位，将降低低出险次数的可能性，提高高出险次数的可能性；在其他变量均取其均值时，急减速（Suddenbrake）在其均值处每上升1个单位，将提升低出险次数的可能性而降低高出险次数的可能性；在其他变量均取其均值时，急转弯（suddensteering）在其均值处每上升1个单位，净降低低出险次数的可能性而提高高出险次数的可能性；在其他变量均取其均值时，违章次数（breaches）在其均值处每上升1个单位，净降低低出险次数的可能性而提高高出险次数的可能性；在其他变量均取其均值时，行驶里程数（mileage）在其均值处每上升1个单位，将降低最低出险次数的可能性而提高高出险次数的可能性，对高出险次数具有更高的显著性。

（二）基于驾驶行为的车险定价

根据模型对第i位驾驶者在0～4共5种出险索赔次数上的概率分布：

由表5可知，对第6、9、18位驾驶者而言，因其期望出险索赔次数远低于全体被保险人索赔次数的均值（1.346 667），因而其期望出险次数与全体被保险人索赔次数均值的比值小于1，其个人基础保费也低于其所对应车型的基础保费。其他22位驾驶者，由于他们的期望出险次数远高于全体出险次数的均值，因而其个人基础保费也远高于对应车型的基础保费。这种基于有序分类logistic模型所获得的各位驾驶者在各种出险水平上的概率分布，通过引入具体驾驶者的期望出险次数与全体被保险人出险次数均值的比值的方式进行车险定价更好地体现了NCD的思想，实现了原则性与灵活性的有机结合，有利于车险费率的市场化改革的深入推进。

表 4 各变量的边际效应分解

表 5 基于驾驶行为定价的个人基础保费

四、稳健性检验

（一）泊松分布

对出险索赔次数究竟应适用有序分类的logistic模型，还是应适用计数的泊松模型，学界一直存在争议。为检验本文所建模型的稳健性，特给出泊松模型回归结果（见表6）。

表 6 泊松分布的回归结果

表6显示，尽管基于AIC、BIC最小化原则，较之模型1，模型2并不是最优的，但在全部6个模型中仍属次优，因而本文依然以模型2为基准展开分析。表6中的模型2显示，over 120 ratio、suddenacceleration、breaches和mileage依然对出险索赔次数存在显著的影响。Suddenbrake和suddensteering对出险索赔次数存在不显著的影响。

这与表3中模型2所显示内容完全相符，说明本文针对驾驶行为对出险索赔次数影响所构建的有序分类logistic模型与泊松模型具有高度的一致性，反映本文所构建的模型具有较高的稳健性。

（二）负二项分布

在探索对出险索赔次数影响因素建立模型的过程中，负二项分布由于在处理过分散、零膨胀数据方面的优势而得到了广泛的应用。本文尝试构建驾驶行为影响出险索赔次数的模型，也给出了对应的负二项分布模型的回归结果（见表7），以进行比较分析。

同样地，在AIC、BIC最小化原则之下，表7中模型2劣于模型1，但优于其他4个模型。不影响一致性，仍以模型2为基准展开分析。表7中模型2同样显示，over120ratio、suddenacceleration、breaches和mileage对出险索赔次数存在显著的影响，而Suddenbrake和suddensteering则存在不显著的影响。表7所揭示的内容与表3、表6并不存在显著的差异，既说明这4种驾驶行为是影响出险索赔次数的关键变量，也显示本文所构建的模型具有很强的稳健性。

表 7 负二项分布的回归结果

（三）基于SVM的稳健性检验

如前所述，机器学习算法在数据分类上具有较高的效率与精度。支持向量机（Support Vector Machine,简称SVM）算法等方法近年来在车险出险索赔预测上得到广泛的运用，对比分析有序分类logistic模型和支持向量机（SVM）的预测结果显得尤为必要[29]。表8给出了样本前25个观测值的实际出险索赔次数和logistic模型、泊松模型、负二项模型及支持向量机预测的出险索赔次数。

表8显示，从离差平方和（Sum of Squares of Deviations）来看，有序分类logistic模型的预测结果仅劣于支持向量机的预测，但优于泊松分布和负二项分布模型的预测结果，且后两者的预测则完全相同。支持向量机的整数预测结果少于小数预测结果，这与孟生旺等（2018）所强调的可加性观点相符[30]。有序分类logistic模型虽劣于机器学习算法，但优于泊松分布和负二项分布模型，说明本文所构建的模型较为稳健。支持向量机的预测结果对有序分类logistic模型预测结果的支持，说明本文所构建的模型在能准确识别出险索赔影响因素的同时，具有较高的稳健性。

表 8 各种模型所预测的出险索赔次数

五、结论与建议

基于中国大陆某财产保险公司UBI车险所收集的被保险人驾驶行为数据，构建了出险索赔次数影响因素的有序分类logistic模型，实证结果表明，高速行驶、急加速、违章次数和行驶里程将显著提高车险出险索赔次数；急刹车和急转弯对出险索赔次数存在影响，但均不显著。其中，急刹车有助于降低，而急转弯将提高出险次数。全部6个解释变量中，交通违章次数对出险次数有极强的解释能力，说明传统车险所重视的变量对UBI车险定价仍具有极高的指导意义。“三急”中急加速和急转弯将显著提高索赔次数，但与现有文献中的结论相悖，本文发现急刹车（急减速）能降低而非提高出险索赔次数。传统车险定价的核心变量，行驶里程数确实对出险索赔次数有显著的影响，但其显著性远低于急加速和违章次数等驾驶行为变量，显示UBI车险将成为未来车险发展的大方向。

基于被保险人驾驶行为，以有序分类logistic模型预测其出险索赔次数，再以预测的出险索赔次数及具体车辆的基准费率进行UBI车险定价显著优于现行的NCD车险定价方法。不可否认，部分被保险人的实际出险次数可能低于或高于基于其驾驶行为预测的出险索赔次数，但这种高于或低于预测值的情况可能仅仅是由于运气等随机扰动造成的。因而，基于有序分类logistic模型的预测值而非NCD进行车险定价更有理论依据，更贴近驾驶行为，也更能反映真实的驾驶风险。泊松分布模型、负二项分布模型及支持向量机等方法均证明有序分类logistic模型在基于驾驶行为预测出险索赔次数上具有更高的准确率与稳定性。

违章次数和行驶里程数是传统车险定价的核心变量，也是UBI车险定价的关键变量，但与其说这两个变量是驾驶行为变量，还不如说它们是反映驾驶行为结果的变量。为通过UBI车险定价改变人们的驾驶行为，降低出险索赔次数，交通管理部门在驾驶证照考试中应强化违章教育，提高人们对交通法律法规的敬畏与尊重。保险公司可基于实证研究，提高违章次数在定价中的仅重，以价格这只无形的手来引导、规范人们的驾驶行为。同时，提高行驶里程数在UBI车险定价中的权重可诱导人们改变驾驶行为，减少开车出行频次，既有助于降低出险索赔次数，也对减炭减排、保护环境有积极的意义。

“三急”中急加速对车险出险索赔次数存在显著的正向影响；急转弯对车险出险索赔次数存在不显著的正向影响；急刹车（或急减速）对出险索赔次数存在不显著的负向影响。因此，交通管理部门应强化现行的路口加速限制；对转弯弧度设置相应的规定；鼓励紧急情况下的急刹车，并在车险定价中设置相应的激励机制，引导人们改变驾驶行为。

超速行驶将显著增加出险索赔次数，是UBI车险定价的关键变量。交通管理部门应强化时速限制，加强行人安全教育，寻求交通效率与交通安全的平衡，在UBI车险定价中设置相应的激励机制，引导人们尽可能多地常速驾驶。通过在UBI车险定价中设置相应的激励机制，以有序、渐近的办法引导人们改变驾驶行为，逐步形成全社会健康驾驶、文明驾驶的氛围，将有助于支持车险业的长期健康发展。