高速公路ETC客户细分方法研究
2018-09-10许宏科
钱 超,杨 孟,耿 健,许宏科
(1.长安大学电子与控制工程学院,西安710064;2.陕西高速公路电子收费有限公司,西安710021)
0 引言
电子不停车收费(Electronic Toll Collection,ETC)系统可降低车辆通行时间和能源消耗,同时又可节约基建和运营成本,因而成为世界各国大力推崇的先进支付方式.截至2017年2月底,我国29个ETC联网省份(西藏、海南除外)累计建成ETC专用车道14 285条,ETC客户数达到4 767.44万,交易量日均810万笔,占高速公路通行量的31.17%[1].
自20世纪90年代以来,以客户为中心的管理理念促使客户关系管理(Customer Relationship Management,CRM)受到广泛重视[2-3].客户细分通过对不同集合的客户分别进行有效评估,达到合理分配服务资源、精准实施服务策略的目的,为充分获取客户价值提供了理论和方法指导.
目前关于CRM的研究主要集中于电信服务[4]、能源供应[5]和零售[6]等行业.近年来交通运输行业也开展了航空、铁路和轨道交通客户细分方法的研究,如Wei提出并设计了一种基于蚁群聚类的航空客户细分系统[7];Teichert等在分析航空旅客偏好行为数据的基础上提出一种航空客户细分方法[8];Chiang提出一种航空公司有价值旅客挖掘模型,并根据关联规则为客户匹配最优的营销策略[9];潘玲玲在聚类算法并行化基础上建立了一种航空旅客细分模型[10];张斌等研究了基于K-means聚类算法的铁路货运客户细分方法[11];帅斌等应用改进的RFM模型实现了铁路快捷货运客户细分,分析了每一类客户的行为特征、价值及不同的营销策略[12];钟雁等应用K-means聚类和贝叶斯分类器对铁路货票数据进行挖掘,实现了铁路货运客户的细分和判别[13];邹庆茹等利用城市轨道自动售检票(AFC)系统数据对乘客进行分类,为低峰折扣票价制定和评价提供方法支持[14].
在ETC乃至整个高速公路客户管理领域,目前研究主要集中于提升服务满意度[15]、防逃费[16]等方面.在全国已建成较为完善的ETC基础设施的背景下,如何深度分析ETC系统海量数据,获取ETC客户的通行特征,从而达到挖掘客户潜力、提升客户价值、实现精确营销的目的,是ETC推广应用中面临的重要问题.本文研究目标是应用大数据技术建立一种基于车辆通行特征的ETC客户细分方法,为制定ETC客户分级费率优惠、提高ETC客户规模和支付比例提供理论依据.
1 ETC客户细分理论与方法
1.1 ETC客户细分指标
客户细分是以客户消费需求为出发点,根据客户购买行为的差异性,把客户总体划分为类似性消费群体的过程[17].依据客户行为,Arthur Hughes提出基于近度(Recency,R)、频度(Frequency,F)和值度(Monetary,M)的RFM客户细分模型得到广泛应用[18].其中,R表示客户最近一次购买的时间有多远,F表示客户在最近一段时间内购买的次数,M表示客户在最近一段时间内购买的金额.
高速公路ETC收费数据记录了车辆通行的各类信息,包括ETC卡号、出入收费站的时间、车型、车种及消费情况等,具体数据格式如表1所示.
表1 ETC收费数据格式Table 1 ETC data format
每条ETC数据代表了ETC客户的1次出行消费记录,通过数据聚集可对ETC客户年度消费情况进行汇总.结合RFM模型,将ETC客户细分指标定义为最近消费间隔、年通行频次和年消费金额等3类,如表2所示.
表2 ETC客户细分指标Table 2 Segmentation index of ETC customer
按ETC卡号对ETC客户的消费记录进行聚集,对年通行频次为F的ETC客户,其最近消费间隔R和年消费金额M的指标计算方法为
式中:Tset表示一个指定的时间;TF_out表示车辆在统计年中第F次消费时间(ETC出口时间);Si表示车辆第i次通行的消费金额.
1.2 ETC客户聚类
由上述ETC客户细分指标体系,得到RFM指标的三维状态空间.ETC客户聚类是根据空间中样本分布,将距离相近的样本划归成一类,从而得到多类别ETC客户的划分方法.
基于划分(Partitioning-Based)的聚类方法,如K-means和K-medoids,其计算复杂度高,仅适用于小型数据集.围绕中心点划分(Partitioning Around Medoids,PAM)采用迭代、贪心的方法实现K-medoids算法,即通过设置最大迭代次数,在迭代过程中基于贪心策略来选择使得聚类质量最高的划分,其应用同样也受限于数据规模[19].鉴于此,Kaufman等提出一种改进的PAM算法——CLARA(ClusteringLARgeApplications)算 法.CLARA算法不考虑整个数据集,而是每次抽取一部分样本使用PAM算法,经过反复抽样,比较多组样本最优中心点,最后以最好的聚类结果输出,因而解决了PAM算法在处理数据量较大问题时的计算瓶颈[20].
利用CLARA算法进行ETC客户聚类分析的过程如图1所示.
图1 CLARA算法Fig.1 CLARA algorithm
1.3 ETC客户细分规则
ETC客户聚类分析完成后,每个ETC客户被赋予一个特定的分类标签.决策树分析则以聚类产生的分类标签为规则,通过一定的学习算法,寻找数据与分类规则之间的对应关系.沿决策树根节点到树中每个叶子节点的路径,决策树可以转换成IF-THEN分类规则.
常用的决策树算法有迭代的二分器(Iterative Dichotomiser,ID3)、C4.5及分类回归树(Classification And Regression Trees,CART)算法.相较于其他决策树算法,CART算法采用二叉树模型代替了多叉树,以基尼指数(Gini Index)来代替信息增益比,简化了基于信息论的熵模型的同时仍保留了熵模型的优点,运算效率较高[21].本文采用CART算法对ETC客户细分规则进行学习,具体过程如图2所示.
图2 CART算法Fig.2 CART algorithm
生成决策树过程中,使用基尼指数来选择划分指标,其计算方法为
式中:pi表示D中样本点属于i类的概率;k表示D中样本中类别数.
子集划分后,数据集D的基尼指数为
式中:D1、D2表示划分的子集;Gini(D)越小表示数据集D的不纯度越低.
1.4 ETC客户细分建模流程
应用ETC客户聚类分析与细分规则提取算法建立ETC客户细分模型,其建模过程主要包含以下3个部分:
(1)数据预处理与指标提取.
对ETC原始收费数据进行清洗并从中提取ETC客户指标;设置指标阈值,优选数据子集,得到ETC客户指标数据集.
(2)ETC客户聚类.
对ETC客户指标数据集进行聚类分析,得到ETC客户聚类结果.
(3)ETC客户细分规则提取
应用CART算法对ETC客户指标数据与聚类结果进行学习,得到ETC客户细分规则决策树,根据细分规则最终得到ETC客户星级评定结果.
ETC客户细分建模流程如图3所示.
2 实例分析
2.1 数据预处理与指标提取
本文以陕西省2014年小型客车(7座及以下)ETC数据为基础,数据量共3 100余万条.首先对数据进行清洗,删除与主题不相关的车辆数据(如免费车辆)和异常通行数据(如入口时间大于出口时间).然后提取得到324 585组ETC客户细分指标数据,如表3所示,其中指定时间Tset=“2015-1-2 00:00:00”.
图3 ETC客户细分建模流程Fig.3 Modeling process of ETC customer segmentation
表3 ETC客户细分指标提取结果(部分)Table 3 Extraction results of ETC customersegmentation indexes
ETC客户细分指标的概率密度分布情况如图4(a)~图4(c)所示.进一步分析可知,距指定时间90天(2 160 h)内有消费记录的ETC客户约占85%;年通行低于6次的ETC客户约占13.3%;年消费金额小于200元的ETC客户约占18.6%,而年消费金额大于12 000元的ETC客户约占0.77%.
图4 ETC客户细分指标的分布Fig.4 Distribution of ETC customer segmentation indexes
为优选数据子集提高聚类分析的准确性,过滤掉通行频次过低和消费金额极值的ETC客户,过滤规则为:(F<6)⋃(M<200)⋃(M>12 000).最终得到255 316组ETC客户指标数据,形成ETC客户指标数据集.
鉴于指标数据集较大,为更清晰展示“年通行频次”与“年消费金额”之间的关系,随机抽样2%客户(5 106组)绘制“年通行频次—年消费金额”散点图,如图5所示.由图5可知,ETC车辆平均单次消费金额均大于或等于5元(M=5F虚线上方),符合陕西省高速公路收费按“5元取整”的规则,表明数据预处理完成了对异常通行数据的清洗.
图5 “年通行频次—年消费金额”抽样数据散点图Fig.5 Scatter plot of“Frequency-Monetary”(sample data)
2.2 ETC客户聚类结果
根据平均轮廓系数原则[22]确定ETC客户指标数据集的最佳聚类个数k=3.考虑到预处理阶段过滤掉部分ETC客户,故ETC客户指标数据集中3类客户分别用C2、C3和C4表示,(F<6)⋃(M<200)和(M>12 000)的客户分别用C1和C5表示.由于数据量庞大,K-means和PAM等算法均无法实现ETC客户全样本数据聚类.CLARA算法中,抽样次数(samples)和抽样个数(sampsize)越大,聚类结果越精确,但相应计算开销也越大.分别设置不同参数组合对ETC客户指标数据集进行迭代计算,得到的ETC客户聚类中心与计算耗时对比结果如表4所示.
表4 不同参数组合下聚类中心计算结果Table 4 Calculation results of clustering medoids under different combined parameters.
由表4可知,随着samples和sampsize的增大,聚类中心计算结果趋于一致.综合考虑ETC客户数据规模和时效性,CLARA算法中按每次2%(sampsize=5 000)随机抽样10次对ETC客户指标数据进行聚类,得到ETC客户所属类别.
2.3 ETC客户细分结果
以指标数据集中R、F和M指标为预测变量,以客户类别为响应变量,结合CART算法生成C2、C3和C4客户细分决策树,如图6所示.
ETC客户细分决策树共包含6个叶子节点,节点第1行表示该节点数据子集(ETC客户)最终所属客户类别,第2行表示该节点数据子集分属C2、C3或C4类别的概率,第3行表示该节点ETC客户所占比例.根据图6中各子节点分裂规则提取得到C2、C3和C4客户细分规则,同时纳入C1和C5过滤规则,最终形成ETC客户IF-THEN细分规则如表5所示.
根据ETC客户细分规则,对全部ETC客户进行细分,C1~C5分别对应不同星级客户.汇总各星级客户数和总消费金额如表6所示.
图6 ETC客户细分决策树Fig.6 Decision tree of ETC customer segmentation
表5 ETC客户细分规则Table 5 Segmentation rules of ETC customer
表6 ETC客户细分结果Table 6 Star-rating results of ETC customer
由表6可知,2014年陕西省324 585组ETC客户共计通行2 313万余次,通行总消费约5.46亿元,按现行95折优惠费率,实际ETC路费收入约5.19亿元.其中,一星级客户占比20.57%,实际路费贡献率仅为1.33%,未来对此类客户需加大宣传引导,提高ETC使用率;二星级客户占比8.15%,实际路费贡献率为4.71%,未来需重点培育此类客户群,激发ETC使用潜力;三、四星级客户占比分别为49.42%和21.09%,合计路费贡献率超85%,是ETC系统的主要客户,未来可考虑分别给予额外的费率优惠,提升客户自我价值;五星级客户占比仅为0.77%,但却贡献率了7.6%的路费收入,此类客户是ETC系统的重点客户,未来可考虑给予较大的费率优惠,同时需重点跟踪此类客户对ETC系统的使用感受,提高ETC系统服务质量.
3 结论
本文应用大数据技术,提出一种高速公路ETC客户细分方法,该方法利用ETC收费数据提取ETC客户细分指标,基于CLARA算法实现ETC客户的聚类分析,采用CART算法提取ETC客户细分规则.本文结合实例设计了ETC客户星级评定方法,分析了ETC客户通行特征和服务策略,可为高速公路运营管理单位探索ETC客户精准营销和分级费率优惠提供创新思路,同时对进一步提高ETC客户规模和支付比例,增强客户对ETC系统的依赖性与好感度等方面具有重要的应用价值.
本文基于RFM模型定义了ETC客户细分指标体系,未来可根据星级评定业务需求,定义新的细分指标并调整各指标权重,以期星级划分结果更加符合“金字塔模型[23]”.由于不同车型收费标准、使用性质等存在差异,本文仅对小型客车(7座及以下)ETC客户进行了细分研究,对其他车型ETC客户可参考本文方法并结合具体通行特征展开细分方法研究.