APP下载

一种基于宏微观数据嵌套的公交用户细分方法

2018-06-29孙世超

交通运输系统工程与信息 2018年3期
关键词:卡号刷卡公交

孙世超

(大连海事大学交通运输工程学院,辽宁大连116026)

0 引言

公交都市的建设并非简单的硬件设施改善,而是具有相对竞争力的公交服务水平提升与精细化的公交“客户管理”.公交用户细分一直以来都是国内外公交用户管理中重要的研究内容.传统的分类方法主要是通过单一数据源作为数据基础来实现公交用户的聚类分析,所采用的数据源主要包括问卷调查数据及公交刷卡数据[1].然而,这种采用单一数据源的传统分析方法在公交用户分类应用中逐渐暴露出不足.

首先,基于问卷调查数据的公交用户分类方法是最为常用的传统方法之一,并且在国内应用得更为广泛.文献[1-3]中均使用了此类方法,通过问卷调查方式采集小样本用户公交使用行为与态度意愿信息,并通过因子分析法及聚类分析法,可以实现样本内公交用户的交叉分类,得到用户的组群划分情况.然而,由于该方法的实现更多的是依赖微观小样本问卷调查而获取的基础数据,其代表性、科学性和客观性均难免受到质疑.此外,该方法采用的是样本内聚类的方式进行人群的划分,而这种无监督学习方法受样本规模和样本抽样的均匀性影响非常大,难以保证小样本的聚类结果与样本总体用户分类规律的一致性.尤其是在公交使用行为方面,问卷调查采集到的出行信息仍存在主观因素和抽样均匀性的影响,在客观性和准确性方面较公交刷卡数据存在明显差距,基于公交出行行为的聚类结果的代表性因此存在不足.

随着公交IC卡的大规模普及,利用公交刷卡数据实现个体用户公交使用行为的连续追踪,并根据公交出行行为模式的不同对公交用户人群进行类别划分成为国内外研究的热点.Ma等[4]利用K-均值聚类法,针对出行天数、首乘时间及乘坐线路等进行聚类,并将用户划分为5类具有明显行为差异的人群.Kieu等[5]依据出行OD和出行时间是否规律将使用者分为4类,在此基础上分析了每一类使用者的公交使用行为特征,并应用于公交政策的调整.文献[6]对公交刷卡数据在用户分类中的研究成果进行了整理,并指出交通大数据由于缺乏监测对象本身的社会经济属性因素及态度意愿方面的度量,仍存在一定不足.例如,国内外许多国家现阶段公交IC卡数据仅包含公交出行信息,对持卡人信息仍采取的是匿名制,因此仅通过公交刷卡数据的统计及分析,可以从“行为”的角度进行人群的划分、公交出行模式的提取等,但由于缺乏出行者本身态度意愿的度量与分析,无法从社会属性及主观意愿的角度进行用户交叉分类及改善诉求获取.

综上,虽然已经逐步建立起了公交信息化数据环境,对公交乘客出行行为的整体把握能力得到明显提升,但公众对公交服务的评价具有很大的主观成分,仍需要通过问卷调查形式获取公交用户管理所需的必要信息.因此,充分利用多源数据进行深入的决策分析成为实现科学化的公交用户管理的重要任务.为了达到这一目标,本文提出一种基于宏微观数据嵌套的公交用户细分方法,融合公交信息化数据和意愿调查数据,形成宏微观数据的互补嵌套,实现公交使用行为模式的精细化划分,为不同组群用户的诉求分析提供基础.

1 数据基础

1.1 公交刷卡数据

截止到2015年底,厦门市公交卡发行量突破600万张,达到了高度普及阶段.此次获取的公交信息化数据包含2015年12月7~18日厦门市城区范围内公交刷卡数据,覆盖300多条公交线路.数据字段如表1所示.

表1 公交IC卡刷卡数据字段Table 1 Data field of smart card data

1.2 问卷调查数据

本研究组于厦门市中心城区(岛内)进行了1次居民公交使用情况调查,调查方案信息如下:

(1)调查方式.

考虑到意愿调查采用站点问询方式的难度,此次调查选择了办公地点入户调查的方式,由市交通局文件支持,各被选中单位行政人员配合发放并回收问卷.

(2)调查对象.

办公地点的通勤人群.

(3)调查时间.

2015年12月15日9:00发放问卷,13:30回收问卷.

(4)调查地点与选取原则.

基于文献[1]中厦门市工作岗位空间分布的强弱结果,划分出岛内5个主要调查区域,厦门软件园、厦门火炬园区、江头区域、火车站区域及体育路附近区域.依据各区域岗位数分布的比例结构,采用分层抽样原则分配各自问卷数量,随机选取区域内企事业单位进行问卷发放.

(5)问卷发放与回收情况.

共计发放问卷900份,回收有效问卷664份(内容填写完整),回收率74%.

(6)问卷内容.

①公交使用情况信息.

ⓐ2015年12月14日完整的公交出行链(上车时间、上车站点、线路名、下车站点);

ⓑ过去1周公交使用天数、次数;

ⓒ公交卡号的填写(卡号标注在公交卡的表面,采用自愿方式填写).

②公交使用意愿/态度信息(五级分级法).

ⓐ是否满意现有的公交设施及运营状况;

ⓑ是否满意车内环境及驾驶人员服务态度;

ⓒ与预期相比,服务水平的总体差距;

ⓓ与票价相比,是否觉得公交所提供的服务物有所值.

2 一种公交刷卡数据与问卷调查数据的链接方法

鉴于单一数据源用于公交用户分类所面临的不足,本文提出一种基于宏微观数据嵌套的公交用户分类方法.为了实现该目标,需要能够建立问卷调查受访者与数据库中公交IC卡持卡者之间的匹配链接,即同时获取持卡者公交使用行为在刷卡数据样本总体中的宏观聚类情况,以及问卷调查数据中微观个体的社会属性与意愿信息.

本次研究将采用“卡号识别+公交出行信息对照”两阶段的匹配手段进行数据链接尝试.由于部分填写的信息可能会泄露受访者的出行隐私,因此在调查阶段都讲述了此次信息采集的目的,以及征得了对方的允许.首先,厦门市公交IC卡刷卡数据中未对公交IC卡表面印刷的卡号在数据库内进行加密处理,因此可以通过调查问卷中自愿填写的公交卡号来进行问卷受访者与公交IC卡持有者之间的匹配;其次,对于卡号未能有效识别或未填写的样本,可以根据问卷受访者填写的调查前一天(12月14日)的完整公交出行信息,结合当天的全部公交刷卡数据,试图匹配到具有唯一相同出行特征的公交卡号.

2.1 数据链接阶段1:根据填写的卡号提取问卷受访者出行记录

调查获取的664份有效样本中有327位受访者自愿填写了公交卡号,占有效样本数量的49.2%;307位受访者仅填写了调查前一天的完整公交出行信息,占有效样本数量的46.2%;其余约5%(30份)的有效受访者在调查前一天无公交出行且不愿意填写卡号.

针对327份填写了公交卡号的调查样本,利用数据库技术依次提取公交刷卡数据研究周期中符合该卡号的所有刷卡信息,最终266份样本(81.3%)成功根据卡号提取到相应的出行记录.剩余61份样本未能成功匹配的原因有两个:第一,问卷受访者的卡号可能填写错误;第二,普通的公交IC卡卡号大部分会以发行的年份开头,然而一些公交纪念卡的卡号则是以字母开头(如XM,XL,DPP),这些特殊卡号产生的刷卡记录在数据库存储时进行规则未知的加密,因此无法搜索到相应的出行记录.

2.2 数据链接阶段2:根据问卷填写信息对符合相同特征持卡者进行提取

阶段1中未能有效识别卡号的61份样本中,有38份同时填写了调查前一天的完整公交出行链信息,加上仅填写了出行信息未填写卡号的307位受访者,共计345份问卷可以结合12月14日当天的全部公交刷卡数据,试图匹配到具有唯一相同出行特征的公交卡号.

鉴于公交刷卡POS机与车载GPS设备之间存在的时钟误差会导致上车站点位置推算存在不准确的可能,本次研究主要选取出行日期、上车时间、乘车线路号及全天刷卡乘车次数4项字段进行两种数据源的链接,如图1所示.

LINK A代表利用问卷中所填写的出行日期与数据库内当天的刷卡数据建立数据筛选集;LINK B、C、D则代表利用受访者问卷中所填写的当天各次刷卡乘车的上车时间、乘坐线路号及全天刷卡次数3个字段信息对数据库内符合该特征的记录进行提取.鉴于问卷调查采集的上车时间信息跟真实情况会有一定的偏差,本次研究允许问卷填写的上车时间只要落入刷卡时间前后各10 min的区间内即为有效.

随后,对问卷所填写的出行记录进行逐条匹配,信息完全符合且具有唯一性的样本才被认为是卡号成功匹配.最终202份样本被成功匹配,其余样本未能识别卡号的原因主要有两个:第一,受访者在出行记录填写时可能漏填了某些出行;第二,受访者调查前一天的公交使用次数过少,符合相同特征的结果并不唯一,无其他辅助信息来确定准确的调查对象.综上,经过两阶段匹配方法,共计468份问卷能够匹配到相应公交卡号,占有效样本数量(664份)的70.5%.

图1 基于公交出行链信息对照的数据链接Fig.1 Data linking based on trip chain information

3 基于宏微观数据嵌套的公交用户分类方法

基于传统数据的研究方法在针对细分人群分析的大规模实际层面应用时,会对样本规模、调查抽样方案制定的合理性及结果的代表性等产生质疑.因此,本文首先利用研究周期公交刷卡数据总体样本对公交用户的整体行为模式进行聚类分析,再利用卡号与聚类类别之间的归属关系,将类别划分信息传递给已经建立宏微观链接的468份抽样样本,弥补传统方法中结果代表性的不足.

本次研究采用了最为常见的“公交使用强度+公交使用连续性”的指标组合来定义用户的公交使用行为模式.其中,“公交使用强度”可以由乘客一段时间内使用公共交通的天数与总刷卡次数的乘积来体现;而“公交使用连续性”可以由使用公共交通的“天数”与“生命周期”的比值来体现;两者的共同组合可以从“强度”和“使用均匀性”的角度体现一段时间内用户对公交系统的依赖程度.

具体来说,可以通过数据库技术对每张卡号在数据周期的乘车刷卡天数和总刷卡次数分别进行统计,并将其乘积结果作为其“公交使用强度”指标体现(两者的乘积结果要比单独使用“天数”或“刷卡次数”更具有代表性).此外,研究周期内刷卡乘车的天数用DB表示;公交卡使用的“生命周期”是指研究周期范围内持卡人第1次刷卡的日期到最后1次使用该卡日期之间的时间跨度(以天为单位),用DL来表示;“公交使用连续性”能够反映每张卡号在其生命周期内使用公共交通系统的“时间均匀性”,可以体现为在某一卡号“生命周期”内的公交使用天数(DB)与生命周期(DL)的比值,用Tcon表示且最大值为1,计算方法为

本次研究中,首先通过上述两项指标的量化方法获取数据周期内每张卡号的“公交使用强度”及“公交使用连续性”的统计结果并作为聚类指标;之后,通过SPSS 21.0软件中的K-means聚类功能,对公交刷卡数据中的持卡人群体进行聚类划分,共划分为3类人群,并将已经建立链接的468份样本的卡号按照类别的归属进行统计,如表2所示.其中,第1类人群的公交使用行为特征为“高强度、高连续性”,体现出持卡人对公共交通的高度依赖,占总数的34.1%;第2类人群的公交使用行为特征为“低强度、低连续性”,体现出持卡人对公共交通的依赖性较弱,并且持卡人使用公交的时间连续性较差,只是偶尔使用公共交通,占总数的45.5%;第3类人群的公交使用行为特征为“低强度、高连续性”,体现出持卡人在其“公交卡生命周期”中的连续几天内集中使用公共交通,但总体公交使用强度偏低,属于公共交通中度依赖人群.

表2 最终聚类结果Table 2 Final cluster results

此外,同样可以利用K-means聚类功能,以已建立链接的468位受访者对常规公交的态度意愿评价打分为聚类指标,进行公交用户态度意愿方面的人群细分,并与表2中的结果进行交叉分析,如表3所示.

表3 交叉分类结果Table 3 Crossed classification results (份)

从表3中可以清楚地看到,对常规公交总体评价较差的受访者主要分布在类别1,其中既属于公交高度依赖人群(类别1)又属于态度意愿较差的样本数为117份,占类别1样本总数的77%.态度与行为的不一致性表明该类用户未来有向其他方式转移的风险[3],如此高的比例表明,目前厦门市公交系统仍需时刻把握乘客需求不断提高服务质量,保住“老乘客”,预防未来非公交出行比例的进一步上升.在公交用户管理层面,针对用户划分结果中的核心关注对象(有行动无情感的老用户及有情感无行动的潜在用户),可以通过基于意愿调查的行为分析方法对公交使用意愿的内在变化作用机理进行深入分析并提取相关的公交改善诉求.从而,通过公交服务水平的提升,维持并提高乘客公交出行的依赖性和使用意愿,达到公交客户精细化管理的目的.

4 结论

本文以厦门市为例,通过成功建立了问卷调查受访者与数据库中公交IC卡持卡者之间的匹配链接(70.5%成功率),实现了宏微观数据的互补嵌套.利用成功匹配的468份有效问卷,同时获取持卡者公交使用行为在刷卡数据样本总体中的宏观聚类情况及问卷调查数据中微观个体的社会属性与意愿信息,从行动与情感两个维度对公交用户进行交叉分类.结果表明,公交高度依赖人群中仍有较大比例(77%)的人群缺乏对公共交通的认同度,“被迫”选择公交方式出行的情况严重.在本文研究成果基础上,需要进一步结合行为分析方法对公交使用意愿的内在变化作用机理进行深入分析并提取相关的公交改善诉求,防止“常旅客”的进一步流失.

[1]孙世超.通勤人群公交方式使用行为分析方法研究[D].上海:同济大学,2016.[SUN S C.The research on behavior analysis of commuters'transit usage[D].Shanghai:Tongji University,2016.]

[2]杨东援.透过大数据把脉城市交通[M].上海:同济大学出版社,2017.[YANG D Y.Analysis of urban traffic through big data[M].Shanghai:Tongji Press,2017.]

[3]孙世超,杨东援.基于RFM模型的通勤人群公交忠诚度研究[J].交通运输系统工程与信息,2015,15(4):216-221.[SUN S C,YANG D Y.Commuters'loyalty to public transit based on RFM model[J].Journal of Transportation Systems Engineering and Information Technology,2015,15(4):216-221.]

[4]MA X L,WU Y J,WANG Y H,et al.Mining smart card data for transit riders’travel patterns[J].Transportation Research Part C,2013(36):1-12.

[5]KIEU L M,BHASKAR A,CHUNG E.Transit passenger segmentation using travel regularity mined from smart card transactions data[J].Engineering,2014(1):12-16.

[6]PELLETIER M P,TRÉPANIER M,MORENCY C.Smartcarddatauseinpublictransit:Aliteraturereview[J].Transportation Research Part C,2011,19(4):1-12.

猜你喜欢

卡号刷卡公交
河南省长葛市彩红蜂衣蜂帽加工厂
一元公交开进太行深处
河南省长葛市彩红蜂衣蜂帽加工厂
等公交
好老板
刷卡
刷脸就可以购物
宅急送开始推行终端POS机刷卡结算
第一次刷卡