基于Aprior的高铁旅客用户行为与需求挖掘
2021-01-06魏宝红
魏宝红 周 庆
(1. 西安铁路职业技术学院 陕西西安 710014;2. 陕西易通人力资源开发有限责任公司 陕西西安 710014)
随着市场经济的深入,铁路运输企业如何能把握住市场脉搏,满足旅客对出行交通工具和旅途服务的需求,赢得运输市场,提高铁路运营效率,是摆在铁路部门面前的关键问题,旅客出行行为研究就显得非常重要。为了准确地研究其行为,笔者采用Aprior方法从模糊的、随机的实际应用数据中提取隐含的、有用的信息。通过对大量业务数据进行抽取、转换和处理,从中提取辅助管理决策的关键性数据,对旅客进行细分,以地域、收入水平、偏好等大量的旅客归类,明确旅客服务增殖的目标乘客。
该论文以西成高铁客运通道为例,对西成高铁的旅客特征和乘客价值进行分析,利用Aprior技术探讨高铁旅客用户行为和需求,为铁路运输管理者建言献策,也为日后其他高铁客运专线运营提供参考价值。
旅客出行行为是指旅客为某一目的出行(通勤、探亲、出差、休闲)乘坐高铁从出发地到目的地的移动的行为。本研究于2019年11月和12月期间,收集了西成高铁在该年的11月1日至11月30日铁路客户服务中心系统后台日志数据,所获取的数据跨越30天,数据总量共达到了3.67GB。该系统的日志数据详细记录了旅客乘坐西成高铁的出行及获得相关服务的信息,如旅客证件信息、旅客进出站记录、购票记录、改签及退换票记录、接入网络的IP地址及终端信息、乘坐车次、列车发车时间、旅客使用高铁订餐相关服务的记录等。
数据处理
为进一步明确西成高铁旅客用户行为与其对西成高铁服务的需求,我们从中筛选了部分利用西成高铁增值服务比较频繁的旅客用户,对其利用西成高铁增值服务的相关数据信息进行了获取与挖掘。通过对用户登陆铁路服务系统以及车站安检系统中的用户行为数据与其IP地址和其预留在中铁路服务系统中的个人身份信息进行匹配,我们获得了用户个人信息、用户使用高铁服务的信息,这些数据约占到了总记录数的32.75%。用户通过铁路服务系统所能够获得的高铁服务主要有车票查询服务、列车运行信息查询服务、人工售票服务、自助售票服务、人工检票服务、自助检票服务、便捷通道服务、站内咨询服务、餐饮服务、商品零售服务、WIFI与电源服务、医疗服务、睡眠胶囊服务、时刻表售卖服务、托运服务、休闲娱乐服务等服务。
分析流程
Aprior算法的基本思想是以递归的方式反映从数据集中寻找出现频次多的项集,进而产生选项集,对达到最小支持度要求的候选项集进行保留,而删除那些不满足要求的数据。在该算法执行的过程中,通常将最大前项数据的阈值设置为1,而小最置信度数据设置为10%,其具体流程如图1所示。
图1 基于Aprior算法流程图
关联规则分析结果
表1显示了基于Aprior算法的西成高铁旅客用户数据聚类结果。可以看出通过数据聚类,铁路服务系统各项服务之间的关联规则被揭示出来。车票查询和自助售票两项服务之间的关联性最强,其次是列车运行和车票查询两项服务,再次是自助售票和自助检票,说明旅客用户利用西成高铁出行最基本的几项服务之间具有比较高的关联性,并且也是置信度最高的几项关联规则,这说明西成高铁的大部分旅客用户在利用铁路服务系统进行车票与列车相关查询操作后,会选择优先到车站的自助设备上完成购票、取票或检票等操作,西成高铁若要宣传和推广自身的增值服务,将这些基本服务与增值服务建立起相应的关联关系是当务之急。置信度比较高的关联规则还有便捷通道和托运服务之间关联规则,说明西成高铁的许多旅客用户在选择通过车站提供的便捷通道进入候车区域后,还会选择将使用车站提供的托运服务使自己享受到进一步的便捷服务。此外,我们还发现了便捷通道与休闲娱乐、站内咨询与餐饮服务、休闲娱乐与WIFI电源、商品零售与休闲娱乐、列车运行与托运服务、自助检票与WIFI电源等服务之间关联性,这些关联规则的揭示,都有利于西成高铁对当前的系统与服务进行改进,更好地提升用户对西成高铁服务的利用率。
表1 关联规则发现的高铁增值业务
结论
?
总体来看,本研究运用K-means算法和Aprior算法对西成高铁旅客用户的出行及其活动行为进行分析,揭示了西成高铁旅客用户行为与需求进行了挖掘。通过K-means算法进行聚类分析,我们得出了六个类:第1类用户对西成高铁路服务系统的利用及其出行行为与活动处于中等水平,其目的主要以一般服务的使用为主,这类旅客用户对西成高铁增值服务的使用频次并不高,因此西成高铁可重点关注这类用户在出行目的地及其在出行过程中的服务使用记录,有针对性地为这些旅客推荐一些出行或休闲相关的信息,以使满足这类旅客用户的出行需求;第2类旅客用户的出行次数以及出行中的活动行为数量都相对较少,且增值服务使用行为所占的比重相对较高,其桌面端的用户占多数,这与本研究之前所得出的结论保持一致。针对这类用户,西成高铁在进行高铁服务精确推送的同时,还可通过各种系统服务平台与短信等渠道为其推荐更多的服务、资源供其选择;第3类仅包含26个记录,且该聚类下的一般服务使用次数、增值服务使用次数、出行中的活动次数、活动持续时间、利用高铁服务数量的值均要远大于其他五个类,该类存在异常的情况,故而舍去;第4类和第5类用户属于两类行为相反的用户群,第4类的用户属于以一般服务使用为主要目的,主要利用桌面端设备进行操作,会在铁路服务系统中留下比较多的服务使用记录,以获取精确的服务项目的用户群,该类用户进行其他的情况相对较少,而第5类的用户属于更愿意利用铁路服务系统中其他服务的用户,这类用户以利用智能设备为主;第6类用户一般服务行为和增值服务使用行为的频次上都不算多,但其活动记录的次数却达到了117.54次,说明这类用户比较喜欢漫无目的在铁路服务系统进行相关无关操作,这类用户利用西成高铁出行的需求并不明确,需要为之提供必要的指导。
另外,从基于Aprior算法的西成高铁旅客用户数据聚类结果揭示的各项服务之间的关联规则来看,车票查询和自助售票两项服务之间的关联性最强,其次是列车运行和车票查询两项服务,再次是自助售票和自助检票,说明旅客用户利用西成高铁出行最基本的几项服务之间具有比较高的关联性,并且也是置信度最高的几项关联规则。置信度比较高的关联规则还有便捷通道和托运服务之间关联规则,说明西成高铁的许多旅客用户在选择通过车站提供的便捷通道进入候车区域后,还会选择将使用车站提供的托运服务使自己享受到进一步的便捷服务。这些关联规则的揭示,都有利于西成高铁对当前的系统与服务进行改进,更好地提升用户对西成高铁服务的利用率。