APP下载

基于云计算的地铁大数据分析方法研究

2018-12-06殷玮川何世伟李玉斌侯吉周芳杰

铁道科学与工程学报 2018年11期
关键词:工作日客流量客流

殷玮川,何世伟,李玉斌,侯吉,周芳杰



基于云计算的地铁大数据分析方法研究

殷玮川,何世伟,李玉斌,侯吉,周芳杰

(北京交通大学 城市交通复杂系统理论与技术教育部重点实验室,北京 100044)

提出一种基于云计算的地铁大数据分析方法,将地铁大数据的处理分析划分为数据读取、数据存储、数据清洗、数据分析和数据可视化5个阶段,数据分析主要以车站客流规模情况、乘客出行时间情况等为例进行说明。并以阿里云计算服务大数据平台为工具,测试云计算技术与传统数据库的运算效率,证明云计算具有处理速度快和不占用本地资源的优点。最后,以成都地铁AFC 1周刷卡数据为案例,对比实际情况与数据分析所得结论,验证了所提出的大数据分析方法具有较好的普适性,对于今后的地铁大数据分析研究有很好的借鉴意义。

地铁;云计算;客流分析;大数据;AFC数据

近几年来,我国各个城市的地铁迅猛发展,建设运营总里程不断增加[1]。对于地铁运营企业来说,客流分析是线网规划和运营组织的重要参考之一,而随着计算机和信息技术的迅猛发展和普及,地铁领域积淀了海量的乘客出行信息等数据,因此,结合海量地铁AFC刷卡数据分析客流特征,实现资源的合理配置,进而更好地服务地铁客流的出行需求,对降低乃至消除供需不平衡情况有显著研究价值。在处理此类问题上,大数据处理技术和方法支持具有强大优势,随着决策需求的日益复杂,地铁大数据的应用场景也越来越广泛[2]。当前关于地铁客流大数据分析的研究主要偏重于大数据分析的政策性、前沿性综述方面以及客流出行特征分析。陆化普等[3]指出交通大数据与传统交通数据的不同主要体现在特征中。当前对大数据特征的描述主要有:3V,4V和5V等。结合交通大数据的基本类型,认为交通大数据具有6V特征:体量巨大;处理快速;模态多样;真假共存;价值;可视化。陈欢等[4]基于2014 年上海市第5次综合交通调查结果,综述上海市交通大数据资源现状和基于大数据的城市综合交通特征挖掘分析技术方法及主要成果。轨道交通大数据的应用研究方面主要有:CHEN等[5]对基于大数据的乘客出行行为研究进行系统和前瞻性的综述分析。Van[6]通过乌特勒支的轻轨大数据对其运营组织进行分析。Kuhlman等[7]在收集荷兰的轻轨和公共交通乘客出行数据基础上,对乘客的出行行为进行分析。JIANG等[8]利用乘客出行大数据对轨道交通的运营时刻表进行评估分析。而在大数据的技术方法层面的研究有:朱建生等[9]提出铁路客票实名制信息综合分析系统的技术架构,并设计反向索引以构建客票实名制乘车信息的查询策略和查询流程,通过性能测试,验证了NoSQL数据库技术在处理大数据查询和分析中的高可用性。蔡昌俊等[10]利用AFC数据,提出一种适用于路网结构变化条件下的城轨站间客流量分布预测模型,并用广州地铁6号线开通前后的AFC数据进行检验。ZHOU等[11]通过挖掘不同数据源的信息研究公共交通客流量与天气因素间的关系。DONG等[12]基于手机基站大数据的信息采用-means聚类算法对交通小区划分方法进了研究。目前研究中,虽然已有采用AFC数据对地铁客流进行分析或预测的文献,如文献[10],但其数据量和相关数据处理分析方法都没有涉及到大数据和云计算的范畴。综上,针对地铁大数据分析的研究还存在以下不足:1) 大部分的地铁客流分析研究还停留在传统的本地数据库处理层面;2) 地铁大数据的研究并没有相应的创新性和普适性方法,如针对地铁大数据的分析处理方法还没有涉及到云端分布式计算技术,数据可视化技术应用还有待深入研究。针对上述研究中的不足,本文以云计算技术为基础,提出一种地铁大数据的分析处理方法,并以成都地铁AFC大数据为例进行验证,分析地铁客流特征和波动规律,同时也验证了提出的大数据分析方法具有良好的精准性和普适性。

1 大数据分析方法

本文提出的基于云计算的地铁大数据分析方法分为数据读取、数据存储、数据清洗、数据分析和数据可视化5个阶段,其中,数据分析主要包括车站客流规模情况、乘客出行时间情况、卡类型比例情况以及车站客流规模聚类方案等。该方法的流程示意图如图1所示,具体的操作步骤如下所述。

Step 1:数据读取方法。在本地编程软件如Java开发工具平台上编写代码对原始数据集的数据结构进行读取,获取包括行分隔符和列分隔符的信息,从而可以保证顺利将数据集上传云端数据库,如存在数据结构“2aa2a04|N|104.063028|30.508351|双流县|1|104.127465|30.26802|双流县|1|27459.749617”,则列分隔符为“|”,行分隔符为“ ”。

Step 2:数据存储方法。在云端数据库新建与Step1获得的数据结构相对应的表结构,利用云客户端的MapReduce分布式上传功能完成云端数据库读取大数据的操作,即将大数据存储在云端数据库中。

Step 3:数据清洗方法。在云平台完成数据的清洗工作,包括将String类型的值转换成Int类型以方便后期匹配计算,将一些列中带不规则字符的数值重新统一格式。筛除无效数据,如统计客流情况时,员工卡的进出站记录就属于无效数据。再对部分缺失或空白的数据记录进行自动填充。

Step 4:数据分析方法。在云平台对清洗后的数据进行SQL分析操作,可从地铁AFC数据记录中筛选计算出各地铁站的客流情况、进出站断面情况、乘客出行时间分布情况、OD量情况和卡类型情 况等。

以乘客出行时间分布为例,数据分析方法的具体伪代码实现如下。Records为记录总数,Travel_ Time[i]为第条记录的出行时间,Out_Station_ Time[i]为第条记录的出站时刻,In_Station_time[i] 为第条记录的进站时刻,K_TimePattern为统计乘客出行时间比例而划分的出行时段,K_Time Pattern. count为划分时段数量,K_TimePattern[k].Time为第个时段对应的出行时间上限值,K_TimePattern [k]. Cnt为第个时段客流数。

For(int i=0;i< Records;i++){

Travel_Time[i]=Out_Station_Time[i]-In_Station_time[i];

For (int k=1;k

If (Travel_Time[i]<=K_TimePattern[k].Time)

{

K_ TimePattern [k].Cnt++;

}

}

}

Step 5:数据可视化方法。将前述步骤中求出的各类数据结果进行保存,并在云端利用百度地图API进行程序开发实现可视化分析。

图1 大数据分析方法流程图

2 云计算技术效率测试

当分析的数据规模较大时,本地数据库处理速度会降低,本地计算资源占用率也会提高,云计算本身不占用本地资源的模式也让用户更好地分配了资源,节省了成本,提高了效率。相比传统数据库技术,云计算具有很好的适应性和应用前景。采用云计算处理方法可以有效避免资源的集中消耗,分布式的处理机制也可以有效提升数据的处理速度。本节以阿里云计算服务大数据平台为工具,测试对比其与传统数据库在数据处理方面的效率差别。阿里云大数据计算服务(MaxCompute)[13]支持SQL,MapReduce,Graph等计算模型,是阿里集团唯一大数据处理云平台。能在更短的时间内完成计算任务,有效降低用户成本。Tunnel服务支持每天TB/PB级别数据的传输,一般用于历史数据、全量数据的导入导出,具有吞吐量高、水平可扩展的特点,适用于批量、历史数据的上传及下载,而且所有数据均以表格式压缩存储,不会暴露文件系统,占用更少的存储空间,可以降低用户成本,唯一的缺点是数据延迟较高。MaxCompute SQL采用标准的SQL语法,以更高效的计算框架支持SQL计算模型,执行效率比普通的MapReduce模型[14]更高,通过多时间维度的离线任务调度、在线运维、监控报警等功能为大数据开发提供稳定的离线调度能力,可以支持超过百万级的离线调度任务量。

在内存4G,AMD双核处理器(主频2.2GHz)的电脑上对阿里云MaxCompute和传统SQL Server2008数据库处理大数据的SQL运算速度进行测试对比,测试数据集为成都地铁AFC刷卡数据。如表1所示,可以看出,阿里云MaxCompute的整体运算速率要优于传统SQL Server数据库,且随着SQL语句复杂度的提高或数据规模扩大其运算优势性体现越明显。

第1次SQL运算阿里云MaxCompute需要4 s,但是SQL Server数据库只需要1 s,有2点原因,一是因为本地计算机提交SQL请求到阿里云计算平台会存在网络传输和SQL语句读取初始化的时间,二是阿里云计算平台将MaxCompute拆成一个分布式的任务去调用,MapReduce初始化时的反应速度会比较慢,所以即使是复杂度很低的SQL语句,也会需要一定的时间。而后3次不同规模的SQL运算中,SQL Server 数据库的运算时间成倍增长,阿里云MaxCompute的运算时间却保持相对稳定。这说明随着计算数据规模的扩大和SQL复杂度的提高,云计算平台初始化的时间相比于总计算时间所占的比重降低,基于云计算平台的分布式调用方法相比传统数据库技术的优势性就显现出来。

表1 云计算与传统数据库计算效率对比

3 实例分析

本文的地铁AFC数据由中国地铁工程咨询有限责任公司提供,包含2016−03−21~03−27 1周的成都地铁AFC刷卡数据,涉及70多万名乘客3条地铁线路的共计7 872 314条AFC数据记录。其中将03−21~03−25为工作日,03−26~03−27为非工作日。

AFC数据结构如表2所示,首先读取原始数据中的行、列分隔符,通过云客户端进行拆分后上传云端数据库。再对AFC数据格式进行统一,原始AFC数据中String类型的数值都含有双引号,如进站站名显示为“火车北站”,因此,需利用Split_apart函数文本中的引号格式统一进行删除,将需要数值匹配计算的列进行String转Int型的操作,最后再对员工卡进出站这些无效数据进行筛除,对部分缺失或空白记录自动填充。

在云端数据库编写SQL脚本语言分别对AFC数据从各站客流情况、客流断面情况、卡类型情况、乘客出行情况和车站客流规模聚类进行分析,最后利用百度地图API进行程序开发实现可视化分析,以此验证本文提出的基于云计算的大数据分析 方法。

表2 成都AFC数据表结构

3.1 各站客流情况

统计分析工作日和非工作日成都地铁各车站的客流量情况,包括进出站客流,如图2~3所示。其中,春熙路、犀浦、成都东客站、天府广场以及火车北站这5个车站在工作日和非工作日的客流量都很大,其中春熙路和犀浦相对更为繁忙。龙泉驿和非遗博览园在非工作日客流较多,累计客流量能够排入非工作日的前10。而世纪城站的客流量情况较为特殊,是因为2016−03−24~26在世纪城新国际会展中心举行了成都春季全国糖酒会,因此该站客流量在那一周的工作日和非工作日均进入前10,其中03−24客流量更是超过14万人次。根据不同客流量规模的车站数量数据可以看出,工作日中客流量规模在2~5万的车站数量最多,非工作日中客流量规模小于2万的车站数量最多,这有可能是工作日中乘客大都往返于居住地和工作地之间,而非工作日中乘客由于出行目的的不同导致车站客流量规模分布较为分散。

图2 工作日前10车站客流量

图3 非工作日前10车站客流量

图4 工作日和非工作日不同客流量规模的车站数量

3.2 客流断面情况

统计分析工作日和非工作日成都地铁路网的进站断面客流情况,如图5~6所示。地铁的进站断面客流在 7点~9点和17~19点均有明显的上升并达到高峰值,较为符合城市工作群体上下班出行的规律。进站断面客流的第1个高峰顶部较为尖锐,而第2个高峰顶部相对平缓,分析为在早晨上班时段乘客大都处于急迫状态,对于拥挤程度考虑较少,而在下班时段乘客的急迫程度下降,因此当进站人数达到一定拥堵程度时,便不再继续进站,而是选择等待或者其他交通方式出行,故进站客流的第2个高峰顶部较为平缓。分析非工作日的进站断面客流,可知在7~8点、12~13点和17~18点这3个时间段,进站断面客流都有明显的上升并到达一个局部的高峰,较为符合乘客非工作日出行的规律。因此,乘客AFC刷卡数据分析的结果都较符合工作日和非工作日乘客的实际出行情况。

图5 工作日进站断面客流

图6 非工作日进站断面客流

3.3 乘客出行情况

统计分析工作日和非工作日成都地铁乘客出行时间和OD对出行时间的分布情况,如图7~8所示。工作日和非工作日的乘客出行时段在15~30 min的均为最多,其次为30~45 min,但是工作日的乘客出行时段在15~30 min和30~45 min内的客流量均高于非工作日中的同样出行时段内的乘客量,工作日和非工作日出行时段在45 min内的乘客量占比均超过80%。在OD对出行时间分布上,工作日和非工作日在各个时出行段的OD对数分布相差不大,出行时间在15~30 min内的OD对数依然最多,工作日和非工作日出行时段在45 min内的OD对数占比均超过75%。可知,成都地铁的乘客出行时间大部分都在45 min以内,以15~30 min时段居多,工作日和非工作日的区别并不大,从而也可推知成都居民的交通出行半径大都在地铁45 min覆盖圈内。

图7 工作日和非工作日乘客出行时间

图8 工作日和非工作日OD对出行时间分布

3.4 可视化展示分析

利用百度地图API进行程序开发实现可视化分析,对主要车站客流规模情况和地铁OD量情况进行可视化分析。如图9~10所示。可知,工作日和非工作日下的部分主要车站客流规模存在差别,如世纪城站在工作日和非工作日的客流量差别较大,前文已经分析。可视化展示效果由于地图视角原因主要车站客流规模情况存在部分车站文字重叠现象,主要OD量情况也存在同一站点多支流入流出OD重叠现象,但是通过鼠标放缩可以对地图进行钻取放大,在局部放大视角下并不会再出现此类问题,限于篇幅,本节不再赘述。

图9 工作日主要车站客流规模情况可视化展示

图10 非工作日主要车站客流规模情况可视化展示

4 结论

1) 成都居民的交通出行半径大都在地铁45 min覆盖圈内,工作日和非工作日的地铁乘客出行时间大都集中在15~30 min时间段,其次在30~45 min时间段。

2) 城市中客流规模最大的地铁车站无论在工作日和非工作日都具有很高的客流水平,运营管理部门应重点加强这些车站的管理和监控,制定相关紧急疏解方案。

3) 可视化分析技术可以很好地与云计算、云存储方法进行融合,为数据分析提供有力支撑,增强数据分析的直观表达。

4) 基于云计算的数据处理技术相比传统本地数据库处理技术,具有效率高,不占用本地计算机资源的优势,对基于大数据的地铁客流分析研究有很好的适用性和应用前景。

5) 大数据离不开云计算,云计算平台为大数据提供了弹性可拓展的基础设备,是处理分析大数据的平台之一。对于云计算供应商和用户双方来说都做到了资源的高效分配和节省成本。

[1] 中国城市轨道交通协会. 城市轨道交通2015年度统计和分析报告(2016−05−31)[2017−03−21][EB/OL]. http:// mp.weixin.qq.com/s?__biz=MzI3NzMwODY3OQ==&mid=100000100&idx=1&sn=6f089f36dc56a6f4864f31b5db191c32&scene=23&srcid=0810AqoCzzK9F0cf6bfduK9D#rd. China Urban Rail Transit Association. Statistics and analysis report of urban rail transit in 2015 (2016−05−31) [2017−03−21][EB/OL]. http://mp.weixin.qq.com/s?__biz =MzI3NzMwODY3OQ==&mid=100000100&idx=1&sn=6f089f36dc56a6f4864f31b5db191c32&scene=23&srcid=0810AqoCzzK9F0cf6bfduK9D#rd.

[2] 杨东援. 大数据: 城市交通系统的感知—认知—洞察[J]. 交通与港航, 2015, 2(6): 4−7. YANG Dongyuan. Big data: Perception, cognition, and insight into the urban traffic system[J]. Communication & Shipping, 2015, 2(6): 4−7.

[3] 陆化普, 孙智源, 屈闻聪. 大数据及其在城市智能交通系统中的应用综述[J]. 交通运输系统工程与信息, 2015, 15(5): 45−52. LU Huapu, SUN Zhiyuan, QU Wencong. Big data and its applications in urban intelligent transportation system[J]. Journal of Transportation Systems Engineering and Information Technology, 2015, 15(5): 45−52.

[4] 陈欢, 薛美根. 大数据环境下上海市综合交通特征分析[J]. 城市交通, 2016, 14(1): 24−29. CHEN Huan, XUE Meigen. Analysis on the characteristics of comprehensive traffic in shanghai city under the environment of big data[J]. Urban Transport of China, 2016, 14(1): 24−29.

[5] CHEN C, MA J, Susilo Y, et al. The promises of big data and small data for travel behavior (aka human mobility) analysis[J]. Transportation Research Part C: Emerging Technologies, 2016, 68: 285.

[6] Van Oort N. Big data supports light rail in utrecht[J]. International Railway Journal, 2014, 54(3): 32−34.

[7] Kuhlman W, Kiel J. What big data do not tell us: What we can learn from travel survey for bus and lightrail in the Netherlands[J]. Journal of Nanoscience & Nanotechnology, 2014, 14(6): 4245−4250.

[8] JIANG Z, Hsu C H, ZHANG D, et al. Evaluating rail transit timetable using big passengers’ data[J]. Journal of Computer & System Sciences, 2015, 82(1): 144−155.

[9] 朱建生, 汪健雄, 张军锋. 基于NoSQL数据库的大数据查询技术的研究与应用[J]. 中国铁道科学, 2014, 35(1): 135−141. ZHU Jiansheng, WANG Jianxiong, ZHANG Junfeng. Research and application of large data query technology based on NoSQL database[J]. China Railway Science, 2014, 35(1): 135−141.

[10] 蔡昌俊, 姚恩建, 张永生, 等. 基于AFC数据的城轨站间客流量分布预测[J]. 中国铁道科学, 2015, 36(1): 126−132. CAI Changjun, YAO Enjian, ZHANG Yongsheng, et al. Forecasting of passenger flow’s distribution among urban rail transit stations based on AFC data[J]. China Railway Science, 2015, 36(1): 126−132.

[11] ZHOU M, WANG D, LI Q, et al. Impacts of weather on public transport ridership: Results from mining data from different sources[J]. Transportation Research Part C: Emerging Technologies, 2017, 75: 17−29.

[12] DONG H, WU M, DING X, et al. Traffic zone division based on big data from mobile phone base stations[J]. Transportation Research Part C: Emerging Technologies, 2015, 58: 278−291.

[13] MA X, WU Y J, WANG Y, et al. Mining smart card data for transit riders’ travel patterns[J]. Transportation Research Part C: Emerging Technologies, 2013, 36: 1−12.

[14] 阿里云计算有限公司.大数据计算服务(2016−03 −10)[2016−04−20][EB/OL].https://www.aliyun.com/product/odps/?spm=5176.7960203.1907008.5.gt0hoi. Alibaba Cloud. Big data computing service(2016−03 −10)[2016−04−20][EB/OL].https://www.aliyun.com/product/odps/?spm=5176.7960203.1907008.5.gt0hoi.

[15] Langville A N, Meyer C D. Google’s PageRank and beyond: The science of search engine rankings[M]. Princeton University Press, 2011.

An analysis method of subway big data based on cloud computing

YIN Weichuan, HE Shiwei, LI Yubin, HOU Ji, ZHOU Fangjie

(MOE Key Laboratory for Urban Transportation Complex Systems Theory and Technology, Beijing Jiaotong University, Beijing 100044, China)

This paper proposed an analysis method of subway big data based on cloud computing, which divided the rail transit big data analysis into data acquisition, data cleaning, data analysis and data visualization in five stages, and station passenger flow, passenger travel time were included in data analysis contents as an example. Ali cloud computing services platform for big data was used as a tool to test the efficiency between cloud computing technology and traditional database, which proves that cloud computing has many advantages in speed and occupation of local resources. Finally, a case study was carried out based on the Chengdu subway AFC card data, the proposed method has good universality verified through the comparative analysis of data and actual situation, there is a good reference for subway big data analysis and research in the future.

subway; cloud computing; passenger flow analysis; big data; AFC card data

10.19713/j.cnki.43−1423/u.2018.11.033

U291.69

A

1672 − 7029(2018)11 − 2995 − 08

2017−09−04

中国铁路总公司科技研究开发计划项目(2017X004-D,2017X004-E);国家重点研发计划项目(2018YFB1201402)

何世伟(1969−),男,重庆人,教授,博士,从事交通运输规划与管理和轨道交通大数据应用等方面研究;E−mail:shwhe@bjtu.edu.cn

(编辑 阳丽霞)

猜你喜欢

工作日客流量客流
客流增多
基于数据挖掘的景区客流量预测模型研究
城市轨道交通节假日期间大客流行车组织思考与实践
基于灰色预测理论在交通枢纽客流量的实际应用
基于灰色预测理论在交通枢纽客流量的实际应用
对于马克思关于工作日的思考
关于休闲的量的问题的考察
基于自学习补偿的室内定位及在客流分析中的应用
基于AFC数据的城轨站间客流量分布预测
人工免疫算法在电梯客流时段划分的应用