轨道交通大数据运用现状及发展趋势研究
2016-02-07李得伟张天宇周玮腾尹浩东
李得伟 张天宇 周玮腾 尹浩东
(北京交通大学交通运输学院 北京 100044)
轨道交通大数据运用现状及发展趋势研究
李得伟 张天宇 周玮腾 尹浩东
(北京交通大学交通运输学院 北京 100044)
为了确保大数据在轨道交通领域规范运用、良性发展,在总结大数据基本概念的基础上,系统梳理轨道交通行业内大数据的基本特点、数据类型、主要内容、处理流程及关键技术,并选择其中的某个典型专业,总结轨道交通大数据在统计分析、应急辅助决策、乘客出行诱导、客流预测和调度管理等方面的运用现状。最后,阐述大数据在轨道交通应用方面的挑战,从轨道交通数据系统内部和外部两个方面提出轨道交通大数据应用的发展趋势。 关键词 轨道交通;大数据;运用;发展趋势
进入21世纪以来,随着信息、传感和移动互联网技术的快速发展,社会各个领域数据呈现爆炸式增长态势。这些数据具有海量、多源异构、产生和传播速度极快等特征,并且蕴含了许多有用的信息,由于运用常规数据管理、数据统计、回归分析等技术处理数据所耗时间超过可容忍时间[1],因此,这些信息难以挖掘,使人们开始高度关注对这 类 数 据 运用和 处 理 问 题 的 研究,这类数据和所采用的技术也被专门称为大数据和大数据技术。
轨道交通领域涉及运输、土木、车辆、机电、供电、通信、信号、环控等多个专业,每天各专业通过人工、设备等方式采集产生的数据量以百万条计,应用大数据运用和处理技术,深入探索轨道交通系统的规律,进而指导运营实践,对提升轨道交通的运营管理水平和乘客服务水平具有重要的理论和现实意义。
然而,目前对轨道交通领域大数据运用问题的研究还很有限。基于这一背景,本文通过系统梳理轨道交通行业的大数据运用现状、存在的问题,探讨其发展趋势,以期对大数据在本行业的发展提供参考。
1 轨道交通大数据运用的基本内容
1.1 轨道交通大数据的特点
轨道交通大数据相比于其他领域大数据具有独特的特征。
1) 数据动态性强。轨道交通系统处于时刻变化之中,大部分人和物的数据动态性强、随机性强、个体化差异明显、变化粒度多样,并且数据之间的连带性强,尤其遇到干扰或扰动时,某一方面的故障或延迟往往会影响其他方面。
2) 数据异构性更加广泛。首先,数据来源广,轨道交通系统涉及多个部门,业务复杂多样,数据存储分散,难以集中;其次,数据种类纷繁复杂,非结构化数据占比较大,且较难形成统一的结构;再次,数据产生周期参差不齐,有的数据随时产生,有的数据按天、周、月为周期产生等;另外,数据产生方式多样,有的由设备产生,有的则是通过人员记录产生,有的在车站产生,有的随车产生。
3) 数据依赖外部环境。一方面,轨道交通系统处于城市大环境中,运营载体和服务对象都与城市息息相关;另一方面,轨道交通大系统易受外界因素的影响,天气变化、重大活动、国家政策、节假日等对轨道交通的客流和计划会产生很大的影响。
4) 数据呈一定规律性。轨道交通系统在各种计划的指导下运营,如列车运行计划、人员排班计划、动车组检修计划等,客流按照年、月、日、时呈现时间和空间周期性,空调通风等设备呈现季节周期性,因此轨道交通大数据具有一定的规律性。
5) 保密性要求较高。如对涉及技术或安全方面信息的保密性要求较高。
6) 数据带有明显的时空特性。如乘客流线、列车运行数据都在时间和空间两个维度上同时变化。
1.2 轨道交通数据的主要类型
根据与轨道交通运营的关联性可以将轨道交通数据分为内部数据和外部数据两大类。
1.2.1 内部数据
内部数据主要指在轨道交通系统内部产生的数据,如表1所示。
表1 轨道交通内部数据
1.2.2 外部数据
外部数据指与轨道交通直接或间接相关的轨道交通系统外部的数据(见表2)。
1.3 轨道交通大数据运用的流程
轨道交通大数据的处理流程需要面向决策需求,从数 据 来 源 入手,按照 数 据的采集、存储、处理、分析、解释架构进行[4]。后者又可以统称为数据处理技术。通过对广泛异构的数据源进行抽取、集成、统一存储,进行知识挖掘和结果呈现,具体流程如图1所示。
表2 与轨道交通系统相关的外部数据
图1 轨道交通大数据处理阶段
2 轨道交通大数据运用的决策需求
轨道交通大数据运用的决策需求贯穿轨道交通生命周期的全过程,数据对轨道交通的规划、建设、管理起着重要的决策支撑作用。这种决策支撑主要体现在可视化规律挖掘、预测、预警与控制等方面。仅以运输专业为例,主要的决策需求包括:线网规划中平行、交叉线路的规划,确定合理的线路开通时序,列车运行图编制,日常客流组织中客流预警,列车运行调整,限流方案确定,突发客流组织,客运营销方案的确定,票款清分,轨道交通运营效果评价,运营节能方案的动态评估与优化,应急资源配置优化等方面。
然而,从运用现状来看,目前轨道交通大数据的运用还处于初级阶段,由于轨道交通专业繁多,其需求具有较强的多样性。以下仅就运输专业为例,总结主要的运用方向。
2.1 统计分析方面
对轨道交通运营中产生的数据进行平台化管理,方便查询、分析。如:开发具备大数据分析能力的运营数据管理系统,采集全样本的数据,记录包含客流信息、行车信息、运营指标、运力配置、客运服务和运营大事件等在内的重要运营数据[5],为运营管理提供动态分析依据(如图2所示)。
图2 运营动态统计分析
2.2 应急辅助决策方面
根据物资、设备的数据制定电子化预案,自动启动应急处理机制,调配人力物力。例如上海地铁中将人、电、车等资源按时间和空间进行分布,对各条线路的各类资源进行调配。又如在京港地铁中,全线设备受系统监控,分析在各站点的员工对企业制度的贯彻情况、维修任务的执行状况、备品备件的详细信息等数据,系统派工,对资源进行合理部署和调配,实现了效率更高、响应更及时的管理[6]。笔者通过对历史设备设施故障发生频次和客流数据的深层次挖掘,确定合理的应急资源配置方案(见图3)。
图3 基于大数据的应急资源配置
2.3 乘客出行诱导方面
在北京、上海、广州等地铁中,对轨道交通各线路区段的客流密度与运营状态进行实时监控,并根据即时运营状态,用“绿、黄、红、黑”表示路线运营情况,便于乘客调整出行计划,避开拥堵和发生故障的区段(见图4)。此外,上海地铁乘客还可以通过站台、车厢显示屏、自助查询屏、上海地铁网站等载体,在出行前进行网站路径查询,出行中利用微信、手机进行信息发布,出行后使用手机电子地图,对周边资源进行搜索等[7]。
图4 基于大数据的客流诱导
在深圳,基于手机APP,获取用户位置信息。根据用户的居住地、工作地、APP使用习惯、消费习惯等关联信息,识别用户性别、年龄、职业、爱好等信息,区分不同类别人群,精细化分析用户行为特征,针对不同人群的多样化出行制定交通改善方案[8]。
2.4 客流预测方面
大数据技术的一个重要应用是对客流数据的运用和处理。通过动态获取票务系统和自动售检票系统中的数据,以及天气、大型活动等外部数据,采集海量的原始信息,通过分析客流特征,实时分析客流出行的时空分布规律,发掘客流规律,进而预测未来客流的走势,为运营管理提供必要的参考信息(见图5)。
图5 基于大数据的客流在线预测
2.5 调度管理方面
在京港地铁,通过对运营信息的二次提炼、分析,大数据运营平台可以及时掌握乘客出行习惯,预测早、晚高峰时间,实现了实时调度[6](见图6)。又如在深圳,滚动识别拥堵区以及近期拥堵明显加剧片区,为交通综合治理工作的开展提供依据。
图6 基于大数据的运营调度
3 轨道交通大数据处理关键技术
3.1 数据采集
轨道交通数据采集的来源有两种:1) 来自于人。人在出行及运营管理中产生、记录的数据。2) 来自于设备。各类计算机信息系统、数字设备所采集的数据,如全球移动通信系统(GSM)、闸机、手机、交通服务平台、摄像头、传感器、WiFi等。
为保证数据的完整性与准确性,大数据时代的数据采集将更加突出设备的自动化采集,采集内容将基于全量而非基于采样的方式,采集方式多样化而非只采集基本数据。采集数据的类型将涵盖结构化数据、半结构化的用户行为数据、文本或音频类型的用户意见和反馈数据、设备和传感器采集的数据,以及网络爬虫获取的互联网数据等。
除了常规采集技术外,城市轨道交通大数据可以采用如下新型的采集技术:
1) 应用移动互联网技术采集移动设备的数据(如统计APP的基础数据,包括用户数、活跃情况、流失比例、使用时长及用户的位置等)[9]。
2) 应用网络爬虫采集全网信息、舆情监控等。
3) 应用无线射频标签(RFID)技术解决物品信息与互联网自动链接的问题。
4) 应用传感器(Sensor)采集自动检测和控制等环节的数据。
5) 其他数据采集方法。对于保密性要求较高的数据,可以使用特定系统接口等方式采集。
3.2 数据处理
轨道交通大数据处理的主要技术包括数据存储、数据清洗和云计算技术。
3.2.1 数据存储
对数据进行分类,通过过滤和去重来减少存储量,便于检索。由于轨道交通数据量庞大,以往一般采用Oracle数据管理系统,并采用分布式存储方式。目前在大数据存储、管理和处理方面,BigTable和Hadoop技术应用广泛。
3.2.2 数据清洗
数据量的增加导致数据质量低劣,噪声增多。由于数据采集设备、安装位置以及数据传输能力的限制,轨道交通大数据一般存在数据的准确性缺陷、完备性缺陷和时效性缺陷,这些缺陷极大地降低了数据的可用性。因此,为保证数据质量和可信性,在数据集成过程中,应对数据进行清洗。同时清洗粒度要适中,应既达到清洗效果,又能保留有用信息。
3.2.3 云计算
云计算是一种基于互联网模式的计算[10],以虚拟化技术为基础,以网络为载体[11],提供平台、软件等服务,是进行协同工作的超级计算模式。大数据和云计算相辅相成,大数据是云计算的材料,大数据的挖掘,又必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。
3.3 数据分析与解释
数据分析阶段最重要的技术是数据挖掘,即分析数据间及类别间的关系,揭示数据间的内在联系,发现深层次的模式、规则及知识。适用大数据挖掘的处理技术有MapReduce(当前广泛采用的大数据计算模型和框架)、NOSQL类数据库(在查询与索引方面适用于大量的非结构化或半结构化数据)。
数据解释旨在更好地呈现数据分析结果,不恰当的解释方法可能导致理解很晦涩,甚至误导用户。大数据分析结果的呈现要更加注重交互式和可视化。传统的数据呈现形式难以应对海量的数据分析结果。目前大数据解释技术主要有可视化和人机交互[12]。
3.3.1 可视化技术
可视化既是数据分析的关键技术也是分析结果呈现的关键技术[3]1897。多维数据的对比、映照通过图形、动画等视觉化手段展现出来时,易于揭示出数据中的规律、各因素之间的相关关系,发现异常数据等,同时方便对大数据分析结果的沟通与理解(见图7)。
图7 客流数据的可视化
大数据可视化不同于传统的信息可视化,最大的挑战是能够适用于分析大规模、高维度、多来源、动态演化的信息,并辅助做出实时决策。
3.3.2 人机交互
即让用户在一定程度上参与分析的具体过程,引导用户进行分析,让用户得到结果的同时更好地理解分析结果的由来,有助于用户理解结果。
4 轨道交通大数据运用的挑战及趋势
4.1 轨道交通大数据运用面临的挑战
除了保护个人隐私和数据安全等大数据应用时普遍存在的挑战外,从现有轨道交通大数据的应用情况可以看出,还存在以下典型问题:
1) 在决策内容和方式方面,与轨道交通每天产生的大量数据相比,现有的应用内容还很简单,轨道交通生命周期各阶段数据之间的反馈应用几乎没有,多源数据的交叉应用还很少。从运用的方式上看,目前对于大数据的应用还只存在于进行决策支持,尚未达到智能化。
2) 数据采集方面,在由人员记录的数据中,存在数据缺失、记录格式不统一现象,造成原始数据的语义不明、甚至缺失;且各部门之间存在数据编码和分类的差异,数据缺乏统一管理和标准。因此,鉴于当前数据采集技术参差不齐,自动化程度不一致,导致获取数据质量存在差异。所以应该创新某些数据采集方式;同时在获取海量原始交通数据的同时,应对数据进行初步处理,便于分析,从而及时、准确、快速地获取交通数据。
3) 数据集成方面,轨道交通涉及的大数据种类和数量繁杂,且散布于不同的数据管理系统和部门中,数据壁垒现象严重,存在公用数据重复建设现象,数据维护和保障不健全、数据共享度低,为便于数据分析需要进行数据的集成。
4) 在人才需求方面,目前轨道交通领域主要是管理人员较多,缺乏高级IT人才,即技术与数据相分离现象严重[13]。
5) 在数据交叉分析方面,目前对于多源异构数据的挖掘比较少,大部分数据挖掘还是基于对轨道交通系统内部数据的分析,只有少量与外部数据的交叉分析,且都与交通信息有明显的相关性,缺乏更广泛的数据交叉分析。
6) 在系统内部物联网方面,对轨道交通内部资源进行联网跟踪记录,便于人力、物力的合理配置。
7) 在思维方式的转变方面,由传统的粗放型向大数据精细化转变,让数据分析指导决策,进行事前预测,而非事后统计。
4.2 轨道交通大数据运用的发展趋势
通过以上分析可以发现,未来轨道交通大数据运用将有必要打破轨道交通数据系统内部的障碍,全面融合汇总数据,对轨道交通内部大数据和外部大数据进行综合分析,指导轨道交通规划、设计、建设、运营的良性发展。
4.2.1 轨道交通大数据的内部应用
除上文中提到的大数据技术已实现的应用外,还应该深层次、多角度挖掘数据,详见表3。
此外还可对轨道交通大数据按运营中的各环节对多类数据进行评估。例如,可以评价线路间连接、运力与运量匹配关系,寻找车站客流聚散瓶颈,进行实时、短期的客流预测等。
表3 轨道交通大数据的内部应用
4.2.2 与外部多源异构数据的交叉分析应用
开放的交通系统由于受各种外因的影响,因此需要建立多方的信息基础环境,融合并深度分析各个行业的数据,对多源异构数据进行融合,并进行多角度精准分析,多层次关联处理,打破数据壁垒,真正做到数据共享,更大发挥各个行业数据的价值,同时使预测结果为多方利用。
根据当前轨道交通大数据的应用对可进行交叉分析的数据方向进行分级,详见表4。
表4 外部数据与轨道交通数据交叉分析应用
5 结语
本文总结了轨道交通大数据运用的主要内容,特别以运输专业为例分析了大数据运用的决策需求和关键技术,提出了轨道交通大数据运用面临的挑战以及发展趋势。通过分析,将有助于轨道交通行业做好大数据运用的顶层设计,促进大数据在轨道交通行业的
良性发展。由于轨道交通涉及专业较多,因此本文无法较全面地涉及每个专业。对于各专业大数据应用的深入挖掘,将是本文进一步拓展的方向。
[1] 维基百科:大数据[EB/OL].(2016-08-09)[2016-08-12] https://en.wikipedia.org/wiki/Big_data.
[2] 王荃.地铁及城市轨道综合安防规划设计[J].现代建筑电气, 2012,2(3):46-51.
[3] 程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J]. 软件学报,2014,25(9):1889-1908.
[4] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169.
[5] 京港地铁4号线开通运营四周年[EB/OL].(2013-09-08)[2016-08-25] http://www.mtr.bj.cn/content/details34_12215.html.
[9] 张苹.数据挖掘技术在企业中的应用[J].科技广场,2011(8):41-44.
[10] 郑玮.Hadoop释放大数据潜能[J].软件和信息服务,2012(10):9.
[11] 姜浩.云计算环境下的安全应用[J].信息安全与通信保密,2013(7):41-44.
[12] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.
[13] 陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报, 2013,25(8):142-146.
(编辑:曹雪明)
Li Dewei Zhang Tianyu Zhou Weiteng Yin Haodong
(School of Traffic and Transportation, Beijing Jiaotong University, Beijing 100044)
rail transit; big data; application; trend
10.3969/j.issn.1672-6073.2016.06.001
2016-08-15
2016-08-27
李得伟,男,副教授,博士,交通运输规划与管理专业,运输组织现代化方向,lidw@bjtu.edu.cn
教育部高等学校基本科研业务费(2016JBM030);北京市科委课题(Z151100001315004);朝阳区科委课题(CYXC1607)
U231
A
1672-6073(2016)06-0001-07
编者按 城市轨道交通成网建设与运营的快速发展,产生巨量的数据和信息流,呈现大数据井喷式发展,使传统的数据统计分析、应用、评估不能适应这一发展的需求。近年来,大数据的研究应用成为行业发展的新热点,本期《热点研讨》栏目发表3篇文章,期望提升城市轨道交通行业对大数据采集、分析挖掘、管理决策、融合应用的技术研究和工程化水平,为行业发展提供新动力。