轨道交通领域大数据的关键技术研究
2016-02-06徐启禄朱东升
张 浩 石 琦 徐启禄 朱东升
(1. 南瑞集团公司(国网电力科学研究院) 南京 210003; 2. 国电南瑞科技股份有限公司 南京 210061)
轨道交通领域大数据的关键技术研究
张 浩1,2石 琦1,2徐启禄1,2朱东升1,2
(1. 南瑞集团公司(国网电力科学研究院) 南京 210003; 2. 国电南瑞科技股份有限公司 南京 210061)
介绍轨道交通领域综合监控系统数据的存储、提取及运算过程,并以北京、南京等为例分析当前存在的效率问题,提出采用map-reduce分布式运算以及窗口算法,解决中心大数据量信息处理的效率问题。介绍map-reduce算法原理以及窗口算法,对采用传统方式解决大数据的同步问题进行分析,提出利用简化的map-reduce任务分发解决轨道交通数据的处理效率问题,最后对其应用领域进行扩展,可推广到轨道交通领域任何的分布式应用中。 关键词 城市轨道交通;大数据;map-reduce;分布式运算;窗口算法;大数据量信息处理;运维指挥系统
1 研究背景
轨道交通综合监控系统由众多的车站和中心构成,并且在每座车站都存在一个独立的数据域,中心域是车站数据域的集合。对中心的数据处理通常从中心域获取数据并处理,当中心的数据量达到一定程度(受车站数量、车站数据量、投运时间等影响),效率问题就会影响运营体会[1]。例如:南京地铁3号线有29座车站,重庆地铁3号线有39座车站,北京地铁6号线有26座车站,正常情况下中心每天产生100万条数据信息,如果运行时间为1年,那么查询其中一天的数据会消耗多少时间?即使优化后的查询也会碰到界面数据长时间无法被展示的困扰[2]。
2 算法介绍
MapReduce是现今一个非常流行的分布式计算框架,它被用于并行计算海量数据。第一个提出该技术框架的是Google 公司,而Google 的灵感则来自于函数式编程语言,如LISP、Scheme、ML等。MapReduce 框架的核心步骤主要分两部分:map和reduce。当向MapReduce 框架提交一个计算作业时,它首先会把计算作业拆分成若干个map任务,然后分配到不同的节点上执行,每个map任务处理输入数据中的一部分,当map任务完成后,会生成一些中间文件,这些中间文件将会作为reduce 任务的输入数据。reduce 任务的主要目标就是把前面若干个map的输出汇总到一起并输出。从高层抽象来看,MapReduce的数据流图如图1所示。
图1 MapReduce的数据流图
2.2 窗口算法
本文的窗口算法是指设定指定大小的信息域,在对信息的整理过程中只对该区域内的信息进行处理,忽略对信息域外信息的一种优选算法,如图2所示。
图2 窗口算法实例
3 传统实现分析
在传统实现方式中,控制中心是一个大而全的数据集,不仅在车站本地保存1份数据,而且需要通过同步服务程序将数据同步到控制中心。当提交一个计算作业时,它直接从本地节点上执行并输出结果[4]。
在该实现方式中,如何保证数据完全同步是系统设计的难点,例如骨干网中断一段时间后恢复,需要保证数据不丢失,同时,由于需要保存2份数据,增加了系统的负担。当控制中心提交多个并发计算作业时,由于这些计算作业都只能在本节点上处理,延长了并发计算时间[5]。
4 系统设计与实现[6]
首先,轨道交通数据按域(车站)均匀分布;其次,轨道交通网络结构固定;再次,轨道交通服务器对等,且运行服务统一;最后,轨道交通数据结构统一,且每个域都有相应的标识[7]。
由此可以看出,本设计执行条件:1) 所有节点具有等同的服务,只能处理本域的数据;2) 所有的结果数据均可以有序汇总为特定数量(窗口大小)的有效信息。符合以上两点的,均可以采用本设计,不限于轨道交通领域。
图3 map-reduce运算流程
本文所使用的窗口算法是一种简化的窗口算法,因为从各节点获取的信息组合已经是按规律排好的有序列表,所以相应的插入处理会变得更加简单。详细运算流程如图3所示。
窗口算法的实现如图4所示。以事件查询为例,本文采用的做法是从车站而不是中心读取数据[8]。首先客户端发出带有过滤条件的事件查询指令,由运行在中心服务器上的事件服务程序将其拆解为统一的查询过滤语句,并向对应的车站服务器发送请求,车站服务器根据请求访问自己的商用数据库,得到有序的事件列表并发给中心服务器,中心服务器根据车站服务器请求返回的顺序,采用窗口算法按时间排序的信息将其整理为目标结果集,发送到窗口显示。
图4 窗口算法流程
5 应用领域扩展
由于本设计针对轨道交通独有的网络、数据、服务进行设计,因此可以类推到轨道交通领域任何的分布式应用,例如在TCC(运营指挥系统发包方)上面的扩展。
由于轨道交通运营指挥系统需要调度一个城市多条线路的信息,因此需要处置的数据将是超级庞大的,尤其是对北京、上海、广州这样的一线城市,由于其地铁发展历史较久,线路多,具有较大的指导意义[9]。
首先,避免将数据收集到统一的数据仓库这一过程,不仅能够减少硬件投入,而且可以充分利用现有线路的数据库;其次,极大地提高了信息处理的速度,将对现代社会高效率处置突发事件产生巨大影响。但是由于多条线路由不同的运营商提供,所以在上一节提到的结构化数据可能会变成异构数据[10],那么需要由TCC提供统一的服务接口,通过线路服务提供方将异构数据转换为结构化数据输出。
6 结语
采用该方法的主要特点是:充分整合现有线路服务器的资源,降低中心服务器的负荷;完全使用分布式的数据存储,简化数据同步过程;将集中式的任务进行分布式处理,极大提高数据的处理效率,提升车站服务器的利用率以及中心服务器的处理效率。
[1] 毕湘利,宋键.从效率角度谈城市轨道交通的规划、建设和运营[J].城市轨道交通研究,2007(10):1-5.
[2] 徐玉萍,覃功,张正.城市轨道交通调查大数据应用研究[J].铁道运输与经济,2015(4):78-81.
[3] TOM white.Hadoop权威指南(中文版)[M].北京:清华大学出版社,2011.
[4] 严胜.智能电网变电站集中监控告警专家处理系统的研究与应用[J].中国科技信息,2009(17):25-27.
[5] 李亮.轨道交通电力监控中的拓扑分析[J].自动化仪表,2014(9):14-15.
[6] BENTLEY J.编程珠玑[M].北京:人民邮电出版社, 2008.
[7] 杨洪.地铁综合监控系统数据信息量及服务器配置方式讨论[J].信息技术与应用,2015(6):17-20.
[8] 林晓伟.地铁综合监控人机界面的设计与实现[J].工业控制计算机,2010,23(12):13-14.
[9] 陈建译.铁路运输调度管理系统与列车调度指挥系统信息共享的实现[J].中国铁路,2010(2):53-55.[10] 封博卿,赵静,常慧辉,等.轨道交通应急指挥多源异构数据的融合方法[J].铁路计算机应用,2012,21(5):61-63.
(编辑:王艳菊)
Research on Key Technologies of Large Data in the Field of Rail Transit
Zhang Hao1,2Shi Qi1,2Xu Qilu1,2Zhu Dongsheng1,2
(1. NARI Group Corporation (State Grid Electric Power Research Institute), Nanjing,210003;2. NARI Technology Co., Ltd., Nanjing, 210061)
The paper introduces the process of data storage, extraction and operation of the integrated monitoring system in the field of metro and takes Beijing and Nanjing as examples to illustrate the current efficiency problems. The map-reduce distributed computing and window algorithm have been put forward to solve this problem. After introducing the map-reduce algorithm principle and window algorithm, and analyzing the traditional way to solve the problem of large data synchronization, it proposes to use simplified map-reduce task distribution to handle this issue. This method could be applied to any rail transit field of distributed applications.Key words: urban rail transit; large data; map-reduce; distributed computing; window algorithm; huge data quantity information processing; rail transport operation and maintenance command system
10.3969/j.issn.1672-6073.2016.06.002
2016-04-05
2016-05-09
张浩,男,硕士,工程师,从事轨道交通自动化研究工作,zhanghaohzxt@163.com
U231
A
1672-6073(2016)06-0008-03