基于铁路货运大数据的运输效率分析研究

2019-04-03罗明，沈路

铁路计算机应用 2019年3期

罗明，沈路

（1.中国铁路武汉局集团有限公司信息技术所，武汉 430071；2. 中国铁路武汉局集团有限公司信息化处，武汉 430071）

近年来，铁路总公司积极推进货物运输改革，扩大铁路运输的市场份额，努力提高与公路、水路等其他运输工具的竞争力，提高铁路运输效率。一直以来，服务于铁路运输组织与运营管理的信息系统为铁路运输组织提供信息服务，但这些信息系统存在数据不准确、不一致等问题，在铁路局的层面上缺少对这些信息系统数据的梳理和共享，缺少对系统间的横向分析，未按列车、车辆、货物等维度统一存储这些数据，没能以有效、直观的方式展现数据分析结果。本文依据服务于铁路局的5大信息系统，通过提取各系统数据，找到数据间关系，数据清洗入库后，分析、计算影响运输效率的因素，通过GIS平台实时展现数据分析结果。

1 影响铁路运输效率的主要因素分析

1.1 影响货车周转时间的主要因素

货车周转时间是衡量铁路运输效率重要指标之一，本文主要从提高货车周转时间入手，达到提高铁路运输效率的目的[1]。从货车周转时间的组成来看，包括区段旅行时间、技术站中转停留时间和装卸站停留时间。影响货车周转时间主要有6因素：货车全周转距离、货车中转距离、旅行速度、货车在技术站及货运站的中停时、管内装卸率等[2]。特别是货车旅行速度下降、车辆货物作业停留时间延长和货车中转作业停留时间延长这3个因素是影响货车周转时间的主要原因[3]。

1.2 针对主要影响因素提出分析方法

查找货车旅行速度下降的原因，研究区间线路通过能力；通过对各技术站货车停时和中时的实时分析衡量车站实时作业效率；货车车辆每个状态的全流程记录和分析计算每个货车周转时间是本文主要的研究内容。

2 铁路货运相关数据信息分析和存储

2.1 货运相关信息系统分析

与铁路货运组织相关的信息系统主要是铁路总公司推广的5大系统，包含了调度指挥、货票制票、车站组织、分界口数据和车辆编组轨迹等相关信息，是目前铁路局层面分析货运数据的主要数据源。

（1）铁路运输信息集成平台（简称：集成平台），通过整合列车、车辆、货物、机车、机车乘务员等信息，建立集中统一的共享数据库，其数据主要通过车站上报的方式实现数据更新。

（2）集成平台与运输调度管理系统（TDMS）和列车调度指挥系统/调度集中（TDCS/CTC），系统间的数据交换（简称：TD结合数据交换）主要通过MQ报文传输方式，提供列车运行图上实际运行线、基本图、时刻表、区间封锁慢行、阶段计划等。

（3）车号自动识别系统（ATIS），是机车、车辆动态跟踪和进行货车使用费清算的重要依据，同时，为分界站统计复示系统提供重要数据源。

（4）列车确报系统，利用现车系统、铁路局、铁路总公司确报系统发送的列车出发运统一信息，用于铁路总公司及铁路局调度指挥、局间列车交接、局调度与车站、各现车系统站交互共享、统计等运输生产列车出发运统一信息。

（5）货票系统，作为铁路货运的主要票据，货票数据记录了货物的类型、货主、到发站、制票日期、实际出发时间、品类、重量、数量、车号等信息。

这5大系统数据源是构建铁路货运大数据的基础，通过这些信息系统的深入分析，对数据进行清洗和入库，按货物、车辆、列车3个维度进行存储，利用存储后的数据进行运输效率分析。

2.2 系统数据分析和存储

（1）集成平台的信息主要来源于MQ报文。集成平台采集MQ队列列车出发报告、到达报告、装车报告、卸车报告等信息作为车辆在局管内各站的关键事件[4]。

（2）TD结合数据交换提供列车在线路运行径路，通过集成平台的到达、出发报告将车辆和车次结合[5]。

（3）分界口车号识别系统为进入分界口的车辆提供追踪的源头。

（4）确报系统作为车辆编组的补充信息，对车辆信息进行补充。

（5）提取货票数据，通过集成平台串联车辆号和货票号，将货流信息和车流信息连接起来，将数据按照不同的维度进行存储，掌握车辆在局管内的全流程追踪，为实现运输效率分析提供数据基础保障。

3 主要指标分析算法

线路区间的通过能力、线路繁忙情况、车辆在站的中时和停时、车站作业效率分析、货车车辆每个状态的全流程记录和分析主要通过以下算法实现。

（1）通过列车完整轨迹获取算法，实现列车的实时跟踪和历史信息查询，对查询车辆和货物的完整轨迹起到辅助作用。

（2）通过车辆完整轨迹获取算法，实现车辆每个状态的监控，对分界口的出发流预测起到辅助作用。

（3）通过货物列车线路繁忙情况获取算法，实现区间通过能力分析，通过区间实际运行对数和基本图进行比较，设置一定的阈值，将区间运行状态分成畅通、一般和拥堵3个状态。

（4）通过货车作业停留时间和车辆中转停留时间获取算法，实现车辆在站的中时和停时计算，并通过车辆的中时和停时计算车站实时的平均中时和停时，设置一定的阈值，对车站的作业效率进行实时提醒。在此算法基础上，实现车辆的轨迹回放，货车周转时间计算等功能。从而实现影响运输效率的主要因素分析。

3.1 列车完整轨迹获取算法

列车的完整运行轨迹是分析列车和车辆的基础，只有把轨迹分析清楚才可能对旅行速度、中时和停时进行分析和比对。具体的执行流程如下：

（1）分界口获取：截取STATION_TRAIN表中in_scope和out_scope字段的首字母，若in_scope字段首字母为N，out_scope字段首字母为非N，则为分界口交出数据；若in_scope字段首字母为非N，out_scope字段首字母为N，则为分界口接入数据；若两者皆不是，则为非分界口数据。

（2）利用运输集成平台标注分界口标识：ATIS中，STATION_TRAIN和运输集成平台的LCCF报告通过运行车次、站、最近时间点建立关联关系，并把运输集成平台中能关联到分界口信息的数据标注分界口标识。

（3） TD轨迹：根据TRAIN_LINE列车全局ID，找寻出不同TRAIN_ID串出TRAIN_LINE_TIME表中TRAIN_ID轨迹

（4）精细轨迹：以LCCF报文信息为主线，匹配出TD轨迹数据，用TD轨迹弥补发报文信息缺失的站，互相弥补对数据进一步精确。

（5）清洗数据：按轨迹起始状况可分为管内运行轨迹和管外交互轨迹；管内运行轨迹起始站在管内站开始，并在管内站结束；管外交互轨迹需判断并梳理分界口数据开始或者结束的处理机制；调度台与调度台接口处一般存在1～3个重叠站信息，需在程序中判别并进行去重处理。

3.2 车辆完整轨迹获取算法

（2）现车数据标记界口标志：取分界口站数据，根据站匹配最近时间并结合运行车次信息提高准确度。

（3） TD轨迹：根据TRAIN_LINE列车全局ID，找寻出不同TRAIN_ID串出TRAIN_LINE_TIME表中TRAIN_ID轨迹。

（4）现车关联：列车到达和列车出发通过报文名称、车辆车号、车辆ID找出站的到报信息并做汇总关联，车次在到与发之间可能存在变化，所以不可作为主要关联点。

（5）现车关联TD轨迹：按时间顺序查询现车报文数据并做循环，第1层循环过程中以发报为主线，关联出TD轨迹中相对应站和车次信息，第2层嵌套循环发报关联的车辆信息，并根据TD轨迹逐步循环插入车辆轨迹信息，在循环TD轨迹过程中，要讲TD的站查询到报信息，到报找到，则结束此次循环，进入下个轨迹循环。

3.3 货物列车线路繁忙情况获取算法

货物列车线路繁忙情况分析是对优化运行图、提高货物列车旅行速度一种有效手段，通过更直观的反映区间的通过能力，查看运输瓶颈问题。具体的执行流程如下。

3.3.1 计算逻辑

取TD数据中实际运行线和调度的结合数据，即TD库中TRAIN_LINE和TRAIN_LINE_TIME表，根据G_TRAIN_ID和TRAIN_ID中的关联关系，关联出前后轨迹，若当前时间在轨迹范围内，可记录当前时间列车的前后站信息，若当前时间不在轨迹时间范围内，则表明此车现在当前时间没在全路局内正常运行，不记录前后站数据信息；取TD数据基本图运行线表和基本图时刻表计算列车计划轨迹，判定同样时间情况下列车所处的前后站信息；比对区间或者区段实际运行数量和计划运行数量，可进一步判定繁忙情况。

3.3.2 实际数据

实际运行线可以判断当前时间列车上一站或者现在所在站信息，调度管理数据可以判断列车下一站信息，TRAIN_LINE_TIME表中REPORT_FLAG字段0代表未报、1代表已报到点、2代表已报发点、3代表到发点都已报，每趟列车的状态只有一种记录，根据这种状态变化在发现下一站信息的同时，也可以验证调度数据的时时性和准确性。

3.3.3 计划数据

基本图运行线表XD_TDX中可以取出各调度台节点的运行方向，基本图时刻表XD_TDX_TT中以TRAIN_ID为列车的唯一标识进行查询列轨迹，取当前时间点来判断列车在当前时间所处的区间，在此基础之上来统计当前时间点在区间的计划列车数量。

3.3.4 繁忙情况

取当前时间的实际数据和计划数据进行比较，根据需求进行判定列车的繁忙情况。

3.4 货物作业停留时间和车辆中转时间获取算法

3.4.1 货车作业停留时间和车辆中转停留时间构成

（1）货物作业停留时间：运用车在站线及专用线内进行装卸、倒装作业所停留的时间。

（2）入线前停留时间：由货车到达时起至送到装卸地点时止，以及双重作业货车由卸车完了时起至送到另一装车地点时止的时间。

（3）站线作业停留时间：由货车送到装卸地点时起至装卸作业完了时止的时间。

（4）专用线作业停留时间：由货车送到装卸地点时起至装卸作业完了时止的时间。如规定以企业自备机车取送车辆时，以双方将货车送到规定地点的时分计算。

（4）出线后停留时间：由货车装卸作业完了时起至发出时止的时间。

（6）车辆中转停留时间：为货车在车站进行解体、改编、中转技术作业及其他中转作业所停留的时间。计算中转停留时间的货车应为本站计算出入的货车。

3.4.2 业务关联逻辑

（1）计算逻辑：通过LCCF中的BWMC、CFZM和LCCF_CLDTXX中的CID关联此站到报信的到达时间情况，获取一辆列车的到达和出发时间，另外通过CID和ZM可以关联ZCXX、XCXX的装卸车的入线时间、出线时间、作业开始时间、作业完成时间，在此基础之上，判断一辆车在此站属于中转还是作业，如若属于中转，计算中转时间和中转车数，如若属于作业，计算入线时间和出现时间差并记录车辆在此处的单双作业次数。

（2）到发信息关联：通过站名、报文信息、车辆ID来关联一个车辆所在的到达时间和出发时间。

（3）装卸信息关联到发信息：到发信息关联出站的作业状况，关联到装卸报文则此车在当前站属于作业车，否则属于中转车。

（4）中停时计算：根据打发关联及中转停状态判定，可以计算车辆所在一个站的停留时间和中转时间，同时记录中转车数和作业次数、当前站进行汇总计算。

（5）清洗数据：在以发报为主线的情况下能满足大部分数据计算，但存在一类到报和发报数据跨天的情况，如果遇到这种情况，则计算过程中容易误把跨天前的停留时间计算到当天时间计算，造成数据错误；清洗办法：在以发报为主线的情况下判定到报数据有没有在当天找寻到发报，如若找寻不到，记录当天停留时间，减小跨天引起的数据误差。

4 基于Hadoop平台和Spark框架的铁路运输效率分析实现

4.1 Hadoop大数据hdfs文件系统平台搭建

Hadoop是一种用以对大数据进行处理和分析的开源分布式计算平台，能够实现对大数据的稳定、高效处理，是一个可靠的数据存储和分析系统[6]。具体搭建时项目组使用5台物理机（node1、node2、node3、node4、node5）通过Hadoop和Zookeeper实现高可用性的分布式存储。其中，node1、node2用做NameNode节点, node3、node4、node3用做DataNode节点, node1、node2、node3用做Journal-Node节点和 Zookeeper，node1、node2用做 ZK Failover Controllers节点。

4.2 利用Sqoop导入数据到HDFS和导出数据到关系型数据库

Apache Sqoop是一个开源工具，它允许用户将数据从结构化存储器导入到Hadoop的HDFS中或Hbase中[7]。导入HDFS的数据可以通过Map-Reduce编程模型进行处理，在得到分析结果后，Sqoop可以将运算结果导入到结构化存储器中。

4.3 Java编程环境和Spark框架实现分析算法

Spark是专为大规模数据处理而设计的快速通用的计算引擎[8]。Spark分布式计算的执行原理是：程序首先提交到Master中，由Master 负责分割任务、申请资源将任务分配至各Worker中进行并行运算并接收返回的结果，整个执行过程由Master进行控制管理、统一调度[9]。

在具体操作中，通过spark内部命令将写好的程序提交给Spark进行执行。Spark程序会加载基础数据，对其进行一系列地清洗、筛选，去除重复的和过时的数据，把剩余有效地数据通过每列列车的全局ID和train_id串出整列车分调度台的列车完整轨迹，然后再根据各种指标的相关算法，对各种指标进行计算。

4.4 武汉局运输信息分析平台

中国铁路武汉局集团有限公司（简称：武汉局）运输信息分析平台中，搭建一套Hadoop大数据处理和分析平台，实现分布式的数据存储、并行计算、后端数据仓库，数据快速采集、离线数据分析等功能[10]；搭建一套轻量级地理信息平台，利用武汉局地理信息平台中管界内的线路、车站和部分矢量、影像数据，结合高德地图部分空间数据，构建基础展现平台。具体实现铁路线路通过能力分析。平台总体架构，如图1所示。

图1 运输信息分析平台总体架构图

5 GIS平台对分析数据进行展示

5.1 铁路局管内线路地图制作

武汉局铁路列车运行时刻图大多采用AutoCAD软件编制，有的甚至以JPEG/PNG等图片格式提供。武汉局运输信息分析平台中的地图展示部分功能则采用ArcGIS软件来管理。将现有的图片、AutoCAD格式的铁路线路、站点等数据，转换到ArcGIS格式的数据。这个转换过程就是大数据分析平台地图的制作过程，在这个过程中主要涉及到以下几个方面。

（1）铁路线路的矢量化：需要根据铁路局提供的图片、AutoCAD文档，提取这些资料中的铁路线路的数据，并对其进行矢量化。

（2）铁路站点属性信息维护：需要对铁路站点的属性信息进行维护，包括铁路站点的名称、位置、等级、编号、所属车务段，是否是分界口等。

（3）双线铁路的制作：需要根据铁路线路数据的属性，对双向铁路进行特殊的处理，以标明线路的上下行关系，在铁路线路状态展示以及列车于车辆轨迹展示过程中得到较好的效果。

（4）地图配色：对地图进行配色，确保色彩不要太过浓重，尽量选择一些浅淡、素雅的颜色进行搭配，这样对于使用者来说看起来比较舒服，不会有太刺眼的效果。

（5）地图标注：需要对大数据分析平台的站点信息，分界口信息等进行标注，标注放置得恰当可以使地图更易理解且更为有用。

5.2 地图服务的发布

平台地图制作完成后，需要使用ArcGIS相关软件发布地图服务，以便Web应用能够访问到地图服务。ArcGIS采用基于服务的地理信息共享模式，将SOA架构、WebServices等相关理念和技术应用到GIS中，服务端将GIS数据和功能以OGC标准服务对外发布，客户端按照OGC的协议标准发送请求，通过调用服务端发布的服务，获取所需的结果。

5.3 Web端应用系统开发

Web端应用系统开发使用Html/CSS、Javascript以及ArcGIS Javascript API等前端开发技术，通过大数据分析得到的关于铁路运行状况的可视化展示，主要包括：实时铁路运行状况图展示，历史铁路运行状况图查询与展示，车辆在站情况查询，分界口状态查询展示，列车轨迹查询展示和车辆轨迹查询展示等。

6 结束语

本文尝试对主要运输信息系统进行数据分析，提取货运相关数据（串联车辆、列车、货物的轨迹）并进行存储。利用大数据分析方法构建Hadoop平台对各种算法进行处理分析，设计了列车完整轨迹获取算法、车辆完整轨迹获取算法、货物列车线路繁忙情况获取算法、货物作业停留时间和车辆中转时间获取算法，完成区间通过能力计算、车站平均作业效率分析、货车车辆全流程监控等功能。搭建轻量级的GIS平台完成数据的基本展示。目前，平台已基本建成，处于数据校验和测试阶段。