北京铁路局客运管理信息系统架构研究

2018-09-14许盛刚

铁道运输与经济 2018年9期

许盛刚

（中国铁路北京局集团有限公司客运处，北京 100860）

1 概述

目前，我国铁路营业里程达到12.7万km，高速铁路营业里程达到2.5万km，“四横四纵”的高速铁路服务网络已建设完成，初步形成了以北京为中心的8小时高速铁路交通圈，通过高速铁路在8 h内抵达国内大部分省会城市和50万人口以上的城市，覆盖全国90%以上地区，极大缩短了城市间的时空距离，为我国经济发展和人才交流提供了强有力的保障。与此同时，铁路客运管理工作涉及的业务量、数据量也随之大幅增长[1]，如何建设满足新时期需求的铁路客运管理信息系统，提高铁路客运管理效率，为旅客提供安全、高效、舒适的客运服务，吸引更多铁路客流，提高铁路运营效益，增加铁路竞争力成为亟需研究的重要课题。

铁路客运管理涉及业务部门多、业务种类繁杂、数据量庞大，需要综合性强、处理能力高的客运管理信息系统。为此，我国铁路在各级客运管理部门信息化方面积极探索并建设了一系列客运信息系统，如铁路客票发售和预定系统、客运营销辅助决策系统等[2]，为铁路客运管理信息系统的建设和应用打下了良好的基础。但是，原有的客运管理信息系统大多自成体系，功能相对集中在某一业务范围内，各系统之间的数据没有形成网络，导致数据源众多、信息孤岛和数据烟囱现象十分严重，无法实现信息的有效互联互通，铁路客运信息得不到综合管理和应用，现有的客运管理信息系统难以满足铁路客运管理工作的需要。

随着互联网及信息处理技术的快速发展，大数据已经从技术研究阶段进入实用阶段，铁路大数据研究与应用的核心目标定位在如何盘活铁路数据资产及最大限度挖掘数据价值，进而发现新知识、提升新能力，更好更快助推铁路转型升级，驱动铁路创新发展[3-4]。研究基于大数据，分析其来源及相关技术，对基于大数据技术的客运管理信息系统应用功能进行探讨，以精准把握市场需求及变化趋势，全面刻画用户出行特征，准确预测客流，进而提供铁路客运的个性化服务及精准营销，研发出更贴近用户需求的客运产品，提升铁路公共服务水平，提高铁路运输收益[5]。

2 北京铁路局客运管理信息系统架构设计

2.1 系统总体需求

铁路客运服务的本质是完成旅客的位移，为解决旅客“走得了”和“走得好”的问题，需要完善、高效的铁路客运管理信息系统提供业务及信息上的有力支持。中国铁路北京局集团有限公司(以下简称“北京铁路局”)客运管理信息系统运用大数据技术手段，以中国铁路总公司信息化总体规划目标为基础，结合铁路局各级客运部门信息化的具体情况，搭建大数据平台，整合铁路客运管理各专业、各业务部门的客运信息，实现对铁路客运信息的统一化管理，为铁路客运管理工作提供数据高度共享、客运管理业务流程优化合理的信息系统。北京铁路局客运管理信息系统架构总体需求如下。

（1）研究搭建北京铁路局客运管理信息大数据平台，实现基于统一管理平台的铁路客运动态、静态数据的整合、存储、分析、共享与展示等，可满足结构化与非结构化数据的管理并且兼顾既有系统数据共享和新增数据管理的需求，满足铁路客运信息在客运系统内部及跨专业的共享需求。

（2）统筹考虑各方面的因素，从北京铁路局铁路客运管理信息化需求的整体出发，探讨基于大数据平台客运系统需要提供的业务功能。

（3）系统架构设计主要考虑客运数据的完备性、海量数据的高效率存储、多用户同时请求的高并发处理、数据实时动态的获取和更新、数据的高扩展性和高可用性，促进客运支持系统不间断正常运行。

2.2 基于大数据的技术路线

基于大数据技术的处理系统主要包括数据准备、存储管理、计算处理、数据分析和知识展现5个环节[6]，大数据分层架构如图1所示。对于北京铁路局客运管理信息系统而言，明确数据源，完成数据准备工作具有非常大的难度，其涵盖的信息包括列车、车站、客票、财务等多个业务部门的各类信息，文件类型包括文本、图片、视频、日志等结构化及非结构化数据。随着铁路的运营发展，其数据量也呈指数级增长，这些数据符合大数据大体量、多样性、时效性和大价值的4V特征。

图1 大数据分层架构Fig.1 Layered architecture of big data

（1）数据准备。在数据准备阶段，北京铁路局客运处组织开展客运专业信息系统及数据梳理工作，确定专业数据资源分类、数据内容和数据规格，按照统一格式形成本专业信息系统数据资源表单，建立客运系统大数据资源目录。客运处组织制订数据采集方案，确定数据采集范围、方式、频次、时间等内容，协调相关信息系统维护单位或研发厂家，开放数据访问权限或提供数据访问接口，实现各专业数据向平台的汇聚。

（2）存储管理。实现满足结构化、半结构化及非结构化的数据存储，按照客运业务分类实现主数据、元数据的存储及管理。

（3）计算处理。以业务需求为核心，从大数据平台提取所需数据进行计算处理。

（4）数据分析。根据计算结果，按需求进行分析处理，为客运业务提供目标导向。

（5）知识展现。利用可视化技术，通过热点图、直方图等多种丰富的图形化界面，直观描述数据的规律、趋势，铁路客运管理部门通过图形可以很容易获取关键信息，进行相应的管理决策。

2.3 总体架构设计

通过客运管理信息系统总体需求及分析，结合铁路客运管理的实际需求，设计北京铁路局铁路客运管理信息系统架构如图2所示，系统架构包括数据源层、数据整合层、数据存储层、数据分析层、数据服务层和业务应用层[7-8]，各层之间紧密协作，实现铁路客运信息的产生、聚集、分析和应用。

（1）数据源层。该层完成铁路客运信息管理所需的各类数据源，包括现有业务系统，如客票系统、车站管理系统、旅客服务系统等，也包括需要新纳入本架构管理的数据源，如旅游、酒店、公交等其他业务数据。

图2 北京铁路局客运管理信息系统架构Fig.2 System architecture of Beijing railway passenger transport management information system

（2）数据整合层。利用网络技术和数据采集技术将分散在各处的相关数据进行传输和整合，根据业务分类对数据源进行有针对性的采集交换，并对数据源进行分类处理，实现对结构化及非结构化数据的采集处理，并对数据内容进行整理形成高质量的数据资产。

（3）数据存储层。构建适用于结构化及非结构化的海量数据存储架构，用于存储铁路客运管理相关的关键数据，主要使用传统的关系型数据库和支持非结构化数据的数据库Hbase。

（4）数据分析层。利用回归分析、聚类分析、关联分析、神经网络分析算法和模型工具等数据分析组件来实现对客运数据的处理和分析，建立大数据分析模型，通过结果不断验证和优化模型，为数据服务层提供数据分析服务。

（5）数据服务层。将铁路客运信息按照业务对象进行细分，建立标准化的数据，构建统一、规范的数据服务，为上层业务应用及用户提供铁路客运信息管理相关的数据共享、数据分发、数据交换等数据服务。

（6）业务应用层。该层结合具体的应用场景，利用数据服务层及数据分析层提供的服务，为用户提供具体的业务应用服务。北京铁路局局客运管理信息系统主要应用功能包括铁路客运信息管理、旅客信息管理、客流及市场预测、客运产品优化设计、铁路客运生产作业管理、应急指挥管理、客运人员管理、客运智慧营销、客运服务质量评价等多个应用场景，以客运产品优化设计为例，可以利用实名制购票数据对列车等级、票价、旅行时长、换乘时间等旅客出行选择因素进行分析，为列车开行方案制订、客运组织等提供数据支持。

3 北京铁路局客运管理信息系统关键技术

3.1 数据采集及整合技术

铁路客运管理涉及到多个系统，为高效完成客运管理工作，需要从多个系统中获取与客运相关的信息，但这些系统之间的关联性不强并且数据类型复杂、分散，因而为了将各个分散的数据资源进行整合实现数据的统一管理，确定数据源及数据采集方式显得尤其重要。通过对客运专业信息进行梳理，确定数据目录及主要数据项，按照统一格式形成客运管理信息数据资源目录如表1所示。

表1 客运管理信息数据资源目录Tab.1 Data resources catalogue for passenger transport management information

以确定的数据目录为依据，确定各信息来源，如到发线及站台数据来源为车站管理系统，站房及空调数据来源为土房系统，线路、径路、车辆等数据来源为列车开行方案系统等。在明确来源系统后，协调相关系统维护单位或研发厂家，确定数据的采集范围、方式、频次、时间，开放访问权限或提供数据访问接口。对各数据源采集整合的关键是根据数据类型确定合适的采集方法，如何保证这些数据高效、准确地进行数据采集，需要对相关数据采集方法进行研究。对来源于既有业务系统的关系型数据库数据而言，采集相对简单，可以利用SQL和ETL工具来实现。对于电子邮件、电报文件、点击流等形式半结构化数据和图形、语音、视频等形式的非结构化数据无法用传统的关系型数据库进行处理，可采用ETL、Flume、MapReduce编程等技术手段将数据抽取出来形成元数据并存储在数据库中，实体数据可以存储在Hadoop系统中，通过建立数据之间的链接关系以实现数据的统一管理。

3.2 数据应用分析处理技术

数据应用分析主要以客运业务需求为导向，查询检索及数据的可视化展示。大数据处理提供流计算、内存计算等多种分布式计算能力，可对数据存储层的数据进行分析处理。

（1）数据分析技术。主要对铁路客运业务的需求进行分析，客运管理对象主要以结构化为主，数据主要来源于相关业务系统数据库，这部分数据的分析处理是研究的重点。对于结构化数据主要采用统计分析、联机分析处理、数据挖掘、可视化等技术进行分析。统计分析是铁路客运常用的分析方法，通过对旅客列车对数统计分析、旅客列车指标统计分析、旅客列车停站统计分析等若干统计分析内容，以及不同年份、不同阶段旅客列车各项指标进行对比分析，再对数据进行筛选、汇总、计算、图表显示等使客运管理人员对旅客列车的运营情况有更精准地了解，根据统计分析结果可以为下一步的客运管理提供决策依据。

（2）数据处理技术。使用Hadoop分布式系统架构对数据进行处理，Hadoop系统具有高可靠性、高扩展性、高效性及低成本性等特点，提供高吞吐量来访问应用程序相关数据，通过并行的处理方式加快处理速度，这种处理方式对于结构化数据及非结构化数据都可以实现海量存储和快速查询。系统本身负责数据的高可用性、系统的可扩展性及系统的容错性等复杂管理任务，应用开发人员只需关注业务逻辑本身即可[9]，这在很大程度上提高了应用的开发效率。

4 结束语

至2018年，北京铁路局客运管理信息系统已整合了列车、车站、客票等大量客运管理信息，通过信息系统平台实现全局客运信息的互联互通，资源共享，大大提高了铁路客运管理与服务的工作效率。例如，按照约定的数据范围、数据格式、采集方式及采集频次，汇集旅客列车运行图数据，包括列车时刻、编组、交路、经由等详细数据，纳入北京铁路局客运管理信息系统中进行管理，该信息可以共享给客票系统，减少客票系统人工录入及核对工作量。目前，研究仅从大数据处理的流程、数据的来源及基于大数据的铁路客运信息管理系统架构设计方面进行了探讨，在数据分析算法及模型方面还需进一步通过大数据平台结合算法模型有效整合数据，利用大数据的优势提升客运服务质量和客运管理效率。