基于列车自动监控数据的城市轨道交通运营指标自动统计系统的关键技术
2019-12-28艾文伟李瑜芬金海薇
艾文伟 李瑜芬 金海薇
(上海申通地铁集团有限公司,201103,上海//第一作者,高级工程师)
截止2017年底,上海轨道交通已形成14条线路、364座车站、588 km的网络化运营格局,日均客流达839.54万人次,最高日客流突破千万,年开行总列次达236万列次,运营里程超过4.39亿车km,轨道交通在公共交通中发挥的作用越来越突出[1]。这就要求城市轨道交通的运营管理更加安全、规范、高效。运营指标不仅反映当前轨道交通的运行状况,体现运营企业的管理水平,同时也为管理决策和持续改进提供决策依据。随着大数据理念和技术的应用,在运营管理向数据驱动转型的过程中,运营指标统计在运营生产管理的地位更加重要[2]。目前,上海轨道交通仍沿用手工标画运行图、人工计算的方式进行指标统计。这种方式不仅成本高、效率低,数据的及时性和准确率亦无法保证。随着轨道交通线网规模的进一步扩大、列车开行密度的提高,迫切需要借助信息化手段完成指标的采集、汇总和统计,达到规范统计口径、提高管理水平、减轻统计工作量的目的。
1 上海轨道交通运营指标统计现状
上海轨道交通自1993 年1月10日投入试运营至今,运营指标统计分析工作一直在发展和完善。运营指标统计的首要目标是满足运营管理对各类数据的需求。现行上海轨道交通运营关键绩效指标体系包含5大类、36 个运营指标[3]。作为国内MOPES(城市轨道交通运营绩效评估体系)组织和CoMET(国际地铁协会)的成员之一,上海轨道交通还需统计CoMET和MOPES等相关指标。CoMET 指标包含180多项;MOPES 指标体系由基础指标和绩效指标两大类构成,总计 117 个指标[4]。
现行的ATS(列车自动监控)系统只记录城市轨道交通的实际运行状况,不记录运营事件,因此无法结合运营计划生产完整、准确的运营数据和运营指标。目前的做法是通过ATS系统获取列车实际运行信息,结合运行计划生成实际运行图,全面真实反映运行计划执行情况,再依据现有指标统计管理规定,由线路OCC(运营控制中心)当班调度员打印实际运行图后,在纸质版运行图上手工标画、标注列车运行情况及运营事件,通过人工统计的方法计算各类运营指标,填写报表后由交由专门统计人员进行汇总。这种方式主要存在以下不足:
1)信息采集方式落后。线路OCC当班调度员打印实际的列车运行图后,在纸质版运行图上手工标画和标注列车运行信息。其中,调度日志和事件数据的采集采用的都是比较原始的手工填报方式。
2)数据格式多样,不能很好地实现共享。现行模式下,与运营指标统计相关的数据存在于多个系统中,数据格式多样,无法实现有效的数据共享。如列车运行数据存储在ATS系统中,数据输出为图片格式;而列车运行事件则以文本格式存储在运营管理平台中,两种数据不能实现很好的融合。
3)数据处理能力差。指标计算、汇总统计受限于人工作业,对数据量大、计算规则比较复杂的指标进行计算存在较大难度。例如,针对列车晚点,仅能完成始发站和终到站的统计,对列车在全程或某个车站延误时间的绝对值≥5 min的图定计划列次统计存在困难。
4)数据及时性和准确性无法保证。指标统计涵盖多个专业,涉及的作业人员较多,容易造成数据统计结果偏差,导致检查复核难度较高,数据的及时性和准确率亦无法保证。
5)数据间未建立必要的关联,无法支撑后续的指标统计。运行事件与运行状况未建立关联关系,后续统计需要重新补充信息。在进行数据汇总和估算时,由于统计人员对统计规则的理解不一致,且分析的方法较为繁琐,导致统计结果误差较大,且准确度相对较低。
6)缺乏持续的改善能力。获取的数据相对比较基础,针对相对复杂与统计难度高的运营指标,目前无法获得精确的支撑数据,亦无法建立基于乘客感知的列车运行指标[5]。因此,须对运营方案进行进一步优化,从而为乘客提供更优质的服务。
2 运营指标自动统计系统的关键技术
2.1 功能设计
运营指标自动统计系统设计遵循“数字化、可视化、图形编辑、实时计算”的设计原则。数字化信息包括计划运行数据、实际运行数据、调度数据和事件数据。通过数据可视化技术和图形编辑技术实现列车运行状况和调度策略的具体化与形象化。通过实时对各类运营指标进行在线统计计算,可实现对运营状况的宏观把控。
针对信息采集和共享,通过数据接口,从ATS实时获取列车运行数据,通过清洗以及与计划运行图数据整合形成列车运行信息。列车运行信息不仅用于统计运营指标中的基本指标,如到发站晚点、开行列次、换车、换表等,而且还可以通过数据可视化技术,表现列车的运行计划和实际运行情况。通过图形编辑技术,一方面可以实现对ATS数据准确性的修正,如对丢失的列车运行数据进行补线;另一方面,实现调度策略的形象化表现,如标识列车清客、空驶、事件影响时段及范围等,更重要的是通过图形编辑技术实现了运行、调度、事件三者之间的关联,为指标自动统计准备了必要的数据基础。实时计算可以用于处理流数据,能及时完成数据量大且规则复杂的指标统计。
运营指标自动统计系统功能设计如图1所示。
2.2 ATS数据的获取及清洗
2.2.1 ATS数据的特点
ATS系统主要包含列车实时运行数据,需获取的数据具有以下特点:
1)网络连通较差:ATS系统相对比较独立,基于安全考虑,不能直接通过ATS系统对接完成数据的传输。
2)数据业务不稳定且容错性较差:目前ATS数据为感应器触发式,数据质量存在诸多不稳定因素。例如,在车辆进站时会在短时间内触发数十次进站数据,若在进站至停站期间对车辆进行重新挪动则会同时产生进出站数据,数据的传输稳定性与容错机制均较差。
3)数据量大且存在大量噪声:ATS包含的列车运行数据数量较大,且存在大量噪声。如上海轨道交通2号线通过ATS接口时获取到的数据平均值每天约为57万条,而通过清洗后的有效运行数据仅占10%。
图1 城市轨道交通运营指标自动统计系统功能设计图
基于以上3个方面,说明合理高效的数据清洗显得尤为重要。
2.2.2 ATS数据的清洗
数据清理主要是对越界值、不一致代码、重复数据和丢失值进行处理,以实现数据的准确性、完整性、一致性、唯一性、适时性及有效性[6]。针对ATS数据,通过建立数据清洗标准模型,采用填补遗漏、消除异常、平滑噪声等技术手段,对单向读取的列车运行数据通过一系列步骤“清理”之后,转换成标准的格式数据[7]。
针对ATS数据特点,采用不同的方式对数据进行清洗[8]:
1)快速接收及提取处理。ATS未清洗前数据并发量较大,需要进行实时数据快速接收及提取,如采用数据存入关系型数据库的传统方式,但在使用时会涉及到磁盘IO操作,这将严重制约数据的处理性能。采用Redis作为缓存数据库,将实时接收的数据按照一定数据规格进行内存缓存,在对数据进行检索提取时较传统方式在性能上有质的提升。通过数据实测,数据处理性能平均提升1 000倍左右。
2)不完整数据(即值缺失)的处理。针对不完整数据,采用算法模型和人工判别相结合的方式进行补充。将新接收到的数据导入数据预处理模块,该模块将会根据当前数据进行同车次下的匹配计划数据校验,校验通过后再以递归形式进行相同运行方向下前一站数据对比,直至找到有效数据,递归完成后将递归过程中获取的实际丢失的数据通过列车计划数据匹配、列车实际并线数据分析、始发终到数据分析、指标数据分析等进行推算调整生成缺失数据序列方案。当按算法模型生成唯一的丢失数据序列时,系统自动将丢失数据补全至实际数据中;当按算法模型生成多种丢失数据方案时,由人工判别后选择丢失数据补充方案。
3)错误值的检测及校正。将新接收到的数据导入错误数据处理模块,通过对列车的列次、车次及计划数据进行检查,识别可能的错误值或异常值。常用的方法包括偏差分析、不遵守分布识别或回归方程等,并通过规则库(常识性规则、业务特定规则等)对相关数据进行校正。
4)重复记录数据的消除。针对接收到的重复数据,采用内存数据库以及关系型数据库的双重校验方式。当系统接收到数据后,系统将根据数据的属性值及业务含义进行相同数据校验,并将系统校验出的相同数据进行记录。结合指标数据进行分析,并将分析得到的唯一相同数据进行合并或清除,并对系统内所有经自动校验并合并的数据形成的方案提供给人工进行二次校验及调整。
ATS数据清洗路径,如图2所示。
图2 ATS数据清洗路径
2.3 数据集成
由于运营指标统计所需数据的多源性,需要对获取的数据进行必要的关联性及验证,包括数据结构关联和数据值关联两部分内容。需要关联的数据包括计划数据与实际运行数据的关联、运行图车次与运行车辆的关联、运行图与线路车站数据的关联等内容。
2.4 基于富客户平台的图形化编辑
RCP(富客户平台)是Eclipse组织向用户提供的强大的开放性开发平台,该平台可使用户方便地创建并支持基于Eclipse的应用程序[9]。在开发RCP应用程序时,可以利用Eclipse平台的外观及基本框架快速创建菜单栏、工具栏、表格、树结构等功能组件,并以此为基础在平台上进行相对比较简单的代码开发即可实现复杂的功能,这样不但节省大量的开发时间,同时也避免了许多重复性的工作。
另一方面,为提升系统功能的可用性,列车运行指标统计系统功能开发采用GEF技术实现标画功能。GEF是一个图形化编辑框架,它允许开发人员以图形化的方式展示和编辑模型[10]。GEF的优势是提供标准的MVC结构,开发人员可以利用GEF来完成以上功能,而不需要自身重新设计。GEF的主要设计目标是尽量减少模型和视图之间的依赖,可以根据需要选择任意模型和视图的组合,而不必受开发框架的局限。在图形编辑视图内,图形接受用户的操作,比如组织单元的新建、移动、删除等操作。每个组织单元的模型对象对应一个EditPart对象,每个EditPart对象均有一组按照操作角色分开的最终模型进行直接操作,这样可以在图形标注及绘制时进行合理的分层,使得图形展现可按照不同的业务对象进行分层封装并显示。
2.5 运营指标统计
运营指标统计分为基础指标统计和反映调度策略的复杂指标统计。
2.5.1 基础指标统计
数据被清洗处理完成后,会被分配至指标分析模块,通过即时计算,并根据站点、站台、列次、车次、上下行、到发站属性等与计划数据进行对比,自动生成到站晚点、发车晚点、中途晚点等指标数据,同时计算当下线路的最大晚点、兑现率、正点率、高峰时段运行间隔正点率、高峰时段运行间隔兑现率以及列车延误总时长等运行统计指标。
2.5.2 复杂指标统计
复杂指标是指图形编辑后,能反映调度策略的运营指标。该类指标根据图形编辑产生的标志进行统计,具体内容如下:
1)清客标画:当触发清客标画时,系统将会按照只统计当下列次清客之前的数据来调整当下中途5 min数据,并同时调整计算系统载客与空驶里程这两个指标的数据。
2)大小交路调整(人工补线):当触发该项调整标画时,系统将会根据调整数据推算出新的晚点相关指标统计、实际运行里程指标统计。
3 运营指标自动统计系统的实现
系统采用C/S和B/S混合架构,在各条线路的OCC部署客户端。客户端通过访问系统中心数据库中的生产数据(包括计划、实际行车数据等)显示相应线路的运行图,业务人员在客户端运行图上进行行车事件等的标注,将标注数据和事件关联记录回传到中心数据库,并在前端进行标画操作;控制中心数据统计人员通过中心数据统计模块进行相关的数据统计并生成报表。
4 结语
针对目前上海轨道交通运营指标分析现状及其存在的弊端,设计开发了一套基于ATS实时数据的运营指标自动统计软件。该软件在上海轨道交通7号线试用,不仅能满足现有日常生产管理对指标统计的要求,将运营调度员从繁琐的列车运行图标画和列车运行指标统计工作中解脱出来,还可以支持对基于乘客感知的运营指标的推演,为今后线网集控提供必要的数据基础。