基于Hadoop平台的轨道交通能效管理系统的建设方案
2019-01-30陈莉莉张赛桥狄颖琪
陈莉莉,张赛桥,狄颖琪
(1.南瑞集团(国网电力科学研究院)有限公司,江苏 南京 210032 ; 2.国电南瑞科技股份有限公司南京轨道交通技术分公司,江苏 南京 210032)
0 引言
随着各个城市轨道线路的增加,轨道交通线路由单一化逐渐向网络化发展,而网络化大大提升了监控和运营的复杂度。在新形势下,轨道交通运营管理也面临着更高的要求。轨道交通运营中每时每刻都在产生并积累大量的数据。随着全国轨道交通建设进程的加快,利用数据分析支撑并智能化运营管理决策是地铁企业未来发展的必然选择。如何有效地存储、处理和分析这些数据,挖掘其中有价值的信息,从而提升轨道交通的运营水平、科学决策能力、运营效益、服务和安全保障能力,已日益成为业界关注的重点[1]。从能效管理的角度来看,如果能够利用已有的数据,建立一种立足全局的能效分析和管理措施,必将促进地铁的能效运营管理水平。
基于大数据的轨道交通运营分析是一项新兴的数据分析技术。在数据仓库技术基础上建立的轨道交通大数据分析功能和原有的数据库组织处理方式有所不同。关系型数据库处理的业务是事务驱动的,实时性要求高;而数据仓库业务以离线和面向决策的分析为主[2]。本文围绕大数据中心在能效管理系统的实现方面展开。目前,轨道交通行业已有的大数据中心是基于大量信息并行处理机(massively parallel processor ,MPP)架构的,存在价格昂贵、升级扩展困难等问题。在项目初期,对MPP架构的数据仓库和Hadoop平台作对比,最后选择了更加廉价而且灵活的Hadoop平台[3]。文中给出了基于Hadoop平台基的能效管理系统的建设方案。该方案充分发掘了地铁行业能效数据的潜在价值,从而提升了运营管理能力。
1 实现方案
轨道交通的数据源包括结构化数据和非结构化数据。而能管系统的能耗数据主要是采样的时序序列,时序序列为结构化数据[4]。线路端各个车站的电表采集数据作为源数据,经过数据接口平台的一系列清洗、转换、标准化等过程后,存入Hadoop平台。然后根据不同的数据来源和数据应用,对源数据分别进行处理。以下介绍实时流处理和历史数据处理流程。
1.1 实时流处理
实时流数据组件框图如图1所示。
图1 实时流数据组件框图
Hadoop平台具备MPP数据仓库所没有的实时流处理功能。在线网中心把线路端各个车站的电表采集数据变化报文和报警事件消息转发到Kafka总线,即Hadoop平台通过Kafka总线获取线路端的数据,作为实时流处理的输入。
实时流处理方案采用Kafka总线,实现时序消息的数据接入,解决时序数据高效、稳定传输问题。实时流数据的可选组件有Storm、Spark Streaming和Flink等。实际应用中,考虑到可以通过Spark各种库作数据分析,而且轨道交通的应用中对数据延时并没有太高的要求,故选择Spark Streaming作流处理,接收Kafka的数据输入。采用基于Redis+HBase的分层存储的方式,Spark Streaming把从Kafka接收的实时流数据写入HBase,并采用关系型数据库实现能效管理系统的档案数据、模型数据及元数据的同步存储[5]。
线路的数据变化和事件,比如电表的实时数据和在线状态事件等,可以迅速接入能效管理系统,通过实时计算和分析后,把实时处理的结果通过消息中间件发送到Web端或者其他展示平台。有的指标,比如电能质量,在分析过程中需要作数据分析和预测。如果在采用已有的数据作进一步数据分析的过程中,发现有异常指标需要报警,能效管理系统直接生成报警信号,并立刻发报警到其他相关系统(如应急指挥系统),由相关系统再作进一步处理,同时在能效管理系统的页面展示并写入报表。
1.2 历史数据存储和分析
历史数据组件框图如图2所示。对结构化数据而言,在系统初始化时,第一次需要导入数据源的全量数据,后续进行增量存储即可。该步骤可以通过通用的ETL工具对数据进行加载、转换、提取,并将其导入到Hadoop平台。数据先导入HBase,然后对HBase中的历史数据作统计和分析处理,并将结果写入Hive/Impala。BI工具通过JDBC接口读取Hive/Impala中的数据统计结果,展示在Web端。
图2 历史数据组件框图
同时,系统需要具备数据补录功能,在运行错误或者其他原因导致数据没有及时录入系统时,采用补录方式把数据批量导入大数据中心。
2 能效管理应用
能效管理系统框图如图3所示。系统分为线网级、线路级和车站级[6-7]。
图3 能效管理系统框图
能效管理系统融合了信息化、智能化、自动化等多项技术,可用于对轨道交通的水、电、汽等能源的生产和使用情况进行在线监测、统计分析,实现能源的全方位监控和管理。通过对能耗数据的分析与统计,便于管理人员及时掌握各个环节的能耗情况,从而评估各类节能设备和节能措施的实际成效,为进一步制定节能措施、规划节能方案提供决策依据,达到降低生产运营能耗、实现节能减排的目的。
能效管理的实时监控模块除了提供图形监控外,还提供实时数据监控,如监视实时功率的波形和数值、电能质量、能源平衡、报警和事件等,以图型、表格形式实时显示能源计量数据(如水、电、气、汽、煤等)、系统工艺参数(如温度、压力、液位等)和设备运行状态[8]。按照数据类型,数据分组可以划分为能源计量、工艺参数、设备状态等。按照工艺,系统划分为供配电系统、供水系统、空调/通风系统、供热系统、照明系统等。这个模块属于在线数据应用,采用实时流处理的方式进行。
能耗统计模块是离线数据应用。它针对考核单位进行能耗的查询统计和指标分析。查询间隔支持按小时、按日和按月查询,一次查询可选择多个考核单位或能源类型,进行不同考核单位之间能耗的横向分析比较;也可以进行不同能源类型之间的纵向分析比较。它进行能耗计量和统计、能耗指标分析并进行能源平衡统计,对能源的进口和出口的表计数据进行分析,得到偏差率和偏差量,以发现能源的不平衡现象,从而杜绝跑冒滴漏现象[9]。能效管理系统根据采集的能耗信息,分析不正常的能源消耗,以报警的形式推送到相关
系统,提示相关人员。最后,根据统计分析结果生成能耗报表和能耗考核报告,在报表中以饼图或折线图、曲线、表格的方式展示能耗各指标的情况。
3 结束语
目前,轨道交通行业中已有的大数据中心建设,采用MPP DB架构的数据仓库进行结构化数据存储。但是随着数据量的增大和数据类型的增多,MPP DB存在价格高昂、难以扩展、不能存储非结构化数据、不能进行流处理的弱点。而Hadoop平台的结构更灵活,易于扩展,存储的数据量级更大,支持高并发和实时处理,又拥有大量的数据挖掘和分析库[10]。
本文在研究和实现Hadoop平台进行数据采集、数据分析和处理、以及数据输出的基础上,在能效管理系统中验证了方案的可行性。实践证明,Hadoop平台可以很好地满足数据存储、检索、分析的需求,它的流处理功能可以满足轨道交通行业的实时性要求。当然,能效管理系统实际上只是对应大数据中心的一个数据集市,一个功能完善的大数据中心会有很多面向各种应用的数据集市,还需要通过项目的后续展开,陆续进行实施。