轨道电路故障诊断大数据处理技术综述

2015-03-23程建云魏文军

电子科技 2015年11期

关键词：轨道电路结构化数据处理

程建云,魏文军

(兰州交通大学光电技术与智能控制教育部重点实验室,甘肃兰州 730070)

轨道电路故障诊断大数据处理技术综述

程建云,魏文军

(兰州交通大学光电技术与智能控制教育部重点实验室,甘肃兰州 730070)

在轨道电路维护和管理过程中会产生大量的异构,多态数据,即大数据。如何高效存储和快速访问,是目前一个重要的研究课题。文中分析了轨道电路故障检测产生大数据的特点。回顾了当前在互联网和工业监测中大数据的处理技术,以及这些技术在轨道电路故障排除中大数据处理的优势和弱点。最终,从一个大的数据存储,实时数据处理,多数据源的异构集成和大数据可视化4个方面论述了大数据在轨道电路应用中的机遇和挑战。

轨道电路;大数据;云计算;并行数据库

近年来轨道电路安全成为制约高铁快速发展的重要因素。传统的轨道电路故障诊断方法已无法适应高效率、智能化的需求。因此,采用新的故障诊断技术构建一个发现设备故障、分析原因、提高维修效率的智能轨道电路故障诊断系统是必要的。轨道电路故障智能诊断的目标是建成覆盖轨道电路监测、数据通信、数据传输、数据存储和数据分析的整个生产过程,成为覆盖全国轨道电路的实时全景系统[1]。而用于支持轨道电路安全操作、快速维修、绿色保养的基础是轨道电路全景实时数据采集,传输和存储的强大系统,以及所产生的大量多源异构的数据分析能力。随着轨道电路的操作和设备检查/监控产生的大数据成指数级增长,需要相应的存储和快速处理技术作为支撑。而云计算平台的广泛应用,大数据已经成为业界关注的研究课题[2]。仅2009年,美国谷歌公司的大数据服务对美国的国内生产总值就做出540亿美元的贡献,这就是大数据带来的经济效益[3]。中国阿里巴巴旗下的淘宝公司所产生的交易数据,经过大数据的分析,提前半年就可预测全球经济走势。IBM使用多达4 PB气候和环境的历史数据,设计风扇现场模型,以确定风扇的最佳安装位置[4]。2011年5月,麦肯锡公司发布了大数据的研究报告《大数据:下一个前沿领域,竞争力,创新和生产力》[5],大数据的价值已显而易见。在轨道电路故障监控系统中会产生大数据。例如,在轨道电路的信号设备,以及安装部署大量的传感器和数据总线等。电气服务部门可有规律地采集日常设备的相关运行信息,以收集到粒度更细的信息,构成了轨道电路微机监测中的大数据[6]。通过数据分析可以更好地了解设备的运行[7],合理地对轨道电路相关设备进行维护和修理,以保证对轨道电路的顺畅运行。

1 大数据及其特点

1.1 轨道电路中的大数据

轨道电路的数据可分为3类:(1)轨道电路信号设备的检测或监测数据。(2)各种类型传感器产生的各种数据,诸如雨量大小,侵蚀强度,以及其他方面所产生的数据。(3)铁路电务部门对轨道电路的管理数据。根据该数据的内部结构,可以进一步细分成结构化数据和非结构化数据。结构化数据包括存储在一个关系数据库中的数据,当前轨道电路故障监测系统的数据,多为这种形式的数据,随着信息技术的发展,这一部分数据正在迅速增长。相对于结构化数据,不便于使用逻辑数据表的二维表示被称为非结构化数据,包括由视频监控,图形和视频处理产生的数据。这部分数据的增长迅速,互联网数据中心的调查(IDC)指出:80%企业的数据是非结构化的数据,每年都按指数级增长60%[8]。在轨道电路系统中,非结构化数据占了轨道电路数据相当大的比重。根据处理时间要求,结构化数据可以分为实时数据和准实时数据。智能化的前提是获取大量的实时状态数据,目前轨道电路故障监测大数据主要是以下几个方面:

(1)为获得准确实时的设备运行状态信息,越来越多的传统轨道电路监测系统数十万计的收集点产生大数据,数据中心将达到数百万甚至千万级别[9]。监视一个庞大数量的设备,每个设备配备有多个传感器,通过适当的通信信道给这些传感器监测装置连接上传到数据中心,地面数据收集服务器采用标准协议进行数据传输,构成一个物联网络。

(2)为了捕获各种状态信息,以满足上层应用系统设备的需求,从而增加采样频率。例如,在站内的信号设备状态监测系统中,为了能够诊断绝缘放电的状态,信号的采样频率必须高于200 kHz。因此,对于一个轨道线路设备监控平台,需要监测或检测存储的数据量非常大。

(3)用于记录生产运行每个细节的真实性和记录完整性,反映了满负荷生产运行,实现“采样实时变化”要求[10]。在轨道电路微机监控系统的各个方面产生大数据。

1.2 轨道电路中的大数据

轨道电路的大数据具有“4V”特性,即大规模、多类型、低密度值、改变快。

(1)数据量巨大。从TB级跃升到PB级,常规的SCADA遥测系统有10 000个遥测点,根据该采样间隔34 s来计算,数据的年产量为1.03 TB(1.03TB=12字节/0.3帧/s 10 000遥测点86 400 s/天365天);广域相量测量系统10 000个遥测点,采样频率可高达100次/s,数据年产量为495 TB。

(2)数据类型多。计算机监测的轨道线路分布广、种类多,其中实时数据、历史数据、文本数据、多媒体数据、时间序列数据和其他类型的结构化,半结构化数据和非结构化数据的各种数据的查询,处理频率和性能要求均不一致。

(3)低价值密度。列如在视频不间断的监测过程中,数据可能只有12 s有使用价值。在信号设备状态监测中存在同样的问题,收集的大部分数据是正常数据,只有极少量的异常数据,而这些异常数据正是用于维护和检修的重要数据。

(4)处理速度快。在短时间内对相关数据进行分析来支持正确决策的制定。用于数据在线处理性能的要求比离线数据高。这条在线流数据分析和挖掘与传统的数据挖掘技术有着本质的不同[11]。此外,轨道电路故障监测系统数据处理,对数据质量有一定的要求,所以要对所有类型的计算机监测数据给一个新的属性:数据的真实性。然而,即使是最好的数据清洗方法也无法删除某些数据固有的不可预测性。轨道电路故障监测系统中产生的大数据,为智能轨道电路故障诊断系统建设带来了新的挑战和机遇。

2 大数据处理技术

2.1 大数据处理的复杂性和价值

近年来,大数据已被科学界和产业界所关注。2012年3月,美国政府宣布,计划投资2亿美元启动“大数据研究和发展计划。”美国政府已承认,大数据是“未来的新石油”,并将“大数据研究”上升为国家意志,为科学技术和经济发展的未来带来深远的影响。一个国家所拥有的大数据规模和使用大数据的能力,将是衡量一个国家综合国力的新因素,拥有和控制大数据也将是国家间和企业间竞争的新焦点。目前,全球数据存储和处理能力已经远落后于数据的增长速度。例如,淘宝网每天新产生的交易数据高达10 TB;eBay的数据分析和处理量高达100 PB,比纳斯达克证券交易所一天的数据处理量还要多;沃尔玛是第一个将大数据分析变成自己优势的公司,它也创造了一个“啤酒和尿布”的经典商业案例。目前沃尔玛每小时处理百万的交易量,将有约2.5 PB存储在数据库中,这是美国国家图书馆的167倍的数据量;微软用20个月,耗费数百万美元完成的Office检查拼写功能,然而谷歌公司利用大数据统计与分析从而直接实现了此功能。与商业和互联网领域的大数据应用相比,在轨道电路智能故障诊断中大数据的研究需要进一步加强。云计算平台具有存储容量大、成本低、可靠性高、可扩展性强等优点,但在实际实时性上却难以保证,数据挖掘通常与一个特定的应用程序对象相关联,大数据挖掘未来将是一个大的挑战。如故障数据初筛[12]和一些其他应用为基础的聚类方法,对于海量的大数据,传统聚类算法不能在通用计算系统完成。另外,大规模的数据处理面临较大挑战的同时,不同的数据处理需求逐渐显现。相比数据处理操作的单个支撑服务类型,一个大的公共数据处理平台需要一个涉及多个混合联机计算在线/离线,线性/非线性,流数据和地图数据等复杂的数据计算过程。

2.2 并行数据库

关系数据库(如Oracle等)主要是存储结构化数据,提供便捷的数据查询和分析功能,按照严格规则和快速处理事务,多用户并发访问能力和数据安全保障的快速处理能力。被广泛使用的SQL查询语言具有强大的数据分析功能和较高的数据独立性等优点。然而,随着中国高速铁路建设的加快,数据远超出了关系型数据库管理,地理信息系统,以及图片、音频和视频等非结构化数据正在成为需要存储的重要组成部分和处理的大数据。对于存储在关系数据库中的结构化数据已不能满足轨道电路故障诊断快速访问大量数据,大规模数据分析的需求。主要表现在:

(1)数据存储容量是有限的。关系数据库可有效地处理TB级数据,当数据量达到PB级别时,目前主流的数据库难以处理。为避免这个问题,目前电务部门先从“原始数据”提取“熟数据”来存储,这样虽然可以减少数据传输量和数据库的存储量,但不可避免地损失“原始数据”中隐藏的重要特征量信息,比如一个绝缘轨道电路放电频谱。

(2)束缚快速访问大量数据能力的关系模型。关系模型是根据内容访问的模型[13]。即在传统的关系数据库的基础上,来定位相应行的列的值。这种访问模型将引入一个耗时输入和输出的数据访问过程,从而影响快速访问的能力。即便传统的数据库系统可利用划分技术,以减少查询过程中输入和输出数据的次数,达到减少响应时间,提高数据处理能力,但在海量数据的规模下,这种方法所带来的性能改善并不显著。

(3)缺乏非结构化数据处理能力。用于数据处理的传统关系数据库被限制为某些类型的数据,诸如数字、字符、字符串,对于非结构化数据的支持性较差。然而,随着用户的应用需求逐步增加,硬件技术和互联网的多媒体通信,以及用于多媒体处理的用户要求,从简单的存储上升为识别,检索和深度加工,面对处理日益增长的声音、图像、视频、电子邮件和其它复杂数据类型的需求,传统的数据库似乎是力不从心。

(4)可扩展性差。在大规模下,传统数据库有一个致命的弱点就是其的可扩展性差。数据库的可扩展性问题,通常解决的方法有按比例增加的向上扩展和向外扩展。面对海量数据处理,通过升级服务器进行向上扩展的方式在成本和加工能力方面都不能满足要求,唯一可行的办法是进行向外扩展。关系数据库管理系统向外扩展是由该数据库将部署在整个数据库集群的垂直和水平切割,这种方法的优点是,其可采用RDBMS这样的成熟技术,但缺点是针对特定应用程序,不同的切割方法应用也不相同[14]。

2.3 云计算技术

由于大数据分布式数据的特点,使得传统的数据管理技术不能处理这样的海量数据。云计算的一个核心是海量数据存储和数据并行处理技术。分布式文件系统和MapReduce技术是其核心思想,谷歌公司提出了其主要思路。DFS具有较高的容错功能,专门为部署在廉价硬件上而设计的,并提供了针对大数据集的应用程序高吞吐量的数据访问。Hadoop提供了一个开源实现DFS(HDFS),即可在一个数据流文件系统访问的形式上实现POSIX要求的分布式文件系统。MapReduce[15]在2004年谷歌公司提出的一个用于并行处理和并行编程模型来生成大数据集。MapReduce的Hadoop的开源实现,是大数据处理技术关注的问题之一[16]。为使其更容易使用MapReduce的并行编程模型,各种大型数据处理高级查询语言逐渐出现,如Facebook的蜂房[17],雅虎的猪[18],谷歌的Sawzall[19]等。这些高层次的查询语言和查询解析器将通过解析一个分布式文件系统的一系列MapReduce工作,并行执行。与基本MapReduce的系统对比,高级查询语言更适合于大规模并行处理的用户数据需求[20]。MapReduce和先进的查询语言也暴露出实时性能和效率方面的不足,所以很多研究将其进行优化。Cloudera的开源项目发布了实时查询,帕拉1.0 beta版本比原来的推广试验表明基于MapReduce的蜂巢SQL查询速度快3到9倍[21]。阿帕奇Mahout是基于MapReduce的并行数据挖掘项目,相对于传统的数据挖掘算法,其性能大幅的提升[22]。

2.4 云计算在轨道电路故障诊断中的应用

轨道电路中数据量最大的是信号设备状态监测数据。状态监测数据不仅包括了在线状态监测数据,其中还包括关于设备的基本信息,测试数据,缺陷记录等,数据量大、可靠性高、实时性要求比企业数据管理水平高。

3 大数据的机遇与挑战

3.1 大数据的传输和存储技术

随着中国高铁建设的发展,运行数据和设备状态在线监测数据在铁路系统的各个环节被记录下来,不仅造成大量的数据传输和存储问题,同时也制约了铁路系统智能化的发展[23]。通过数据压缩可有效地减少网络的数据传输量,提高存储效率。因此,数据压缩技术,得到了广泛关注,在文献[24]中讨论了基于实时数据提升方案故障暂态过程信号的压缩和重构算法,使用双正交线性整数小波变换滤波器组合哈夫曼编码方法对轨道电路监测系统的实时数据进行压缩和解压。目前,这样的系统中通常使用无线通信技术,但是网络带宽是有限的,因此需要进行数据压缩。文献[25]提出了一种自适应多级树集合分裂(集合划分等级树,SPIHT)算法,其可根据小波系数显著自适应地设置分区,尤其是对于压缩泄漏电流噪声信号。数据压缩一方面减少存储空间,另一方面压缩和解压消耗了大量的CPU资源。在数据到达监控中心需解压压缩数据,而且需要适当的计算和存储平台。在数据存储,轨道电路微机监测系统海量数据可利用分布式文件系统来存储数据,如使用的Hadoop HDFS和其他存储系统,但这些系统虽然可以存储大量数据,但其难以满足轨道电路故障检测和维护实时性的要求[26]。因此,系统必须基于大型数据存储和分析的要求进行分类:使用实时数据库系统对实时性要求较高的数据进行存储;使用传统的并行数据库系统对核心业务数据进行存储;使用分布式文件系统对大量历史和非结构化数据进行存储。本文提出了建立多层次的存储系统来应对计算机监控中的大数据。应当指出的是,考虑到目前云平台不能保证接收的轨道电路微机监测数据的实时性,可设置若干前置机在数据接入和信息集成前,负责接收实时通信网络发送来的报警信息或监测数据,并负责当云平台不响应时将有关数据暂存。Hadoop的云计算系统,并行数据库数据访问和实时信息集成外,轨道电路检测系统中的数据不同于传统业务数据格式,具有其自身的特点。例如,在故障检测和跟踪信号设备状态监测中,波形数据比较多,并具有与传统商业数据不同的波形数据,且具有数据生成速度快等特性。因此需要研究针对轨道电路微机监测的大数据存储格式,从而有利于随后的数据分析和计算。根据轨道电路监测各类异构数据环境的智能故障诊断,不能简单地利用现有的数据结构来描述,但计算机算法在处理复杂的数据结构效率相对较低,处理同质化数据更有效[27]。因此,如何将数据组织成合理地同质化的结构,是大数据存储处理的一个重要问题。

3.2 实时数据处理技术

在一般情况下,数据规模越大,分析处理时间将越长。对于一定大小数据量在传统的数据存储方案中是开始就设定好的,在其设计范围内处理速度可较快,但不能满足大数据的要求。为了未来轨道电路故障智能诊断,实现真正意义上的“状态检修”,文中需要实时地数据处理。目前的云计算系统可提供快速服务,但有可能会出现短暂的网络拥堵,甚至会是单个服务器出现故障,却不能保证响应时间。基于内存的数据库受到更多关注。内存数据库是直接在数据库中运行一个存储的数据。相对于磁盘,内存的数据读取和写入速度要高几个数量级,将数据存储在内存中较直接从磁盘上读取速度更高更快。目前的铁路电务已开始使用内存数据库,以提高实时性。专注于大数据的查询关键字也是一个重要的挑战。通过扫描整个数据集,以找到符合该要求的记录方法,显然是不可行的,甚至通过类MapReduce的这种平行处理技术加速扫描,也不是很合理。通过事先建立索引结构数据,以帮助找到一种比较快的方法,同时节省系统资源。一般的索引结构设计,仅支持简单的数据类型,大数据需要建立一个适当复杂结构化数据的索引结构[28]。

3.3 大数据可视化技术分析

面对海量的轨道电路微机监测数据,如何在有限的屏幕下,以一种易于理解的方式展现给用户,是一个具有挑战性的任务[29]。可视化的方法已被证明是一种用于大规模数据分析的有效方法,并已被广泛地在实践中使用[30]。轨道电路各类应用产生的大规模数据集,其包括高精度,高分辨率数据,随时间变化的数据和多变量数据。一个典型的数据集可达TB数量级。如何快速有效地从这些海量复杂的数据中提取有用的信息,成为轨道电路故障智能诊断应用中的一个关键技术难点。可视化通过一系列复杂的算法将数据绘制成高精度、高分辨率的图片,并提供交互工具,有效利用人的视觉系统,并允许实时改变数据处理和算法参数,对数据进行观察和定性及定量分析[31]。

4 结束语

未来轨道电路故障诊断将依托实时电路全景大型数据处理和分析技术。云计算为这样的异构体和多种类的数据提供了一个存储和分析的平台。这些平台工作一定时间后会产生大数据,云计算和大数据分析将为轨道电路设备维护,故障恢复,孤立信息系统的互相联通提供保障和支持,并成为重要的候选者。且具有低成本,良好的系统扩展性,可靠性高,并行分析等方面的优势,也有少数案例在国际上已经投入实际运行,但仍处于实时性和数据一致性方面的挑战当中。当然利用大数据分析,可分析出轨道电路故障频发段,和易发生的故障种类,做出及时和有效的调整,为今后的故障维修提供可靠的技术支撑,还可以利用大数据对现有的相关轨道电路设备进行相应的调整和升级,为建设成高效率的智能高铁网保驾护航。

[1] 张文亮,汤广福,查鲲鹏,等.先进电力电子技术在智能电网中的应用[J].中国电机工程学报,2010,30(4):1-7.

[2] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012 8(9):8-15.

[3] Divyakant Agrawal,Philip Bernstein,Elisa Bertino,et al.Challenges and opportunities with big data[J].Proceedingsof the VLDB Endowment,2012,5(12):2032-2033.

[4] IBM Corporation Software Group.IBM big data overview for energy and utilities[EB/OL].[2011-06-12](2014-12-05)http://www-01.ibm.com/software/tivoli/solutions/industry/energy-utilities.

[5] McKinsey Global Institute.Big data:the next frontier for innovation,competition,and productivity[M].New York:McKinsey Global Institute,2011.

[6] Wang Peijian.D-pro:dynamic data center operations with demand-responsive electricity prices in smart grid[J].IEEE Transactions on Smart Grid,2012,3(4):1743-1754.

[7] 周晖,钮文洁,王毅.从缴费行为分析电力客户的信用度[J].电力需求侧管理,2006,8(6):12-16.

[8] 谢华成,陈向东.面向云存储的非结构化数据存取[J].计算机应用,2012,32(7):1924-1928.

[9] 李锋,谢俊,兰金波,等.智能变电站继电保护配置的展望和探讨[J].电力自动化设备,2012,32(2):122-126.

[10]江苏瑞中数据股份有限公司.海迅实时数据库助力智能电网建设[M].南京:江苏瑞中数据股份有限公司,2011.

[11]金澈清,钱卫宁,周傲英.流数据分析与管理综述[J].软件学报,2004,5(8):1172-1181.

[12]张广斌,束洪春,于继来.利用广义电流模量的行波实测数半监督聚类筛选[J].中国电机工程学报,2012,32(10):150-158.

[13]Codd E F.A relational model of data for large shared data banks[J].Communications of the ACM,1970,13(6):377-387.

[14]Roland Bouman.Database sharding at netlog with MySQL andPHP[EB/OL].(2009-02-12)[2013-02-23]http://www.jurriaanpersyn.com/archives/2009/02/12/database-sharding-at-netlog-with-mysql-and-php.

[15]Jeffrey Dean,Sanjay Ghemawat.Map reduce:simplified data processing on large clusters[C].San Fancisco,California:OSDI’04:Sixth Symposium on Operating System Design and Implementation,USENIX Association Berkeley,2004.

[16]Apache.Apache hadoopcore[EB/OL].(2012-08-05)[2013-02-20]http://hadoop.apache.org/core.

[17]Thusoo A,Sarma J,Jain N,et al.Hive:a warehousing solution over map-reduce framework[C].Lyon,France:Proceedings of the 35th Int Conf on Very Large Data Bases(VLDB),VLDB,2009:1626-1629.

[18]Christopher Olston,Benjamin Reed,Utkarsh Srivastava.Pig latin:a not-so-foreign language for data processing[C].Vancouver,Canada:Proceedings of the 2008 ACM SIGMOD international conference on Management of data,ACM,2008.

[19]Rob Pike,Sean Dorward,Robert Griesemer,et al.Interpreting the data:parallel analysis with sawzall[J].Scientific Programming,2005,13(4):277-298.

[20]王鹏,孟丹,詹剑锋,等.数据密集型计算编程模型研究进展[J].计算机研究与发展,2010,47(11):1993-2002.

[21]Marcel Kornacker,Justin Erickson.Cloudera impala:real-time queries in apache hadoop for real[EB/OL].[2012-10-22](2013-02-12)http://blog.cloudera.com/blog/2012/10/cloudera-impala-real-time-queries-in-apache-hadoop-for-real.

[22]Apache.Whatis apache mahout[EB/OL].(2011-05-11)[2013-02-15]http://mahout.apache.org.

[23]张保会.加强继电保护与紧急控制系统的研究提高互联电网安全防御能力[J].中国电机工程学报,2004,24(7):1-6.

[24]闫常友,杨奇逊,刘万顺.基于提升格式的实时数据压缩和重构算法[J].中国电机工程学报,2005,25(9):6-10.

[25]朱永利,翟学明,姜小磊.绝缘子泄漏电流的自适应 SPIHT 数据压缩[J].电工技术学报,2011,26(12):190-196.

[26]Stonebraker M,Abadi D J,Madden S,et al.Map Reduce and parallel DBMSs:friends or foes[J].Communications of the ACM,2010,53(1):64-71.

[27]周晓方,陆嘉恒,李翠平,等.从数据管理视角看大数据挑战[J].中国计算机学会通讯,2012,8(9):16-20.

[28]Cooper B F,Neal Sample,Franklin M J,et al.A fast index for semistructured data[C].Roma,Italy:Procedings of the 27th VLDB Conference,VLDB,2001.

[29]袁晓如,张昕,肖何,等.可视化研究前沿及展望[J].科研信息化技术与应用,2011,2(4):3-13.

[30]Wong P C,Thomas J.Visual analytics[J].IEEE Computer Graphics and Applications,2004,24(5):20-21.

[31]Thomas J J,Cook K A.Illuminating the path:the research and development agenda for visual analytics[C].Poland:IEEE Computer Society,2005.

Big Data Processing in Track Circuit Troubleshooting

CHENG Jianyun,WEI Wenjun

(School of Traffic & Transportation,Lanzhou Jiaotong University,Lanzhou 730070,China)

Track circuit operation,maintenance and management of the process will produce massive heterogeneous multi-state data,that is,big data.Their efficient,reliable and inexpensive storage and quick access and analysis are currently an important research topic.The article first analyzes the characteristics of generation sources and track circuit failure detection in all aspects of big data,and reviews the current business,Internet and industrial monitoring large areas of the existing data-processing technique.A detailed analysis of these techniques in response to the track circuit troubleshooting and large data processing strengths and weaknesses is made.Finally the opportunities and challenges of big data track circuits are discussed in perspectives of large data storage,real-time data processing,heterogeneous integration of multiple sources of data,and large data visualization.

track circuit;big data;cloud computing;parallel database

2015- 04- 07

甘肃省青年科技计划基金资助项目(1308RJYA096)

程建云(1990—),男,硕士研究生。研究方向:轨道电路故障诊断。E-mail:404284441@qq.com

10.16180/j.cnki.issn1007-7820.2015.11.043

TP18

1007-7820(2015)11-161-05