APP下载

基于智能牵引供电系统大数据平台的供电设备寿命预测研究

2018-09-12侯启方卢凌云

铁道机车车辆 2018年4期
关键词:油压特征向量贝叶斯

刘 巍, 曾 涛, 侯启方, 卢凌云

(1 中铁第一勘察设计院集团有限公司, 西安 710043;2 北京南凯自动化系统工程有限公司, 北京 100070)

目前,国内外电力行业对电气设备的寿命预测研究工作已广泛开展,国内对电气化铁路牵引供电设备寿命预测研究工作才刚刚起步。牵引供电系统运行过程中产生的数据是复杂多样的,数据建立的重要性不言而喻,数据建立之后更为关键的是数据分析[1]。必须做好这些信息的优化,才能用数据分析的结果指导我们更准确的预测设备的生命周期。目前,国内高铁供电系统在自动化、智能化方面也投入了相应的监测设备、监控和管理平台。但不同系统间采用不同的平台,各系统平台相互独立,这些系统平台的数据源数据采集分散凌乱,缺乏统一的数据规范、标准、功能互动及技术支撑平台,导致各系统间的信息相互独立或交互共享困难[2]。另外,沿线各牵引变电站只与调度所之间进行通信和数据交换,缺少各所(亭)之间的实时通信和信息交换,使得各所的开关控制仍然需要通过调度进行,难以实现所间实时开关联动闭锁,不能实现供电运行方式根据工况自动切换,发生故障时,继电保护的速动性和选择性及故障定位的准确性也有待于进一步提高,倒闸作业停电时间较长,无法快速恢复供电[3-4]。虽然,目前国内在智能牵引变电所技术、6C技术、接触网监测技术等方面已经开展了多项研究,但是还没有对智能牵引供电系统的平台技术进行整体的规划和研究,因此,开展智能牵引供电系统大数据平台及供电设备寿命预测的研究具有较强的理论和实际意义。

文中给出了智能牵引供电系统的大数据平台,提出了一种综合维修数据收集、维修数据存储、维修数据分析处理的综合性系统的建设方案,通过对海量的运维数据做分析,根据设备的使用、检修记录、天气气温、空气湿度、污染程度、检修人员素质等数据,通过大数据平台,找到设备的临界点,有效的预测设备的寿命。设备运行过程中受到周边环境的影响,比如温度、湿度、地域、季节等,根据设备的监控数据以及天气情况,通过大数据平台计算设备运行情况和天气的想关性。维护过程中还涉及到给不同的设备提供不同的维修方案,可经过对采集到的数据进行历史数据统计,可以快速给出问题解决方案。

1 牵引供电系统大数据平台

基于大数据平台的智能牵引供电系统软件平台共分为4个技术层,如图1所示。

第1层是数据交换中心,负责数据的采集工作。包括但不限于SCADA、一杆一档、智能巡检、6C数据中心、维调系统、综合系统(问题库,GIS地图)等牵引供电系统相关的系统,收集这些系统的数据以及天气数据作为大数据的基础语料,并在这些基础语料上做数据挖掘、做牵引供电系统大数据。

第2层是数据存储,负责存储采集到的数据。数据采集工具能够实现将不同类型的数据采集并传输到大数据应用平台分布式存储区域中,比如HDFS、HBASE等;

第3层是数据处理,负责计算存储在HDFS、HBA-SE中的数据。

第4层是数据展示,负责对数据挖掘好的数据进行展示。供电设备的调度系统、维修系统以及气象数据等诸多易购的数据都可以作为大数据应用平台的数据源头,通过大数据应用平台的全量数据采集与处理能力,将数据采集到大数据应用平台的存储区域进行保存,以支持数据可视化工具及业务门户进行数据应用。

图1 基于大数据平台的牵引供电系统分层结构

内部及外部的半结构化及非结构化数量会通过大数据采集工具Flume、FTP、SysLog、Zookeeper、Sqoop、MR程序(根据数据结构实现情况选择合适的工具集),进行半结构化及非结构数据采集,如:文件、日志、网络数据、视频、传感数据等。数据采集工具能够实现将不同类型的数据采集并传输到大数据应用平台分布式存储区域中,比如HDFS、HBASE等。

现有信息系统的关联型数据库RDBMS中大量的结构化历史数据将会通过IMPORTER工具同步到分布式数据库中,支持大数据的量的查询,为海量数据可视化提供结构化数据源支持。

对大数据应用平台分布式存储区域中的数据进行处理时,可以选择使用Hadoop、Spark、Hive、 Pig等大数据处理工具。然后可采用R语言、Spark MLIB对处理结果进行数据挖掘。

基于牵引供电系统大数据应用平台,各部门可以通过应用商业智能及数据挖掘技术将数据进行数据建模,在数据大量积累的基础上, 进行业务分析与潜在业务价值探索。同时由于平台集成了不同业务、不同专业、不同种类的海量数据,各部门将能够进一步发现数据高度集成后产生的新的价值,优化现有的生产组织方式,创新管理流程,开发出更高效、集成的信息系统。

2 设备生命周期预测

牵引供电系统大数据平台还可以对整个牵引供电系统的寿命做出精准的预测。通过对供电系统内各种设备进行监控,并对采集到的数据进行分析,结合当地的气候情况,综合预测牵引供电系统的实际使用寿命。

传统的预测设备寿命方式是通过对历史数据进行统计,然后粗略的计算设备的平均使用寿命。现在可以通过大数据平台,对各个维度的数据进行挖掘,给出更精确的使用寿命。

生命周期可以转换为分类问题,比如理论上使用寿命为3年的设备,可以按月为单位分为1月、2月、……、36月等36类。通过提取影响生命周期的因素,转换为特征向量,再通过朴素贝叶斯预测,即可得到答案。朴素贝叶斯分类的流程如图2所示。

图2 朴素贝叶斯分类流程示意图

可以看到,整个朴素贝叶斯分类分为3个阶段,分别为准备工作阶段、分类器训练阶段、应用阶段。

2.1 特征向量提取

这个阶段的任务是为朴素贝叶斯分类做必要的准备,主要工作是根据具体情况确定特征属性,并对每个特征属性进行适当划分,然后由人工对一部分待分类项进行分类,形成训练样本集合。这一阶段的输入是所有待分类数据,输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段,其质量对整个过程将有重要影响,分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

在可能影响设备寿命的因素里面有油压、电压、电流、气温、空气湿度、PM2.5浓度、风力、设备使用时间、设备连续工作时间、检修人信息(工龄、部门)等等。对数值型的数据取整,比如36.5℃,取整后为36℃对枚举类的数据,定义数据字典,工龄、部门、风力的数据字典如表1至表3所示。

表1 油压定义表

表2 风力定义表

表3 部门定义表

最后根据每条检修记录,提取特征向量(油压、电压、电流、温度、湿度、PM2.5、风力大小、已运行时间、连续运行时间、检修人工龄、部门)。比如一个工龄10年的检修人员,在某天对设备进行检修时,当天气温23℃,空气湿度40,PM2.5为200,风力四级,设备已经使用了12个月,并且连续运行了10 h,可提取特征向量{23, 40, 200, 4, 12, 10, 1, 30, 2, 70, 1}。

2.2 训练特征向量

这个阶段的任务就是生成预测设备寿命的分类器,主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计,并将结果记录。其输入是特征属性和训练样本,输出是分类器。

在概率论中,已知某条件概率,如何得到两个事件交换后的概率,也就是在已知P(A|B)的情况下如何求得P(B|A)。P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。

假设A事件是油压过高,B事件是已知检修人时。因此:

P(A)代表油压过高时设备损坏的概率。

P(B)代表已知检修人的设备损坏的概率。

P(A|B)代表已知检修人,油压过高时导致设备损坏的概率。

P(B|A)代表已知油压过高,已知检修人时导致设备损坏的概率。

P(AB)代表油压过高且已知检修人时导致设备损坏的概率。

贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。

根据贝叶斯定理可得:

因此,由上述公式可知,已知P(A)(代表油压过高时设备损坏的概率)、P(B)(代表已知检修人时设备损坏的概率)、P(A|B)(代表已知检修人,油压过高时导致设备损坏的概率)。可计算出P(B|A)(代表已知油压过高,已知检修人时导致设备损坏的概率)。

朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。在没有其他可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。

使用朴素贝叶斯分类预测设备寿命的方法如下:

(1)设x={a1,a2,…,am}为一个待分类项,而每个a为x的一个特征属性,x为一个特征向量,比上述提到的例子(一个工龄10年的检修人员,在某天对设备进行检修时,当天气温23℃,空气湿度40,PM2.5为200,风力四级,设备已经使用了12个月,并且连续运行了10 h),其单位向量表示为{23,40,200,4,12,10,1,30,2,70,1}

(2)有类别集合C={y1,y2,…,yn},y代表了设备的寿命,其取值范围{1,2,3,……,36},单位月。

(3)计算P(y1|x),P(y2|x)…,P(yn|x)。即计算特征向量x代表的情况下,设备的寿命是y1、y2,…,yn的概率格是多大。

(4)如果P(yk|x)=max{P(y1|x),P(y2|x),…,P(yn|x)},则x∈yk。即在特征向量x代表的情况下,设备的寿命最可能是yk。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做:

(a) 找到一个已知分类的待分类项集合,这个集合叫做训练样本集。

(b) 统计得到在各类别下各个特征属性的条件概率估计。即:

P(a1|y1),P(a2|y1),…,P(am|y1);

P(a1|y2),P(a2|y2),…,P(am|y2);…;

P(a1|yn),P(a2|yn),…,P(am|yn)

(c) 如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导:

因为分母对于所有类别为常数,因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的,所以有:

P(x|yi)P(yi)=

P(a1|yi)P(a2|yi)…P(am|yi)P(yi)=

上述所有步骤的编码实现,均采用机器学习工具是Saprk MLlib。

2.3 预测生命周期

这个阶段的任务是使用预测生命周期的分类器对待分类项进行分类,其输入是分类器和待分类项,输出是待分类项与类别的映射关系。

比如对所有的历史数据提取的特征向量如下:

X1={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}

X2={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}

X3={y,a1,a2,a3,a4,a5,a6,a7,a8,a9,a10}

……

其中y的取值范围是1≤y≤30

对上面提到的例子(一个工龄10年的检修人员,在某天对设备进行检修时,当天气温23℃,空气湿度40,PM2.5为200,风力四级,设备已经使用了12个月,并且连续运行了10 h,可提取特征向量{23,40,200,4,12,10,1,30,2,70,1}),其结果是y=28,即设备的使用寿命是28个月。

这一阶段也是机械性阶段,由程序完成。采用的机器学习工具是Saprk MLlib实现。

3 结束语

牵引供电系统领域以安全为宗旨,保证各环节的安全生产非常重要,而智能牵引供电设备的正常运行更是重中之重。智能牵引供电系统大数据平台通过采集天气情况、巡检记录、维修记录、设备运行情况以及维修人员的多维数据,对这些数据进行数据挖掘,可实现对有可能出现故障的设备进行预测,从而有重点的对突发情况作出预警准备,从宏观上把控设备的生命周期。另外,当发生不可抗力的状况后,可根据抢险救灾的历史数据、天气情况等数据、维修记录等各种数据,通过大数据分析系统平台,在最短的时间内给出更合理的抢修方案。

猜你喜欢

油压特征向量贝叶斯
二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例
克罗内克积的特征向量
便携式发动机燃油油压管外检测装置设计
2015款Jeep牧马人车无法升至4挡
基于贝叶斯解释回应被告人讲述的故事
基于动态贝叶斯估计的疲劳驾驶识别研究
一类三阶矩阵特征向量的特殊求法
发动机冷试油压温度补偿功能的应用
EXCEL表格计算判断矩阵近似特征向量在AHP法检验上的应用
基于互信息的贝叶斯网络结构学习