智能电表故障大数据分析探究
2016-05-14贺宁
贺宁
摘 要:电力行业贸易结算用智能电表功能多,故障类型多样。随着运行时间的延长,故障发生的概率增加。本文是针对智能电表故障类型、发生概率等数据的分析和总结,探究智能电表数据仓库模型建立,对进一步做好智能表质量评估和运行电能表故障预测提出解决方法。
关键词:智能电表;故障;数据;分析
中图分类号: TM93 文献标识码: A 文章编号: 1673-1069(2016)19-142-4
1 故障数据整理及数据仓库的构建
1.1 故障数据整理
通过已有的SG186系统、MDS系统、拆回表分拣系统,对智能电表故障数据进行汇总。通过整理发现,智能电表故障数据维度高,信息条目数多。在众多维度中选择和电表故障问题关系比较紧密的影响因子信息,并且将它们整合在一起。对数据本身的一些问题进行清理,对缺失值、不合理数据以及不符合书写规范的数据。
通过对各维度离散化标称数据的数目,并将他们进行编号,最后以编号的形式存入数据仓库中。对于日期型的数据,统一成天、月、年三种纬度来进行储存。电表的使用寿命长度以天为单位计算,电表的读数统一为小数点后两位。
1.2 建立数据仓库
通过对已有故障数据的汇总分类,初步建立数据库。数据库包含7个维度表、2个事件表。维度表分别为通讯接口表(CommunicationInterface)、芯片厂商表(ChipManufactory)、电流型号表(ElectricCurrent)、电表厂商表(ElectricMeterManufactory)、时间表(Time)、电表故障表(MeterFault)、地区表(DArea)。事件表是电表信息表(Meter)和坏表信息表(BadMeter)。
故障数据仓库各表字段包括条形码编号、表故障编号、安装时间、拆除时间、地区编号、电池使用时间、电池电压、开盖次数、电表读数、芯片型号编号、芯片型号、通讯接口编号、通讯接口型号、地区名称、建档日期、故障类型、故障编号。
各表中的数据,根据对于旧表数据的统计,共有7个芯片型号、8种通讯接口、5种电流型号、30个电表厂家和28种电表故障。按照天津区域分布,将天津分为10个区域,把时间分为日、月、年三个维度,在决策时可以按照不同时间纬度来进行统计工作。
2 故障分布与相关性分析
2.1 各个厂商电表的故障分布分析
针对各电表生产厂商的故障电表,进行以下三项分析:
各电表生产厂商内部的故障分布比例;各电表厂商的易发生故障列表(采用基于t检验的评分机制);各电表厂商的特有故障列表(厂商的特有故障为相对于其他电表生产厂商,该厂商更易出现的故障,采用tf/idf法分析)。
从分析结果发现,多数厂商和地区的故障分布均具有一定特殊性,可以通过深入分析找到某厂商或地区区别于其他地区的特有故障类型。
2.2 故障之间的相关性分析
对各故障之间的相关程度进行分析(采用经过t检验的斯皮尔曼等级相关系数,保留相关度>0.9的高度相关故障,共20对)。
从分析结果中我们可以看到,部分故障类型之间存在极高的相关性。
3 故障/参数间因果关系检验
3.1 Granger因果检验原理及方法
Granger因果检验通过比较“已知上一时刻所有信息,这一时刻X的概率分布情况”和“已知上一时刻除Y以外的所有信息,这一时刻X的概率分布情况”来进行假设检验,进而判断Y对X是否存在因果关系。
在本任务中,我们首先对芯片型号、电流型号、通讯接口型号、地区、生产厂家、电表使用时间、电表读数、电表故障组成的矩阵进行单位根检验,以判断序列是否是平稳的。如果平稳则进一步两列两列之间进行Granger因果检验。
3.2 Granger因果检验结果
在进行单位根检验后,ADF-Fisher Chi-square的P值为0,小于0.05,因此序列是平稳的。在进行Granger因果检验后得到如下实验结果。
①对于电表故障来说,芯片型号、使用地区、电表生产厂商、通讯接口型号、电流型号、电表读数、使用时间都是影响的原因。
②对于电表寿命来说,芯片型号、使用地区、电表生产厂商、通讯接口型号、电流型号、电表读数都是影响的原因。
③同时我们发现使用地区的不同,对于电表完整的生存周期中的读数有因果关系。我们由此可以猜测不同地区的用电习惯可能会有不同。
4 故障预测
在因果分析中,我们验证了和电表故障与寿命相关的影响因素,现在我们用这些影响因素来训练基础的分类器。在原始数据中,我们总共统计出了28种故障。故障类型过于细化且各种故障发生的数量相差极大,对于我们分类器的分类精度造成了非常大的影响。因此我们参照《智能电能表故障原因分类表.xls》,将28种故障分为3大类。我们的分类工作主要是针对这3大类进行分类。
第一类,也可以称作管理问题,主要包括外观有污迹和无载波模块两类。
第二类是等待报废的问题,主要包括表壳损坏、按键失灵、铭牌损坏、铅封损坏、接线端子损坏等。
剩下的问题都包含在第三种中,主要包括ERR-01到ERR-08、RS485通讯故障、继电器故障、黑屏白屏花屏、卡槽坏、密钥恢复不成功、日计时误差不合格、液晶显示故障等等。
接下来我们就针对这三种故障进行了分类器的训练。目标有两个:
一是在电表入库时就预先判断该电表的可能故障。
二是对已使用电表可能发生故障的预测。
4.1 朴素贝叶斯模型
4.1.1 朴素贝叶斯原理
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。贝叶斯公式是:
P(C|X)=(P(X|C)P(C))/P(X)
其中C代表的是我们需要判断的类别,而X代表的各维参数所组成的向量。
基于假定我们可以把P(Ci|X)的概率转化为P(Ci|X)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)P(Ci)。然后我们比较所得的概率大小,选取概率最大的类别作为我们分类器的预测类别。
4.1.2 朴素贝叶斯的实现
首先我们从数据仓库中把我们所需要纬度的数据提取出来,并按照我们需要的格式编排完毕。然后分别统计我们需要的各种先验知识并训练模型。
4.1.3 朴素贝叶斯模型的结果
①入库电表故障预测
经检验我们的朴素贝叶斯模型的分类准确度是65.2216%。(如表1)
表1 入库电表故障预测
[A\&B\&C\&Classified as\&17301\&323\&17461\&A=1\&2467\&243\&2376\&B=2\&13418\&576\&51133 C=3\&C=3\&]
从表格中可以看出我们的朴素贝叶斯分类器对于第三类故障的分类准确度最高,对于第一类的分类准确度次之,对于第二类的分类准确度最差。
以下是分类器工作的示意范例,我们将规范化的芯片型号、地区、生产厂商、通讯接口型号、电流型号构建成一个向量。例如我们选择一块芯片型号是东软4.0、地区是城南、生产厂家是浙江万胜电力仪表有限公司、通讯接口型号是东软载波,电流型号是5(60)A的电表将各维信息转化为(2,7,25,3,5)的向量输入我们的模型,经过模型计算输出结果是3,表示模型预测这块表以后发生第3类故障的概率最高。
关于具体的模型数据,可参考《电表故障朴素贝叶斯结果.doc》以及《TJDW_Problem_NaiveBayes.model》
②已用电表故障预测
经检验我们的朴素贝叶斯模型的分类准确度是65.288%。(如表2)
从表格中可以看出我们的朴素贝叶斯分类器对于第三类故障的分类准确度最高,对于第一类的分类准确度次之,对于第二类的分类准确度最差。
以下是分类器工作的示意范例,我们将规范化的芯片型号、地区、生产厂商、通讯接口型号、电流型号、电表使用时间、电表读数构建成一个向量。例如我们选择一块芯片型号是东软4.0、地区是城南、生产厂家是浙江万胜电力仪表有限公司、通讯接口型号是东软载波,电流型号是5(60)A、已使用寿命400~800天、已读1000~10000字的电表,将各维信息转化为(2,7,25,3,5,2,2)的向量输入我们的模型中,经过模型计算输出结果是3,表示模型预测这块表如果将会发生故障那么发生第三类故障的可能性最高。
关于朴素贝叶斯模型分类器训练模型及参数的具体信息,可参考《电表故障朴素贝叶斯结果预测.doc》以及《TJDW_Problem_NaiveBayes_Prediction.model》。
4.2 决策树模型
4.2.1 决策树原理简介
决策树是在已知各种情况发生概率的基础上,通过构成决策树来评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。
4.2.2 决策树实现
首先通过统计工作以及数据变换,我们需要构造出输出数据。然后按照计算信息熵,以信息熵衰减程度从大到小的顺序构建树结构。最后在叶子节点中,通过投票多数通过的方式决定分类结果
4.2.3决策树模型结果分析
①入库电表故障预测
经检验我们的决策树模型分类准确率为68.0%。其中对第三类故障的分类准确度较高,第一类次之,对第二类的分类效果较差。
表3 决策树入库电表故障预测结果
以下是分类器工作的示意范例,我们将规范化的芯片型号、地区、生产厂商、通讯接口型号、电流型号构建成一个向量。例如我们选择一块芯片型号是东软4.0、地区是城东、生产厂家是浙江万胜电力仪表有限公司、通讯接口型号是东软载波,电流型号是5(60)A的电表,将各维信息转化为(2,6,25,3,5)的向量输入我们的模型中,经过模型计算输出得出故障为第一类的概率是0.22、第二类的概率是0.05、第三类的概率是0.73,那么我们预测这块表将来发生第三类故障的概率最高。
②已用电表故障预测
经检验我们的决策树模型分类准确率为69.1%。其中对第三类故障的分类准确度较高,第一类次之,对第二类的分类效果较差。
表4 决策树已用电表故障预测结果
以下是分类器工作的示意范例,我们将规范化的芯片型号、地区、生产厂商、通讯接口型号、电流型号、电表使用时间、电表读数构建成一个向量。例如我们选择一块芯片型号是东软4.0、地区是城东、生产厂家是浙江万胜电力仪表有限公司、通讯接口型号是东软载波,电流型号是5(60)A、已使用寿命400~800天、已读1000~10000字的电表,将各维信息转化为(2,6,25,3,5,2,2)的向量输入我们的模型中,经过模型计算输出得出故障为第一类的概率是0.38、第二类的概率是0.13、第三类的概率是0.49,那么我们预测这块表将来发生第三类故障的概率最高。
4.3 softmax神经网络
4.3.1 softmax神经网络简介
神经网络是一种应用类似于大脑神经突触连接的结构进行信息处理的数学模型。我们所采用的多层感知器是一种前馈神经网络模型,可以将输入的多个数据集映射到单一的输出的数据集上。我们在输出层的激活函数选择了softmax回归函数。Softmax回归函数是Logistic回归模型在多分类问题上的推广,可以将目标变量分为K类。最后我们可以得到样本属于各个类的概率分别是多少。
4.3.2 softmax神经网络实现
首先进行数据变换,将数据变换成我们需要的格式,然后初始化我们的多层感知机并应用调整的共轭梯度下降算法反复迭代更新神经网络中每个节点的权值,输出结果使用softmax回归函数进行激活。等参数收敛后,我们就得到了一个softmax神经网络模型。
4.3.3 softmax神经网络结果分析
①入库电表故障预测
我们选择芯片型号、地区、生产厂商、通讯接口型号、电流型号作为纬度,将各个可取的属性值改为0-1表示的布尔值,这样我们就构建了有60个节点的输入层,有两个节点数分别为12和9的隐藏层以及有3个输出节点的输出层的softmax多层感知机。(如表5)
可以看出,在入库电表故障预测中我们的softmax多层感知机模型对于第三类故障分类准确率最高,对于第一类次之,对于第二类效果最差。
以下是分类器工作的示意范例,我们将规范化的芯片型号、地区、生产厂商、通讯接口型号、电流型号构建成一个60维0-1向量。例如我们选择一块芯片型号是东软4.0、地区是城东、生产厂家是浙江万胜电力仪表有限公司、通讯接口型号是东软载波,电流型号是5(60)A,将各维信息转化为向量输入我们的模型中,经过模型计算输出得出故障为第一类的概率是0.155、第二类的概率是0.030、第三类的概率是0.815,那么我们预测这块表将来发生第三类故障的概率最高。
②已用电表故障预测
我们选择芯片型号、地区、生产厂商、通讯接口型号、电流型号、电表使用时间、电表读数作为纬度,将各个可取的属性值改为0-1表示的布尔值,这样我们就构建了有70个节点的输入层,有两个节点数分别为13和10的隐藏层以及有3个输出节点的输出层的softmax多层感知机。(表6)
可以看出在已用电表故障预测中,我们的softmax多层感知机模型对于第三类故障分类准确率最高,对于第一类次之,对于第二类效果最差。
以下是分类器工作的示意范例,我们将规范化的芯片型号、地区、生产厂商、通讯接口型号、电流型号、电表使用时间、电表读数构建成一个70维0-1向量。例如我们选择一块芯片型号是东软4.0、地区是城东、生产厂家是浙江万胜电力仪表有限公司、通讯接口型号是东软载波,电流型号是5(60)A、已使用寿命400~800天、已读1000~10000字的电表,将各维信息转化为向量输入我们的模型中,经过模型计算输出得出故障为第一类的概率是0.307、第二类的概率是0.022、第三类的概率是0.672,那么我们预测这块表将来发生第三类故障的概率最高。
5 结论
两种方案唯一的区别在于RS485总线、低压电力线载波混合抄表系统增加了一层物理设备,即采集终端,使得系统由主站、集中器、采集终端和RS485总线电能表四层物理设备构成。
①综合性能(性价比),方案1占优;
②在通信性能、远程断送电控制、抗扰能力方面,方案1优势明显;
③在功能扩展、设备成本方面,方案2占优;
④方案2最大缺点是安装、调试和维护工作量大,且RS485总线抗干扰能力相对较弱;
⑤方案1最大缺点是一体化载波电能表成本相对较高。
参 考 文 献
[1] 多功能电能表通讯协议[M].中国电力出版社,2008.