基于BiLSTM-Attention 的电网告警信息缺陷风险预警
2021-09-05郑俊翔施正钗周泰斌陆千毅黄达铁
郑俊翔,施正钗,周泰斌,陆千毅,黄达铁
(国网浙江省电力有限公司温州供电公司,浙江 温州 325000)
0 引言
随着能源电力行业数字化与智能化转型的趋势,海量监控告警信息资源唤醒已成为能源互联网形态下调度部门建设多元融合高弹性电网的重要举措[1]。传统SCADA(数据采集与监控)系统上窗告警信息的缺陷等级判断依赖于设备监控人员主观经验,存在效率较低、误分类等问题。为帮助监控人员快速、准确掌握上窗告警信息,实现告警信息的缺陷辨识与风险分析,为调控缺陷故障处置提供辅助决策,利用深度学习和NLP(自然语义处理技术)对告警信息进行数据挖掘,可以提升缺陷影响程度定级的效率和准确性,促进人工智能技术在设备监控大数据平台的应用[2-3]。
在针对设备监控告警信息文本的相关研究中,曹靖等[4]建立了一种基于语义框架的缺陷文本挖掘模型,解决了非结构化表述无法精准提取的问题,通过变压器缺陷文本算例验证了所提挖掘技术的可行性与有效性。邵冠宇等[5]提出了一种基于依存句法分析的电力设备缺陷文本信息辨识方法,提升了语义分析的准确性。文献[6-7]提出了一种基于BiLSTM-Attention 的电网设备故障文本分类,对变压器、真空断路器等故障缺陷表象进行智能判断,提升了缺陷分类识别准确率。上述文献针对设备故障缺陷详细文本的分类都只侧重于事后分析及数据精益化管控,而上窗告警信息的实时性诊断则具备了为调控人员缺陷故障处置提供辅助决策与电网风险预警能力[8]。
部分国内专家学者对于SCADA 实时告警信息文本开展了研究。汪崔洋等[9]提出了一种基于告警信息文本挖掘诊断方法,并应用于电力调度故障快速处置。文献[10]提出了一种将改进BM(字符串匹配)算法与结线分析相结合的设备监控告警信息故障诊断知识图谱构建方法,实现了告警信息解析判别和智能辅助决策。文献[11]设计了一种基于GRU(门控循环单元)神经网络的电网告警信息分类系统,在准确率与LSTM(长短期记忆网络)算法相近的基础上,计算将更为高效,系统将告警信息分为变位、告知、事故、异常等4类,并通过混淆矩阵进行设备运行风险评估。
为进一步提高深度学习在告警信息文本的缺陷辨识和风险分析能力,提出一种基于自然语义分析的电网告警信息文本缺陷风险预警方法:将基于BiLSTM-Attention 神经网络的语义分析技术[7]与模糊化缺陷风险评估方法相结合,对告警信息文本进行数据预处理,利用word2vec 进行词嵌入向量表征;通过注意力机制突显对告警信息与缺陷程度相关的特征,得到告警信息的语义特征向量;在归一化层实现告警信息缺陷等级分类。BiLSTM-Attention 神经网络具有能提取双向语义信息、赋予重要判断信息权重的双重优势,可有效提升语义理解准确性。经实验测试和应用分析表明:基于该方法的判断模型能够精准实现告警信息的缺陷分类定级,以准确度、微平均值作为评价指标,相比典型人工智能算法具有更优分类效果,并实现了告警信息的缺陷风险预警。
1 告警信息缺陷分类诊断
1.1 语义分析算法流程
基于BiLSTM-Attention 神经网络方法能挖掘海量告警信息中的内涵语义特征,在缺陷文本记录辨识、缺陷程度分类等任务中,性能指标较为优越[7]。因此,将设备监控告警信息分类过程视为非结构化文本数据的语义识别与分类,结合文献[7]给出的改进算法与评价指标,提出基于BiLSTM-Attention 的电网告警信息分类算法流程如图1 所示。
图1 告警信息文本分类算法流程
1.2 分类诊断训练过程
1.2.1 文本预处理
SCADA 系统监控告警信息是对变电站设备故障、异常、越限、变位和告知的综合描述语句[8]。本文主要面向异常告警信息(包括误发故障信号),此类信号对电网运行影响较大,将被诊断为缺陷(以下统称“告警信息”)。因此,针对SCADA 系统上窗非结构化文本告警信息(异常)进行预处理,对告警信息内容进行文本分词、清洗辨识电力设备名词实体、标准化等3 个步骤,得到一组同告警信息匹配联系的缺陷关键词,如:母联开关、变压器、重合闸、保护装置、合并单元等,预处理的对比结果如表1 所示。
表1 告警信息文本预处理
1.2.2 词嵌入层
本文采用的word2vec 模型是一种典型的NLP 模型,它是由Google 公司于2013 年开源推出的词向量计算工具[12],包括预处理模块和浅而双层的神经网络2 个部分,其特点是可从SCADA系统海量告警信息中以无监督学习方式提取词向量之间存在的语义信息,然后通过神经网络层输出电力设备实体特征的分布式表征,具体结构如图2 所示。
图2 word2vec 模型
结合文献[12]给出的word2vec 词嵌入方法,将告警信息文本的形式化表示定义为:
式中:xi表示文本S 中的第i 个词汇。
对于每个词xi来说,以图1 中告警信息“带溪变110 kV 母联开关油压低重合闸闭锁”为例,存在词向量矩阵:Wword∈。在训练过程中,给定告警信息在输入BiLSTM 层之前,需进行预处理,使用该词向量矩阵将每个词进行词向量表征转化,最后得到给定告警信息电力设备实体名词的词向量表征,如式(2)所示。
因此,对于给定告警信息文本Sf将被转为一个具有缺陷程度信息的实数矩阵embs={e1,e2,…,eT},并输入模型的下一层。
1.2.3 BiLSTM 神经网络层
在深度学习和自然语义处理技术领域中,对于长文本信息,BiLSTM 方法能提取双向语义信息,能更加充分利用从后往前的反向特征信息[13],BiLSTM 模型结构如图3 所示。
图3 BiLSTM 模型
本文利用双向LSTM 网络门控机制,主要由存储单元状态ct、输入门it、输出门ot等构成:
式中:it为输入门;ct为存储细胞状态;ot为输出门;xt为t 时刻的输入;ht-1为t-1 时刻的输出值;σ 为Sigmoid 激活函数;W 为输入权重矩阵。
将某一告警信息文本Sf各个词xi的向量表征矩阵embs={e1,e2,…,eT}作为BiLSTM 网络门控的隐状态输出,按位置规则拼接后作为各个时刻细胞的输入。对于给定告警信息文本“带溪变110 kV 母联开关油压低重合闸闭锁”,有如下步骤:
Step1:通过word2vec 词嵌入进行告警信息预处理,然后进入双向LSTM 网络提取语义特征环节。
Step2:以正方向的LSTM 先提取告警信息的正向特征,例如由“带溪变→110 kV→母联开关→油压低→重合闸→闭锁”得到正向的隐状态,即。
Step3:以反方向的LSTM 先获得告警信息的反向的特征提取,例如由“带溪变←110 kV←母联开关←油压低←重合闸←闭锁”得到反向的隐状态,即。
Step4:分别得到正向和反向的特征提取之后,再将正向LSTM 输出的与反向LSTM 输出的在各个位置输出的隐状态进行按位置拼接,得到一个完整的隐状态序列:
通过将正向与反向的隐状态序列拼接,实现了BiLSTM 能提取双向语义信息的特点,使模型具备联系缺陷重要程度挖掘告警信息文本整句话中正序与反序的重要信息能力,确保了缺陷特征内容不丢失。最后,BiLSTM 网络层输出的隐藏状态集合表征为H:[h1,h2,…,hT]。
1.2.4 注意力机制层
注意力机制源于人类视觉对重点区域的关注,通过模拟人脑注意力集中于特定区域情况,来获取更多有效价值信息,提升语义理解准确性[14]。
在注意力机制模型中,n 时刻由BiLSTM 模型输出的告警信息文本中缺陷重要程度特征向量对最终状态的注意力概率分布an:
式中:词嵌入的表征能力随着an和hn值的增大而变强,同时注意力机制中获得的告警信息缺陷重要程度判别特征信息也越多。
最后,通过输出层的Softmax 计算,得到告警信息缺陷类型标签维度为1×4,其概率分布为:
式中:T 为缺陷类型标签数,T=4,包括一般缺陷、重要缺陷、紧急缺陷以及其他;V 为告警信息库在训练过程中产生的权重。
对于输入到BiLSTM 层中的每个电力设备实体名词,在训练集中都有特定的标签,即为电力设备实体的类别;通过式(10)计算每个输出标签的概率,得到概率最高的标签即为该告警信息的缺陷程度判别结果。
告警信息文本分类过程实则缺陷分类诊断,在处理流程中,经过归一化层得到维度的向量表示,得到概率分布与之对应的标签包括:一般缺陷(0.1)、重要缺陷(0.2)、紧急缺陷(0.5)、其他(0.2),因此告警信息文本“带溪变110 kV 母联开关油压低重合闸闭锁” 所对应的概率为最大的“0.5”,其分类类别为“紧急缺陷”。
2 缺陷风险评估方案
本文构建的基于语义分析的缺陷风险预警体系流程如图4 所示,告警信息文本分类产生缺陷诊断结果后,进入缺陷风险预警定级环节,生成匹配的风险预警等级,充分挖掘告警信息的数据价值,为缺陷故障处置提供辅助决策。
图4 基于语义分析的缺陷风险预警体系流程
2.1 事故影响指标
在告警信息上窗且系统被判定为重要、紧急缺陷后,调控员需要关注消缺工作可能导致相关设备产生的N-1 风险,主要有:根据事故预想下的电网拓扑,评估系统是否存在减供负荷、断面越限、线路重载、系统解裂、重要用户全停等情况。
因此,本文选取负荷损失、线路设备过载、断面越限、重要用户全停4 个指标来评价设备停役消缺过程中存在的N-1 风险[15]。
(1)减供负荷指标RL
作为风险预警的常用指标,该指标反映电网事故期间实际负荷量减少的程度,本文以减供负荷总量为衡量,如式(12)所示。
式中:Pi为节点i 减供的负荷量;n 为受影响减供的节点总数。
(2)线路重载指标RE
线路重载指标是指线路实际电流值超过标准额定电流的程度。本文重载线路规定为负载值大于其额定值50%阈值,如式(13)所示。
式中:Ii为第i 条重载线路的实际负载值;Ii,n为第i 条重载线路的额定值;n 为重载线路的数量。
(3)断面过载指标RT
潮流断面过载指标反映区域一组输电线路因缺陷停役导致电力系统其他线路组存在断面有功潮流越限情况,如式(14)所示。
式中:Pi为断面i 的线路有功潮流;Pr,i为输送功率的控制值;s 为线路回数。
(4)重要用户全停
重要用户由地级市以上地方人民政府有关部门依据相关文件确定。
2.2 模糊化的风险预警方案
根据国家电网《安全事故调查规程》中对电力事故的定义,参考文献[16-17]给出的定级策略,结合浙江省市域电网规模特点,将告警信息以缺陷严重程度进行评估,本文提出了一种基于模糊化电力事故等级的市域电网告警信息缺陷风险定级策略,具体见表2。
表2 缺陷风险预警定级方案
(1)五级风险预警:当减供负荷大于80 MW、线路重载或过载RE大于120%、断面过载指标RT大于20%、特级或一级重要用户全停,以上任一情况发生即触发五级风险预警。
(2)六级风险预警:当减供负荷大于30 MW、线路重载或过载RE在100%~120%、断面过载指标RT在10%~20%、二级重要用户全停,以上任一情况发生即触发六级风险预警。
(3)七级风险预警:当减供负荷大于5 MW、线路重载或过载RE在90%~100%、断面过载指标RT在5%~10%、临时重要用户全停,以上任一情况发生即触发七级风险预警。
在浙江省市域电网规模体量下,调控员主要关注事故调查规程中的五级、六级、七级电网事件,构建模糊化的风险预警指标,完成对上窗告警信息缺陷诊断后的风险预警定级。解决了监控人员在缺陷诊断上报后,调度人员需对设备缺陷产生的N-1 风险进行二次判断,从而延误缺陷最佳处置时机的问题。
从告警信息出发,融入智能化缺陷诊断与缺陷风险评估,从而构建基于海量监控数据的多维度监控告警事件化预警分析体系,增强调控员电网感知预测能力,提升风险管控水平。
3 实验与分析
3.1 软硬件平台配置
在计算机硬件方面,本实验在Linux 操作系统下进行深度学习的模型训练,配置具体信息见表3。
表3 硬件配置
在软件配置方面,本模型使用Python 代码进行编写。
3.2 数据说明与评价指标
(1)实例选取SCADA 系统中4 750 条告警信息中的异常信号作为研究对象。告警信息包含变电站、电压等级、设备名称、异常元器件、异常现象等信息。缺陷程度分为一般缺陷、重要缺陷和紧急缺陷。
本文将4 750 条信息以0.8∶0.2 的比例划分训练集和测试集,最终得到的各类别数目见表4。
表4 各类别统计数目
(2)在实验评价指标中,混淆矩阵与准确率作为最直观的分类性能评价指标,并融入精准率P、召唤率R、微平均F1值来评价二分类问题。
准确率定义:缺陷重要程度判断预测正确的结果占总告警信息库的百分比。
精确率P 定义:缺陷程度判断正确占缺陷程度判断全部预测为正的百分比。
召回率R 定义:缺陷程度判断正确占缺陷程度判断全部实际为正的百分比。
F1值定义:精确率P 和召回率R 的调和均值,其值越高表示分类诊断性能越优,其表达如式(15)所示。
本文结合微平均F1指标F1Micro,其计算方法为:将N 分类问题转化为N 个二分类混淆矩阵问题[18],从而合计得到Tp,Fp,FN值以计算精准率P、召唤率R、微平均F1值。此处累加得到的F1值即为F1Micro值。
3.3 模型性能分析与应用
3.3.1 模型性能对比分析
首先结合电力设备缺陷名词集对BiLSTM 模型进行预训练,使损失值呈下降趋势,而F1Micro值、训练集和测试集的准确率呈上升趋势,最终结果趋于稳定。在预训练完成后,将告警信息测试集数据输入模型,其测试结果准确率和F1Micro值分别为97.65%和0.974 6。
本文中特征表示阶段通过固定告警信息训练集与测试集的分配方式来保证多组算法模型测试对比的科学性。与深度学习CNN(卷积神经网络)、BiLSTM 模型实验结果进行对比,得到3 种深度学习测试模型的F1Micro值以及对应的准确率,如表5 所示。
表5 深度学习模型性能对比
表5 分析结果显示,融入注意力机制的BiLSTM-Att 模型比BiLSTM 和CNN 模型在告警信息文本挖掘时的性能更为优越,F1Micro指标为0.974 6,较BiLSTM 和CNN 模型指标分别提升2.03%和3.29%;测试集准确率为97.65%,准确率分别提升2.14%和3.30%;训练集准确率高达99.71%,准确率分别提升2.29%和2.80%。融入注意力机制的BiLSTM-Attention 模型比传统BiLSTM 模型更能关注到缺陷重要程度相关的告警信息中的最关键信息,并赋予权重,从而表现出更优分类性能。
在运用训练好的BiLSTM 模型基础上,注意力机制具备赋予关键的电力实体名词较大的权重,提高语义理解的准确性,本质目标就是在深度学习过程中重点关注告警信息文本中对缺陷等级诊断有决定性意义的关键短语,从而达到缺陷的智能化高效分类定级。
3.3.2 基于语义分析的缺陷风险预警应用
将基于BiLSTM-Attention 神经网络的语义分析技术与模糊化缺陷风险评估方法相结合,运用训练好的BiLSTM 模型,通过注意力机制完成缺陷诊断分类,最后利用缺陷评估方案完成N-1 风险定级和预警,如表6 所示。
表6 基于语义分析的缺陷诊断与风险预警结果(部分)
以SCADA 上窗告警信息“大安变220 kV 嘉安43Q4 线开关SF6气压低闭锁”为例,缺陷严重程度为紧急,调度预期处置结果为向省调申请将线路停役,大安变将由220 kV 嘉大43Q3 线路单供,在N-1 故障情况下,通过模糊化缺陷风险预警策略触发五级风险预警,以供调控员辅助决策,组织220 kV 终端变防全停技术、管理措施等。
4 结语
为实现对SCADA 系统海量告警信息的缺陷辨识和风险分析,将基于BiLSTM-Attention 神经网络的语义分析技术与模糊化缺陷风险评估方法相结合,提出了一种基于自然语义分析的电网告警信息文本缺陷风险预警方法。
该方法实现了告警信息缺陷分类诊断,且准确度、微平均值评价指标较CNN 和BiLSTM 算法更为优越,为设备监控人员高效、准确进行告警信息诊断定级提供辅助决策。告警信息实时缺陷诊断与智能风险分析相结合,实现了告警信息的缺陷风险预警,提升了电网安全风险管控水平,为调控人员异常缺陷处置提供了辅助决策。采用人工智能NLP 技术对告警信息加以缺陷辨识和风险分析,作为后续基于知识谱图的电网调度智能化缺陷诊断、故障分析、处置策略实施的技术铺垫,为拓展电网调控领域的设备监控大数据智能分析平台提供了理论指导。