基于分布容侵技术的电网信息安全防护体系构建
2022-03-23朱亚飞杨文保
朱亚飞,杨文保,许 强
(国网安徽省电力有限公司合肥供电公司,安徽 合肥 230000)
0 引言
智慧电网是整合发电、输电、配电用户端和现代化智能电力管理网络,是一种双向沟通的现代通信电力网络。其利用先进的电表基础设计并结合无线网络技术来传递电力信息和管理分配电力,可提高能源使用效率[1]。智慧电网所具有的双向沟通特性,使得电力公司不再只是单向输电给用户。用户端的用电信息也能通过无线电网,实时传递到电力公司,使电力公司利用监控系统进行远程监控、了解各地的用电状况并进行电力调配[2]。智慧电网也提供用户线上查询信息的功能,使用户可以即时了解当前用电情况,从而提高用户对用电的自觉与意识。
用户端与服务器端进行沟通,需要通过电网传输大量用户信息与分配所有电力平衡的信息。由于电网是一种双向即时的通信系统,在电力管理、电力分配与用户用电等问题上,可以在服务器的资料库作查询分析,以获取相关的信息和数据[3]。信息安全问题常常发生在科学技术的使用过程中,数据资料非常容易遭到篡改、窃取,导致重大财产的损失。由于智慧电网的控制与调度比起传统的电网传输更为复杂,智慧电网传输时可能会遭受针对信息安全的攻击[4]。因此,电网系统信息传输的机密性、完整性、可用性、隐私权以及电网攻击等信息安全问题显得尤为重要。
本文对智慧电网的结构和电网信息安全进行多层面的分析,并在此基础之上说明了电网不同层面各自面临的信息安全挑战。对于全新的攻击行为,难以通过自动化方式进行侦测。对此,通过异常侦测机制系统,建立攻击行为的双线性容侵模型,以进一步识别攻击数据样本,并加强异常侦测的精确率,从而对当今恶意行为快速变化的环境作出更加完善的应对和防护。
1 方法
1.1 智慧电网架构及电网信息安全分层
智慧电网架构如图1所示。
图1 智慧电网架构Fig.1 Smart grid architecture
近年来,不少的国家和地区都开始投资建设智慧电网,并大力开展相关技术研究。智慧电网的发展对可再生能源而言至关重要。美国国家标准技术研究院提出了智慧电网的模型,并定义了智慧电网的七大主要构成模块,包括电力生产、传输、分配、客户、运营、市场、服务提供商[5]。传输模块在智能电网中的配电域之间进行配电。分配模块与智能电网中的终端用户之间进行配电。客户模块包括家庭区域网络、建筑区域网络和工业区域网络。运营模块负责管理向其他模块的电力输送。市场模块负责管理所有智慧电力网络的参与者。服务提供商模块负责管理智慧电网中第三方合作伙伴。智慧电网的七大构成模块之间,不仅有电力的输送,更有数据交流的信息流[6]。
智慧电网的信息安全问题可以划分为四个层面。最底层是传输电能的物理能源设施层。物理能源设施的上一层是管理整个电力能源供应链通信的通信基础设施层。再上一层是作出即时决策的计算信息技术层。最顶层是电网应用层[7]。信息安全问题贯穿着智慧电网的四个层面,而每个层面都与特定的技术相关。本文对于电网信息安全问题的研究集中于智慧电网应用层。智慧电网信息安全分层如图2所示。
图2 智慧电网信息安全分层Fig.2 Smart grid information security layering
智慧电网收集并分析整个电网的传输、分布和使用数据。基于这些数据,智慧电网技术提供相关的预测信息和电力管理信息。在发展智慧电网技术的同时,对于信息安全和隐私保护问题的研究也是非常必要的。
1.2 智慧电网应用层的入侵检测技术
随着智慧电网在全国范围内的普及,越来越多样的网络协议、网络应用和服务充斥在人们的日常生活中。在大量技术服务的背后,衍生出的各种恶意入侵行为却因为不易被察觉而被大众所忽略。凡是未经授权的数据资料信息存取行为、通过网络程序上的弱点或漏洞来尝试获得服务主机的控制权,以及借由大量的数据连接造成服务瘫痪的行为,都是对电力网络的恶意入侵行为。此类恶意入侵行为所造成的影响巨大,凸显了入侵检测和信息安全防护体系建设的重要性。通过智能电网通信,攻击者可能会窃取或篡改能源使用和消耗信息。电力供应商的数据库可能被攻击者入侵[8-9]。智能电网会定期收集和存储每个用户的功耗信息,以提供有效的电力服务。这些用户数据拥有重大的分析价值和战略意义。同时,保护用户的隐私信息在智能电网中的通信安全至关重要。目前,已经有部分研究提出了解决智能电网安全性的方法,例如消息身份验证、通信系统安全性和安全聚合。但这些研究主要集中在针对外部恶意攻击行为的防护上。对于恶意攻击行为的入侵检测技术仍然是一大难题。入侵到内部的攻击者可以合法地收集和存储用户的功耗信息。因此,对此类行为进行入侵检测是极其重要的一环。
入侵检测系统通过数据连接的资料和信息,包括流量、封包、连线类型等特征值,对入侵行为预先进行侦测,再由系统作出初步的过滤,并对管理员作出警示[10]。目前的入侵检测系统主要分为两种类型,分别为特征侦测与异常侦测两种。
特征侦测是一个复杂的过程。首先,利用过去的入侵攻击样本,通过系统分析得出攻击行为的特征,建立攻击行为的异常特征资料库。然后,通过对异常特征资料库的比对实现入侵攻击的侦测辨识。若连线数据与资料库中的特征相吻合,便会被判定为入侵攻击行为。此方法的优点是不容易误判,缺点是入侵攻击行为的特征提取和资料库的建立需要耗费大量的人力和时间。在当今攻击行为快速变动的环境下,特征的建立往往比不上攻击的出现速度。因此,特征侦测系统的最大特点是无法侦测到未知的零时攻击,对于紧急威胁没有临时应变的能力。
异常侦测是利用已知的攻击样本与一般的正常样本混合成资料集,对个别样本的特征,采用相关算法建构入侵行为的模型,作为辨识之用。异常侦测方法的优点在于有能力侦测出未知的零时攻击,在新型攻击行为出现时便即时察觉。但该方法的缺点是具有较高的误判率,即把一般正常的行为错误地辨识为恶意入侵行为,导致系统的效益下降。因此,对异常侦测方法进行优化以降低误判率、提高检测识别的正确率,是当前电网信息安全防护体系的重点工作之一。
1.3 电网入侵攻击行为的多层学习机制
多层学习机制的目的在于利用未标记的数据样本,配合演算模型,建立对未知攻击具有良好侦测能力的系统。本研究首先利用多层机制,使用多个针对个别攻击的分类器,更好地实现对各类攻击的辨识;然后,在多阶段的分类器训练中,避免其可能产生的最坏状况。
本研究所指的多层学习机制,是借由重复对未标记的样本集作识别,增加训练集中的恶意样本数目。首先,利用已标记的训练样本训练出分类器。一次分类器对未标记的样本进行识别且标记,并将被辨识为恶意样本的资料加到训练样本中;然后,重新训练新的分类器后,再以新的分类器对上一轮被辨识别为普通样本的数资料加以识别。结果同样将这些样本中被标记为恶意样本的资料加到训练样本,重复这样的程序,直到没有样本被辨识恶意样本,或是达到设定的执行上限为止。该做法的意义在于增加原本已标记的训练资料中较少的恶意样本数,并借由样本训练的过程辨识可能为恶意的样本,以获得更多与恶意样本有关的特征与行为数据。多层学习机制实现过程如图3所示。
通过研究俄罗斯秋明Сг—6井下套管技术我们不难发现,要想取得超深井大尺寸套管一次性下套管成功,需要做到以下三点:第一,良好的井眼准备是最重要的前提条件。第二,为了应对大吨位的套管下入,应采用足够安全的钻井设备和套管下入工具。第三,严格制定下套管操作规程,采取适当的工艺措施,严防套管遇阻及其他事故的发生。
图3 多层学习机制实现过程Fig.3 Multi-layer learning mechanism implementation process
美国国际高级研究计划局(Defense Advanted Research Progects Agency,DARPA)数据集是目前网络入侵检测领域的标准数据集。DARPA包含了Probe、DoS、R2L、U2R四大攻击类型。而攻击种类就是依据此分类来作分层的原则。由于数据集中R2L与U2R类型的样本数量比较少,故将其合并为同一层,借由同一个分类器来作辨识。而根据愤怒统计分析,对于DOS的侦测误判率是最低的,Probe次之,最高的则是R2L这类攻击。于是本文利用过滤方式,从DOS的攻击开始侦测,以达到最好的效益,建构多层入侵侦测系统。
1.4 电网分布数据转换与平稳性检验
电力网络分布数据的网络流量特征检测,需要转换为连续性的可观测状态。对于一个净流量的连续性特征,必须先将其从数值的特征值转换为离散的观测值。本文将这些特征值分成五种观测值。分类的依据是依照正态分布的情况,加上平均值和标准差进行处理。由于正态分布在平均值正负一个标准差内,应占有全部的70%左右,本文使用以下四个值作为界限,将连续性的特征数值加以转换,分别是:①平均值-标准差;②平均值-0.25×标准差;③平均值+0.25×标准差;④平均值+标准差。
但在此转换方式下,由于平均值在标准差之后可能为负数,故需要针对此状态进行简单的转换处理。
本文采用分段检验法对电网系统节点产生的聚合数据时间序列进行检验,以验证其是否满足平稳性。现对聚合节点产生的聚合数据时间序列{xt}进行平稳性检验,将{xt}时间序列分成{x1t}、{x2t}和{xnt}。
{xjt}={xj1,xj2,...,xjm},j=1,2,...,n
(1)
(2)
(3)
(4)
|ui-uj|>2.77σ(uj)
(5)
(6)
|Ri,k-Rj,k|>2.77σ(Rj,k)
(7)
在对一个时间序列{xt}进行平稳性数据检验之后,若满足条件,则可以进行进一步的处理和分析。
1.5 入侵检测系统分类器权重及门槛值设置
本文研究的重点在于对一个分类器的权重及门槛值的设置。权重的设置主要有三种。第一种是将每个分类器给予一样的权重,依照分类器的平均情况作为辨识的结果。第二种则是随着多层学习机制的进行,训练出分类器。其权重越低,则原始的分类器权重越高。该做法比较重视初始的分类器,后续的分类器权重值较低,比较适用于辨识率比较差的状况。这是因为经过多层学习机制后,新分类器表现的波动性比较大,虽然可能有较高的攻击侦测率,但其误判率可能也比较高。第三种方法是对第二种方法的改进,借由对x系数的调整来决定初始与最终训练出的分类器之间的权值比重,以免过度忽略后期训练出的分类器。阈值门槛值设置的第一种方法是基本的平均方式,取所有权重取平均值作为门槛值;第二种方式则是借由调整参数k来设定门槛值的高低。通过调整k值来决定k个拥有最小权值的分类器总和,以此作为依据,使门槛值的设定更具弹性化。
1.6 入侵行为分类识别评估
表1 入侵攻击行为识别评估情况Tab.1 Intrusion attack behavior identification assessment situation
同时,使用接受者操作特征曲线 (receiver operating characteristic curve,ROC)作为判断识别结果方法。ROC以二维线性表示,横轴为假阳性概率(false positive rate,FPR),纵轴为真阳性概率(true positive rate,TPR)。ROC曲线下的面积(area under the curve,AUC)则是表示在绘制出的ROC曲线图中,曲线下方的面积。该面积越大,代表检测系统的TPR越高,FPR越低,即辨识的结果越好。ROC曲线实例如图4所示。
图4 ROC曲线实例图Fig.4 Example graph of ROC curve
2 结果与讨论
2.1 电网入侵检测系统的试验预测结果
本文使用DARPA数据集的原始链接数据资料所转换的数据作为试验评测的数据集。通过对原始数据资料进行转换,将原始数据转换成网络流格式,再提取特征资料,作为多层学习模型的特征值。电网入侵检测系统的试验预测结果如图5所示。
图5 电网入侵检测系统的试验预测结果Fig.5 Experimental prediction results of power grid intrusion detection system
根据图5所示的结果,经过改进的电网入侵异常侦测方法模型的绝对平均误差(mean absolute error,MAE)降低了16.73%。
2.2 电网攻击行为多层学习机制模型的算法仿真
本文使用 MATLAB 进行试验仿真。对经过脉冲噪声处理的数据,进行检测率、误判率、接收者操作特征曲线曲线AUC等指标的分析,对本文提出的基于分布数据的双阶段容侵算法和常用的Bo算法进行仿真试验。
试验仿真结果对比如图6所示。
图6 试验仿真结果对比Fig.6 Comparison of experimental simulation results
图6表示了当恶意攻击概率p=0.2、恶意攻击强度D=6时,在不同无线信道通信质量下,本文算法与Bo算法的性能差异。通过观察可知,在通信质量较好时,本文算法和常用的Bo算法的AUC都更大,说明良好的无线信道通信可以有效提高容侵算法的检测率、降低漏报率。整体来看,在各种通信质量情况下,本文算法都要优于Bo算法。在通信质量恶劣的情况下,两种算法对应的AUC差值拉大。这意味着在无线信道通信质量较差的情况之下,本文提出的多层学习机制模型具有更强的抗噪性能。
3 结论
本文对智慧电网应用层中的信息安全入侵检测行为和模型建构进行学习和研究,使用多层学习机制的方法对电网中的分布数据的未知入侵攻击行为进行有效的侦测和识别,并配合相应的数据资料集进行试验数据预测。试验结果显示,本文模型的数据预测结果MAE降低了16.73%。MATLAB仿真试验表明,本文提出的算法有效地提高了异常侦测方法的精确率、降低了误判率。未来在电网信息入侵攻击安全防护方面的研究还有不少需要深入挖掘的地方,可以进一步扩展测试数据集的多样性,提升评估结果的价值。