变电站自动化系统时间同步协同攻击的检测与防护方法
2021-03-30王冬青曾祥君曹一家
王 坤,苏 盛,赵 奕,王冬青,曾祥君,曹一家
(1. 清洁能源与智能电网湖南省协同创新中心(长沙理工大学),湖南省长沙市410114;2. 许继集团有限公司,河南省许昌市461000;3. 北京科东电力控制系统有限责任公司,北京市100192)
0 引言
作为现代社会的关键性基础设施,电力系统是网络攻防对抗的重要目标[1-2]。中国电力行业高度重视网络安全防护,依托调度数据专网,构筑了基于物理隔离的边界安全纵深防卫体系[3-5]。近年来,大面积建设了安全态势感知系统[6-7]并开始在电力工控终端中应用基于电力专用中央处理器(central processing unit,CPU)和实时操作系统的可信计算技术,可将电力系统安全防护推入主动防护的新阶段[8]。中国电力行业在技术上和管理上具备了有效防范一般性安全威胁和具有有限资源的有组织攻击的能力。大国博弈时代背景下,网络空间战略地位快速上升,国家支持的、面向基础设施的网络空间竞争已发展为现实的威胁[9-10]。如何应对国家支持型攻击是必须直面的挑战。
国家支持型攻击掌握丰富资源,可不计成本地针对特定对象跨领域组织专家量身定制恶意软件,以达成预定的攻击破坏任务。首开攻击物理隔离工业控制系统先河的Stuxnet 就是典型的国家支持型攻击。它利用零日漏洞并借助优盘摆渡入侵物理隔离的工业控制系统,基于对目标对象的先验知识,精准破坏大批铀离心机,最终导致伊朗核计划流产[11-13]。除具有基于先验知识的高度定制化特征外,国家支持型攻击往往还会通过多技术手段[14]或多站点的协同来最大化攻击后果,如Stuxnet 是前者的代表[15-16],而BlackEnergy 则混合使用2 种形式的协同[17]。
电力安防领域围绕协同攻击的建模和检测开展了大量研究。
1)错误数据可能诱发错误的控制决策,是潜在的协同攻击途径。在掌握电网知识的条件下,可以选择虚假数据攻击向量,攻击破坏系统的监控功能[18-19]。基于残差检测和突变量检测等方法,可检测虚假数据注入攻击[20]。
2)攻击乌克兰电网的BlackEnergy 和Industroyer 都伴随有明显的通信异常[21-22],可根据流量异常进行检测识别。利用变电站通信流量在时域上和时频域上的对应特性,可建立流量模型,检测异常[23-24]。
3)安全态势感知可融合多源信息,更准确地检测安全威胁[25]。利用多个变电站入侵检测日志之间的关联性[26]以及单个变电站中一、二次系统间运行状态的关联性[27]进行安全态势感知,也可以挖掘高隐蔽性的异常,提高异常检测的准确率。
需要指出的是,前述虚假数据注入攻击检测方法不能识别基于旁路控制的断路器跳闸攻击。基于流量异常的入侵检测和融合多源信息的态势感知均要求入侵攻击有较明显异常,难以识别检测经供应链渠道侵入且不表现出明显异常的入侵攻击。中国变电站自动化系统由单向网闸隔离保护,并配置有访问控制等安防系统,侵入厂站生产控制区的恶意软件相互通信容易提前暴露,难以通过攻击协同实现最大化后果的目的。采用无通信的方式从多个变电站发起协同跳闸攻击和触发大停电,是国家支持型攻击达成目标的合理选择。
针对变电站遭断路器协同跳闸攻击导致多个变电站全停事故的问题,文献[28]分析了不同攻击组合下的母线停运损失,因其未考虑攻击协同机制,难以为设计针对性的防护措施提供参考。
1 变电站自动化系统时间同步协同攻击
1.1 变电站跳闸攻击
变电站自动化系统直接控制电网运行,是电力系统网络攻防对抗的重要场所。由于中国电力系统已构建较完备的防护体系,加强变电站安防需着重考虑应对国家支持型攻击。
针对变电站的恶意软件渗透入侵后可能有多种攻击破坏模式。在不具有相关专业知识的条件下,常用攻击的模式是拒绝服务攻击、格式化和锁定系统[29],但此类攻击只会使得系统失去保护,并不直接触发电网安全事故。另一种模式是向调度系统注入虚假量测数据,诱导广域保护误动[30-31]。尽管美国曾经因为错误数据发生过停电事故,但可能受到错误数据识别机制和广域保护业务逻辑中防误设计的 影 响,造 成 的 损 失 相 对 有 限[32]。从Stuxnet、BlackEnergy 和Industroyer 的攻击模式来看,国家支持型攻击更多的是在获取控制权限后,根据先验知识直接进行旁路控制。
变电站自动化系统基于可扩展标记语言(extensible markup language,XML)生成,包含变电站电压等级和网络通信拓扑结构等参数的变电站配置文件[33],具体如附录A 图A1 所示。攻击方可借助反向工程获得目标系统的先验知识。在此基础上,研制的恶意软件经供应链渠道等方式绕过物理隔离和安全屏障渗透进入变电站生产控制区。获得控制权限后,按规则解析变电站配置文件,获取站内断路器控制信息。然后,检测目标系统是否满足预设逻辑条件。在不满足预设逻辑条件时,不会主动发起攻击,一旦满足预设逻辑即跳开站内全部断路器,造成全停事故。2016 年底,具有国家支持背景的Industroyer 渗透侵入乌克兰一座220 kV 变电站后,即根据变电站描述文件获得站内各断路器控制信息[34]。在检测到系统时间达到预设时间后,自动匹配变电站通信协议,发起跳开全部断路器的跳闸攻击,造成全停事故[35]。
实际系统中,基于逻辑条件启动的恶意代码曾多次出现,比较常见的逻辑条件是时间逻辑。2013 年,木马软件潜入韩国主要银行和电视台后,按预设逻辑于3 月22 日14:00 破坏硬盘数据文件和启动引导区后重启系统,造成3 家电视台和2 家银行计算机系统瘫痪,无法提供服务[36]。近年来,随着电力系统网络攻防研究的深入,也出现了在电网频率控制中利用逻辑炸弹进行攻击破坏的研究[37-39]。
1.2 变电站自动化系统无通信时间同步协同攻击
现代互联电网中,尽管单个变电站遭入侵攻击而失压全停会造成重大损失,但并不足以危及整个电网。对于国家支持型攻击而言,侵入变电站发起跳闸攻击只是达成目标的技术手段,最大化攻击后果、造成大停电才是最终目标。从攻击方视角来看,侵入多个变电站后同步发起协同攻击,导致大量变电站全停,是触发大停电事故的有效手段[40]。
2015 年,具有国家背景的有组织攻击方在乌克兰电网多座变电站中植入BlackEnergy 后,远程遥控断路器发起跳闸攻击,造成7 座110 kV 和23 座35 kV 变电站全停的大停电[41-43]。尽管BlackEnergy的技术水平低于Industroyer,但它采用了多站点协同攻击,造成的破坏后果明显大于后者。中国电力系统采用专网通信,类似BlackEnergy 远程遥控跳闸的攻击模式难以奏效。由于变电站中有地址和端口屏蔽等入侵检测机制,不同变电站间恶意软件经通信实现攻击协同容易被检测暴露。国家支持型攻击会探明目标系统的防护机制,为绕过上述安全防护手段,有可能采用无通信的隐蔽方式进行攻击协同。
现代电力系统中,为搞清电网故障时继电保护动作时序,要求基于准确对时的统一时钟记录动作时间。早期的调度中心和变电站间由调度主机服务器经远动通道与各厂站进行广播对时。随着北斗和全球定位系统(global positioning system,GPS)的普及应用,调度与变电站中已普遍配置基于全球同步时钟的电力系统时间同步装置,并在厂站内部采用IEEE 1588 协议授时,可对站内事件序列打印全球同步时间标签[44-45]。攻击方研制的恶意软件可将各变电站的同步时钟用作无通信的协同机制,侵入变电站后等待系统时钟达到预设时间再对站内全部断路器发起跳闸攻击,造成变电站全停。攻击流程如图1 所示。当侵入多个变电站的恶意软件在同一时间发起攻击时,将造成多个变电站全停,极易触发大停电。
图1 无通信同步的时间同步协同攻击流程图Fig.1 Flow chart of time-synchronized coordinated cyber-attack without communication synchronization
2 时间同步协同攻击防护思路分析
具有背景知识的有组织攻击方,可以根据电力监控系统的工作机制和网络安全防护措施,针对性地研制定向攻击恶意软件。因为可用的渗透入侵手段繁杂,定向攻击又具有高隐蔽性的特点。现有的安全威胁检测和入侵检测技术难以完全对其进行检测封堵。
针对变电站的国家支持型攻击会在最大化攻击后果的目标驱动下,在同一时间从多个变电站同步发起无通信协同攻击,造成多个变电站全停以触发大停电。利用这一行为模式上的特点,可以从含时间逻辑恶意软件的检测和破坏时间同步逻辑、降低协同攻击破坏后果等方面展开研究。
2.1 基于时间逻辑触发的时间同步攻击检测
高隐蔽性定向攻击检测困难的原因是难以预判恶意软件的入侵和攻击方式,利用侵入变电站的时间同步协同攻击恶意软件会在系统到达预设时间发起攻击的特点,可提出基于时间逻辑触发的攻击检测方法[46]。通过持续加速调整被检测电力监控设备的系统时钟,使其每隔一定的时间间隔加速相同时段,人为制造时间逻辑的触发环境,以检测电力监控设备中潜伏的恶意软件。从机理上看,当攻击方采用时间逻辑进行无通信同步时,借助时间逻辑触发来检测是能保证有效性的,但所能达到的检测成功率取决于攻击方的时间逻辑设置和逻辑触发的检测方式。
对攻击方而言,有2 种模式判断是否满足逻辑条件。一种模式是判断是否大于特定时间,此时,只要超过预设时间点即可触发,对时间检测的间隔没有要求,通过时间加速总能触发时间逻辑。另一种模式是判断当前时间是否等于特定时间。从Industroyer 的攻击分析来看,它设置的判断时间是整天(2016 年12 月17 日或20 日)。实际上,也可将触发时间点设置为小时或分钟(例如12 月17 日00:00)。但设置的时间越短,越需要频繁检测是否满足逻辑,将会造成系统运行明显异常,容易暴露。但拉开2 次检测的间隔时间,又可能错过比对判断的时间点。攻击方为保证在预定时间点可靠发起攻击,将当前时间作为满足逻辑是比较合理的方式。
实际系统中,可在变电站年度检修时检测可能潜藏的时间逻辑炸弹。其基本思路是让设备处于电网正常运行的无扰动状态时,检测仅在系统时间发生改变的条件下是否发出非预期的控制命令。具体检测流程如图2 所示。
进行检测时,启动待检测电力监控设备,向被测设备输入电网正常运行时的二次电压和电流信号,并持续调整被检测设备的系统时钟,使其每隔一定的时间间隔调快相同时段,从而快速遍历到未来特定时间点以前的每一时间段,满足预设攻击时间在该时间段的时间逻辑,以触发其中可能潜藏的逻辑炸弹。同时,还同步检测被测系统是否输出非预期的控制指令(例如跳开断路器或保护整定值修改指令等),若检测到非预期控制指令,则可判断被检测设备中存在时间逻辑炸弹。
需要指出的是,实际上并不能排除攻击方采用分钟等更短时间判断是否满足时间逻辑的可能,此时采用“每1 s 加速系统时间1 h”的方式将难以有效检测。可以在电力监控设备软、硬件系统入网测试时,按照“每1 s 加速系统时间1 min”等更细时间粒度的方式进行时间加速测试,以提高时间逻辑炸弹的检出成功率。
2.2 同步时钟的差异化管理
前述方法可在特定时间节点检测电力监控设备中的时间同步攻击恶意软件,但在2 次检测间隔中潜入的时间同步攻击恶意软件仍可能造成危害。采用变电站时钟差异化管理,则可釜底抽薪地破坏时间同步攻击的协同机制,限制攻击破坏后果[47]。
图2 面向时间同步协同攻击的时间逻辑触发检测方法流程图Fig.2 Flow chart of time logic triggering detection method for time-synchronized coordinated cyber-attack
变电站自动化系统一般配置有2 套全球同步的主时钟和1 个本地主控时钟,整体结构如图3 所示[48]。各保护小室通过光纤接收2 套卫星时钟的时间信号,其中一个作为主时钟,另一个作为备用标准时间源。主卫星时间信号接收单元因跟踪不到卫星等原因异常时,自动切换到另一卫星时钟单元上获取标准时间信号,保证本小室对时信号正常输出。在主控室设一套扩展时钟,主时钟和时间扩展装置间通过光纤连接,时间信号接收单元分别从2 台主时钟获取时间信号,互为备用且自动切换,完成对本室设备的对时;扩展装置接受主时钟的时间信号,经过扩展向其他装置提供多路输出接口。
图3 变电站时间同步系统结构Fig.3 Structure of time synchronization system of substation
利用时间同步协同攻击基于时间取得同步的特点,破除变电站同步时钟的同步性,可化解多点协同攻击的隐患,将对多个变电站的攻击转化为对单个变电站的攻击,显著降低攻击后果,提高系统韧性。为实现此目的,可在电力时间同步装置中增加时间调整模块,在输出时间上增加设定的偏差,使得该站监控系统处于不同的时间基准下。
在实际工程中,变电站自动化系统利用电力时间同步装置取得时钟源,可在时间同步装置中增设如图3 所示黄色标识的时间调整模块。该模块将卫星时钟信号按预设偏移量调整本地时钟和接收的天基时钟,然后向站内设备发送经过调整的时间信号。该时间调整模块可用硬件实现,站内不留存调整时间标记,潜入变电站的恶意软件无法判断准确时间。按站内时间在约定时间进行跳闸攻击,只会造成单个变电站全停,损失范围可控。
根据攻击乌克兰电网的实际案例,从网络攻击造成的大停电中恢复正常需要较长时间。进行差异化管理变电站的时间偏移设置时,为避免攻击破坏后果重叠,也为了方便管理,可将选出进行差异化管理变电站的时间滞后天数。
2.3 时钟差异化对业务系统影响分析与化解
继电保护、安全稳定控制系统、能量管理系统和生产信息管理等电力监控系统要求基于统一的时间基准运行,以满足事件顺序记录(sequence of event,SOE)、故障录波和实时数据采集时间一致性要求[49-50]。对变电站同步时钟进行差异化调整,必须考虑对其他业务系统的影响。
1)继电保护对可靠性要求高,为避免时钟同步系统异常影响保护装置正常工作,要求继电保护采用独立于全球同步时钟的对时方式,修改站内全球同步时钟的同步时间不影响继电保护系统正常工作。
2)电力监控业务系统根据上报数据时标进行数据处理,时钟错误将造成业务系统紊乱。因该类应用多集中在调度端,可在调度端记录经过调整的变电站时间偏移量,在上报数据的入库流程中增设时间反校环节。接收到厂站上报数据时,根据厂站名称及编号查表确认对应的时间偏移,进而将数据反校回正确的时间,后续业务仍可按正常业务流程执行,不受影响。
3)变电站数量庞大,大面积调整变电站同步时间会显著增加检修和维护复杂程度,带来难以预料的后果。有必要结合脆弱性分析,选择部分关键变电站进行时间差异化管理,以有限代价显著提高在时间同步攻击下的韧性。
3 协同攻击仿真分析
3.1 变电站组合攻击仿真分析
结合如附录A 图A2 所示的IEEE 39 节点系统进行多变电站协同攻击的仿真分析。与复杂网络研究中一般以母线为节点不同,在网络攻击中,攻击方为扩大破坏后果,会选择跳开站内所有断路器。因此,需要按变电站进行攻击分析。IEEE 39 节点系统共有27 座变电站,总发电有功功率为6 192.54 MW,总负荷为6 149.1 MW,系统具体参数设置参见文献[50]。
为简化分析,在此不考虑变电站遭攻击全停后负荷转移造成连锁过负荷、保护误动和拒动造成的连锁故障。对指定的攻击场景,移除给定变电站后,潮流计算判断电网保有的负荷,进而计算攻击造成的负荷损失。详细过程描述为:IEEE 39 节点系统可用节点和边连接而成的图G(V,E)标识,其中,V为节点集,E 为边集。移除被攻击变电站后,系统可能解列为多个子图,记第i 个联通子图为Gi(Vi,Ei),其中,Vi和Ei分别为第i 个联通子图的节点集和边集。攻击后取最大联通子图,记最大子图为Gmax(Vmax,Emax),其 中,Vmax和Emax分 别 为 最 大 联 通子图的节点集和边集。负荷损失的计算公式为:
ΔPload=Pload,0-Pload,i
式中:ΔPload为攻击损失负荷;Pload,0为系统正常时的总负荷;Pload,i为攻击后第i 个联通子图中的变电站负荷,即攻击后保留下来的负荷。
协同攻击中,攻击变电站的数量决定了可能的攻击组合数。攻击1 座变电站时,IEEE 39 节点系统中可能的攻击组合为27 种。由于电网在建设规划和投入运行时按N -1 原则进行安全校核,单个变电站失压一般不会造成电网解列;攻击2 座变电站时,攻击组合有702 种;攻击3 座变电站时,攻击组合有8 755 种;协同攻击4 座及以上的变电站时,组合情况会变得非常复杂。本文考虑协同攻击最多3 个变电站的情况,已可有效反映对多点协同攻击的防护效果。
仿真过程中,首先,枚举各变电站全停组合;然后,判断每一组合下电网是否解列,并计算解列后各子网潮流;最后,选择最大子网负荷作为未受攻击影响负荷,正常负荷与最大子网负荷的差值为损失负荷。计算得到各攻击组合的负荷损失后,记录损失负荷如附录A 图A3 所示,其中,纵轴为损失负荷,横轴为组合序号。为方便对比,将单个变电站全停损失以红色粗线标识,红色线段上标识的编号为单个全停变电站编号,以蓝色柱体标识该变电站对应攻击组合下的负荷损失。
1)随机切除2 座变电站时,平均损失负荷为645.5 MW,损失负荷标准差为558.243 MW。切除1 号和24 号变电站时损失负荷达到最大,为2 943.1 MW。1 号和24 号变电站全停时电网结构遭到破坏,解列成3 个子网,负荷损失最大。
2)随机切除3 座变电站时,平均损失负荷为1 058.59 MW,标准差为734.43 MW。切除1 号、16 号和24 号变电站时损失负荷最大,为4 654.2 MW。此时,电网解列成4 个独立子网,系统损失负荷较1 号和24 号变电站攻击全停时进一步恶化。
3)协同攻击变电站的数量在很大程度上决定了攻击破坏后果。遭受攻击的变电站数量增加时更容易破坏电网结构造成解列,扩大攻击的破坏后果。
4)若将所有变电站同步时间都进行差异化设置,每次攻击只会造成单个变电站全停,负荷损失为图中所示红线,最大损失负荷为2 306 MW,平均损失负荷为677.76 MW,明显低于多站组合损失,能有效降低协同攻击的安全风险。
3.2 选择性多变电站组合攻击仿真分析
调整变电站同步时钟将增加系统复杂度和维护工作量,可选择部分关键变电站进行同步时钟的差异化调整,降低维护工作量,提高所提方法在工程应用上的实用性。复杂系统领域一般采用结构脆弱性指标评价节点重要度。为分析选择高重要度变电站进行防护的效果,根据文献[51-52]描述的节点介数、节点度数、潮流介数和承载负荷等脆弱性指标,评价各变电站在电网中的重要性水平。计算各变电站脆弱性指标后,每种指标下排名前10 位的变电站如表1 所示。
表1 不同指标节点重要度排序表Table 1 Importance ranking of nodes with various indices
对比附录A 图A2 和表1 可知,5 号、6 号、21 号、25 号和26 号变电站均通过24 号变电站接入电网,24 号变电站遭攻击全停时,将直接造成电网解列;而失去解列子网中的5 号至8 号的4 台发电机,也将进一步放大攻击的破坏后果。因此,24 号变电站的重要度在除承载负荷以外的所有其他指标中均排名第一,在整个系统中作用最为突出。此外,1 号变电站尽管在绝大多数指标中都排名靠后,但该站内承载负荷高达1 104 MW,遭攻击时将损失站内全部负荷。因此,本文选择关键节点24 号站点和负荷最重节点1 号站点进行时间差异化管理,使得这2 个变电站不与其他站点形成攻击组合。此时变电站的攻击组合数为7 502 种,按前述方法进行仿真计算,记录相应的损失负荷如附录A 图A4 所示,不同防护策略下损失的负荷如表2 所示。
表2 不同防护策略下变电站全停损失负荷对比Table2 Comparison of load loss in substation under different protection strategies
从表2 和附录A 图A4 可以得到如下结论。
1)1 号和24 号变电站不与其他站点形成攻击组合,攻击1 号和24 号变电站的负荷损失分别为1 104 MW 和329 MW。
2)1 号变电站接入负荷最大,而24 号变电站在维持电网整体结构完整性上具有重要作用。将1 号和24 号变电站进行时间差异化管理,可以防止与其他站点同时全停,从而显著降低攻击组合下的负荷损失。剔除这2 个变电站后,组合攻击的最大负荷损失为3 843.6 MW,平均负荷损失为781.53 MW,负荷损失标准差为548.85 MW。
3)选 择 性 差 异 化 防 护 在11 号、15 号 和23 号 变电站遭协同攻击时,负荷损失最大。与未进行防护时相比,最大负荷损失从4 654.2 MW 下降至3 843.6 MW。
4)选择性防护关键变电站时,平均负荷损失从无防护的1 027.99 MW 下降至781.53 MW,减少了246.46 MW,与全部防护时平均损失负荷下降至677.76 MW 相比,在防止负荷损失上的效果达到了后者的70%。
4 结语
针对高隐蔽性的国家支持型攻击可借助供应链等渠道渗透侵入变电站进行网络攻击的防护难题,开展了变电站时间同步协同攻击的检测与防护方法研究,主要贡献和结论如下。
1)分析指出国家支持型网络攻击可采用无通信时间同步的方式从多个变电站发起协同跳闸攻击,以达成触发大停电的目标。
2)利用时间同步攻击需根据时间逻辑取得协同的特点,提出了基于系统时间加速触发的时间同步协同攻击检测方法。该方法以加速系统时间、快速遍历未来时间的方式触发潜藏恶意软件的时间逻辑。根据电力监控设备是否仅在系统时间变化条件下发出非预期控制指令,检测电力监控设备中含时间逻辑的协同攻击恶意软件。
3)利用时间同步攻击需根据时间逻辑取得协同的特点,提出了基于关键变电站时钟差异化管理的防护方法。根据结构脆弱性指标选择关键变电站进行同步时钟的差异化管理,从而打破时间协同的逻辑条件,降低多站点时间同步协同攻击触发大停电的风险。
4)所提时间同步攻击的检测方法和防护方法可配合使用,提高在时间同步协同攻击下的电网韧性。其中,时间同步攻击检测方法不影响业务系统正常运行,可在设备入网和年度检修时作为安全性检测的一个环节,应用于所有变电站。基于同步时间差异化管理的防护方法需改变业务系统的实现流程,可选择性应用于对维系电网安全有突出影响的极少数特高压变电站/换流站和枢纽变电站。
本文在撰写过程中得到湖南省自然科学基金项目“电力系统高级量测体系防护方法研究(2020JJ4611)”的资助,特此感谢!
附录见本刊网络版(http://www.aeps-info.com/aeps/ch/index.aspx),扫英文摘要后二维码可以阅读网络全文。