基于博弈论的信息物理融合系统安全控制

2019-02-15庞岩王娜夏浩

自动化学报 2019年1期

庞岩王娜夏浩

信息物理融合系统[1](Cyber-physical system,CPS)是在环境感知的基础上综合计算、网络和物理实体的高效能网络化智能信息系统,通过3C(Computation、communication、control)技术的有机融合与深度协作,实现大型工程系统的实时感知、动态控制和信息服务.其本质是将计算过程和物理过程有效地融合在一起,通过嵌入式计算机和网络对物理过程进行监控.我国在2009年将CPS列入重点研究方向[2],但对CPS的研究无论从软件还是硬件以及理论基础上都存在着诸多难点.物联网、人工智能、云计算等技术的成熟和发展,将会为CPS的研究和应用带来巨大的转机.

信息物理融合系统由深度集成、紧密耦合的计算和物理组件组成,并具备通信能力.然而依赖于通信网络和标准通信协议来传输测量和控制数据包增加了对物理系统的攻击的可能性.因此,对于可靠性差的通信网络下的网络控制系统研究也成为一个热门的研究领域[3].通信网络是CPS的核心,系统的各部分元件在这里进行信息交换和传递,而CPS中的信息系统结构复杂异构,系统也随着发展变得更加复杂、开放,因此极易受到外界干扰甚至恶意攻击.在存在恶意攻击威胁情况下,如何设计防御控制策略,对故障进行控制和及时恢复,使系统在短时间内更正错误,防止错误扩散,不影响系统正常的工作状态,是CPS安全性研究[4-5]的重点.CPS的安全性也可分为故障安全和主动安全.故障安全是对偶发故障的避免,通过故障检测技术[6]实现对故障的及时发现以及将故障对系统带来的危害降至最低.而主动安全则侧重于对恶意攻击的主动防范.对于CPS系统的安全设计来说,主要关心怎么预防事故的发生,因此故障安全和主动安全都需要保证.而对于本文考虑的存在恶意攻击的情况下,则主要研究主动安全,从而对系统进行弹性与鲁棒控制.

目前国内相关的研究文献甚少,国外的研究也处于起步阶段,对于CPS的安全性研究大多集中于网络数据加密[7]、模型验证[8]或借助网络安全[9]的研究方法等,而很少考虑物理系统的控制安全.与上述研究方向不同,本文将着重考虑通信对于控制的影响,给予系统一定的容错能力,从受控系统上保证物理设备的安全.

在现有文献研究中,下列文献研究了控制系统中数据通信受到攻击时的影响及控制方法设计.文献[10-11]致力于最小化控制目标函数的反馈控制器的设计,在这两篇文献中,仅考虑了数据包丢失,未考虑延迟.在文献[12]中提出了延迟和数据包丢失下的预测控制器设计,但是没有明确考虑乱序.Sinopoli等[13]利用伯努利过程研究了测量损失下卡尔曼滤波的应用,提出了数据包丢失概率对于最优估计的一个阈值条件,并给出了阈值函数.研究控制或者数据包丢包概率的条件是控制系统能够容忍并且仍然能够保持系统的可靠性.控制系统中数据丢包模型常用伯努利模型,伯努利模型由于其通用性强及易处理，因此在最近几年被广泛地研究[14].然而伯努利过程仅给出了一个数据包丢失的离散概率分布模型,对时延及观测噪声并没有考虑.伊利诺伊大学的Tamer Basar教授对博弈论在控制中的应用做出了很多工作,包括对采用博弈论的方法进行H∞控制器设计的专著,并且在文献[15]中提出用动态博弈的方法对有损网络进行H∞优化控制.文献[16]从数学范数概念出发,提出把H2/H∞混合控制问题抽象为两个对局者在信息不完全情况下的非零和博弈模型,通过纳什均衡设计输出反馈控制器,使系统在保持鲁棒稳定性的前提下最大程度地降低干扰对输出的影响,使系统获得最优动态性能指标.因此,博弈论在针对冲突模式下的动态控制有良好的应用前景.

本文将研究信息物理融合系统受到攻击下的控制策略,借助最优控制的理论和方法,将其抽象为二人零和动态博弈问题,设计了在网络控制系统中对数据包的时序攻击具有弹性的鲁棒输出反馈控制器.对网络时间序列算法的攻击将导致产生时变延迟,造成数据包接收顺序的改变.对于无线传感器网络数据传输过程中由于对数据包时序攻击造成的可变延迟,本文通过运用极大极小值原理并将其和黎卡提微分方程的解[17-18]相结合给出了最优控制策略的控制律.最后用双水箱模型进行仿真验证,并与LQG(Linear quadratic Gaussian)控制进行了对比发现,本文所用方法最终实现了系统的稳定控制,而LQG控制在受到攻击后则出现剧烈震荡.

1 问题描述

1.1 数据包时序攻击

在典型的信息物理网络系统中,通常有多传感器通过一个共享的通信频道发送信息给控制器,控制器传输控制数据给连接在物理系统上的执行器.数据包必须按照一定的顺序传输,并在规定的时间内到达.本文主要考虑攻击者在传感器和控制器之间的路径上进行干扰,导致数据包丢失,或者产生时变延迟和乱序等,但不能改变数据包的内容[19].

我们称这种对网络数据传输的时间特性进行干预造成系统数据丢失或产生时变延迟,从而导致数据包乱序的攻击行为称为数据包时序攻击(Pactket scheduling attacks).通过无线网络传输的数据包在进行加密前都是被做上时间标记的,时间戳能够被用来检测已过时的信息.

数据包时序攻击是很容易做到的,最直接的方式就是对手把恶意软件放在发送方和接收方之间数据传送的路由上,或者在数据传输的路径上加入恶意节点(Malicious node),由于各节点间形成一个多跳的网络,恶意节点的加入可造成数据延迟.另一个不正当的攻击方式是拒绝服务攻击(Denial of service,DoS),在无线通信频道,对手可以通过重复地发送数据包导致数据包冲突和自动重传,使得数据包错过它的截止时限,从而耗尽共享的通信频道或造成网络拥堵[19].因此数据包时序攻击可造成以下影响:1)产生时变延迟:2)改变控制器接收到的数据包顺序,即乱序.

1.2 系统模型

由于网络和物理世界之间的紧密耦合和协调,CPS是在多个空间和时间维度上动态地重组和重新配置具有高度自动化的控制系统.为了使无缝集成,CPS的实现依赖于整个系统的闭环设计的思考.如图1所示,在物理过程中感测到的事件需要反映在网络世界中,而网络世界所采取的控制策略需要作用到物理受控系统上.从这个过程中可以发现,传感器和执行器充当物理和网络世界之间的接口,并且通过网络通信基础设施闭合了物理世界和网络空间之间的间隙,实现物理世界和计算进程的融合.若在网络上有恶意节点的加入,则可造成控制器接收数据时间及顺序的变化,因此安全问题在整个系统中也就出现了.

图1 无线传感器网络控制系统模型(虚线表示无线网络,实线表示有线网络)Fig.1 Model of wireless sensor network control system(The dashed line shows the wireless network,and the solid line shows the wired network.)

本文采用离散时间的线性时不变系统进行极大极小控制器设计,状态和输出都受到干扰影响,离散的状态空间方程如下:

1.3 控制算法研究

在过去几十年里,控制理论主要发展了“H∞最优控制理论”,针对线性受控系统在受到未知的添加干扰和系统不确定性时最差情况的控制器设计问题,包括干扰衰减、模型匹配、和跟踪问题等[20].常用的最优控制还有线性二次型最优控制,即性能指标是状态变量和控制变量的二次函数积分.其中线性二次型最优控制包括确定性系统的线性二次型最优控制问题(Linear quadratic,LQ)和随机系统的线性二次型高斯控制(Linear quadratic Gaussian,LQG).

对于随机系统的最优控制,常用的是LQG控制,但是该控制算法的干扰模型是一个已知统计特性的随机模型,即高斯分布.由于本文采用的干扰为随机的且不知其统计特性的.因此,在研究CPS面临攻击行为情况下的安全性控制问题时,采用了博弈论方法.

博弈论是近年来最优控制领域的研究重点之一,随着最优控制研究方法的深入,推动了博弈论研究的新高潮.博弈论主要研究冲突模式,寻求冲突局势下的最优策略,通过对个体行为的预测并对实际行为进行分析把产生利益冲突现象的个体抽象为博弈模型,利用博弈理论分析问题建立优化策略模型,得到具有次优或最优效用值的博弈策略.博弈的类型分为:合作/非合作博弈、零和/非零和博弈、对称/非对称博弈、完全信息/不完全信息博弈[21]等.对于有利益冲突的双方,一方试图对系统进行干扰,另一方则尽力使干扰对系统的影响降到最小,则博弈论无疑是对其进行优化控制中最合适的工具.因此,博弈论在网络安全控制方面将会有更加广泛的应用.

本文将攻击者和防御系统看成是一个博弈过程,攻击者通过各种手段试图获取自己所需的信息资源或对系统造成直接的破坏,而防御系统则采取相应的防御策略试图最大程度地减小攻击行为带来的损害.在外部攻击者恶意干扰的情况中,系统输入与外部干扰可看成是两人的零和动态博弈,由于攻击者和防御系统的博弈是一个非合作博弈过程,本文假设攻击者的行为是随机的,且互相不知道对方的信息,因此为了设计鲁棒性强的输出反馈控制器,采用零和动态博弈的方法,该控制器设计被视为两个玩家间的动态博弈过程.控制器尽量使一个被给的有限域二次型函数最小,而干扰尽量使这个函数最大[22].

对于不完全信息状态,干扰是不可预测的,如何模型化误差信号将会是一个难点.因此在这里我们需要假设干扰ω是平方可积的,即ω是有限能量的[20].函数J是干扰的二次型函数,如何阻止随着干扰的增加,性能函数不断的增大,一个可行的控制方法就是控制它的增长率.给定一个正数γ,使得控制器满足下面不等式:

z是控制输出,将干扰和不确定的初始状态x0共同作为未知的外界干扰因子w.这个设计问题就转化为找到一个最小化下面性能函数的控制器.

用符号‖·‖表示欧几里得范数,可将该问题的解决转化为零和博弈的软约束博弈方法,则对于参数化有限域情况下性能函数如下:

其中,γ＞0是干扰抑制水平,Q0是适当维度的正定权重矩阵,x0是未知的系统初始状态值.需要找到一个γ值来满足零和博弈有解,即使得:

有解.该问题就变成相当于寻找“γ≥0”的最小值问题,目标函数所定义的零和动态博弈有相等的上界值和下界值,使得线性二次型动态博弈的鞍点解能直接应用于最差情况的设计问题上.动态博弈的性能指标由给出,也称为带干扰抑制的软约束博弈,“软约束”常被用来获取在博弈中对于没有硬性边界的这一特征[20].动态优化类型的问题就类似一个两人零和动态博弈,控制器U是最小化玩家(可称为玩家1)使目标函数最小,干扰W是最大化玩家(称作玩家2),使目标函数最大.

用M表示玩家1的策略空间,N表示玩家2的策略空间,以规范形式给定一个零和动态博弈{J:M,N},则策略对构成一个鞍点解,对于所有的(µ,ν)∈M×N,

J∗的值就是动态博弈的值.J∗的定义如下:

其中,和分别是上界值和下界值,满足不等式,当它们相等时的值就是博弈值J∗.

二次型目标函数要取得最小值,需满足严格凸的.因此,对于γ的求解,有如下定理:

定理1.由式(4)给出的二次型目标函数在状态方程(1)条件下,对于玩家1的每一个开环策略u满足严格凸的,当且仅当

其中,序列SK+1,k∈[1,K]由下列黎卡提方程求解:

因此,在有干扰衰减情况下,满足性能指标极值存在的所有γ值的下界表示为γ∗,此时相应的控制器为H∞控制器.当没有干扰衰减情况时,极小极大控制器相当于线性二次型高斯(LQG)控制器.

2 控制器设计

2.1 LQG跟踪系统控制器设计

对于随机系统的LQG控制器的设计,可以采用确定性系统LQ控制律的设计和Kalman状态最优估计的结合,组成LQG控制器,其控制模型[23]为

其中,Q0和Q1是非负定矩阵,Q2是正定矩阵.考虑控制器中加入积分作用,引进积分后的跟踪系统的结构如图2所示,其中

图2 LQG控制器结构图Fig.2 LQG controller structure diagram

最优反馈控制律L=[L1Li]的求取方法与LQ跟踪系统相同:

令系统增广状态为

则增广的系统状态方程为

可求得

估计器为Kalman滤波器.滤波器的反馈增益K为

2.2 有限域的极大极小控制器设计

对于有限域离散时间零和博弈,需要引入一个鞍点解存在的有效条件,考虑零和动态博弈有下列状态方程描述:

有限域的性能指标:

引入信息结构模型,将控制器收到的信息集合表示为:

在控制器中收到的测量值集合为

在控制器中可利用的信息集合为

在单个玩家的优化问题中,动态规划的方法提供了一个有效的方式来获取最优的鞍点解,通过以倒推的方式来解一个静态优化问题.对于动态博弈,由鲁弗斯·艾萨克斯在19世纪50年代早期通过连续时间域推广获得的离散时间版的类似方程—艾萨克斯方程,这样一个方程提供了鞍点解存在的有效条件.

控制器不能获取完全的状态信息,因此,采用最坏情况下的极大极小估计,根据确定性等价原则,将控制器设计分成两个部分:1)第一部分是设计一个观测器,能够估计最坏的状态,并与可利用的输入输出序列相匹配:2)第二部分是设计一个控制器,利用估计的状态产生新的控制输入.

基于文献[20]中的一些结论,来设计本文的极大极小控制器.设置时间延迟为τ,因此在时间k≥τ,只有k-τ之前的信息是可用的,也就是说测量信息集合.极大极小控制器的设计按照从初始时间到时间k-τ是没有延迟的,剩下的时间利用最差干扰状态下的估计,因此这时候是没有观测值可利用的.另外,我们引入参数αk,这里αk=1说明数据包在时间k被接收,αk=0说明没有收到数据包.用时刻k的值做时刻k+1的状态估计,表示为,为了描述更清晰,用状态估计方程为:

对于以上的状态估计方程有以下控制律:

其中

M(k)和Σ(k)是博弈代数黎卡提方程的解,M(k)=QK,.

另外,当αk=0时,

按照Tamer Basar在极大极小控制器设计的理论中,极小极大控制器存在的条件[20]为

1)方程(25)在[0,K]上有解;

2)方程(26)有解;

3)式(25)和(26)的解满足下列条件:

对于上面的条件,有任何一个不成立,则不存在这样的控制器,使得γ≥γ∗.

带积分状态控制的极大极小控制器结构如图3所示:

图3 极大极小控制器结构图Fig.3 Minimax controller structure diagram

2.3 时序攻击下的极大极小控制器设计

图4为几种数据传输故障及解决方法,取时间步为k=6,图中三种分别为有固定延迟、测量损失、和可变延迟的情况[20].固定延迟的值取τ=4,对于固定延迟的情况,只能收到前两步的数据,因此利用第二步的数据值,执行估计.在测量损失情况下,损失的数据由已经收到的数据包进行估计.在时变延迟下,数据包传递出现乱序,乱序出现在k=5时刻,此时收到的数据包是k=3时刻的值.对此需要设计一个补偿器来处理此类情况.

图4 数据传输示意图Fig.4 Schematic diagram of data transmission

对于时变延迟和乱序情况下的信息结构既包括固定延迟下的信息结构又包含损失情况下的信息结构,因此该类情况的控制策略如图5所示.

图5 可变延迟下的数据传输示意图Fig.5 A schematic diagram of data transmission under variable delay

在时间步k=3时,由于数据缺失(α3=0),估计器采用第二步的数据值进行估计;在k=5时,时间步k=3的数据收到,然后返回重新计算第三步的估计值.因此对于时变引起的数据包乱序,无论什么时候当延时数据包收到时,估计器就返回重新计算,直到所有的数据包都按照正确时序接收.

下面通过一个算法来描述极大极小控制器.首先引入变量κk,该变量表示在时间k所获得的所有数据包按照正确时序被接收的时间值.比如上述例子,在k={3,4},κk=2,变为κk=5对于k≥5.在每个时间间隔内收到的数据包数目表示为Npkts.设置缓冲区Θy,Θu和ΘΠ用来保存信息结构.

另外,用缓冲区Θx和ΘΣ来分别储存状态估计值.如果测量值在特定时间k没有被控制器收到,它就不会被包含在信息结构中,它的缓冲区的值就是空的.此外,我们用临时变量和作为在线值.该控制器的算法如下:

算法1.乱序数据包和时变延迟下的极大极小控制器

定义Npkts,Θy是基于区间[k-1,k]收到的数据包,初始κ=0.

3 基于双水箱模型的系统仿真

3.1 双水箱模型

基于无线网络传输的双水箱系统,包括水箱本体、供电设备,还有三个无线传感器节点,这三个传感器节点通过无线通信通道分别负责系统的传感,控制和执行.对于双水箱CPS的安全目标是保护物理实体的正常操作不受由于恶意攻击网络基础设施造成网络空间入侵带来的干扰.对于如图6所示的双水箱物理模型,双水箱液位的动力学方程[24]如下:

其中,g是重力加速度,L1、L2分别为水箱1、2的液位,A1、A2分别为水箱1、水箱2的横截面积.a1、a2分别为出水孔1、2的横截面面积.KP为泵的流量常数,VP为作用在泵上的电压.

接下来,定义一组变量集合:

可将动力学方程(30)重新写为：

图6 双水箱物理模型Fig.6 Physical model of double water tanks

最后,在△L1=0,△L2=0,u=0处,对式(31)进行线性化,可以得到双水箱系统的状态空间的形式,如下:

水箱设备参数如表1所示:

表1 水箱参数Table 1 Water tank equipment parameters

取L10=10cm,L20=10cm,d1=d2=0.48cm,D1=D2=4.45cm,g=980cm/s2,KP=3.3cm3/(V·s),则系统的状态空间方程为

采样时间T=2s,将系统离散化得:

对线性模型和非线性模型对比如图7所示.

图7 线性模型和非线性模型仿真对比图Fig.7 Comparison of linear and nonlinear models

由图7可看出非线性模型和线性模型的响应速度几乎一致,而线性模型响应相对较平缓.线性化后的模型在设定的平衡水位附近达到稳定,其他与非线性模型差别不大.因此线性化对系统的影响不大,可忽略不计,另线性化后模型可便于控制器设计.

考虑到外部干扰因素,比如对水箱数据传输网络的干扰,或由于外部震动原因导致压力传感器的数值失真等因素,在这里我们采用如式(1)所示的干扰模型.对于双水箱系统,主要设计目标是跟踪低位水箱的一个分段的常数参考输入值,系统模型由上文所述的双水箱连续系统模型获取,采样时间为2s.

参考输入值设置为8cm和10cm.另外在控制器中引入积分状态,为了实现参考输入的跟踪.积分状态控制器如下:

xc是控制器积分状态,Cc=[0 1],极小极大控制器用在新的增广系统上,状态为ξ(k)=,控制输入如下:

其中,Kξ和由式(22)和式(21)给出.下面设D=0.1[BBB000],E=0.1[0 0 0III]:另外,选择矩阵Q=QK=Q0=0.1I.

3.2 LQG控制仿真结果

对系统加入数据包时序攻击和未受攻击的系统进行仿真对比,如图8和图9所示,其中虚线为受攻击后的系统响应,实线为未受攻击的系统响应.

3.3 基于博弈论的极大极小控制器仿真结果

首先需先求得满足约束条件的衰减因子γ,对于可变延迟,设置最大延迟时长τ=4,本文采用粒子群搜索算法,求得γ∗=2.317,然后代入求得其他各参数.Kξ=[KuKc],由增广的状态估计方程求得.另外,K1=AΛ(k)CTN-1,K2=AΛ(k)γ-2Q.则没有受到攻击时的仿真结果如图10和图11所示.受到数据包时序攻击下的仿真结果如图12和图13所示.

通过仿真结果可看出,LQG控制在遭到攻击时,控制器已失去稳定控制,而本文所设计的极大极小控制器在遭到数据包时序攻击时,虽然有小幅度的波动,但最终仍实现了稳定,可明显说明所设计的控制器是可行的,并具有很好的控制性能.并且在系统稳定时,水箱的水位跟踪参考输入变化而变化,并在较短时间内达到稳定,对干扰也有较大程度的抑制.

图8 LQG控制输出图Fig.8 LQG control output diagram

图9 LQG控制的输入值Fig.9 Input value of LQG control

图10 极大极小控制器的输出图Fig.10 The output diagram of the min-max controller

图11 极大极小控制器的输入值Fig.11 The input value of the minimax controller

图12 受攻击下的极大极小控制器输出响应Fig.12 Output response of minimax controller under attack

图13 受攻击下的极大极小控制器输入值Fig.13 Input value of the min-max controller under attack

4 结论

随着传感、通信技术和控制理论的进一步综合发展,以及物联网研究和开发的成熟化,CPS将成为各国未来科技发展的一个研究热点[25].本文根据最优控制的理论,将信息物理系统的攻击防御模型作为二人零和动态博弈问题,设计了在网络控制系统中对数据包的时序攻击具有弹性的鲁棒输出反馈控制器.运用极大极小值原理并将其和黎卡提微分方程的解相结合给出了最优控制策略的控制律.并与随机系统的线性二次型最优控制即LQG控制器进行对比,结果显示本文所设计的极大极小控制器具有更好的控制效果.

受攻击下的信息物理融合系统的安全性问题,是系统决策者与网络攻击者之间的博弈与对抗,随着无线网络的普及及智能系统的发展,无线通讯网络与物理实体之间信息交互的安全性将显得尤为重要.如果在完全信息状态下,也就是攻击者能够获取受控系统信息的状态下,攻击将会有策略性.因此对于具有策略性的外部干扰和攻击,如何使受控系统不受影响或降低其带来的影响,也就是如何使系统具有更好的弹性控制或鲁棒控制性能将会是今后重点研究的方向和解决的问题.