基于MDP的Massive MIMO物理层安全算法

2018-11-30侯梦茹张昕然王庆瑞

计算机应用与软件 2018年11期

蒋华侯梦茹张昕然王庆瑞

1(北京电子科技学院通信工程系北京 100070)2(西安电子科技大学通信工程学院陕西西安 710071)

0 引言

随着智能终端的普及，人们越来越依赖无线网络进行重要信息的传输。与通过密码技术保护数据安全的传统方法相比，通信系统的物理层安全通过利用通信介质的缺陷来提供安全的无线传输，不仅不依赖于计算复杂性，同时具有很高的可扩展性，为信息的保密传输提供了巨大优势[1-2]。作为最常用的物理层安全技术，MIMO技术可以在一个或多个非法用户存在的情况下支持高速率的安全通信[3]。近年提出的大规模多天线阵列MIMO技术可以在不增加带宽或提高发射功率的情况下显著提高数据吞吐量和链路可靠性，因此成为5G移动通信系统的关键技术之一[4-5]。

在Massive MIMO系统中，在发射机上使用非常大的天线阵列(通常为数十甚至数百个)接收器，数百个天线同时服务于数十个用户。理论和测量结果表明，大规模MIMO技术可以通过利用低复杂度传输设计提供的大阵列增益来提供高功率和能源效率。此外，当大量天线部署在基站时，可以降低随机损伤(如小规模衰落和噪声)的干扰[6-7]。由于MIMO技术只能辐射天线阵固定下倾角水平方向的波束，为了更好地利用信号传播的垂直角度分辨率，将MIMO的辐射信号控制在3D空间中，采用矩形、球形或圆柱形的天线阵列配置，被称为3D MIMO技术。第三代合作伙伴计划(3GPP)指出，具有大量天线的3D MIMO可被看作是Massive MIMO的实际形式之一[5]。

对于通信系统而言，信道容量上限代表了用户可达的最大速率。文献[8]提出了窃听信道三端口网络的加密容量的概念。窃听者通过其自己的通道收听传输信号不能解码消息的情况下，能够以严格正确的速率可靠地进行通信。即在加密容量存在的情况下，一定存在一种编码方式使得非法用户的信道容量为零。同时研究表明，随着天线阵列规模的增加，信道容量将和天线数呈线性增长的关系。因此对MIMO信道的物理层保密问题引起了研究学者的广泛兴趣[9]。

马尔可夫决策过程(MDP)模型是在不确定情况下进行顺序决策、考虑当前决策的结果和未来的决策机会的数学方法[10]。在近几年关于Massive MIMO技术的文献中，经常使用MDP模型作为优化工具，在多小区Massive MIMO系统中实现全局最优。例如使用MDP模型处理Massive MIMO通信系统的资源分配问题[11]。在文献[12]中，采用SMDP(semi-Markov decision process)方法，提出了一种资源分配方案，以实现OFDMA(orthogonal frequency division multiple Access)多小区协作网络中保证通信质量业务的最优功率效率。Massive MIMO系统中的功率和速率分配问题在文献[13]中被建模为CMDP(constrained Markov decision process)，其优化目标是受延迟约束的最小化发射功率。下行链路OFDMA系统的功率和子载波分配问题在文献[14]中被建模为CMDP，优化目标是在平均延迟约束下的最大化能量效率。当模型参数不可知时，强化学习算法被经常用来求解MDP模型。它是从控制理论、统计学、心理学等相关学科发展而来，具有自学习和在线学习的优点[15]。MDP模型的最优策略可以用值迭代和动态规划算法确定。值迭代算法的优势在于其在实现上的简易性，可以用来进一步研究分析得到的最优策略的结构。

本文从物理层角度提出了基于MDP模型的Massive MIMO系统安全传输技术。利用互阻抗模型建立了Massive MIMO系统下行链路的信道模型。建立了基于平均无折扣回报的MDP模型，利用有限状态马氏信道FSMC的区间转移概率模型[16]，给出了MDP的转移概率表达式，并提出了基于值迭代的动态规划算法，计算了全局最优的系统加密容量。通过仿真对算法性能进行了验证，给出了仿真结果，并对结果进行了分析。仿真结果给出了基站发射信号功率对信道物理层加密容量的影响并评估了算法的性能。

1 系统模型

如图1所示，系统模型是多小区Massive MIMO系统的下行链路模型，此小区包括K个移动用户，每个小区的基站装载NT根天线，每个用户有NR根接收天线。考虑小区中使用相同时频资源的一个合法用户和一个窃听用户，则系统的物理场景简化模型如图2所示。

图1 多小区Massive MIMO系统模型

图2 系统下行链路简化模型

系统模型为：

yk,t=Htx+nt

(1)

yk,e=Hex+ne

(2)

式中：x∈NT×1表示基站端的发射信号，yk,t∈NR×1和yk,e∈NR×1分别表示第k个小区的合法用户和非法用户接收到的信号和为服从独立高斯分布，具有零均值和单位方差的加性高斯白噪声。H={hk}为信道传输矩阵。在Massive MIMO信道场景下，应使用互阻抗模型对信道进行建模[5]。因此，第k个小区的传输信道为:

(3)

式中：hk∈NR×NT。

(4)

gk=[ZRkvk]T

(5)

ZP=(AZ+LZ)(Ψ+LZI)-1

(6)

(7)

式中：AZ、LZ、MZ分别表示天线的阻抗、负载阻抗和互耦阻抗。矩阵γk∈NT×NR，满足：

(8)

(9)

2 基于MDP的值迭代算法

2.1 MDP建模

为了模拟系统的物理层时变特性，建立有限状态马尔科夫信道(FSMC)模型来描述信道的时变行为。把下行链路增益量化为许多区间，第j个区间φj对应一个链路增益范围：φj={φ:χj≤φ≤χj+1}，χj为区间边界，信道被量化为FSMC模型。为上述Massive MIMO系统建立马尔科夫决策过程(MDP)模型，模型的组成部分包括，各项分别代表状态、动作、状态转移函数、回报函数，各项表述为：

(2) 动作a：动作用来控制系统的状态。at表示t时刻下MDP模型的动作，它代表基站的发射功率。马尔科夫决策过程在t时刻所有可行的行为构成一个行为集，即行为空间At，At={a1,a2,…,aNT}。

(3) 状态转移函数p：在离散的时刻t，对状态st采取动作at，状态转移至下一状态st+1，其转移通过状态转移函数得到。文献[16]指出，假定在时间间隔T内φ值保持在同一个区间内，在这个时间间隔结束时，可能继续停留在本区间内或者转移到相邻的链路增益区间。定义状态增量函数δ(·)用来表示相邻状态的变化量，则区间之间的转移概率为：

(10)

式中：Lj是χj处的电平通过率，即单位时间内信号包络向下穿过电平χj的平均次数，满足:

(11)

式中：fm是多普勒频率；ρ为基站发送端信噪比的期望。

ρ=E{SNRt}

(12)

(13)

式中：Rt代表单位时间内信号传输速率；κj代表当前状态下的稳态概率，满足:

(14)

(4) 回报函数c：在与环境的交互过程中，在离散的时隙t，对状态st采取动作at，状态转移至下一状态st+1，产生回报。在此Massive MIMO系统中，以系统物理层的加密容量作为MDP模型的回报函数。由于Massive MIMO的物理层安全优势，可获得加密容量的表达式，从而无需使用任何正式的加密系统，该速率就可以可靠而安全地传输[17]。因此，三端口网络窃听系统中的加密容量为:

(15)

式中：Rxx=E{xxH}，是发送信号的自相关矩阵。

(5) 策略π：给定一个MDP模型，马尔科夫策略就是在某一状态下，决策者所采取的动作或者所采取的动作的概率。而在有限MDP中，一定至少存在一个策略π，使得任意状态st∈S下，值函数Jπ(st)≥Jπ′(st)，被称为最优策略π*。简单来说，解决一项强化学习任务的本质是寻找到最优策略。

2.2 基于值迭代的动态规划算法

强化学习算法是以评估价值函数为基础，通过价值函数将MDP的最优标准与策略联系起来。动态规划算法是在已知MDP模型的基础上,首先计算状态值函数，然后利用模型，计算出该状态下的最优动作，寻找出最优化策略。为了计算系统最大化加密容量，采用值迭法算法，从初始状态价值开始反复迭代计算，最终收敛至全局最优价值函数J*，从而达到系统模型的最优结果。

(16)

根据贝尔曼方程，满足值迭代算法，最优值函数满足的迭代形式如下：

(17)

式中：l为迭代步数。对于每个状态s,迭代地更新每一个状态动作对应的值，得到下一值函数Jl+1(s,a)。直到Jl+1(s,a)达到最优，满足：

(18)

具体算法见算法1。

算法1基于MDP模型的物理层安全算法

步骤1 输入转移概率P(s′|s,a)和奖赏函数R(s,a)

步骤2 初始化参数：令J0(s,a)=0，temp=Jl(s,a)

步骤3 for 每个迭代步l={0,1,2,…}

Jl(s,a)←Jl+1(s,a)

until

|Jl(s,a)-temp|<ε,ε为足够小量

3 仿真与分析

图3描述了基站发射信号对信道容量的影响，可以看出，随着发射端信噪比的增大，加密容量会增大。当最大发送信噪比大于某个门限信噪比时，策略的性能增长趋势减缓并趋于恒定，因此当发射功率较大时，即使再增加发射功率，也不能进一步提高系统加密容量。同时，窃听用户和信道噪声功率会影响加密容量，窃听用户接收信噪比增大，加密容量会减小；信道噪声功率增大，加密容量减小。因此通信环境需要警惕干扰信号，需要尽量减小干扰信号对加密容量的削弱作用，比如非法窃听用户的接收信号和信道噪声功率的负面影响，从而保证高质量的通信。

由图4可以看出，随着窃听非法用户接收端信噪比增大，加密容量会下降。非法用户小规模的窃听对加密容量的影响不大，当窃听用户窃听信号过大时，信道性能急剧恶化，因此通信传输过程中，减少非法用户的窃听是保证通信质量的基础。同时，图4体现出信道本身的衰减对加密容量也有影响。同等前提条件下，合法用户信道噪声功率的增加会削弱加密容量。

图4 窃听用户接收端信噪比对信道容量的影响

表1是MDP模型的策略表，是一个输出动作标号的序列。它描述了算法在不同状态下寻找到的最优策略，即基站在每一状态下选择的行为以确保模型中的加密容量最大。具体来说，就是在此算法下，基站可以根据不同的信道增益状态选择发射功率，使系统模型获得最大的加密容量。

表1 策略π

4 结语

本文基于MDP模型研究了Massive MIMO系统的物理层安全算法。通过对Massive MIMO下行链路模型进行MDP建模，利用值迭代算法求解MDP模型，计算出系统最大化加密容量。根据算法模型，基站可以在不同信道增益下控制发射功率，求解出保证物理层加密容量的全局最优策略。分析结果说明了基站发射信号功率对三端口网络信道物理层加密容量的影响，即系统的加密容量会随着基站发射功率的增大而增大，随着非法窃听用户的接收信噪比的增大而减小，证明了算法的正确性和有效性。进一步说明强化学习的相关算法可以解决通信系统中相关的控制问题，为今后的研究奠定了理论和应用基础。