无人机辅助物理层安全下的保密性能优化

2022-08-19谭蓉俊邓志祥

电子与信息学报 2022年8期

高远谭蓉俊邓志祥

(河海大学物联网工程学院南京 210098)

1 引言

随着5G，6G通信技术发展，促进物联网的应用越来越广泛，如车联网、智能医疗、智能家居、智能城市、工业4.0等，引发了新一轮产业、经济、社会发展浪潮。然而，由于物联网允许具有计算、通信和感知能力的事物之间无处不在的连接，不仅使节点对通信安全性能要求提升，也导致攻击者更容易发现攻击目标，发起各种被动和主动攻击[1]。因此，通信安全是影响物联网应用的关键因素之一，引起业界广泛关注。

为解决通信安全问题，在物联网中使用传统密钥加密技术时，由于物联网大规模分布式异构层次结构，增加了密钥分发和管理的开销，同时这些开销也增加了网络中低成本、低能耗设备的负担。物联网特性使得结合物理层安全的安全机制更适合物联网[2]。物理层安全借助无线通信信道的随机性、广播性，实现信息安全传输，无须加密和解密。因此，物理层安全可以作为传统密钥加密方法的额外保护机制，减少密钥分发和管理开销，为物联网通信提供更高效的保护。

随着5G和6G通信技术发展，物联网攻击者也会不断更新和增强自身能力。例如全双工技术可获得双倍信道容量，并减少反馈延时和端到端延迟；当窃听者工作于全双工模式时，可同时被动窃听和主动干扰[3，4]，即通过向合法接收机发射干扰信号，以降低合法用户信道容量，进而提高窃听性能。尽管被动窃听和主动干扰的同时实施，为通信安全带来更大威胁，但主动干扰信号为估计窃听者位置提供了新思路，窃听者位置估计有助于获得窃听信道容量。例如窃听者不是完全被动的，即偶尔主动发射信号，该信号被合法接收机收集可用于估计窃听者位置[5]。然而，窃听者为隐藏自己，主动发射的信号频次和强度都会有限，进而增加了对其位置估计的难度。为此，本文针对主动发射干扰信号的窃听者，利用辅助合法用户通信的中继节点作为锚点，结合贝叶斯测距和最小二乘法迭代的方法，估计窃听者位置信息，提高位置估计的准确性。

在获得窃听者位置的基础上，通过向窃听者发射人工噪声以降低窃听信道容量，是提升物理层安全性能的有效方法[6，7]。传统的人工噪声发射机固定部署在地面，无法适应物联网中设备的移动性，尤其在窃听设备位置发生变化时，无法实施有效干扰。近年来，无人机由于其部署灵活、可移动性强，易动态跟踪地面设备的移动，且空中与地面之间视距信道的存在，可形成比地面信号强度更强的干扰信号，因而可用作空中人工噪声发射机[8]。无人机作为人工噪声发射机，为保证对窃听信道干扰效果、获得最大保密容量，需优化飞行轨迹以找到发射人工噪声的最佳位置。无人机轨迹优化通常为非凸问题，可将其近似转换为凸问题，借助凸优化工具求解[9]；或借助块坐标下降迭代算法求解次优解[10]。近年来，机器学习在解决无线通信网络优化问题中取得显著进步。作为机器学习算法之一的强化学习，因其动态决策特性，在无人机辅助的无线通信场景下，实现了无人机部署、轨迹规划和资源分配的优化[11，12]。类似地，在无人机辅助物理层安全通信中，如文献[13]借助深度强化学习算法，优化了作为干扰发射机的无人机飞行轨迹，保证了保密速率最大。此外，在进行无人机轨迹优化时，无人机能量也是不容忽视的约束条件。由于尺寸和重量受限，无人机机载能量有限；而机载能量大部分消耗在产生飞机前行的动力上[12]，这意味着采用强化学习算法如Q-learning对飞行轨迹优化过程中，无人机为找到最优位置而执行多次位置移动，消耗的能量不可忽略。

综上，针对物联网中带有主动攻击的全双工窃听者，本文利用无人机辅助发射人工噪声，提升系统物理层安全性能。同时，本文在估计窃听者位置的基础上，提出基于Q-learning的无人机轨迹优化算法，获得最大系统保密容量。此外，为探究轨迹优化中无人机能量消耗因素的影响，在约束轨迹优化能耗的同时，分析了无人机离线和在线学习下的能耗与系统保密性能。

2 系统模型

2.1 系统描述

假设在某个大规模集体活动场景中，如体育赛事或演唱会，如图1所示，远程基站发射机(Alice)与活动现场内合法接收机(Bob)之间没有直接链路，需借助K个中继R={R1，R2，...，RK}进行通信，Alice、中继、Bob之间通信链路称为主信道。K个中继和Bob工作于半双工模式，均配置单根天线；现场内窃听者Eve工作于全双工模式，配置两根天线包括同时同频工作的发射天线和接收天线，具有向主信道发射干扰信号和窃听主信道信息功能，Eve能根据需要移动位置，以保证最佳干扰或窃听性能。Eve位置移动采用随机游走模型[14]，也称为马尔科夫移动模型，该模型多用于描述一般性随机移动；Eve移动方向服从均匀分布，分别为前、后、左、右；移动速度范围为[ 0，cmax]，其中cmax为最大移动速度。为避免因Eve连续移动而远离Bob失去窃听意义，限定Eve移动范围在Bob为圆心的圆环内，圆环半径限定在[l1，l2]。空中部署发射机(Jammer，即无人机)发射人工噪声干扰Alice到Eve的窃听信道，以降低窃听信道容量。

图1 系统模型

2.2 信号模型

系统工作过程分两个阶段。第1阶段，利用Eve发射的主动干扰信号，并借助K个中继充当位置估计锚点估计Eve位置；第2阶段，根据Eve位置估计信息，Jammer进行动态轨迹优化，跟踪Eve以找到最佳干扰位置，达到系统保密容量最大。Eve位置估计和Jammer轨迹优化方法，在第4节详述。在第2阶段，中继分两个子阶段辅助Alice到Bob通信。第1子阶段Alice广播信号xs给K个中继，同时Eve以功率PE发射干扰信号xv， Jammer以功率PJ发射人工噪声信号xAN，则第l个中继Rℓ接收信号为

将式(5)、式(6)、式(11)代入式(14)可知，可达安全速率受Jammer与地面节点间功率增益影响。由式(2)和式(3)可知，Jammer与地面节点间功率增益与视距概率相关；而随着Jammer与地面节点间距离增加，路径损耗增大，使得视距概率增加，进而影响可达安全速率。为此，接下来将研究如何优化Jammer飞行轨迹，以获得其最佳位置保证可达安全速率最大。

3 系统保密性能优化问题建模

系统保密性能的优化目标是通过优化无人机(即Jammer)空间位置，获得对Eve的最佳干扰，进而使系统可达安全速率最大。实现此优化目标需要满足的约束条件是无人机在指定区域内飞行，且剩余能量保证其能安全返航充电。上述优化问题数学表达为

根据文献[17]附录推导可知，式(15)为非凸优化问题，求解困难；应用Q-learning强化学习算法，无需环境状态转移模型，可以有效解决无人机轨迹优化问题。因此，接下来设计Q-learning算法求解式(15)。

4 保密性能优化问题求解

5 仿真结果与性能分析

本节通过数值结果分析基于Q-learning的无人机轨迹优化算法性能。假设Alice，Bob，Eve以及15个中继随机独立分布在地理位置为1× 1 km的城市环境中，Eve按照随机游走模型移动。仿真参数设置为：载波频率fc=2 GHz，环境因数常数分别为φ=11.95，β=0.14 ，地面路径损耗系数∂1=3，自由空间路径损耗系数∂2=2，视距和非视距信道衰减因子分别为ηJLP=3，ηJNPL=23，Eve发射功率PE=5 dBm ，无人机发射功率PJ=10 dBm，接收机噪声功率σB2=-170 dBm，σE2=-175 dBm，学习率α=0.001 ，折扣因子γ=0.7 ，ε-greedy 策略ε=10-4，无人机飞行速度为每秒15 m，各信道增益均值分别设置为gARℓ=30，gRℓB=30，gEB=10，gRℓE=20，gEE=2，gERℓ=10，gAE=10。

首先分析算法的收敛性。图2(a)和图2(b)分别是在无人机不同初始位置和移动步长下，回合奖励总值与训练回合数之间的关系。可见，随着训练回合数增加，每回合得到的奖励值由初始的振荡，逐渐增加至稳定，表明无人机能够从错误中吸取教训，提高总奖励值，实现算法收敛。由图2(a)可见，无人机初始位置不同时，算法收敛速度不同，但均在约600回合后收敛，说明算法收敛性不受无人机初始位置影响；4个初始位置中，距离最优位置(170， 200， 700)最近的初始位置4，算法收敛最快，距离增大后会降低收敛速度，说明算法能够学到有利于求解的环境条件，帮助无人机尽快找到最优解。由图2(b)可见，无人机在每次训练中移动步长越大，算法收敛越快；当无人机移动步长为7时，约50个回合后收敛，比移动步长为1时少了250回合；当无人机增大移动步长时，收敛所得回合奖励总值降低，相应的最优位置解准确性降低，这说明通过增大移动步长加快算法收敛速度时，还应考虑对最优解准确性的影响，二者需要均衡。

其次，比较基于Q-learning的无人机轨迹优化算法和穷搜、遗传算法、随机部署的性能。穷搜算法指在无人机飞行范围内逐一枚举坐标位置搜索最优解；遗传算法是一种模拟自然进化的优化算法；随机部署算法是在可行解范围内随机给定无人机位置作为解。图3(a)为窃听者位置固定，无人机飞行范围为xJ∈[300，350]，yJ∈[300，350]，h ∈[450，500]时，不同算法得到的Alice发射功率与可达安全速率Cs之间的关系，可见，随着Alice发射功率增加，可达安全速率增大，这是由于当增大Alice发射功率时，虽然同时改善主信道和窃听信道容量，但由于无人机发射人工噪声对窃听信道干扰，更多地降低了窃听信道容量，进而保证了主信道容量优于窃听信道；另外，与遗传算法和随机部署相比，Q-learning算法与穷搜得到的最优解重合，表明Q-learning算法的解是最优解。图3(b)比较了穷搜和Q-learning算法在窃听者位置固定、无人机在不同飞行区域中获得最优位置所耗时间。飞行区域1，2，3空间大小依次递增，分别为xJ1∈[300，350]，yJ1∈[300，350] ，h1∈[450，500] ;xJ2∈[300，350]，yJ2∈[300，350] ，h2∈[450，550] ;xJ3∈[300，400]，yJ3∈[300，400]，h3∈[450，500]；消耗时间为无人机飞到初始位置、无人机学习寻找最优位置、无人机从当前位置飞到最优位置耗时总和。从图3(b)可见，无论飞行区域是否相同，Q-learning算法耗时都比穷搜短；随着飞行区域增大，穷搜算法耗时成倍增加，Q-learning算法增加不足2倍，使得两者耗时差异明显增大，说明Q-learning算法时间复杂度低于穷搜，尤其在大范围内搜索最优解时，Q-learning算法优势更为明显。

图3 基于Q-learning的无人机轨迹优化算法和其他算法性能比较

表1 基于Q-learning的无人机动态轨迹优化算法

再次，分析无人机优化飞行轨迹跟踪Eve位置移动的情况。图4(a)–图4(c)描述Eve(位置坐标(300， 230))静止时无人机不同初始位置下获得最优位置的飞行轨迹，其中圆点代表无人机位置，圆点旁边的数字对应可达安全速率Cs；可见，无人机始终朝着Cs增大的方向飞行，表明无人机能够学得最优轨迹，这一点也验证了图2(a)和图2(b)所述Qlearning算法收敛的结论。图4(d)描述了Eve移动时无人机轨迹优化结果，图中代表无人机位置的圆点颜色与代表Eve的圆点颜色相同时，表示Eve当前位置下对应的无人机最优位置；不同颜色圆点间箭头分别表示Eve移动方向和跟踪Eve的无人机最优位置移动方向；综合图4(a)–图4(d)可见，无人机能够跟踪Eve移动来确定自身最佳位置，进而保证对应每个Eve位置可达安全速率都最大。

图2 回合奖励总值与训练回合数之间关系

图4 Eve静止和移动时无人机轨迹优化结果

最后，比较本文基于Q-learning的无人机轨迹优化算法采用离线和在线学习两种方式时的性能。在线学习指无人机实时获取位置信息和环境反馈的奖励值，并实时改变位置直至飞到最优位置；离线学习过程与文献[19]类似，即无人机悬浮于空中，通过计算获得最优位置，然后直接飞行至最优位置。无人机能耗包括从起飞点飞至空中初始位置的能耗、最优位置解获得过程的能耗、从当前位置飞到最优位置的能耗。图5描述离线和在线学习在无人机初始能量EJ_initial不同时的性能。图5(a)假设EJ_initial始终大于无人机能耗时，离线和在线学习能耗与飞行区域大小之间的关系。可见，随着飞行区域1， 2， 3范围依次递增，离线与在线学习的能耗都增大，而离线学习能耗增加速度远小于在线学习；在同一飞行区域，离线学习也比在线学习能耗小。以上现象说明无人机在空中悬浮完成离线学习比实时与环境交互执行飞行动作的在线学习消耗更少能量。图5(b)比较了EJ_initial不同时，离线和在线学习所得可达安全速率与Alice发射功率之间的关系，其中EJ_initial=660时，该能量数小于学到最优位置解的能耗数，此时无人机在未学到最优解情况下，飞回地面起始点充电；EJ_initial=1500时，该能量数大于离线学习下学到最优位置解的能耗数，但小于在线学习下的能耗数。从图5(b)可见，无论是离线还是在线学习，EJ_initial=1500时获得的可达安全速率比EJ_initial=660时大，说明初始能量大有利于提升系统保密性能；而且EJ_initial=1500时离线学习的可达安全速率最大，这是因为此能量数可以保证离线学习学得最优解。此外，无论EJ_initial为600还是1500，离线比在线学习的可达安全速率更大；结合图5(a)离线比在线学习能耗小，这表明离线比在线学习在能耗和保密性能上都更有优势；但同时也要看到，本文数据是在数值仿真环境中获得的；在真实环境中，无人机离线计算所得的环境状态数据会与环境反馈的真实值之间存在差异，从而影响最终学得的最优解以及可达安全速率值。因此，选择Q-learning离线或在线学习模式时，需要从能量消耗和系统保密性能两方面折衷考虑。

图5 离线和在线学习在无人机初始能量不同时的性能比较

图6描述了Eve位置移动时长T对本文所提算法求解的影响。由图6可见，在Alice发射功率一定时，随着T增加，算法所得最大可达安全速率增加。这是由于时间T越大，算法学习的时间越长，越可能学得最优解；而在T=50 s时，算法所得最大可达安全速率减小。因此，在窃听者短时间位置移动时，如何缩短算法优化时间以保证系统保密性能，是算法性能提升的方向，也是本文未来工作需要解决的问题。

图6 Eve位置移动时长对本文所提算法求解的影响

6 结束语

本文针对物联网中主动攻击的全双工窃听者，利用无人机部署灵活、与地面通信具有视距信道的优势，辅助发射人工噪声，提升系统物理层安全性能。在估计窃听者位置基础上，提出基于Q-learning的无人机轨迹优化算法，跟踪窃听者移动，实现系统保密性能最优。仿真结果表明，本文所提优化算法能快速收敛，当无人机初始位置离最优位置近、移动步长大时，收敛速度提高；与穷搜、遗传算法、随机部署等相比，本文所提算法获得了最优解，并耗时最短；无人机能够跟踪窃听者移动来确定自身最佳位置，对窃听信道实施干扰，从而保证系统可达安全速率最大。未来工作中，将考虑在更符合实际的多用户场景下，存在多个合法接收者和窃听者时，无人机的部署和轨迹、功率优化问题。