基于通感一体化技术的自适应调制方案

2023-02-09李本翔向路平

无线电通信技术 2023年1期

李本翔，向路平，胡杰，杨鲲

(电子科技大学信息与通信工程学院，四川成都 611731)

0 引言

随着无线通信技术的发展，联网设备的数量急剧增加，产生了许多新的通信场景和需求[1-2]，例如车联网(Vehicle-to-Everything，V2X)、物联网(Internet of Things，IoT)等。未来6G承载多种智能应用的V2X系统不仅对通信性能有着较高的要求[3]，还要完成一定的感知任务。然而，随着通信系统的载波频段不断提升，已经和雷达感知的频段相近，这会对雷达感知造成干扰，同时雷达也会影响通信性能。而通感一体化技术(Integrated Sensing and Communication，ISAC)是解决这一问题的关键，并且如今对于V2X系统中ISAC技术的研究已经获得了学术界和工业界的广泛关注[4]。

传统的通信和雷达系统使用不同的正交频带并进行独立设计[5]。然而随着大规模天线技术发展和毫米波技术的应用，通信和雷达系统的性能都得到了大幅提升，并且可以共用一些硬件设备和频谱资源，例如大规模天线雷达和大规模天线通信[6]。此外，在载波频率达到毫米波频段时，雷达系统与通信系统的信道特性和信号处理方法十分相似[7]。正是由于这些相似性，具有感知和雷达集成增益的ISAC被认为是一种很有前景的技术。例如，在基于ISAC的V2X网络中，路边单元(Roadside Unit, RSU)通过利用从车辆上反射的ISAC回波信号来预测车辆的位置，从而提供更好的通信服务[8]。

发射机可以通过多种方式利用回波中的隐藏信息提高通信性能，包括自适应调制(Adaptive Modulation，AM)、波束成形和自适应编码等。众所周知，AM是一种基于信道估计来实现最优容量的简单且有效的方法[9]。通常，发射机从上行导频信号中获取信道信息，并根据误码率(Bit Error Rate，BER)选择调制方案来提升通信性能。例如，文献[10]提出了一种自适应编码和调制(Adaptive Coding and Modulation，ACM)技术，该技术根据来自上行导频反馈的飞机之间的距离信息确定调制和编码方式。同时，文献[11]使用深度强化学习(Deep Reinforcement Learning，DRL)根据导频反馈的历史信道状态信息(Channel State Information，CSI)预测调制模式。然而，在ISAC系统中，发射机可以直接从雷达回波信号中获得信道信息，无需导频交互的过程。

如何根据反射的回波做出决策对ISAC系统来说是一个重要的挑战。通常，这个过程被分为两个步骤：① 从回波中估计反射体的位置和速度信息并由此估计信道状态；② 提升各种通信技术[5,12-15]。文献[12]使用匹配滤波估计用户的位置和速度，实时调整车辆的波束宽度，以此来覆盖整个车辆。同样，在匹配滤波之后，也可以利用扩展卡尔曼滤波(Extended Kalman Filter，EKF)[13]、因子图[14]等方法实现波束预测。此外，数据驱动技术也与ISAC系统相结合用来适应复杂的时变环境[15]，例如文献[5]根据估计的信道状态信息采用深度神经网络(Deep Neural Networks ，DNNs)进行波束预测。这些研究已经证明了ISAC系统的优越性。然而，ISAC系统中自适应调制方案的设计还存在空缺，因此本文主要考虑基于ISAC系统AM的实现，并与传统通信进行比较。

本文提出了一种ISAC系统传输协议，能够基于回波预测下一个时刻的调制模式。相比于传统通信减少了导频开销，提升了信道容量，并且减少了信道预测过程带来的计算资源消耗。为了实现所提出的框架，采用DRL算法来实现AM，根据车辆距离预测下一时刻的调制模式，在保证满足误码率约束同时，最大化通信容量。具体来说，RSU从回波中提取车辆的距离信息，并且将历史距离作为DRL状态输入，下一时刻调制模式作为DRL动作输出。

1 系统建模

如图1所示，本文考虑了V2X场景下基于ISAC的多输入多输出(Multiple-input Multiple-output，MIMO)系统，一个配备了两组均匀线性阵列天线(Uniform Linear Array，ULA)RSU为一辆车提供服务。其中，RSU包含Nt根发射天线和Nr根接收天线。通过多天线，RSU能够向车辆发射下行ISAC信号并接收反射回波。

图1 基于ISAC的系统通信模型

1.1 传输协议

如图2(a)所示，RSU与车辆之间的传输数据流被划分为不同的时隙。在传统通信中的AM策略依赖于车辆的上行导频来获得CSI从而做出决策[10-11]，而在车辆高速移动的V2X网络下，信道状态时刻变化，频繁的导频交互会导致通信资源的浪费，也会导致信道估计的滞后。

ISAC辅助的传输协议可以有效地解决这个问题。如图2(b)所示，在本文提出的基于ISAC的传输协议中，发射机连续发送ISAC信号用于下行通信和感知。具体来说，ISAC系统将每个时隙分为两个阶段：① 信号传输和回波接收；② 信号处理。例如，在第一阶段，RSU根据上个时隙预测的调制模式传输ISAC信号并接收回波信号。在第二阶段，RSU首先从回波信号中提取车辆的距离信息，然后根据距离直接预测下一个时隙的调制模式。因此，由于舍去了上下行导频信号，ISAC系统下的AM相比于传统通信能较大程度的提升系统容量，并且省去了信道预测的过程，一定程度上减少了计算资源的消耗。

(a) 传统AM

1.2 感知模型

在车辆运动过程中，RSU可以使用ISAC信号感知车辆的位置。假设t时刻RSU传输给车辆的信息为s(t)，所以RSU发送的下行信号表示为：

(1)

RSU通过天线接收车辆反射的ISAC回波。因为光速足够快，本文假设车辆的位置在一个传输时隙中保持不变。所以反射的回波可以表示为：

(2)

RSU在接收到车辆反射回波后，采用匹配滤波的方法获得信号的时延和多普勒频移，由此估计车辆的距离和速度。匹配滤波如下所示：

(3)

式中，ΔTe表示 ISAC回波信号的持续时间。根据时延τn和多普勒频移υn，车辆的距离dn和速度μn可以表示为：

(4)

(5)

式中，fc为载波频率。

1.3 通信模型

装有单天线的车辆在t时刻接收到由RSU发送的下行信息可以表示为：

(6)

(7)

(8)

基于式(6)和式(8)，车辆接收信号的SNR可以表示为：

(9)

假设RSU使用多进制正交幅度调制(Multiple Quadrature Amplitude Modulation，MQAM)，并且每个调制符号被传输的概率都一样。根据文献[18], 传输系统容量C*可以被上界和下界约束为:

Clow≤C*≤Cupper,

(10)

式中，上下边界Clow和Cupper可以表示为：

(11)

式中，M表示RSU选择的调制方式，χ表示调制星座点的集合，其中，xi和xj表示在集合中的任何一对调制符号。并且根据文献[18]，Clow和Cupper是渐进紧的。因此，使用Cupper作为C去衡量系统的最大容量，可以描述为[19]：

(12)

此外，假设每个星座点的最近邻数量均为4，则误码率可以表示为[20]：

(13)

式中，函数F(x)表示如下:

(14)

在式(12)～(13)的基础上，可以建立一个优化问题，在保证误码率满足要求的同时提高通信速率：

(15)

s.t.ρ≤ρ0，

(16)

式中，ρ0为给定瞬时误码率上界。

2 DRL算法设计

本节基于文献[21]提出了一种基于DRL的AM算法，DRL 智能体会根据状态选择具体的调制模式，这个过程可以被建模为一个马尔可夫决策过程(Markov Decision Process，MDP)。由于车辆在V2X网络中的状态不断变化，基本的RL算法的Q表不能管理无限连续的状态空间，而DRL使用DNN建立Q表，然后通过更新DNN的权重来更新Q表[22]，可以较好地适应大规模动态环境[23]。如图3所示，本文采用经验重放和固定目标网络策略来加速训练过程[24]。

图3 DRL结构

(17)

(18)

基于所提出的ISAC传输协议，DRL网络的输入为汽车当前距离dt和前k个时刻的距离{dt-1,dt-2,…,dt-k}，输出为预测的下一个时隙调制模式。因此，对DRL的状态空间、动作空间、即时奖励定义如下。

状态空间即所有可能的状态集合。具体时刻t的状态由(k+1)个车辆距RSU的距离组成。可以描述为：

st={dt,dt-1,…,dt-k}。

(19)

动作空间包括所有可能选择的调制模式，如下所示：

A={M1,M2,…,MP},

(20)

在时隙j选择的动作aj∈A。

即时奖励为了在保证最佳的通信速率和质量，即时奖励被设计为：

(21)

式中，Ct+1和ρt+1可分别用式(12)～(13)计算。ρ0为最大瞬时误码率。该算法在约束ρt+1<ρ0下使Ct+1最大化，来实现下一时隙调制模式的预测，并由此解决式(15)～(16)中描述的优化问题。DRL具体实现如算法1所示。

算法1 DRL算法输入:存储空间O,奖励衰减γ,学习速率l,样本数量B,初始化:分别用随机权值θ+和θ-初始化Q网络和目标Q^网络1. forepisode=1, E do2. 初始化状态s13. fori= 1, I do4.根据贪婪因子随机选择动作为随机值或者最大Q值对应动作,即ai=argmaxaQ(si,a;θ+)5.执行动作ai,得到奖励ri和下一个状态si+16.将(si,ai,ri,si+1)存储到O7.随机在存储空间采样B个元组(sj,aj,rj,sj+1)8.计算ytarget j=rj+γmaxa'Q^(sj+1,a';θ-),并跟据预测误差对Q网络的权值θ+进行梯度下降更新,预测误差计算如式(17)9.每隔J步更新目标网络Q^=Q10. end for 11.end for

3 仿真结果

本节利用一些数值结果来评估所提算法的有效性。在所考虑的V2X系统中，N0=N1=-50 dBm。使用笛卡尔坐标系来表示RSU与车辆之间的空间关系，RSU定义在[0 m, 0 m]，车辆坐标为[X,Y]。为不失一般性，设置Y为30 m。此外，假设车辆的初始速度μ0为23 m/s，车辆从道路左边界[-150 m, 30 m]驶向右边界[150 m, 30 m]，加速度设置为a～N(0, 5 m/s2)。此外，假定发射机支持6种调制模式：0、4QAM、8QAM、16QAM、32QAM、64QAM，模式0意味着发射机继续传输4QAM信号仅进行感知。并且将输入的距离信息进行归一化处理，设k=5。其他仿真参数见表1。

表1 仿真参数

本文使用如下基线来评价系统的性能：

传统导频训练考虑文献[9]中使用的传统通信方案，它从导频交互中得到过时的CSI。本文直接使用此时刻ht作为下一时刻ht+1来选择调制模式，其中导频开销假定为8%[25]。

理想模式根据完美CSI选择给定瞬时BER约束下最优调制模式。

DRL算法它建立在本文提出的考虑历史距离的ISAC系统上。DRL中的DNN由一个包含(k+1)个神经元的输入层，3个分别包含200、100和40个神经元的全连接隐藏层和一个包含6个神经元的输出层组成。此外，对DRL的一些参数进行设置，例如存储大小O、奖励衰减γ、学习速率l，样本数量B，更新间隔J分别设置为5 000、0.2、0.005、256、100，并且训练迭代次数E×I=1 000×1 000 。

自回归(Auto Regressive，AR) 本文采用基于预测的AR算法，并将其运用到提出的ISAC自适应调制协议中，从而与本文提出的DRL算法进行进一步对比。即发射机通过回波估计信道状态，然后使用AR预测下一时刻信道状态，基于预测的信道状态选择调制模式。本文使用burg方法来估计AR模型的系数。

图4展示了平均吞吐量(bit/s)和BER的对比。由图4(a)可以看出，由于导频符号占据一部分信息符号，传统方法的平均吞吐量最低。AR、理想、DRL方法的平均吞吐量接近，证明了ISAC系统确实能够提高通信速率。图4(b)展示了模式选择临界点BER的比较，可以看出DRL可以满足瞬时BER的约束，保证了信号传输的可靠性。

(a) 吞吐量比较

图5为车辆运动过程中RSU在模式切换临界点附近模式选择的比较。由图5可知，传统方法使用的过时的CSI，所以具有滞后性，而基于回波的ISAC策略可以较为准确地预测调制方案。

图5 不同方法下模式选择随时间变化

4 结束语

本文考虑了ISAC系统下的自适应调制方案设计，在V2X网络中RSU根据车辆的位置提供不同调制模式来提升通信性能。在该场景下，RSU接收到车辆反射的回波信号后，通过匹配滤波估计车辆的距离和速度。为了在保证通信质量的情况下最大化容量，RSU根据当前车辆的距离，采用DRL算法预测下一时隙的调制模式。仿真结果表明，本文采用的基于ISAC的DRL算法能够准确地预测调制模式，相较于传统通信在保证误码率的情况下，通信容量有较大的提升，并且具有较好的鲁棒性。此外，本文仅考虑了视距信道，在今后的工作中可以考虑在有非视距信道影响下的自适应调制问题。