APP下载

基于SARSA算法的水声通信自适应调制

2020-06-30王安义张育芝

科学技术与工程 2020年16期
关键词:水声吞吐量信噪比

王安义,李 萍,张育芝

(西安科技大学通信与信息工程学院,西安 710054)

海洋蕴藏着丰富的资源,人们对海洋资源的探索与日俱增。由于海洋环境的复杂性,电磁波和光波在海水中传播会受到严重的损耗,与电磁波和光波相比较,水声通信是目前最适合于在水下中远距离传输的通信方式[1]。声波在海水中传播的典型传输速度为1 500 m/s,比电磁波的速度低5个数量级,通信过程中形成长时延传输;且水声信道受环境影响大,由于水下环境时刻发生着变化,水声信道呈现出复杂多变特性。在水声自适应调制系统中,往往伴随着信息传输过时问题,过大的反馈时延导致发射端接收到来自接收端的反馈信息与实际信道状态信息不匹配,带来传输误码高、吞吐量低等问题。

已有一些研究采用正交频分复用自适应调制技术[2],利用自适应比特和功率分配算法[3]实现系统的自适应,以提高系统吞吐量,但以上研究未考虑反馈信道信息过时问题。在时变信道下,准确获取信道状态信息是自适应调制系统中的关键问题,人工智能在学习动态变化的过程和智能决策问题上有一定的优势,能更好地学习信道变化,其中的强化学习算法也被应用在很多领域,如智能决策[4]、无线资源分配[5]等领域,并取得一些成效。中国学者利用强化学习的Q-学习算法[6]预测无线通信信道,实现自适应调制,达到了提高系统的吞吐量的目的,但中国目前还没有将强化学习应用于水声通信领域的研究;国外研究者利用强化学习算法[7]学习预测了距海面不同深度下的水声通信信道状态的变化。本文研究如何将人工智能中的强化学习算法算法应用到水声自适应调制系统中。

提出一种强化学习算法—SARSA(state-action-reward-state-action)算法来学习水声信道[8]状态的变化并选择最优策略进行调制。SARSA算法是一种基于模型,但不需要先验知识的学习算法,发射端感知到每一时刻的信道状态,通过不断地试错和探索,最终根据信道状态,学习出在每一时刻可采取的最佳行为策略,来自适应地选择调制方式,而不需要提前了解环境,有效地改善信道变化给通信系统带来的不利影响。在信道好的时候选用调制阶数高的调制方式,最大化通信传输效率,信道差的时候选用低阶调制,以保证通信质量可靠性和传输稳定性。

1 水声自适应调制系统模型

1.1 系统模型

图1所示为基于SARSA算法的水声自适应系统模型。在水声自适应调制系统中,信号经发射端调制后通过信道,并在接收端进行解调,得到解调信号与解调信息,调制过程中利用SARSA算法学习信道变化,择优选择调制策略,以实现最大化系统吞吐量、降低系统误码率的目的。

图1 基于SARSA算法的水声自适应调制系统Fig.1 Underwater acoustic adaptive system based on SARSA algorithm

1.2 信道模型

由于水体环境的复杂性,水声通信信道受海底与海面的变化、海洋湍流及海洋生物活动[9]等的影响,水声信道往往是时刻变化的。采用文献[9]的信道模型,根据测试结果,将信道信噪比序列建模为:

Sk=αsin(2πk/L)+β+n(k)

(1)

式(1)中:L=100,是记录周期;α=4.46,是动态标准差;β=18为均值;n(k)是服从具有方差为δ2,均值为0的高斯分布,即n(k)~N(0,δ2),模拟实现信噪比序列。

2 基于SARSA算法的自适应调制

2.1 强化学习算法

强化学习属于机器学习的一个分支,主要解决智能体通过不断地试错与探索,将状态与动作之间关联起来,最终达到获得最大奖励回报累积量的问题。其基本原理是:如果智能体(agent)执行的某个动作策略导致环境对智能体的奖赏(reward)越大,则智能体以后采用这个动作策略的概率就会加强,反之得到的奖赏越小,智能体产生这个动作的概率就会减弱[10]。强化学习中把学习过程看作一个不断的试错和探索过程,其原理框图如图2所示。

图2 强化学习理论框图Fig.2 Reinforcement learning theory block diagram

在本文算法中,采用不同时刻的信道信噪比{s1,s2,…,st}为状态集,以四种不同的调制方式作{a1,a2,…,at}为动作集,各状态在不同动作下与环境交互产生的吞吐量作为奖励,即环境根据状态与动作给出合理的反馈。系统得到的累计奖赏[11]为

(2)

式(2)中:rt为在t时刻的即时奖励,γ∈[0,1]为折扣因子,值越小,代表agent主要考虑即时奖励,越趋近于1,表示考虑将来奖励的程度越大。对于某一时刻的状态所选用的策略可以用π来表示,则状态在执行策略后的期望回报Vπ可用式(3)来表示,在状态s下执行动作a的奖励期望qπ可用式(4)来表示:

本研究发现,S6K1抑制剂PF-4708671和PI3K/mTOR激酶抑制剂NVP-BEZ235联用于乳腺癌细胞MDA-MB-436和肺癌细胞A549,可显著增强单用时对肿瘤细胞的生长抑制作用。

(3)

(4)

式中:Rt为t时刻的奖励;st为t时刻的状态;at为t时刻的动作;γ为折扣因子。

2.2 基于SARSA算法的水声自适应系统

SARSA算法是Rummery和Niranjan提出的一种基于模型的强化学习算法[12]。SARSA算法是通过价值函数的不断更新,来更新当前的策略,用Q表来存储当前的策略,再通过新的策略产生新的状态和即时奖励,进而更新价值函数;一直迭代下去,直到到达最终状态或收敛状态。它采用的是Q迭代法,一步SARSA算法Q更新可用表示为

Qsub=r+γQ(st+1,at+1)-Qpre(st,at)

(5)

Qnew(st,at)=Qpre(st,at)+α(Qsub)

(6)

式中:r是在当前状态下所选动作带来的奖励;γ是衰减因子;Q(st+1,at+1)表示在下一时刻的Q;Qpre(st,at)表示当前状态下的Q;Qsub表示差距;Qnew(st,at)代表更新后的当前状态Q;α表示学习效率。

SARSA算法求解步骤如下:

初始化Q(s),∀s∈S,a∈A(s)

重复(每一个episode):

使用贪婪算法(ε-greedy),根据状态选取一个动作执行

重复(对episode中的每一步):

执行动作a,观测奖赏值和下一状态s′

更新Q表:

Q(st,at)←Q(st,at)+α[rt+1+γQ(st+1,at+1)-Q(st,at)]s←s′

a←a′

直到状态终止

智能体在每一次的学习过程中,在选择当前步用何种动作时是采用贪婪策略,若设定贪婪因子e=0.1,即90%的情况下选择选择Q表中对应状态下的最优值为当前步动作的策略;10%的情况下去探索新的可能策略,作为当前步动作的策略,选择动作进而得到下一个状态st+1和下一次奖励rt+1,再根据贪婪算法来选择策略来确定下一状态所选择的动作at+1,并依据式(6)进行Q函数的更新,由于Q与奖励有关,是多步奖赏值的一个求和,所以该算法用Q来表示所选动作产生奖赏的另一种表现形式[13],然后根据Q表所确定的at+1作为智能体所采取的下一个动作,如此循环,直至达到最终状态。

SARSA与Q-学习的最明显的区别在于Q-学习每次迭代时采用的是值函数的最大值更新Q,但在下一次选动作时不一定会用到该动作;而SARSA则是在这一次更新Q时选用了哪一个动作策略,下一状态时就选用该动作策略为下一次的动作进行迭代,不再重新另外选择[14],因此,SARSA学习在每一步的学习过程中,智能体都是依据当前选择的Q策略确定下一状态时的动作;而Q-学习中依据重新选择后的Q策略确定动作,因此称SARSA是一种在线策略(on policy)学习方法。

3 算法仿真与分析

3.1 仿真环境

研究水下长时延传输导致的发射端接收到的反馈信息过时,进而不能准确选择自适应调制方式的问题。仿真环境示意图如图3所示。建立水下场景,收发端水平放置于水面下,具体参数设置见文献[9]所示,发射机每隔15 min发送一次信号序列,并记录下每次信道状态的变化。

图3 仿真环境示意图Fig.3 Simulation environment diagram

3.2 仿真参数

SARSA算法中,将接收器在水声信道中不同时刻下的信噪比作为SARSA算法的状态集;四种不同的调制方式BPSK、4QAM、8QAM、16QAM作为算法的动作集,每个动作与环境交互后,状态转换到下一时刻状态;策略定为在信噪比在一定范围内选取何种适宜的动作更好,各调制方式下系统吞吐量大小作为奖励,用R奖励表的形式表现出来,同样的建一个Q表,初始值为0,再根据每次的学习更新Q表,不断迭代学习,直到收敛或达到最终状态,得到最佳的Q表,每次根据Q表选择动作。学习率在这里设为α=0.9,折扣因子γ=0.1,代表对将来的奖励影响较小。

采用固定调制模式、直接反馈与SARSA算法下的自适应调制做对比,利用反馈回来的信噪比SNR信息,自适应的选择对应的调制阶数。根据反馈SNR直接自适应选择调制比特数的依据如图4所示,为四种调制方式下吞吐量随信噪比的变化趋势。从图4中可以看出,随着信噪比的增大,吞吐量整体越来越大。自适应调制方式的选择原则是:在一定信噪比范围内,选择吞吐量最大的调制方式。信噪比在0~3 dB,BPSK调制下吞吐量最大;信噪比在4~8 dB,4QAM调制下吞吐量最大;信噪比在9~22 dB,8QAM调制下吞吐量最大;信噪比在22 dB以上时,16QAM调制下吞吐量最大。表1给出了自适应调制的切换阈值。

图4 不同调制方式下吞吐量Fig.4 Throughput with different modulation modes

表1 自适应调制切换阈值Table 1 Threshold for adaptive modulation

3.3 仿真结果及分析

通过MATLAB仿真平台,采用文献[8]中在2014年8月现场试验测量的信道参数进行仿真,通过表1及所设置参数编写脚本文件实现仿真。仿真对比了固定调制模式、直接反馈和强化学习三种情况下自适应调制系统的性能。从图5(a)中可以看出,在固定调制方式16QAM调制下,系统误码性能较差,平均误码率为2.94×10-2;图5(b)中,直接反馈下的自适应调制,误码性能相较于16QAM调制下有所改善,系统平均误码率为7.5×10-3;图5(b)中,经强化学习,从无到有的训练数据,经400次左右的训练,系统学习了环境变化规律,误码性能相较图5(a)、图5(b),系统误码率为3.1×10-3,系统误码性能得到提高。

图5 三种情况下系统性能Fig.5 System performance under three cases

图6中反映了三种方式下的吞吐量情况,从图中可以看出吞吐量比较:经强化学习>直接反馈>16QAM下。在16QAM调制下,信号传输得到的总吞吐量为2 507 bit,在直接反馈下,得到传输的总吞吐量为2 860 bit;经过强化学习后,根据学习得到最佳策略,根据最佳策略而选择的动作,采取最佳动作得到的误码率,传输得到的总吞吐量是3 000 bit。

图6 三种情况下吞吐量变化趋势Fig.6 Variation trend of throughput under three cases

4 结论

基于SARSA算法在没有先验知识的条件下,对水声信道状态变化进行了从无到有的学习,最终学习出不同信道状态下的最佳自适应调制策略,并与直接反馈和固定调制方式下系统性能做了对比,从仿真结果可以看出:①经强化学习后的系统可降低信号在传输时的误码率,保证了信道传输的可靠性;②系统经过强化学习,提高了通信吞吐量,提高了传输效率,并且,传输数据越多,改善效果越明显。综上所述,利用人工智能中的强化学习算法学习水声信道变化的规律,并进行水声自适应通信,结果表明SARSA算法在水声自适应调制系统中,能有效提高自适应调制系统的传输效率和可靠性。

猜你喜欢

水声吞吐量信噪比
水声单载波扩频均衡技术研究
一种适用于水声通信的信号水印认证技术
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
自跟踪接收机互相关法性能分析
基于深度学习的无人机数据链信噪比估计算法
低信噪比下基于Hough变换的前视阵列SAR稀疏三维成像
2017年3月长三角地区主要港口吞吐量
2016年10月长三角地区主要港口吞吐量
2016年11月长三角地区主要港口吞吐量
认知水声通信系统中OFDM技术的应用