基于DropBlock 双模态混合神经网络的无线通信调制识别

2022-07-12高岩石坚马圣雨马柏林乐光学

电信科学 2022年5期

高岩，石坚,，马圣雨,，马柏林，乐光学

（1. 河南理工大学计算机科学与技术学院，河南焦作 454003；2. 嘉兴学院信息科学与工程学院，浙江嘉兴 314000；3. 嘉兴学院数据科学学院，浙江嘉兴 314000）

0 引言

现代无线通信中的自动调制识别已被广泛应用于商业和军事领域[1-4]，调制识别算法通常分为似然估计、特征估计和深度学习。基于似然估计的识别算法利用似然函数进行决策实现信号的分类[5-6]；基于特征估计的识别方法[7-8]将调制特性与理论特征进行比较。这两种方法存在需要先验概率信息、对信噪比要求高[9]、识别类型少以及鲁棒性差等缺点。随着人工智能技术的发展，深度学习为无线通信信号调制识别提供了一种有效途径[10]，深度神经网络通常在过度参数化、训练大量噪声和正则化时表现良好，成为该领域的研究热点。文献[11]研究卷积神经网络应用于调制识别领域，其调制识别类型达到11 种，实现低信噪比的高精度识别。文献[12]基于ResNet 模型对24 种调制信号进行识别，精度有大幅提高。文献[13]提出了一种结构化DropBlock，通过全连接层正则化和卷积层中激活单元在空间上相关性，抑制卷积层特征信息丢失问题，实现对未被丢弃的特征图归一化和卷积层的正则化。

为解决无线通信调制识别精度低的问题，提出了一种改进的双模态混合神经网络（bimodal hybrid neural network，BHNN）模型，该模型由残差网络（residual network，ResNet）和双向门控循环单元神经网络（bidirectional gated recurrent unit，BiGRU）构成。ResNet 因为网络层数多，模型复杂度高，训练时往往容易出现梯度消失与梯度爆炸等问题，因此本文在BHNN 架构中引入DropBlock 正则化，希望通过正则化提高网络的泛化能力，并允许对采集的信号进行轻微的干扰。

通过在公开数据集RadioML2016.10a[14]和RadioML2016.10b[11]上的仿真实验，验证了所提出的基于DropBlock 正则化的BHNN 模型的自动调制识别方法。

1 模型设计

1.1 网络模型结构

1.1.1 ResNet 模型

BHNN 模型中第一个分支为ResNet。残差网络可以构建更深层次的网络，解决深度网络中精度下降的问题，其中大量使用跳跃连接概念，允许特征在网络的多个尺度和深度运行。残差单元（Residual unit）与残差块（Residual stack）结构如图1 所示。

本文使用残差块提取特征，每个残差块包含一个卷积层、两个残差单元和一个最大池化层。残差单元中使用滤波器大小为5 的一维卷积，ReLU 作为激活函数，并采用填充操作使得输入卷积层的张量大小与卷积后大小相同。每个卷积层后添加DropBlock 正则化层以防止过拟合，再将残差单元的输入与最后一个DropBlock 层的输出相加形成跳跃连接。ResNet 的模型结构见表1。

表1 ResNet 的模型结构

1.1.2 BiGRU 模型

为使每个循环单元可以自适应地捕捉不同时间尺度的依赖性，文献[15]提出了由复位门和更新门组成的GRU 模型，与长短期记忆（long short-term memory，LSTM）循环神经网络相比，结构简单，计算量少，更容易收敛。其中，更新门控制前一时刻隐藏层对当前隐藏层的影响程度，更新门值的大小正比影响当前隐藏状态；复位门控制先前隐藏层信息被忽略程度，复位门值越小，忽略的越多。GRU[15]模型的更新方式如下：

其中，r j和zj分别表示j时刻的复位门和更新门，σ(‧)表示sigmoid 函数，[‧]j代表向量的第j个元素，x是输入，Wr和Ur为权重矩阵。hj和h～j分别代表j时刻的激活状态与候选激活状态。

隐藏单元通过单独的复位门和更新门学习捕获不同时间尺度上的依赖关系，学习捕捉长期与短期依赖关系的单元分别具有经常处于活动状态的更新门与复位门。

BHNN 中的另一个分支为BiGRU 模型，BiGRU 模型网络结构如图2 所示。BiGRU 利用了两个方向的信息流，其基本单元由一个前向传播的GRU 单元与一个反向传播的GRU 单元组成，n个成对的GRU 单元构成BiGRU 模型。任一时刻的输出会同时提供两个方向相反的GRU单元，这两个单元共同决定了输出，这种设计有利于提取深层特征。BiGRU 模型结构见表2。

图2 BiGRU 模型网络结构[15]

表2 BiGRU 模型结构[15]

1.1.3 双模态混合神经网络

采用多模态融合的方式关联数据特征，其特征表示比单一模态表示更具鉴别性，且有助于提高模型的鲁棒性，使模型在某些模态缺失时仍能有效工作，已成为调制识别的有效方法之一。文献[16]使用信号的3 种模态，分别输入ResNet 模型中，使得不同模态数据包含的丰富信息可以相互补充[16]，但是ResNet 忽略了信息在序列中的传递，会导致较早时间步长信息的丢失。为解决这一问题，将同相和正交（in-phase and quadrature，IQ）分量与信号的极坐标形式两种模态并行输入所构建的BHNN 模型，通过ResNet 与BiGRU 分别提取信号的空间特征和时序特征，使得较早时间步长的信息传递下去。BHNN 模型总体框架如图3 所示。

图3 BHNN 模型总体框架

ResNet 模型可以避免梯度消失和梯度爆炸，BiGRU 模型能够减少过拟合的发生。文献[17]中提出，在循环神经网络结构中使用极坐标形式表示的输入数据可以为QAM 调制类型带来更优异的分类性能，因此BiGRU 以极坐标形式接收输入样本，而非ResNet 结构所使用的矩形形式。

文献[18]对IQ 数据表示为：

其中，A表示幅值，φ表示相位。极坐标形式[18]通过计算输入IQ 采样在每个时间步长的幅值和相位获得，表示为：

数据输入ResNet 与BiGRU 模型提取特征后，通过Flatten 操作分别将空间特征和时序特征转换为一维特征，Concatenate 操作将一维特征拼接融合。最后以全连接层作为网络的结束，全连接层的结果输入Softmax 分类器中，将提取的特征分类。选用Adam 优化算法使网络更易于训练，初始学习率设置为0.001，使用交叉熵函数计算网络训练的损失，并采用Early Stopping 策略，当验证损失在15 个epoch 内没有改善时，停止训练并保存模型。BHNN 模型隐藏层详细参数见表3。

表3 BHNN 模型隐藏层详细参数

1.2 DropBlock 正则化

基于文献[13]提出的DropBlock 正则化方法，为使其适应无线信号分类任务，将特征图的分块调整为矩形，改善卷积层正则化效果不理想的问题。DropBlock 从图层的特征映射中删除连续的区域，主要参数为block_size 和keep_prob，其中block_size 控制删除块的大小，keep_prob 控制删除的激活单元数量。

DropBlock 算法中不考虑特征映射的分辨率，为所有特征映射设置了一个常量block_size。当block_size=1 时，DropBlock 与Dropout[19]相似；当block_size 覆盖整个特征图时，DropBlock 与SpatialDropout[20]相似。

keep_prob 的设置随着参数改变。DropBlock掩码中每个零条目均由block_size2展开，块完全包含在特征映射中，无法使用平均值为1-keep_prob 的伯努利分布对二进制掩码采样，需相应地调整keep_prob。

文献[13]关于keep_prob 的计算式为：

其中，(feat_size-block_size+1)2为有效种子区域的大小，feat_size 代表特征图的大小，feat_size =w_size×h_size，w_size 为特征图的长，h_size 为特征图的宽。DropBlock 的主要误差在于丢弃的块中会有一些重叠，因此式（7）只是一个近似值。

2 实验与性能分析

2.1 数据集与实验环境

为验证BHNN 结构的有效性，实验分别采用文献[14]与文献[11]中的公开数据集 RadioML 2016.10a 和RadioML2016.10b 测试。

RadioML2016.10a 数据集有22 万个样本、11 种调制方式，其中包括8 种数字调制方式和3 种模拟调制方式。每种调制类型包括20 种不同的信噪比，范围从-20 dB 到18 dB 步长为2 dB。3 种模拟调制包括AM-DSB、AM-SSB 和WBFM，8 种数字调制方式包括GFSK、CPFSK、PAM4、BPSK、QPSK、8PSK、16QAM 和64QAM。RadioML2016.10a 数据集详细参数见表4。为模拟真实的信道环境，数据集中添加了由采样率偏移、中心频率偏移、选择性衰落和加性高斯白噪声组成的信道模块[21]。数据集中的每个样本由128 个采样点组成，2×128 个向量输入模型，其中实部和虚部分别代表I 信号和Q 信号。数据集的标签由信噪比和调制类型组成。

表4 RadioML2016.10a 数据集详细参数

与RadioML2016.10a 相比，RadioML2016.10b缺少模拟调制方法中的AM-SSB，并且数据量有所扩充，数据样本量为120 万。RadioML2016.10b数据集详细参数见表5。

表5 RadioML2016.10b 数据集详细参数

实验硬件配备Intel Xeon Gold 6230 CPU、NVIDIA Quadro RTX 8000 显卡，所有网络模型均在单一GPU 环境中训练。使用Keras 和Tensorflow作为后端，Python3.8 进行编译。在数据预处理部分，对数据集进行均匀分布分割，将70%的数据分配给训练集，30%的数据分配给测试集。

2.2 不同激活函数下模型的识别精度分析

为评价BHNN 模型对激活函数的适应性，以GeLU、ReLU、Linear、LeakyReLU、Softmax、ELU 6 种激活函数测试，BHNN 在不同激活函数下分类精度对比如图4 所示，即其在RadioML2016.10a和RadioML2016.10b 数据集上的测试结果。

图4 BHNN 在不同激活函数下分类精度对比

（1）RadioML2016.10a 数据集测试，ReLU 函数的分类性能明显优于其他激活函数，信噪比为0 dB 时分类准确率达到80%以上，其他激活函数均未达80%。信噪比大于4 dB 时分类性能趋于稳定，ReLU 函数分类准确率最高为89%；ReLU、GeLU、LeakyReLU 以及ELU 函数分类准确率稳定在80%～85%；Softmax 和Linear 函数分类效果较差，准确率低于75%。

（2）RadioML2016.10b 数据集测试，高信噪比下ReLU、GeLU、SeLU、LeakyReLU 以及ELU 5 种激活函数分类性能相似；当信噪比大于-8 dB且小于4 dB 时，SeLU 函数的分类效果明显低于其他4 种激活函数。与小数据集情况相似，Softmax 和Linear 函数在大数据集分类效果最差，高信噪比下分类准确率低于85%。

经对比分析，ReLU 在两数据集的分类效果均较好，因此最终在模型中选用ReLU 激活函数。

2.3 不同DropBlock 参数下模型的识别精度分析

keep_prob 和block_size 是DropBlock 正则化中的两个重要参数，两者的改变影响着DropBlock 的效果，为使DropBlock 对BHNN模型正则化效果达到最佳，使用 RadioML 2016.10a 和RadioML2016.10b 数据集分别测试两个参数。

据文献[12]假设keep_prob=0.7 为最佳值，对比不同的 block_size 值。DropBlock 在不同block_size 值下的分类精度如图5 所示，基于RadioML2016.10a 和RadioML2016.10b 数据集测试时，随着block_size 值的减小，分类效果逐渐提高，当block_size=2 时，模型的分类性能最优异。

图5 DropBlock 在不同block_size 值下的分类精度

将block_size值设为2，比较不同的keep_prob值。DropBlock 在不同keep_prob 值下的分类精度如图6 所示，随着keep_prob 值的增大，分类精度逐渐升高，keep_prob=0.7 时性能最佳，继续增大后性能反而下降，基于RadioML 2016.10a 测试时，keep_prob=0.4 时模型丧失分类能力，分类精度稳定在10%。

图6 DropBlock 在不同keep_prob 值下的分类精度

经对比分析，DropBlock 正则化中最终选用block_size=2、keep_prob=0.7 的参数组合。

为避免网络出现梯度消失和过拟合等问题，在BHNN 模型中引入DropBlock 正则化，BHNN加与不加DropBlock 的分类精度对比如图7所示。

图7 BHNN 加与不加DropBlock 的分类精度对比

（1）RadioML2016.10a 数据集测试，信噪比小于-5 dB 时，加入DropBlock 的模型分类效果较好；在-5～-1 dB 区间内，两模型分类效果相似；信噪比大于-1 dB 时，加入DropBlock 的模型分类效果较好，分类准确率最高为89%。

（2）RadioML2016.10b 数据集测试，当信噪比低于-10 dB，不加入DropBlock 的模型效果较好；信噪比高于-10 dB 时，加入DropBlock 的模型分类效果明显优于不加DropBlock，并在0 dB时分类准确率达到90%。高信噪比下分类精度最高可达93.6%。

正则化能够防止过拟合，在模型中添加正则化可以限制模型的复杂度，为验证DropBlock 正则化对模型的适应性，以L1、L2、L1L2、L1_L2正则化对比测试，以上4 种正则化均从Tensorflow库中直接调用，不同正则化方法的参数设置见表6。

表6 不同正则化方法的参数设置

模型在不同正则化下的分类精度如图8 所示，即不同正则化在 RadioML2016.10a 和RadioML2016.10b 数据集上的测试结果。

图8 模型在不同正则化下的分类精度

（1）RadioML2016.10a 数据集测试，在低信噪比下5 种正则化分类准确率大致相同，因为低信噪比下，大量干扰信息淹没了大部分信号特征，导致大多调制方式的识别精度较低，从而降低了整体识别精度；当信噪比大于-6 dB 时，DropBlock 的分类效果明显高于其他4 种正则化。

（2）RadioML2016.10b 数据集测试，当信噪比大于-8 dB 且小于2 dB 时，DropBlock 分类效果明显高于其他4 种正则化；当信噪比小于-8 dB和大于2 dB 时，5 种正则化的分类精度相似。

实验结果表明，加入DropBlock 正则化后模型避免了过拟合等问题，分类效果在两个数据集上均有明显提升，且DropBlock 正则化更适用于卷积层的正则化，其对模型过拟合问题的抑制能力优于其他正则化方法。

2.4 不同神经网络的识别精度对比分析

混淆矩阵是分类问题的一个衡量指标。样例根据真实情况与预测类别的组合被划分为4 种情形，显然可得真正例数+假正例数+真反例数+假反例数=样例总数，分类结果的混淆矩阵见表7。

表7 分类结果混淆矩阵

混淆矩阵也称误差矩阵，能够直观反映识别结果的分布情况，对于多分类问题通常使用M×M的矩阵，其中对角线的分类是正确的，对角线之外均为错误的。BHNN 在RadioML 2016.10a 数据集上的混淆矩阵如图 9 所示，BHNN 在RadioML2016.10b 数据集上的混淆矩阵如图10 所示，即BHNN 模型对信号分类后的混淆矩阵，对角线上的单元格表示预测与真实标签一致，颜色越深，预测精度越高。

图9 BHNN 在RadioML2016.10a 数据集上的混淆矩阵

图10 BHNN 在RadioML2016.10b 数据集上的混淆矩阵

由于RadioML2016.10a 数据样本量小，模型泛化能力较差，在该数据集上对信号分类识别时效果并不理想。识别的误差主要发生在16QAM与64QAM 之间，WBFM 主要预测为AM-DSB，两者都属于连续调制，它们之间的变化在复杂信道下受到限制，并且采样的模拟信号包含沉默间隔，加剧了WBFM 与AM-DSB 之间的混淆。RadioML2016.10b 数据样本量更大，分类效果相对较好，在该数据集上对信号分类识别时改善了16QAM 与64QAM 间的混淆，误差主要发生在WBFM 与AM-DSB 间。

为验证BHNN 模型的有效性，本节基于RadioML2016.10a 与RadioML2016.10b 数据集进行对比实验，将CNN[11]、ResNet[11]、LSTM、BiGRU与BHNN 模型对比，结果如图11 所示。

图11 各模型分类精度对比

（1）RadioML2016.10a 数据集测试，当信噪比小于-4 dB 时，5 种网络模型的分类效果相似；随着信噪比的增大，模型性能趋于稳定，在高信噪比下，BHNN 模型的分类准确率可达88.5%；ResNet、BiGRU 和LSTM 模型分类性能相似，分类精度稳定在82%左右；CNN 模型分类性能较差，分类准确率低于75%。

（2）RadioML2016.10b 数据集测试，当信噪比小于-6 dB 时，5 种网络模型的分类效果相似；当信噪比大于-6 dB 时，CNN 模型的分类性能明显低于其他4 种模型，分类准确率最高为81.1%；BHNN 模型与ResNet、BiGRU 和LSTM 网络模型相比分类性能差距较小，略微领先于另外3 个模型，最高分类准确率为93.63%。

为进一步研究DropBlock 正则化对提高模型精度的有效性，分别在CNN[11]、ResNet[11]、LSTM、BiGRU 模型中加入DropBlock 正则化，并与BHNN 模型对比，各模型加DropBlock 后的分类精度对比如图12 所示。

图12 各模型加DropBlock 后的分类精度对比

（1）RadioML2016.10a 数据集测试，除ResNet模型外，BHNN 的分类准确率明显优于其他3 个模型；当信噪比大于3 dB 时，BHNN 模型的分类准确率超过85%，在3～18 dB 范围内的平均分类准确率比其他3 种模型高6%～9%；但在低信噪比情况下，所有模型的分类准确率基本一致。

（2）RadioML2016.10b 数据集测试，除CNN模型外，信噪比大于-5 dB 且小于0 dB 情况下，BHNN 的分类准确率略优于除CNN 外的其他3 种模型；在信噪比大于0 dB 时，BHNN 与3 种模型分类准确率基本相同，因为数据集样本量越大，模型训练充足，泛化能力强。

仿真结果表明，BHNN模型在RadioML2016.10b数据集上分类性能优于RadioML2016.10a 数据集，说明数据样本量越大，模型训练越充足，泛化能力越强；模型加入DropBlock 后分类效果均有提升，说明DropBlock 能够有效防止模型产生过拟合。下一步工作将聚焦于优化模型在小数据集上的分类性能。

3 结束语

深度神经网络在提高无线电信号识别的准确性和灵敏度方面展示出巨大的潜力。本文提出了一种双模态混合神经网络模型，该模型结合ResNet模型可以避免梯度消失或梯度爆炸、BiGRU 模型能减少过拟合的优点。仿真结果表明，基于RadioML2016.10a 测试时，BHNN 的最高分类准确率为89%；基于RadioML2016.10b 测试时，BHNN的最高分类准确率为93.63%，相同仿真条件下分类性能均优于CNN、LSTM、BiGRU 和ResNet 模型。为避免模型训练时出现过拟合现象，模型中引入DropBlock 正则化，并与L1、L2、L1L2、L1_L2 4 种正则化方法对比，仿真结果表明，BHNN 模型引入DropBlock 正则化后分类效果有明显提升。