基于图像深度学习的无线电信号识别

2019-07-26周鑫何晓新郑昌文

通信学报 2019年7期

周鑫，何晓新，郑昌文

（中国科学院软件研究所天基综合信息系统重点实验室，北京 100190）

1 引言

近年来，随着无线通信技术的发展，特别是物联网的兴起，无线电波已成为连通万物的重要载体。然而，无线电波开放性的特点使其容易受到干扰和非法利用，导致正常通信系统受扰甚至中断，进而威胁社会和国家安全。因此，加强无线电监测与识别，特别是在机场、边境等重点区域及重大活动现场的无线电监管，具有重要的现实意义和迫切需求。

无线电信号识别技术最初主要用于军事电子战和政府频谱监管领域，近年来，随着频谱共享需求的提升和认知无线电技术的发展，又逐渐成为商业通信领域关注的焦点[1]。早期的无线电信号识别技术，是利用各种频谱采集设备采集空中射频信号，经过处理后，以频谱图、瀑布图、余晖图等可视化方式展现出来，由专业人员分析信号时频特征并寻找目标信号[2]。这种技术对操作人员的专业素质要求非常高，而且当监测时间变长或无线电信号较多时，人工分析效率和准确率也会大幅下降。

目前，比较流行的无线电信号识别方式是先由本领域专家挑选信号关键特征，如功率谱密度最大值[3]、信号包络峭度[4]、瞬时相位标准差[5]、相位脉冲个数[4]、循环谱[6-7]、高阶矩[8-9]等时/频域信号特征，然后利用传统的信号处理算法计算特征参数值，最后基于固定规则或者机器学习的方法进行分类[10]。通常，一个模型需要选取其中的几项甚至十几项特征作为模型输入，计算复杂度非常高，很难实际部署使用。同时，受信号波形多样性和多径衰落效应的影响，该方式在特征选择和判决准则方面也缺乏普适性。

人工智能在模式识别任务中具有独特优势，近年来，在图像/语音识别、自然语言处理、医疗、金融等很多领域取得了很大的成就，引起了社会各界的热切关注[11]。无线电信号识别本质上也是一种特殊的模式识别，因此本文认为，可以将人工智能与传统无线电信号识别技术深度融合，利用人工智能的机器学习方法，特别是深度学习算法，自动提取无线电波的模式特征，避免基于经验的人工特征提取，提高复杂电磁环境下无线电信号的识别能力。

基于这一设想，本文提出了一种利用图像深度学习方法解决无线电信号识别问题的技术思路：首先把无线电信号具象化为一张二维图片，将无线电信号识别问题转化为图像识别领域的目标检测问题；进而充分利用人工智能在图像识别领域的先进成果，提高无线电信号识别的智能化水平和复杂电磁环境下的识别能力。基于该思路，本文提出了一种基于图像深度学习的无线电信号识别算法——RadioImageDet算法，并通过实物系统实验，验证了所提思路的可行性和RadioImageDet算法的有效性。

2 相关研究工作

早在20世纪90年代，传统机器学习算法，如朴素贝叶斯、神经网络、决策树等，已经在无线电调制识别领域中得到了应用[12-14]，但受限于当时的技术发展水平，仅利用机器学习算法根据人工提取出的信号特征进行分类，具体流程如图1所示。

图1 基于传统机器学习的无线电信号识别流程

近年来，随着计算机技术和深度神经网络技术的飞速发展，上述限制逐渐被打破。2016年，受到深度神经网络在图像识别领域巨大成功的鼓舞，O’shea及其团队连续发表多篇论文，研究深度学习技术在无线电通信与识别领域应用的方法与问题[15-18]，开启了无线电识别从经验驱动的人造特征范式到数据驱动的表示学习范式的新纪元。同年，美国国防先进研究项目局（DARPA, Defense Advanced Research Projects Agency）宣布，将于2017年启动 SC2挑战赛（The Spectrum Collaboration Challenge），旨在“将先进的机器学习能力应用于无线电领域，优化频谱使用策略，以缓解电磁频谱拥挤状态”[19]。这是21世纪DARPA组织的第三次挑战赛，前两次分别是 21世纪初的自动化月球探测器挑战赛和2015年的机器人挑战赛。

2017年，DARPA 频频推动 AI（artificial intelligence）与无线电的融合。2017年3月，DARPA借助认知无线电领域的著名学术会议——DySPAN（IEEE International Symposium on Dynamic Spectrum Access Networks）会议，组织了一场“ModRec”竞赛，要求各挑战者识别会议现场随机生成的 20多种不同调制方式的信号波形，并声称“这是以更高效的方式管理电磁频谱的第一步”。同年 8月，DARPA启动了射频机器学习系统（RFMLS, radio frequency machine leaning system）项目。作为SC2项目的补充，RFMLS项目旨在“建立一种射频鉴别能力，能够从信号嘈杂聚集的频谱中分辨出独特和特殊的信号”，未来将应用于民用和军事领域。

下面从3个方面介绍与本文相关的研究工作。

2.1 基于CNN的调制方式识别

O’shea在文献[15]中提出了一种基于端到端CNN（convolutional neural network）的调制识别模型。该模型是以时域I/Q采样为输入，经过两层卷积层（conv层）和两层全链接层（dense层）处理，输出信号的调制方式，具体结构如表1所示。文献[15]利用GnuRadio仿真生成了11种不同调制方式的信号作为训练和测试数据，通过与朴素贝叶斯、K近邻、决策树、多层感知机、支持向量机等传统机器学习方法进行对比，发现新算法与传统算法的最佳性能相当（传统算法采用以循环矩为基础构造的32个特征作为算法输入），证明了端到端CNN用于自动调制识别的有效性。

表1 O’Shea模型结构

在此基础上，文献[20]采用分层识别的方法进行改进，即先用一个 CNN网络区分模拟调制和数字调制，然后在该先验知识基础上，用一个 CNN网络识别具体的调制类型，最后用一个 CNN网络识别调制的阶数。文献[21-22]从网络结构的角度进行改进，在 CNN网络基础上，增加了时序特征的考虑，采用CNN+LSTM(long short term memory)的网络结构进行调制方式识别。文献[23]在O’shea模型的基础上，在全连接层之前增加了一些边缘信息（即传统的循环平稳特征参数）作为输入，用于辅助CNN识别。该方法摒弃了完全以原始信息作为输入的前提条件，将传统的自动调试识别方法与新型的CNN网络结合，虽然提高了识别准确率，但遗留了很强的专家系统印记，且计算复杂度较高。

2.2 无线电个体识别

文献[15, 20-23]均属于调制方式识别，其输出需要联合其他信息，才能形成对电子侦察、频谱监管等应用有直接作用的结果。文献[24-27]则属于更高一层的无线电个体识别，其结果可直接用于上述应用场景，因此更加符合“端到端”识别的理念。

文献[24]利用信号矩阵的次要特征值区分信号，通过矩阵特征值求解法进行无线电信号识别。文献[25]利用物理波形和射频器件的非线性杂散发射特征来区分信号发射源，并采用相位空间重构法进行分析识别。文献[26]利用信号功率谱密度的相似性来区分信号，并采用基于神经模糊的相似度测量方法进行分析识别。以上文献均属于传统的基于专家系统的无线电识别方法，而Schmidt在文献[27]中提出了一种基于 CNN的无线电通信标准识别模型，该模型结构与 O’Shea模型相似，但以频域快速傅里叶变换（FFT, fast Fourier transform）的变换结果为输入，直接输出无线电通信标准名称，涉及802.11、802.15.1、802.15.4这3种通信标准。文献[28]也采用类似的 CNN网络，但是以Choi-Williams 时频分布变换结果作为模型输入，用于识别线性调频信号、Frank序列、Costas码等 8种常见雷达波形。本文研究也属于无线电个体识别，其输入为包含时/频信息的频谱瀑布图，输出为信号的波形名称及其时/频坐标。

2.3 基于深度学习的图像目标检测

图像目标检测的任务是找出图像中所有感兴趣的物体，并确定其位置和大小，是计算机视觉领域的核心问题之一。2013年以前，以多尺度形变部件模型（DPM, deformable part model）为代表的传统目标检测方法一直处于强势地位。2014年，Girshick 等[29]提出了 R-CNN（region proposal CNN）算法框架，使目标检测的准确率取得巨大突破，并开启了基于深度学习的目标检测的研究热潮。随后，fast R-CNN[30]、faster R-CNN[31]、FPN（feature pyramid network）[32]、YOLOv2（you only look once）[33]、SSD（single shot multibox detector）[34]等一系列研究成果的出现，在检测速度、检测准确率等方面均有较大提高。目前，基于深度学习的图像目标检测主要分为两类：一类是以R-CNN、faster R-CNN为代表的基于区域提取（region proposal）的目标检测算法，另一类是以YOLOv2、SSD为代表的基于回归问题的端到端目标检测算法。前者需要把检测过程分为区域提取和检测分类两步；而后者直接在一个卷积网络中实现目标的定位和识别，简化了网络结构，在保证准确率的前提下，检测速度达到了实时检测的要求，因此，本研究将以YOLOv2为基础设计无线电信号识别模型。

3 RadioImageDet算法模型设计

本文提出了一种基于图像深度学习的无线电信号识别算法——RadioImageDet算法，该算法基于一种端到端卷积神经网络，能够在时/频混叠的复杂电磁环境下，同时识别出环境中存在的多个信号的波形类型，并可定位出这些信号各自的起止时间和频率范围。 RadioImageDet算法结构如图2所示。

图2 RadioImageDet算法结构

RadioImageDet算法由预处理模块和端到端目标检测模块两部分组成。预处理模块以观察窗口的原始 I/Q采样数据为输入，经过离散傅里叶变换（DFT, discrete Fourier transform），将时域数据变换为更易识别的频域表达；再经过数据图像化处理，将连续多次 DFT的结果组合成一张二维频谱瀑布图。端到端目标检测模块以预处理所得的频谱瀑布图为输入，经过 CNN特征提取层，获取具象化的信号特征；再经过目标检测层，将抽象的特征转化为信号波形类型、时/频坐标等有确定含义的输出结果。其中，端到端目标检测模块采用端到端深度神经网络模型实现。本文所提端到端深度神经网络模型是以YOLOv2模型[33]为基础，通过迁移学习构建得到，因此称为RadioYOLO模型。

3.1 预处理模块

运行RadioImageDet算法首先要进行数据预处理，预处理的目的是将原始I/Q采样数据变换为一种更有利于自动特征提取和识别的表达形式。为了充分发挥卷积神经网络在特征提取方面的优势，降低计算复杂度，研究者希望预处理过程是无损且容易计算的。根据离散信号处理理论和现代通信系统原理，原始的I/Q采样数据就是数字通信系统后端处理的基本输入，任何复杂的数字信号处理算法都是在此基础上经过数学变换完成的，因此它天然蕴含了无损信息。这也是O’shea等直接选用I/Q采样数据作为神经网络输入的原因[15,20]。从数学角度分析，DFT是对有限长I/Q采样数据的无损变换，如式(1)所示。

同时DFT的结果作为信号的频域表达形式，更有利于以电磁辐射为基础的无线电信号的识别[35]，因此，本文首先对原始I/Q采样数据进行DFT，得到信号的频域表达，然后进行后续的处理，这与文献[26, 27]的思路一致。

一次DFT运算的结果是一个一维复数序列，可以形象地认为是“一条线”，它表示某一时间点的频谱。但是，无线电信号波形总是随时间变化，仅观察某个“时间点”的特征很难准确识别信号，因此将连续多个时间点的观测结果堆叠组合成“一个面”，就可以同时表达时域和频域的信息特征，有助于提高信号识别率。在这个二维平面中，横轴表示频率，纵轴表示时间，元素值就是DFT的结果值。如果将元素值按图像灰度值进行映射，就可以绘出一张可视化的图片，该图片就是频谱瀑布图，如图3所示。因此，本文在DFT之后，增加了一个数据图像化处理过程，将连续多组DFT的结果组合成频谱瀑布图的格式，增加单个样本的时域信息量，便于后续卷积神经网络的处理和信号识别。

图3 频谱瀑布图合成示意

理论上，频谱瀑布图的尺寸为2MN，其中，2表示图片有2个通道，分别为通道I和通道Q；N表示DFT的点数；M表示一张频谱瀑布图内合并的DFT结果的组数，其大小反映了一个样本的时间跨度，M值越大，表征的时间跨度越长，计算也越复杂。为了方便运算，本文进行以下3个简化操作。

1) 为了简化图像转化操作，直接将I/Q两通道的数据按式(2)合并为一个通道S，合并后的物理含义为功率密度。

其中，SI和SQ分别为I/Q通道的采样数据。

2) 为了利用FFT加快运算速度，N取值应为2的正整数次幂，本文取N=512。

3) 基于实际通信系统中信号连续发送时间的工程化惯例约束，时间轴持续时间应大于20 ms，换算到本文所提模型，则要求M＞390，为了方便2×2池化操作，M值最好为2的正整数次幂，因此本文取M=512。

3.2 端到端目标检测模块

经过预处理，抽象的无线电信号被具象化为一张形象的频谱瀑布图，接下来就要对该图片进行特征提取，识别出图片中存在的信号及信号的位置。这项工作的本质与计算机视觉中的目标检测任务完全相同，所不同的是，该图片是无线电信号经过DFT后合成的频谱瀑布图，而不是自然界中的图片。由于输入图片的特殊性，或许存在更加合适的神经网络结构进行识别和目标检测，但本文暂时不对其进行深入研究，而是直接通过迁移学习，以目前比较流行的YOLOv2模型[33]为基础，通过修改若干超参数，构造无线电信号识别网络模型，称之为RadioYOLO模型，其结构如图4所示。

与YOLOv2模型一样，RadioYOLO模型结构主要参考了Inceptionv1网络[36]，仅使用3×3和1×1卷积核尽力压缩模型参数量，并在每次池化操作后将特征通道数翻倍，以尽量保持特征的完整性。同时，借鉴Inceptionv2的思想，对每一个卷积层的输出都使用批归一化（bath-normalization）处理，增加了模型的顽健性和训练速度，并可代替 dropout防止过拟合；借鉴 ResNet的跳跃连接的思想[37]，将conv13的输出整形后，直接与conv20进行通道合并，共同输出给下一层，使输出层能够保留更高分辨率的特征，并降低“梯度消失”概率；使用leakyReLU非线性激活函数，减少训练中神经元死亡的概率。

与YOLOv2模型相比，RadioYOLO模型的改变主要包括以下几点。

1) 模型输入的图片尺寸。根据 FFT的尺寸，将输入尺寸改为512×512。

2) 归一化锚框的尺寸。根据无线电信号的公共特征，选择5个锚框（width, height），分别为如下。

① (0.015, 0.9)：匹配窄带持续信号；

② (0.5, 0.9)：匹配宽带持续信号；

③ (0.025, 0.05)：匹配窄带瞬时信号；

④ (0.469, 0.01)：匹配宽带瞬时信号；

⑤ (0.469, 0.1)：匹配宽带瞬时信号。

3) 模型输出的张量尺寸。根据输入尺寸和数据集特征，推导出新输出的张量尺寸为16×16×85。

如表2所示，RadioYOLO模型包含23层卷积层和5层池化层，每个卷积层均作批归一化处理和leakyReLU激活。模型输入为512×512×1的频谱瀑布图，输出为 16×16×K的张量，K的取值如式(3)所示。

其中，anchor_num 表示锚框（anchor）的个数，class_num表示待识别信号类型的个数。在本文的验证实验中，anchor_num=5，class_num=12，因此可得K=85。

式(3)中括号内的加数5表示除了信号类型外还有5个维度的特征参数预测值[tx,ty,tw,th, to]，分别代表信号边框的左上点坐标(bx,by)、边框尺寸(bw,bh)和置信度(conf)。为了提高模型训练的稳定性，tx等预测值不是真实值，而是一种归一化的中间值，它们与真实值的关系满足式(4)。因此，在利用神经网络模型得到预测特征张量后，仍需通过式(4)计算最终的真实预测值，完成目标检测。

图4 RadioYOLO模型结构

表2 RadioYOLO模型结构

4 数据集构建

4.1 数据采集

在之前的无线电识别研究文献中，无线电数据通常来自仿真系统，如Matlab仿真软件、GnuRadio仿真软件、信号发生器等，在实验室环境下，通过人工代码的控制，生成单一的或混合的有噪信号[15-17,20-23,27-28]。这种方式降低了数据获取和预处理的难度，方便利用先验信息进行数据标注，进而完成算法的验证。但是，受到信道衰落、时钟抖动、未知辐射源、接收机射频特性等复杂因素的影响，仿真数据与真实环境下的电磁环境往往存在较大差异，影响算法的真实性和实用性。

为此，本文利用GnuRadio+USRP软件无线电平台开发了一套高速频谱采集系统，用于采集真实环境下的频谱数据，如图5所示。USRP设备是美国NI公司设计并生产的一款开源软件无线电模块，采用AD9361射频集成芯片方案，工作频段可覆盖70～6 000 MHz。GnuRadio是一个开源软件，利用普通计算机实现调制/解调、编解码等数字信号处理，与USRP配套使用可快速构建无线通信原理验证系统。该系统通过优化数据存储算法，最高可支持50 MHz瞬时带宽信号的分钟级无损保存，并可在预设频率集上自动扫频存储。

图5 高速频谱采集系统

本文的所有训练数据和测试数据均来自GnuRadio+USRP软件无线电平台的实地频谱采样。采样速率为40 Msample/s，单频点采样时长约5 s，采样地点包括北京中关村地区、天津滨海新区、天津渤海湾地区等共 7个点位，关注信号为常见2G/3G/4G蜂窝下行信号12种，在包含关注信号的频段内，每偏移10 MHz设立一个采样频点，共计34个频点，数据集总大小约为650 GB。

表 3是北京中关村地区三大运营商 2G/3G/4G蜂窝下行频率分配表，该表是基于相关标准文件，利用仪器实际测量观察后校对所得。结合北京、天津等地的实测结果，发现该表并不通用，各运营商有可能在不同区域按照入网用户的数量和流量特征，在一定条件下自主调整频率资源的分配，使不同区域、相同频点处的信号类型可能有所不同。这对本研究的核心算法没有任何影响，但会给数据标注工作带来一定麻烦。

表3 北京地区三大运营商2G/3G/4G蜂窝下行频率分配

4.2 数据预处理与标注

原始数据的格式为时域I/Q采样，必须先转换为频谱瀑布图，才能被RadioYOLO模型识别和处理。本文利用 Python语言和相关第三方库，按照3.1节的预处理流程，编写了一系列脚本代码，将采集到的650 GB时域I/Q采样数据转变为4 740张512像素×512像素的灰白图片，其中，训练集3 792张，测试集948张。

对训练样本和测试样本进行标注。使用传统方法进行数据标注是一项烦琐的人力劳动，而本文基于本数据集内待识别信号具有固定工作频段且持续存在的特点，设计了一种半自动的数据标注方法，大大减少了重复性工作。该方法先在每个点位、每个频点挑选2张频谱图进行人工标注，然后对该点位、该频点剩余的频谱图进行软件自动化标注，其标注坐标在2张人工标注的坐标范围内随机抖动，标注示例如图6所示。在以1 860 MHz为中心的 40 MHz范围内，共存在一个 Uni4G_DL_FDD1800信号（联通4G下行信号）和一个Tele4G_DL_FDD1800信号（电信4G下行信号），通过标注可视化边框，软件按一定格式自动在后台生成该图片的文本标注信息。

值得一提的是，虽然本文方法中数据的采集和标注都基于频率，而对于 2G/3G/4G蜂窝等授权通信系统，直接利用频率信息几乎就可以完成信号识别，但这并不具备通用性，且无法完成核心技术的验证。因此，本文在模型训练和检测时，刻意回避了中心频率信息，只对接收机通带内的数字基带信号进行处理。这也意味着，即使某信号被调谐到未知的非授权频段内，也不会影响本算法的检测结果。

5 结果与分析

图6 1 860 MHz频点数据标注示例

为了验证算法性能，本文在Tensorflow框架下，利用 Python语言实现了 RadioYOLO模型及整个RadioImageDet算法，并进行模型训练与测试。数据集来自预处理后的真实频谱数据，共包含 12种信号，其中，训练样本3 792个，测试样本948个，具体数据特征见第3节。模型训练时，对训练集的前80%进行训练，后20%用于训练过程中的模型验证。模型训练优化器采用Adam算法，轮次（epoch）上限设为50，批大小（batch_size）设为8。从实际运行结果来看，在采用NVIDA GTX1060T 显卡加速的条件下，训练速度约为600 ms/batch，每轮耗时约为230 s。单个样本的测试速度约为33 ms，检测帧速为30 frame/s，基本满足实时应用需求。

5.1 识别效果分析

识别结果的输出如图7所示，图中底部标签中的“√”表示该样本检测的结果是正确的，“×”表示该样本检测的结果出现错误。模型软件会根据识别的结果自动在原图上进行标框，并注明信号类型和识别置信度。如图7 (d)所示，在该时频观察窗内识别出2个信号，分别是Mobi4G_TDLTE _20M和Mobi4G_TDLTE_10M信号，2个信号的时频范围分别用不同线形的方框围起来，并在顶部注明信号类型名称和检测置信度。由图可知，某些信号在频谱瀑布图上的特征非常明显，通过人眼可以轻易判决，这是本文开展本研究的基本前提和动机。从检测结果上看，人眼能够轻易识别的信号，在绝大多数情况下该算法模型也能正确识别，但也有一些例外，如图 7(g)所示。而人眼不易识别的信号，算法模型出错的概率更高，如图 7(b)所示，但某些情况下也能正确识别，如图7(e)所示。这些现象都直观地证明了利用图像深度学习方法进行无线电信号识别的可行性和有效性。

为了更严谨地评估算法的性能，需要更多的量化指标。如图8所示，对于二分类问题，根据真实值和预测值的结果，可以将整个样本集分为4个象限，分别是真正例（TP）、伪正例（FP）、真反例（TN）和伪反例（FN）。经过简单扩展，二分类混淆矩阵（confusion matrix）也可以变成多分类混淆矩阵。基于混淆矩阵，可以构造多种分类器性能评价指标。准确率（accuracy）是最常见的评价指标，其计算式为即被分对的样本数占总样本数的比例。通常来说，准确率越高，分类器越好。图9是本文模型测试结果的归一化混淆矩阵，其中纵轴表示真实标签，横轴表示预测标签，在12×12的坐标内，用方框灰色的深浅表示数值，灰色越深、数值越大。一般而言，混淆矩阵对角线的灰色越深越好，其他坐标点的灰色越浅越好。由图可知，本文模型对于大部分信号识别性能很好，但是容易将Uni4G_DL_FDD1800和Uni4G_DL_FDD2100分别识别成 Tele4G_DL_FDD2100和 Tele4G_DL_FDD 1800。根据混淆矩阵和准确率计算式，可以算出该模型的识别准确率为86.04%。

图7 模型测试结果样本

准确率虽然是一个很直观的评价指标，但是有时并不能完全反映一个算法的好坏，特别是在样本数据分布不均衡时尤为明显，因此本文引入了功能更强大的 PR（precision-recall）曲线，即查准率-查全率曲线，其纵坐标为precision，横坐标为recall。precision又称精准率，其计算式为 precision=表示被分为正例的示例中实际为正例的比例；recall又称召回率，其计算式为表示所有正例中被分对的比例。PR曲线可以直观展示分类效果的好坏，在分类、检索等领域应用广泛，通常曲线越靠近坐标(1, 1)，分类器性能越好。

图8 二分类问题的混淆矩阵

图9 测试结果—12类信号识别的归一化混淆矩阵

但是PR曲线是一个向量，不便于数值比较，因此通常使用平均查准率（AP , average-precision），即PR曲线下的面积，进行分类效果评估。通常一个分类器能够同时识别多个目标，而一条PR曲线及其AP值只能表示其中一种目标的分类效果，因此，可以对所有AP值求平均，就得到了mAP(mean average precision)值。目前，mAP值已经成为检测算法的核心性能指标之一。

图10是本文模型测试结果的PR曲线，表4是其对应的结果数值，由于图 10存在多条曲线重叠的情况，具体数值可见表4。从表4可以看出，尽管Uni4G_DL_FDD1800和Uni4G_DL_FDD2100的识别精准率很高，均在90%以上，但由于其召回率较低，分别约为26%和60%，因此整体的AP值指标并不好，分别只有26.02和58.50。换句话说，如果该分类器判定一个信号是 Uni4G_DL_FDD1800或 Uni4G_DL _FDD2100，则很可能是对的，但也会出现很多漏检情况。Tele4G_DL_FDD2100的情况刚好相反，其召回率可达到99%，但精准率不高，只有不到54%，也就是说，该分类器能够把几乎所有的Tele4G_DL_FDD 2100信号都检测出来，但也会出现很多误判情况。Mobi3G_TDSCDMA的情况则兼具二者的特征，召回率和精准率都一般，整体识别效果也比较一般。除了这4种信号以外，其他8种信号的识别效果都比较好，某些信号的AP值甚至达到95以上。12类信号的平均AP值mAP达到 77.72，在未经任何模型优化的前提下，识别性能非常接近目前自然图像目标检测的最好指标——78.8[31]，这在一定程度上说明了频谱具象化图片的复杂度略低于自然界中的图片，因此，现有的自然图像目标检测模型的复杂度完全能够胜任无线电信号目标检测任务。

图10 12类信号识别的PR曲线，mAP=77.72

5.2 性能对比

本文所提的RadioImageDet算法，能够同时检测出混叠信号中存在的每一种信号类型及其时频坐标，而现有算法往往只能检测出所含的多个信号类型，甚至只能检测出最可能存在的一个信号类型。因此，本文在现有算法的能力范围内，对部分指标进行对比，对比算法选择 NFSC（neuro-fuzzy signal classifier）算法[26]和 WII（wireless interference identification）算法[27]。

表4 测试结果

NFSC算法属于一种传统信号识别算法。它利用信号功率谱密度的相似性区分信号，首先为每一种信号选择一个参考信号，经过滤波、归一化等处理后，采用基于神经模糊的相似度测量方法，计算待测信号与每一个参考信号间功率谱密度的相似性，如果相似度大于某门限，则判定含有该类信号。根据文献[26]，神经模糊相似度计算方法如式(5)所示，判决门限为0.5。

其中，R[n]表示参考信号功率谱密度，S[n]表示待测信号功率谱密度，SM为相似度。

WII算法是一种基于深度学习的信号识别算法。它采用与O’shea模型极为相似的4层CNN结构，只是将输入替换为FFT的频域表达形式。原始的WII算法只能识别单一信号的类型，无法检测混叠信号，因此需要对其进行一些改进。首先，将模型最后一层由softmax激活改为sigmoid激活，让其能够输出所有信号类型的置信概率向量，以实现识别混叠信号的能力；然后，利用本研究采集的原始I/Q数据，专门为WII算法的训练和测试构造数据集，样本量总计11 700条，并且其标注数据样式为 Multi-Hot，而非原始的 One-Hot；最后，利用训练后的模型进行测试，将模型输出向量Y与某一概率门限进行对比，如果Y[i]大于该门限，则判定信号i存在。显而易见，门限值对判决结果影响很大。经过遍历性测试发现，当门限值等于0.1时，精准率指标最高，因此，本对比实验中将概率门限置为0.1。

为了便于评估某一具体信号类型的分类准确性，选用精准率（precision）作为对比指标，它表示被分为正例的示例中实际为正例的比例。由图11可见，RadioImageDet算法的平均精准率达到 89.0%，改进后的 WII算法为 53.8%，传统的 NFSC算法只有49.3%，平均精准率分别提高了35.2%和39.7%。

图11 3种算法的精准率指标对比

6 结束语

无线电信号识别技术作为无线通信的一个重要研究领域，在军事电子战、政府频谱监管、商业频谱共享接入等方面应用广泛。结合其作为一种“模式识别”任务的本质，以及人工智能在模式识别任务中特有的优势，本文提出了一种基于图像深度学习的无线电信号识别算法——RadioImageDet算法。该算法首先利用传统数字信号处理方法，将I/Q采样数据流变换为一张二维频谱瀑布图，将无线电信号识别问题转化为图像识别领域的目标检测问题；进而利用人工智能在图像识别领域的先进成果，以YOLOv2模型为基础，构造了一种面向无线电信号识别的端到端深度神经网络模型——RadioYOLO模型，并利用该模型识别信号的波形类型和时/频坐标。这种将无线电信号识别问题转化为图像目标检测问题的思路，在国内外尚属首次提出，给未来复杂电磁环境下智能化无线电信号识别技术的研究开启了一条新思路。

为了检验算法的真实性能，本研究基于GnuRadio和USRP平台，开发了一套高速频谱采集系统，并在北京、天津等地实地采集频谱数据，构建无线电数据集。实验结果表明，RadioImageDet算法能有效识别具象化后的无线电信号，识别效果与人眼近似，在实地采集的12种、4 740个样本的数据集中，识别准确率达到86.04%，mAP值达到77.72，检测时间在中等配置的台式计算机上仅需33 ms，充分验证了本文所提思路的可行性和本文算法的有效性。

RadioImageDet算法只是基于图像深度学习的无线电信号识别技术思路的第一次初步尝试，从实验结果中也能看出一些不足。未来，将进一步研究其他信号具象化方法和更加适合无线电信号特征的神经网络模型。