基于胶囊神经网络的SAR图像目标识别

2021-02-16温显斌

天津理工大学学报 2021年6期

王璐，温显斌

（天津理工大学计算机科学与工程学院，天津 300384）

合成孔径雷达（synthetic aperture radar，SAR）通过发送电磁波、雷达天线收集、数字化和存储反射回波后形成图像，即SAR图像[1]。SAR图像不受时间、天气等因素影响，能在不同频段和不同极化条件下得到高分辨率雷达图像，在灾害预警、环境监测、资源勘查、测绘和军事等方面具有不可替代的优势。

近年来深度学习的发展日新月异，越来越多的深度学习方法被用来解决SAR图像自动目标识别。MORI[2]利用谱聚类方法来得到超像素分割算法，PEI等[3]提出了多视图深度学习（multiview deep learning framework）方法。

使用卷积网络解译图像也存在着很多不足：由于卷积网络中池化层的采用和标量神经单元激活的限制，卷积网络无法学习图像数据中的空间层级信息，同时卷积网络在计算过程中虽然能保留图像对象的不变性，但却失去了对象的同变性，这导致卷积网络无法识别图像内对象之间的相对位置关系，从而影响了网络对图像的理解能力。SAR图像由于其成像的特殊性具有很强的结构信息，因此使用卷积网络进行SAR图像解译效果差强人意。

SABOUR等[4]提出了胶囊网络，一方面，该网络使用向量（胶囊）神经元作为网络的基本数据单元，相比于卷积网络，它表示的信息更加丰富，具有更大的容量。另一方面，胶囊网络舍弃了池化层，并由动态路由算法取代。携带图像信息的胶囊从底层向高层通过路由方法传导，在保持其自身属性不变（如旋转角度，位移，尺寸等）的同时，还保持空间层级信息的不变。最后，胶囊网络中的解码网络可以使重建的图像不仅能保留原始图像的图形，而且还能保留图形之间的相对空间关系。

1 本文方法

当前用于研究SAR图像自动目标识别（auto target recognition，ATR）的图像是美国国防高级研究计划署和空军研究室提供的MSTAR图像，采集该数据集的传感器为高分辨率的聚束式SAR。MSTAR数据集含有2S1、BMP2、BRDM2、BTR70、BTR60、D7、T62、ZIL131、ZSU234、T72

等10类目标不同俯仰角的SAR图像数据。本文使用MSTAR数据集中标准操作条件（standard operating conditions，SOC）下的数据集，SOC数据集中将俯仰角为17°的图像作为训练集，共有2 747张，将俯仰角为15°的目标作为测试集，共有2 426张。MSTAR数据集中10类光学图像与SAR图像对比如图1所示。

图1 MSTAR数据集中10类光学图像与SAR图像对比图Fig.1 Comparison of optical images and SAR images in the MSTAR data set

MSTAR数据集较小，且SAR图像固有的灰度性和纹理性构成其较强的结构信息。胶囊神经网络使用向量作为基本神经元，网络层数浅，能最大限度地保留图像结构信息和空间层级信息，保留了图像的同变性。因此本文选择胶囊神经网络作为图像分类的基本框架，完成SAR图像目标识别。

本文网络架构较浅，包含2个卷积层和1个完全连接层，网络模型图如图2所示。

图2 网络模型图Fig.2 Network model diagram

首先，分两步对图像进行预处理，即灰度化和双线性插值，然后将图像送入网络中。本文网络结构中第1层是卷积层，Conv1有256个卷积核为9×9、步长为1的卷积单元，使用ReLU激活函数。这一层将像素强度转换为局部特征探测器的活动，然后将其用作初级胶囊的输入。通常将实例化的部分拼凑成熟悉的整体，而在胶囊网络中初级胶囊是多维实体的最底层，从反图形的角度来看，激活初级胶囊相当于反相呈现的过程。第2层初级胶囊层（primary capsules layer）是卷积胶囊层，共含有32个初级胶囊，初级胶囊是一个8维胶囊，即每个初级胶囊有32个卷积通道，每个通道中都含有一个8维胶囊（即每个初级胶囊含有8个卷积核为9×9、步长为2的卷积单元）。每个初级胶囊的输出中包含256×81个Conv1单元的输出信息，这些单元的接受野与胶囊中心位置重叠。在整个初级胶囊层中共有32×6×6个胶囊输出（每个输出是一个8维向量），每个胶囊在6×6的网格中共享权重。最后一层是主胶囊层（main layer），共有10个SAR图像类别，每个类有1个16维胶囊，这些胶囊接收来自前面层中所有胶囊的输入。

主胶囊层中每个胶囊的活动向量的长度表示每个类的实例的存在，并用于计算分类损失。在主胶囊层中，重构SAR图像，重构译码器模型图如图3所示。

图3 重构译码器模型图Fig.3 Reconstruction of the decoder model diagram

在训练过程中，将图像与信号层输入的欧氏距离最小化，使用真实标签作为重建目标。初级胶囊层中，Wij是每个ui（胶囊输出）之间的权重矩阵，i∈(1,32×6×6),j∈(1,10)。在2个连续的胶囊层之间进行路由，Conv1与初级胶囊层之间因输出维度不同不进行路由。所有的路由日志(bij)初始化为零。因此，最初将一个胶囊输出(ui)以相等的概率(cij)发送给所有的父胶囊(v0,…,v9)。

在初级胶囊层和主胶囊层之间的路由过程中，使用一个如式（1）所示的非线性“压缩”函数来确保短向量缩小到几乎为零的长度，长向量缩小到略低于1的长度，并利用判别式来充分学习它的非线性。这个函数的特点是在模长很接近于0时起到放大作用，而不像原来的函数那样全局都压缩。

式中，vj为胶囊j的向量输出，sj为其总输入。sj的计算公式为：

除了第1层胶囊外，所有胶囊sj的总输入是所有预测向量的加权和，来自下面层中的胶囊，是通过将下面层中的胶囊的输出ui乘以权重矩阵Wij产生的，其计算方法为：

式中，cij为耦合系数，由迭代动态路由过程确定。

胶囊i与上述主胶囊层中所有胶囊的耦合系数之和为1，由一个“路由softmax”确定，bij初始值是胶囊i耦合到胶囊j的对数先验概率，cij的计算公式为：

对数先验可以和其他权值一样有区别地学习，通过测量胶囊i和胶囊i预测出的胶囊j之间的一致性来迭代地改进初始耦合系数，该一致性用数积来表示。在计算将胶囊i与更高级别胶囊连接的所有耦合系数的新值之前，该协议被视为对数似然，并被添加到bij初始值中。动态路由算法表如表1所示。

表1 动态路由算法表Tab.1 Dynamic routing algorithm table

本文使用实例化向量的长度来表示胶囊实体存在的概率，使用一个单独的边缘损失函数，其公式为：

式中，Lk为每个数字胶囊，正确分类时Tk=1，m+=0.95，m-=0.05，λ=0.5。λ降低了缺少数字类时停止初始学习以缩小所有数字胶囊的活动向量的长度的损失，总损失是所有数字胶囊损失的总和。

2 实验验证与分析

本文实验使用SOC数据集，标准操作条件且训练集和测试集中目标图像仅俯仰角和方位角不同，SOC数据集目标类别、型号与数量表如表2所示。

表2 SOC数据集目标类别、型号与数量表Tab.2 Target category，model and number of SOC data set

SOC数据集主要用来验证识别网络的准确性，其训练损失图如图4所示，测试损失图如图5所示，测试准确率图如图6所示。

图4 训练损失图Fig.4 Training loss diagram

图5 测试损失图Fig.5 training loss diagram

图6 测试准确率图Fig.6 Test accuracy diagram

SOC数据集下识别结果混淆矩阵如表3所示。

表3 SOC数据集下识别结果混淆矩阵表（识别率：99.38%）Tab.3 Confusion matrix of recognition results in SOC data set（Recognition rate：99.38%）

将本文提出的胶囊-SAR ATR方法与其他7种SAR ATR算法进行比较，这些方法分别是支持向量机（support vector machine，SVM）[5]、自适应升力（adaptive boosting，AdaBoost）[6]、条件高斯模型（conditional gaussian models，CGM）[7]、迭代图增厚（iterative graph thickening，IGT）[8]，以及最近发布的3种基于卷积神经网络的方法：全卷积神经网络（all-convolutional neural network，A-ConvNet[9]、基于高速单元深度卷积神经网络（deep convolutional highway unit network，DCHUN）[10]、基于迁移学习的卷积神经网络（transfer learning with convolutional neural network，CNN-TL）[11]，SOC下不同方法的比较表如表4所示。

由表4可知，对于传统方法SVM、AdaBoost、IGT和CGM进行SAR图像识别，由于无法完整提取图像特征，从而导致识别精度较低。基于卷积神经网络的方法A-ConvNet、DCHUN和CNN-TL通过训练图像大幅提升了识别精度，但是网络结构一般较为复杂，参数量大。而本文提出的基于胶囊神经网络的识别方法通过训练同一个数据集，得到了更高的准确率。胶囊神经网络对于小样本数据集具有更加明显的优势，保证参数量在合理的范围内，更加充分地提取图像信息，尤其适合SAR图像这种对结构信息敏感的图像，因此胶囊在提取特征方面的鲁棒性和路由算法的有效性使得识别精度有了提升。

表4 SOC下不同方法的比较表Tab.4 Comparison table of different methods in SOC

3 结论

本文采用胶囊神经网络作为目标识别的基本网络架构，有效保留了SAR图像的同变性和结构信息，充分学习了SAR图像的图像特征并准确识别。通过理论分析与实验验证发现，该方法与其他方法相比，网络结构简单、参数量小、准确率高。由于本文的训练集过少，训练效果仍有提升的空间，今后希望可以借助生成对抗网络等方式生成更多可供训练的样本，进一步提升SAR图像目标识别的准确性。同时，对于扩展操作条件下的SAR数据集，本文提出的方法的识别精度并不理想，希望在后续的科研工作中能够提出一种泛化能力更强的方法，以便在不同的SAR图像数据集中均能取得较高的识别精度。