基于多模态深度学习的图像序列弱小目标识别

2022-03-15纪冲，王琛

计算机仿真 2022年2期

纪冲，王琛

(内蒙古农业大学计算机与信息工程学院，内蒙古呼和浩特 010018)

1 引言

图像序列是指在不同时间、不同方位对目标依序连续获取的系列图像，是一种多模态图像。一般情况下，在复杂的图像序列背景中，弱小目标只会呈现出一个或几个像素大小，并且容易受强波干扰，信噪比较低[1]，因此有效且准确的对其进行识别逐渐发展成热门研究内容，随着人们对不同识别方法的深入探究，多模态深度学习以其在图像分类和识别方面的优异效果成为了被广泛应用的技术手段。深度学习的理论概念起源于对神经网络的研究，其学习结构分为多隐层和多层感知器两部分，是机器学习中的一个新领域，其主要运行动机在于对人脑进行模拟并且对神经网络进行分析学习，然后通过模拟人脑机制对数据解释。

当前已有学者对图像序列弱小目标识别做出了研究。文献[2]提出基于小波分解的离焦模糊图像序列微弱运动目标自动检测方法，采用小波分解法分解图像，计算小波系数局部方差，缩减小波系数，滤除图像噪声，根据动态聚类完成目标检测。该方法，检测效率较好但对相似物体的检测精度较低，文献[3]提出基于时空非局部相似性的红外图像弱小目标检测方法，根据红外图像序列及每帧局部背景图像的相似特性，采用时空域图像块模型求解图像目标，完成图像序列弱小目标识别。该方法的检测精度较好，但对相似物体的检测精度较差。

针对上述方法存在的问题，提出基于多模态深度学习的弱小目标识别方法。利用弱小目标与背景灰度相关性之间的差对单帧图像进行背景抑制，去除图像冗杂信息，通过图像目标分割处理滤除高频噪声。使用加入稀疏性约束的自编码器不断调节其自身参数，压缩输入信息，并且提取出有用的输入特征，训练出最优向量，最后使用优化后的CNN深度学习模型完成弱小目标识别，在识别的过程中加入了连续帧和非连续帧的特征对识别进行了优化。

2 图像预处理

图像序列中，弱小目标为点状，SNR较低，若直接识别较为困难，因此对弱小目标识别前需要对图像进行背景抑制，分离弱小目标和高频噪声，构建高频噪声和弱小目标的概率密度函数，获取弱小目标，实现目标分割，据此实现图像预处理。

2.1 单帧图像背景抑制

通常情况下，图像背景变化较为平缓，且背景像素之间的灰度是相互联系的，而弱小目标和背景的相关性相对较差，与背景中的高频分量相对应。若用弱小目标区域的像素点灰度值来预测弱小目标的灰度值，则预测结果会与该点实际的灰度值存在较大差异，由此即可实现目标像素点与背景像素点的抑制和区分。

背景抑制模型如下

m=0，1，…，M-1，n=0，1，…，N-1

(1)

式(1)中，f表示输入图像；y代表预测图像；wj表示y的权重矩阵；sj表示背景像素点集合，背景像素点与权重矩阵的权值取决于图像背景的复杂程度。在式(1)的基础上可得预测和输入图像间的差图像，可以表示为

e(m，n)=f(m，n)-y(m，n)

(2)

式(2)中，y(m，n)表示在(m，n)像素点上的背景灰度；e表示差图像，当像素点(m，n)与sj的像素点处于同一背景时，e(m，n)≈0，则起到了背景抑制的效果。

2.2 目标分割

原图像经过背景抑制后，会得到弱小目标和高频噪声，弱小目标可近似看作为均匀分布，而图像中的高频噪声一般可视为高斯分布，则高频噪声和弱小目标的概率密度函数[4]分别可表示为

(3)

式(3)中，z表示图像序列上某一点的观测值，m1、m2分别代表背景噪声[5]和弱小目标，k代表z的分布范围。当P(z|m1)和P(z|m2)分别小于λ时，该像素点表示弱小目标；当P(z|m1)和P(z|m2)分别大于λ时，则该像素点表示背景噪声，其中λ表示决策权限。

当z2>-2σ2[In(2πσλ)-Ink]时，即可将该像素点判定为目标点并且加以标记，同时将其余像素点的灰质度置零。据此实现高频噪声和弱小目标分析，获取弱小目标。

3 基于多模态学习的图像序列弱小目标识别

图像序列是一种多模态数据[6]，是指在不同的时间、方位对目标依序连续获取的序列图像。本文将稀疏自编码和CNN深度学习模型相结合，通过时间相关性对似然函数完成弱小目标识别。

3.1 稀疏自编码

稀疏自编码器[7]指的是在自编码器的基础上加入稀疏性约束，少量激活隐藏层的神经元，其结构图如图1所示。

图1 稀疏自编码器结构

若x∈Rd×1为无类别输入向量，通过非线性激活函数映射后，获得隐藏层y∈RN×1如下

y=fθ(Wx+b)

(4)

式(4)中，W表示权值矩阵，b表示偏置向量。fθ(x)=1/(1+e-x)代表Sigmoid函数。y由式(5)再次进行映射，构造出向量z∈Rd×1

(5)

当激活函数为线性函数，且隐藏层神经元数量要少于输入层时，则可以学到与主成分分析类似的低维表示结果。当隐藏层中包含较大数量的神经元[9]时，通过加入稀疏性约束规则，从而获得输入数据中所包含的隐藏信息和其详细的内在结构。

(6)

(7)

由此实现了稀疏性限制[10]，通过加入惩罚因子，总体代价函数也发生了改变，其具体表达式为

(8)

式(5)中，W代表权值矩阵，b代表偏置向量，β为一个常数，J(W，b)表示代价函数。在神经网络训练的过程中，将权值矩阵和偏置向量进行调整，达到式(8)的极小值。

递归神经网络是指数据在输出到输入的过程中，会产生反馈连接的一种神经网络，能够降低维度，同时也能够对图像抽象特征进行有效的学习，一般可以将其视为卷积与池化的结合。

本文采用树形网络结构合并每一层的向量块。若递归神经网络输入矩阵x∈RK×r×r，则其目标是将X合并然后转化成向量y∈RK，其过程如下：

图2 递归神经网络

一般情况下，如果合并块的大小是K×b×b，那么每个合并块中存在b2个向量，通过式(9)即可获得向量为

p=f(W×[X1，…Xb2]T)

(9)

式(9)中，Xi表示向量块，W∈RK×b2×K，f代表非线性函数。利用式(9)将相同权重向量块进行合并，获得向量矩阵。

3.2 基于CNN多模态学习弱小目标识别算法

CNN是一种多层感知机的变种模型[11]，是现阶段快速发展并被广泛应用的一种性能较高的识别方法，从生物学理论逐渐演化而成的。

CNN中包含了特征提取层和映射层两种内部结构。特征提取的主要目的是将神经元的输入信息与前一层接收域之间建立连接，并且对该部分特征进行提取，当特征提取完成后，局部特征与其它特征的位置关系也会被确定；特征映射层主要目的是生成计算层，每个特征映射层均可视为平面，并且平面上的神经元权重相等。

特征映射是将sigmoid函数[12]作为激活函数，使其具有位移不变性。利用卷积神经网络中的各个卷积层和计算层之间的关系，计算出局部平均值，并且进行二次提取。该特征提取结构能够有效降低特征的分辨率。

(10)

子抽样层Sl在每个出入位面上使用Kl×Kl平滑滤波

(11)

CNN中每个卷积层在运算过程中均会使用到非线性函数tanh(·)，并且会采用全连接层对标签向量进行识别，本文引入“softmax”层对这些向量进行解释，其计算公式如下

(12)

通过最小化似然函数L(θ)为目标对CNN网络中的每个参数θ进行优化，其数学表达式如下

(13)

进行优化处理后，采用随机梯度下降算法对参数θ进行训练，计算出随机样本(x，y)的梯度∂L(θ)/∂θ后，接着对其进行更新，如下式

(14)

为了使θ能够得到更好的训练，以达到更准确的识别率，使用时间相关性对似然函数进一步进行优化。

(15)

式(15)中，δ表示边缘尺寸。

在弱小目标识别的过程中，本文方法利用了图像连续帧、非连续帧的固定特征对识别方法进行了优化，从而保证了识别结果的高准确率。

4 仿真研究

为验证所提方法的有效性，设计仿真。采用MATLAB仿真软件作为实验测试平台，以Imagenet 小尺寸图像数据集(http：∥image-net.org/small/download.php)为实验对象，从中选取1.0Gb大小的图像作为样本训练图像。

采用多模态深度学习识别算法及文献[2]、文献[3]算法对样本图像弱小目标识别，为确定隐藏层神经元个数K1和递归神经网格数目K2对识别结果的影响，对样本图像进行实验测试来获取二者的合理取值。首先选取图像样本通过稀疏自编码器对输入数据进行训练，在训练获得数据的基础上，对图像序列进行卷积特征提取，最后以现有的结构和样本图像为基础，确定K1、K2的取值。

将K1和K2从增量8变化至80，二者对不同特征图像识别的准确率的影响分别如图3所示：

图3 递归神经网络和隐藏神经元个数对准确率的影响

从图3中可以看出，随着K1、K2的增加，所提算法的图像特征识别的准确率越来越高，当K1、K2的个数为64时，其识别准确率达到最优。因此在采用所提方法进行图像序列弱小目标识别时，设置K1、K2个为64，能够得到最准确的目标识别率；而文献对比方法的目标识别准确率始终低于所提算法，且图像特征识别的准确率波动较大。

为进一步验证本文方法的有效性，将其与文献[2]方法、文献[3]方法进行对比。将图像样本平均分为6组，并且分为训练集和测试集，将训练集和测试集分为以下3种情况：

1)1个训练集和5个测试集。

2)2个训练集和4个测试集。

3)5个训练集和1个测试集。

采用不同识别算法分别对这三种情况进行识别，其识别率如表1所示。

表1 不同算法识别率比较

从表1可以看出，本文方法在只有1组训练集时识别率为92.5%，当训练集增加到5时，识别率达到最大，为99.21%，误差仅为0.79%。各弱小目标识别方法的识别准确性随着训练集的规模增大而得到显著的提高，但是与另外两种识别方法相比，本文方法能够不依赖大量对象进行识别训练，始终保持较高的识别率。

5 结论

针对现有弱小目标识别对相似物体识别精度较低等问题，提出基于多模态深度学习的图像序列弱小目标识别。在图像预处理及稀疏自编码的基础上，使用优化后的CNN深度学习模型完成弱小目标识别。在实验中，与传统目标识别方法相比，本文方法能够在不依赖大量识别训练的前提下保持较高的弱小目标识别率，充分证明本文方法的有效性和准确性。