APP下载

基于深度学习和GB-RBM的UAV红外语义分割方法

2023-09-13冯向东邬忠萍郝宗波

计算机工程与设计 2023年8期
关键词:玻尔兹曼解码器编码器

冯向东,邬忠萍,郝宗波

(1.成都理工大学工程技术学院 基础教学部,四川 乐山 614000;2.成都工业学院 汽车与交通学院,四川 成都 611730;3.电子科技大学 信息与软件工程学院,四川 成都 610054)

0 引 言

当前,无人机(unmanned aerial vehicle,UAV)红外影像已成为局部地区状况监测的重要手段[1]。其中,利用UAV红外热成像进行地面车辆语义分割应用前景广阔,例如交通监测、事故分析[2]、无人驾驶车辆管理[3]、车辆类型识别与停车场管理等[4]。

一般情况下,UAV红外图像的车辆检测和语义分割可分为3类:①提取如边缘、光谱等非自动特征,并进行转换合并[5],但仅使用低级特征无法从大量训练样本中学习,准确度不高;②利用机器学习方法,如支持向量机和各种类型的人工神经网络[6],但ML算法存在饱和限制;③利用深度学习(deep learning,DL)进行特征提取[7]。

增加卷积神经网络(convolutional neural network,CNN)层数有助于对更高层特征进行抽象,学习给定输入和对应输出之间的复杂关系,提高分割性能。图像语义分割架构大多采用编码器和解码器结构,分别用于视觉特征生成和输入图像重建。不同架构差异在于卷积层数和激活函数[8]。近些年,ResNet、U-Net和SegNet是性能很好的语义分割架构。ResNet[9]架构将输入图像像素向量与解码输出相加,U-Net[10]架构在收缩块和扩展块之间添加了一个卷积块,从而可以提高网络性能。SegNet[11]架构基于VGG16网络,通过开发上采样层重建图像原始尺寸,且网络参数简约,在内存使用和输出精度之间实现较好平衡。针对CNN中的过拟合问题,文献[12]利用池化层,通过对图像中像素进行编码,提高训练过程中的准确度。

本文提出了基于DL架构和高斯伯努利受限玻尔兹曼机的方法,采用SegNet框架,无需后处理即可实现准确的边界定位。将GB-RBM融入CNN中,有效提取出的光谱信息和几何特征,准确完成UAV红外图像的语义分割。

1 基于GB-RBM的红外语义分割

本文的GB-RBM深度学习模块架构如图1所示,通过在提出的架构中对卷积编码器/解码器块和GB-RBM模块进行融合,在GB-RBM与编码/解码向量之间建立联系,提高UAV红外图像语义分割准确度。

图1 基于GB-RBM的深度学习模块

1.1 编码器/解码器结构

SegNet架构拓扑基于VGG16[13]网络,包含13个卷积层的编码器网络。编码器块包含5个子块,每个子块包含不同卷积层和一个池化层。解码器块包含5个子块,每个子块包括反卷积层和上采样层。SegNet架构利用上采样层对图像原始尺寸进行重建,该处理对图像尺寸进行扩展,将偶数行和列填充为图像数据,并以零值填充奇数行和列。为了向这些零神经元赋值,必须使用插值控制。通过替换中心神经元中的高斯核,并将其与非零值相乘,计算受控插值以得到零神经元的值,并统一结果,计算每个神经元的数值。

每个人工神经网络架构的卷积层都包含窗口权重,批归一化层和激活函数。可基于输入图像(I)和窗口权重(K),将卷积架构中的神经元表示为

(I*K)i,j=∑w∑h∑cI(i+W,j+h).K(-w,-h)+b

(1)

式中:(I*K)i,j表示K的卷积,其中,I随着窗口移动在整个图像区域内。 ∑w表示图像行值,∑h表示图像列值。 ∑c表示图像的光谱带数量,由于本文研究的是红外图像,取值为1;b为偏置项,一般取常数。

池化函数包括最大池化函数,保存指定邻近区域(通常为2×2区域内)具有最大像素值的像素位置。而在其后的上采样中,则采取与该函数完全相反的操作,由此可以利用较少计算,替换卷积神经网络中生成特征的位置[14]。

图2给出了在像素邻域上应用池化和上采样层的过程。

图2 DCNN中的子块编码器/解码器结构

1.2 基于GB-RBM的形状先验模型

玻尔兹曼机是特殊类型的马尔科夫随机场,该网络以二进制系统中的可见单元和隐藏单元为基础。在该先验模型中,受限玻尔兹曼机(restricted Boltzmann machine,RBM)是切断可见单元和隐藏单元连接的一种玻尔兹曼机,GB-RBM[15]由一个高斯可见单元层和一个二进制隐藏单元层组成。其中,每个单元均与其它层的其它单元相连接,但连接并不是隐藏的。GB-RBM的能量函数定义为

E(v,h|θ)=∑nvi=1(vi-bi)2/2σ2i-∑nvi=1∑nhj=1wijhj(vi/σ2i)-∑nhj=1cjhj

(2)

式中:vi为可见单元,数量为nv;hj为隐藏单元,数量为nh。θ包含连接到可见单元和隐藏单元的wij权重。σi表示高斯可见单元vi的相关标准偏差。bi和cj分别表示第i个可见单元和隐藏单元的偏置。该网络中,向可见单元和隐藏单元分配一个概率值,即获得玻尔兹曼分布

P(v,h|θ)=(1/Z(θ))exp{-E(v,h|θ)}

(3)

式中:Z为归一化常数,定义为

Z=∑v∑hexp{-E(v,h|θ)}

(4)

受限玻尔兹曼学习模型分配至可见单元的概率定义为

P(vi=v|h)=N(v|bi+∑jwijhj,σ2i)

(5)

式中:(.|μ,σ2i) 表示均值为μ、方差为σ2i的高斯函数。同理,还可以计算出隐藏单元的概率。由于隐藏层彼此不连接,其计算不受可见单元条件的影响

P(hj=1|v)=sigmoid(cj+∑iwij(vi/σ2i))

(6)

式中:sigmoid表示S型函数,该实函数有界且可微,对于所有实数均可定义,且包含正导数。最后,为了将较低能量用于训练集合,将较高能量用于其它集合,将误差建模如下

argmin={∑mk=1-log(vk;θ)+βKL(ρ‖k)}

(7)

式中:ρ为稀疏参数,k为训练样本k中激活的隐藏单元均值,β为误差函数权重,KL(ρ‖k) 表示ρ和k之间的相对熵,计算为

KL(ρ‖k)=ρlog(ρ/k)+(1-ρ)log(1-ρ/1-k)

(8)

之所以使用玻尔兹曼分布函数,是因为该网络为二分结构。图3给出了从UAV热红外图像中,基于可见和隐藏单元,利用GB-RBM提取车辆的形状先验模型。本文在深度卷积神经网络的编码器-解码器结构中利用玻尔兹曼机,实现高准确度的UAV热红外图像的车辆提取程序,并对地面车辆进行灵活的语义分割。

图3 利用GB-RBM创建形状先验模型

1.3 编码器/解码器块与GB-RBM相结合

提出的方法融合了卷积编码器/解码器块和GB-RBM模块。其中,未使用单个CNN模型作为单波段图像的特征生成器,而是在GB-RBM与编码/解码向量之间建立联系,由此利用了GB-RBM从热力学数据到车辆分割的能量函数特性。这些能量函数会对热成像视频序列帧的特征提取产生直接影响。由此,通过将CNN方法与GB-RBM模块相融合,在解码器块中生成热力学数据的实时映射,从而对语义分割产生正向影响。

本文使用尺寸为w×h的单波段图像集合,并在深度卷积神经网络结构中使用了GB-RBM。得益于子块输出与玻尔兹曼机生成的特征具有相容性,可以将每个卷积神经网络子块的输出与从玻尔兹曼机得到的特征相加,并将结果插入到下一个子块中。由此基于最优特征,并利用从玻尔兹曼机得到的特征,在光谱信息之外,改善车辆的几何特征,提高训练过程的性能。为了合并GB-RBM和神经网络的结果,使用卷积过滤器和批归一化(batch normalization,BN)层。在所提架构中,编码器块包括大小为3×3、随机加权的卷积层。每个卷积层之后是一个激活函数,修正线性单元(rectified linear unit,ReLU)。假定输入图像特征向量为x,由于编码器子块中生成的特征为指定值,则通过卷积层通道可得到F(x)。另一方面,将x单独作为受限玻尔兹曼机的输入,可创建特征x′。最后,将每个子块的结果彼此相加,F(x)+x′, 从而得到更强力的特征。生成这些特征的主要目的是将光谱数据和几何数据结合在一起。

表1和表2给出了所提架构的具体配置。其中编码器块分为5个子块,前两个子块均为3层,并在第2层加入了GB-RBM模块。后3个子块均为4层,并在第3层中加入了GB-RBM模块。解码器块分为5个子块,前3个子块均为4层,并在第2层中加入了GB-RBM模块。第4个子块为3层,在第2层加入了GB-RBM模块。第5个子块为4层,在第2层加入了GB-RBM模块,且最后一层为Sigmoid层。

表1 编码器的配置

表2 解码器的配置

2 实验结果与分析

UAV热红外成像有3个重要特征:①高空间分辨率;②高时间分辨率;③可拍摄受遮挡的对象。因此,UAV红外热成像技术被应用到各种不同领域中。本文实验所用硬件配置了Intel Core i5 CPU和GeForce GTX 1080,运行Window 7操作系统。为改善地面红外图像,在MATLAB中利用标注工具处理图像,从图像中提取并保存红外车辆边界。此外,为纠正本文网络的权重,使用随机梯度下降(stochastic gradient descent,SGD)算法以改善算法收敛率。

利用2个公开UAV红外图像数据集以及一个自建场景变化数据集,对本文模型进行性能评估,并与3个先进深度学习模型相比较,这些模型包括Res-U-Net[9]、CRAUNet[10]和SegNet[11]。

2.1 数据集

实验使用了两个UAV红外公开数据集,分别为Vivid[16]和NPU[17]基准数据集。此外,本文使用Fluke TiS55热成像仪与DJI-MATRICE 300 RTK UAV,采集了热红外图像组成场景变化数据集。具体数据集情况见表3,其中DS#1为Vivid数据集,DS#2为NPU数据集,DS#3为自建的场景变化数据集。

表3 数据集介绍

2.2 评价指标

实验使用精度(Precision)、召回率(Recall)和F1得分(F1-Score)指标评估车辆分割的识别性能。为提高分割性能评估的通用性,使用马修斯相关系数(Matthews correlation coefficient,MCC)和Jaccard相似性指标(Jaccard similarity index,JSI)[18]式中:TP为目标类别中的目标像素;FP为非目标类别中的目标像素;FN为目标类别中的非目标像素;TN为非目标类别中的非目标像素。精度和召回率越接近1,表示分割性能越好,即成功分割出车辆相关的所有部分。JSI衡量分割结果中得到的TP数量与地面真实之间的相似度,并惩罚结果中的FP,其数值越接近1,表示结果越接近地面真实。MCC取值范围为[-1,1],其中,-1表示完全错误的二元分类器,1表示完全正确的二元分类器。

Precision=TP/(TP+FP) (9)

Recall=TP/(TP+FN)

(10)

F1-Score=2×Recall×PrecisionRecall+Precision

(11)

MCC=((TP×TN)-(FP×FN))/

(TP+FP)(TP+FN)(TN+FP)(TN+FN)

(12)

JSI=TP/(TP+FN+FP)

(13)

2.3 结果分析

在两个公开数据集上,所有深度学习架构在150次迭代后的训练准确度和评价曲线如图4所示。其中,CRAUNet利用残差结构在特征提取过程中保留更多原始图像特征信息,并利用通道注意力模块增强有效特征并抑制无效特征,取得次优性能,其后为SegNet,该架构在效率和性能之间实现了较好平衡,且考虑到了场景上下文信息的理解,但对目标几何特征的提取不够精确。Res-U-Net基于深度残差网络,并结合引导滤波器改善分类结果,但在目标边界分割时未考虑局部信息丢失问题,不适用于处理较小目标,因此在比较方法中性能最差。与其它先进方法相比,本文架构在SegNet中融合了GB-RBM模块,有效结合了光谱数据和几何信息,因此收敛图表现出了更好的准确度和稳健性。

图4 各方法的准确度比较

图5~图6给出了在2个不同数据集上,对于16个连续视频帧,本文方法的语义分割结果。在选择样本时,考虑了不同车辆方向、车辆大小和车辆辐射能量的差异。其中,目标车辆的轮廓线表示本文所提方法的分割结果。从中可发现,所提方法在各种场景下均能够准确完成红外图像中的车辆分割,且不会受到场景或车辆密度的影响。

图5 DS#1数据集的语义分割结果

图6 DS#2数据集的语义分割结果

图7给出了在DS#3数据集上,对于从数据集提取出的连续4帧图像样本,使用本文方法(第二行)、Res-U-Net(第三行)、SegNet(第四行)、CRAUNet(第五行)的分割示例,其中,第一行是真实情况,使用Matlab中图像标注工具(Image Labeler)人工注释得到。可以看出,所提方法提取出的样本轮廓与真实情况最为接近。其它方法的边角轮廓存在明显的失真情况,或者漏分割的情况。这说明了所提方法利用编码器-解码器结构,将卷积方法与GB-RBM模块相融合,实现了红外数据的准确映射,其语义分割更加准确。

图7 DS#3数据集上不同方法的语义分割结果比较

在DS#3数据集的4帧样本上,各方法的评估指标量化结果见表4。选择的4帧样本之间存在较大的场景变化差异,由此可分析不同方法在场景变化较大情况下的分割性能。从中可发现,本文方法的各指标均取得了最好性能,这证明了在深度架构中融入GB-RBM能够有效提高车辆语义分割的准确度。

表4 各方法在4帧样本数据上的结果

表5给出了不同方法在测试数据集上的量化结果。所提方法的平均精度为0.98,平均处理时间分为17.32 s,整体性能优于其它比较方法。处理时间的快速性主要是因为编码器-解码器结构属于SegNet架构,其特点是内存使用少网络参数更为简约,较为适用于图像语义分割。

表5 各方法在测试数据集上的结果

3 结束语

本文提出了结合SegNet深度学习框架和GB-RBM的UAV红外图像实时语义分割方法,在GB-RBM与编码/解码向量之间构建联系,利用GB-RBM在编码阶段提取形状先验模型,并在解码阶段生成热力学数据的实时映射,并通过融合架构充分利用提取出的光谱和几何特征。实验结果表明,所提方法在训练时准确度高,收敛速度快,且在测试时能够准确完成不同方向、目标尺寸和场景下的车辆语义分割,整体准确度和处理速度均优于其它先进方法。未来考虑将本文方法应用到其它数据源和不同应用中。

猜你喜欢

玻尔兹曼解码器编码器
基于格子玻尔兹曼方法的流固耦合问题模拟
科学解码器(一)
科学解码器(二)
科学解码器(三)
非对称弯道粒子惯性迁移行为的格子玻尔兹曼模拟
线圣AudioQuest 发布第三代Dragonfly Cobalt蓝蜻蜓解码器
基于FPGA的同步机轴角编码器
基于PRBS检测的8B/IOB编码器设计
JESD204B接口协议中的8B10B编码器设计
浅谈玻尔兹曼分布的微小偏离量所引起的微观状态数的变化