APP下载

融合全卷积网络与条件随机场的高光谱语义分割

2023-09-02雒萌张圣微霍雨刘志强韩永婷

遥感信息 2023年3期
关键词:光谱卷积精度

雒萌,张圣微,2,3,霍雨,刘志强,韩永婷

(1.内蒙古农业大学 水利与土木建筑工程学院,呼和浩特 010018;(2.内蒙古自治区水资源保护与利用重点实验室,呼和浩特 010018;(3.内蒙古自治区农牧业大数据研究与应用重点实验室,呼和浩特 010018;(4.内蒙古自治区水利事业发展中心,呼和浩特 010018)

0 引言

近些年来,深度学习逐渐成为数据密集型遥感科学的核心,并为遥感影像中地物的识别分类提供了巨大的支持。传统的遥感图像分类普遍依靠人工特征选择,工作量大,特征提取不明显且不具有典型性[1]。卷积神经网络(convolution neural networks,CNN)在一定程度上克服了传统分类方法的一些局限性,但经典CNN模型由于全连接层的存在,模型参数量巨增,训练过程难度增加。为了解决这些问题,Long等[2]于2015年提出了全卷积神经网络语义分割,以1×1卷积替代全连接层,实现了像素级分类,即影像分割。后续发展出了基于全卷积网络(full convolutional networks,FCN)结构的多种图像分割结构。例如,对称编码U-Net网络[3]使用对称镜像折叠方式来推理缺失的上下文信息,能够将上下文信息向更高层分辨率传播,但其性能没有得到充分的开发。在高光谱遥感中,很多网络无法克服同物异谱的问题。最近出现的语义分割算法如交叉伪监督的语义分割[4]、多重弱监督约束下的语义分割[5]、无源域自适应的语义分割[6]、增强对象上下文的OCNet网络[7]等,仅考虑了像元的空间领域特征,无法关注到光谱维度的信息。Szegedy等[8]提出了一种基于连通性和稀疏性因子的聚类技术来改善聚类并减少噪声的影像,但其没有考虑光谱之间的相关性。这些方法普遍采用单一信息流进行地物分割,割裂相邻像元之间的光谱相关性,且上采样过程单一,主要应用于全色和多光谱中,无法有效地推广到高光谱领域。为此,本文提出了融合全卷积神经网络与条件随机场的(full convolutional networks-conditional random field,FCN-CRF)双流框架高光谱影像分割算法,将全卷积分割网络与马尔科夫随机场进行结合,来解决遥感影像中单一信息流缺乏验证性问题和空谱一致性提取问题,并将其应用于高光谱影像中语义分割中。

1 FCN-CRF算法

1.1 算法介绍

图1为本文提出的FCN-CRF算法,最左侧为数据输入端,高光谱影像先进行主成分降维(principal components analysis,PCA)[9],光谱信息保留量为99.99%,信息流按照FCN、CRF双流框架进行传递。在FCN部分,骨干网络选择VGG19,剔除模型的后5层,保留了特征提取结构和下采样操作。上采样过程中使用混合上采样模块(mix up-sampling,MUS)、扩张路径与压缩路径进行对称分布,配合跳层连接方式对每个像素进行预测。在分割网络输出端,使用1×1卷积核进行影像分割。另一方向为CRF条件随机场,融合一元势能和二元势能,结合无向图模型最终确定每个像元归属类别。两条路径结合后最终生成分割结果。

图1 FCN-CRF结构示意图

1.2 FCN部分介绍

在FCN部分中,共有9个block,其中block1~block4最后一层为跳跃连接层。block1和block2包含两个卷积层,block3~block4包含4个卷积层,block5包含3个卷积层,block6~block7包含4个卷积层,dropout为0.3。block8包含2个卷积层,dropout为0.2。block9包含2个卷积层,1个全连接层,dropout为0.1。每层block均采用3×3卷积核,进行padding图像填充,池化层为2×2,网络结构中的激活函数均使用ReLU。

1.3 MUS模块介绍

在实际应用中,扩张卷积存在一个理论问题,针对具体像素(x,y),对其有贡献的信息来自于上一层以该像素为中心的附近区域。对于一个标准卷积核k×k,其扩张卷积的大小为kd×kd。由于扩张卷积在卷积核中引入了零,所以在kd×kd区域中参与计算的实际像素只是k×k。它们之间有r-1的间隔。如果k=3,r=2,则该区域中只有9个像元被用于计算。像素(x,y)以棋盘方式查看信息,失去了很大一部分的信息(当r=2时,损失占比74%)。这会导致输入的样本变得非常稀疏,局部信息完全缺失[10]。为此,本文提出了MUS模块来解决这个问题,结构如图2所示。MUS在扩张卷积中采用了两种不同的膨胀系数,膨胀率r为1和2,分别应用在x方向和y方向,共4种模式。图2中绿色部分显示为膨胀卷积点,4种模式分别为dx=1、dy=1,dx=2、dy=1,dx=1、dy=2,dx=2、dy=1。通过MUS遍历每个通道的所有膨胀模式,能够得到5×5×4的影像立方体,经过特征融合后形成一个单一5×5卷积阵列。

图2 MUS结构示意图

1.4 CRF部分介绍

高光谱影像经过PCA降维后,通过双流框架中的另一路径输入到CRF条件随机场中。它能够结合影像的空间分布距离,构成CRF的二元势能函数。CRF的一元势能量是通过FCN部分预测出的热图构成的。一元势和二元势能量输入条件随机场进行迭代训练,并将其分别定义为观测值和状态值,通过最大化后验概率计算,得到符合吉布斯分布的概率图,能够对分割结果构造势能函数进行高效建模[11]。本研究采用了八邻域策略。

1.5 损失函数

研究使用了交叉熵损失函数来评估模型,如式(1)所示。其中M为类别的数量,N为样本数量。yic是符号函数(0或1),如果样本i的真实类别等于c,则取1,否则取0,其目的是判断像元类别。pic为i属于类别c的预测概率。

(1)

2 实验与结果

2.1 评价指标

本研究采用的分割精度指标为OA、AA和Kappa。OA代表了分类正确的像元占所有样本数量的比例,AA代表了查全率的和的平均值,Kappa系数是基于混淆矩阵计算得的分割精度。

2.2 数据集

本文选择了Pavia University和Indian Pines两种高光谱数据集进行实验与评价(表1)。Pavia University包含asphalt、meadows、gravel、trees、painted metal sheets、bare soil、bitumen、self-blocking bricks、shadows共9类地物。Indian Pines包含alfalfa、corn-notill、corn-mintill、corn、grass-pasture、grass-trees、grass-pasture-mowed、hay-windrowed、oats、soybean-nottill、soybean-mintill、soybean-clean、wheat、woods、buildings-grass-trees-drives、stone-steel-towers共16类地物。数据集划分为3个部分,其中训练集占70%,测试集占15%,验证集占15%。

表1 高光谱图像数据集

2.3 实验环境配置

本实验使用Python 3.6.0和Keras 2.2.4框架,程序接口为TensorFlow 1.11.0。训练批次epoch为40,学习率为0.000 1。以空间隔离方式选取样本,确保每类地物的样本在图像上分布均匀,避免在影像中集中,降低模型的泛化性。本文与一些新颖的算法进行了对比,如UwU-Net[12]、SKNet[13]、LSTM[14]、DANN[15]和DeeplabV3+[16]算法。其中训练样本631个,验证样本106个,测试样本105个。

2.4 Pavia University实验结果

Pavia University数据结果如表2所示,FCN-CRF分类精度最高,AA比DANN算法高6.61%,OA比DANN算法高6.86%。3D-CNN算法精度在5种方法中与FCN-CRF相接近。相比于主流算法DeeplabV3+的精度,FCN-CRF算法AA增加了4.56%,OA增加了3.38%。

表2 Pavia University数据集分类精度

6种算法中精度较高的为FCN-CRF与3D-CNN,为此单独对比两种算法的训练过程,如图3所示。在模型训练过程中,FCN-CRF在20 epoch时训练精度与验证精度达到了稳定,最终保持在0.99附近,损失率最终在0.02~0.03之间。而3D-CNN结构,在经过40 epoch的训练后,精度只有0.80左右,且损失率较大,为0.4左右。

图3 FCN-CRF与3D-CNN的精度对比

在PU数据集中,FCN-CRF算法对地物的分割较为准确,在6种分割算法中精度最高(图4)。以gravel为例,FCN-CRF分割算法对其存在的位置做出了较为完整的划分,符合遥感影像中地物的实际分布情况,而UwU-Net、LSTM、DANN分割算法无法区分出图中左下角的gravel。DeeplabV3+对于brick的识别较弱,其外形轮廓分割较差。从整体上看,PU数据集中的人工建筑物和自然地表能够被FCN-CRF较好地分割。

2.5 Indian Pines实验结果

为了进一步测试FCN-CRF算法的高光谱影像分割效果,本文对Indian Pines高光谱数据集做了测试(图5),6种算法分割精度如表3所示。结果显示,FCN-CRF方法的精度最高,AA为98.54%,OA为98.60%,比3D-CNN分别高1.8%、1.1%,比UwU-Net分别高7.23%、6.89%,比LSTM分别高3.26%、4.16%,比DANN分别高6.41%、6.45%,比DeeplabV3+分别高2.53%、2.83%。

表3 Indian Pines数据集分类精度

图5 Indian Pines分类结果

2.6 消融实验

为了验证FCN-CRF模型的有效性,本文设计了消融实验来进行测试。消融实验的部分设计策略如图6所示,策略A为去除CRF的FCN算法,策略B至E为逐层剔除跳层连接策略的全卷机神经网络结构,策略F为单独CRF算法。CRF作为一个独立的后处理过程,本文也设计了3种不同的前处理模型与其进行对比,与FCN-CRF算法的精度对比如表4所示。

图6 消融实验

从表4中可以看到,在两幅高光谱影像中,本文提出的FCN-CRF算法均为最高精度,超过了单独FCN的和CRF算法。与FCN相比,本新型分割算法在PU数据集上将AA、OA、Kappa分别提高了10.64%、8.72%、0.09,在IP数据集上分别提高了9.85%、11.47%、0.09。在搭配CRF的几种模型中,FCN-CRF的精度也最高,与ResNet50-CRF相比,在PU数据集上,AA、OA、Kappa分别提高了9.7%、7.59%、0.07,在IP数据集上分别提高了9.81%、9.41%、0.1。

3 讨论

3.1 模型参数量对比

除了从精度方面对比几种算法外,本研究还从模型参数数量方面对比了不同分割方法。如图7所示。虽然FCN-CRF有177万参数量,但其模型精度最高,方法最好。UwU-Net参数量最少,为130万,但其精度最低,实验效果最差。DeeplabV3+的参数量较多,为278万,其精度低于3D-CNN。其中,FCN-CRF的速度为3.5 fps/s,3D-CNN的速度为0.09 fps/s,UwU-Net的速度为3.2 fps/s,LSTM的速度为2.7 fps/s,DANN的速度为2.4 fps/s,DeeplabV3的速度为3 fps/s,表明了FCN-CRF算法的运行效率最高。

图7 不同实验方法和模型大小比较

3.2 样本数量与精度

本研究对比了6种算法在不同训练样本数量下的精度曲线,其中训练集占比70%、测试集占比15%、验证集占比15%。从图8中可以看到,6种分割算法整体上随着样本数量的增加,精度呈现增加趋势。本研究提出的FCN-CRF精度在6种方法中最高。

图8 6种算法训练样本与训练精度曲线

3.3 FCN-CRF算法分析

FCN-CRF将全卷积结构与鉴别式几率模型条件随机场进行了结合,使得其在高光谱影像分割过程中表现出了优异的效果。从实验结果可以看到,在PU和IP这两景高光谱影像中,丰富的光谱信息经过PCA降维后能够提取信息熵最大的波段,FCN-CRF比单独的全卷积结构和单独的条件随机场有着更加出色的泛化性,其模型性能有较大的提升。新增的MUS模块能够扩展不同尺度的上采样信息,在跳跃式传递中能够使特征图更好地结合强语义层不同方向的扩展信息。CRF具有灵活的空-谱信息采集能力,能够考虑相邻像元的交互信息,进而提升整个影像的分割精度。在本研究中,还单独测试了CRF的3种常见连接方式,4连接精度为64.12%,8连接精度为79.36%,全连接精度为75.14%。不同于DeeplabV1中的全连接条件随机场,双流框架FCN-CRF虽然仅仅考虑了光谱相关性及空间相关性,但效果较全连接更好,可能由于高光谱影像二元势全连接中由于不同地物光谱趋势差异化导致了随机场训练精度也较低,而8连接则较好地考虑了同类地物光谱的相似性,对分割边界的定位也较为准确。在二元势中,模型不再局限于单个像元的光谱特征,能够充分学习地物的领域特征和光谱特征,发挥马哈拉诺比斯矩阵的优势。DeeplabV3+中放弃了CRF,用深度可分离卷积替代普通卷积核,但其解码器预测的目标边界较为粗糙,也缺乏特征切分,导致多尺度聚合影像语义信息在建筑物分割场景中效果较差。在复杂遥感场景中,空间金字塔池化结构虽然采用了不同膨胀率的扩张卷积,但其在各支路之间缺乏相关性,而这正是FCN-CRF模型中MUS模块的优势。从结构上对比,FCN-CRF比多注意力U-Net网络具有更少的上采样层,整体模型结构更为轻捷[17]。

从PU和IP两景影像上看,双流高光谱影像分割框架FCN-CRF对城市建筑用地的分割效果比较好,主要由于人工建筑物的光谱反射率较为稳定,受自身性质与外界光照等环境因素的干扰程度反映较弱。在PU影像的右上地物类型较多的区域中,bare soil、meadows和tree 3种地物的分割范围也较为细致,整体上看,分割结果与真实地表情况较为符合,边界分割明确,地物轮廓完整。在IP影像部分区域中,分割后的农作物范围与标签图有一定的差距,比如grass-trees、soybean-mintill和woods,主要原因在于植被物候会随着生长季节的变化而产生一定的变异性,同时,光谱反射率与水分含量、色素水平、及冠层结构的有关。整体上看,健康植被富含叶绿素,能够反射更多绿光,吸收红色和蓝色光[18]。不同于人工建筑物,其不同的生长阶段所呈现的光谱反射率并不完全一致,同一地物由于外界因素的影响或自身生长情况的差异性也会存在反射率不一致现象,这将导致CRF在计算邻域像元光谱相关性时会产生不稳定性,导致分割时会对边界产生一定的模糊,但分割主体并不会受到影响,在图5(c)中表现为大块地物分割准确。以IP中corn-mintill和corn-notill为例,其色素池的吸收反射波段虽然存在一定的相似性,但FCN-CRF仍能够较好地区别二者,不受两种地物CAM与二元势能的相似性影响。

4 结束语

本研究设计了新型的高光谱分割算法FCN-CRF,可以有效地增强高光谱遥感影像底层特征和抽象特征。具体来说,在数据输入端进行PCA降噪处里,上采样中开发了MUS模块,全卷积输出的CAM会结合高光谱遥感二元势共同输入CRF进行迭代运算,能够得到优化的概率图进行分割。经过测试,FCN-CRF在PU高光谱影像中精度达到了99.01%,在IP高光谱遥感影像中达到了98.60%,其精度超过了3D-CNN、UwU-Net、LSTM、DANN和DeeplabV3+。在参数量和运行效率方面,5种算法中FCN-CRF性能最优,计算机运行空间较少,性能最佳。在不同的地物类型中,FCN-CRF分割城市高光谱遥感影像具有较大的优势,能准确分割各类人工建筑物。在地表绿色植被密集的高光谱遥感中,植物主体部分分割准确,但会在不同农作物类型交界处产生一定程度的像元混同。

猜你喜欢

光谱卷积精度
基于三维Saab变换的高光谱图像压缩方法
基于3D-Winograd的快速卷积算法设计及FPGA实现
从滤波器理解卷积
基于DSPIC33F微处理器的采集精度的提高
基于傅里叶域卷积表示的目标跟踪算法
GPS/GLONASS/BDS组合PPP精度分析
星载近红外高光谱CO2遥感进展
改进的Goldschmidt双精度浮点除法器
苦味酸与牛血清蛋白相互作用的光谱研究
一种基于卷积神经网络的性别识别方法