基于改进SegNet模型的遥感图像建筑物分割

2022-05-30李紫薇英昌盛于晓鹏丁婷婷

吉林大学学报（理学版） 2022年2期

李紫薇, 英昌盛, 于晓鹏, 丁婷婷

(吉林师范大学计算机学院, 吉林四平 136000)

遥感图像中的建筑物分割能记录区域地表的综合特征和地物个体特征, 提供细致、真实、可靠的基础数据, 广泛应用于城市规划、变化检测、地理信息系统构建等领域[1]. 受高分辨率遥感图像的成像因素以及建筑物自身的尺寸和形状特征多样性的影响, 遥感图像建筑物分割一直是该领域的研究重点和难点. 传统的建筑物分割方法多基于人工构造特征结合传统图像分割方式, 针对特定的场景实现建筑物分割[2-3], 但这种方法无法达到自动分割建筑物的目标, 且分割结果精确度较低、鲁棒性较差.

随着神经网络的发展, 卷积神经网络(convolutional neural networks, CNN)以其强大的特征提取能力在图像处理领域广泛应用. Simonyan等[4]基于CNNs提出了一种用于图像分类的网络VGGNet, 但该网络无法直接应用于遥感图像建筑物分割任务; Long等[5]提出了全卷积神经网络(fully convolution network, FCN), 将VGGNet的全连接层全部替换为卷积层, 在图像的像素级进行分类进而实现分割, 这种方法克服了传统分割算法的缺点, 使语义分割成为图像分割的主流模式； Ronneberger等[6]在FCN的基础上提出了一种编码解码结构的全卷积神经网络U-Net, 利用跳跃连接将上采样和下采样的特征图进行融合, 使分割结果更精细, 但FCN和U-Net均采用反卷积操作进行上采样, 参数量大且运算复杂; Badrinarayanan等[7]提出了一种对称编码解码结构的全卷积神经网络SegNet, 利用下采样时保存的索引信息进行上采样, 减少了运算过程中显存的占用, 但网络仍存在整体参数数量较多、梯度不稳定以及分割结果精确度较低等问题. 随着网络层数的增加, 模型更复杂, 可提取到不同尺度的特征信息更丰富, 但也导致模型参数量增多, 难以训练, 产生梯度消失和梯度爆炸等问题[8]. He等[9]提出了一种采用模块化替代卷积层的网络ResNet, 模块中的恒等映射连接有效解决了因模型深度增加导致的网络退化问题; Chollet[10]使用深度可分离卷积构建轻量级网络, 有效降低了网络参数数量, 提升了网络训练速度. 目前基于深度学习的语义分割算法在遥感图像建筑物分割领域应用广泛, 在FCN,U-Net,SegNet等网络模型的基础上为提高建筑物分割精度提出了许多改进算法[11-13]. 这些方法都取得了良好的分割结果, 但仍无法避免在训练过程中随模型复杂度增加产生的梯度消失及耗时长等问题. 为解决上述问题, 提出了基于改进SegNet的遥感图像建筑分割模型BCD-SegNet(bottleneck+concatenate+depthwise separable convolution-SegNet). 受文献[9-10]的启发, 本文在BCD-SegNet的编码网络中使用带残差的bottleneck块及深度可分离卷积, 用于缓解模型训练过程中的梯度消失现象, 并减少网络参数. 在编码网络和解码网络中使用Concatenate操作融合图像的低级特征与高级特征, 辅助图像重构, 提高建筑物的分割精度. 将本文方法与现有的网络模型分别在航空遥感图像数据集和卫星遥感图像数据集上进行对比实验, 实验结果表明, BCD-SegNet网络模型在主观视觉效果及客观评价指标上均具有优势.

1 BCD-SegNet网络模型工作原理

本文针对SegNet网络方法的不足进行结构上的改进, 在特征提取部分, 减少参数数量并缓解梯度消失现象；在特征融合部分, 进一步保留原始图像特征, 提升建筑物的分割精度和完整度.

1.1 SegNet网络模型

SegNet是一种对称编码-解码结构的语义分割模型, 由编码网络和解码网络两部分组成, 结构如图1所示. 编码网络中每个卷积组由等尺寸卷积、批量归一化、 ReLU激活操作和最大池化层构成, 执行最大池化操作时存储池化索引信息. 解码网络与编码网络对称, 利用编码网络保存的最大池化索引信息进行非线性上采样和卷积操作, 最后连接一个Softmax像素分类层预测像素所属类别.

图1 SegNet网络结构Fig.1 Structure of SegNet network

1.2 BCD-SegNet网络模型

为改善SegNet网络存在的问题且不改变其上采样方式, BCD-SegNet保留编码网络中每个卷积组中的第一层标准卷积, 用于承接最大池化操作, 将编码网络中第四和第五个卷积组中的末层卷积替换为深度可分离卷积, 减少网络参数数量. 此外, 将编码网络中的其余卷积层均替换为带残差的bottleneck块, 缓解梯度不稳定情况. 为提升建筑物的分割精度, 使用跳跃连接操作将编码网络中池化操作前的特征图与解码网络中对应上采样层的特征图进行特征融合, 结构如图2所示.

图2 BCD-SegNet网络结构Fig.2 Structure of BCD-SegNet network

1.2.1 带残差的bottleneck块

图3 带残差的bottleneck块Fig.3 Bottleneck block with residual

通过增加网络深度, 模型能学习到更复杂的细节特征, 但网络深度的增加会导致训练过程中梯度不稳定及网络退化等问题, 带残差的bottleneck块可有效缓解这种现象[9]. BCD-SegNet在编码网络的5个卷积组中使用带残差的bottleneck块, 其结构如图3所示.

带残差的bottleneck块是由3个卷积层构成的瓶颈结构, 入口处的1×1卷积用于降低特征维度, 对输入特征图进行压缩, 出口处的1×1卷积用于升高维度进行特征通道恢复, 通过降维和升维操作可有效减少网络参数数量. 使用带残差的bottleneck块替换标准卷积前后参数数量对比情况可表示为

(1)

其中porg表示标准卷积的参数量,pbc表示残差瓶颈结构的参数量,M为输入通道数,k为卷积核大小,m为压缩因子,N为输出通道数.当M=N,k=3,m=4时, 使用带残差的bottleneck块替换普通卷积层可将本层参数数量减少约7/8.

1.2.2 深度可分离卷积

深度可分离卷积由逐通道卷积和逐点卷积两部分构成, 逐通道卷积将来自上一层的多通道特征图全部拆分为单个通道的特征图, 分别进行单通道卷积再合并, 然后进行逐点卷积, 其结构如图4所示.

通过深度可分离卷积可实现维度压缩, 有效减少网络的总体参数数量, 压缩后与压缩前参数数量之比[10]可表示为

(2)

其中pbc表示深度可分离卷积的参数量,porg表示标准卷积的参数量,N为输出通道数,k为卷积核大小. BCD-SegNet在编码网络第四和第五个卷积组中分别将最后一层标准卷积替换为k=3的深度可分离卷积, 替换后可将本层参数约减少至标准卷积层参数的1/9.

图4 深度可分离卷积Fig.4 Depthwise separable convolution

图5 跳跃连接过程Fig.5 Process of skip connection

1.2.3 跳跃连接

BCD-SegNet采用跳跃连接操作[6]将编码过程中的特征图连接到解码过程中对应的上采样层, 通过Concatenate操作连接分割图像的低级特征和高级特征, 将编码部分的每个卷积组中池化操作前的特征图与对应解码部分上采样操作后的特征图进行融合, 丰富分割图像的细节信息, 使建筑物的边缘完整度和分割精度更高, 其处理过程如图5所示.

2 实验结果与分析

实验中计算机硬件配置为Intel Xeon(R) Gold 5215@2.5 GHz, 64 GB内存, Nvdia GeForce RTX 2080 Ti GPU, 操作系统为64位Ubuntu18.04, Cuda10.0+Cudnn7.5, 代码基于Pytorch框架构建.

2.1 实验数据集

使用航空遥感图像数据集Massachusetts Buildings Dataset(https://www.cs.toronto.edu/～vmnih/data/)和卫星遥感图像数据集Satellite dataset Ⅰ(global cities)(http://gpcv.whu.edu.cn/data/building_dataset.html)对本文网络及其他经典网络进行训练和测试对比.

2.1.1 Massachusetts Buildings Dataset数据集

Massachusetts Buildings Dataset数据集由美国波士顿地区的151张航空遥感图像组成, 每张图像尺寸为1 500×1 500, 数据分为137张训练集、 10张测试集和4张验证集, 分辨率为1 MP, 如图6所示.

图6 Massachusetts Buildings Dataset数据集示例Fig.6 Example of Massachusetts Buildings Dataset dataset

2.1.2 Satellite dataset Ⅰ (global cities)数据集

Satellite dataset Ⅰ (global cities)数据集包含204张512×512像素的卫星遥感图像, 分辨率由0.3～2.5 MP不等, 可用于验证模型的泛化能力, 即在航空遥感图像数据集上表现良好的模型是否适用于卫星遥感图像, 如图7所示.

图7 Satellite dataset Ⅰ (global cities)数据集示例Fig.7 Example of Satellite dataset Ⅰ (global cities) dataset

2.2 数据集预处理

为解决样本数据有限导致的欠拟合问题, 对Massachusetts Buildings Dataset数据集中带噪声的部分图片手工剔除后, 通过平移、旋转、缩放等方式将训练集扩充为20 000张大小为256×256的样本. 将Satellite dataset Ⅰ (global cities)数据集按4∶1划分为训练集和测试集, 采用相同的处理方式将数据集进行扩充. 表1列出了Satellite dataset Ⅰ (global cities)扩充后数据集样本数量与建筑物分割的精确率、召回率和F1值的变化关系. 由表1可见, 当扩充后样本数量约为7 000张时, 网络分割效果达到较理想状态.

表1 样本集大小对分割效果的影响

2.3 网络性能评价

2.3.1 主观评价指标

对建筑物分割效果进行主观评价主要是以人类的视觉效果作为评价标准, 分别从建筑物的正确分割情况、细节处的分割效果对比、建筑物边缘的完整度等几方面进行评估. 在建筑物分割效果的主观评价中, 有无错分情况是评价网络模型优劣的主要依据, 细节处的分割结果用于表征网络模型的分割准确度, 边缘的恢复情况也能反映网络模型的分割准确度与分割完整度.

2.3.2 客观评价指标

通常使用精确率(precision rate)、召回率(recall rate)和F1值(F1-score)对遥感图像建筑物实际分割效果进行客观评价和分析.

精确率用于衡量预测结果中被正确预测的建筑物样本占所有被预测为建筑物样本的概率, 可表示为

(3)

其中TP表示正确分割建筑物的像素点, FP表示被错分为建筑物的像素点.p值越大表示建筑物分割的越准确. 召回率为被正确预测的建筑物样本与实际建筑物样本之比, 可表示为

(4)

其中FN表示是建筑物但未被正确分割的像素点.r值越大表示样本中建筑物分割的越完全.F1值用于综合精确率和召回率两个评价指标, 对分割效果进行综合量化描述, 可表示为

(5)

2.4 分割结果的主观分析

Massachusetts Buildings Dataset数据集中建筑物尺度较小且较密集, 并存在建筑物阴影等干扰因素, 因此有一定的分割难度. 图8为不同网络模型在Massachusetts Buildings Dataset数据集上的分割结果, 其中： (A)列为原图； (B)列为原图中建筑物对应的标注； (C)列为FCN网络模型的分割结果； (D)列为SegNet网络模型的分割结果； (E)列为U-Net网络模型的分割结果； (F)列为BCD-SegNet网络模型的分割结果；点线框所围区域为分割细节对比, 实线框所围区域为分割结果中的错分及漏分情况. 由图8可见, FCN[5],SegNet[7],U-Net[6]等网络模型均存在误分、漏分和建筑物分割不完整等情况, BCD-SegNet网络模型虽然存在一定的漏分现象, 但在分割密集的小建筑物上表现良好, 且对于建筑物边缘的恢复也更完整. 相比于其他网络模型, BCD-SegNet网络模型的误分率较低, 且对于建筑物分割的整体效果也更完整.

图8 Massachusetts Buildings Dataset分割结果对比Fig.8 Comparison of segmentation results of Massachusetts Buildings Dataset

图9为Satellite dataset Ⅰ(global cities)数据集中尺度、类型和细节不同的图像在FCN[5],SegNet[7],U-Net[6]和BCD-SegNet网络模型上的分割结果, 其中各列的含义及图例与图8相同. 由图9可见, 与其他网络模型相比, 图像尺度变化对本文网络模型影响较小, 在分割结果中无明显的错分和漏分现象, 同时, 建筑物边缘恢复的也更完整, 在细节上的表现更好. 测试图像第二行和第三行存在植被、车辆及建筑物阴影等干扰因素, 针对分割细节、错分和漏分情况, 各网络模型的分割效果均受明显影响, BCD-SegNet网络模型虽然也存在一定的漏分现象, 但相比于其他网络模型, 错分及漏分情况较少, 且在小建筑的分割上表现更好, 建筑物边缘恢复的也更完整.

2.5 分割结果的客观评价

对于主观分析结果, 由于增加了跳跃连接并替换了带残差的bottleneck块, BCD-SegNet网络模型对遥感图像建筑物的细节分割更准确、边缘信息更完整, 分割后建筑物边缘模糊现象得到了改善.

在编码网络中, 使用带残差的bottleneck块的目的是增加模型深度, 获得更多建筑物特征, 同时通过bottleneck块的瓶颈结构可适当减少参数数量, 提高网络的训练速度；将标准卷积层替换为深度可分离卷积的目的是进一步减少网络的总体参数数量, 构建更轻量级的网络模型. 表2为不同网络模型在参数数量上的对比结果, 其中SegNet为初始SegNet网络, SegNet1是在初始SegNet的基础上增加跳跃连接的网络, SegNet2是将SegNet1编码部分每个卷积组除第一层卷积外的其余卷积层均替换为残差bottleneck块的网络, BCD-SegNet为本文提出的网络模型.

表2 不同网络模型的参数数量对比

图9 Satellite dataset Ⅰ (global cities)分割结果对比Fig.9 Comparison of segmentation results of Satellite dataset Ⅰ (global cities)

由表2可见, 与SegNet1相比, SegNet2参数减少4.76×107；与SegNet2相比, BCD-SegNet的网络参数又进一步降低4.18×107. BCD-SegNet与原始SegNet相比参数数量减少3.44×107. 因此, 在编码网络中替换带残差的bottleneck块能在增加网络深度获取更多细节信息的前提下有效减少网络参数数量, 使用深度可分离卷积替换普通卷积可在不影响网络分割精度的前提下, 进一步减少网络整体参数数量.

为客观评价各网络模型的性能, 在Massachusetts Buildings Dataset数据集上使用精确率、召回率和F1值对 FCN[5],SegNet[7],U-Net[6]和BCD-SegNet模型进行测试, 结果列于表3. 由表3可见, BCD-SegNet在精确率、召回率和F1值均获得最高值, 与SegNet相比在精确率、召回率和F1值上分别提升1.4%,5.1%,3.7%, 与FCN相比分别提升2.3%,7.8%,5.7%, 与U-Net相比分别提升0.7%,3.2%,1.3%. 上述结果表明, BCD-SegNet网络模型通过替换带残差的bottleneck块可提取更丰富的图像特征, 利用跳跃连接保留了建筑物的细节信息, 提高了遥感图像中建筑物的分割精确度.

表3 Massachusetts Buildings Dataset指标评价

在相同条件下, 将BCD-SegNet与FCN[5],SegNet[7],U-Net[6]等网络模型在Satellite dataset Ⅰ (global cities)数据集上进行测试, 各模型的测试结果列于表4. 由表4可见, 本文提出的网络模型与原始SegNet相比在精确率、召回率和F1值等指标上分别提升2.1%,4.2%,4.1%, 与FCN相比分别提升0.5%,6.6%,2.4%, 与U-Net相比分别提升0.5%,1.7%,1.2%. 实验结果表明, 在航空遥感图像中表现良好的BCD-SegNet网络模型也同样适用于卫星遥感图像, 具有一定的泛化能力.

表4 Satellite dataset Ⅰ (global cities)指标评价

综上所述, 针对SegNet网络模型在训练过程中存在梯度消失现象、网络参数多、分割结果中建筑物边缘模糊等问题, 提出了一种基于改进SegNet语义分割模型的BCD-SegNet网络模型, 用于遥感图像中建筑物分割. 通过在编码部分使用带残差的bottleneck块可缓解梯度消失现象, 提取更丰富的图像特征并适当减少网络参数, 提升网络分割性能. 使用深度可分离卷积进一步减少网络整体参数数量, 构建更轻量级的网络. 使用跳跃连接融合分割图像的低级语义特征和高级语义特征, 能保留图像的更多细节信息, 有效抑制分割图像边缘模糊现象. 实验结果表明, 与FCN,SegNet,U-Net等网络模型相比, BCD-SegNet在航空遥感图像数据集Massachusetts Buildings Dataset与卫星遥感图像数据集Satellite dataset Ⅰ (global cities)上的分割结果均更准确, 建筑物的错分情况更少, 在精确率、召回率、F1值上均有提高. 与其他网络模型相比, BCD-SegNet有效克服了分割图像边缘模糊的现象, 提升了分割精度, 对于包含密集小建筑物的遥感图像分割性能较好, 具有良好的泛化能力, 更适用于遥感图像的建筑物分割任务.