基于优化的ICNet高分遥感影像城市建成区分类

2023-05-30夏国静郑庆雅牛鑫鑫

安徽农业大学学报 2023年2期

夏国静，黄凯，郑庆雅，夏萍,3*，田波,3，周婷,3，牛鑫鑫

夏国静1，黄凯1，郑庆雅2，夏萍1,3*，田波1,3，周婷1,3，牛鑫鑫1

(1. 安徽农业大学工学院，合肥 230036；2. 安徽工程大学人工智能学院，芜湖 241000;3. 安徽省智能农机装备工程实验室，合肥 230036)

城市建成区是一类具有大面积的组合型目标群体，该区域地物丰富，光谱特征复杂多变，且具有大量的同物异谱与地物像素单元交错等现象，影像分类难度显著增加。针对图像级联网络（image cascade network，ICNet）计算复杂、分类精度低的问题，采用优化的ICNet对高分辨率遥感影像城市建城区地物分类进行研究，通过添加高效通道注意力机制（efficient channel attention，ECA）和联合金字塔上采样模块（joint pyramid upsampling，JPU）替换空洞卷积来获得ICNet改进网络，采用总体分类精度（overall accuracy，OA）、Kappa系数与F13个指标对分类结果进行精度评估，并与随机森林（random forest，RF）、ENet和ICNet3种方法进行对比分析。结果表明，优化的ICNet网络模型能够更准确的进行地物分类，总体分类精度为75.12%，相较于其他分类方法分别提高16.56%、10.48%和4.81%。后用开源数据集进一步验证了优化模型的有效性，说明优化的ICNet网络可用于城市建成区的分类研究。

卷积神经网络；ICNet语义分割模型；分类；高分遥感影像；城市建成区

近年来，随着卫星和航空遥感技术领域的快速发展，遥感影像的分辨率也随之提升[1-2]。目前，遥感影像已广泛应用于场景分类、农业灾害监测、城市规划、矿物业等方面。传统的遥感影像分类方法主要有支持向量机（support vector machine，SVM）、最大似然法（maximum likelihood，ML）、最小距离法（minimum distance，MDC）、随机森林（random forest，RF）等，这些方法简单易学，可有效分类遥感影像，但对于“同物异谱”、“异物同谱”现象的识别效果相对较差、分类准确度不高[3-4]。为提高分类精度，充分利用影像的空间信息，卷积神经网络（convolutional network network，CNN）现已广泛应用到高分辨率遥感影像识别领域[5-6]。

自2012年AlexNet模型被提出开始，经过不断的改进与优化，目前已有众多典型的CNN模型，如GoogLeNet、U-Net、ICNet、Deeplab系列等，这些语义分割网络的提出为遥感影像分类带来更多可能性，CNN网络的具体实现方式各不相同，每个网络模型所能达到最佳分类精度的适应场景也有所不同[7-9]。Wu等提出了一种多约束全卷积网络（MC-FCN）来进一步提高U-Net模型的性能，其具有强大的特征表达能力，在提取建筑物方面表现良好[10]。Gaetano提出一种新的深度学习框架，即一种基于双分支的端到端神经网络，在大范围区域实验并验证了所提方法的有效性[11]。胡伟等将树形神经网络模块与Deeplabv3+网络结合，对城区遥感图像进行多类别分割，获得较高的准确率[12]。吴泽康等选择包含多种类别的两种数据集，对其提出的NC-Net网络进行精度验证，与其他算法相比具有一定的性能优势[13]。目前的影像分类研究针对单类或某几类地物分类较多且能获得较好识别效果，而对于类似城市建成区的多要素遥感影像分类研究并不多，其原因在于城市建成区内部涵盖建筑物、道路、游乐设施、植被、水体等，外部是林地、耕地以及布局稀疏的居民区，光谱特征会受到建成区及周围区域多样性的影响，影像的不确定性提高，类别间混淆度增高，导致分类精度降低[14-15]。

针对城市建成区地物复杂多样和ICNet计算复杂、分类精度低等问题，本研究采用一种优化的ICNet对高分辨率遥感影像城市建成区分类，利用JPU模块代替空洞卷积和增加ECA模块这两种方法达到对ICNet网络的优化，有效抑制地物间的混分现象，降低参数计算量的同时提高分类精度。为证明改进后的ICNet网络分类精度，本研究设计了与传统机器学习算法和深度学习算法的对比实验并进行分类精度结果分析，以期为大范围的城市建成区地物分类提供参考价值。

1 材料与方法

1.1 数据来源

选取的研究区为安徽省巢湖市建成区区域，巢湖市位于安徽省中部，因第五大淡水湖巢湖得名。此建成区区域影像为2020年2月获取的高分辨率影像，来源于Google Earth，其覆盖面积37.78 km2，图像尺寸大小为5 761像素×6 561像素，像素深度为16 bit。从中截取4幅影像作为实验所用原始数据，通过裁剪、格式转换等预处理操作，得到空间分辨率为1 m、像素深度为8 bit的训练影像数据集[16]，标签数据集则采用目视解译的方式得到。

为使优化模型更具说服力，增加了一个开源数据集进行测试，其来源于“中国计算机学会（China computer federation, CFF）卫星影像的AI分类与识别竞赛”，影像空间分辨率为亚米级，影像精度方面具有可靠性。

1.2 研究方法

1.2.1 ICNet模型 ICNet是图像级联网络，其思想是让低分辨率的图像先经过完整的语义感知网络形成粗糙的预测图，然后提出级联特征融合单元（cascade feature fusion，CFF）和级联标签指导策略（cascade label guidance，CLG），融合中分辨率和高分辨率特征，逐步细化粗略语义图[17]。

ICNet网络结构，共有上、中、下3个分支。顶层分支输入图像为1/4大小的图像，并以8倍下采样率输入到PSPNet网络中，得到1/32分辨率的特征图，在顶部低分辨率分支中生成了模糊的边界，虽然输入图像分辨率低，但已获取大部分语义信息。为了获得高精度的分割结果，中、高分辨率分支用于帮助恢复和细化粗略预测[18]，高分辨率分支采用轻量级CNN作为特征提取网络，不同级别的输出特征图通过级联特征融合单元进行融合，并通过级联标签指导策略进行训练，不同分辨率的信息被有效利用，提高了计算效率。但模型主干网络中的扩张卷积会带来计算方面的问题，并且模型对于图像细节部分预测精度有待提高，预测结果存在部分截断情况，这在后续的实验对比中也能发现。因此，本研究将从两个方面对ICNet模型进行改进，提高模型预测精度。

1.2.2 优化的ICNet网络模型 ICNet采用了一种残差网络resnet50，这种网络会一定程度上提高分类精度，但其复杂的网络结构也增加了计算负担，分类准确度方面还有很大的进步空间。鉴于此，本实验基于典型的语义分割模型ICNet，引入ECA模块和JPU模块实现对ICNet性能的优化。

1）ECA模块。本研究采用的注意力机制为软注意力机制，高效通道注意力机制（ECA）不仅有效捕捉了跨通道交互，而且避免了维度缩减，其主要思想为只涉及少量参数和可忽略的计算就可以实现性能的显著提升，提出一种拥有自适应卷积核大小的一维卷积替代原本的全连接层，保证在低复杂的情况下也有良好的性能表现[19]。在ECA中，进行逐通道全局平均池化处理后，通过考虑每个通道和它个相邻通道的交流获取本地跨通道交互信息，其结构如下：

图1 ECA模块

Figure 1 The model of ECA

使用波段矩阵W来对通道注意力进行学习，W表示为：

为了降低模型复杂度，所有信道共享学习参数，即：

其中，表示特征间相关性，的大小与第个通道遥感影像特征的重要性成正比。

可以进一步简化为一维卷积，即：

其中，表示一维卷积，表示对应的卷积核大小。

=()=2(*k-b)（5）

之后，给定通道维数，内核大小通过下式自适应确定：

在本实验中，将ECA模块放入resnet50残差处理模块中，使得每层残差模块的恒等映射分支中都拥有了一个高效通道注意力模块，()+通过映射分支和残差分支的输出做Add处理得到，后用relu函数进行激活。通过添加注意力机制的操作，增强resnet50的特征提取能力，提高分类效果，并且注意力的添加并不增加网络复杂程度，反而减少了计算量与参数量，提高模型精度。

2）JPU模块。针对ICNet网络中的扩张卷积存在的计算复杂和消耗内存过多的问题，本实验采用联合金字塔上采样（JPU）可以在多种方法中替代扩张卷积，在不损失性能的情况下，使计算时间与复杂度减少3倍以上，有效提高了模型的性能。

对ICNet网络结构的改进如图2所示，把上分支中设有的扩张卷积用JPU模块替代，中分支则仍在resnet50后添加JPU模块，有效利用了JPU可以从多级特征地图中提出多尺度背景信息的能力，从而获得更好的性能[20]。

图2 加入JPU模块的ICNet网络结构

Figure 2 ICNet with JPU

这样，通过使用JPU代替扩张卷积和在resnet50后增添JPU机制的安排，使得网络结构能获得更大的感受野。相比较原版ICNet使用扩张卷积来提高分辨率，JPU联合采样的特性使其能够利用多级特征图的多尺度语义信息，加强了对特征的提取效果，在提高分辨率的同时减少了内存的占用及计算的消耗。

1.3 实验设计

1.3.1 样本组织使用下载的高分辨率遥感影像需要制作自建数据集，本次选取的实验数据相比其他卫星遥感影像，不需要再对其进行大气校正、辐射定标等预处理操作，影像清晰度较高，符合本次实验要求[21]。实验数据集选取4幅影像为训练影像，整幅建成区区域作为预测影像，影像的地图级别为18，三通道RGB影像。选取的训练样本如图3所示。

图3 训练样本的选取

Figure 3 Training samples

在自建数据集的分类实验中，将对较大范围遥感影像分类，共设7个大类，其中，其他类为舍弃其余6类后所剩余的地物。数据集包括原图及对应标签图，标签样本的制作首先需要将选取的遥感影像作为底图，绘制各类别矢量图，其次修改对应的ID值，最后将像素深度统一更改为8 bit，并转换为png格式输出，制作完成的标签矢量图如图4所示。在正式进入模型训练之前，为保证训练样本的数量，利用随机采样窗口将训练的大图切割扩充为99 997张小图，之后再对其添加点噪声、滤波处理和几何变换，至此完成对训练样本数据的预处理工作[22]。

(a) 原图 (b) 标签图

Figure 4 Original image and visualization labels

1.3.2 精度评价指标采用总体分类精度（OA）、Kappa系数与F1这3个指标作为分类精度评价标准[23]。其中OA为被正确分类的像元个数与总像元数的比值；Kappa系数是在混淆矩阵的基础上计算，表示相比较随机分类来说正确部分结果的比例，计算结果通常介于0～1之间，值越接近1代表分类精度越高；1值就是精确度和召回率的调和均值，这里的设为1；具体公式如下：

2 结果与分析

为了评估优化ICNet网络的有效性，本实验在完成自建数据集的算法对比分析后，选择了一个开源数据集进行分类效果验证，进一步证明优化的ICNet网络的优势。

2.1 自建数据集结果分析

为了验证本实验方法的有效性和可行性，与3种算法的结果进行对比分析。参与实验的训练数据集与预测数据集均相同，以此保证对比实验的公平性[24]。

图5 不同方法对城市建成区遥感影像分类结果对比

Figure 5 Comparison of classification results of urban built-up area remote sensing images among different methods

分别用随机森林、ENet、ICNet、优化的ICNet网络4种方法对该影像进行分类，经过可视化处理后，4种方法的分类结果对比如图5所示。从预测的整体性来看，优化后的ICNet网络混淆分类的情况明显减少，呈现较好的分类结果。

表1 不同方法的精度评估对比

图6 4种方法预测结果细节

Figure 6 Details of the four methods prediction results

表1列举了4种方法的精度对比结果，可以明显看出，总体分类精度、Kappa系数及各类别的1值在不断提高，其中传统随机森林算法的指标最低，分类效果最差。优化的ICNet网络总体分类精度达到了75.12%，比ENet和ICNet分别提高了10.48%和4.81%，Kappa系数为0.66，比ENet和ICNet分别提高了0.05和0.1，7类类别的F1值均高于其他3种分类算法，分类效果提升明显。7类地物中建筑、水体、道路、常绿林、其他这5类的评价指标都较高，达到了实验分类精度的要求，但是，可以看到由于落叶林与耕地这两种地物的混淆度较高，导致分类结果相对较差，后续考虑通过分段的方式提高分类精度。

图6为图5部分区域的细节图，第1组和第2组为高密度建筑与低密度建筑，传统的随机森林分类方法对高密度建筑的提取效果较好，但由于低密度建筑地物特征杂乱无序，错分现象严重，大部分都混分成了植被与道路，不能精确地表达其复杂的地物特征；而其他两种算法虽整体分类效果不错，但也存在部分细节表现差，例如高密度建筑的左上角和低密度建筑的左下角。针对第3组的水体来说，随机森林此块地物的水体与常绿林混淆，导致分类错误，而ENet和ICNet网络对水体的边缘细节分割较为粗糙。第4组道路中，传统方法出现了不少的错误识别，错把其他地类识别为道路，导致分类精度低，而ENet和ICNet都出现了不同程度的断点问题。优化的ICNet网络对建筑、道路、水体的预测结果接近实际标签图，保留了更多的细节信息，分类表现优异。针对第5组与第6组的常绿林与落叶林来说，4种方法的识别效果差距较小，出现了小部分的识别错误，但本实验方法呈现了更精细的分类。第7组耕地中，本实验方法的效果明显优异。而第8组的其他类，优化的ICNet网络可以高效的提取其特征参数，改善混淆现象。总体来说，优化后的ICNet网络分类效果明显优于其他分类算法，达到实验对高分辨率遥感影像的分类要求。

表2 3种方法的精度评估对比

2.2 CFF数据集结果分析

将开源数据集影像分为5类，分别为建筑、道路、水体、树木和其他，选择ENet、ICNet和优化的ICNet3种网络模型对影像进行训练，并采用总体分类精度和Kappa系数两个评价指标进行精度对比。预测结果如表2和图7所示。

图7 3种方法预测结果

Figure 7 Prediction results of three methods

在开源数据集的实验中，从精度评估方面可以发现优化的ICNet网络依然具有较高预测精度，总体分类精度达到81.9%，Kappa系数为0.73，相比其他两种算法有较大提升。从预测出的结果图方面可以发现对于一些细小的道路、树木等，ENet网络几乎没能预测出来，ICNet网络虽部分能够预测出，但依然存在一些误判，而优化的ICNet网络对各类别的预测结果最接近真实标签图，进一步说明优化的ICNet网络的可靠性。

3 结论

本研究利用优化后的网络模型—ICNet+ECA+ JPU对大范围城市建成区高分辨率遥感影像进行分类研究，并与随机森林（RF）、ENet、ICNet作对比实验。结果表明，改进的深度学习网络模型可以有效提高影像分类精度，总体分类精度达75.12%，Kappa系数为0.66，其中建筑与水体类分类效果最好，分别达到了81.72%和83.48%，分类效果明显优于其他分类算法，并在开源数据集上进一步证明优化后网络模型的优势。实验证明，深度学习网络模型在城市建成区高分辨率遥感影像分类方面有很大的潜力。考虑到遥感影像在不同网络模型上训练结果的差异性，后期将在深度学习网络模型的选择与训练参数的设置上重点研究，进一步提高分类精度。

[1] 汪晓洲, 石翠萍, 杨焜, 等. 基于深度学习的场景遥感图像分类方法研究[J]. 齐齐哈尔大学学报(自然科学版), 2021, 37(5): 11-15.

[2] 陈妮, 应丰, 王静, 等. 基于U-Net的高分辨率遥感图像土地利用信息提取[J]. 遥感技术与应用, 2021, 36(2): 285-292.

[3] 戚王月, 胡宏祥, 夏萍, 等. 基于改进BP神经网络的多分辨率遥感图像分类及对比分析[J]. 安徽农业大学学报, 2019, 46(4):737-744.

[4] 袁立, 袁吉收, 张德政. 基于DeepLab-v3+的遥感影像分类[J]. 激光与光电子学进展, 2019, 56(15): 236-243.

[5] CASTELLUCCIO M, POGGI G, SANSONE C, et al. Land use classification in remote sensing images by convolutional neural networks [EB/OL]. 2015: arXiv: 1508. 00092. https://arxiv.org/abs/1508.00092.

[6] 卢元兵, 李华朋, 张树清. 基于混合3D-2D CNN的多时相遥感农作物分类[J]. 农业工程学报, 2021, 37(13): 142-151.

[7] 李唯嘉. 面向遥感影像分类、目标识别及提取的深度学习方法研究[D]. 北京: 清华大学, 2019.

[8] 牛鑫鑫, 孙阿猛, 王钎沣, 等. 基于深度学习的遥感图像分类研究[J]. 激光杂志, 2021, 42(5): 10-14.

[9] 马少鹏, 梁路, 滕少华. 一种轻量级的高光谱遥感图像分类方法[J]. 广东工业大学学报, 2021, 38(3): 29-35.

[10] WU G M, SHAO X W, GUO Z L, et al. Automatic building segmentation of aerial imagery using multi-constraint fully convolutional networks[J]. Remote Sens, 2018, 10(3): 407.

[11] GAETANO R, IENCO D, OSE K, et al. A two-branch CNN architecture for land cover classification of PAN and MS imagery[J]. Remote Sens, 2018, 10(11): 1746.

[12] 胡伟, 高博川, 黄振航, 等. 树形结构卷积神经网络优化的城区遥感图像语义分割[J]. 中国图象图形学报, 2020, 25(5): 1043-1052.

[13] 吴泽康, 赵姗, 李宏伟, 等.遥感图像语义分割空间全局上下文信息网络[J]. 浙江大学学报(工学版), 2022, 56(4): 795-802.

[14] 吉长东, 康仲林. 高分六号卫星城市建成区提取方法[J]. 激光与光电子学进展, 2021, 58(4): 439-446.

[15] 武宇, 张俊, 李屹旭, 等. 基于改进U-Net的建筑物集群识别研究[J]. 国土资源遥感, 2021, 33(2): 48-54.

[16] 徐知宇, 周艺, 王世新, 等. 面向GF-2遥感影像的U-Net城市绿地分类[J]. 中国图象图形学报, 2021, 26(3): 700-713.

[17] ZHAO H, QI X, SHEN X, et al. ICNet for real-time semantic segmentation on high-resolution images [EB/OL]. 2017: arXiv: 1704.08545. https://arxiv.org/abs/1704.08545.

[18] 佘磊. 基于深度学习的山区道路图像语义分割研究[D]. 成都: 成都理工大学, 2020.

[19] WANG Q L, WU B G, ZHU P F, et al. ECA-net: efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). June 13-19, 2020, Seattle, WA, USA. IEEE, 2020: 11531-11539.

[20] WU H K, ZHANG J G, HUANG K Q, et al. FastFCN: rethinking dilated convolution in the backbone for semantic segmentation[EB/OL]. 2019: arXiv: 1903.11816 [cs.CV]. https:// arxiv.org/abs/1903.11816.

[21] 刘海秋, 任恒奎, 牛鑫鑫, 等. 基于Sentinel-2遥感影像的巢湖蓝藻水华提取方法研究[J]. 生态环境学报, 2021, 30(1): 146-155.

[22] 吕道双, 林娜, 冯丽蓉, 等. 基于改进型U-Net网络的高分辨率遥感影像建筑物提取[J]. 地理空间信息, 2021, 19(1): 30-34.

[23] 王庆超, 付光远, 汪洪桥, 等. 多核融合多尺度特征的高光谱影像地物分类[J]. 光学精密工程, 2018, 26(4): 980-988.

[24] 张祥东, 王腾军, 朱劭俊, 等. 基于扩张卷积注意力神经网络的高光谱图像分类[J]. 光学学报, 2021, 41(3): 49-59.

Classification of urban built-up area from high-resolution remote sensing image based on the optimized ICNet

XIA Guojing1, HUANG Kai1, ZHENG Qingya2, XIA Ping1,3, TIAN Bo1,3, ZHOU Ting1,3, NIU Xinxin1

(1. School of Engineering, Anhui Agricultural University, Hefei 230036;2. School of Artificial Intelligence, Anhui Polytechnic University, Wuhu 241000;3. Anhui Intelligent Agricultural Machinery Equipment Engineering Laboratory, Hefei 230036)

Urban built-up area is a kind of combined target group with large area, which is rich in features, complex and variable spectral characteristics, and has a large number of phenomena such as different spectra of the same object and the interleaving of ground object pixel units, making image classification significantly more difficult. To address the problems of complex calculation and low classification accuracy of image cascade network (ICNet), the optimized semantic segmentation model (ICNet) is used to classify the ground objects in the urban built-up area of high-resolution remote sensing images, by adding the efficient channel attention (ECA) and joint The classification results are evaluated by adding efficient channel attention (ECA) and joint pyramid upsampling (JPU) to replace dilated convolution to obtain the improved ICNet network. The overall accuracy (OA), kappa and F13 were used to evaluate the accuracy of the classification results, and were further compared with random forest (RF), ENet and ICNet methods. The results showed that the optimized ICNet network model could classify ground objects more accurately with an overall classification accuracy of 75.12%, which was 16.56%, 10.48% and 4.81% higher than that with RF, ENet and ICNet method, respectively. Then, the open source data set was used to further verify the effectiveness of the optimized model. The experiment results showed that the optimized ICNet network can be used for the classification of urban built-up areas.

convolutional neural network; ICNet semantic segmentation model; classification; high-resolution remote sensing images; urban built-up area

TU984.1; P407.8

1672-352X (2023)02-0303-07

2022-02-23

国家自然科学基金（11802003），安徽省自然科学基金（2008085ME158）和安徽省国际科技合作计划项目（1604b0602029）共同资助。

夏国静，硕士研究生。E-mail：xiaguojing_1030@163.com

通信作者:夏萍，博士，教授。E-mail：xiaping@ahau.edu.cn

10.13610/j.cnki.1672-352x.20230511.001

2023-05-12 10:07:35

[URL] https://kns.cnki.net/kcms/detail/34.1162.S.20230511.1148.002.html