基于改进U-Net网络模型的高分影像养殖池塘提取

2022-12-29夏丽华蒋晓旭黄腾杰邓剑文

湖北农业科学 2022年20期

陈行，夏丽华，颜军，蒋晓旭，黄腾杰，邓剑文

（1.广州大学地理科学与遥感学院/广东省农村水环境面源污染综合治理工程技术研究中心，广州 510006；2.珠海欧比特宇航科技股份有限公司，广东珠海 519000）

随着中国人民生活质量的提高，人民群众对鱼类、虾类等水产品需求逐年增加。池塘养殖作为一种重要的水产养殖方式，其分布调查是渔业资源研究的重要部分。传统的调查方式耗时费力，得到的一般为统计数字和文本数据，直观性差，不适合大范围的水产养殖资源调查，遥感技术具有获取数据面积广、重访周期短、时效性强、成本相对低等特点，利用遥感技术对渔业养殖信息进行提取，已经成为渔业资源与环境研究的一个重要发展方向［1-3］。

各类型遥感卫星升空运行，使遥感技术在各领域应用加速，但在渔业应用方面相对滞后［4］。在渔业养殖领域，遥感技术多数应用于大面积养殖水体提取和养殖水体污染反演估算［1-5］。在大面积水产养殖提取方面，主要有基于目视解译的方法、基于光谱信息的方法和面向对象方法［6，7］。面向对象方法依据影像目标的光谱、形状、纹理等特征信息进行分类，能够提高分类精度、减少椒盐噪声，被广泛应用于渔业遥感信息提取［8］。例如，关学彬等［9］基于SPOT遥感卫星影像，使用eCognition面向对象遥感商业化的处理软件对海南文昌水产养殖区进行提取。王晓轩［10］基于SPOT-5卫星影像，使用面向对象方法，采取两层分割尺度技术对近岸海水和养殖水体实现了有效分离。还有一些学者尝试基于中高分辨率遥感影像，使用面向对象和其他方法相结合对养殖池塘进行提取。裴亮等［11］使用归一化差异池塘指数结合面向对象方法提取海岸养殖池塘，取得比传统指数法阈值分割更优的效果。王芳等［1］结合面向对象方法和关联规则方法，对4种海水养殖模式进行精细提取，拓宽了传统逻辑推理分类方法中获取信息的途径，且分类精度得到了提高。

上述方法人工参与程度仍然较高，提取结果不够精细。近年来，深度学习在影像语义分割精度和自动化方面的优势为遥感信息提取提供了新的途径［12］。刘岳明等［13］使用RCF模型提取高分二号影像中的养殖浮筏，取得了良好效果。郑智腾等［6］提出一种改进型双支网络结构，用于提取高分二号影像中海面的养殖网箱，分类精度高于传统方法。但是，养殖浮筏和养殖网箱边缘清晰、海面背景简单，而陆地上的养殖池塘不仅大小、形态不一，而且背景地物复杂多样，因此精细提取养殖池塘的难度要远大于提取海上的养殖浮筏和养殖网箱。本研究数据源为0.5 m分辨率遥感影像，使用改进的U-Net网络模型对养殖池塘进行精细提取，并与使用面向对象方法和D-LinkNet模型方法提取结果进行对比，以期为这方面研究提供参考。

1 研究方法

1.1 卷积神经网络模型（CNN）

深度学习最早由Hinton等［14］在2006年提出，此后，深度学习开始备受学者关注。深度学习是用多层神经网络模拟人类大脑学习过程的一个机制。不同于传统机器学习算法，深度学习更强调从海量数据中通过多层神经元自动学习特征［14-16］。卷积神经网络（CNN，Convolutional neural networks）是深度神经网络的一种，主要由输入层、卷积层、池化层、全连接层及输出层组成。卷积层用于特征抽取，池化层又称下采样，目的是将特征降维并压缩数据量，全连接层作用是特征整合与分类。卷积神经网络基本结构如图1所示。

图1 卷积神经网络（CNN）基本结构

1.2 全卷积网络模型（FCN）

全卷积神经网络（FCN，Fully convolutional networks）是在卷积神经网络基础上改进而来。全卷积神经网络把卷积神经网络中的全连接层替换为卷积层，整个网络由卷积层连接，这样使得原来由卷积神经网络输出的一维概率值变为输出二维分类结果图像，即形成端到端的网络模型。改进后的全卷积神经网络能够有效保留输入图像的空间信息，可以实现对每个像素都产生一个预测结果，同时因为省去了卷积神经网络中复杂的逐个窗口计算过程带来的大量冗余，图像处理效率也得到大幅提升［15-17］。FCN结构如图2所示［18］。

图2 全卷积神经网络（FCN）结构

1.3 U-Net网络模型

U-Net网络模型由FCN改进而来，于2015年首次提出并应用于生物医学图像语义分割。因为该模型拥有1个压缩网络结构以及1个扩展网络结构，2个结构对称形状似字母“U”，所以称之为U-Net［19］。U-Net结构如图3所示。U-Net使用深度学习模型广泛应用的编码-解码思想，其左边压缩部分是编码器，编码器部分进行图像的下采样，图像不断缩小，右边扩展部分是解码器，进行图像的上采样，图像不断扩大。U-Net采用4次跳跃连接方式来连接压缩结构与扩展结构大小对应的特征图，使两部分特征图进行融合。U-Net模型的“U”型结构使得不同尺度间的特征融合更加直观，低级特征和高级特征融合能够保留更多细节信息，同时其“U”型结构具有很强的改造性［12，20，21］。

图3 U-Net网络模型结构

1.4 融合DenseNet的改进U-Net网络模型

U-Net最初是为生物医学影像分割提出的网络模型，由于地物的复杂性，如果将原始较浅的U-Net网络模型直接应用于遥感影像中，会导致地物特征提取不充分，分类精度降低。DenseNet是一种具有密集连接结构的网络模型，如图4所示，它有多个密集连接块（Dense block，DB）并由转换层（Transition layer）串联起来，这样使得网络更窄，参数更少。而在每一个密集连接块DB内，每一层不仅与相邻层连接，而且与其后所有层都直接连接，即网络中任意一层的输入都是前面所有层的输出总和。因此，相对于VGG等早期卷积网络，DenseNet网络有以下特点［22，23］：①一定程度上减轻了梯度弥散；②加强特征传播，特征被充分利用；③具有正则化效应，减少过拟合；④网络更窄，参数减少。

图4 DenseNet网络结构

因此，将DenseNet网络引入U-Net网络模型的压缩部分，即使用DenseNet作为U-Net的编码器，这样能够充分发挥DenseNet特点，更有效地利用和传递特征信息，达到良好的分类效果，改进后的U-Net模型如图5所示。

图5 改进的U-Net网络结构

2 养殖池塘提取试验

2.1 数据预处理

研究区为广东省珠海市，珠海市位于广东省珠江口西岸，研究区内养殖池塘、河流、耕地、建设用地、山地等各类型用地均有分布，地物类型复杂多样。试验采用的遥感数据为2019年9月Pleiades遥感卫星数据，Pleiades遥感卫星搭载有0.5 m全色相机和2.0 m多光谱相机。首先，对全色影像和多光谱影像进行辐射校正和几何校正，将0.5 m全色影像和2.0 m多光谱中RGB波段使用Pansharp算法进行融合，拼接生成0.5 m分辨率珠海全区的RGB影像。其次，使用ArcMap 10.3软件对珠海典型区域养殖池塘进行手工标注。以5 056×5 056像元大小选取100块典型区域，按照4∶1制作为训练数据集和验证数据集。最后，将数据集影像按512×512像元大小裁剪为141 932张影像，其中，512×512即为模型训练中影像的输入像元大小。

2.2 网络模型训练

本研究改进的U-Net网络模型基于深度学习框架TensorFlow搭建，在使用Ubuntu 16.04版本操作系统的服务器上运行，服务器CPU型号为Intel Xeon Silver 4114（2.2 GHz），GPU型号为TITAN Xp（12 GB）。试验使用GPU训练，综合考虑训练样本数量和GPU内存大小，确定模型的初始学习率（Learn rate）为0.000 1，批大小（Batch size）为4，迭代次数（Epoch）最大为100次，并设置早停法（Early stopping）策略可提前终止训练。训练过程最终在迭代54次后终止，训练过程中的损失值变化如图6所示。

图6 训练损失值变化

2.3 精度评价及结果分析

为了评估改进U-Net网络模型提取效果，从验证集中选取珠海不同地区3块典型区域影像，使用面向对象方法和CVPR 2018 DeepGlobe比赛夺冠网络模型D-LinkNet［24］与本研究方法对比。面向对象方法，首先将图像分割成超像素对象，然后再对这些对象进行分类。试验设置经过多次尝试，设置分割尺度为60，颜色权重为0.5，形状权重为0.5，紧致度为0.2，平滑度为0.8。D-LinkNet网络模型在同等硬件环境下进行试验。然后对3种方法提取效果进行定量和定性2个方面的对比评价和分析。

定量评价方面，以目视解译手工矢量化为参考，选取基于混淆矩阵的3个评价指标——交并比（IoU，Intersection over union）、精确率（P，Precision）、召回率（R，Recall）来定量评价改进U-Net网络模型与面向对象养殖池塘提取效果。

如表1所示，TP表示提取结果和真实情况完全一致都是正例，称之为真正例，FN表示提取结果是反例而真实情况为正例的情况，FP与FN表示的情况完全相反，TN则表示提取结果和真实情况都是反例的情况。

表1 混淆矩阵

交并比是指提取结果与实际情况的交集和并集之比，它是最常用的评价指标之一。用混淆矩阵表示，公式如下。

精确率是针对提取结果而言的，它表示的是提取为正例的结果中有多少是真实情况的正例，公式如下。

召回率是针对真实情况而言的，它表示的是真实情况的正例有多少被正确提取，公式如下。

从表2中可以看出，改进U-Net模型方法提取结果精度在3个评价指标方面均高于面向对象方法。改进U-Net模型方法在精确率和IoU 2个指标高于D-LinkNet模型方法，并且改进U-Net模型方法兼顾精确率和召回率2个相互关联的指标，仅在召回率单个指标低于D-LinkNet模型方法。

表2 3种方法的提取结果精度对比（单位：%）

为了进一步评价改进U-Net网络模型对养殖池塘的提取效果，对提取结果定性对比，如图7所示，有以下发现，和面向对象提取结果相比，改进U-Net网络模型方法漏提少。面向对象方法结果中，影像A的区域1及影像B的区域4养殖池塘有较为明显的遗漏提取，主要原因是面向对象方法对无水的养殖池塘不能很好地提取；改进U-Net网络模型方法误提较少。影像B的区域2中，面向对象方法和DLinkNet模型方法均出现将耕地田块误提为养殖池塘的问题，而本研究的方法几乎没有这种情况；改进U-Net网络模型对养殖池塘与耕地及景观池塘区分能力比以上2种方法好；影像B的区域3中，其他2种方法将景观池塘误提为养殖池塘，而改进U-Net模型方法没有出现这种误提现象；影像C的区域5近海滩涂和养殖池塘的颜色、纹理相近，特别是围起的滩涂，形成类似养殖池塘的矩形，因此，3种方法提取均有误提的情况。总体来看，本研究方法比面向对象方法更少漏提和误提，比D-LinkNet模型方法更少误提，总体上，改进U-Net网络模型养殖池塘提取效果最好。

图7 改进U-Net网络模型对养殖池塘的提取效果

3 小结

针对目前养殖池塘精细提取研究较少的情况，本研究基于高分辨率遥感卫星影像，使用DenseNet结构作为编码器改进U-Net网络模型对养殖池塘进行提取，并使用面向对象方法和D-LinkNet模型方法进行对比。结果显示，改进U-Net网络模型方法养殖池塘提取效果最佳，精确率、召回率、交并比分别达到92.77%、92.21%、85.60%。相比面向对象方法，使用本研究改进U-Net模型方法人工参与度低、参数少、学习能力强、智能化程度高。同时，和DLinkNet模型方法相比，本研究方法误提更少。因此，改进U-Net网络模型方法提取高分辨遥感影像中养殖池塘具有明显优势，对渔业养殖确权、精细化管理等更具有实际意义，能够为渔业资源统计调查提供新方法参考。后续还将使用改进U-Net网络模型对不同时相的高分辨率遥感影像进行养殖池塘精细提取试验，以验证改进U-Net网络模型方法对不同地区养殖池塘的提取能力。