基于条形卷积和上下文感知的近海水产养殖提取方法
2024-03-06吴婷陈红梅罗冬莲陈芸芝
吴婷, 陈红梅, 罗冬莲, 陈芸芝
(1. 福州大学数字中国研究院(福建), 福建 福州 350108; 2. 卫星空间信息技术综合应用国家地方联合工程研究中心, 福建 福州 350108; 3. 福建省水产研究所, 福建 厦门 361006)
0 引言
随着近海水产养殖业的快速发展和养殖面积的不断扩大, 大规模养殖区的散乱分布严重影响了海上交通, 人工饲养的残留物导致水体富营养化严重、 水体溶氧压力增大等一系列水质问题[1-2]. 从遥感图像中提取近海水产养殖区域能够促进水产养殖业的健康可持续发展, 减少其无序发展带来的负面影响, 对于水产养殖监测、 规划和管理非常重要.
近海水产养殖方式以筏式和网箱养殖为主, 养殖面积广阔且大部分位于海面, 依靠传统监测方法耗时长、 成本高且更新频率低. 卫星传感器因具有探测范围广、 时效性强, 经济效益大, 以及获取资料准确且丰富等优点[3], 使得遥感技术在海洋生态领域中的应用越来越广泛, 特别是在海水养殖区的长期大范围监测方面. 高空间分辨率影像数据能在一定程度上减少混合像元对信息提取的影响, 使提取结果更接近实际养殖水面面积, 但由于其高成本和图像宽幅小的缺点, 多用于单一海湾的小区域[4]. 而Landsat系列和Sentinel-2等中分辨率遥感数据因图幅优势, 适用于更大范围的近海水产养殖提取任务. 部分学者基于像元的光谱、 纹理等特征进行监督或非监督分类, 以及面向对象分割等方法开展近海水产养殖信息提取. 武易天等[5]、 李缨等[6]和薛梅等[7]结合遥感影像的光谱、 形状和纹理等特征, 得到精确的近海水产养殖区信息. 上述方法都是基于水产养殖的低层特征构建得到, 这些特征的提取方法简单, 复杂度低, 然而其稳定性不足, 不适合应用于大规模数据集上.
相较于传统方法, 深度学习无需对影像进行复杂的光谱特征分析而是通过卷积层自动从影像中学到丰富的光谱与空间特征, 能够实现大范围精准分类, 以及提高提取任务的自动化程度, 且具有鲁棒性、 稳定性及不变性等优势, 在道路、 建筑物和水产养殖区等地物提取中均取得良好的效果[8-10]. 采用深度学习方法提取近海养殖区域, 不仅能避免水陆分离等预处理操作, 同时, 对于近海复杂光谱信息和水产养殖密集分布的区域能表现出更好的提取能力. Shi等[11]基于全卷积网络模型设计了双尺度同质卷积神经网络实现海陆边界的识别及筏式养殖提取, 但密集养殖区的水体易误判为筏式养殖. Lu等[12]在U-Net模型基础上引入注意力和流对齐模块, 挖掘水产养殖区丰富的语义和位置信息, 提高模型提取精度, 但在养殖密集区仍存在粘连现象. 由于养殖水体对养殖区边缘的干扰, 刘岳明等[13]通过建立丰富卷积特征模型提取的筏式养殖存在边界未封闭问题. 由此, Cui等[14]在U-Net基础上通过增加金字塔上采样压缩激励模块以解决养殖边缘模糊问题, 并实现大范围的筏式养殖提取. 柯丽娜等[15]为更准确地提取近海网箱养殖的边缘和形状特征, 则结合 Canny 算子双边滤波算法和U-Net模型实现网箱养殖提取. 卷积神经网络主要是通过卷积层学习目标的不同特征, 但随着网络层数的加深U-Net模型易出现梯度消失和网络退化等问题[16], 在U-Net基础上结合残差学习[17]提出一种新的用于地物提取的ResUnet(residual U-Net)网络结构[18], 并在道路提取任务中表现较好. 但是该模型结构较简单, 应用于不同的场景时, 模型特征提取能力存在差异, 部分学者通过增加注意力和金字塔池化等模块以提高ResUnet网络的特征提取能力[19-20].
近年来, 基于深度学习方法的近海水产养殖提取集中在单一海湾的高空间分辨率遥感图像, 然而在大规模的近海水产养殖区域提取任务较难实现. 中分辨率遥感图像无疑是更好的选择, 但受沿海陆地和海水的影响, 光谱信息更复杂, 导致养殖区提取存在一定困难. 因此, 本研究以ResUnet模型为基础, 提出一种带有条形卷积模块和上下文感知单元的水产养殖提取方法, 增强模型的特征提取能力, 实现高精度的大范围中等分辨率影像近海水产养殖信息提取, 同时能够满足基于高分辨率影像的重点水产养殖提取需求.
1 研究方法
1.1 MSUResUnet网络模型
ResUnet[18]融合了残差网络和U-Net结构的优点, 在遥感影像提取任务中被广泛应用并展现出良好的性能. 本研究在ResUnet模型的基础上, 改进得到MSUResUnet(multi-directional strip convolutional and context-aware unit residual U-Net)模型(图1). 该模型增加了下采样的次数, 加深了模型的结构, 使得模型具有更强的特征提取能力; 同时, 在模型的编解码器中引入多方向条形卷积模块[21], 同级编解码之间通过条形池化模块[22]连接, 在模型中间引入上下文感知模块.
图1 MSUResUnet网络模型图Fig.1 MSUResUnet network model
1.2 条形池化
ResUnet网络结构通过简单的跳跃连接来加强浅层与深层特征间的联系, 无法有效突出水产养殖区的特征信息, 导致提取效果不理想. 条形池化模块(strip pooling, SP)[22]可以有效建立长距离依赖关系, 并用带状核对区域进行编码, 不同于依赖于方形核的传统空间合并, 其具有较好的捕获长距离相关性和提高通道间相关性的能力. 为增强编码层与解码层信息之间的特征交互能力编解码器之间由SP模块连接.
1.3 多方向条形卷积模块
在卷积神经网络中, 大部分卷积层采用方形卷积核来学习特征, 且适用于大多数地物. 然而, 水产养殖在遥感影像上大多呈现长条形状、 狭窄且并排密集分布. 利用方形卷积核无法较好地捕捉养殖区的线性特征, 因此, 为增强模型对水产养殖线状特征的捕捉能力, 在模型的编解码部分引入多方向条形卷积模块(multi-directional strip convolutional, MSC)[21], 以捕获水产养殖的长距离关系和局部线性上下文信息. 该卷积的基本结构如图2所示. 多方向条形卷积层由4个不同方向的非对称卷积组成来捕获不同方向的远程上下文信息, 分别是水平、 垂直、 左对角线和右对角线, 为捕捉养殖区更显著的线性特征, 经对比实验本文最终将卷积层的卷积核分别设置为1×11和11×1. 特征图输入多方向条形卷积层后, 并行经过4个方向的条形卷积层提取水产养殖区的线状特征, 然后将提取的特征拼接并输入到下一层的方形卷积核中, 充分融合条形卷积层的线状特征.
图2 多方向条形卷积结构Fig.2 Multi-directional strip convolutional structure
1.4 上下文感知单元
光谱和纹理特征都属于浅层特征, 较容易通过图像获得, 而语义分割和目标检测任务中重要的上下文特征是一种较抽象的深层特征信息, 有助于区分目标对象和背景信息[23]. 为获取水产养殖区更丰富的上下文信息, 本模型在编解码中间增加了一个上下文感知单元(context-aware unit, CU), 该模块基于残差单元(如图3(a))设计得到, 将残差单元中的方形卷积核替换为条形卷积(strip conv)和膨胀卷积(dilate convolution)[24], 并结合循环卷积思想[25]将不同尺度进行特征整合, 其结构如图3(b)所示. 图3中1×1卷积用于压缩特征, 以降低模型的计算量. 经实验本研究最终确定压缩率为r=8, 时间步长t=1, 膨胀率d根据特征图尺寸大小分别设置为8和16.
图3 上下文感知单元结构Fig.3 Context-aware unit structure
2 实验与评价指标
2.1 Sentinel-2 MSI水产养殖遥感数据集
水产养殖遥感数据集基于福建省宁德市三沙湾海域预处理后的Sentinel-2 RGB遥感影像制作得到, 数据从欧空局网站(https://scihub.copernicus.eu/)免费下载, 空间分辨率为10 m. 数据集使用4景不同时相、 云量少且覆盖整个三沙湾海域的影像制作而成, 标签制作过程在ArcGIS软件中实现. 数据处理过程中, 以32 px的重叠率和128 px×128 px的图片大小对影像进行裁剪. 对标签进行筛选后共获得3 260张水产养殖影像及其对应的标签, 按7∶2∶1比例将数据集划分得到2 282张训练集、 652张测试集和326张验证集. 同时, 在模型训练过程中对数据进行翻转、 旋转、 偏移和缩放等数据增强操作.
2.2 实验环境
基于Windows10系统和PyTorch1.2框架, 利用搭载NVIDIA RTX 2080(8 GB)显卡的GPU进行网络的训练. 网络训练过程中, 实验基于自适应梯度下降Adam算法作为模型训练的优化器; Batchsize设置为8; Epoch(迭代次数)设置为150; 初始学习率设为0.001, 且训练过程中经过4次0.1倍速的递减; 损失函数则采用骰子系数(dice coefficient)和交叉熵损失(cross entropy loss)的组合.
2.3 评价指标
使用总体精度(overall accuracy, OA)、 Kappa系数(K)、 平均交并比(mena intersection over union, MIoU)和F1分数(F1)评价模型的性能. 总体精度是正确分类的像素与总像素总数之比; Kappa系数旨在衡量分类的效果; 交并比表示预测图和真实标签之间交集和并集的比值, 平均交并比表示所有类的平均交互;F1分数是召回率(R)和精确率(P)的和平均值, 能够综合召回率和精准率两个指标的性能.
3 实验结果与分析
3.1 不同网络结构损失(Loss)曲线对比
为验证模型的性能并分析各模块对水产养殖提取的影响, 本研究在Sentinel-2 MSI水产养殖数据集上对多个模型进行测试, 包括U-Net[16]、 Improved U-Net[12]、 ResUnet[18]、 MSResUnet(multi-directional strip convolutional ResUnet, 在ResUnet中增加了条形池化SP和条形卷积模块MSC)及MSUResUnet(在ResUnet中同时增加了SP、 MSC和上下文感知单元CU). 图4展示各模型在Sentinel-2 MSI水产数据集上的训练损失曲线变化, 可知上述模型的训练损失变化趋势基本保持一致. 即在前40个迭代次数中, 各模型的损失下降较快, 而在后40个迭代次数各模型的损失逐渐稳定并收敛. 进一步比较模型的收敛阶段可知, MSResUnet和MSUResUnet模型整体的损失较低, 表明二者的拟合效果较好, 尤其是MSUResUnet模型在拟合效果方面表现最佳.
图4 Sentinel-2 MSI数据集上的训练损失曲线 Fig.4 Training loss curves on Sentinel-2 MSI datasets
3.2 不同网络结构实验对比
研究基于控制单一变量原则和Sentinel-2 MSI数据集, 在相同的训练条件下对不同模型进行训练和测试, 各模型的部分预测结果如图5所示.
图5 不同算法在Sentinel-2 MSI数据集预测结果Fig.5 Prediction results of different algorithms in Sentinel-2 MSI datasets
由图5可知, 区域A中由于养殖密度较大且部分养殖区受到海水环境影响导致在影像上的信号较弱, U-Net和ResUnet模型提取结果中筏式养殖存在严重的粘连现象, 增加条形池化SP和条形卷积模块MSC有助于模型捕获长距离的依赖关系和线性特征, 明显改善了粘连现象. 从区域B的提取结果可知, 该区域内筏式和网箱养殖交错紧凑分布, U-Net、 ResUnet和MSResUnet模型的提取结果中网箱养殖出现粘连现象, 而MSUResUnet模型粘连现象得到改善, 提取效果最优. 图5中的区域A、 B显示U-Net+Canny边缘和Improved U-Net提取的养殖区边界的粘连现象得到一定改善, 但是在密集养殖区其边界效果不如MSUResUnet方法. 图5中的区域C、 D提取结果可知, U-Net、 Improved U-Net、 U-Net+Canny边缘、 ResUnet和MSResUnet提取结果均存在明显的漏提现象; 该区域内养殖区光谱信号较弱且与背景相近导致部分漏提, 增加上下文感知单元CU模块提高了MSUResUnet模型获得多尺度上下文的能力, 更关注于水产养殖区的位置信息和语义信息, 模型提取结果与标签影像更接近, 改善了漏提现象. 综上, 本研究提出的MSUResUnet模型具有更好的特征提取能力, 能够准确识别筏式养殖区和网箱养殖区, 且可以减少养殖粘连和漏提现象.
为了直观比较各模型在Sentinel-2 MSI数据集上的性能, 使用节2.3中的评价指标对各模型进行评估, 并将结果整理, 见表1. 由表1可知, MSResUnet和MSUResUnet模型在Sentinel-2 MSI水产养殖数据集上表现出较好的提取效果, 两者的K、 MIoU、 OA和F1在数值上明显高于U-Net和ResUnet模型. 其中, MSUResUnet模型的整体精度最好, 与U-Net模型相比, 各评价指标分别增加了1.22%、 1.74%、 0.39%和1.12%; 较ResUnet模型分别增加了0.99%、 1.51%、 0.32%和0.98%; 与Improved U-Net对比, MSUResUnet模型的评价指标均更高. 进一步分析可知, 加入边缘特征在一定程度上提高了模型的提取精度, 其MIoU、 OA和F1均优于U-Net和ResUnet模型, 但较MSUResUnet模型,K和MIoU分别相差1.04%、 1.44%. Unet增加残差网络后精度得到小幅度的提升, ResUnet模型增加SP和MSC模块后, MSResUnet模型的精度有较大的提高, 其K、 MIoU、 OA和F1分别提升了0.82%、 1.22%、 0.28%和0.79%, 表明SP和MSC模块在提高模型捕捉线性特征的能力方面具有较好效果, 是模型性能提升的主要因素, 而将SP、 MSC和CU模块联合起来能够进一步提升模型的性能, 从而取得更好的养殖区提取结果.
表1 各模型在Sentinel-2MSI测试数据集上的精度对比
3.3 福建省海域提取结果与分析
1) 基于Sentinel-2影像近海养殖区提取. 为验证本文模型在福建全省近海养殖区提取任务的适用性, 本研究将基于Sentinel-2 RGB影像训练的MSUResUnet网络模型扩展应用至整个近海水产养殖区, 从欧空局官网上获取2019年3月30日福建省近海Sentinel-2 MSI遥感影像数据, 提取结果如图6.
图6 MSUResUnet模型在福建省海域Sentinel-2 MSI影像预测结果Fig.6 Prediction results of MSUResUnet model on Sentinel-2 MSI images in sea area of Fujian Province
由图6(a)得到2019年福建省近海水产养殖空间分布信息, 可知福建省近海养殖主要分布于三沙湾、 兴化湾及东山湾海域, 养殖分布是以中部兴化湾海域为中点, 分为上下近似对称养殖相关. 统计得到2019年近海水产养殖总水面面积为336.24 km2, 其中, 网箱养殖面积为37.76 km2, 筏式养殖面积为298.48 km2. 同时, 为更加准确地评估本模型MSUResUnet在福建近海海域水产养殖区提取效果, 选择三沙湾和罗源湾和兴化湾附近海域, 利用评价指标对模型预测结果与对应海域的矢量化真实标签进行精度评估, 结果如表2.
表2 不同海域养殖提取精度
结合原始影像数据, MSUResUnet模型在兴化湾、 三沙湾和罗源湾附近海域的提取结果与真实的近海水产养殖面积分布一致, 区分了筏式和网箱养殖区. 兴化湾、 三沙湾和罗源湾附近水域的提取精度K和MIoU分别达到了89.06%、 90.26%和83.48%、 86.98%, 结果表明本研究改进的MSUResUnet模型能够满足大规模筏式和网箱养殖的快速提取需求. 然而, 面对干扰因素较多的复杂场景时, 例如, 受近海水体中的叶绿素a、 黄色物质CDOM等噪声影响, 遥感图像上养殖区相对模糊的区域仍存在较少的遗漏和粘连提取效果仍需提升.
2) 基于GF-2 PMS影像近海养殖区提取. 考虑到模型MSUResUnet在不同分辨率影像上的适用性, 由于2019年3月30日高分二号影像数据可用性较低, 无法获取到覆盖整个三沙湾海域的影像, 故只在有限的数据中选取与Sentinel-2影像获取的典型研究区一致的两景GF-2 PMS影像, 实现不同数据源GF-2影像中近海水产养殖区自动提取, 提取结果如图7. GF-2影像较Sentinel-2分辨率高, 因此水产养殖区域的边缘部分提取结果更为清晰准确, 并且在密集养殖区域误提现象较少, 取得了较高的提取精度. 然而, 由于近海高分数据的可用性较低且宽幅小, 基于高分数据的同一时相大规模近海水产养殖提取任务较难实现, 更适合用于对重点单一海湾养殖区的遥感监测.
图7 MSUResUnet模型在三沙湾海域GF-2PMS影像预测结果Fig.7 Prediction results of MSUResUnet model on GF-2 PMS images in Sansha Bay
4 结语
针对中等分辨率影像中水产养殖边界模糊、 存在类间干扰的问题, 设计一种带有条形卷积模块和上下文感知单元的MSUResUnet模型, 并分别在福建省近海海域的Sentinel-2 MSI和GF-2 PMS数据验证模型的性能. 实验结果表明: 以ResUnet模型为基础, 增加条形池化SP和条形卷积模块MSC能捕捉到更加丰富的线性特征, 改善了养殖提取任务中的粘连现象; 增加上下文感知单元CU使模型具有更好的多尺度上下文信息获取能力, 关注于近海水产养殖区相关的语义信息, 有效减少了模型的漏提现象. 该网络模型在Sentinel-2 MSI水产养殖数据集取得了较高精度, 其K、 MIoU、 OA和F1分别达到了89.17%、 84.33%、 96.38%、 91.19%, 与Unet+Canny边缘和Improved U-Net对比, MSUResUnet模型在中分辨率遥感影像上的近海水产养殖区提取任务中具有更好的特征提取和抗干扰能力. 本文模型在福建全省近海水产养殖区提取任务中取得较高的提取精度, 能够满足大规模筏式和网箱养殖的快速提取需求, 具有较强的适用性; 同时, 在GF-2 PMS影像上也具有较好的提取能力, 表明网络模型不受限于传感器差异造成影响, 对高分辨率影像的水产养殖区提取同样适用.