APP下载

基于双支路全局局部感知网络的高分影像林地信息提取方法

2023-01-10胡永进高小慧胡耀天

江苏农业科学 2022年23期
关键词:支路特征提取分类器

胡永进, 韩 旭, 高小慧, 胡耀天

(江苏农林职业技术学院,江苏句容 212400)

森林生态系统覆盖了全球陆地表面的1/3,及时准确掌握林地信息对环境保护具有重要作用[1-2]。不同于传统的手工林地调查,遥感影像可以提高林地调查效率,有助于可以帮助快速提取地表信息分布情况。然而,由于遥感影像中地物特征复杂性,如何实现高精度的遥感影像林地信息提取仍然是当前研究所面临的难题。

1 研究现状

利用遥感影像进行林地信息提取方法主要包括目视解译、像元计算、面向对象、机器学习及深度学习[3-5]。其中,目视解译法需要依靠专业人员的专业知识以及经验对林地进行肉眼观察并加以判读,虽然此方法的准确度较高,但是效率低、工作量大、成本高,难以满足应急处理的需求[6]。像元计算方法是通过分析遥感影像中林地的特征建立预定义波段模型来提取影像中的林地区域[7-8]。然而,这类方法将注意力集中在单个像元特征上,忽略了林地的其他相关属性,如纹理、形状、空间结构、相互关系等,可能导致整体目标影像被打碎,从而产生较为严重的“椒盐现象”。之后,面向对象方法逐渐被应用,与像素方式不同,面向对象的林地提取方法是以同质对象作为最小分析单元,通过分析遥感影像中林地的光谱、形状、纹理等多种特征,并借助认知机理来选定这些特征,保证其能够最大程度地区分遥感影像上林地信息[9-12]。但由于光学遥感影像以非均匀区域的形式表达信息,因此对林地区域的识别产生干扰,耕地及草地光谱特性与林地极为相似。此外,面向对象方法需要多次对分割尺度等参数进行不断调整,这就使得整个过程变得复杂且耗时,不适用于大批量的数据处理。此后,基于机器学习的方法被用于林地信息的提取,机器学习的方法是通过人为设计特征提取函数,并通过一定的样本学习进行参数拟合计算样本之间的关联[13-14]。然而,机器学习仅限于浅层特征提取,其非线性表达能力有限,无法抽取遥感影像中林地的深层次特征。

随着计算机视觉技术的发展,基于深度学习的遥感影像信息提取方法也逐渐被应用,相比于之前的传统方法,这种方法不需要人工识别影像复杂的特征,而是由深度学习框架自动去学习,这也减少了工作量,提高了准确率[15-16]。许多深度学习方法也被用于地表信息提取。Zhang等以对象为基本结构建立了城市利用土地分类网络模型[17]。Kussul等通过建立多尺度神经网络对地表土地覆盖类型进行分类[18]。Schiefer等则利用UNet网络进行了航空影像林地检测研究[19]。Gui等建立了一种更深层次的林地提取网络,并通过高分1号影像进行了试验[20]。尽管这些研究取得了一定的进展,但林地于影像中的同物异谱及同谱异物现象更加显著,现有网络难以应对这一复杂干扰。林地具有明显的尺度差异,既包括大面积森林也包括小面积林盘,当前缺乏可用于深度学习的遥感影像林地提取数据集。

针对上述问题,本研究提出一种用于遥感影像林地信息提取的双支路全局局部感知网络。该网络从林地特征入手,在编码阶段通过全局与局部信息的提取及融合,尽可能地获取影像不同背景下的复杂林地特征,利用深度监督分类器进一步提高网络对于不同尺度林地的感知能力,从而建立一个新的林地提取数据集以验证方法的有效性。

2 林地提取方法

本研究提出一种双支路全局局部感知网络模型(图1),该模型包括编码与解码2个部分,是一种端到端的对称结构。其中,编码部分为双支路特征提取结构,通过2条支路信息在抽取全局与局部信息的同时兼顾不同尺度之间的联系,进一步提高网络特征提取能力,这是网络的核心部分。解码部分为深度监督分类器,该结构通过多分支辅助分类充分获取不同层次的特征映射,进一步提高网络在预测阶段的判别能力。

2.1 双支路全局局部特征提取结构

为了在特征提取阶段有效提取影像中林地信息,本研究提出一种双支路全局局部特征提取结构,包括支路1与支路2(图2),其中支路1主要用于提取全局语义特征,支路2则是利用深度残差网络(deep residual network,ResNet 101)提取局部局部特征,最后通过二者的层间关联进一步提高网络的特征提取能力。

2.1.1 全局特征提取 如图2-A所示,利用1×1、5×5和7×7的卷积来获取不同视野的信息,这有助于获取同一尺度下不同视野的上下文信息,并对其进行初步融合以获取更为精细化的特征,从而提高网络捕获重点特征的能力[21],融合得到的特征可表述为公式(1)。

Ffirst(T)=ReLU(f(3×3){Con[f(1×1)(T1),f(3×3)(T2),f(5×5)(T3)]})。

(1)

式中:Ffirst(T)指不同视野卷积初步融合的结果;Con表示连接;f(1×1)(T1)、f(3×3)(T2)、f(5×5)(T3)则分别表示不同视野下的特征提取结果;ReLU表示修正线性单元。

在获取精细化特征的基础之上,本研究引入了注意力的思想,对输入特征进行批标准化和激活函数(Sigmoid)激活,在输入尺寸不发生变化的情况下增加网络的宽度,引入更多的非线性特征,进一步增强网络的上下文表达能力,并在此基础之上通过点乘的方式对2条分支结果进行加权操作,以获取最优权重组合,提高网络对于重点区域的关注度,如公式(2)所示。

Fsecond(T)=Mul{Ffirst(T),Sigmoid[f(1×1)(T1)]}。

(2)

式中:Fsecond(T)指特征增强的结果;Mul表示相乘。

2.1.2 局部特征提取 如图2-B所示,局部特征提取主要是通过不断的卷积对图像细节特征进行归类分析,然而,随着网络层数的增加,单一的连接结构容易导致梯度消失,使其在反向传播过程中无法进行参数优化,因此,本研究在局部特征提取阶段选用现有特征提取表现较好的Resnext101 结构[22],该模块通过跳跃连接的方式把输入跨层连接到下一层,使得网络的训练更关注于网络之间的变化,相比于原来的映射,残差映射更容易收敛且易于训练,通过该模块充分获取影像的局部特征。

2.1.3 双支路层间特征关联感知 如图2-C所示。在不断的下采样过程中,语义信息不断增强的同时细节信息也在不断丢失,而现有的网络中不同层次之间往往只有1个池化结构进行连接,层与层之间的特征关联较弱,为了增强层与层之间的特征关联,本研究建立了一种层间特征关联感知模块,首先对以上输入进行下采样操作,为了避免在下采样过程中由于池化层造成的信息损失,该模块结构中通过步长为2实现下采样的目的。在进行下采样之后,将得出的结果与下一层次中的ResNet 101特征提取结果进行融合,同时二者融合结果则作为下一个模块的输入,这种层间关联关系可以建立一种更加紧密的层间结构,进一步提高了网络在不断下采样过程中的特征提取能力。

2.2 深度监督分类器

为了尽可能地减少尺度差异性的干扰,使网络中的不同层次特征得到更加充分的训练,本研究在最终的预测模块中提出一种深度监督分类器。与现有的常用多尺度预测方式不同,该分类器通过在不同层次的网络中增加辅助分类器作为网络的分支对主干网络进行监督,与多任务中的分支不同,本研究所提出的深度监督是在同一标签中对不同位置的损失按系数进行求和,尽可能地获取不同层次的特征映射并将其应用于最终的预测分类,且该方法仅在原网络基础上进行特征输出,几乎不会增加额外的计算量和时间(图3)。

常用的多尺度预测分支分别为预测分支1、预测分支2、预测分支3及预测分支4,在常用的多尺度预测基础之上新添加2个监督分支,分别为监督分支1与监督分支2。其中,监督分支1是由不同尺度下直接进行的上采样聚合得到的结果;监督分支2则是对包括监督分支1在内的所有预测结果进行平均加权融合,使其能够将上采样过程中的特征映射结合为多层次的集成特征,最后通过特征聚合获得最终的预测结果。

3 试验设置

3.1 试验数据集

数据测试是验证神经网络模型的关键方法,然而,由于当前研究中并没有公开用于遥感影像林地信息提取的数据集,为验证本研究方法的有效性,本研究通过目视解译法建立了一个可用于林地信息提取的数据集,该数据集的构建过程如图4所示,数据来源为高分辨率航空影像,全部数据标注大约花费2个月时间。在数据集的建立过程中主要面临如下几个困难:(1)遥感影像中具有较多的与林地相似的地物,如植被、耕地、草地等,这使得目视解译中存在较大困难。(2)由于林地面积不同,于遥感影像中表现尺度差异性较大,既包括大面积森林也包括小面积林盘,最终形成影像和标签共40张4 000×4 000大小图像,影像分辨率为1 m,原始影像包含有RGB等3个波段。由于原始图像尺寸较大,为了便于训练,本研究将影像裁剪为256×256图像,同时在裁剪过程中通过随机裁剪、旋转、模糊及噪声等操作进行数据增强,这也可以进一步提高数据的多样性,以提高网络泛化性并减少过拟合的发生。最终形成可训练数据集包括3个部分,分别为9 048对训练数据、1 296张验证数据、1 460张测试数据。

3.2 试验环境

3.2.1 参数设置 遥感影像林地提取试验平台为Windows 10系统,网络模型主要基于PyTorch学习库进行搭建,Python版本为3.6,试验所用的硬件配置为:AMD Ryzen 7 5800X 8-Core Processor 3.80 GHz 处理器(CPU)与Nvidia GeForce RTX 3090 24 G GPU。本研究所有试验完成花费约4个月时间,神经网络内部参数通过训练模型迭代获取,而训练时还需要人为设置部分超参数。经过反复测试,本研究在训练过程中参数设置如表1所示。在训练过程中,笔者对验证数据的损失值进行实时监控,仅当本轮验证数据损失值低于前一轮时才保存模型,以避免过拟合的发生。此外,在连续5次迭代之后,若损失值依旧没有改善,则将学习率变为原来的0.8。

表1 试验中超参数设置

3.2.2 损失函数 在深度学习模型中,损失函数是其中的重要组成部分,其可以计算预测值与真实值的差距,并通过差距来指导模型不断进行优化,然而若正负样本比例不同,则会导致回传梯度均衡问题。而遥感影像中林地则具有样本不平衡特征,普通的损失函数会导致精度较低。因此,本研究在二元交叉熵函数[23]基础之上引入平衡因子,如果如公式(3)所示。此外,本研究根据深度监督分类器预测模块中的输出设计建立了新的损失函数,结果如公式(4)所示。在图3预测结构中,每一层输出皆代表不同的特征损失,同样不同的损失也会对模型优化产生不同的效果,为了充分利用这些损失,本研究将不同输出分支的损失函数进行融合处理,以最后的综合表达来实现对网络每一阶段损失值的最大化利用。

(3)

(4)

式中:L为平均损失函数值;yi={0,1},表示像素类别的真实值;pi∈(0,1),表示像素类别的预测概率值;w为平衡因子,设置为0.6,代表输入像素总数。Loss代表最终的损失,Pi_lBCE则代表6个分支的不同损失值。

3.3 林地提取精度评价标准

遥感影像地物提取实际是图像语义分割的一种应用,所得结果通常采用图像语义分割的评价方法,为定量评价本研究方法并将其与现有网络模型进行对比,笔者选取5种常用的语义分割标准对本研究方法进行评价,包括交并比(intersection over union,IOU)[公式(5)]、总精度(overall accuracy,OA)[公式(6)]、平衡分数(F1score)[公式(7)]、Precision(P,准确率)及Recall(R,召回率)[公式(8)]。

(5)

(6)

(7)

(8)

式中:TP(true positive)表示正确提取的林地像元数目;FP(false positive)表示错判为林地的非林地像元数目;TN(true negative)表示正确提取的非林地像元数目;FN(true negative)表示错判为非林地的林地像元数目。

4 试验结果与分析

4.1 林地提取结果与精度分析

为全面展示本研究方法优势,选择4种近年来常用的深度学习方法与本研究方法在相同条件下进行对比试验,包括OCNet[24]、Denseaspp[25]、PSP-Net[26]、UNet[27]。通过定性分析与定量分析对本研究方法进行全面衡量。

4.1.1 定性分析 为了全面呈现本研究方法林地检测结果,本研究从不同面积、场景密度及复杂度等方面对多种深度学习提取结果进行了可视化展示(图5)。图5中第1行与第2行为面积及密度较小的林地,第3行与第4行为复杂度较大林地,第5行为大面积林地。

从图5中第1行与第2行可以看出,对于面积及密度较小林地,所有方法基本都能够提取出林地的主体部分。其中,OCNet虽然能够达到与本研究方法相近的效果,但其对于边界的处理能力较差,边界部分存在较多的漏检与误检。Denseaspp、PSP-Net 和UNet虽然可以提取出林地的主体部分,但存在更大范围的漏检与误检,这也是由于传统网络对于影像中林地的复杂特征缺乏足够的判别能力导致的。随着林地复杂度增加各种方法均存在不同的精度下降,如图5中的第3,第4行所示。相比于其他方法,本研究依旧能够保持较低的漏检率及误检率,这也受益于本研究所提出的双支路全局局部感知特征提取模块,其通过2条不同的分支同时获取影像中林地的全局与局部特征,能够进行更加充分的特征抽取,对于复杂的背景具有更强的判别能力。图5中的第5行展示了大面积林地区域,从图5可以看出,所有方法都可以提取得到大面积林地的主体部分,然而OCNet存在较多的漏检,Denseaspp、PSP-Net 和UNet则存在大面积的误检情况。综合图5中的第1行与第2行的小尺度林地结果,可以看出本研究所提出的深度监督分类器可以有效地对不同尺度的特征进行充分聚合,以进一步提升林地提取精度。

4.1.2 定量分析 为进一步验证方法的有效性使对比结果更加可靠,本研究对以上多种模型进行了定量分析,需要说明的是,所有定量评价结果都是在相同数据集及计算机性能的情况下进行的,结果如表2所示。与其他算法相比,本研究方法在提取遥感影像中的建筑物方面具有最佳的性能,IOU值提高1.57~8.89百分比,F1提高0.97~8.68,OA提高0.89~8.98百分点,这种精度的提升是极为可观的。除此之外,由于准确率和召回率存在相互制约的关系,如何平衡二者以获得更好的提取结果也是评判模型好坏的重要因素,二者差距也是验证方法是否有效的标准之一,OCNet、Denseaspp、PSP-Net、UNet方法中准确率与召回率的差值分别为1.73、3.64、5.48、4.01百分点。而本研究方法二者差距仅为0.68百分点,这也进一步验证了本研究方法的优势。

表2 不同方法的林地提取结果精度对比

4.2 稳定性分析

由于深度学习在训练和测试时具有一定的不确定性,即便在同一条件下2次训练所得到的模型结果也未必相同,而二者的差距也是方法稳定性的重要条件之一。为了验证方法的稳定性,本研究通过利用Dropout函数在测试时进行参数的随机丢弃,并进行了20次独立的蒙特卡洛试验,蒙特卡洛试验是一种随机抽样技术,可以以随机方式测试模型精度,以判断模型是否稳定。对20次独立试验进行平均值和标准差计算,结果如图6所示。20次独立试验所获得的IOU、F1、OA、P和R平均值依旧具有较高的精度,且IOU、F1和OA的标准差分别0.15、0.14和0.05,多次独立试验精度间的较小标准差也进一步验证了本研究方法的稳定性。

4.3 消融试验

为了探讨网络中不同模块的贡献,在相同条件下对本研究方法进行详细的消融试验,并利用相同的5个标准进行指标评价。本研究方法分为2个主要模块,即双支路特征提取结构与深度监督分类器。其中每个模块又包含有不同组件,为了充分验证各个组件的作用,共进行了4组消融试验,分别验证全局特征、局部特征、单一尺度输出与常用的多尺度输出,最终结果如表3所示。

4.3.1 双支路全局局部特征提取 该部分是本研究特征提取的核心部分,包括全局特征提取(图2-A)、局部特征提取(图2-B)及双支路层间特征关联感知(图2-C)。为验证每个模块的作用进行了2组试验。首先,去除本研究的全局特征提取结构,仅利用ResNet 101作为编码过程中的主干网络进行模型训练,从表3可以看出,在去掉全局特征提取之后,各项评价指标皆有明显的下降,尤其的,IOU、F1和OA分别下降了2.22百分点、1.95百分点和1.57百分点,这也可以进一步证明,本研究的全局特征提取结构对于图像特征提取是十分重要的。其次,去除本研究的局部特征提取结构,即仅利用全局特征进行特征提取,同样这会导致网络对于细节信息的提取能力不足,从表3可以看出精度下降得十分明显,IOU、F1和OA分别下降1.53百分点、1.69百分点和2.48百分点。综上所述,全局特征包含更多的语义信息,局部特征包含有更多的细节信息,通过双支路结构可以将二者有效结合,进一步提高网络的特征提取能力。

表3 本研究方法中不同模块的消融试验

4.3.2 深度监督分类器 为了验证本研究所提出深度监督分类器的作用,笔者对这部分进行了2组消融试验,分别是仅利用单一尺度作为最后的输出和金字塔结构中的4层尺度进行聚合输出。首先是单一尺度的输出,即仅利用最后1层作为预测输出,单层尺度的输出无法充分利用不同层次的映射,在最后的预测阶段特征融合能力明显不足,这也是所有试验中表现最差的1组,其IOU、F1和OA分别下降2.64百分点、4.81百分点和4.00百分点,在此基础之上利用现有神经网络中常用的多尺度数据对本研究方法进行试验,尽管相对于单一尺度输出具有明显的效果提升,IOU、F1和OA分别提高2.11百分点、3.62百分点和3.65百分点,这证明了多尺度的输出是完全必要的。然而,作为网络结构的最终判别器,多尺度输出依旧无法使网络得到最充分的训练,而本研究通过多分支结构建立的深度监督分类器可以进一步强化最终的分类效果,其提升也是极为明显的,相对于多尺度输出IOU、F1和OA分别提高1.71百分点、0.89百分点和0.96百分点,且该分类器仅在原网络基础上进行特征输出,几乎不会增加额外的计算量和时间。

5 结论

近年来,随着深度学习的发展,CNN作为一种有效的方法被用于遥感影像中的地物信息提取。本研究提出一种基于双支路全局局部感知网络的高分影像林地信息提取方法,首先,根据林地于影像中的复杂背景特征,建立了双支路特征提取结构,利用2条特征提取支路分别获取影像中的全局特征与局部特征,并将二者有效结合,进一步提升网络的特征提取能力。其次,考虑到林地于影像中明显的多尺度特征,建立深度监督分类器,通过多个分支对主干预测实现监督,在不增加计算量的情况下有效提升预测精度。本试验结果表明,与现有优秀的神经网络方法相比,本研究方法的IOU值提高1.57~8.89百分点,这种提升是极具挑战性的。此外,通过20组独立的蒙特卡洛试验深入讨论了方法的稳定性,同时通过消融试验充分证明了方法中各个模块的贡献,以进一步验证方法的有效性。

然而,对于实际的应用林地信息提取需要更高的精度,同时,进一步研究网络模型对不同数据源、不同区域的可推广性,使林地提取结果能够应用于实际的林业管理中是我们将来研究所重点关注的问题。

猜你喜欢

支路特征提取分类器
一种新的生成树组随机求取算法
基于Daubechies(dbN)的飞行器音频特征提取
BP-GA光照分类器在车道线识别中的应用
Bagging RCSP脑电特征提取算法
加权空-谱与最近邻分类器相结合的高光谱图像分类
结合模糊(C+P)均值聚类和SP-V-支持向量机的TSK分类器
多支路两跳PF协作系统的误码性能
利用支路参数的状态估计法辨识拓扑错误
基于MED和循环域解调的多故障特征提取
多并联支路型可控电抗器短路电抗对支路电抗和电流的影响