基于上下文感知与多尺度注意力的遥感变化检测
2023-12-01饶白云
董 晨,郑 禄,于 舒,饶白云
(1.中南民族大学 计算机科学学院;2.湖北省制造企业智能管理工程技术研究中心;3.农业区块链与智能管理湖北省工程研究中心,湖北 武汉 430074)
0 引言
遥感影像变化检测任务旨在比较同一地理区域不同时间内拍摄的遥感影像图片之间的差异。变化检测方法在现实生活中有着广泛应用,例如城市发展规划、农业监测、自然灾害评估等。传统遥感变化检测处理方法包括人工目视解译或手动勾勒,需要耗费大量人力时间,处理效率较低。此外,遥感图像存在着各种噪声,例如光照、传感器导致图像扭曲和分辨率变化,此时人工处理方法将无法有效地区分图像的真实变化区域和背景噪声,因此难以提升模型的准确率[1]。
1 相关研究
深度学习技术为遥感变化检测提供了新的解决方案,并且性能良好。CNN 卷积网络在图像处理任务上表现较好,Daudt 等[2]率先将孪生结构与CNN 相结合,实验表明孪生结构能提升模型的检测精度,使得孪生网络嵌入CNN 网络成为变化检测的常用方法。
为了进一步提升变化检测的准确率,许多研究在提取、细化深层特征上作了大量工作。Chen 等[3]提出使用金字塔结构的DASNet,通过融合4 层特征图提取多尺度特征,但网络参数量较大。为了提升检测效率,Liu 等[4]采用差分金字塔结构LSNet,将骨干网络中的标准卷积替换为空洞卷积,实验表明该方法在小型数据集上表现良好,但在大型数据集(LEVIR-CD)上检测精度较低。
除了多尺度提取特征之外,注意力机制也能帮助分类器取得更精确的变化检测结果。Hu 等[5]在SENet 中通过通道注意力SE 模块(Squeeze-and-Excitation Block),解决了在卷积池化过程中由于不同通道特征图所占的重要性不同带来的损失问题,但未关注空间层面。Woo 等[6]在SE模块的基础上,将通道注意力和空间注意力相结合提出CBAM(Convolutional Block Attention Module),但该模块存在两个最重要的缺点:未充分利用多尺度的特征,只捕获了单一尺度的空间信息;空间注意力未考虑非局部区域的信息,缺乏建立远距离依赖能力。Zhang 等[7]在EPSANet中提出PSA(Pyramid Split Attention)对通道进行切分,再使用SE 模块提取不同尺度特征图的通道注意力,但SE 模块无法根据全局上下文进行建模,因此PSA 缺乏捕获全局上下文信息的能力。
此外,STANet[8]、DASNet[3]均使用了PAM(Pyramid Attention Module)和BAM(Basic Attention Module)。其中,PAM 包含4 个分支,在每个分支中PAM 对每个子区域的像素应用BAM,再聚合4 个分支的输出张量得到多尺度的注意力表示。BAM 的作用是学习、捕捉任意两个位置间的时空相关性(注意力权重),通过时空中所有位置特征的加权和来计算每个位置的响应。因此,BAM 能十分有效地建模远距离时空依赖关系,获得全局信息,但计算量较大。
为了进一步增强网络感受野,充分利用全局上下文信息,本文在通道注意力的基础上引入多尺度思想,提出结合全局信息的金字塔分割注意力的模块(Pyramid Segmentation Attention,PSG),实现了一个端到端的孪生变化检测网络SPAN。实验证明该网络在大数据集LEVIR-CD 和小数据集CDD 上均取得了较好效果。
2 基于多尺度特征融合的孪生变化检测网络
本文网络主要由特征提取模块、注意力模块、比较模块构成,如图1 所示(彩图扫OSID 可见,下同)。首先将T1、T2 时间的图像同时输入孪生特征提取器,得到两幅特征图(橙色部分);然后将两幅橙色特征图共同输入PSG 注意力模块得到注意力特征图(蓝色部分);最后通过像素级的欧氏距离计算特征图的相似度,生成差分图像。
Fig.1 SPAN model overall framework图1 SPAN模型整体框架
2.1 孪生特征提取模块
Fig.2 Feature extractor based on siamese network图2 基于孪生网络的特征提取器
由图2 可见,模型首先对每一层级的特征图分别进行卷积操作,构造出一个在所有层级上具有较强语义信息的特征金字塔;然后进行特征映射连接开始卷积处理;最终得到特征图。具体为,从网络的不同阶段得到4 组特征映射,同时将最后的输出特征图输入卷积层(CONV 1),使其维数转换为C1。同时,将第2、3、4 阶段的输出特征图分别输入3 个不同卷积层(CONV2、CONV3、CONV4),使每个通道维度都转换为C1,然后将4 个特征图上采样后在通道维数上进行连接(4×C1),再送入两个不同的卷积层(C2、C3)中提取更丰富的高级特征,生成最终特征图。
1.2 增强注意力模块
在遥感影像中,由于地物自身尺寸差异,难以用单个尺度进行分析,而具有高度区别性的特征可提升分类器的检测效果,因此采用多尺度的注意力机制避免差异特征带来的影响成为了通用的处理手段。
然而,传统注意力模块只关注空间维度或通道维度,忽视了非局部位置特征提供的有用信息,使得差异化表示较弱。为了利用非局部信息(全局上下文信息),本文在PSA 模块[7]基础上提出PSG(Pyramid Split and Global)模块,如图3所示。
Fig.3 Pyramid split global module图3 PSG模块
SPC 模块首先进行特征切分操作,将输入特征图使用不同大小的核卷积拆分成不同尺度的特征图,然后引入GC 模块来构建某一位置与其他所有位置间的关系。GC模块在上下文信息建模部分(黄色虚线区域)使用简化后的NL 模块[11];在Transform 阶段(紫色虚线区域)选用SE模块[5],使得在不增加计算量的同时,确保具有相似特征的任意两个位置在任何距离上都具有相互可辨别性。GC块[12]的详细体系结构如图4 所示,具体计算公式如式(1)所示。
Fig.4 Global context module图4 GC模块
Fig.5 CDD dataset图5 CDD数据集
Fig.6 LEVIR-CD dataset图6 LEVIR-CD数据集
式中:Wk代表全局注意力权重;X′代表转换后的特征。
具体而言,GC 模块包括:①获取上下文信息的全局注意池,使用1×1 卷积和softmax 函数获得注意权重,然后通过共享注意权重获得全局上下文特征;②通过1×1 卷积Wv进行特征变换以捕获通道依赖性;③将全局上下文特征和每个位置的特征使用加法聚合,以实现特征融合。
PSG 模块使网络关注每一层尺度下的通道特征;然后将不同尺度上的特征合并,通过重新计算不同尺度通道注意力的特征,得到交互后的多尺度通道注意力权重;最后将多尺度权重作用于相应的特征图,得到一个细化后的特征图(信息表示更丰富,有利于提升模型检测能力)。
1.3 损失函数
在变化检测任务中,变化和不变像素数量差距很大,容易造成类不平衡的问题使实验产生较大误差,因此除了从像素级别进行平衡之外,还需考虑前后景不均衡的问题。目前,常用的检测指标包含FocalLoss[13,14]和Dice-Loss[15-17],FocalLoss 用于测量训练样本不平衡及样本难易程度,DiceLoss 检测前后景或分割内容是否不均衡,具体公式如式(3)、式(4)。
芬兰OUTOTEC公司开发的硫酸锌溶液砷盐净化技术除去电积液中镍、钴具有国际先进水平[4-5],成功之处在于引进了电位、BT值、晶种返回等先进理念以及项目的自动化控制系统的设计,为保证净化系统的稳定运行创造了良好的条件[6-7]。该技术与专利设备固然有其先进性,但是在工业化应用过程又同时存在很多明显缺陷。硫酸锌溶液除镉能否达到工艺要求,反应器的流态化沸腾层稳定控制是工艺的关键所在。如何评价运行期间沸腾层的稳定?关键在于相邻反应器之间的液位差[8]。本文将从沸腾层形成机理开始,从内部控制到外部基础进全方位的阐述沸腾层的控制要素。
式中:Pij为位置(i,j)上的预测值,取值范围为[0,1];为位置(i,j)上的真实值,取值非0 即1,0 代表该像素点未变化,1代表该像素点发生变化。
由于遥感图像不仅存在样本不均的问题,还存在难分类问题。为此,本文将FocalLoss 与DiceLoss 相结合。
最终,将γ设置为2,λ设置为0.5[18]。
2 实验结果与分析
2.1 数据集
CDD 数据集[19]由11 对多源遥感图像组成,具体包括7对4 725×2 200 像素的季节变化图像和4 对1 900×1 000 像素的图像。本文将CDD 图像裁剪为16 000 个大小为256×256 的图像,具体为train(10 000 张)、val(3 000 张)、test(3 000张)。
LEVIR-CD 数据集由谷歌Earth 平台[8]采集的637 对HSR 双时间遥感影像组成,每张图像大小为1 024×1 024像素,空间分辨率为0.5 m,分为train(445 对)、val(64 对)和test(128对)。
2.2 评价指标
为了评价该方法的性能,本文使用精度(P)、召回率(R)、F1 评分(F1)和总体精度(OA)进行评价。其中,在遥感变化检测任务中精度越高,预测结果的误检次数越少;召回率值越大,预测结果漏检次数越少;F1 评分和OA 用于综合评价预测结果,数值越大预测结果越好。具体计算公式为:
式中:TP为真阳性数;FP为假阳性数;TN为真阴性数;FN为假阴性数。
2.3 实验结果
本文选取了现有4 种遥感变化检测模型与本文模型进行比较。其中,SPAN 网络训练的批处理大小为16,优化器算法为AdamW,学习率初始化为0.001,所选取网络如下:①FC-EF[2],基于UNet 模型的全卷积神经网络,包括4个最大池化层和4 个上采样层;②FC-Siam-Diff[2],是FCEF 的改进,针对不同时间的图像特征分别编码,以concat绝对差值的方式送入解码器进行解码,通过softMax 操作得到变化图;③DASNet[3],基于ResNet,通过权值共享的语义分割网络独立生成两个特征,并使用度量方法计算两个特征之前的差异来生成差异图;④LSNet,基于ResNet,使用4 个复合层组成的差分金字塔,得到4 组差分特征,然后将特征叠加得到差异图。
表1 为不同模型在LEVIR-CD 数据集上的结果。表2为不同模型在CDD 数据集上的结果。由表1、表2 可知,本文模型在两个数据集上表现较好,相较于DASNet 在LEVIR-CD 数据集和CDD 数据集上,F1 分别提高1.7%、2.5%;相较于LSNet 在LEVIR-CD 数据集和CDD 数据集上,分别提高18%、0.7%。LSNet 虽然在CDD 数据集上表现较好,但并不适用于大型数据集LEVIR-CD,检测精度较低,而本文模型可同时在大型数据集和小型数据集得到较好的检测结果,证明了本文模型相较于其他模型优越性与普适性更强。
Table 1 Results of different models on the LEVIR-CD dataset表1 不同模型在LEVIR-CD数据集上的结果
Table 2 Results of different models on the CDD dataset表2 不同模型在CDD数据集上的结果
图7 中A 代表T1 时间点图像,B 代表T2 时间点图像。由此可见,从A 到B 的地表覆盖发生了很大变化,建筑物及其颜色、纹理均发生了变化,只保留了基本结构。由图7、图8 中A 与B 图的差异可发现,SPAN 网络生成的差异图相较于其他模型与Label 最接近,相较于LSNet 连接块较少且更完整。由图7、图8 中C 可见,DASNet 生成的差异图边界明显产生了不属于建筑物形状的扭曲,LSNet与SPAN 生成的差异图边缘更平滑,更接近真实的变化图Label,证明了SPAN 网络识别与定位变化区域的效果更好,对建筑物、道路的变化检测效果更好。
Fig.7 Results of each model on the CCD dataset图7 在CCD数据集上各个模型结果
Fig.8 Results of ablation experiment图8 消融实验结果
为了验证改进模块的有效性,以全局上下文信息对遥感变化检测任务的重要性,设计消融实验比较改进ResNet50、改进ResNet50+PSA(传统多尺度注意力)和本文模型。表3、图8 显示了消融研究和在LEVIR-CD 测试集上的结果差异。由表3 可知,加入注意力模块后模型性能得到明显改善,本文模型相较于改进ResNet50、改进ResNet50+PSA 模型的F1分别提高4.5%、2.1%。
Table 3 Ablation experiments on the LEVIR-CD dataset表3 LEVIR-CD数据集上的消融实验
为了进一步观察上下文信息对变化检测任务的影响,将消融实验模型生成的差异图进行比较。由图8 第二行可见,基线模型生成的差异图中建筑物轮廓较为圆润,不符合建筑物的边缘特征;加入传统多尺度注意力模块PSA后,模型对建筑物的描述更精细,但依然存在一定程度的凸起;而将上下文信息与多尺度融合的模型生成的差异图边缘轮廓最清晰,白色变化区域大小与Label 的描述范围大小更接近。
由图8 中B 与第三行可见,基线模型与加入传统多尺度注意力模块PSA 的模型生成的差异图中建筑物存在空缺或缺失,而将上下文信息与多尺度融合的模型能有效避免空缺及缺失问题,证明了加入上下文信息的PSG 模块能充分提取具有判别性的特征,也证明了全局上下文信息对遥感变化检测任务十分重要。
3 结语
本文针对遥感变化检测任务中未充分利用上下文信息,导致变化检测网络无法有效分辨变化区域的问题,提出一种基于上下文感知与多尺度注意力的变化检测方法SPAN。该方法相较于图像的注意力机制方法,能充分提取具有判别性的特征,可提升SPAN 网络的检测精度。
在LEVIR-CD 和CDD 数据集上的比较实验显示,本文模型相较于现有模型,无论在精度还是训练效果上均表现良好。此外,为了验证各模块的有效性,设计消融实验进一步证明了PSG 的改进成效与融合上下文信息的有效性。