基于深度迁移学习的多标签遥感影像地物分类
2024-01-02张博涵徐晓敏
张博涵,徐晓敏
(北京信息科技大学 信息管理学院,北京 100192)
0 引言
地物分类是指通过提取遥感影像中丰富且复杂的地表数据信息特征,依据特征信息识别地物目标的方法。目前遥感图像地物分类技术常被用于对自然环境的监测[1],包括农业勘测、灾害侦察和地质查矿等诸多领域,可以快速准确地识别出伐木、焚烧、违规开矿等对环境的破坏情况。
近年来,遥感影像地物分类的相关研究在不断深入。如杨成财等[2]提出了基于支持向量机与能量最小化的极化合成孔径雷达(polarimetric synthetic aperture radar,PolSAR)图像地物分类方法。王瑞等[3]改进了k均值聚类算法,并采用点云表面粗糙度进行聚类分析,实现地物精确分类。Sun等[4]提出基于元标签学习和特征选择的多标签分类方法。Koda等[5]在多标签任务中引入空间结构支持向量机,达到关注图像区域与周边信息间联系的目的。Zeggada等[6]提出利用条件随机场对既定区域上下文信息联系建模的方法,并且还提出了通过设定阈值来筛选预测所需标签的方法。Stivaktakis等[7]提出数据增强动态法,用以弥补数据集样本数量不足的问题。Shao等[8]采用多种传统机器学习与深度学习图像检索分类法进行实验,得出在遥感影像分类中多标签分类比单标签分类更具优势的结论。Sumbul等[9]提出了基于长短时记忆网络(long short term memory,LSTM)图像空间上下文信息建模的多标签识别法。Hua等[10]提出一种关系推理模块,该模块可对标签间的对应关系做出推理和预测。
本文利用迁移学习方法,先训练不同深度的残差网络(residual network,ResNet)[11]预训练模型,再通过微调(fine-tuning)方法来对模型进一步训练,根据评价指标选出最优模型,最终实现对遥感影像中人为破坏区域的自动精确识别。
1 模型构建
1.1 模型选择
本文采用的ResNet是目前广泛应用的卷积神经网络(convolutional neural networks,CNN)[12]结构之一。ResNet巧妙地引入了捷径连接(shortcut connection),构成了残差块结构,解决了网络层数加深,出现梯度下降,导致错误率升高的问题。
假设输入源图像样本为x,输出最优解映射为H(x),H(x)与输入值x的差值,称为残差(residual),残差结构如图1所示。其中:
F(x)=H(x)-x
(1)
图1 残差块结构Fig.1 Residual block structure
残差块的输入与输出按式(2)、(3)计算:
yl=h(xl)+F(xl,ωl)
(2)
xl+1=f(yl)
(3)
式中:xl、yl分别为第l个残差单元的输入与输出;h(xl)为恒等映射;F(xl,ωl)为残差;ωl为权值矩阵,是第l个残差单元的系列权重;f为激活函数。
为简化问题,可以忽略激活函数,令:
xl+1=f(yl)=yl
(4)
根据式(1)、(2)可知,残差块可以表示为
xl+1=xl+F(xl,ωl)
(5)
通过层层递归得到深层L网络与浅层l网络的关系,对于任意L:
(6)
由导数链式法则可知,反向传播梯度可表示为
(7)
本文将采用目前应用范围较广的5种不同深度的残差网络:ResNet18、ResNet34、ResNet50、ResNet101、ResNet152,对比分析5种网络模型对遥感地物影像识别效果的影响。
1.2 深度迁移学习
迁移学习是深度学习领域[14]的重要研究方向之一,指的是将源域的知识迁移到目标域的方法。本文采用了深度迁移学习,即基于深度学习的迁移学习方法。本文基于模型进行迁移学习[14],将源域的ImageNet数据集上预训练的ResNet模型参数,迁移至目标域的卫星遥感地物影像数据集上。其中,ImageNet数据集有1 400万张图像,1 000个类别,在该数据集上训练得到的权重信息能够涵盖广泛的基本特征,具有较好的迁移性。本文在保证模型分类精度的前提下,通过深度迁移学习达到节约模型训练时间,增强模型的泛化能力的效果的目的。此外,本文还通过微调的方法对模型进一步训练[15],进而优化模型识别效果,使模型更加适合于多标签遥感影像地物分类问题,获得稳定、高精度的深度网络模型。
1.3 多标签分类算法
本文采用Sigmoid替换ResNet模型分类层中原有的Softmax,有效改善了Softmax致使多标签分类损失函数难以收敛的问题。Sigmoid将多标签分类问题转化为多个独立二分类问题,使得每类标签的输出概率转换到[0,1]之间。当一个或多个标签类别的输出概率大于等于某一阈值时,模型就会返回该标签类别并输出。本文先将阈值设为0,每次增加0.05的值进行训练和验证,再对比不同阈值下的验证集精度,最终选取精度最高的阈值为最佳阈值。损失函数设为Sigmoid交叉熵,用于衡量模型准确性,方法为计算每个二分类的交叉熵,再累加求和。
(8)
式中:L为交叉熵;K为标签类别数量;yk为第k个标签的真实概率;y′k为第k个标签的预测概率。
2 实验
2.1 数据集与实验环境
本文采用planet亚马逊多标签遥感图像数据集:每张图像包含单个或多个标签,像素为256×256,包括原始森林(primary)、风倒木(blow_down)、耕田(cultivation)、常规矿区(conventional_mine)、阴霾(haze)、居民区(habitation)、选择性伐木(selective_logging)、刀耕火种(slash_burn)、湖泊河流(water)、农田(agriculture)、晴天(clear)、多云天气(cloudy)、部分多云天气(partly_cloudy)、裸地(bare_ground)、小规模人工采矿区(artisinal_mine)、花开(blooming)、道路(road)17类标签。本文以该数据集24 000幅遥感图像及其对应标签作为实验原始数据,按照4∶1∶1的比例划分为训练集、验证集和测试集。在不改变训练集数量的情况下对其进行数据增强(data augmentation),通过随机角度旋转、变焦、改变亮度、归一化操作,降低后续模型训练时过拟合的风险。
本文实验基于Kaggle远程虚拟机完成训练与测试,软硬件参数如表1所示。
表1 硬件设置与软件版本Table 1 Hardware settings and software versions
2.2 评价指标
本文采用精确率与F1值衡量遥感影像多标签分类算法性能。
精确率按式(9)计算:
(9)
式中:nTP为将正标签正确归类正标签的数目;nFP为负标签错误归类正标签的数目。
F1值按式(10)计算:
(10)
式中:R为召回率。
(11)
式中:nFN为将正标签错误归为负标签的数目。
2.3 实验结果与分析
本文的模型训练过程分为2个阶段:1)迁移学习阶段。首先引入ImageNet数据集上预训练的ResNet模型参数进行初始化,冻结网络除全连接层外所有层,采用小批量随机梯度下降法(mini-batch stochastic gradient descent)更新模型参数。梯度最小值为0.05,设为第一阶段的学习率,训练轮数设为5,保存最优模型参数。2)微调阶段。在上一阶段最优模型参数的基础上,解冻模型除最后分类层以外所有的模型参数,引入周期性学习率(cyclical learningrates)[16],动态调整学习率数值,从而加速模型收敛,减少训练轮次。梯度最小值为0.000 1,设为第二阶段的初始学习率,最大学习率设为第一阶段学习率的1/10,即0.005,此为周期性学习率的经验值。训练轮数设为10,同样保存最优模型参数。
图2为5种ResNet模型的训练验证损失曲线,其中ResNet34的曲线最为平滑,训练损失与验证损失之间的差距较小,模型拟合效果较好。
不同深度的残差网络模型对应的测试精确率和F1值如表2所示,测试效果最好的模型是ResNet34网络,其精确率与F1值高达96.02%与90.38%,ResNet34的地物分类效果最为突出。通过分析表2可知,模型分类评价指标与网络深度呈非线性关系,因此对于当前遥感影像数据完成多标签分类任务,不用追求过深的神经网络,采用适宜、简单的网络能够起到节约计算资源的作用。而层数更深、参数量更大的残差网络则适用于标签类别更为均衡、丰富,样本数量更庞大的数据集。
图2 不同深度ResNet模型训练效果Fig.2 Training effect of ResNet models with different depth
表2 不同深度残差网络模型测试结果
2.4 交互界面系统
为了快速、直观地监测人类对自然环境的破坏情况,方便系统终端用户使用,本文将Kaggle远程虚拟机上训练好的最优模型导入至本地环境,再通过基于Python的GUI开发工具Tkinter设计交互界面系统。该系统的主要按钮、窗口功能如下:
1)载入图片按钮:自由选取本地测试图像。
2)图样、路径窗口:显示所选图像及其路径。
3)识别图像标签按钮:调用训练好的模型进行识别。
4)标签文本框:显示识别出的图样标签。
通过点击载入图片按钮,可以在本地选择需要测试的图像,路径窗口会显示路径信息,图样窗口会显示所选图像,再通过点击图像标签识别按钮后,即可在标签文本框内显示标签内容。其交互界面如图3所示。
图3 交互界面Fig.3 Interactive interface
3 结束语
本文将深度迁移学习方法引入多标签遥感图像地物分类任务当中,在保证精度的情况下大幅降低训练成本,并使模型快速收敛。本文基于深度迁移学习训练并微调不同深度的ResNet模型,发现ResNet34的预测效果最优,测试精确率达到96.02%,F1值达到90.38%,最后调用该最优模型,设计面向用户的交互界面系统。本研究能清晰地检测出遥感影像中出现的人为破坏自然环境现象,如伐木、焚烧等。本研究切实符合和遵循了自然保护、可持续发展的新时代观念,对于减少人为毁林伐木等行为有一定意义。