基于FCN 露天矿山监管目标自动提取方法研究
2022-07-04焦学军赵春峰张瑞香王金娜
焦学军,赵春峰,张瑞香*,王金娜
(1. 河南省地质矿产勘查开发局测绘地理信息院,河南 郑州 450000;2. 中化地质(河南)勘测规划设计院有限公司,河南 郑州 450000;3. 河南省天空地遥感智能监测工程技术研究中心,河南 郑州 450000;4. 河南省自然资源天空地遥感智能监测研究科技创新中心,河南 郑州 450000)
随着卫星资源的快速发展和深度学习技术的进步,利用遥感影像进行地物分类提取得以开展并且取得许多成果。本文采用VGG-16 网络模型,利用迁移学习模式,采用自建的训练样本训练识别精度较高的模型,以期实现对露天矿山的露天采场、尾矿库、固体废弃物、中转场地、恢复治理等重点监管目标对应的图斑范围及图斑类别的智能识别[1]。
1 自有数据集建立
1.1 遥感影像选择与分类
本文结合河南省基于实景三维的露天矿山智能监管示范研究项目及河南省矿业权人信息公示项目,采用河南省卫星遥感中心提供的GF-1(空间分辨率2 m)、GF-2(空间分辨率0.8 m)遥感影像。利用露天矿山遥感解译项目成果中历年的人工解译成果作为标签制作的数据基础。
1.2 数据处理与标签制作
对选取的卫片进行目视解译,在解译成果SHAPE面文件中添加Value 字段,将人工解译的图斑类别按表1 转换为对应的Value 值,将没有解译的部分造面填充,Value 值设为255。将被固定大小图框裁剪好的解译结果转为栅格图片,栅格值为Value,格式为.jpg,分辨率与解译的原影像保持一致。图片的命名规则为原始图片分两部分,训练集中的原始图片命名DT+六位流水码.jpg, 验证集中的原始图片命名DV+六位流水码.jpg;标签图片的命名与原始图片相同,保证原始图片与标签图片的名称完全相同,后缀为.png。
表1 标签制作分类标准
原始影像为img 格式的数据,为了与数据的坐标保持一致性,将其转换为相同坐标的同时,确保数据的位数不会发生改变。img 转jpg 格式时需要将nodate属性值为空的影像数据手动设定为255。
把原始影像与解译标签对应的数据组进行旋转变换(旋转角度90°、180°、270°)与翻转变换,把训练图像集扩充到12 049幅,扩充训练集与验证集。最后把图像缩放到224×224像素。
2 露天矿山地物识别模型构建
2.1 全卷积神经网络(FCN)
FCN是对输入的图像进行像素级的分类,从而实现了语义级别的图像分割问题。通过若干卷积层(conv)、激活层(relu)、池化层(pool)进行图像特征提取,采用若干反卷积层、池化层对图像进行上采样,把图像分析成果恢复到与原始图像一致,从而可以对每一个像素都产生预测,同时保留了原始输入图像中的空间信息,最后在奇偶上采样的特征图进行像素的分类。FCN将传统CNN中的全连接层转化成单个的卷积层,所有的层都是卷积层,故称为全卷积神经网络。
卷积核也称为过滤器,每个卷积核,具有长、宽、高3 个维度。在卷积层中,可以包含多个卷积核,卷积核个数即多卷积核的深度待处理图像的深度(要素图的张数)相同,需人工指定参数。卷积核的尺寸根据实际需要指定,常用的过滤器长宽尺寸为3×3、5×5 等较小数值,指定卷积核需指定长和宽2 个参数。ReLU(激活函数)的加入,使深度神经网络具备了分层的非线性映射学习能力[2-6]。在本文中采用的ReLU函数是一种常用的激活函数:
式中,当x<0 时,ReLU硬饱和;而当x>0 时,则不存在饱和问题。ReLU 能够在x>0 时保持梯度不衰减,从而缓解梯度消失问题[7]。
2.2 迁移学习
迁移学习是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中,从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果[8]。
为了优化原始模型,本文将迁移学习应用到深度卷积神经网络中。与传统的机器学习不同,迁移学习的源域和目标域、源任务和目标任务均可不同[1]。本文中使用成熟神经网络模型VGG-16,包含了16个隐藏层(13个卷积层和3个全连接层)。数据集采用ImageNet 子集,数据集图像总量140 万幅,共1 000 个分类。
在VGG-16 模型上的应用分为参数导入和输出节点修改2 个部分。每个连接层后都添加了Dropout 层,以抑制过拟合[2]。经过预训练的VGG-16 模型的所有卷积层参数和前2 个全连接层的参数导入到初始模型中,然后对自建数据集进行训练。
2.3 迁移学习改进模型
2.3.1 FCN模型
核心VGG网络结构如图1、2所示。
图1 核心VGG网络结构
图2 迁移学习流程
首先输入图像尺寸224×224,分类数目为255。VGG的前5层步长都是2,也就是前5层的size依次减小1倍,前4层的采用的是平均池化;第5层的池化采用的是最大池化。其中:pool1 size 缩小2 倍, pool2 size缩小4倍,pool3 size缩小8倍,pool4 size缩小16倍,pool5 size缩小32倍。
其次就执行丢弃层(Dropout),让某个神经元按照一定的概率停止工作,使模型的泛化性更强,避免过拟合,同时也减少模型训练时间。再次,通过全连接输出分类。最后执行对应的5 次反卷积上采样,提升图像尺寸到与原始输入图像尺寸相同。
2.3.2 空洞卷积
空洞卷积又称膨胀卷积,顾名思义就是在标准的卷积核里注入空洞,以此来增加感受野。相比原来的正常卷积,空洞卷积多了一个超参数称之为扩张率,是指卷积核的间隔数量。Dilated Conv 的优势是不做pooling损失信息的情况下,增大了感受野,让每个卷积输出都包含较大范围的信息。
3 训练与分析
本文采用tensorflow Gpu 框架,进行迁移模型训练。自建数据集中训练集包含10 974组成对的影像和解译数据标签,测试集包含1 075 组成对的影像和解译数据标签,训练集与测试集比例约为10∶1。
设置学习率为0.000 1,输入数据为RGB 三通道,每批次24 幅图片,训练过程中以损失率验证准确率。每10组数据显示一次损失率,每500组数据显示损失率并送入模型预测损失保存生成的检查点文件,同时记录训练周期,本文设置最大迭代次数100 000,FCN训练损失率与迭代次数关系如图3、4所示。
图3 训练损失率
图4 FCN训练分项准确率统计
采用迁移学习,学习率为0.000 1时,与原始图像数据集准确率相比,扩充图像数据作为训练集测试准确率分别提高了6%,表明扩充训练的图像数据集可增加数据的多样性,提升机器视觉的准确率,表明扩充图像数据提高了模型的鲁棒性。提高效果的迁移学习训练全部层提高4 个百分点,不同扩充数据集的训练准确率与测试准确率相差不大(图5)。迁移学习使模型在ImageNet数据集上训练得到更优于数据集扩充的效果,减弱了数据集扩充提效的作用。但扩充数据较原始数据集的训练测试准确率有所提高,是由于数据扩充为模型训练提供一定量的训练数据量。测试说明迁移学习降低了对自建数据集的扩充作用,但训练集还是必要保证有一定的数据量,以增加矿山特征地物的识别能力。
图5 迁移学习训练分项准确率统
4 结 语
本文采用FCN对河南省露天矿山监管目标进行自动提取,并采用了数据集扩充、空洞卷积、迁移学习等技术提升目标提取的准确率。
基于FCN 的迁移学习减少了机器学习的训练时间,通过自建数据集的扩充提高了露天矿山监管目标的识别性能,在目标图像类别和范围识别方面取得不错的识别精度。对露天矿山监管目标训练数据集进行数据扩充的迁移学习可以提升模型的识别精度。在本文的迁移学习中,测试集准确率由原来的79.66 提升到86.53%,效果比较明显。