APP下载

基于Transformer语义分割模型的露天矿场识别

2024-12-31陈佳晟游翔沈盛彧廖梓凯张彤

人民长江 2024年7期
关键词:露天矿水土保持语义

摘要:

露天矿场是生产建设项目水土保持信息化监管的重要对象,对其范围的高效精准识别对于监测非法违规开采行为,加强开采过程中的水土流失预防与治理具有重要意义。基于Transformer深度学习模型提出了露天矿场的遥感影像智能识别方法,并在四川省宜宾市的露天矿场影像数据集上与常用的基于卷积神经网络的深度学习识别方法进行了实验对比。结果表明:该方法对露天矿场范围识别的精确率、召回率、F1-score和IoU指标分别达到91.25%,90.66%,90.95%和83.41%,能够满足水土保持遥感监管的精确度要求;在识别精确度和识别效果上优于对比方法,在运行效率上与对比方法保持在同一数量级,表现出较强的应用价值。该方法在大区域露天矿场范围快速准确识别方面有推广应用潜力。

关" 键" 词:

水土保持; 遥感监管; 露天矿场; 深度学习; Transformer模型; 语义分割; 宜宾市

中图法分类号: TP753

文献标志码: A

DOI:10.16232/j.cnki.1001-4179.2024.07.008

收稿日期:

2023-11-27;接受日期:

2024-01-26

基金项目:

国家自然科学基金项目(41601298)

作者简介:

陈佳晟,男,硕士研究生,研究方向为遥感影像智能解译。E-mail:chenjs@whu.edu.cn

通信作者:

张" 彤,男,教授,博士,主要从事时空机器学习、遥感解译研究。E-mail:zhangt@whu.edu.cn

Editorial Office of Yangtze River. This is an open access article under the CC BY-NC-ND 4.0 license.

文章编号:1001-4179(2024) 07-0059-06

引用本文:

陈佳晟,游翔,沈盛彧,等.

基于Transformer语义分割模型的露天矿场识别

[J].人民长江,2024,55(7):59-64.

0" 引 言

中国幅员辽阔、矿产资源丰富,露天矿场的大量开采,迅速带动了地区经济的发展。然而,露天矿场开采破坏了原始地貌和植被,产生了大量废石、废渣等松散物质,如果施工不合理、水土保持措施不到位,在降水和地表径流的作用下,将出现严重的水土流失,对生态环境造成不可逆转的损害。2023年1月3日,中共中央办公厅、国务院办公厅印发《关于加强新时代水土保持工作的意见》[1],明确提出全面加强水土流失预防保护的要求,其中突出抓好水土流失源头防控的部分就涉及矿产资源开发的实施过程;同时需要依法严格人为水土流失监管,创新和完善监管方式。因此,如何创新手段快速找开采的到露天矿场,特别是非法违规开采行为,准确勾绘露天矿场开采范围,作为露天矿场监测和执法的依据,是当前值得深入研究的问题。

早期的露天矿场监管往往采用人工实地调查的方式,费时费力[2]。近年来随着遥感对地观测技术的快速发展,基于高空间分辨率遥感影像的信息提取解译为高效开展资源调查[3]、水土保持监管[4]、粮食安全预警[5]等任务提供了可能。但传统的遥感影像解译主要依靠人工目视判读[6],无法胜任时间紧、范围大、准确度要求高的影像数据解译工作。随着人工智能技术的发展,机器学习和深度学习技术近年来也被广泛应用于遥感影像中矿场的自动化解译[7]。常用的机器学习方法包括支持向量机[8]、决策树[9]、最大似然法[10]等。这类机器学习方法虽然节约了一定人力资源,但在解译的精确度、泛化性上都存在较大的提升空间。随着深度学习在图像识别领域取得的成功[11-12],基于卷积神经网络(Convolutional Neural Network,CNN)的露天矿场识别技术受到了更多的关注:程国轩等[13]对简单的CNN-F[14]网络进行迁移学习提高了露天采矿场的识别效率;Balaniuk[15]、张成业[16-17]等验证了将全卷积神经网络、U-Net、DeepLabV3+[18]等经典CNN网络应用于尾矿库、露天煤矿区范围智能识别的可行性;刘培等[19]在目标检测网络基础上对尾矿库结构进行语义分割,实现了高效的溃坝风险评估。

这些基于CNN的深度学习方法能够有效提取遥感影像中的深层抽象特征,提高了露天矿场等地物的自动化识别效果。但受限于卷积神经网络的计算机制,这些方法缺少对长距离依赖信息的捕捉能力,而Transformer模型的注意力机制可以充分挖掘影像的全局上下文信息,因此在影像解译的精确度上领先于基于CNN的深度学习方法[20]。对于露天煤矿范围的识别,基于Transformer模型的深度学习方法也取得了良好的识别效果[21],但由于目前相关的研究仍然较少,且研究的数据量偏小,方法的鲁棒性仍有待更充分的验证。

为了进一步提高露天矿场开采项目自动化识别的精确度和效率,为其开采过程中的水土流失监管和执法提供数据支撑,本文基于谷歌地球(Google Earth Pro)遥感影像制作了四川省宜宾市的露天矿场影像数据集和标签数据,设计了基于Transformer深度学习模型的露天矿场语义分割识别方法,并与常用的基于卷积神经网络的深度学习方法展开了对比实验。

1" 研究区域与数据源

研究区域为四川省宜宾市,地跨北纬27°50′~29°16′,东经103°36′~105°20′,处于川、滇、黔三省结合部,金沙江、岷江、长江三江交汇处,如图1所示。研究区包含3个市辖区和7个县、总面积约13 283 km2,属于亚热带湿润季风气候区,雨量充沛,气候温和,矿产资源丰富,其中煤炭、硫铁矿、石灰石等矿产的保有储量均居四川省前列[22]。宜宾市的露天矿场开采项目数量较多,分布较为密集,在生产建设过程中未批先建、未批先弃等违法违规行为的隐患较大,有较高的人为水土流失风险。

本文所使用的数据为谷歌地球遥感影像,包括多种数据来源,如WorldView、QuickBird、LandSat、Spot等多种卫星影像和航拍影像[23]。

2 "研究方法

本文总体技术流程如图2所示,主要包括数据获取与预处理、模型训练与露天矿场识别、不同方法的识别结果评估3个部分。

2.1" 露天矿场数据集构建

数据集由谷歌地球中不同传感器获取的影像进行样本采集而得,影像空间分辨率约0.6 m,其中训练数据影像362张,露天矿场与非露天矿场影像各181张,测试数据影像100张,露天矿场与非露天矿场影像各50张。露天矿场范围标签参考了多年四川省生产建设项目水土保持遥感监管成果数据,由经验丰富的水土保持作业人员目视解译并结合现场实地复核而来,使用labelme软件[24]进行标注,主要为石灰石矿、采石场等露天非金属矿场。露天矿场范围标注样本示例如图3所示,红色框线内为露天矿场区域,影像右下角为标注结果的二值化栅格图。为了扩充数据量以提升模型学习效率,本文对数据集进行在线的随机缩放、裁剪、翻转等数据增强处理。

2.2" 露天矿场范围识别方法

本文使用基于Transformer架构的语义分割模型SegFormer网络[25],其特点是简单、高效且具有较强的像素识别鲁棒性。SegFormer的网络结构如图4所示,包括编码器和解码器部分。对于输入尺寸为H×W×3的露天矿影像,首先将其分割为4×4的图像块,使用Transformer编码器提取图像块不同分辨率

的多级特征,其中包括高分辨率的矿区纹理等粗糙特

征和矿区边缘等低分辨率的细致特征。将这些特征传递给由多个多层感知机(Multilayer Perceptron,MLP)组成的解码器中进行上采样与融合,最终得到露天矿场范围的识别结果。

编码器部分提取了影像中的分层特征表示,类似于CNN的多级特征,随着分辨率的降低特征表示的粒度逐渐变细,综合多级特征可以提供更加丰富的语义分割识别信息。其核心为Transformer模块,包括高效自注意力层、混合前馈网络层和重叠块合并3个部分。首先通过高效的自注意力层以较低的计算复杂度求得特征图中任意两个位置像素的全局依赖关系,从而学习得到图像中的关注点信息。接着输入一个混合了3×3卷积和MLP层的混合前馈网络,以为Transformer提供图像块的位置信息。切割的小图像块经过多次的自注意力层和混合前馈网络完成基于Transformer的信息编码。为了更好地表示图像块周围的局部连续性,保证完整的露天矿场识别效果,使用重叠块合并的方式保持多个图像块邻近范围的信息。经过多层Transformer模块特征图编码,其分辨率逐渐变小,得到多级分层的影像特征表示。

解码器仅由轻量的MLP层组成,用于融合提取的多级特征表示,以获得露天矿场分割掩码。其解码过程主要包括4个步骤:首先在混合Transformer编码器中编码的特征通过一个MLP层统一通道维度,其次特征图被上采样到1/4大小并进行拼接,接着使用一个MLP层融合拼接后的特征,其输出再通过最后的MLP层预测得到最终的识别掩码。

迁移学习为深度学习模型解决过拟合现象的常用策略[26],其过程为先基于大型数据集对模型进行预训练,提高模型对不同数据的识别鲁棒性,再通过对目标数据集的训练学习进行网络权重的微调,以提高模型学习的效率。本文的SegFormer模型网络权重经过ADE20K数据集[27]的迁移学习预训练。

2.3" 用于对比实验的基线方法

为了更好地评估基于Transformer深度学习方法的露天矿场识别效果,本文使用在深度学习语义分割中常用的基于卷积神经网络(CNN)的方法进行精度对比实验,包括U-Net[11]、DeepLabV3+[18]、PSPNet[28]、FastSCNN[29]。这些方法的网络权重都经过公开大型数据集的迁移学习预训练。

3" 实验与结果分析

3.1" 实验设置与评估指标

本次研究的实验硬件环境为Intel(R) i9-10900F (2.80GHz) CPU和NVIDIA GeForce RTX 2080Ti GPU,运行内存为32 G。所有代码是在Microsoft Windows 10操作系统上基于OpenMMLab深度学习框架使用PyTorch实现的,所用的Python版本为3.8。实验过程为先在露天矿场训练数据集上进行学习,输入的遥感影像尺寸为512×512像素,模型训练的批处理大小为4张,训练过程迭代8 000轮次达到模型收敛,之后输入露天矿场测试数据集对模型识别精度进行验证。

本文使用精确率(Precision)、召回率(Recall)、F1-score和IoU这4个语义分割评估指标对实验结果进行定量精度评价。其中精确率表示正确识别为露天矿场的像素数占所有被识别为露天矿场像素的比例,召回率表示正确识别为露天矿场的像素数占所有露天矿场像素数的比例,F1-score为精确率和召回率的调和平均数,IoU表示正确识别为露天矿场的像素数占预测的露天矿场像素和真实的露天矿场像素并集的比例。

它们的计算公式分别为

Precision=TPFP+TP(1)

Recall=TPFN+TP(2)

F1-score=2×P×RP+R(3)

IoU=TPTP+FP+FN(4)

式中:TP,FP,TN,FN分别为预测正确的正样本数、预测错误的正样本数、预测正确的负样本数和预测错误的负样本数。

3.2" 精度比较

本文基于Transformer深度学习方法的露天矿场识别结果与U-Net、DeepLabV3+、PSPNet、FastSCNN等基于CNN方法的对比示例如图5所示,半透明红色区域为识别得到的结果。可见本文方法提取的露天矿场范围与参考真实范围最为接近且完整程度最高。各

类基线方法中U-Net和DeepLabV3+能大致识别出

露天矿场区域范围,但破碎斑块较多且准确度不够高。PSPNet和FastSCNN方法对范围的识别较为完整,但也容易造成大面积的误判或缺漏,尤其难以区分露天矿场周围色彩和纹理较为接近的农田;而对于被道路等间隔为多个区域的露天矿场很容易产生漏判,往往只识别出部分看似完整的区域,缺少对影像全局信息的理解。

露天矿场识别精度定量评估结果如表1所列,其中U-Net方法提取的精度最低,其次是FastSCNN方法,DeepLabV3+和PSPNet方法均有不错的语义分割精度,而本文方法在4个精度指标上均为最优,其中IoU指标达到了83.41%,露天矿场范围识别的效果最好。

3.3" 运行效率比较

为了从效率方面评估本文方法识别效果,验证其实际应用的可行性,本文对不同方法识别露天矿场的运行时间进行了统计。设定所有方法在相同的计算机环境下运行相同的数据量,即测试数据集中的100张影像,得到的运行效率对比如表2所示。可见各类方法对测试数据集的运行时间都在10 s以内,处于同一数量级。其中,DeepLabV3+方法用时最长,而FastSCNN方法以其高度轻量化的网络结构实现了最短的运行用时。本文方法用时上略逊于FastSCNN方法和U-Net方法,但识别精度远优于这两种方法。综上所述,本文方法在精度最优的前提下,也有着不错的运行效率,综合性能最优,能够较好地满足露天矿场自动化高效识别的需求。

4" 结论与展望

本文针对露天矿场开采的水土流失遥感监管需求,提出了基于Transformer深度学习模型的露天矿场范围智能识别方法。主要结论包括:

(1) 本文应用基于Transformer的深度学习模型和高分遥感影像对露天矿场范围进行智能识别,对四川省宜宾市露天矿场数据集的识别IoU精度达到83.41%,能够满足水土保持遥感监管的精确度需求。

(2) 本文方法在露天采矿场的识别精确度和识别效果上,优于U-Net、DeepLabV3+等传统的基于卷积神经网络的方法。

(3) 本文方法在露天矿场识别的计算机运行时间上与常用方法在同一数量级,且有着不错的运行效率,能够实现自动化、高效的露天矿场范围遥感解译。

综上所述,本文方法对于露天矿场的遥感识别有较为出色的综合表现,叠加对不同时相遥感影像的识别和对比分析,有望推广应用于更大区域的露天矿场范围变化的遥感监管中。但同时,由于本文所采集露天矿场影像数据集的规模和种类有限(以宜宾市数量较多的石灰石矿等露天非金属矿场为主),对于影像特征差异较大的露天矿场如金、铜矿等的识别仍需要拓展相应的样本库。本文方法也可类比应用于机场工程、火电工程等水土保持监管对象,对于生产建设项目水土保持信息化监管有较大的推广应用潜力。

致" 谢

本论文的数值计算得到了武汉大学超级计算中心的计算支持和帮助。

参考文献:

[1]" 中华人民共和国生态环境部.中共中央办公厅 国务院办公厅印发《关于加强新时代水土保持工作的意见》[EB/OL].(2023-01-03)[2023-11-18].https:∥www.mee.gov.cn/zcwj/zyygwj/202301/t20230103_1009406.shtml.

[2]" 於永东,林国利,陈炳富,等.GNSS技术在尾矿库坝体变形监测中的应用[J].测绘通报,2014(增1):60-62.

[3]" 康雄华,田一帆,张毅.高分六号影像在自然资源调查中的应用研究[J].地理空间信息,2023,21(4):54-61.

[4]" 李乐,时宇.生产建设项目水土保持遥感解译与判别技术实践及思考[J].中国水土保持,2022(1):31-34,7.

[5]" 王玉玺,史航,郭珊.基于多源卫星遥感的全国冬小麦墒情及长势监测分析[J].江苏科技信息,2023,40(18):66-70.

[6]" 李镇,张岩,杨松,等.QuickBird影像目视解译法提取切沟形态 参数的精度分析[J].农业工程学报,2014,30(20):179-186.

[7]" 胡乃勋,陈涛,甄娜,等.基于卷积神经网络的面向对象露天采场提取[J].遥感技术与应用,2021,36(2):265-274.

[8]" 王立廷.支持向量机结合面向对象提取尾矿库的应用研究[D].北京:中国地质大学(北京),2018.

[9]" 于海若,燕琴,董春,等.基于决策树分类的大屯矿区地物信息提取及矿区污染分析[J].测绘与空间地理信息,2016,39(4):67-69,72.

[10]胡一鸿.卫星遥感影像在稀土矿山动态监测研究[J].福建地质,2018,37(1):44-50.

[11]RONNEBERGER O,FISCHER P,BROX T.U-net:convolutional networks for biomedical image segmentation[C]∥ Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015:18th International Conference,Munich,Germany,October 5-9,2015,Proceedings,Part III 18.Munich:Springer International Publishing,2015:234-241.

[12]HE K,ZHANG X,REN S,et al.Deep residual learning for image recognition[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2016:770-778.

[13]程国轩,牛瑞卿,张凯翔,等.基于卷积神经网络的高分遥感影像露天采矿场识别[J].地球科学,2018,43(增2):256-262.

[14]CHATFIELD K,SIMONYAN K,VEDALDI A,et al.Return of the devil in the details:delving deep into convolutional nets[C]∥ Proceedings of the British Machine Vision Conference 2014.London:The British Machine Vision Association,2014.

[15]BALANIUK R,ISUPOVA O,REECE S.Mining and tailings dam detection in satellite imagery using deep learning[J].Sensors,2020,20(23):6936.

[16]张成业,李飞跃,李军,等.基于DeepLabv3+与GF-2高分辨率影像的露天煤矿区土地利用分类[J].煤田地质与勘探,2022,50(6):94-103.

[17]张成业,邢江河,李军,等.基于U-Net网络和GF-6影像的尾矿库空间范围识别[J].自然资源遥感,2021,33(4):252-257.

[18]CHEN L C,ZHU Y,PAPANDREOU G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]∥ Proceedings of the European Conference on Computer Vision (ECCV).ECCV,2018:801-818.

[19]刘培,谷灿,李庆亭,等.深度语义分割支撑下的尾矿库风险检测[J].遥感学报,2021,25(7):1460-1472.

[20]DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al.An image is worth 16x16 words:Transformers for image recognition at scale[C]∥ International Conference on Learning Representations,2020.

[21]田伟学.基于Transformer的目标检测和语义分割模型在煤矿遥感影像的应用[D].北京:中国矿业大学,2023.

[22]宜宾市地方志办公室.宜宾概况[EB/OL].(2019-02-19)[2023-11-18].http:∥dfz.yibin.gov.cn/ybdq/ybfw/2018 12/t 20181225_30b150.html.

[23]MADARASINGHE S K,YAPA K,JAYATISSA L P.Google Earth imagery coupled with on-screen digitization for urban land use mapping:case study of Hambantota,Sri Lanka[J].National Science Foundation of Sri Lanka,2020,48(4):357-366.

[24]TORRALBA A,RUSSELL B C,YUEN J.LabelMe:online image annotation and applications [J].Proceedings of the IEEE,2010,98(8):1467-1484.

[25]XIE E,WANG W,YU Z,et al.SegFormer:simple and efficient design for semantic segmentation with transformers[J].Advances in Neural Information Processing Systems,2021,34:12077-12090.

[26]PAN S J,YANG Q.A Survey on Transfer Learning[J].IEEE Trans actions on Knowledge and Data Engineering,2010,22(10):1345-1359.

[27]ZHOU B,ZHAO H,PUIG X,et al.Scene parsing through ade20k dataset[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2017:633-641.

[28]ZHAO H,SHI J,QI X,et al.Pyramid scene parsing network[C]∥ Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.IEEE,2017:2881-2890.

[29]POUDEL R P K,LIWICKI S,CIPOLLA R.Fast-scnn:fast semantic segmentation network[C]∥ Proceedings of the British Machine Vision Conference 2019.Munich:Springer International Publishing,2019.

(编辑:黄文晋)

Open-pit mine recognition based on Transformer model

CHEN Jiasheng1,YOU Xiang2,SHEN Shengyu3,LIAO Zikai2,ZHANG Tong1

(1.State Key Laboratory of Information Engineering in Surveying,Mapping and Remote Sensing,Wuhan University,Wuhan 430079,China;" 2.Sichuan Water and Soil Conservation Ecological Environment Monitoring Station,Chengdu 610074,China;" 3.Institute of Soil and Water Conservation,Changjiang River Scientific Research Institute,Wuhan 430010,China)

Abstract:

Open-pit mine is an important object of water and soil conservation information supervision in production and construction projects.The efficient and accurate identification of its scope is of great significance for monitoring illegal mining behaviors and strengthening the prevention and control of soil and water loss in the mining process.We introduced an intelligent recognition method utilizing a Transformer-based deep learning model for analyzing remote sensing images of open-pit mining areas.Comparative experiments were conducted on the open-pit mine dataset in Yibin City,Sichuan Province,using widely adopted deep learning recognition methods based on convolutional neural networks.The results indicated that the reveal precision,recall,F1-score,and IoU values of this method for identifying the scope of open-pit mines were 91.25%,90.66%,90.95% and 83.41%,respectively,which can meet the accuracy requirements of remote sensing supervision for water and soil conservation.Additionally,the efficiency and accuracy of our method remained superior to the contrasted methods while it shows equivalent running efficiency,indicating significant practical utility.The method introduced in this paper holds substantial potential for widespread application,enabling swift and accurate recognition of open-pit mines across extensive regions.

Key words:

water and soil conservation; remote sensing supervision; open-pit mine; deep learning; Transformer model; semantic segmentation; Yibin City

猜你喜欢

露天矿水土保持语义
水土保持探新路 三十九年写春秋
备战铁矿露天矿与挂帮矿同时开采稳定性研究
露天矿山土石方量的测量及计算
《水土保持通报》征稿简则
水土保持
语言与语义
水土保持
基于Delphi-TOPSIS法的露天矿采区接续方案优选
“上”与“下”语义的不对称性及其认知阐释
河北将对1881个露天矿山开展环境治理