APP下载

中国河南省2016–2021 年尾矿库目标检测数据集

2024-01-11李俊杰李敏隋正伟苏文博连亚茹陈帅原征

关键词:尾矿库切片卫星

李俊杰,李敏 ,隋正伟,苏文博,连亚茹,陈帅,原征

1.中国资源卫星应用中心,北京 100094

2.中国四维测绘技术有限公司,北京 100086

引 言

尾矿库是指筑坝拦截谷口、河床或者围地构成的,用以存储金属或非金属矿山经选矿后排出尾矿或其他废渣的场所,含有大量暂时无法处理的有用或有害成分,是矿山开采活动的必要基础设施[1-2]。尾矿库是一个具有高势能的人造泥石流危险源,存在溃坝危险,一旦失事可能会造成大量人员伤亡、农田村庄毁坏的重大或特大事故,给环境安全带来隐患;尾矿库中含有的各种重金属矿物和毒性物质经过淋滤和渗透,会严重污染尾矿库周边和下游生态环境[1,3]。我国尾矿库总量居世界第一,全国共有14217 个尾矿库,涉及64 个矿种[4]。为了及时预警尾矿库潜在的自然和人为风险,加强对尾矿库的应急管理,有必要摸清尾矿库的空间分布、数量以及增加减少的情况。

传统的尾矿库空间分布调查采取的是遥感图像目视或半自动解译结合人工外业调查的方式,效率低、时效性差、工作量大,无法做到大范围内尾矿库的自动快速提取,难以满足高频次的尾矿库分布变化情况时序监测的需求。从遥感图像上确定尾矿库的位置和分布实质就是遥感图像的目标检测问题。随着深度学习技术的兴起,其在遥感图像的目标检测、分类和变化检测等方面取得了极大的进展和突破。已有一些科研人员开展了深度学习目标检测提取高分辨率遥感图像上尾矿库的研究,李庆等基于深度学习SSD(Single Shot Multibox Detector)目标检测模型对中国京津冀地区的尾矿库进行了自动检测提取[5-6],闫凯等基于改进的SSD 模型应用于中国华北地区的尾矿库提取[7],Yan 等基于改进的Faster R-CNN(Region-based Convolutional Neural Network)和迁移学习的方法从多光谱和高分辨率遥感图像中检测尾矿库[8-9],Lyu 等从高分遥感图像上基于YOLO v4(You Only Look Once)检测提取中国安徽省铜陵市的尾矿库[10]。

基于遥感图像的尾矿库目标自动化、智能化深度学习检测模型的开发需要高质量的尾矿库目标检测数据集支撑。深度学习数据集不仅是衡量和检验算法性能好坏的标准,还进一步推动了算法向更准确、更高效的方向不断发展[10]。当前开源的尾矿库目标检测数据集较少,公开检索到的开源数据集只有Lyu 等2021 年创建的安徽局部区域的尾矿库目标检测数据集[11],该数据集以单时相的2 米分辨率谷歌图像为数据源,使用水平框(horizontal bounding box)标注尾矿库目标。但是,遥感图像中的目标与自然图像不同,通常以任意角度出现,水平框中目标的冗余背景信息会导致模型检测性能的降低,因此,遥感目标检测更倾向于定位目标的最小面积外接矩形框,即倾斜框(oriented bounding box)。因此,本研究构建了中国河南省区域的尾矿库目标检测数据集。本数据集有以下几个特点:(1)国产高分辨率光学遥感卫星图像尾矿库目标检测数据集,包含多尺度、不同地理背景和形态各异的尾矿库,共提供1183 个图像切片,包含1728 个目标实例;(2)采用倾斜框标注目标的最小面积外接矩形,图像冗余背景信息较少,能够减少背景对模型检测性能的影响;(3)数据集提供2016 年、2018 年、2020 年和2021 年总共4 个不同年度的样本数据,覆盖不同季节和光照的遥感图像。以上特点均可以提高基于数据集训练的模型在大规模应用中的泛化能力。利用该数据集可以进行深度学习尾矿库目标检测模型开发的技术研究和开展尾矿库的自动化、智能化检测,对于推动尾矿库自动提取技术的发展和尾矿库的安全监管具有重要意义。

1 数据采集和处理方法

1.1 数据采集方法

本数据集使用国产民用陆地观测卫星获取的中国河南省可见光图像,包括全色和多光谱图像(红、绿、蓝、近红),全色图像的空间分辨率为2 米。涉及的卫星包括:高分一号卫星(GF-1)、高分一号02 星(GF-1B)、高分一号03 星(GF-1C)、高分一号04 星(GF-1D)、高分六号(GF-6)、资源三号01 星(ZY-3 01)和资源三号02 星(ZY-3 02)。

河南省位于北纬31°23'–36°22',东经110°21'–116°39'之间,有“九州腹地、十省通衢”之称,总面积16.7 万平方千米,地势西高东低,由平原和盆地、山地、丘陵、水面构成,地跨海河、黄河、淮河、长江四大流域。本数据集使用了完整覆盖河南全省4 次的不同时相遥感图像,图像成像时间分别为2016 年、2018 年、2020 年和2021 年,每一个年度的卫星图像都挑选年度范围内无云、成像质量好的数据。基于2016–2021 年采集的卫星遥感图像,经过数据处理、人工解译标注、图像切片等步骤形成本数据集,共提供4 个时相的河南省尾矿库目标检测样本。

1.2 数据处理方法

1.2.1 数据正射及镶嵌处理

在样本标注之前,需要对标准产品数据进行正射融合等一系列处理,以生成2 米分辨率、几何定位精度优于10 米的真彩色镶嵌图像。卫星遥感图像数据的正射融合、匀色镶嵌处理流程如图1 所示。在挑选和下载完无云和质量好的国产光学卫星数据后,对数据进行几何和辐射一致性处理。主要步骤为:(1)数据拉伸与增强。使用拉伸与增强的方法使图像直方图呈正态分布,图像色调清晰、色彩合理;(2)控制点采集。基于参考图像,采集待校正图像与参考图像上的同名点和连接点,为平差处理做准备;(3)平差处理。采用基于有理函数模型的区域网平差方法,可有效提高图像的几何定位精度和图像间的接边精度;(4)正射校正。对全色和多光谱图像进行倾斜改正和投影差改正,特别是消除图像的地形误差;(5)融合处理。对全色和多光谱图像进行融合,生成与全色图像空间分辨率一致的4 波段多光谱图像;(6)镶嵌预处理。基于融合图像合成自然真彩色图像,并把图像的量化位数降为8 比特,为匀色镶嵌做准备;(7)匀光匀色。对相邻图像的色彩调整处理,保持景与景之间重叠处色彩过渡自然;(8)图像镶嵌。把区域内多景图像镶嵌到一起生成一整幅图像,通过自动和人工结合的方式确定图像接边处的镶嵌线,保证地物合理接边,无重影和发虚现象。同时在以上各主要步骤中穿插进行质量检查,不符合要求的返回上一步进行处理。

图1 数据正射及镶嵌处理流程图Figure 1 Flow chart of data orthorectification and mosaic processing

1.2.2 尾矿库目标检测数据集制作

基于河南省的2 米匀色镶嵌图像,本研究使用ArcGIS 软件,通过人工遍历的方式对各时相遥感图像进行尾矿库的目视解译和样本标注。尾矿库目标检测数据集制作流程如图2 所示,主要步骤为:(1)制定标注规范。明确尾矿库的遥感图像解译标志、标注方式、标注细则和注意事项等,形成标注规范文档并对标注人员进行培训;(2)人工标注。人工目视遍历每期的河南省匀色镶嵌图像,对识别为尾矿库的目标采用ArcGIS 软件以倾斜框(目标的最小面积外接矩形)的方式进行标注,通过自检、互检和终检3 次检查保证标注符合规范,最终得到河南省尾矿库位置和分布数据(见图3),并形成标注矢量文件;(3)图像切片。使用Python 程序语言和GDAL 库编程,基于标注矢量文件将匀色镶嵌图像裁切成固定尺寸的图像切片,保留存在目标的图像切片并生成对应的标注文件,如有尾矿库目标被切分,当被切分的面积大于目标原始面积的50%时才在该切片保留此尾矿库的标注信息。

图2 尾矿库目标检测数据集制作流程图Figure 2 Flow chart for the dataset production of tailings pond object detection

图3 河南省尾矿库分布图Figure 3 Distribution of tailings ponds in Henan province

2 数据样本描述

本数据集有2 个压缩包,解压后对应2 个文件夹(images 文件夹和labels 文件夹),images 文件夹存放的是图像切片,labels 文件夹存放标注标签文本文件。

images 文件夹里图像切片标准大小为1024×1024 像素(因为少量尾矿库空间范围较大,有36 个切片像素大于1024×1024),RGB 真彩色图像,图像切片格式为PNG,图像切片的命名规则为:卫星图像成像年份+’_’+切片序号+格式后缀,如“2016_128.png”,表示2016 年成像的卫星图像的第128 个含有尾矿库的切片。

labels 文件夹里每个文本文件与images 文件夹里的图像切片逐一对应,文本文件的格式为txt,文本文件的命名规则为:对应的无格式后缀图像切片名字+格式后缀,如“2016_128.txt”,表示对应“2016_128.png”切片的标注标签文件。txt 文本的标注格式采用DOTA(a large-scale Dataset for Object deTection in Aerial images)标准[12],txt 文本中一行标识一个目标(多行对应多个目标)的图像坐标位置和类别,位置由4 个角点的8 个坐标值组成,(x1, y1, x2, y2, x3, y3, x4, y4)分别是倾斜框4 个顶点的坐标(x1, y1),(x2, y2),(x3, y3),(x4, y4),位置后是类别名,txt 文件的行数即为对应图像切片上的尾矿库目标实例个数。

本数据集总共包含1183 个切片,1728 个目标实例,不同年份切片和实例数统计情况见表1。尾矿库目标检测数据集典型切片样本如图4 所示(真实切片只有图像无标注框,标注框图像坐标存在标注标签文件中)。

表1 不同年份切片和实例数统计表Table 1 Statistics of slices and instances in different years

图4 尾矿库目标检测数据集4 个不同年份切片样例展示Figure 4 Samples of object detection dataset slices of tailings pond in 4 different years

3 数据质量控制和评估

数据集是人工智能模型训练的基础输入,高质量的数据集才能产出优质和可靠的模型。为保证尾矿库目标检测数据集的质量,图5 给出了本数据集的数据质量控制流程,在卫星数据正射及镶嵌处理、目标检测数据集制作环节中均采取了质量控制过程,通过明确质量控制要求、多重检查等保证数据集样本的标准化、正确性和完整性。

图5 数据质量控制流程图Figure 5 Flow chart of data quality control

匀色镶嵌图像质量控制:(1)标准卫星图像产品的云量和数据质量检查,确保单景图像云量低于5%,无掉线等数据缺失问题;有问题数据重新查询下载替换;(2)正射图像几何精度检查,几何定位精度优于10 米,景与景之间接边精度优于2 个像素;不符合要求图像重新进行几何处理;(3)融合图像检查,融合图像无重影,纹理细节清晰,无色彩溢出;不合格图像重新融合处理;(4)匀色镶嵌检查,图像无明显错误、扭曲和重影,图像接边处色彩过渡自然,地物接边合理,无0 值和异常值。

目标检测数据集质量控制:(1)标注检查采取自检、互检相结合的方式,检查标注的正确性、倾斜标注框是否与尾矿库目标贴合、是否存在遗漏等,并对检查的错误进行修改和重新标注;(2)切片检查,人工检查图像切片与标签是否匹配一致,标签文件是否缺失等问题,并对错误情况确认和修改。

最后独立的质检员对数据集进行复核和最终检查,经过以上步骤和过程质量控制,尾矿库切片样本的正确率优于99.5%,数据集整体质量优异。

4 数据价值

遥感图像的尾矿库目标检测在应急监管和环境保护等领域具有重要的应用价值。遥感图像上的尾矿库目标尺度变动区间较大、形状各异,尾矿库地理背景复杂,尾砂和水体的颜色多样。遥感图像尾矿库自动检测受限于尾矿库的以上特点和缺乏样本数据,自动检测的精度(准确率和召回率)相对于飞机、舰船等目标要低很多。而当前开源的尾矿库目标检测数据集较少,且采用水平框标注。本数据集基于国产高分光学卫星图像,是多时相的倾斜框尾矿库目标检测数据集。倾斜框可以精确定位图像中的目标,在遥感图像目标检测任务中使用带有角度信息的倾斜框获可以获得更优越的性能;同时本数据集提供的多时相、多尺度、不同地理背景和形态各异的尾矿库样本有助于提高深度学习模型的泛化能力。我们期待此公开数据集可以促进高分光学卫星遥感图像的尾矿库目标检测研究和推动尾矿库自动化、智能化检测的业务化应用。

5 数据使用方法和建议

基于本数据集,可以使用深度学习目标检测技术开发遥感图像尾矿库目标检测模型,实现尾矿库的自动化、智能化检测和提取。本数据集未划分训练集和测试集,用户可以根据需要以一定的比例(例如8:2)将该数据集随机分为训练集和测试集。此外本数据集提供的均为原始样本,未进行数据增广。深度学习模型的开发需要大量样本来防止训练过程中的过拟合,通常会采用数据增强方法提升样本量,增加样本的多样性,用户可自行对本数据集的样本进行增广,可采取的方式包括旋转、高斯噪声、翻转和亮度变化等。

数据作者分工职责

李俊杰(1983—),男,湖南省岳阳市人,硕士,研究员,研究方向为遥感信息提取。主要承担工作:尾矿库目标检测数据集设计与采集规范、方案制定、数据质量检查。

李敏(1996—),女,安徽省安庆市人,硕士,助理工程师,研究方向为遥感图像目标智能检测与识别。主要承担工作:尾矿库目标检测数据集采集规范与样本切片程序的编写。

隋正伟(1986—),男,辽宁省大连市人,博士,研究员,研究方向为卫星遥感大数据应用技术。主要承担工作:尾矿库目标检测数据集数据处理方案制定与实施。

苏文博(1994—),男,河南省驻马店市人,硕士,工程师,研究方向为遥感图像目标智能检测与识别。主要承担工作:尾矿库目标检测数据集采集规范制定。

连亚茹(1993—),女,河北省邢台市人,本科,助理工程师,研究方向为遥感图像目标解译与识别。主要承担工作:河南省2 米图像处理与样本采集。

陈帅(1988—),男,河南省商丘市人,本科,助理工程师,研究方向为遥感图像目标解译与识别。主要承担工作:河南省2 米图像处理与样本采集。

原征(1986—),男,辽宁省丹东市人,本科,助理工程师,研究方向为遥感图像数据处理与制图。主要承担工作:尾矿库目标检测数据集的质量检查。

猜你喜欢

尾矿库切片卫星
尾矿库空间信息提取与形变监测应用
尾矿库的环保防渗设计分析
miniSAR遥感卫星
静止卫星派
筑牢尾矿库安全防线
基于SDN与NFV的网络切片架构
Puma" suede shoes with a focus on the Product variables
肾穿刺组织冷冻切片技术的改进方法
冰冻切片、快速石蜡切片在中枢神经系统肿瘤诊断中的应用价值比较
What Would Happen If All Satellites Stopped Working? 假如卫星罢工一天