APP下载

中国农村地区建筑物样本及标注无人机影像数据集

2022-07-03刘耀辉杨新月李嘉禾程昊周洁范熙伟张昊宇李晓丽齐文华李志强聂高众徐南付博姚国标于明洋孟飞靳奉祥

关键词:射影文件夹建筑物

刘耀辉,杨新月,李嘉禾,程昊,周洁,范熙伟,张昊宇,李晓丽,齐文华,李志强,聂高众,徐南,付博,姚国标,于明洋,孟飞,靳奉祥

1.山东建筑大学测绘地理信息学院,济南 250101

2.武汉大学遥感信息工程学院,武汉 430079

3.中国地震局地质研究所,北京 100029

4.中国地震局地震与火山灾害重点实验室,北京 100029

5.中国地震局工程力学研究所,哈尔滨 150080

6.中国地震台网中心,北京 100045

7.南京师范大学海洋科学与工程学院,南京 210023

8.中国科学院沈阳应用生态研究所,沈阳 110016

引 言

中国作为农业大国,农村发展至关重要。中国共产党十六届五中全会提出“扎实推进美丽乡村建设,实现乡村振兴战略”。快速、准确地从遥感图像中自动化检测和提取农村建筑物,是观察农村土地变化和经济发展的重要手段,对于统筹城乡发展、节约集约用地和灾害风险评估等具有重要意义[1-3]。

传统方法,如实地测绘方法,其精度高、可靠性强,但也存在费时费力等不足[4]。近年来,无人机遥感发展迅速,具有操作简单、机动灵活、空间分辨率高等优势,为农村建筑物信息提取提供了高精度数据源[5-6]。人工智能和深度学习技术迅速发展,为自动化提取建筑物提供机遇和前景[7-8]。基于深度学习的方法通常依赖于海量、高精度的样本数据集。目前,深度学习提取建筑物常用的数据集以国际上开源建筑物数据集为主,包括Massachusetts[9]、INRIA[10]、WHU[11]等。这些数据集大多基于国外建筑物,缺乏开源、高精度、贴合中国农村地区建筑物主体结构类型的数据集。为此,本研究基于2017-2020年在陕西渭南、江苏淮安、四川康定、广东汕尾、广东惠州、新疆阿图什、吉林松原等多个中国农村地区采集的无人机航拍图像,制作并开放共享本数据集。本数据集空间分辨率高,基本涵盖我国农村地区房屋建筑的主体结构类型,可应用于我国农村地区建筑物自动提取,并可进一步结合实际研究需求进行空间分析和研究,对于推动国家生态文明建设和美丽乡村战略发展具有重要意义和广阔应用前景。

1 数据采集和处理方法

1.1 数据采集方法

本研究进行数据采集所用的无人机为深圳大疆创新科技有限公司的 INSPIRE2无人机,该无人机主要参数见表1。于2017-2020年间,分别在广东省惠州市惠城区水东东路水东街、广东省汕尾市海丰县平东镇新平村、广东省汕尾市海丰县平东镇坪塘村、广东省汕尾市海丰县平东镇华照楼、四川省甘孜藏族自治州康定市雅拉乡三道桥沟村、江苏省淮安市泗阳县新袁镇于湾村、江苏省淮安市泗阳县新袁镇三岔新村、陕西省渭南市富平县留古镇贺兰村、陕西省渭南市蒲城县原仁乡赵家村、吉林省松原市宁江区土城子村、新疆维吾尔自治区克孜勒苏柯尔克孜自治州阿图什市哈拉峻乡琼哈拉峻村等多个地区完成以自然村为单元的农村建筑物无人机航拍。无人机数据采集地区分布图如图1所示。无人机数据采集地区空间分辨率及建筑物数量如表2所示。刘如山等[12]将房屋结构按照建筑材料和承重性质分为8大类:土木结构、砖木结构、穿斗木结构、石结构、不设防砖混结构、设防砖混结构、钢筋混凝土结构和高层结构。经实地调研,本研究数据集涵盖了土木结构、砖木结构、穿斗木结构、石结构、不设防砖混结构、设防砖混结构6类建筑物,基本涵盖我国农村地区房屋建筑的主体结构类型。

表1 INSPIRE2无人机参数Table 1 Parameters of INSPIRE2 UAV

表2 无人机数据采集地区空间分辨率及建筑物数量Table 2 Spatial resolution and number of buildings in UAV acquisition area

1.2 数据处理方法

1.2.1 空间建模与航片拼接

本数据集生产流程如图2所示。在完成无人机航拍后,使用Pix4Dmapper软件进行无人机影像拼接。Pix4Dmapper是一款专业的无人机测绘和摄影测量软件,可以生成高精度、带地理坐标的二维地图和三维模型。该软件进行空三解算的数据处理流程主要为:1)新建工程项目并导入数据;2)初始化处理;3)点云加密;4)生成数字表面模型和正射影像图。本研究在无人机数据采集中,未布设像控点。Pix4Dmapper软件采用光束法进行区域网空中三角测量,其中心投影的构像关系如图3所示,基本数学原理如公式(1)-(6)所示。

由于摄影时S,a,A三点共线,其中a(X,Y,Z)为像点的像空间辅助坐标,A(XA,YA,ZA)为对应地面点的地面坐标系,由三角形的相似关系可得:

式中,λ为比例因子,写成矩阵形式为:

已知像点的两套坐标,有如下关系:

将(2)带入(3)得到:

展开后得到:

用(5)式中的第一式和第二式分别除以第三式,得到中心投影的构像方程:

1.2.2 图像裁剪与样本数据集制作

基于深度学习的建筑物提取本质上属于计算机视觉中的语义分割任务,是个二分类问题,即把真实地物划分为建筑物和非建筑物两类。在上一步拼接得到的各个村数字正射影像图基础上,应用ArcGIS工具对影像图中的建筑物进行人工标注(建筑物为红色,非建筑物为黑色),生成标注影像(对应数据文件夹中的“target”),并使其与原始影像(对应数据文件夹中的“input”)一一对应。为加速深度学习训练过程,应用 OpenCV编程将各村庄正射影像图(2451×3475像素)统一裁剪成256×256像素,并保证一定的重叠度,即相邻两张图像的重叠度为56像素,生成裁剪后影像(对应数据文件夹中的“origin”)。

深度学习通常需要大量的样本数据。数据增强方法能够有效提升模型的泛化能力和解决过拟合问题。因此,本研究采用数据增强方法来扩充样本数据。具体做法是:对上一步裁剪得到的图像应用OpenCV进行顺时针旋转90度、旋转180度、旋转270度、水平翻转和垂直翻转,生成数据增强后影像(对应数据文件夹中的“augmented”)。数据增强示意图如图4所示。

2 数据样本描述

本数据集以切片为单位存放文件夹,由原始影像(对应数据文件夹中的“origin”)和数据增强后的影像(对应数据文件夹中的“augmented”)两个文件夹组成。本数据集组织形式示意图如图5所示。

2.1 原始影像

原始影像分为两个文件夹,分别是裁剪的正射影像图(对应数据文件夹中的“input”)和标注影像(对应数据文件夹中的“target”)。“input”文件下为以真彩色 RGB合成的裁剪的正射影像图,“target”文件下为人工标注的二值图像(建筑物为红色,非建筑物为黑色)。正射影像的每行每列只有一副切片图像,且标注影像与其一一对应。原始影像共有2020张图像(“input”和“target”各有1010张图像),“input”和“target”文件夹的图像命名规则均为:村庄缩写+裁剪前对应正射影像中的列数+裁剪前对应正射影像中的行数。如“ats0-0.tif”,表示阿图什市第一列第一行的tif图像。

2.2 数据增强影像

数据增强后的影像分为两个文件夹,分别是数据增强后的正射影像图(对应数据文件夹中的“input”)和标注影像(对应数据文件夹中的“target”)。“input”文件夹里的每个切片有6幅图像,分别为裁剪的正射影像以及进行数据增强后的 5种图像,标注影像的数据条目与其一致。“target”文件与“input”文件夹各有6060张图像,图像命名规则均分为两种:1)村庄缩写+裁剪前对应正射影像中的列数+裁剪前对应正射影像中的行数。如“ats0-0.tif”,表示阿图什市第一列第一行的tif图像。2)村庄缩写+裁剪前对应正射影像中的列数+裁剪前对应正射影像中的行数+数据增强方法缩写。如“ats0-0_horflip.tif”,表示阿图什市第一列第一行水平翻转的tif图像。

在应用深度学习方法进行建筑物提取前,通常需要将数据集进行划分,即划分为训练集、验证集和测试集三部分或训练集、测试集两部分[13]。为避免数据窥探偏误,本数据集未预先进行训练集、测试集的划分。研究人员在应用本数据集进行深度学习训练中,可通过Numpy函数或Sklearn函数定义分层抽样,进行数据集随机划分,以保证深度学习结果的鲁棒性和科学性。

3 数据质量控制和评估

本研究在使用Pix4Dmapper拼接影像时,设定高精度处理模式,并以图像比例1:4进行点云加密,从而提高了影像的精度。数据质量和控制已由Pix4Dmapper完成,其中数据集和相机参数优化质量均通过检验,质检报告初始处理细节如表3所示。

表3 质量报告表Table 3 Quality report form

以广东省汕尾市海丰县平东镇华照楼村为例,区域网空三中误差为1.225;相机自检校误差的R1、R2、R3参数都不大于0.1。在光束法区域网平差中,二维连接点网形如图6所示,链接的暗度表示图像之间匹配的2D关键点的数量;暗度较弱的链接,需要手动连接点或更多图像。

在完成数据集构建后,应用ARC-Net深度学习模型[8]进行建筑物提取,总体精度为0.914,准确率为0.854,部分提取结果如图7所示。结果表明,可应用深度学习方法在本数据集上进行建筑物提取,并取得较好精度和结果。

4 数据价值

本数据集是基于2017-2020年采集的无人机航拍图像建立的中国农村地区建筑物样本及标注数据集,具有空间分辨率高、定位精度高、覆盖范围广等优点,基本涵盖我国农村建筑物的主体结构类型,可用于语义分割等深度学习应用。本数据集是深入研究农村土地变化及经济发展的重要支撑数据,为丰富国内农村建筑物样本数据集作出积极贡献。

5 数据使用方法和建议

基于本数据集,研究人员可应用深度学习技术进行中国农村地区建筑物的高精度、自动提取,提取结果可进一步应用于土地资源管理、土地覆盖变化、城乡统筹发展等诸多方面。后续,作者将持续更新我国农村地区建筑物的无人机航拍数据,不断丰富数据产品的覆盖地区和范围;同时热忱欢迎专家学者与作者分享中国农村地区建筑物航拍数据,以期实现数据联动和共享。数据使用过程中有任何意见和建议,欢迎与本文作者联系。

致 谢

衷心感谢每一位曾一起野外调研的专家学者的辛苦付出。

数据作者分工职责

刘耀辉(1991—),男,山东省海阳市人,博士,讲师,研究方向为遥感信息提取、深度学习技术及灾害管理。主要承担工作:总体思路与方案设计,论文撰写与修改。

杨新月(1998—),女,山东省济宁市人,硕士研究生,研究方向为遥感大数据分析。主要承担工作:产品精度评价与论文撰写。

李嘉禾(2000—),女,山东省潍坊市人,本科生,研究方向为遥感图像处理。主要承担工作:数据处理与加工。

程昊(1990—),男,黑龙江省哈尔滨市人,博士研究生,研究方向为光学卫星影像高精度几何处理理论与算法研究。主要承担工作:数据处理与加工。

周洁(1994—),女,云南省玉溪市人,博士研究生,研究方向为遥感技术与灾害管理。主要承担工作:数据处理与加工。

范熙伟(1986—),男,山西省临汾市人,博士,副研究员,研究方向为基于遥感技术的地震灾害风险评估。主要承担工作:数据收集与整理。

张昊宇(1978—),男,吉林省长春市人,博士,副研究员,研究方向为钢筋混凝土结构地震损伤分析。主要承担工作:数据收集与整理。

李晓丽(1982—),女,山东省临沂市人,博士研究生,高级工程师,研究方向为地震灾害及3S在地震灾害方面的应用。主要承担工作:数据收集与整理。

齐文华(1985—),男,河北省石家庄市人,博士,副研究员,研究方向为地震地质灾害风险评估与治理。主要承担工作:数据收集与整理。

李志强(1969—),男,新疆维吾尔自治区乌鲁木齐市人,博士,研究员,研究方向为地震灾害及3S在地震灾害方面的应用。主要承担工作:总体指导。

聂高众(1964—),男,山西省晋城市人,博士,研究员,研究方向为地震应急与减灾。主要承担工作:总体指导。

徐南(1992—),男,江苏盐城人,博士,讲师,研究方向为海岸带及水环境遥感监测。主要承担工作:数据处理与加工。

付博(1993—),男,辽宁省阜新市人,博士研究生,研究方向为无人机遥感应用。主要承担工作:数据收集与整理。

姚国标(1985—),男,山东省菏泽市人,博士,副教授,研究方向为数字摄影测量。主要承担工作:数据集质量验证。

于明洋(1978—),男,山东省济南市人,硕士,副教授,研究方向为工程GIS技术研发及遥感大数据应用。主要承担工作:数据集精度评价。

孟飞(1974—),男,山东省临沂市人,博士,教授,研究方向为环境遥感与GIS应用。主要承担工作:总体思路与方案设计。

靳奉祥(1962—),男,山东省济南市人,博士,教授,研究方向为测量数据处理理论、陀螺经纬仪定向理论、变形测量与分析和数字信息模式识别。主要承担工作:总体思路与方案设计。

猜你喜欢

射影文件夹建筑物
邻近既有建筑物全套管回转钻机拔桩技术
Fast Folders,让你的文件夹四通八达
描写建筑物的词语
三参数射影平坦芬斯勒度量的构造
摸清超标源头 大文件夹这样处理
调动右键 解决文件夹管理三大难题
Relationship between mode of sport training and general cognitive performance
射影定理在2016年高考中应用例析
火柴游戏
不容忽视的空文件夹