APP下载

2019年全国农业塑料大棚遥感分类数据集

2022-01-15冯权泷牛博文朱德海姚晓闯刘逸铭欧聪陈泊安杨建宇郭浩刘建涛

关键词:塑料大棚行政区大棚

冯权泷,牛博文,朱德海*,姚晓闯,刘逸铭,欧聪,陈泊安,杨建宇,郭浩,刘建涛

1.中国农业大学土地科学与技术学院,北京 100083

2.中国移动通信集团广东有限公司,广州 510623

3.山东建筑大学测绘地理信息学院,济南 250101

关键字:农业塑料大棚;Google Earth Engine;Sentinel-2;随机森林

数据库(集)基本信息简介

数据库(集)名称 2019年全国农业塑料大棚遥感分类数据集数据作者 冯权泷、牛博文、朱德海、姚晓闯、刘逸铭、欧聪、陈泊安、杨建宇、郭浩、刘建涛数据通信作者 朱德海(zhudehai@cau.edu.cn)数据时间范围 2019年地理区域 中国陆地区域空间分辨率 30 m数据量 45.7 MB数据格式 *.shp, *.kml, *.tif, *.zip数据服务系统网址 http://www.dx.doi.org/10.11922/sciencedb.j00001.00230基金项目国家自然科学基金(42001367);国家重点研发计划(2018YFE0122700);中国科学院“十三五”信息化建设专项(XXH-13514)。数据库(集)组成本数据集由大棚空间分布数据集和大棚样本数据集组成。其中:大棚空间分布数据集共包含34个以省级行政区名称命名的文件夹,每个文件夹又包含两部分,分别是30米空间分辨率的大棚空间分布数据(tif格式)以及5 km格网数据(shp格式)。大棚样本数据集则包含各省级行政区的地面样本数据(kml格式)。

引 言

我国作为一个农业大国,农业塑料大棚的占地面积逐年攀升,其在解决我国蔬菜等农产品的供应、增加农民收入、促进农业产业结构调整、提高城乡居民的生活水平等方面发挥着十分重要的作用[1]。农业塑料大棚包括温室大棚、渔业养殖用房等,而根据第三次农业普查数据,我国温室大棚的占地面积已稳居世界第一。因此准确获取农业塑料大棚的空间分布及其动态变化,可为政府、科研单位等提供数据支撑,有利于保障我国的农业现代化生产和可持续发展。

传统农业塑料大棚监测方法主要以人工实地调查和统计上报为主,存在效率低、实时性差等缺陷。卫星遥感具有大范围同步观测的优势,对于农业塑料大棚分类而言是一种理想的数据源[2-3]。因此如何利用卫星遥感精准获取全国的农业塑料大棚的空间分布,成为一个亟待解决的关键技术问题。

为解决上述问题,本文基于Google Earth Engine(GEE)云计算平台,采用10米空间分辨率的Sentinel-2遥感影像,进行全国农业塑料大棚的分类数据生产。具体而言,首先基于地面样本点计算大棚的光谱特征和纹理特征,并训练随机森林模型[4],通过并行计算得到全国农业塑料大棚遥感分类结果。本数据是第一次公开发布的全国农业塑料大棚空间分布数据,可有效呈现全国大棚的空间分异特征,为科研、政府等有关部门提供数据支撑。

1 数据采集和处理方法

1.1 数据来源

考虑到GEE云计算平台具有数据获取成本低、计算效率高、操作便捷等优势[5],本文遥感数据来源为GEE平台,具体为空间分辨率为10 m且经过大气校正的2019年Sentinel-2多光谱遥感影像。

1.2 数据处理方法

1.2.1 技术路线

本文的总体技术路线如图1所示,共包含以下处理步骤:

图1 总体技术路线

(1)影像选择及预处理:在GEE云平台上获取2019年覆盖各省级行政区的Sentinel-2影像(见表1),并在GEE上进行去云、影像拼接等预处理。

表1 2019年覆盖各省级行政区的Sentinel-2影像时间表

地区 遥感影像时间 地区 遥感影像时间湖北 2019.03.01-2019.05.31;2019.06.01-2019.09.30 浙江 2019.01.01-2019.04.01;2019.10.01-2019.12.31湖南 2019.04.01-2019.10.01;2019.10.01-2019.12.31 吉林 2019.03.01-2019.05.31;2019.09.01-2019.10.31江苏 2019.03.01-2019.05.31;2019.09.01-2019.09.30 山东 2019.03.01-2019.05.31;2019.09.01-2019.10.31江西 2019.04.01-2019.10.01;2019.10.01-2019.12.31 新疆 2019.04.01-2019.05.31;2019.08.01-2019.09.30安徽 2019.03.05-2019.05.31;2019.09.01-2019.10.31 内蒙古 2019.03.01-2019.05.31;2019.09.01-2019.10.31

(2)样本初选:根据野外调查和目视解译选择农业塑料大棚以及非农业塑料大棚的样本,并在GEE上进行样本标记。

(3)特征提取:包括缨帽变换、光谱指数、纹理特征等的计算;其中缨帽变换取前三个分量,亮度,绿度以及湿度分量;光谱指数包括归一化植被指数(Normalized Difference Vegetation Index NDVI),归一化建筑物指数(Normalized Difference Built-up Index NDBI),修正归一化差异水体指数(Modified Normalized Difference Water Index MNDWI),土壤调节植被指数(Soil Adjusted Vegetation Index SAVI);纹理特征包括均值(Mean MEA),标准偏差(Standard Deviation STD),同质性(Homogeneity HOM),相异度(Dissimilarity DIS),熵(Entropy ENT)和角二阶矩(Angular Second Moment ASM)[6]。

(4)模型训练及精度验证:完成特征计算后,按照3∶1的比例划分训练集和测试集。然后利用训练集进行随机森林分类器的训练,并利用测试集进行精度验证。

(5)分类结果目视判别:将分类结果输出,并添加至GEE图层。通过目视解译的方式,判断分类效果是否满足分类要求。若满足则进入分类后处理,若不满足则进入样本重选。

(6)样本重选:若步骤(5)不满足分类要求则进入本步骤,将分类结果图添加至GEE新图层,基于本次分类结果对样本数据进行人工修正,增加或删除原有样本,以提升分类精度以及效果。

(7)分类后处理:若步骤(5)满足分类要求则进入本步骤,将分类结果图加载到ArcGIS中,利用各省级行政区的矢量图层对大棚分类结果进行掩膜提取,同时基于5公里格网生成大棚空间占比统计专题图。

(8)输出成图:将各省级行政区的大棚分类数据进行镶嵌处理,从而得到全国大棚分布专题图,同时生成全国大棚面积百分比专题图。

1.2.2 特征提取

为了提高农业塑料大棚的分类精度,首先对其进行特征提取,通过构建多维特征空间,提高大棚与其他地物的类间可分性。在本文中,提取的特征主要包括缨帽变换特征、光谱指数和纹理特征。

(1)缨帽变换

缨帽变换通过将影像变换为三个主要成分(亮度、绿度和湿度),可有效突出植被、土壤、人造地物之间的差异。因此本文采用缨帽变换进一步提升农业塑料大棚与其他地物的可分性。缨帽变换公式为:

式中,Y——变换后多光谱空间的像元矢量;X——变换前多光谱空间的像元矢量;c——变换矩阵;b——常数。

(2)光谱指数

除缨帽变换特征外,本文采用下列光谱指数进一步提升大棚的可分性:植被指数(NDVI)、建筑指数(NDBI)、土壤调节植被指数(SAVI),水体指数(MNDWI)。其中NDVI可减少植被对农业塑料大棚分类的影响;NDBI可减少建设用地对农业塑料大棚分类的影响;SAVI可进一步减少NDVI受土壤背景噪声影响;MNDWI可减少水体对农业塑料大棚分类的影响。上述光谱指数的计算公式如下:

式中:ρ(G) ——绿色波段反射率;ρ(R) ——红色波段反射率;ρ(N) ——近红外波段反射率;ρ(M)——中红外波段反射率;L——矫正因子[7]。

(3)纹理特征

通过目视解译发现,相比于其他地物,农业塑料大棚具有明显的几何特点和纹理特征,因此本文采用均值(MEA),标准偏差(STD),同质性(HOM),相异度(DIS),熵(ENT)和角二阶矩(ASM)6个纹理特征,进一步区分农业塑料大棚和其他地物。

式中,Q——灰度级数;P(i,j)——共生矩阵的元素归一化灰度值;MEAi——均值;STDi——标准偏差;HOM——同质性;DIS——相异度;ENT——熵;Asm——角度秒矩。

1.2.3 分类器构建与精度评估

随机森林是一种基于决策树的集成分类器。在模型构建过程中有两次随机采样过程,一是通过Bootstrap重采样技术对原始训练样本进行随机采样,二是对所有分类特征进行随机采样以训练单独的决策树,并最终以投票的形式对所有决策树的分类结果进行融合,从而得到随机森林的分类结果。随机森林具有抗过拟合能力强、分类稳定性高、参数化过程简单、更适于多维共线性特征的建模等优势,已经在遥感影像分类领域得到广泛应用,因此本文选取随机森林作为分类器进行农业塑料大棚的遥感分类。

具体而言,在GEE云计算平台中调用Classifier.randomForest()函数构建随机森林分类器。根据前期试验结果设置 150棵决策树,随机特征个数为 4,即设置参数 numberOfTrees=150、variablesPerSplit=4,其余参数均为默认值。同时考虑到全国范围较大,若只构建一个随机森林模型,将难以实现精准分类,因此采用分区建模的思路,对每一个省级行政区构建单独的随机森林分类器,并对面积较大的行政区(如新疆维吾尔族自治区、内蒙古自治区等)继续进行分区建模。

在完成分类后,采用测试样本集对各省级行政区的分类精度进行评估。首先计算混淆矩阵,同时计算总体分类精度、Kappa系数、用户精度、生产者精度等指标。并计算各个省级行政区的平均精度作为本数据集的最终精度。

2 数据样本描述

2.1 数据组成

本数据主要包含2019年全国农业塑料大棚遥感分类结果以及对应的地面样本数据。上述数据被保存在一个名为“2019年全国农业塑料大棚遥感分类数据集.7z”的压缩文件内,文件大小总计45.7 MB。该文件共包括34个以省级行政区命名的文件夹(若文件夹为空,则表示该省级行政区农业塑料大棚遥感分类面积极小且难以提取),每个省级行政区文件夹下包含3个子文件夹,分别包含以下内容:

1)大棚样本数据:其数据格式为kml,具体包括农业大棚(Agricultural Greenhouse,AG)和其他地物(None Agricultural Greenhouse,Non-AG)两类地面样本。

2)大棚遥感分类结果数据:为GEE云平台计算得到的分类数据,其数据格式为tif,同样包含农业大棚和其他地物共两类的分类结果。

3)5公里格网对应的矢量数据:是在Albers投影下所构建的5公里格网,基于该数据和遥感分类结果可进行分区统计,从而得到大棚面积的百分比专题图。

此外,以上数据均采用UTM投影、WGS84坐标系。

本数据集的文件构成如图2所示,2019年全国农业塑料大棚分布数据集主要包括样本数据集和分省分类图像数据集。其中样本数据格式为kml;分类数据格式为tif格式,空间分辨率为30 m。本文数据集是基于GEE云平台Sentinel-2遥感影像生成的,数据资料来源可靠。用户可通过ArcGIS等GIS软件对数据进行进一步的加工和处理。本文同时给出了5公里的格网数据,基于本格网数据对分类结果进行分区统计,即可得到大棚面积占比数据。

图2 数据集文件构成

2.2 样本数据描述

图3为2019年全国农业塑料大棚样本分布图。其中黑色代表农业塑料大棚样本点,蓝色为其他地物的样本点。可以看出,本数据集的样本点分布范围覆盖了全国,并在山东、河北等重点区域增加了采样密度,具有较好的空间代表性。

图3 2019年全国样本分布专题图(审图号:GS(2021)2091号)

表2给出了各省级行政区样本数量统计结果。其中,西藏、重庆、澳门、香港地区由于大棚数量过少,未进行样本采集工作。

表2 各省级行政区样本统计表

地区 大棚样本数量(个) 其他地物样本数量(个)山西 237 239四川 371 1042陕西 172 217台湾 28 112云南 159 317浙江 223 392吉林 1182 756山东 2049 1761新疆 133 585内蒙古 603 1915全国 10 371 17344大棚面积(平方公里)225.7 1071.5 251.3 0.1 1482.4 463.7 242.9 2309.7 59.9 207.8 10 329.8

由表2可知,本数据集共包含样本27 715个,正负样本基本平衡。其中农业塑料大棚样本数量为10 371个,其他地物样本数量为17 344个。全国的农业塑料大棚的总面积约为10 329.8平方公里,其中山东省的农业塑料大棚占地面积最多,总面积约为2309.7平方公里。

2.3 大棚分类数据描述

图4展示了2019年全国农业塑料大棚分布情况。考虑到大棚面积较小,直接进行分类结果的展示则效果不佳,因此本文借鉴了前人的工作方法[6],计算了5公里格网内大棚的面积占比,可以更好反映大棚的空间分布特征。

图4 2019年全国农业塑料大棚分布专题图(审图号:GS(2021)2091号)

如图4所示,2019年全国农业塑料大棚主要分布在北方地区,包括山东省东北部(寿光市)、西部地区(莘县);辽宁省的中部地区(新名市);河北省的中南部地区(保定市)等。在南方地区,农业塑料大棚主要分布在云南省的中部地区(昆明市、陆良县)。5公里范围内农业塑料大棚面积占比最高的地区主要集中在山东省的东北部地区(寿光市)。

同时,为了更好地展示农业塑料大棚的分布情况,图5给出了一些典型省份的大棚面积占比专题图。如图5所示,山东省农业塑料大棚集中分布在中北部(潍坊市)、南部(临沂市、枣庄市)以及西部地区(聊城市),在东部地区(青岛市、烟台市)呈零星分布;辽宁省大棚主要分布在中北部(沈阳市、锦州市、鞍山市)以及南部沿海地区(铁岭市、大连市);吉林省大棚主要分布在中部地区(四平市、长春市);黑龙江省大棚主要分布在东北部(佳木斯市、鹤岗市、双鸭山市、鸡西市)和西南部(大庆市、哈尔并市)地区;云南省大棚主要分布在中东部(曲靖市、红河哈尼族彝族自治州)和中北部(昆明市、玉溪市)地区;四川大棚主要分布在中东部(德阳市、成都市、眉山市)和南部(凉山彝族自治州)地区;浙江省大棚主要分布在东部沿海地区(台州市、宁波市);湖北省大棚主要分布在中部(荆州市、潜江市)和东部(武汉市)地区。

图5 各省农业塑料大棚分布图

为了更好地展示本数据集的分类效果,图6给出了30米空间米分辨率的大棚分类结果,并以红色掩膜的形式叠加到Google Earth的高分辨率遥感影像上。可以看出,本数据集中农业塑料大棚整体分类情况较好,30米空间米分辨率的分类结果可为后续空间分析提供精准的大棚分布信息。

图6 农业塑料大棚分类结果局部对比

3 数据质量控制和评估

数据的质量控制在遥感影像信息提取中尤为重要,图7给出本文的数据质量控制的技术路线。如图7示,本文数据质量控制包含影像质量控制和样本质量控制两部分。

图7 数据质量控制技术路线

影像质量控制:遥感影像的选取要满足无数据缺失及厚云覆盖。如果存在影像缺失,则需要选取前后时相的数据进行补充;如果仍不满足要求,则需要进行分区建模和分类。同时如果不可避免有云覆盖,尽可能选取云覆盖不遮挡大棚的影像。

样本质量控制:首先根据野外调查记录和遥感影像目视解译结果,在GEE云平台上进行农业塑料大棚和其他地物的样本选取。下一步利用选取的样本进行随机森林分类器的训练,并利用训练好的模型进行大棚分类。之后将分类结果加载到GEE云平台上,对比原始遥感影像并结合混淆矩阵,判断是否满足制图要求。如果满足则输出分类结果图,如果不满足则对样本进行修改,直到满足分类要求为止。

此外,利用测试样本集计算分类精度,得到本数据集的平均分类精度为87.45%,分类性能较好,可满足相关政府部门和科研机构对全国农业塑料大棚分布数据的需求。

4 数据使用方法和建议

本数据集是第一个公开发布的全国农业塑料大棚空间分布专题数据,具有较高的空间分辨率和分类精度,可为我国农业塑料大棚等设施农业的监测提供可靠的数据来源,并具有较高的科学意义和实用价值。基于本数据集的制作经验,今后我们将会利用深度学习方法,对农业塑料大棚进行提取,以进一步获得分类效果更优,精度更高农大塑料大棚数据集。

猜你喜欢

塑料大棚行政区大棚
大棚妹子
大棚换茬季 肥料怎么选
谨防大棚房死灰复燃
河南省钢骨架塑料大棚拱架结构标准化设计研究*
基于光谱指数的流域尺度农业塑料大棚制图
原地翻建大棚 注意啥
基于Logistic回归分析的塑料大棚遥感指数构建
塑料大棚
上榜派出所统计表
上榜派出所统计表