基于GEE平台的农作物快速提取研究
2022-03-13陈玉萍
陈玉萍
(江苏煤炭地质物测队,江苏 南京 210046)
0 引 言
中国是农业大国,粮食产量和粮食安全对于农业发展至关重要,粮食作物的精准识别是保障粮食产量和粮食安全的基础。农作物种植结构是指一个生产单位内的农作物种植类型及其空间分布,科学准确的掌握农作物的种植结构是农作物长势、产量及灾害评估的基础,是研究区域粮食稳定和农业资源生产力的重要依据,是国家和政府宏观指导农业生产的重要支撑。同时,研究农作物种植分布及变化信息对于农业空间格局变化及陆地碳循环贡献十分重要。因此,无论从环境角度还是粮食安全角度出发,快速提取农作物种植分布及面积都具有重要意义[1]。
目前,各地方农业农村局对农作物监测仍主要以传统手段为主[2]。传统的农作物分布及面积统计主要以统计上报和实地抽样统计为主,这种方式存在主观性强、误差大且耗力费时等缺点,同时缺乏种植面积及分布的一张图管理,也缺乏对统计上报面积及分布的核查。遥感技术作为一种新兴技术,近几年发展迅速,现已成为获取农作物空间布局的重要手段,并在不同时空尺度下的农作物空间分布及面积监测中发挥着重要作用。
国内外学者基于遥感的农作物种植结构提取方法主要分为基于单一影像的种植结构提取和基于时间序列影像的种植结构提取。基于单一影像的提取方法适用于种植结构相对单一的地区,通过找到不同农作物的关键物候期进行种植结构提取[3];基于时间序列影像的提取方法充分利用农作物的物候期特征,依据农作物在不同生育期的不同生长状态进行识别,但是该方法需要下载及预处理长时序遥感影像,而遥感影像数据量较大,数据处理及后续分类耗时较长[4]。随着大数据、云计算的快速发展,GEE(Google Earth engine)作为一个基于云平台的全球范围尺度的地理空间分析与处理平台,为遥感快速分类带来了新的希望,卢献健等基于GEE平台进行了桉树的快速提取,何昭欣等进行夏收作物的快速提取[5-6]。
鉴于此,笔者以黑龙江省哈尔滨市延寿县为研究区,基于GEE平台,利用Landsat8 OLI数据,提出了随机森林算法结合多特征的作物遥感信息提取方法,研究随机森林算法在该地区农作物识别的适用性,以期为农作物大面积快速识别及政府规划提供手段。
1 研究区概况和数据来源
1.1 研究区概况
延寿县隶属于黑龙江省哈尔滨市,位于黑龙江省中南部,地理位置东经127°54′20″~129°4′30″,北纬45°10′10″~45°45′25″,幅员3 149 km2,与尚志市、方正县、宾县接壤。黑龙江水系松花江右岸的一级支流蚂蜒河为延寿县唯一的干流。
延寿县属于寒温带大陆性季风气候,冬季较冷,夏季温热,降水集中,气候湿润,平均降水量约570 mm。延寿县自然资源丰富,土壤肥沃,气候适中,有易于农作物生长,主要农作物为一年一季,主要为大豆、玉米、水稻,延寿县是黑龙江省粮食主产区之一。
1.2 数据来源与预处理
1.2.1 GEE平台
GEE平台是Google提供给科研工作者的针对全球尺度的地球科学资料汇总的平台,平台可以进行在线的可视化处理与分析,免费提供了海量的遥感数据,科研工作者可直接在平台上进行调用分析,不需要再去国外免费网站注册下载及处理。GEE平台可以对海量数据进行快速的处理与分析,且不受本地软硬件配置的影响,可以为科研工作者节省时间。GEE平台为用户提供了多种数据源,总容量超过5 PB,用户只需要在平台上直接编写代码即可根据时间、工作区范围进行所需影像的处理和使用[7]。
1.2.2 Landsat8数据
本研究使用的数据为Landsat8 OLI数据,来源于GEE平台。Landsat 8卫星的重访周期为16 d,可以满足对农作物关键生育期监测的影像需求,适合监测农作物种植结构;黑龙江的田块较大,Landsat8卫星30 m的空间分辨率可以满足其对田块尺度的监测;不同的波段组合适合监测不同的地物类型,这些特点使其成为农业遥感的主要影像源。Landsat8上携带有两个主要载荷:OLI和TIRS。OLI包括9个波段,8个空间分辨率为30 m的波段和1个空间分辨率为15 m的全色波段,影像宽幅为185 km x 185 km。TIRS包括2个空间分辨率为100 m的热红外波段,Landsat8参数如表1所示。本文主要利用Landsat8上携带的OLI数据,主要使用前7个波段。
表1 Landsat8参数
本文使用的是2020年1月1日-2020年12月31日的Landsat8 OLI影像,共计63景数据。数据预处理全部在GEE平台通过Python语言代码编写完成,数据预处理包括影像去云、镶嵌、裁剪和波段合成。本文利用Landsat8质量评估波段(QA)进行去云处理,采用地理坐标的镶嵌方法对影像进行镶嵌,并按研究区范围进行裁剪,并对所有波段进行合成处理,预处理后的影像用于后续的分类使用,如图1所示。
图1 研究区影像
1.2.3 SRTM3地形数据
地形数据使用的是航天飞机雷达地形任务(SRTM)生产的数字高程数据,该数据覆盖中国境内,且免费开放使用,SRTM数据包括SRTM1和SRTM3两种,空间分辨率分别为90 m和30 m,本文使用空间分辨率为30 m的SRTM3数据作为地形数据。本文按照研究区边界进行裁剪,用于后续分析使用。
1.2.4 样本数据
本文研究的分类系统包括林地、人工地表、水体、水稻、玉米、大豆6类。本文在GEE预处理生成的Landsat8 OLI数据(2020年6月1日-2020年9月1日多波段组合图)上进行各地类样本点的选取,样本选取遵循均匀分布原则。各地类样本点选取数量如表2所示。样本的70%用来分类,其余的30%用来验证。
表2 样本数据
2 研究方法
2.1 特征构建
2.1.1 光谱特征
本文通过对研究区位置、时间及去云筛选后,共得到63景Landsat8 OLI影像,每景影像包括前7个光谱波段,利用GEE平台编写归一化植被指数NDVI、归一化水体指数NDWI、归一化建筑指数NDBI代码[8-9],将每种指数作为独立波段添加到原始影像中,各指数计算公式如式(1)-式(3)所示:
(1)
(2)
(3)
式中,Band3为Landsat8 OLI的第3波段,波段为绿色;Band4为Landsat8 OLI的第4波段,波段为红色;Band5为Landsat8 OLI的第5波段,波段为近红外;Band6为Landsat8 OLI的第6波段,波段为短波红外。
2.1.2 地形特征
本文研究区内包含大量的林地,因此添加与地形相关的参数,用于提高分类精度。本文利用SRTM3数据构建高程和坡度特征。通过计算得到高程和坡度信息,并作为2个独立波段添加到原始影像中。
2.2 分类方法
随机森林算法是一种比较新的机器学习模型,它是主流的集成学习方法。随机森林从词义上可以理解为以随机的方式建立一个森林,这个森林里有很多决策树,每一个决策树之间没有联系。当有一个确定的样本时,通过对每一个决策树进行判断,看看哪一类被判断最多,这个样本就属于哪一类。经过查找大量文献,决策树个数为100时较优[10],本文采用的随机森林算法的决策树个数设置为100。
随机森林算法表现性能好,与其他算法相比有着很大优势,其具有极好的准确率、可以有效的运行在海量的数据集中且处理速度较快、能够处理高维特征且不需要降维处理、能够评估各特征的重要性、训练过程中各个特征无影响、抗过拟合能力较强等特点。
2.3 精度评价方法
本文采用混淆矩阵方法进行分类结果的精度评价,混淆矩阵是精度评价常用的标准格式,它用n行n列的矩阵来表示。本文使用的具体评价指标有总体精度和Kappa系数。
2.4 总体流程
本文基于 GEE平台,按照研究区范围进行2020年Landsat8 OLI影像进行下载,并对影像进行去云、镶嵌、裁剪、波段合成等预处理工作,对预处理的影像采用随机森林方法进行分类,并对结果进行精度验证,研究方法流程图如图2所示。
图2 研究方法流程图
3 结果与分析
本文通过GEE云平台,快速获取并处理了覆盖研究区的遥感数据,在此基础上完成了光谱及地形特征的构建,试验了随机森林算法并评价了分类精度,最终得到研究区2020年玉米、大豆、水稻的空间分布信息。研究区分类结果如图3所示。从图中可以得出,水稻主要集中在研究区的中部地区,河流的两侧;玉米多种植在南部地区;玉米和大豆有套种现象。
图3 研究区分类结果
本文采用混淆矩阵方法进行分类结果的精度评价,混淆矩阵如表3所示。
表3 混淆矩阵
经过计算,总体精度为99.69%,Kappa系数为0.983 6。
本文利用GEE平台的面积统计功能,进行林地、人工地表、水体、水稻、玉米、大豆的面积及比例统计,如表4所示。研究区内水稻种植比例最大,占研究区面积的27.60%;玉米次之,占研究区面积的20.36%;大豆种植比例最小,占研究区面积的13.40%。
表4 地物面积及比例
4 结 语
本文基于GEE云平台,快速得到了覆盖研究区的2020年全年的Landsat8 OLI遥感影像、完成了数据的预处理、构建了光谱和地形特征,采用随机森林算法对预处理后的影像进行农作物的快速提取研究。分类的总体精度为99.69%,Kappa系数为0.983 6,相关技术方法可以为大面积的农作物快速提取提供技术手段。
农作物种植类型复杂,本文仅考虑了主要农作物玉米、大豆、水稻,对于少量种植的农作物和经济作物未作考虑。除此之外,研究区内存在间作套种,而本文使用的Landsat8 OLI数据空间分辨率为30 m,存在一定的混合像元现象。因此,今后需要利用分辨率更高的时序影像并结合更多作物种类的样本来进行农作物快速提取研究。