APP下载

基于随机森林的土地利用与土地覆盖分类

2020-02-22刘艳艳刘汉湖

科技创新导报 2020年25期
关键词:随机森林机器学习

刘艳艳 刘汉湖

摘  要:利用遥感影像进行城市土地利用与土地覆被分类 (LULCC)是遥感的主要应用之一,但由于城市景观的不均匀性和光谱响应的混杂性,对土地利用分类提出了挑战。随着人工智能的惊人创新进展,机器学习在遥感图像开发中越来越受欢迎。使用目视判读和经过修改的美国地质调查局 (USGS)土地利用与土地覆被1级分类方案选择训练区域;输入数据包括10波段10m或20m可见光,近红外和SWIR SMI波段图像,导出NDVI和纹理层;基于随机森林算法创建模型并生成土地利用类别预测。根据时间匹配的高分辨率谷歌地球Pro历史图像,评估得到的LULCC栅格地图的准确性。结果发现,基于随机森林的土地利用及土地覆被分类表现较好。

关键词:GIS应用  机器学习  土地利用与土地覆盖分类  随机森林

中图分类号:TP751                           文献标识码:A                   文章编号:1674-098X(2020)09(a)-0026-03

Abstract:Urban land use and cover classification from remotely sensed imagery is one of the major applications of remote sensing. However, due to the inhomogeneity of urban landscape and the confounding of spectral response, the classification of land use is challenged. With the amazing innovative advancements in artificial intelligence, machine learning has gained increased popularity in exploiting remote sensing imagery.Training areas were selected using visual interpretation and a modified USGS level-1 classification program for land use and land cover.  Input data include 10-band 10 m or 20 m visible, NIR and SWIR SMI band images, derived NDVI and textural layers. Based on the random forest algorithm, the model was created and the land use category prediction was generated. The accuracy of the resulting LULCC raster map was assessed against temporally matched high-resolution Google Earth Pro historical imagery. It was found that random forest based classifier achieved significantly higher overall accuracy and kappa value.

Key Words:GIS application;  Machine Learning;Land use and land cover classification;  Random Forest

機器学习方法通过结构化数据来分析研究数据,帮助了解目标图像之间的差异,与传统方法相比更为自动化,因此在分类研究领域有着广泛的前景。本文基于随机森林模型,研究机器学习在土地利用及土地覆被分类应用中的可行性,以佛罗里达西北部的彭萨科拉大都市圈为研究区,根据USGS分类标准并结合研究区实际情况选取样本进行分析,其Kappa系数为0.78,表明随机森林在土地利用及土地覆被分类中表现较好。

1  研究区概况

研究区位于佛罗里达州沿海平原的狭长地带,处于北纬30°18′至31°,西经86°38′至87°38′之间。研究区海拔高度较低、地势整体平坦,整个研究区被无数河流切割,南部低洼地区由森林和混合硬木沼泽组成分割相对较少。

2  数据和方法

2.1 数据来源

本文采用2018年4月5日和4月15日的欧洲环境卫星哨兵2号(Sentinel-2B)1-C级影像且所有影像的云量均小于1%,影像条带号分别为T16RDV、T16REV、T16RDU、T16REU。

2.2 研究方法与数据处理

对遥感影像进行预处理后选取训练样本,基于随机森林分类模型[1]进行研究区土地利用及土地覆被分类分析。

2.2.1 遥感影像预处理

在本研究中借助Sen2Cor软件,对哨兵2号的初级遥感影像进行大气校正。通过输入大气数据,对1-C级的遥感影像进行大气校正、地形校正以及卷云校正(去除云雾遮挡),将1-C级的光谱反射率转换为表面反射率,以减少大气对传感器接收的辐射量的影响。

随后对大气校正后的影像进行图像融合,将哨兵2号10m分辨率与20m分辨率的图像融合后再进行真彩色波段合成。后将影像条带号分别为T16RDV(2018.04.05),T16REV(2018.04.05),T16RDU(2018.04.15),16REU(2018.04.15)的四景影像进行图像镶嵌,以研究区为边界对镶嵌处理后的影像进行裁剪。

2.2.2 训练样本选取

在进行土地利用与土地覆被分类时所选取的训练样本需要具有准确性、代表性及统计性的原则[2-3]。对于所选取的训练样本进行属性编码赋值,以1976年USGS出版编号为依据[4-5],根据研究区的实际情况以及采样点的具体用地类型,对子分类进行合并调整为6个类型,分别为发展/人类活动用地、林地、灌木用地、草本用地、农作物用地以及湿地/河流(如表1)。

2.2.3 土地利用及土地覆被分类

基于ArcGIS Pro2.5 平台,输入数据包括10个10m或20m可见光,近红外和短波红外波段图像,导出NDVI。使用经过调整的Breiman(2001)随机森林创建分类模型进行土地利用与土地覆被分类预测[6]。

2.2.4 精度分析

基于随机森林模型生成的土地利用与土地覆被分類栅格影像,以研究区为边界随机生成500个样本参照点。通过对比谷歌地球Pro历史图像上采样点的实际土地利用类型与随机森林模型生成影像的类型,得出混淆矩阵等统计数据,对随机森林模型在研究区域内的分类精度进行评价分析,评估了基于随机森林分类的栅格地图,其kappa值为0.78(见表2)。由于研究区自然环境保存完善,湿地及河流地区被大量的草本及灌木覆盖,较难区分,且研究区为亚热带湿润气候,全年最低温在0℃以上,研究选取的4月份遥感影像上的湿地表层仍有草本和灌木植被等覆盖,造成湿地/河流分类精度欠佳。

3  结语

(1) Sen2Cor大气校正可信度较高,为分类操作打下良好基础。基于随机森林得到研究区LULCC图kappa值为0.78。其中林地和发展/人类活动用地具有较高的精度;湿地/河流精确度很低,与农作物用地等混杂。

(2) 错分现象主要与美国人口稀疏,自然景观保持较为完善相关。研究区分布着大面积林地和农业用地,以及大规模的湿地和沼泽。这些区域在遥感影像上光谱变化并不明显。通过观察研究区的自然地理环境特点得出,不同土地利用类型的海拔高度是不同的。在今后研究中可与雷达影像与遥感影像结合,减少错分现象。

(3) 有研究人员加入核函数的主成分分析 (KPCA)降低模型维度,以提高随机森林模型的分类性能。在本文后续研究中,将与加入核函数的主成分分析 (KPCA)相结合,以提高最后的分类精度。

参考文献

[1] 张润,王永滨.机器学习及其算法和发展研究[J].中国传媒大学学报:自然科学版,2016,23(2):10-18,24.

[2] 谷晓天,高小红,马慧娟,等.复杂地形区土地利用/土地覆被分类机器学习方法比较研究[J].遥感技术与应用,2019,34(1):57-67.

[3] 左晓庆,李潇雨,刘怀鹏.基于随机森林算法的城区土地覆盖分类研究[J].河北省科学院学报,2020,37(1):8-16.

[4] Huang, B., Li, R., Ding, Z., et al. A new remote-sensing-based indicator for integrating quantity and quality attributes to assess the dynamics of ecosystem assets. [J]. Global Ecology and Conservation, 2020, 22, e00999.

[5] 何云,黄翀,李贺,等.基于Sentinel-2A影像特征优选的随机森林土地覆盖分类[J].资源科学,2019,41(5):992-1001.

[6] 张晓羽,李凤日,甄贞,等.基于随机森林模型的陆地卫星-8遥感影像森林植被分类[J].东北林业大学学报,2016,44(6):53-57,74.

猜你喜欢

随机森林机器学习
拱坝变形监测预报的随机森林模型及应用
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
基于随机森林算法的B2B客户分级系统的设计
基于多视角特征融合与随机森林的蛋白质结晶预测