基于Sentinel-2数据的塞罕坝机械林场落叶松人工林提取
2021-06-07李崇贵
李 斌,李崇贵,李 煜
(西安科技大学,西安 710054)
0 引言
华北落叶松(Larixprincipis-rupprechtii)是我国华北地区高山针叶林带中的主要森林树种,其具有耐寒、耐湿、耐旱,对土壤适应性强且材质良好、用途广等优秀特点[1]。塞罕坝机械林场是大型国有林场,落叶松人工林是林场森林经营管理的主体,应用遥感技术快速提取落叶松具有重要的现实意义。现有的遥感分类方法中,建立在统计理论基础上的机器学习方法已经成为影像分类的可靠方法[2-4],然而这些大多是基于单机分类,耗时长、效率低下。
Google Earth Engine(GEE)是由谷歌提供的基于云的地理空间分析平台,它代表了谷歌先进的存储与计算能力,为科研人员提供多种类型的遥感数据集用以快速解决诸如自然资源、灾害、环境等方面的问题。卢献健等[5]使用GEE平台,应用遥感影像结合不同比值指数实现了桉树(Eucalyptusrobustasmith)的快速提取,结果表明,使用决策树和随机森林分类器的分类效果最好,Kappa系数均在0.8以上,且一致性较高;何昭欣等[6]利用GEE结合Sentinel-2数据构建遥感指数+纹理+地形多特征数据集并对特征进行优化,实现江苏省夏收作物遥感提取,结果表明,使用随机森林分类器的效果最好,总体分类精度为93%;邵亚奎等[7]利用GEE平台构建多源数据(Landsat/Sentinel-2)的多特征数据集,采用随机森林分类器对西天山森林自动分类,研究发现,各数据源的分类精度均在80%以上,Kappa系数均大于0.7,其中使用Sentinel-2的分类精度与Kappa系数最高;郭瑞霞[8]利用多源数据实现孟家岗林场落叶松人工林提取,研究发现,落叶松人工林在近红外波段与其他树种差异明显,引入DEM并使用NDVI,DVI等比值特征对落叶松提取有一定的指导作用。本研究利用GEE平台,实现塞罕坝机械林场中主要树种分类,以及落叶松的提取,研究内容包括:1)原始遥感影像数据集的构建。对2019年覆盖研究区309景Sentinel-2影像数据进行预处理,按月合成12景影像数据集。2)比值特征的构建。通过GEE计算数据集中影像的比值特征组成比值特征集。3)纹理及地形特征的构建。4)特征优选。比较不同地类样本点上的特征变化曲线,筛选出能较好区分落叶松的波段。5)比较最小距离分类器、CART分类器及随机森林分类器的分类精度,以获取效果最好的分类结果。
1 研究区概况
塞罕坝机械林场位于河北省承德市围场满族蒙古族自治县以北(42°02′~42°36′N,116°51′~117°39′E),是省属大型国有林场和国家级森林公园、国家级自然保护区。全场土地总面积 92 634.7hm2,有林地面积68 842.5hm2,约占林场总面积的74.32%。塞罕坝林场海拔1 000~2 000m,属寒温性大陆季风气候区,年均气温零下1.2℃。林场植被主要由针叶林、阔叶林、灌丛、草丛、草甸和沼生植被组成[9-10]。
2 数据来源与预处理
2.1 Sentinel-2数据
Sentinel-2A是欧洲航天局2015年发射的一颗高分辨率多光谱成像卫星,卫星携带一枚多光谱成像仪,高度786km,覆盖13个光谱波段,幅宽达290km。地面分辨率分别为10,20,60m,与Sentinel-2B卫星互补,重访周期为5d。在光学数据中,Sentinel-2是唯一一个在红边范围包含3个波段的数据,这对植被信息的获取非常有效。
本研究使用存储在GEE平台中的Sentinel2-L2A级产品,该产品经过了几何校正和大气校正,预处理的主要内容是按照CCD数据范围上传矢量边界,按影像的获取日期筛选出研究区范围内的309景影像;Sentinel-2的QA60 波段包含了影像的云信息,利用该波段对所有影像去云,逐月像素级融合成12景代表研究区的最佳合成影像。
2.2 ALOS数据
ALOS卫星POLSAR数据集包含了12.5m分辨率的DEM数据,数据获取的网址为https://search.asf.alaska.edu/。下载研究区DEM数据上传至GEE,裁剪并重采样成10m分辨率的DEM数据。
2.3 样本数据选取
按照塞罕坝林场的主要树种分为落叶松、阔叶树、云杉(PiceaasperataMast)、樟子松(PinussylvestrisLinn.var.mongolica)、其他地物等5类。以无人机获取的0.2m分辨率CCD数据为参考,通过ArcGIS布设渔网数据,挑选出影像上的主要地物样本共1 113个。样本选取按照随机且分布整个林场的原则,将选取的样本点上传至GEE。各地类样点的选取数量如表1所示。
表1 样本数据Tab.1 Sample data
3 研究方法
对研究区数据预处理后,分别计算其比值特征,纹理特征,地形特征,与原始影像波段共同构建分类特征集,比较最小距离分类器、CART分类器及随机森林分类器下的分类精度,研究的主要技术流程如图1所示。
图1 技术路线图Fig.1 Technical roadmap
3.1 比值特征构建
主要使用NDVI指数,适用于植被生长早期与中期检测;RVI指数,较好反映植被生长状况检测;DVI指数,对土壤背景变化灵敏,适用于植被和水体检测;RI指数,用于校正土壤对植被影像参数;MTVI指数,适用于多时段植被类型变化检测,本文中使用R波段和NIR波段两种差值植被指数。
3.2 纹理特征构建
纹理是遥感影像的重要属性,它反映了像素邻域灰度空间的分布规律,纹理特征是影像分类中避免“同谱异物”,“同物异谱”现象的常用方法。GEE提供的glcmTexture()方法可以快速提取落叶松生长旺盛期B8波段的18种纹理信息,经实验选取相关性(corr)、方差(var)、逆差矩(idm)、对比度(con)、熵(ent)、角二阶矩(asm)等6种纹理特征。
3.3 地形特征构建
GEE提供的Terrain.product()方法可以快速计算海拔高度(el-evation)、坡度(slope)、坡向(aspect)及山体阴影(hillshade)特征。本研究使用的是坡度和坡向特征。
3.4 特征选择
GEE提供的image.reduceRegion()方法可以对1 113个样本点进行统计,筛选各特征中较好区分落叶松的波段组合;样本点部分特征曲线如图2所示。经实验筛选出差异较大特征波段共计138个;由于预处理中的去云算法会让影像中部分区域出现空值,所以剔除含有无效值的波段后,最终确定进行分类实验数的多特征数据集中各波段。具体统计结果如表2—表4所示。
表2 原始波段优选Tab.2 Original bands optimization
表3 比值波段优选Tab.3 Vegetation index optimization
表4 纹理地形特征Tab.4 Texture & Topographic feature
图2 各特征变化曲线Fig.2 Variation curve of each characteristic
3.5 分类方法
3.5.1最小距离法
最小距离分类器是最基本的分类器之一,它通过计算样本与各特征的向量中心距离确定样本的类型[11]。GEE提供3种“距离”计算,分别是欧式距离,余弦距离和马氏距离。本文使用欧氏距离进行分类。
3.5.2决策树(CART)
CART是由Breiman等[12]提出的一种快速构建分类树的算法,决策树的基本思想是构建二叉树实现输入值的归类;二叉树的节点是通过算法确定,以能够划分样本数据的最优特征作为节点对样本二分和细化,通过递归实现分类树的构建[13]。
3.5.3随机森林(RF)
随机森林(RF)分离器是集成学习的代表算法之一,它通过“有放回”的抽样方式建立多颗决策树[14],根据决策树投票最多的分类结果确定输入值的类型。随机森林的随机性包含两方面:1)样本选取的随机性。从按照一定比例划分的样本中随机选取训练样本建立模型。2)特征选取的随机性。在构建决策树时,随机选择不同的特征创建最优决策树。随机森林的特性使得在构建模型时会选取2/3的训练样本,而剩下的1/3训练样本可以用于模型验证,因此随机森林模型不需要再进行交叉验证。
3.6 精度评价指标
遥感图像分类通常使用混淆矩阵(confusion matrix)进行分类精度评价,通过混淆矩阵可以计算总体精度(overall accuracy)、用户精度(user accuracy)、制图精度(producer accuracy)和Kappa系数等评价指标,以用于分类精度评定[15-16]。
4 结果与分析
按照7∶3的比例对样本点随机划分,即:70%样本用于构建分类器,30%样本用于评估分类器在未知数据上的表现。图3为不同分类器叠加CCD影像的局部结果图,不同分类器下分类精度如表5所示。从图3可以看出:在落叶松大面积分布的区域,CART与随机森林分类结果相近,而最小距离分类器存在错分情况,整体来说,3种分类器的分类效果都比较好;在混交林区域,最小距离分类器和随机森林分类器的分类结果中“椒盐”现象都低于CART的分类结果,但最小距离分类器存在明显的漏分现象,而随机森林分类器平衡了前两种分类器的分类结果,较好地提取了落叶松;在落叶松与其他树种的分界区域,3种分类器的“椒盐”现象均有所下降,但最小距离分类器的错分现象明显高于其余两种分类器。综上可知,最小距离分类和随机森林分类器分类结果的“椒盐”现象低于CART分类结果;CART和随机森林分类器的错分,漏分现象好于最小距离分类结果;随机森林分类器的分类效果是三者中最好的。
图3 各分类器叠加CCD影像局部图Fig.3 Partial view of superimposed CCD image of each classifier
图4为使用随机森林分类器在GEE平台对多特征数据集分类的结果。落叶松作为林场的优势树种分布于整个林场,其分类精度以混淆矩阵形式显示(表6)。可以看出:在验证集上落叶松的150个样本,其中,143个被正确分类,7个被错误分为其他类;制图精度0.95;总体精度0.92。
表6 随机森林算法混淆矩阵Tab.6 Confusion matrix of random forest algorithm
图4 CCD数据范围林场分类结果示意图Fig.4 CCD data range forest farm classification results
5 结论
本研究基于Google Earth Engine云平台,以提高落叶松人工林提取精度为目的,通过Sentinel-2和DEM数据计算的植被指数特征、纹理特征和地形因子构建多特征数据集来提取落叶松人工林,试验了最小距离法、CART、随机森林3种算法并比较了分类精度,快速获取了塞罕坝林场的主要树种分类图,主要结论如下:
1)GEE平台不仅有丰富的公共遥感数据,还具备强大的图像处理及空间分析能力,通过平台提供的接口可以高度自由化地实现遥感数据的处理。传统单机需要几周时间处理的数据,通过GEE可能不到5 min就可以完成,这使得GEE平台可以应用于更大尺度及宏观问题的研究中,这也是GEE区别于传统单机平台的显著特征。
2)本文使用研究区全年的Sentinel-2数据,对数据按月划分,平均每个月大约有25景影像。对这些数据均进行去云处理,最后融合成每个月的最佳影像,以保证原始数据的质量,这有效避免了以往处理遥感数据时,由于镶嵌时因数据量不够,而选择临近月份镶嵌接边线产生色差问题,同时减弱了镶嵌影像中,同类地物内光谱特征的差异。
3)本研究对比了3种分类器的分类结果,最终发现随机森林分类器的分类效果最好。随机森林分类器能更好地应对有大量样本情况下的分类任务,随机森林较其他两种分类器能有效降低“错分”“漏分”现象,并且分类结果的“椒盐”现象更低。因此,随机森林算法能够处理较为复杂的遥感图像分类任务。
目前,国内关于GEE平台的应用和研究还处于起步阶段,在遥感影像分类领域使用GEE平台结合深度学习算法的研究几乎没有,一些技术细节在现有的研究中也少有提及,下一步的研究任务应是使用平台结合深度学习算法实现塞罕坝林场或其他区域影像的分类,以及在云平台上对分类算法的优化。