APP下载

云南香格里拉区域尺度森林类型遥感分类评价

2022-02-11王雷光徐伟恒代沁伶

西南林业大学学报 2022年1期
关键词:分类器精度样本

李 瑾 王雷光 郑 晨 徐伟恒 代沁伶

(1. 西南林业大学林学院,云南 昆明 650233;2. 西南林业大学大数据与人工智能研究院,云南 昆明 650233;3. 西南林业大学森林生态大数据国家林业与草原局重点实验室,云南 昆明 650233;4. 河南大学数学与统计学院,河南 开封 475004;5. 西南林业大学艺术与设计学院,云南 昆明 650233)

森林作为地球上可再生资源和陆地生态系统的主体,对保持水土,改善环境,维持生物圈的动态平衡具有重要作用[1-2]。森林分类、识别和动态监测对于理解森林生态系统结构和功能,国家发展林业和制定林业政策都具有重要意义[3-4]。

森林遥感分类技术是根据森林植被在不同波段内的光谱等特征,进行森林类型、树种等特征提取和分类识别的技术[5]。目前的无人机技术、激光雷达、高分辨率卫星遥感技术的发展,使得森林资源遥感监测技术取得了重大的进步[6-8]。采用高光谱数据对林场、县级区域突破了森林类型的分类甚至达到森林树种的分类并取得较高的精度[9]。然而,这类数据的获取往往基于机载或无人机平台,导致数据获取成本昂贵,数据时效性差;另一方面,数据的存储、处理也依赖于计算性能优良但成本昂贵的计算设备。

区域尺度,通常被认为面积大于10 km2乃至一个陆地大小的区域[10]。随着Google Earth Engine(GEE)为代表的遥感云计算平台的出现,解决了大区域尺度影像处理的存储和计算瓶颈问题。目前,GEE 的空间数据已超过29PB,包括超过290 个公共数据集、500 万景影像,每天增加约4 000 景影像[11]。对地观测卫星Sentinel–2 星座的发射,可免费获得具有丰富光谱信息(13 个光谱波段)、5 d 重访周期、较高空间分辨率(10~60 m)的光学影像,解决了费用及时效性的问题。

从技术上看,已有不少基于Sentinel–2 及时间序列的分类研究,Hościło 等[12]采用多时相Sentinel–2 数据与地形信息结合,在波兰南部3 800 km2面积实现了4 种针叶树种和4 种阔叶树种的分类,针叶树种的总体精度达81.97%,阔叶树种的总体精度达89.47%。Persson 等[13]使用多时相Sentinel–2 数据,在瑞典中部的15 km2成熟林中实现了5 种树种的分类,总体精度达88.2%。李若楠等[14]基于GEE 平台和Landsat 时间序列,在香格里拉地区实现了常绿针叶林、落叶针叶林、常绿阔叶林、落叶阔叶林4 种森林类型的分类。

通过光学遥感影像实现较大区域的精细森林类型分类研究少见报道,究其原因,地理和气候条件、传感器重访周期等条件的限制,导致山区森林时间序列遥感数据获取困难。山区森林的大范围、精细分类一直是遥感森林分类研究的一个热点和难点[6]。

有鉴于此,拟以云南省迪庆藏族自治州香格里拉市界为研究区,基于GEE 平台,结合多时相Sentinel–2 数据和地形因子,在区域尺度上开展10 m 空间分辨率的森林类型精细分类研究。云南现有林地中,针叶林占74%[2],分布在广阔的高原和山地上。迪庆州林木资源丰富,是云南省第一大林区,也是云南省主要的高山针叶林分布地区。香格里拉市隶属迪庆州,也是云南省面积最大的县市级行政区域[15],对其开展多个层次的分类研究,将为云南省主要森林类型和树种(组)的识别和监测提供重要的方法参考。

1 研究区概况

香格里拉市隶属迪庆藏族自治州,位于云南省西北部、迪庆州东北部,地理坐标为99°20′~100°19′E,26°52′~28°52′N,地处云南亚热带常绿阔叶林植被区向青藏高原高寒植被区过渡地带。南北长218 km,东西宽88 km,海拔1 478~5 372 m,垂直落差大,平均海拔3 276 m,海拔在3 000 m 以上的雪山有507 座,多年平均气温5.4 ℃。地貌形态有山地、高原、盆地、河谷,总面积11 613 km2,林业用地占总面积的83.3%,森林覆盖率74.99%,是云南省主要的高山针叶林分布地区,冷杉(Abies fabri)、云杉(Picea asperata)、铁杉(Tsuga chinensis)、落叶松(Larix gmelinii)、高山松(Pinus densata)等高山针叶林的总蓄积约占全市活立木总蓄积的86%[16]。

2 材料与方法

2.1 数据来源与处理

2.1.1 Sentinel–2 数据

Sentinel–2 由A、B 2 颗卫星组成,是唯一一个在红边范围包含3 个波段的数据。Immitzer等[17]的研究证实了Sentinel–2 影像的B2、B3、B4、B5、B6、B7、B8、B8A、B11、B12 这10 个波段在农作物、森林和树种分类中的适宜性,本研究使用了这10 个波段,并预先用QA60 波段去云。遥感影像的选择,除了考虑云覆盖的影响,选取影像的日期也一样重要,选取的多幅影像日期必需接近[18]。获得的研究区第1 景地表反射率影像时间为2018 年12 月14 日,为使得季相上保持连续性,采用影像时间区间为2019 年3 月1 日至2020 年3 月1 日。影像已经过大气校正,等级为L2–A。本研究使用数据信息见表1,共514 景影像,每景有不同程度的云覆盖,没有无云影像。

表1 研究区影像数据Table 1 The image data in study area

研究表明[19-20],GEE 的中值函数能将时间序列的多景影像的每个波段的像素计算中值合成影像堆栈,且能去除云及阴影的噪声,去除较亮和较暗的像元,合成质量较好的无云影像。本研究为了构建密集的多时相时间序列影像,分别用春季的50 景,夏季32 景,秋季56 景、冬季71 景云量低于30%的影像取中值合成春、夏、秋、冬的无云影像,每季影像10 个波段。

2.1.2 DEM 数据

在研究区中,森林类型的分布具有垂直分布的特点,结合地形信息能增强森林类型的可分性。高程数据SRTM DEM,分辨率30 m,直接从GEE 获取,并计算得到坡度、坡向、海拔3 个波段,分别与四季影像的波段堆叠组合为影像特征集。受益于GEE 运算及数据管理机制,Sentinel–2 数据和DEM 数据自动匹配至10 m 分辨率,并通过内嵌的算法统一坐标,确保每个像元代表的地理范围相同。

2.2 分类体系

森林范围的定义遵循联合国粮农组织(FAO)的定义标准:树木高度大于5 m,树冠覆盖率超过10%。本研究将森林以外的类型,如耕地、草地、灌木、水域等其他类型均划分为非森林类型,不进行细分。依据《云南森林》[2]的分类单位,参考《云南植被》[21]的分类系统,分为森林植被型(针叶林和阔叶林),以及森林类型,主要为8 种针叶优势树种,包括柏木(Cupressus funebris)、冷杉、高山松、云杉、云南松(Pinus yunnanensis)、落叶松、华山松(Pinus armandi)、铁杉。

2.3 样本数据生成

通过分层随机采样获得每个类别样本,每层样本数据均是分别各自在小班面数据中心内生成随机点,然后对随机点缓冲做成面数据,通过空间位置去除与小班交界和接近的面数据,最后基于Google Earth 高分辨率影像对面数据逐个进行目视判读。

研究使用的样本数据,一共分为3 层。第1 层样本数据用于森林和非森林的分类,通过Google Earth 高分辨率影像目视解译获得,为300 m ×300 m(9 hm2)的面数据。第2 层样本数据来源于2016 年森林资源规划设计调查,根据优势树种和小班面积大于0.09 hm2的调查因子,在小班内随机生成30 m × 30 m(0.09 hm2)的面数据,用来划分针叶林和阔叶林。第3 层数据来源于2020年森林资源管理图数据,根据优势树种、监测地类型为纯林和混交林以及小班面积大于0.01 hm2的调查因子,在小班内随机生成10 m × 10 m(0.01 hm2)的面数据。第2 层和第3 层的面数据转为点类型后进行实验用于8 种森林类型分类。

每层样本数量见表2,每层随机选取50%作为训练样本,50%作为测试样本,训练样本和测试样本各自独立不重复。研究中样本数据生成在线下完成,其余技术流程在GEE 中在线JavaScript编程完成。

表2 分类体系及样本数量Table 2 Classification system and the number of samples

2.4 分类方法

实验设计见表3,采用6 组实验分别进行3 个层次的分类和精度评价。技术流程见图1,首先用第1 层样本划分森林和非森林,然后以第1 层的森林分类结果为掩膜使用第2 层样本划分针叶林和阔叶林,最后以第2 层的针叶林分类结果为掩膜用第3 层样本划分8 种针叶林森林类型。

表3 实验设计Table 3 Design of classification experiment

图1 技术路线Fig. 1 Flowchart of the applied methods

分类器使用随机森林(RF)[22],现已被广泛应用于遥感的分类领域[23]。本研究在3 个层次上展开分类,第2、3 层需使用上一层的分类结果作为掩膜,采用集成算法的随机森林分类器,相较于单一分类器,能最大限度的减少层级之间的误差传递。该模型参数较少[24],研究只对决策树数量进行设置。有研究表明[25],在模型参数缺省或采用默认值的情况下,该分类器仍能给出最优或接近最优的结果。经过反复实验,与绝大多数研究相一致,在计算可以负荷的情况下,决策树的数量越大越好。研究采用构成随机森林决策树的数量第1 层是100,第2 层是500,第3 层是400,以确保模型能够收敛。

2.5 精度评价方法

3 结果与分析

3.1 森林与非森林分类精度评价

表4 森林和非森林精度评价Table 4 The summary of the accuracy assessment for the forest/non-forest classification

3.2 针叶林与阔叶林分类精度评价

表5 针叶林和阔叶林精度评价Table 5 The summary of the accuracy assessment for the needle-leaved forest and broad-leaved forest classification

3.3 森林类型分类精度评价

不同实验设计的针叶林森林类型的分类精度评价见表6。在这一层中,无论是单一时相还是多时相,地形信息使各针叶林类型得到更好的分离。3 个精度评价指标至少提高5%,实验5 四季时相影像与地形信息结合,总体精度为92.87%,Kappa 系数为0.918 0,F¯1为93.07%,分类制图结果见图2。

图2 森林类型分类结果Fig. 2 The classification result of forest type

表6 森林类型精度评价Table 6 The summary of the accuracy assessment for the forest type classification

基于实验5 的森林类型分类混淆矩阵见表7。云杉林、冷杉林和落叶松林相互混淆较多,这3 种森林类型同属寒温性针叶林,在海拔分布上一致,云冷杉林是该植被类型的优势森林类型,落叶松常是云、冷杉林经火烧和采伐后恢复更新的次生林分,因此较容易造成错分。

表7 基于实验5 的森林类型分类混淆矩阵Table 7 Confusion matrix for the forest type based on experiment 5

森林类型分类面积及其在海拔、坡度、坡向的分布见图3。由图3a 可知,面积最大的森林类型冷杉林占比为31.67%、云杉林占比为15.4%、高山松林占比为14.2%、云南松林占比为9.7%,与森林资源监测基本相符,但铁杉、落叶松林过分类,云南松林分类不足。铁杉林在研究区分布面积不大,但由于其分布在云冷杉林的下方,又常与常绿阔叶林组成针阔混交,群落结构复杂,呈现出复层混交林,在本研究中未能呈现理想的分类效果。参照《云南森林》[2]中的8 种森林类型分布的海拔,与本研究分类结果进行比较,如图3b,柏木林和铁杉林在生长海拔的分布上明显不相符,但冷杉林、高山松林、云杉林、云南松林、落叶松林、华山松林的位置分布基本相符。结合森林类型分类结果和DEM 提取各像素点的坡向和坡度,分别从半阳坡、阳坡、半阴坡、阴坡4 个坡向统计了各类型森林面积,由图3c 可知,各森林类型在4 个坡向上面积分布相差不大。分别从6 个坡度类型统计了森林类型面积,由图3d 可知,各森林类型主要分布在斜坡、陡坡和缓坡上,面积较大的冷杉林、高山松林、云杉林、落叶松林主要分布在斜坡上,陡坡面积分布次之。

图3 森林类型分类面积及其在海拔、坡度、坡向的分布图Fig. 3 Classification area of forest type and its distribution map in elevation, slope and aspect

3.4 特征重要性排名

研究5 结合四季多时相影像和地形特征在3 个层级中分类精度最高,使用随机森林分类器计算得出实验5 各层中的特征重要性得分,得分排名见表8。相同的特征在不同分类层中的重要性不同。在第1 层森林和非森林的分类中,冬季红波段波段(B4_3)排名第1,春季的短波红外2(B12)排名第2。第2 层针叶林和阔叶林的分类中,秋季的红边2 波段(B5_2)排名第1,冬季红边2 波段(B5_3)排名第2,由于红边波段为Sentinel–2 所特有,实验验证了Sentinel–2 识别森林植被的能力。在第3 层针叶林的分类中,光学影像波段排名第1 的是秋季的蓝波段(B2_2)。结合植被的光谱曲线,蓝波段是森林类型出现的第1 个光谱反射峰值,4 个季相的4 个蓝波段对分类的贡献排名在14 以内,说明同为针叶林,但不同树种间的叶绿素含量差异较大,对蓝光的吸收不同。在3 个层次分类中,地形信息的贡献度最大,坡度对森林的分布影响较大,符合人类生产活动的足迹。坡度、坡向和海拔对森林植被型和森林类型影响较大,以满足植被对水分、光照的需求。

表8 实验5 特征重要性得分排名Table 8 The score ranking of feature importance base on experiment 5

续表8

4 结论与讨论

通过GEE 云平台,以香格里拉市为研究区,本研究首先合成了多时相的Sentinel–2 影像,提取了海拔、坡度、坡向相关特征,采用随机森林分类器,进行了3 个层次的森林场景分类,最终获得研究区针叶林森林类型,并进行了精度评价,主要得出以下结论:

1)Sentinel–2 多时相影像结合随机森林分类器,能在10 m 空间分辨率下分离森林和森林类型。Sentinel–2 的光谱信息就能识别森林并达到95%以上的总体精度,森林类型的总体精度达87%以上。

2)在3 个分类层次中,相同特征的重要性排序不同。在森林覆盖和森林植被层中,光谱的红边波段是比较重要的特征,表明了Sentinel–2 影像识别植被的能力。在森林类型层中,地形特征改善了分类精度,使总体精度提高了5.48%,达到92.87%。

3)利用GEE 遥感云平台获取和处理Sentinel–2 影像,可以实现大区域尺度快速、高精度的森林类型制图,对高效监测森林类型的动态变化具有重要作用。

以上研究表明,结合多时相的Sentinel–2 影像能在大区域尺度上实现森林覆盖、森林植被类型、森林类型的分类制图。由于研究区的森林类型具有垂直分布的特点,地形特征能影响森林类型分类的提取,成为光谱信息外最重要的特征。值得注意的是,目前在森林类型的精细尺度上的研究是较少的。香格里拉地区气候类型多变,植被复杂多样,地形起伏、云和阴影等因素严重影响地表辐射信号的传输,难以获得高质量的遥感影像,增加了森林类型分类的难度。同时,相比较于其他遥感处理软件和平台,GEE 极大提升了遥感影像数据的收集能力及运算能力。

与其他类型的森林覆盖、森林类型的分类的研究相比,本研究使用了密集的Sentinel–2 时间序列影像209 景。研究表明,密集的时间序列影像数据的构建,能够获得更为丰富的光谱信息,避免因物候和太阳角度差异的变化导致的光谱差异[28]。同时,在精细尺度上的分类研究中,整合密集时间序列的地表时间变化特征对于提高分类精度具有关键作用[29]。

在研究区中,有林地面积的90.9%为纯林[16],这在一定程度上促进了森林类型分类精度的提高,使得8 种森林类型的总体分类精度超过90%。同时,森林结构的异质性和林地的高度破碎,很难采集充足或高质量的样本,特别是柏木林、铁杉林这类不太常见、落叶松林这类占比较小的优势树种,研究表明极易发生误分类。

采用分层分类进行森林类型分类研究,对地物的提取更加灵活,能提高计算的效率和精度。然而下一层的结果极大的依赖于上一层,导致误差的传递不可避免。为了减少这种误差传递,研究在样本和分类器上做了选择。样本方面,3 个层次的样本来源于不同的数据源,且第3 层森林类型的样本与影像年份一致。分类器方面,选择了随机森林,是一个基于多个基分类器投票的结果作为最终分类结果的集成分类器,相较于单一分类器,结果更加可靠和稳定。

森林的结构是复杂的,研究仅选取了占比最大的针叶树种进行优势树种层的森林类型进行分类研究,阔叶林树种组成的多样性,植物区系的丰富性,对环境的改造作用等远远超过针叶林、竹林和灌木林,是值得研究的重要资源。但由于研究区中阔叶林的森林类型分布极破碎,树种杂乱,主要为混交林,没有进行细化分类研究。以总面积超过86%的针叶林作为研究的主要对象,在大尺度上进行区域规模的森林类型分类研究,为将来的阔叶林研究探索更多的可能。

猜你喜欢

分类器精度样本
基于不同快速星历的GAMIT解算精度分析
数字化无模铸造五轴精密成形机精度检验项目分析与研究
少样本条件下基于K-最近邻及多分类器协同的样本扩增分类
学贯中西(6):阐述ML分类器的工作流程
基于朴素Bayes组合的简易集成分类器①
规划·样本
近似边界精度信息熵的属性约简
基于AdaBoost算法的在线连续极限学习机集成算法
随机微分方程的样本Lyapunov二次型估计
基于支持向量机的测厚仪CS值电压漂移故障判定及处理