基于多时相Sentinel-2影像和SNIC分割算法的优势树种识别*
2023-01-17李世明李增元刘清旺
岳 巍 李世明 李增元 刘清旺 庞 勇 斯 林
(中国林业科学研究院资源信息研究所 国家林业和草原局林业遥感与信息技术重点实验室 北京 100091)
森林类型/树种(组)的精准识别是森林结构参数提取和计算的前提,是林业遥感领域的重要研究方向,对森林生态系统和生物多样性宏观监测具有至关重要的作用(马浩然, 2014)。传统的森林类型/树种(组)识别主要依靠地面调查,通过目视方法根据林木的根、茎、叶、花、果、种子等外部形态特征识别和鉴定树种,该方法虽然相对准确,但同时也存在诸多不足: 首先,对于不具备交通条件的地块,可进入性低、调查难度大; 其次,仅依靠人工进行野外调查成本大、耗时长,很难在短时间内实现宏观尺度的数据获取。遥感是20世纪60年代兴起的一种探测技术,其以宏观性、现势性、周期性等优势,为大范围森林资源信息的及时、准确、高效获取提供了方便的数据源,特别是随着近地低空无人机技术的快速发展,可通过无人机搭载不同传感器获得地表森林植被的高空间分辨率和高光谱分辨率影像,多时相、多尺度、多源的遥感数据更加开源,基于遥感数据的森林类型/树种(组)分类识别具有更广的发展空间(李军玲等, 2019; 尹凌宇等, 2016)。近年来,中分辨率多光谱卫星数据在时间分辨率上有了很大提升(毕恺艺等, 2017),越来越多学者开始采用多时相中分辨率数据进行树种识别研究。
多时相影像数据用于森林资源监测能够提供时间维度信息,特别是物候特征差别明显的树种,其在不同时相影像数据中光谱特征差异较大(郭文婷等, 2019)。李哲等(2019)基于高分二号数据进行树种分类,寻找精度最优的单时相数据并对比多时相组合数据分类结果,得出多时相数据在树种分类中具有优势; 徐凯健等(2019)基于多时相高分一号数据提取时序光谱特征进行优势树种识别,结果发现多季相数据识别精度优于单季相数据。Sentinel-2系列卫星由Sentinel-2A和Sentinel-2B组成,影像采集时间分辨率为每颗卫星10天,2颗互补,重访周期为5天(Druschetal., 2012),高时间分辨率为基于多时相数据的树种识别提供了便利; 而且Sentinel-2影像光谱范围涵盖可见光-近红外波段、红边波段以及短波红外波段,空间分辨率从10 m到60 m,对植被健康、生物量等信息较为敏感。Immitzer等(2016)采用单时相Sentinel-2影像进行欧洲中部地区农作物分类和树种识别,证明Sentinel-2数据在森林树种识别中具有巨大潜力; Bolyn等(2018)基于2个时相Sentinel-2影像提取多个植被指数用于森林类型区分和树种识别,结果发现红边波段和短波红外波段在分类中具有重要作用; Persson等(2018)获取不同季节影像数据并将数据组合,比较其在树种识别中的表现,结果表明使用所有季节影像数据时总体分类精度最高达88%。
面向对象分析技术在遥感影像解译中应用广泛,最常用的影像分析方法包括均值漂移、多尺度分割等(马倩等, 2021),但这些方法占用计算机内存较高,当面对数据量较大的遥感影像时,往往需要较长计算时间,分析效率较低。Google Earth Engine(GEE)是一个面向全球尺度的地理空间分析平台,其充分集成了Google Earth海量的地理和遥感数据资源以及Google的强大云端计算能力,为遥感影像处理有关研究提供了超级运算功能(Hansenetal., 2013; Tsaietal., 2018),且GEE近年来引入了简单非迭代聚类超像素分割算法(simple non-iterative clustering, SNIC)用于遥感影像分割,在典型地物识别、土地利用分类等领域均有应用,如Mahdianpari等(2019; 2020)在GEE平台上采用SNIC分割算法和随机森林(random forest, RF)分类方法进行面向对象分类,对加拿大纽芬兰岛的湿地类别进行识别,得出面向对象方法优于基于像素方法; 毛丽君等(2021)联合Sentinel主被动遥感数据,发展面向对象的SNIC+RF算法对国家公园所在区域进行土地覆盖分类,总体精度达93.98%; Tassi等(2020)基于Landsat-8、Sentinel-2、PlanetScope 3种不同分辨率影像进行土地利用分类,并对比不同分割尺度和不同机器学习分类方法,较为全面评价分析了基于SNIC分割算法的分类方法。但是,尚未见SNIC分割算法用于树种识别的报道。
多时相Sentinel-2多光谱数据可用于优势树种识别,基于SNIC分割算法配合随机森林、支持向量机(support vector machine, SVM)等机器学习分类方法在遥感分类问题中也有很好表现,鉴于此,本研究以内蒙古旺业甸林场为研究区,在GEE云计算平台上利用多时相Sentinel-2多光谱数据提取波段反射率特征和光谱指数特征,采用SNIC分割算法和支持向量机(SVM)机器学习分类方法,实现面向对象的优势树种识别,并分析不同时相数据组合对优势树种识别精度的影响,以期实现更高效、更精准的优势树种识别。
1 研究区概况与数据
1.1 研究区概况
旺业甸林场位于赤峰市喀喇沁旗西南部,地形以山地为主,地势西南高、东北低,海拔500~1 890 m,属温带大陆性季风气候,年均气温7.4 ℃,年均降雨量400 mm。林场总面积25 307 hm2,其中有林地面积22 016 hm2,包括人工林10 798 hm2、天然次生林11 218 hm2,人工林树种以落叶松(Larixgmelinii)、油松(Pinustabuliformis)、樟子松(Pinussylvestrisvar.mongolica)、红松(Pinuskoraiensis)为主,天然次生林树种主要包括白桦(Betulaplatyphylla)、山杨(Populusdavidiana)、蒙古栎(Quercusmongolica)、榆(Ulmuspumila)等(谢珠利, 2019)。
1.2 数据源
1.2.1 遥感数据 遥感数据为GEE平台提供的Sentinel-2 Level 2A产品——地表反射率数据产品,该产品包含Sentinel-2数据的12个波段(不包括10波段)和其他辅助数据。剔除2个60 m分辨率的波段(卷云波段和海岸带波段),选择每一时相影像中空间分辨率10和20 m的10个波段作为原始影像数据,筛选研究区2018年12月—2021年5月各季节有代表性的无云影像12景,每景影像具体成像时间和所属季节如表1所示。GEE平台对影像进行基本的拼接、裁剪等预处理,并将所有波段空间分辨率统一采样为10 m。
表1 影像时间信息Tab.1 The time information of satellite images
图1 实地调查样点分布示意Fig.1 The distribution of the sample points in the field survey
1.2.2 样本数据 用于分类器训练和精度验证的样本数据基于野外实地调查数据选取。野外数据获取时间为2019年9月,调查前,综合林场交通、地形等信息,结合高分辨率卫星影像确定调查路线和地点,记录443个样点空间位置和优势树种信息,点位空间分布见图1,结合同步获取的无人机高分辨率正射影像解译的279个样点数据,形成由722个样点组成的样本集。样本集分为训练样本集和验证样本集,二者各占总样本数量的50%,各类别对应的样本点数量和总样本数量如表2所示。优势树种指某个林区、某个林分或某个林木群体中,在数量(株数或蓄积量)上占优势地位的树种(山东省农业科学院情报资料研究所,1983)。旺业甸林场范围内人工林优势树种为油松、落叶松,油松约占林场总面积的13%,落叶松约占26%; 天然次生林优势树种主要是白桦、山杨等,白桦约占15%,山杨约占7%,其他阔叶树种如蒙古栎等也占7%左右。本研究分类系统由油松、落叶松、其他针叶、白桦和山杨、其他阔叶、灌木和草地、其他地类7个类别构成,其中前5类为主要树种类别,其他针叶类别的优势树种以樟子松、红松为主,在研究区占比较小; 白桦、山杨2个优势树种的叶片形状、色调相似,在多光谱数据中光谱曲线差异较小,难以区分,故将其归为一类; 其他阔叶类别的优势树种为蒙古栎、榆等。灌木和草地类别主要是指由稀疏、低矮的灌木或草覆盖的区域,与以乔木为主的林地差异较大; 其他地类包括耕地、住宅区和建设用地等土地利用类型。
2 研究方法
2.1 SNIC分割
SNIC算法是由简单线性迭代聚类算法(simple linear iterative clustering,SLIC)(Achantaetal., 2012)发展而来的,Achanta等(2017)为了解决SLIC算法迭代计算时占用大量内存的问题,提出SNIC算法,采用一个优先级队列替换SLIC算法的k-means迭代聚类过程,从而减少内存用量,更快速地生成超像素(袁旭, 2019)。该算法的特点与GEE平台云计算速度快的优势相匹配,故GEE平台将其集成到遥感影像分割中,用于面向对象的分类问题。本研究采用GEE平台集成的SNIC算法进行影像分割。
图2 SNIC算法分割结果(局部)Fig.2 SNIC segmentation results(partial)
SNIC分割算法中控制分割结果的主要参数是seeds和compactness,其中,seeds参数决定聚类中心的间隔距离,seeds越大,表示设置的初始聚类中心之间的相互距离越远,中心数量越少,分割得到的对象越大; compactness参数决定对象的紧致程度,compactness越大,分割得到的对象紧致度越高,形状也越规则(Tassietal., 2020)。调整seeds和compactness参数,根据分类任务输入对应的单时相或多时相组合影像数据进行分割。对于本研究Sentinel-2数据,设置seeds参数为10、compactness参数为0时,得到的影像对象地物类型较均一,分割效果最佳,图2所示为使用多季节组合数据时的SNIC算法分割结果(局部)。
2.2 特征选择
Sentinel-2多光谱数据的10个波段包括可见光的蓝、绿、红3个波段,3个红边波段,2个近红外波段以及2个短波红外波段。用于分类的特征包括2部分: 一是波段反射率特征,每景影像提取所有10个波段的反射率特征; 二是光谱指数特征。Bolyn等(2018)计算34种光谱指数特征用于植被制图和树种识别,采用随机森林方法选择重要性高的特征,结果发现与B5、B8A、B11、B12波段有关的特征出现频率最高。结合上述研究结论与已有知识,本研究选择6种典型光谱指数作为光谱指数特征集合。表3所示为所选特征的具体信息。
不同树种物候特征不同,显示在影像上的光谱特征差异也很明显。图3所示为不同季节各树种类别的波段反射率变化曲线,如图3a春季(5月5日)反射率曲线中,落叶阔叶、落叶针叶、常绿针叶3类树种在短波红外波段区分明显,图3b夏季(6月14日)反射率曲线中,阔叶树种与针叶树种在近红外波段差异较大,各波段反射率的明显差异可用于地物或树种类别的准确区分。图4所示为6种典型植被指数时间序列变化曲线,其中,NDVI已被广泛用于植被信息遥感反演,时间序列的NDVI能够反映森林的物候特征,刻画植被的生长过程; NDVIre所用波段为窄近红外波段(NIRnarrow)和最接近红波段的第一红边波段(Rededge1),可作为NDVI的补充,辅助提取树种类别信息; NDTI是采用SWIR1和SWIR2两个短波红外波段计算得到的归一化耕作指数,多用于农作物识别,能够反演植被水分含量; NDWI、NHI均用到对森林生物量信息敏感的SWIR1波段,结合其他波段,进行归一化计算,如图4c、e所示,不同树种的NDWI、NHI在所有季节均有较显著差异; SR_Bre1指数为Rededge1波段和蓝光波段(Blue)的比值,主要提取植被红边波段信息,反映树种健康状况。
表3 分类特征汇总Tab.3 Summary of features used for classification
图3 不同季节影像中各树种类别的光谱曲线Fig.3 Spectral curves of each tree species in images of different seasonsa. 春季,5月5日Spring, 5 May; b. 夏季,6月14日Summer, 14 June; c. 秋季,10月7日Autumn, 7 October; d. 冬季,12月16日Winter, 16 December.
图4 光谱指数时间序列变化曲线Fig.4 Temporal profiles of spectral indices
2.3 SVM分类
支持向量机是一种基于统计学习理论的机器学习算法(Vapnik,1963),所需样本量小、运算速度快且稳定,在解决小样本、非线性及高维模式识别问题上具有其他机器学习方法难以企及的优势,其基本原理是将样本从低维空间转换到高维特征空间,使原有非线性可分问题转换为线性可分问题(丁世飞等, 2011)。常用的支持向量机内核模型包括多项式模型、sigmoid模型和径向基内核(radial basis function,RBF)模型,本研究比较不同内核模型的分类效果后,选择最稳定的RBF模型。RBF模型中控制分类结果的主要参数是gamma、cost,gamma用于低维度样本进行高维度映射的过程,相当于调整模型的复杂度,gamma越大,特征空间维度越高,训练结果越好,但容易引起过拟合,即泛化能力低; cost作为惩罚因子,用于决定超平面与支持向量的距离,cost越大,意味着分类器越严格,对错误容忍度越低。gamma、cost这2个参数相互独立,在调节参数值进行分类时,可以先根据经验设定初始值,再采用固定其中之一、调节另一个的方式获得每次分类任务的最优参数值(Zhouetal., 2021)。
本研究基于SNIC算法分割结果,以分割后的对象为基本分类单位,将波段反射率、光谱指数等特征输入SVM分类器,调节gamma、cost参数,分别使用春、夏、秋3个季节的单时相数据,春季时间序列组合数据,秋季时间序列组合数据以及多季节组合数据作为输入数据源进行分类,其中,春季时间序列数据包含5个时相影像,秋季时间序列数据包含4个时相影像,多季节组合数据筛选春、秋各2景及冬、夏各1景特征明显的影像,共6景用于分类。
2.4 精度评价
分类完成后,利用验证样本集对分类结果进行验证,采用基于混淆矩阵的方法评价分类结果,评价指标包括生产者精度、用户精度、总体精度和Kappa系数(Foody, 2010)。面向对象分类中,生产者精度指分类器将所有对象正确分为某一类别的数量与该类别真实参考总数的比率,用户精度指分类器将所有对象正确分为某一类别的对象个数与分类器分到该类对象总数的比率。Kappa系数和总体精度是评价总体分类结果的指标,总体精度指被正确分类的对象占对象总数的比例; Kappa系数综合考虑矩阵的所有因素,计算公式(Congalton, 1991)如下:
式中:N为用于精度评价的对象数;xii为混淆矩阵中第i行第i列的对象数;xi+和x+i分别为第i行第i列的总对象数。
3 结果与分析
本研究用影像数据包括5景春季影像、4景秋季影像、2景夏季影像和1景冬季影像,对比单季节单时相数据、多季节组合数据、春季时间序列数据和秋季时间序列数据分类结果(图5)发现,多季节组合和春、秋2个季节时间序列数据的分类精度明显优于单季节单时相数据,单季节单时相数据的总体精度在86%~89%之间,多时相数据组合的总体精度均高于90%,其中多季节组合数据的总体精度最高,达95.8%, Kappa系数为0.95。春、秋2个季节时间序列数据的总体精度与最优结果差距较小,分别为94.5%和95.0%, Kappa系数分别为0.93和0.94。 图6所示为多季节组合数据分类结果专题图。
图5 总体精度和Kappa系数对比Fig.5 Comparison of overall accuracy and Kappa coefficient combination
图6 多季节组合数据分类结果专题图Fig.6 Thematic map of classification results with multi-season data
表4所示为春季时间序列、秋季时间序列、多季节组合3个多时相组合数据分类结果中5类主要树种类别的生产者精度和用户精度,图7、8、9为分类结果对应的混淆矩阵。对比发现,无论是生产者精度还是用户精度,春、秋2个季节时间序列数据分类结果与多季节数据组合差距均很小。春季时间序列数据分类结果中其他针叶类别的生产者精度较低,与该类别样本数量较少有关。3个多时相组合数据分类结果存在共性问题: 白桦和山杨类别生产者精度高,用户精度相对较低,而其他阔叶类别用户精度相对较高,生产者精度低。综合分析分类结果对应的混淆矩阵发现,白桦和山杨类别用户精度相对较低的原因是部分样本被错分为落叶松、其他阔叶,其他阔叶类别生产者精度低的原因是部分样本被错分为落叶松、白桦和山杨。
图7 春季时间序列数据分类结果的混淆矩阵Fig.7 Confusion matrix of classification results for the time series data of spring
图8 秋季时间序列数据分类结果的混淆矩阵Fig.8 Confusion matrix of classification results for the time series data of autumn
表4 分类精度对比Tab.4 Comparison of classification accuracy
图9 多季节组合数据分类结果的混淆矩阵Fig.9 Confusion matrix of classification results for multi-season data combination
4 讨论
本研究表明,多季节组合数据的分类结果最优,与Persson等(2018)的研究结论一致。2个单季节时间序列数据与多季节组合数据对比,单季节时间序列数据也能获得较好分类结果,与多季节组合数据的差异并不显著。
时间序列数据的时域特征能够反映出植被的生长变化过程,特别是对于研究区内的落叶树种,如落叶松、白桦和山杨以及其他阔叶,由图4可知,夏季3种类别对应的NDVI、NDVIre指数值较高,而冬季指数值较低,在春季和秋季多景影像中,2个指数值变化幅度较大,且各类别间存在差异; 春季时间序列的5景影像中,2个指数值均随时间变化升高,但落叶松较早萌芽长叶,5月5日影像中指数值就有明显增加,而其他阔叶类别5月10日之后才开始升高; NDVIre曲线区别更加明显,春季影像中3种类别对应NDVIre指数值升高的先后次序依次为落叶松、白桦和山杨、其他阔叶。
对于相对较难区分的常绿树种油松和其他针叶,短波红外波段的NDWI、NHI等光谱指数发挥了重要作用,如春季时间序列影像中,油松和其他针叶的NDWI均很稳定,但数值差距明显,油松的NDWI明显高于其他针叶; 油松的NHI总体上同样略高于其他针叶,在秋季时间序列4景影像中该差异更加显著。
春、秋2个季节时间序列数据组合相比多季节数据组合,尽管时间跨度上不大,但也能描述从落叶季到生长季或从生长季到落叶季的过程,反映树种的物候特征及其变化,分类精度与多季节数据组合相差不大。对于特征相近的类别,如白桦和山杨、其他阔叶以及落叶松等,仍然存在少数错分和漏分现象,这可能是Sentinel-2影像的中低分辨率带来的混合像元问题造成的。此外,研究区所在林场的部分阔叶林地为混交林,也给面向对象分类带来困难,对应类别的分类精度会受到一定影响。
5 结论
本研究以内蒙古旺业甸林场为研究区,在GEE云计算平台上利用多时相Sentinel-2多光谱数据提取波段反射率特征和光谱指数特征,采用SNIC和支持向量机(SVM)机器学习分类方法进行优势树种识别,并分析不同时相数据组合对优势树种识别精度的影响,结果发现,基于多时相Sentinel-2影像和SNIC分割算法的面向对象分类方法能够快速、准确识别优势树种,多季节组合数据的分类结果最优,春、秋2个季节时间序列数据也能获得较好分类结果,总体精度与最优结果差距较小。基于GEE平台的分类流程将数据获取、数据预处理、影像分割、样本选择和分类器构建等多个步骤组合起来,能极大缩小数据处理的时间成本。春、秋2个季节时间序列数据组合能够反映不同地物类型特征,特别是不同树种的物候特征变化,有利于准确识别树种,为多时相树种分类的数据选择提供了新可能,当不能获取多季节数据时,单季节连续时间序列数据可以作为很好的替代选择; 当然,这得益于卫星影像的高时间分辨率。
虽然基于多时相Sentinel-2影像和SNIC分割算法的优势树种识别在旺业甸林场取得较高分类精度,但也存在不足之处: 首先,本研究分类系统将阔叶树种白桦和山杨归为一类,未来可结合高光谱数据进行更精细的树种识别; 其次,GEE平台仅提供国外公开访问的卫星影像,下一步可考虑与国产卫星数据结合,如高分6号的宽幅影像等,实现基于国产数据的优势树种识别。