时间序列特征提取和分类器对农作物分类的影响研究*
2021-06-16温彩运张士博
温彩运,陆 苗,宋 茜,程 锐,张士博
(中国农业科学院农业资源与农业区划研究所/农业农村部农业遥感重点实验室,北京100081)
0 引言
20世纪70年代以来,国内外一系列大面积作物清查试验以及重大农作物遥感监测项目的实施,极大地促进了农业遥感的发展,农作物空间分布信息提取在理论、方法和应用等方面都取得了长足的进展。准确的作物空间分布信息是区域农作物估产、作物结构调整和粮食安全的重要基础数据。如黄青等[1]提取中国东北地区玉米、小麦等主要作物的种植结构并进行了作物长势监测,为作物产量预测提供了科学依据。不同情况下影像有不同的利用方式。在作物种植结构相对简单的区域,采用单期或少数几期影像提取农作物“关键物候期”的分布信息。在种植结构比较复杂的区域,仅使用少数几期影像难以覆盖所有作物的“关键物候期”,同时也很难区分具有相似光谱特征的作物,因此时间序列遥感数据成为作物分类的主要数据源[2-3]。
不同的影像特征能够表征和突出不同作物的季相节律和物候期,根据作物在遥感影像上特征值随时间变化的特性实现作物分类。目前时间序列数据常用的分类特征有光谱、植被指数、纹理和物候特征等。农作物的光谱特性受植株内色素、含水量、叶肉细胞结构差异的影响。由于生长季或区域种植制度不同,光谱和植被指数时序特征常用来提取作物的空间分布信息[5-6]。植被指数时序曲线的变化对应植被不同的生长过程,这对具有独特时间特征的作物(如移栽期的水稻)分类简单有效。集中种植的农作物具有鲜明的纹理特征[7],现有研究常用灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)提取二阶矩、相关性、方差、信息熵等[8-9]。通过遥感手段进行作物物候的研究,主要是通过提取归一化差值植被指数(Normalized Difference Vegetation Index,NDVI)时序曲线的形状参数,如斜率、峰值、最值及其出现的日期等,从而有效区分作物[10-11]。
由于分类器的工作原理、学习和容错能力各不相同,将相同的特征输入不同分类器得到的分类结果存在差异。作物识别中常用的分类器有最小距离法(Minimum Distance Classification,MDC)[12-13]、朴素贝叶斯(Naïve Bayes,NB)[14-15],K最近邻(K-Nearest Neighbor,KNN)[16-17]、支 持 向量 机(Support Vector Machine,SVM)[18-19]、随 机 森林(Random Forest,RF)[20-21]等。多种分类器的比较研究能够反映分类器的性能差异,为后续相似研究选择分类器提供参考和依据,提高遥感监测的精度和效率[22]。如杨闫君等[23]通过构建GF-1/WFV NDVI时间序列,比较了最大似然法、马氏距离、最小距离、神经网络分类、支持向量机5种分类器的分类精度,结果表明SVM更适用于NDVI时间序列的作物分类。
由此,获取及时准确的作物空间分布信息的关键是如何选取合适的时间序列特征和分类器。已有研究探讨特征数据的不同组合输入分类器的精度差异[20],衡量不同特征的重要性[24],但没有关注不同分类器对特征组合的响应度是否存在差异;而同时探究不同特征组合和分类器选择的文献只集中在两种目标作物上[14],对于种植结构复杂的多作物区域研究甚少。因此,文章将探究时间序列特征及其组合对作物的区分能力,以及不同的分类器对相同输入数据的性能差异。该文的研究目标可以分为两个子目标:
(1)探索不同特征及其组合对农作物的识别能力。光谱、植被指数、纹理和物候特征对不同作物表现出不同的分类效果,通过比较不同特征及其组合的分类精度评价其有效性及对农作物的识别能力;
(2)评价常见分类算法基于时间序列特征对农作物的识别能力。不同分类器的基础理论和分类原理不同,分类结果必然存在差异。通过将特征及其组合输入分类器,根据分类精度评价不同分类器基于时间序列特征表现出的分类性能。
该文以黑龙江省北安市为例,首先基于Google Earth Engine(GEE)平台提取Landsat 8时间序列数据的光谱、植被指数、纹理和物候特征;将上述各类特征及组合输入到MDC、NB、KNN、SVM和RF 5个分类器中,比较分类结果和精度;最后利用分离性指数(Separability Index,SI)评估特征对识别作物的贡献度,辅助验证分类器的分类结果。
1 研究区域与数据
1.1 研究区概况
该文研究区域为北安市,隶属于黑龙江省黑河市,经度为126°16′E~127°53′E,纬度为47°35′N~48°33′N,总面积达7 149 km2,地理位置如图1所示。北安市地处小兴安岭南麓,属松嫩平原的边缘地带,地势南低北高、西低东高。市域耕地面积2 927 km2,作物生长期在4—10月,约140~180 d。北安市生态环境优良,土地平坦肥沃,是国家重要的商品粮基地,以大豆、玉米、水稻和小麦等农作物为主,四种主要作物的物候历如表1所示,种植制度为一年一熟。
图1 北安市地理位置及样本点Fig.1 Location of Bei’an city and distribution of samples
表1 北安市主要作物物候历Table 1 Phenology calendar of major crop in Bei’an city
1.2 数据源介绍
Landsat 8卫星包含OLI(Operational Land Imager,陆地成像仪)和TIRS(Thermal Infrared Sensor,热红外传感器)两个传感器,每16天可以实现一次全球覆盖。研究区域影像由条带号118、行编号26和27两景影像覆盖,本研究使用的是GEE平台上的Landsat 8表面反射率产品(USGS Landsat 8 Surface Reflectance Tier 1),该产品已经过大气校正处理。在GEE平台镶嵌和裁剪影像后得到2014年6个时相的影像。为保证影像特征值随时间变化的连续性,对于物候期内缺少影像的5月和8月,利用时空自适应反射率融合模型(Spatial and Temporal Adaptive Reflectance Fusion Model,STARFM)[25]融合Landsat 8和MODIS数据补充序列。已有研究[26-28]表明,在各种时空融合技术中,STARFM是应用较为广泛和成熟的模型,构建的影像具有良好的空间细节信息。Watts等[29]使用STARFM获得的融合影像与Landsat影像回归的决定系数R2达到0.93,证明利用STARFM融合Landsat和MODIS影像具有较高的可行性。基于此,选择STARFM模型获取研究区的时序数据(图2)。该文通过对融合影像的目视评价,融合结果与Landsat数据的空间分布趋势基本一致。最终构成时序数据的8景影像按儒略日排列,如表2所示。
图2 融合影像的处理流程Fig.2 Processing of fusion images
植物与其他地物的反射光谱曲线在可见光波段和近红外波段显著不同,这是遥感可以识别和提取植被信息的基础。该文选择和作物联系最为密切的6个波段(蓝色波段、绿色波段、红色波段、近红外波段、短波红外波段)作为光谱特征,如表3所示。
表2 北安市Landsat 8数据列表Table 2 List of Landsat 8 images in Bei’an City
表3 光谱特征说明Table 3 Description of spectral features
该文使用的地表样本是2014年在北安市耕地集中的西部获取的解译标志数据。在作物生长季内,野外调查组分区、分组、多次调查采集农作物类型。调查时,结合当季可获取的Landsat 8影像,记录农作物种植的类型。相同地物类型采集时间隔尽可能保证不小于1 km,标记类型包括大豆、水稻、玉米和小麦及其他土地覆盖类型,如森林、水体、建筑用地等,先后深入调研总共得到1 565个解译标志,其空间分布如图1所示。各地类样本点按7:3的比例随机分为训练样本点和测试样本点(表4)。
表4 地面样本点数据列表Table 4 List of ground samples
2 研究方法
研究包括数据准备、特征提取、分类器比较、精度评价和特征分离性分析五个部分。首先,Landsat 8时间序列数据经过预处理之后提取多种特征并进行组合,然后将这些特征及其组合输入到5个常见的分类器中,即MDC、NB、KNN、SVM和RF,最后利用分离性指数SI分析特征的作物可分离性。根据实验结果探究不同特征及组合对于作物识别的影响以及不同分类器在作物分类过程中的性能差异。
2.1 特征提取
为分析不同特征对作物分类的影响,该文选择光谱、植被指数、纹理和物候特征,并构建多种特征组合进行农作物分类。
时序植被指数能最大程度反映不同作物关键物候特征的差异,最大程度提高不同作物的可分离性。该文选用6个植被指数包括VIgreen(Green Vegetation Index,绿度植被指数)[30]、NDVI(Normalized Difference Vegetation Index,归一化差值植被指数)[31]、NDTI(Normalized Difference Tillage Index,归一化差值耕作指数)[32]、NDSVI(Normalized Difference Senescent Vegetation Index,归一化衰老指数)[33]、LSWI(Land Surface Water Index,陆地表面水分指数)[34]和EVI(Enhanced Vegetation Index,增强植被指数)[35],它们刻画了农作物不同的生物物理特性,计算公式见表5。
表5 植被指数特征说明Table 5 Description of vegetation index features
纹理能够反映像元及其空间邻域灰度分布中的同质现象。因为纹理特征本质上是一种结构特征,使用不同光谱波段所得到的结果差别不大,所以选择对识别植被更有效的近红外波段Band 5计算纹理特征。利用GEE平台的glcmTexture函数,基于各像元5×5的邻域提取GLCM中常用的特征量,包括角二阶矩(Tasm)、对比度(Tcontrast)、相关性(Tcorr)、方差(Tvar)、逆差矩(Tidm)和熵(Tent)。
物候是指植被受环境影响而出现的以年为周期的自然现象,许多研究表明NDVI和光合有效吸收辐射、叶面积指数、生物量、覆盖度等植被生物物理特性高度相关[36-38],因此利用NDVI的形状特征表示物候特征。该文选择NDVI时间序列曲线的9个形状参数,包括NDVI最值及其所在时相、NDVI的斜率(NDVIS)、斜率的最值及其所在时相(表6)。
表6 物候特征说明Table 6 Description of phenology features
为了探究分类器对于不同特征的性能差异,该文将4类特征及3个组合输入分类器进行对比实验(表7)。FG1的分类结果代表了基于传统多时相光谱特征的分类方法的性能,而FG2-FG4都是在FG1的基础上通过一定的运算得到的,FG5-FG7表示当前作物分类常用特征组合的分类性能。通过将一组新特征添加到FG1中,判断分类性能的提高程度。如比较FG1和FG5的分类结果差值,量化输入数据加入植被指数特征所能提高的性能。由于不是每组可能的特征组合间都有比较意义,所以并未测试所有组合。
表7 特征及其组合概述Table 7 Overview of features and their combinations
2.2 分类器及精度评价
该文选择5种常用的分类方法MDC、NB、KNN、SVM和RF进行分类实验。MDC利用训练样本计算每个类别的均值向量作为类中心,各像元的类别即为最近类中心的类别。NB假设每个输入变量条件独立,根据各类别的先验概率和条件概率计算其后验概率,并将概率最大的类别作为该测试样本的类别。KNN计算像元和训练集中的每个样本之间的距离,在最近的K个样本中将出现次数最多的类别作为该像元的类别。SVM使用核函数将原始特征空间的样本映射到高维空间,求解能正确划分训练数据集,且使几何间隔最大的分离超平面,由此构造出分类器。RF的基本单元是决策树,通过统计n棵树的分类结果,将次数最多的类别确定为最终的输出类别。
NB和KNN是在Python中使用scikit-learn包[39]实现的,其中NB的参数使用scikitlearn包的默认参数,KNN中K的值设置为10[40]。MDC和SVM使用ENVI中封装的分类方法及其默认参数进行监督分类,RF使用ENVI中的扩展工具实现影像的监督分类[41],参数保持默认。
利用混淆矩阵中总体精度和制图精度比较分类结果。总体精度(Overall Accuracy)表示为正确分类的像元总数n ii与总像元数n的比值,计算公式为:
式(1)中,k为类别数,i=1,2,…,k。制图精度(Producer’s Accuracy)指某类被正确分类的像元数n ii该类真实像元总数n i·的比值,计算公式为:
2.3 特征分离性计算
Somers B等[42]提出了一种基于分离性指数(Separability Index,SI)的特征选择方法,SI被定义为类间异质性和类内异质性的比值,前者是用来衡量特征集能否有效区分不同的土地覆盖类别,后者则是用来评价类别内部的一致性。该文使用SI ij计算了北安市主要农作物(大豆、水稻、玉米和小麦)的可分离度,计算公式如下:
式(3)中,m代表时序点,n代表各特征,分别代表类别i(如大豆)和类别j(如水稻)在m时序和n特征中样本点的光谱平均值,σi和σj分别代表类别i和类别j对应n特征的标准差。刻画了类别i和类别j间的光谱异质性,σi+σj刻画了类别i和类别j内的光谱异质性。SI值越大,表明m时序n特征中两个类别之间的可分离性越大。该文计算4类作物间6种组合的光谱、植被指数、物候和纹理特征的SI值共954个。
由于SI ij只能用于计算两种地类之间的成对可分离性,而难以反映该文4种农作物类别之间的整体可分离性,所以采用“平均值”策略将SI ij扩展到SI global[43],该策略选取所有类对的SI平均值作为全局值SI global,值越大,代表特征质量越优。不同特征SI global计算公式为:
式(4)中,SI ij(m,n)是在式(1)中类别i和类别j间在m时序和n特征中的类对分离性,M是时相数量,C是类别对的数量,在该文中的值分别为8和6。通过计算不同特征SI的平均值,全面反映了不同特征在4类作物间的可分离性,因而将其用来表征特征重要性。
3 结果与分析
为了探究不同特征和不同分类器对作物分类的影响,该文使用光谱、植被指数、纹理、物候4类特征,结合MDC、NB、KNN、SVM和RF进行分类实验,通过分析精度变化(表8)综合比较分类器对不同特征组合的分类差异。
从不同特征及其组合来看,光谱特征(FG1)输入SVM和RF分类得到的精度最高;植被指数特征(FG2)在RF中得到的精度最高;纹理特征(FG3)的分类精度普遍偏低,在RF中能得到相对较高的精度;物候特征(FG4)在不同分类器中的精度差异较大,RF和MDC精度相差22%。光谱特征与其他三类特征的组合在SVM和RF两个分类器中的精度差异不明显,在MDC、NB和KNN中精度差异较大。从分类器角度比较,MDC、KNN对光谱+植被指数特征取得最高分类精度;NB对光谱+物候特征的精度最高;SVM对光谱+纹理特征的分类精度最高;RF在光谱+植被指数特征、光谱+纹理特征得到最高精度。
表8 不同特征及其组合的分类结果Table 8 Classification results with different features and their combinations
3.1 不同特征组合对精度的影响
由于RF对各特征组合都能得到相对较高的分类精度,以RF为例进一步分析分类结果,各特征及组合对北安市的大豆、水稻、玉米和小麦的空间分布如图3所示。光谱特征(FG1)中大豆的分布比较零散,种植面积较小;纹理特征(FG3)中地物分布比较破碎且杂乱,大豆的分布信息很少;物候特征(FG4)中北安市南部的水稻种植区比较破碎。
各特征及其组合的分类精度如图4所示。在4类特征中,FG1总体精度最高,FG3的分类精度普遍偏低。分别比较FG1与FG5-FG7,FG1比FG5、FG6和FG7的总体精度分别高0.25%,0.25%和0.76%,特征组合并没有表现出比仅使用单种特征更好的分类效果。
图3 不同特征及其组合的RF分类结果Fig.3 RF classification results for different features and their combinations
图4 特征及其组合的RF分类精度Fig.4 RF classification accuracy of features and their combinations
各特征及其组合分类得到的总体精度均值如图5所示。针对4类特征,光谱特征(FG1)的总体精度最高,小麦在植被指数特征(FG2)的精度最高,大豆、水稻和玉米在FG1的精度最高。针对3个特征组合,总体精度和4种作物在光谱+植被指数特征(FG5)的分类精度最高。根据分类精度最高的FG1-RF的分类结果统计不同作物在耕地中的面积占比,研究区域内玉米占比最高为50.44%,大豆其次为43.62%,水稻和小麦分别占4.98%和0.96%。水稻和小麦的种植面积小,采样得到的样本数量少,这是两种作物精度偏低的主要原因。总体上看,FG1、FG5和FG7都表现出比较高的精度,但植被指数和物候特征需要进一步计算,精度提升也不明显,所以光谱时序特征的分类效率最高。纹理特征(FG3)不适合单独用于作物分类,高分辨率影像的纹理特征可能会发挥更大的作用。
3.2 不同分类器对精度的影响
图5 各特征及其组合的平均精度Fig.5 Average accuracy of features and their combinations
不同分类器对大豆、水稻、玉米和小麦4类作物的分类结果如图6所示。大豆精度最高的分类器是RF;水稻的分类精度最高的是NB,比RF和SVM高20%;玉米的最高精度是RF的分类结果;样本最少的小麦在4类作物中精度最低,精度最高的分类器是MDC和NB。RF更适用于在研究区内广泛分布的作物,MDC和NB适用于样本较少,分布集中且种植面积小的作物。
图6 各分类器的平均精度Fig.6 Average accuracy of each classifier
通过计算分类器不同特征组合总体精度的均值和标准差,进一步分析分类器性能差异。图7中的柱状图表示平均精度,折线图表示标准差。MDC的精度最低,RF的精度最高。而从标准差来看,RF最低,KNN最高。MDC和KNN虽然都是将某种距离作为分类依据,但KNN的性能要比MDC好。SVM的最高精度与RF持平,但平均精度低2%左右。总体上看,RF表现出比其他4个分类器更优越的分类性能。
图7 各分类器总体精度的均值和标准差Fig.7 Mean and standard deviation of the overall accuracy of each classifier
3.3 特征分离性分析
图8 a列出了光谱特征、植被指数特征、纹理特征和物候特征的SI global。光谱特征中的两个短波红外波段相较其他波段,对识别作物有明显优势,其中B6(1.560-1.660μm)比B7(2.100-2.300μm)分离能力更好;植被指数特征中,LSWI的SI global较高,它是根据短波红外和近红外波段计算得到的,进一步说明了短波红外波段对识别作物的有效性。另外两个短波红外波段计算得到的NDTI作物分离能力减小,说明短波红外波段更适于单独参与指数计算;纹理特征中Tcontrast、Tvar和Tidm的SI glob al值明显高于其他3个特征,相对来说影像对比度、方差和逆差矩能够更好地区分作物;物候特征中NDVISmin的SI global值最高,反映了区分大豆、水稻、玉米和小麦4种作物的关键物候期是植被衰退点,其次是NDVImaxb,即植被峰值点出现的时间。
图8b列出了不同特征及其组合的SI global平均值。从特征类型来看,光谱特征的SI global平均值最高,植被指数特征、物候特征次之,最低的是纹理特征。从遥感图像直接获取的时间序列光谱特征能够较好地区分大豆、水稻、玉米和小麦4类作物;植被指数特征反映了作物生长过程中的一些生物物理参量,而物候特征反映的是生长季中一些重要节点,通过这两种特征都能够突出作物某些独特的信息以供识别;纹理特征的分离能力最低可能是受遥感影像分辨率的制约。SI global所反映的特征重要性不仅与FG1-FG4的分类结果大小顺序一致,在FG5-FG7中也体现了植被指数特征的重要性要高于物候特征和纹理特征。和3.1节对比结果,说明SI global能够有效反映不同特征的重要性。
4 结论与讨论
该文基于北安市2014年Landsat 8时间序列数据,基于GEE平台提取光谱、植被指数、纹理和物候特征,将4类特征及3个特征组合输入到MDC、NB、KNN、SVM和RF5个分类器中,最后利用分离性指数SI分析不同特征对作物的区分能力。主要结论如下:
图8 特征分离性比较Fig.8 Feature separability comparison
(1)通过比较同一数据输入不同分类器精度的均值,光谱时序特征能够得到4类特征中的最高精度,特征组合中仅光谱+植被指数特征在此基础上精度提高了0.6%,证明时序光谱特征足以得到较好的作物分类结果,提取的其他特征对精度提升作用不明显;
(2)从精度的均值和稳定性来看,5种分类器中表现最好的是RF,其次是SVM,KNN的均值比NB高,但稳定性差,MDC的综合性能最低。根据不同作物的分类效果,RF更适用于在研究区内广泛分布的作物,MDC和NB适用于样本较少,分布集中且种植面积小的作物;
(3)根据分离性指数SI衡量特征对作物的区分能力。各类特征的SI值从高到低排列依次为光谱、植被指数、物候和纹理特征。
该文利用中分辨率影像提取的纹理特征对作物分类的精度较低,高分辨率影像提取的纹理特征对作物分类可能会发挥更大的作用。时间序列影像提取的特征数据维度高,不仅会影响分类效率,还会产生信息冗余,影响分类效果。未来的研究可通过构建新特征解决问题,比如遗传规划(Genetic Programming,GP),它以达尔文的进化论思想为基础,采用优胜劣汰、适者生存的策略。