APP下载

基于时序PolSAR影像与决策树模型的油菜物候期识别

2021-11-27李诗涛张王菲赵丽仙王熙媛

浙江农业学报 2021年11期
关键词:物候决策树极化

李诗涛,张王菲,赵丽仙,王熙媛

(西南林业大学 a. 地理与生态旅游学院;b.林学院,云南 昆明 650224)

油菜(BrassicanapusL)是全球重要的油料作物,也是我国极具传统优势的油料作物。我国油菜种植面积和总产量约占全球的30%,在世界上占有重要地位[1]。物候期是油菜生长阶段重要的农业生态系统特征;同时,物候信息的准确获取也是作物农业生产、田间精细管理、计划决策等的重要依据;此外,物候期对于监测作物长势、进行作物种植管理、预测作物产量等具有重要意义[2]。物候期观测常用的遥感技术分为光学遥感监测和微波遥感监测2个方向[3]。其中,光学遥感受云雾等天气条件影响严重。与光学传感器相比,SAR(synthetic aperture radar)不仅能够在作物各生长时期提供稳定的数据源(全天时、全天候的数据获取能力),还能获取反映作物冠层结构信息的极化特征[4]。在SAR应用的相关研究领域中,极化信息的运用是其重要的一方面,已有研究证实了极化特征在农作物监测中的巨大潜力[5]。2009年Cloude[6]研究发现,基于PolSAR(polarimetric synthetic aperture radar)数据的极化分解技术对极化信息的提取与利用最为有效。极化分解方法分为相干分解与非相干分解,本研究选用非相干分解中H/A/alpha、Freeman-Durden和Yamaguchi这3种经典的分解方法进行极化信息提取。SAR技术对农作物监测的研究最早见于Le Toan等[7]的论文中,通过对SAR影像的分析发现不同作物的后向散射特征变化趋势存在差异,其中,最为显著的是水稻后向散射系数,表明了SAR对农作物监测的可行性。与单极化或双极化相比,PolSAR能更精准地描述作物的结构变化特征。2013年Liu等[8]使用3 a时间序列的Radarsat-2 PolSAR数据,通过分析3种SAR散射机制与作物物候期变化趋势,研究了极化信息在玉米、春小麦和大豆等作物监测中的可行性;并采用最大似然分类法进行了作物生长期制图,其分类总体精度达85%。Xu等[9]研究表明,Freeman-Durden分解参数对小麦不同生长阶段响应较为敏感,该研究结合后向散射系数、极化分解方法与支持向量机模型对小麦物候期进行了分类识别,其准确率为92.92%,验证了Radarsat-2 PolSAR影像在小麦监测和制图方面的有效性。2014年Lopez-Sanchez等[10]通过Radarsat-2 PolSAR数据探索了全极化特征在水稻物候期反演中的有效性,结果表明,PolSAR数据在水稻物候期监测中具有良好的应用前景。在利用PolSAR数据进行油菜播期监测方面,杨浩[11]采用5景Radarsat-2数据对内蒙古试验区的油菜播期进行了监测,得出油菜播后日期监测的最优监测窗口和最优极化参数;该研究的不足之处在于仅采用基于Cloude-Pottier、Freeman-Durden分解方法提取的极化参数,通过回归建模的方法来反演作物播期,一方面没有考虑H/A/alpha分解和Yamaguchi分解在作物物候期识别方面的潜力;另一方面,研究没有涉及分类方法在油菜物候期识别上的论述。Yang等[12]研究表明,种植方式显著影响物候期识别,通过特征优选可以有效提高物候期监测精度。Mcnairn等[13]采用粒子滤波的方法估测了油菜生长物候期,但该结果在其他油菜品种与不同种植方式的油菜物候期监测中的可行性仍需要进一步研究;此外,该方法将油菜生长的各阶段转化为作物成熟度的过程会带来物候期监测的误差。Dey等[14]基于全极化和简缩极化数据提取2个散射参数进行了水稻物候期监测,明确指出该方法在其他作物中的适用性需要进一步研究。

目前,使用PolSAR数据进行农作物生长分析的研究多集中在小麦、水稻等主要粮食作物上,鲜有利用PolSAR数据进行油菜物候期监测的报道。相比水稻等作物,油菜与微波相互作用机理更加复杂[15],因而对其进行物候期监测也更为困难。综上所述,PolSAR影像极化分解参数在油菜物候期监测方面的研究不够深入,需要进一步开展工作。在采用PolSAR影像极化分解参数对农作物进行遥感监测的基础上,本文基于时序PolSAR影像与决策树模型进行了油菜物候期的识别。首先探索了PolSAR数据在油菜物候期识别中的可行性,基于PolSAR极化分解方法提取的参数,采用5期多时相Radarsat-2数据和95块油菜地块,对比3种极化分解方法提取的参数与油菜物候期变化的动态响应规律,分别得到了对油菜5个生长期反应敏感的极化参数,然后采用决策树分类方法进行油菜物候期识别,最后使用混淆矩阵精度评价方法验证了物候期识别结果的精度。

1 材料与方法

1.1 研究区概况

研究区位于内蒙古自治区额尔古纳市上库力农场(120°45′36″E-120°53′24″E; 50°16′48″N-50°23′24″N),地处呼伦贝尔草原最北端与大兴安岭西北麓,属于寒温带大陆性气候,年平均气温在-2.0~3.0 ℃。该农场为农垦系统国有农场,地势起伏较小,种植结构相对简单,地块整齐均匀,主要农作物有小麦、大麦和油菜等。

1.2 数据源与物候期划分

1.2.1 数据源

PolSAR数据。采用的数据为5景Radarsat-2 C波段全极化单视复数数据(single-look complex, SLC),其方位向和距离向的像元大小分别为4.96和4.73 m,中心入射角为39.4°,该数据覆盖了研究区范围内油菜的整个生长周期。其获取日期分别为:2013年5月23日、2013年6月16日、2013年7月10日、2013年8月3日、2013年8月27日。选取的5景影像的成像模式、成像入射角等参数完全一致。Radarsat-2影像参数见文献[16]。

地面实测数据。地面调查在每次Radarsat-2卫星过境时同步展开。为了便于将实测数据与雷达影像对应,地面调查时详细记录了地块中每个样地的GPS经纬度。每次地面调查获取15~20块代表性油菜地块长势参数,包括叶面积指数、植株高度、地上生物量等,同时获取了地块样本的播期、品种、垄向和管理措施等基础数据。

1.2.2 物候期划分

为了方便描述油菜的生长阶段,本研究基于国际上通用的描述植物物候发育阶段的尺度——BBCH(Biologische Bundesanstalt, Bundessortenamt and CHemische Industrie)方法来划分油菜生长的物候期[17]。在该标准中,油菜的物候期被划分10个一级阶段,每个一级阶段又划分为10个二级生长阶段。在此方法基础上,考虑到本文中SAR影像的重访周期(24 d)、油菜的BBCH特征、油菜的播后时间,将油菜的整个生育期分为5个阶段:苗期(S1)、蕾薹期(S2)、花期(S3)、角果成熟期(S4)、成熟衰落期(S5)(表1)。

表1 油菜物候期的划分与生长时间

1.3 研究方法

技术路线如图1所示,主要包括3个方面,分别为PolSAR数据预处理、极化参数提取及其与物候期的动态响应分析、基于CART(classification and regression tree)算法的决策树分类及其精度评价。

图1 技术路线图Fig.1 Technology flowchart

1.3.1 PolSAR数据预处理

PolSAR数据预处理包括辐射定标、多视处理、斑点噪声抑制和几何校正。其中,辐射定标是在PolSARpro4.2软件中进行的,主要目的是为了建立影像与地物散射系数的精确关系。此后进行了2×2窗口的多视化处理,多视后的PolSAR影像方位、距离向像元大小分别约为9.92、9.47 m。SAR影像通常会受到相干斑噪声的影响,使得影像解译变得复杂且不利于信息的准确提取[18],为了降低斑点噪声的影响,采用Boxcar滤波方法进行滤波处理,其窗口设置为5×5。对于数据的几何校正,先使用研究区30 m分辨率的数字高程模型(DEM)数据在Gamma软件中进行地理编码和地形校正,经重采样后的PolSAR影像方位、距离向像元大小均为10 m。最后使用野外采集的地面控制点进行几何精校正。

1.3.2 极化分解方法

极化分解的中心思想是将目标散射特征分解为若干个简单散射体的叠加,并通过分析简单散射体响应及其贡献率来提取目标信息,以实现目标解译。极化分解方法分为相干分解和非相干分解两大类[19],由于非相干分解更能表征自然界存在的复杂目标的散射机制,因而本文采用非相干分解的基于散射模型的Freeman-Durden三分量、二分量分解[20]、基于特征矢量的H/A/alpha分解[21]和基于协方差矩阵的Yamaguchi四分量分解[22]方法提取极化参数,进行油菜物候期识别研究。文中涉及的极化分解具体参数算法可参考文献[20-22]。3种极化分解方法提取的极化参数如表2所示。

表2 不同极化分解方法提取的参数

1.3.3 决策树分类与精度验证方法

决策树通过特征属性和目标变量构成训练数据集,是一种进行循环分析形成的二叉树结构,它由一个根节点、一系列分支与终极节点组成,并通过终极节点实现分类。目前常用的决策树算法有ID3(Iterative Dichotomic version 3)、C4.5和CART等。本文采用CART决策树。CART的核心思想是:首先对目标变量构成的训练数据集进行循环分析,形成二叉树形式的决策树结构;其次,选取训练样本,计算最小基尼信息;最后,根据样本特征选取合适的阈值参数,将样本划分为两部分,并计算该样本类型的基尼指数[23]。假设Ck为B中属于第k类的样本子集,则基尼指数G(B)的计算方法如下:

(1)

式中:K为地物类别数目;Ck为某地物选取的样本;D为选取的样本总数;B为样本名称。假设条件A将样本B切分为B1和B2两个数据子集,则在条件A下样本B的基尼指数G(B,A)的计算方法为

(2)

找出所有样本类型的最优划分特征与阈值,根据阈值将样本划分为两类,再经过多次剪枝,多次试验判断其是否为最优切分点,找到最优子树,对所有样本数据进行计算,生成CART决策树[24]。在生成决策树后,基于实地和用户精度等指标来进行分类结果的精度评价。

2 结果与分析

2.1 PolSAR极化分解参数对油菜各物候期响应的定性分析

基于3种不同的极化分解方法,每期影像共提取33个极化参数。根据H/A/alpha分解、Freeman-Durden分解和Yamaguchi四分量分解方法,各期影像分别提取了24、5和4个极化参数,以其中任意一期数据为基础,分析这些极化参数的影像特征及其在油菜物候期划分中的潜力。采用H/A/alpha分解的3类参数中,对油菜物候期变化显示出敏感性的参数有:基于H/A/alpha分解中的Alpha、Entropy和Lambda参数;基于特征向量的参数包括3种散射机制对应的散射角(Alpha1、Alpha2、Alpha3)和3种散射机制对应的目标方位角(Beta1、Beta2、Beta3);基于特征值的参数为特征值L2、L3、P2。Freeman-Durden分解和Yamaguchi分解的参数中奇次散射(Odd和Odd_Y)和偶次散射(Dbl和Dbl_Y)分量均表现出对油菜物候期变化敏感。另外,Yamaguchi分解中的螺旋体散射(Helix)分量也随油菜物候期变化有明显变化。图2以3个典型地块(编号为31、55和90)为例,示意了Alpha、Dbl和Helix极化分解参数随油菜物候期变化的敏感性,即当油菜所处的物候阶段发生变化,这3个极化参数值也随之发生改变。

由图2可知,各极化分解参数对油菜5个生长阶段变化的敏感性差异明显。示例的3个参数中,Alpha参数对油菜各个物候期的响应差异最为明显,能够通过散射特征的差异有效区分油菜的各个生长阶段;Helix参数对油菜生长物候期的敏感性略低于Alpha参数,特别是在油菜生长的S3、S4和S5物候期内,Helix参数变化差异较小,这可能是由于Helix参数所表征的螺旋体散射分量较小引起的;Dbl对于油菜物候期的区分略低于其他2个参数,特别是在S1、S2和S4这3个阶段中散射能量变化不明显。3个示例参数对油菜物候期变化的敏感性说明仅通过单个极化分解参数无法有效区分出其所处的物候期,多个极化分解参数合用在油菜不同物候期的区分中具有较大潜力。

图2 典型地块典型SAR极化参数随油菜物候期变化示例Fig.2 Examples of typical SAR polarization parameters varying with phenological period of rapeseed in typical plots

2.2 PolSAR极化分解参数对油菜各物候期响应的散点图分析

为进一步分析各极化分解参数在油菜不同物候期的响应特征,以播后时间作为横轴,各极化分解参数的值为纵轴制作散点图;并根据播后时间划分5个物候期,对比分析PolSAR参数对油菜物候期变化的响应规律。图3以较敏感的8个极化分解参数为例,展示了油菜整个生育期中部分极化分解参数随油菜物候期动态变化的规律,右侧为来自Freeman-Durden和Yamaguchi分解的参数,左侧为H/A/alpha分解的参数。Freeman-Durden分解的2个参数Dbl、Ground,以及Yamaguchi分解的2个参数Dbl_Y、Helix对应的能量值在油菜5个生长期均有明显差异,在前3个物候期(S1~S3)这些参数的值呈缓慢增长趋势,在S4阶段这3个参数值均呈现跳跃式增加,在S5阶段虽出现了跳跃式降低但能量值仍略高于S3阶段;在以上4个参数中,基于Dbl参数的S5阶段较其他3种参数而言更为离散,结果较不稳定。H/A/alpha分解的参数中,Alpha参数值的5个阶段变化趋势与P2基本一致,但在S3阶段后其值达到饱和;因此,仅采用Alpha值和P2值无法区分S3、S4和S5这3个物候期。第二散射机制的目标散射角Beta1在(S3阶段略低于其他4个生长期)S1和S2阶段与S3、S4和S5阶段差异显著。根据各极化分解参数的物理意义可知,油菜在各个物候期的散射机制差异明显,这使代表不同散射机制的参数值变化明显。然而,单一的极化分解参数由于可反映的物理特征有限,导致其实现精确的物候期划分具有一定困难。而通过多个极化分解参数的组合,可以明显提高各个物候期的可区分度。观察图3还可以发现,物候期阶段的划分也会影响基于极化分解参数的物候期识别精度,这点在文献[12]中也得到了验证。

图3 典型极化分解参数对油菜物候期变化的响应示例Fig.3 Example of response of typical polarization decomposition parameters to phenological changes of rapeseed

2.3 基于决策树的油菜物候期识别

2.3.1 决策树建立与物候期识别结果

以物候期为分类依据,将H/A/alpha分解、Yamaguchi四分量分解和Freeman-Durden分解提取的参数代入决策树模型,分别建立基于3种全极化分解参数的决策树分类模型。根据其对应的误差影响进行决策树叶子节点包含的最小样本数设置(设置minleaf),同时将原始的决策树进行后剪枝计算,得到两组去除一定量数据碎片的决策树。决策树建立过程如下:首先,随机选取7/10的数据进行建模,3/10的数据进行模型精度验证;其次,用训练好的模型对分类数据进行预测,并基于地面调查数据进行预测结果的精度验证。实验中为了获得稳定的分类结果,运行决策树分类模型10次,取均值作为本文物候期分类结果,该过程在Matlab软件中完成。图4、图5与表3分别为3种分解方法组合参数后,原始决策树10次运行结果中的某一次决策树建立过程和分类结果制图,以及基于混淆矩阵的精度评价表。此外,表4为3种分解方法与3种分解方法组合参数后对应的3种决策树模型分类结果的总体精度验证表。

图4 三种分解方法提取的参数组合后的原始决策树示例Fig.4 Example identification result of original decision tree model using the combination of parameters extracted by three decomposition methods

基于3种分解方法组合参数建立的原始决策树模型的物候期识别结果如图5所示。图5-a、图5-e分别采用5期数据的RGB影像作为地块背景,其中,图5-a是2013年5月23日采集的数据,卫星第1次过境时尚有23块地块未进行播种,在图中用褐色进行显示。

此外,本文采取的极化分解参数与分类模型对S1、S4识别准确率较高,错分地块较少;但对S2、S5的识别出现了较多错分现象。此外,S3和S5相互混分现象较为明显。从图5可以看出,获取的5期影像分别涵盖了油菜的5个物候期,其物候期分类结果基本处在一个物候期内。

图5 五期影像物候期识别结果Fig.5 Phenological phase identification results of five images

2.3.2 划分与精度评价

图5分类结果的精度验证如表3和表4所示。其中,总体精度与Kappa系数分别为93.14%、0.914。在制图精度方面,S2精度最高,达95.79%;其次为S3、S4,这2个物候期在本次分类中具有相同的制图精度,为94.74%;制图精度最低的是S5,为89.47%,该物候期在图5中也表现出最为严重的混分现象。用户精度中,S4精度最高,为97.83%,其他物候地块误分到S4的较少;S3、S5相互混分现象严重,其用户精度最低,分别为90.90%、90.42%。

表3 三种分解方法组合参数后的原始决策树识别结果

表4 三种分解方法组合参数后的原始决策树精度

采用3种决策树模型、3种极化分解参数和它们的组合参数进行油菜5个物候期的划分,3种决策树模型的分类总体精度参见表5。表5中,分类总体精度最低的是对决策树进行minleaf处理后得到的分类精度,尽管其分类精度略低于另外2种决策树模型,但该处理过程可以有效减少数据碎片的形成,还可对决策树模型进行简化;而剪枝处理的适用性较广,在其分类总体精度和原始决策树分类总体精度相差不大的同时,可有效避免模型的过拟合现象;因此,可以使用剪枝后的决策树模型进行油菜物候期划分。以原始决策树模型为例,在3类分解方法获得的参数中,基于Freeman-Durden和Yamaguchi分解参数的决策树模型分类总体精度较低,分别为89.45%、89.34%;采用3种极化分解方法参数组合后得到的原始决策树模型分类总体精度最高,为94.00%;而基于H/A/Alpha分解参数的决策树模型分类总体精度仅次于3种分解方法参数组合后的分类精度,为93.40%。说明H/A/Alpha分解的参数几乎包含了其他2类分解方法中参数所携带的用于物候期划分的有效信息。

表5 决策树分类模型总体精度

3 结论与讨论

3种极化分解方法所得到的参数中,对油菜物候期变化敏感度最高的是H/A/alpha分解所得到的参数,其次是Yamaguchi分量分解参数,因为Yamaguchi分解是在Freeman-Durden3分量分解方法的基础上发展的,所以Yamaguchi的参数敏感性与Freeman-Durden3分量分解相似。Wang等[25]采用极化分解参数和随机森林进行农作物物候期监测,其结果也表明,H/A/alpha分解的特征参数对物候期变化更敏感。H/A/alpha分解中S1与S2的划分可用L3、P2和Beta1参数,S3与S5的划分可用Alpha参数,S4可用L2参数。Canisius等[26]也发现,结合Alpha和Beta参数可以较好区分不同作物的物候期。Freeman-Durden3分量分解中S3、S4与S5可用Freeman-Durden3分量分解的Dbl参数;S1与S2可用Freeman-Durden2分量分解中的Ground参数。Yamaguchi分解中对S1与S2的划分可用Helix参数,对于S4可用Dbl_Y参数,该分解对于S3和S5的变化不敏感。在Canisius等[26]的研究中,Dbl_Y与油菜部分生长参数的相关性较小,相反,Vol_Y参数的相关性较高,这可能是由于该研究针对整个油菜生长期分析各极化分解参数与油菜生长参数的相关性,而针对不同生长阶段,各极化分解参数与油菜生长参数的相关性差异较大。决策树模型对于油菜物候期划分结果较为准确,其中,采用3种极化分解参数组合后的原始决策树模型分类结果的总体精度最高,达94.00%,表明PolSAR参数对油菜物候期变化比较敏感,决策树模型可以有效划分油菜物候期,这与Lopez-Sanchez等[27]在水稻物候期划分的研究中得到的结论相一致。

本文基于H/A/alpha分解、Freeman-Durden分解和Yamaguchi分解提取了全极化参数,采用决策树方法分析了全极化信息在油菜物候期识别中的可行性。研究结果表明,在3种分解方法获得的极化参数中,H/A/alpha分解的参数对油菜物候期的变化最为敏感。此外,3种分解方法获得的分解参数在油菜不同物候期识别中敏感性差异明显。决策树模型中,基于3种极化分解方法参数组合后建立的原始决策树模型分类总体精度最高,为94.00%;剪枝后决策树模型分类总体精度为91.61%,和原始决策树分类精度相差不大,但通过后剪枝处理可以有效避免模型的过拟合。尽管如此,单使用全极化分解方法进行油菜物候期识别仍具有局限性,未来可更多地结合植被所具备的特征信息进行物候期识别,如叶面积指数、生物量与株高等。另外,物候期的划分方法,以及在整个作物生长期可获取的遥感影像的数量,都对物候期划分的精度有显著影响,针对油菜的物候期划分如何影响其物候期识别的精度仍需要进一步研究。

猜你喜欢

物候决策树极化
GEE平台下利用物候特征进行面向对象的水稻种植分布提取
海南橡胶林生态系统净碳交换物候特征
认知能力、技术进步与就业极化
极化雷达导引头干扰技术研究
基于干扰重构和盲源分离的混合极化抗SMSP干扰
阿拉善荒漠两种典型豆科植物主要物候期对气候变化的响应*
气候变化对民和杏发育期影响分析
简述一种基于C4.5的随机决策树集成分类算法设计
非理想极化敏感阵列测向性能分析
决策树学习的剪枝方法