基于高分三号卫星数据与分解特征参数的农作物分类研究

2022-11-28赵丽仙张王菲张庭苇黄国然

浙江农业学报 2022年11期

赵丽仙，张王菲，李云，张庭苇，黄国然

(西南林业大学林学院，云南昆明 650224)

高分三号(GF-3)是我国第一颗C波段多极化合成孔径雷达(SAR)民用卫星。自此，我国拥有了自主、自由获取多种极化SAR数据的能力，降低了应用中对同类国外数据的依赖，使我国星载极化SAR系统与国际上的差距明显缩小[1]。GF-3卫星可提供全极化SAR影像。极化SAR信息对农作物的结构变化特征十分敏感，可为农作物监测和分类研究提供有效的数据保障。目前，基于GF-3极化SAR数据应用的研究重点多集中在海洋定量遥感上，针对农作物分类的研究开展得相对较少[2-4]。

农作物的分类与识别是农情监测技术的起点和枢纽，是国家制定经济制度和粮食战略的主要依据之一[5]。遥感技术具有时效性强、成本低、范围大等特点，在大范围的农作物识别中有着不可替代的作用[6]。SAR遥感技术克服了光学遥感易受云雨天气影响的劣势，且可获得光学数据无法获取的植被几何结构、介电常数、高度、形状等信息，因此在农作物识别中具有独特优势[7]。早期基于SAR技术的农作物分类受可提供的数据源的限制，多使用单极化或双极化SAR影像作为数据源，用于农作物分类的信息多集中于单极化或多极化的后向散射系数，因此分类精度普遍不高[8]。2000年以来，极化SAR数据逐渐丰富，基于极化SAR数据的农作物分类研究逐步展开，多种极化SAR特征提取方法被用于农作物分类研究[9]。在基于极化SAR数据的农作物分类特征提取中，极化目标分解方法得到了广泛应用。

1 材料与方法

1.1 研究区概况

研究区位于内蒙古自治区大兴安岭西北部额尔古纳市上库力农场(120.76°E～120.89°E，50.28°N～50.39°N)，年平均气温在-2.0～3.0 ℃，年降水量为200～280 mm。农场地势平坦，大部分为丘陵，80%地区为约15°的缓坡，种植的主要农作物为油菜、小麦和大麦，林地以白桦和落叶松混交林为主。本文选取的研究区(图1)大部分种植农作物，适于农作物分类研究。

图1 研究区位置示意图Fig.1 Schematic diagram of location of study area

1.2 数据源及其预处理

1.2.1 数据源

GF-3卫星于2016年8月10日发射，是我国首颗分辨率达到1 m的C波段多极化SAR卫星，能够获得12种成像模式的高空间分辨率SAR图像，同时能在短时间内获取不同应用模式下分辨率在1～500 m、幅宽在10～650 km的微波遥感数据[17]。本文获取了一景GF-3全极化(QPSI)SAR数据，成像时间为2017年8月5日，极化方式为HH(水平发射水平接收)、HV(水平发射垂直接收)、VH(垂直发射水平接收)、VV(垂直发射垂直接收)，入射角26.17°，距离向采样间隔2.25 m，方位向采样间隔5.32 m，中心经纬度120.67°E、50.26°N。

同步进行的研究区地类调查点数据获取于2017年8月1—6日。采用同期的Google earth影像，经目视解译，结合地面调查数据，共采集了小麦、油菜、植被(主要为林地和草地覆盖的区域)3类典型地物分类点。其中，小麦、油菜、植被的样本数分别为83、105、77个。

1.2.2 数据预处理

将本文采用的数据预处理和地物分类的技术路线总结于图2。其中，GF-3数据的预处理包括多视、辐射定标、滤波和地理编码。

辐射定标，首先采用IDL代码读取GF-3数据，然后采用式(1)进行辐射定标，获取地物的后向散射系数σ0(单位为dB)。

σ0=10lg[P(M/32 767)2]-K。

(1)

式(1)中：P=I2+Q2，对应源定标器在SAR复图像的功率，I和Q分别对应1A级复图像的实部和虚部；M为该景影像量化前的最大值，可通过元数据文件获取；K为定标常数，取值-19 dB[18]。

在PolSARpro 4.2软件中进行多视和滤波处理。为减少斑点噪声的影响，采用精改Lee滤波器来减小斑点噪声。经过对比不同窗口大小地物的后向散射系数，最终确定滤波窗口的大小为3×3。

1.3 极化特征参数提取

(2)

式(2)中：λi是实数，它是T3矩阵的特征值，分别描述着对应特征向量Ui的比重[11]。

SERD和DERD由Allain等[20-21]提出。SERD对高极化熵H的媒质敏感，可以区分不同散射机制的特征和大小。DERD参数与各项异度A对散射机制的区分类似，但其值的动态范围大于A，且对于每个介电常数，其对后向散射系数的变化是单调变化的，而A是非单调变化的。

(3)

(4)

(5)

(6)

(7)

(8)

λ3NOS=2〈|SHV|2〉。

(9)

2006年，Réfrégier等[22]提出SE参数。该参数反映了地物散射的随机性，地物目标散射随机性越大，其值越大，可获得的信息量也越大，反之则越小。

VSE=VSEI+VSEP。

(10)

式(10)中VSE、VSEI、VSEP分别代表SE、SEI和SEP的值。其中，SEI为与总后向散射功率相关的强度分量，表示地物散射强度信息量；SEP为与极化度相关的极化分量，表示地物极化度信息量。

(11)

(12)

式(11)、(12)中：p为极化度，I为强度。

Ainsworth等[23-24]提出了PA和PF。根据Barnes-Holm目标分解算法，可以将相干矩阵T3分解为一个极化项和非极化项：

(13)

式(13)中：λ1、λ2和λ3均为T3矩阵的特征值。

PA参数可以用极化回波中两特征值的差与和之比表示两种散射机制的相对大小，其取值范围为[0，1]，计算公式为

(14)

式(14)中VPA表示PA参数的值。

PF的取值范围同样为[0，1]，其计算公式为

(15)

式(15)中：VPF表示PF参数的值；Span为雷达回波的总功率，表征地物极化散射分类的占比。

Van Zyl[25]利用随机取向的圆柱介质模型分析了植被区散射，进而提出了RVI，其取值范围为[0，4/3]。当RVI的值为4/3时，雷达植被指数可表征细圆柱体散射，当其值递减到0时，则表征粗圆柱体散射。

(16)

式(16)中VRVI表示RVI的值。

PH是用来描述散射过程随机性特征参数的另一种方法，是测量最小值特征与最大值特征的比值，其取值范围为[0，1]，可以对平均回波中未极化的分量进行度量[26]。

(17)

式(16)中VPH表示PH的值，λ3≤λ2≤λ1。

1.4 图像分割算法

图像分割技术在图像分析、理解和识别中起着重要作用。模糊C均值(Fuzzy C-means)算法，简称FCM算法，是一种基于模糊理论的聚类算法[27]，主要用于数据的聚类分析。FCM算法将图像空间中的像素用对应的特征空间点表示，根据它们在特征空间的聚集对特征空间进行分割，然后将它们映射回原图像空间，进而得到分割结果。在众多的分割算法中，基于聚类分析的分割算法应用相当广泛，其中，FCM算法是该类方法中较为经典的算法，且分割速度较快，因此本文选择FCM算法作为分割算法。

1.5 分类算法

1.5.1 SVM算法

SVM算法的核心是，基于线性分类器利用超平面将数据分开。为了实现类别间的最优分割，SVM选择边距最大的超平面，即线性可分情况下的最优分类超平面[28-29]进行分类。SVM在训练样本较小时，依然能有效避免经典分类方法中的维数灾难、过学习、局部极小等问题，从而实现良好的分类效果。相较于传统的分类方法，其分类结果中的图斑普遍较为完整，噪声较小，总体分类精度较高，具有良好的性能优势。因此，本文选择SVM作为分类算法之一。

1.5.2 RF算法

RF是一种集成算法，主要适用于分类和回归分析。它属于自举汇聚法(Bagging)类型，即利用相互没有关联的各个弱分类器进行拟合，通过多数投票机制或取均值的方法获取结果，从而使整体模型的结果更精准、更具泛化能力[30-31]。这种分类方法的分类结果相比于单棵决策树，准确率更高，同时具有抗过拟合的能力，因此本文选择其作为另一分类算法。

1.6 精度评价

本文采用经典的混淆矩阵开展精度评价。混淆矩阵又称可能性表格或错误矩阵，是将实际的像元位置和分类结果中对应的像元位置按一定的数学法则以矩阵的形式表示出来。在利用遥感影像进行分类时，混淆矩阵通常作为评价分类结果的重要方法之一。本研究选用总体精度、Kappa系数、生产者精度和用户精度等指标对分类结果的精度进行评价。

2 结果与分析

2.1 农作物极化散射特征分析

为了确定极化特征对农作物的可区分性，统计了本文提取的9个极化参数对3种类型地物的散射特征(图3、表1)。从极化散射特征分布曲线来看，研究区的地类在SE参数中的分离度不高。从SEI和SEP两个参数来看，前者的像元混淆程度较大，3类地物的可分性较低；而后者相对3类地物的混淆程度较低，且地物的均值相差较大，其中，小麦的均值最高，油菜的最低，三者相对可分离或可分离程度较高。SERD和DERD对地表粗糙度均较为敏感(因二者基于同一物理模型)，区别在于引入的特征值分别是单次反射和二次反射特征值。DERD中3类地物的均值相差不大，尤其是油菜和植被的均值较接近，且标准差相等，像元混淆程度大，但这二者与小麦的可分离性较高。SERD中小麦和油菜的均值相差较大、离散程度小，可分性较强，但植被与这二者的像元混淆程度较大。这可能是由于单次散射主要影响平均散射机制，即使是非常粗糙的表面，出现二次散射和多次散射的概率也很小。各地类像元的PF值混淆度较低，可分性较高；但基于PA值的可分性较低，可能是由于PA在PF的基础上引入了2个新的归一化特征值，复杂的物理模型在一定程度上增加了结果的不确定性。在RVI和PH中，3类地物的均值最高的是油菜，其次是植物，小麦的均值最低，总体来说三者的可分性都较高，但从极化散射特征分布曲线来看，小麦和油菜的分离程度最高。

DN，遥感影像像元亮度值。DN, Digital number, the photopixel brightness value of the remote sensing image.图3 基于分解的9个参数的极化散射特征统计图Fig.3 Statistical diagram of polarization scattering characteristics of 9 parameters derived decomposition

表1 极化散射特征统计量

2.2 FCM分割

基于FCM算法对研究区的影像进行分割处理，并对部分研究内容之外的复杂地物进行掩膜处理，使其不参与分割和后续的分类研究。对各个极化分解新参数，其分割前、后的效果如图4所示。图中白色部分即为掩膜部分，红色部分为地块的边界。可以看出，FCM算法很好地保留了分割前的信息，总体来看，分割结果边缘保持较好，错分割现象不明显，虽然在有些参数下存在过分割现象，但不影响后续的分类研究。

图4 分割前后的各参数影像Fig.4 Images of various parameters before and after segmentation

2.3 基于单一参数的分类结果比较

基于分割结果，采用SVM和RF分类器，利用不同的参数特征值对研究区进行分类，并对比分类结果(图5、图6)。在研究中，选用同样的训练样本，选取总体精度和Kappa系数作为参考值，通过精度评价基于单一参数分类的结果。从9个参数分类图的结果来看，在SVM或RF的结果中，DERD和PA的分类效果均不佳，主要是由于这2个参数对植被不敏感，无法很好地将其区分出来，而且分类结果中的细碎斑块较多，但整体来看，对小麦和油菜的分类结果较好。基于PF参数的SVM分类结果中，由于地物散射机理的原因，植被与小麦有一定的错分现象。从SEI的分类结果来看，SVM算法要优于RF。SVM和RF的分类结果图中都可以明显地辨别出小麦和油菜，分类效果较好。

图5 基于单一参数的SVM分类结果Fig.5 SVM classification results based on single parameter

图6 单一参数的RF分类结果Fig.6 RF classification results based on single parameter

从分类精度来看，两个分类器的结果基本相似(图7)。基于PA、DERD、SEI的分类效果一般，分类精度在70%以下；SE的分类精度低于80%；SERD、PH、PF、SEP和RVI的分类结果较优，分类精度在82%～89%，Kappa系数在0.74～0.89(表2)，且分类图较规整，细小斑点较少。具体地，从SVM的分类结果来看，基于SEP和RVI的分类精度最高，高于90%，分类结果也与地面数据较为相符；从RF的分类结果来看，基于PH和SEP的分类精度均大于90%，但较SVM而言，RF下植被分类结果的细碎斑块较多。对3类地物分别分析，小麦在所有的参数下分类精度都较高，错分的现象较少，特别是在SEP和PH中分类效果最好；SERD对油菜的分类精度最高，仅有极少部分会与植被混淆；植被在SERD和PH中的分类效果较好。综上，所有参数特征均可较好地区分小麦和油菜。

图7 基于单一参数的SVM和RF分类的总体精度Fig.7 Overall accuracy of SVM and RF classification based on single parameter

表2 基于单一参数的SVM和RF分类的Kappa系数

2.4 基于不同参数组合的分类结果比较

由于单独运用PA、DERD、SE和SEI参数的分类效果较差，为了进一步探索这4个参数在农作物分类中的潜力，深入分析这4个参数单独用于3类地物区分的能力。在SVM分类结果中，从生产者精度和用户精度来看，PA和DERD参数无法较好地区分出植被(图8)，与前述结果一致；SE和SEI参数下植被的用户精度较高，SE参数下油菜和小麦的生产者精度较高。在RF分类结果中，植被的用户精度和生产者精度较低，但优于SVM方法；SE参数下油菜的用户精度和生产者精度均最高，SEI参数下植被的用户精度和生产者精度均最高。基于此，本文分别设置PA+SE、PA+SEI、PA+SE+SEI、PA+DERD+SE+SEI的参数组合，分别利用SVM和RF进行农作物分类。将这些参数两两或三个组合后，分类精度较之前都有所提高(表3)，但效果不及4个参数全部组合(分类精度达90%以上，Kappa系数大于0.8)。结果表明：组合参数对提高分类精度有贡献，有利于参数之间的信息互补，组合后，参数的信息能最大限度地得到利用，从而提高分类精度。

表3 组合参数的分类精度

对比所有的分类结果，其最优分类结果如图9所示，图中分布散乱的椒盐噪声较少，分类结果与地面数据较相符，分类效果好。

图9 基于参数组合的分类结果Fig.9 SVM and RF classification result based on combined parameters

3 讨论

基于极化SAR数据对农作物进行分类时，特征组合是提高分类精度最常用的方式。王晨丞等[36]基于C波段Sentinel-1B极化SAR数据对农作物进行分类，虽然该研究组合了农作物最佳纹理信息，但其分类精度不及本文基于单一参数进行分类的精度。这进一步表明，扩展参数在农作物分类中的应用潜力较大。

要特别说明的是，由于本文研究区中的农作物类别较少，而不同农作物的散射特征不同，因此本文选用的参数和GF-3数据在其他农作物类别区分中的可行性仍需要进一步研究证实。另外，农作物不同生长阶段的极化散射特征也具有明显差异，本文仅选取了一个时段的影像进行农作物分类研究，关于作物不同生长阶段的可分性等问题仍需要未来进一步探索。