基于SVM+SFS策略的多时相紧致极化SAR水稻精细分类
2018-12-20国贤玉李坤王志勇李宏宇杨知
国贤玉, 李坤, 王志勇, 李宏宇, 杨知
(1.山东科技大学测绘科学与工程学院,青岛 266590;2.中国科学院遥感与数字地球研究所,北京 100101;3.中国地质大学(北京)地球科学与资源学院,北京 100083;4.中国电力科学研究院输变电工程研究所,北京 100055)
0 引言
水稻是世界三大粮食作物之一,为我国一半以上的人口提供粮食来源。种类和种植方式的不同导致水稻长势、产量存在一定差异,传统的水稻制图(区分水稻和非水稻)已经难以满足高精度农业应用的需求。因此实现水稻精细制图,区分不同水稻品种与种植方式,为水稻长势监测提供更精准的信息,对于现代农业的发展具有重要意义。
紧致极化SAR(compact polarimetry synthetic aperture Radar,CP-SAR)降低了系统复杂度与能耗,缩小了传感器体积,已成为新一代对地观测SAR系统的重要发展趋势之一[1]。与全极化SAR相比,CP-SAR不仅能够保持丰富的极化信息,还能实现更大的幅宽与入射角范围。近年来,CP-SAR相关研究主要集中在3方面:①CP-SAR系统接发模式研究[2-3];②CP-SAR模拟与伪极化(pseudo-quad-pol,PQ)SAR重建方法研究[4-5];③CP-SAR应用研究,如信息提取[6]、作物分类[7]、森林参数反演[8]、海冰和溢油[9-10]等。虽然目前基于CP-SAR的应用研究覆盖面很广,但还不够深入,以农业应用为例,大多数研究都集中在简单的作物制图上,对于种植方式和种类的区分研究很少。
目前SAR水稻制图方法主要依据有3类:①后向散射特性的时相变化规律[11-12];②不同极化后向散射特性的差异[13];③全极化散射机理特点[14-15]。前2类方法都只利用后向散射强度信息,不包含雷达回波的相位信息。第3类方法精度高,普适性较强,对数据时相的要求也较低。虽然全极化SAR在水稻制图中具有较大优势,但全极化系统的脉冲重复频率是单双极化的2倍,相应的幅宽也小,限制了大范围水稻制图的应用。因此,在同时兼顾制图精度与面积的情况下,CP-SAR是最佳选择之一。2013年,Brisco等[16]基于CP-SAR开展水稻制图研究,对比分析了单双极化、CP-SAR与全极化SAR的制图效果,结果表明CP-SAR在水稻制图中的应用效果可与全极化相媲美,远优于单、双极化数据;2015年,Uppala等[17]基于RISAT-1卫星CP-SAR数据利用监督分类进行水稻识别,得到了较高的制图精度。这些研究表明了CP-SAR在水稻制图中的应用潜力,但集中于区分水稻和非水稻,对于水稻种类以及种植方式的区分研究不足。
鉴于此,以江苏金湖地区为研究区,开展CP-SAR水稻精细制图方法研究。针对插秧籼稻/粳稻、撒播粳稻3类水稻田,考虑水稻植株分布特征、生理结构特点以及下垫面的影响,研究分析其CP-SAR响应特征以及时相变化规律,在此基础上,针对CP-SAR多维特征信息,引入基于支持向量机和序列前进搜寻(support vector machine and sequential forward selection,SVM + SFS)[18]策略的特征选择方法,构建基于决策树和SVM的水稻精细分类方法。
1 研究区概况与数据源
研究区位于江苏金湖(E118°41′34″~119°16′27″,N33°17′05″~33°56′39″),属于亚热带季风气候区,地势平坦,地块规则。该区水稻一年一熟(6—11月)。水稻种类为籼稻和粳稻,播种方式分为插秧和撒播,故水稻田可分为插秧籼稻田(TH)、撒播籼稻田、插秧粳稻田(TJ)和撒播粳稻田(DJ)4类。由于该区几乎没有撒播籼稻田,因此主要针对TH,TJ和DJ这3类(图1),开展精细制图方法研究。
(a) TH(幼苗期) (b) TJ(幼苗期) (c) DJ(幼苗期)
(d) TH(乳熟期) (e) TJ(乳熟期) (f) DJ(乳熟期)
在研究区获取了9景RADARSAT-2精细全极化SAR数据,方位向和距离向空间分辨率分别为5.2 m和7.6 m。由于封行之前3类水稻田差异相对较大,因此,选择对应时段的SAR数据进行水稻精细分类方法研究,获取日期分别为2012年6月27日、7月11日和7月21日。首先基于3个时相的全极化SAR数据模拟CP-SAR数据。模拟数据为圆周极化发射线性极化接受模式(circular transimit and linear receive,CTLR),发射右旋圆(R)极化、接收水平(H)和垂直(V)极化[19],空间分辨率为30 m,噪声水平为-25 dB(图2)。获取SAR数据的同时,开展了地面实验,采集了水稻种类、种植方式和物候等信息,并利用高精度GPS获取了41块水稻样田的矢量数据,其中包括24块TH、6块TJ、11块DJ,还选择了8块水体和10块城镇建筑。
图2 CP-SAR模拟数据在不同极化通道的假彩色合成影像(CP-SAR RR(R),RV(G),RH(B)假彩色合成)
2 研究方法
研究流程主要包括CP-SAR数据模拟与特征参数提取、数据预处理、基于SVM + SFS的CP-SAR特征参数优选以及基于优选特征利用决策树和SVM方法进行水稻田精细分类,具体技术流程如图3所示。
图3 技术路线
2.1 数据预处理
基于CP-SAR模拟数据,根据特征参数定义,提取22个CP特征参数(表1)。然后对特征参数进行辐射定标、几何纠正、研究区裁剪和斑点噪声滤波等预处理。通过比较选择Frost滤波方法,以7×7窗口进行降噪处理。在此基础上,基于地面样方,提取不同类型水稻田、水体和城镇建筑的CP-SAR特征参数。
表1 提取的22个CP特征参数
(续表)
2.2 SVM + SFS策略特征选择方法
为了充分挖掘CP-SAR多维特征信息,同时保证分类方法的简洁性,引入基于SVM + SFS的特征选择方法,对22个CP-SAR参数进行优选。把每一特征参数看作由一个向量和一个标记组成,即Di=(xi,yi),x=[x1,…,xi,…,xn]为训练数据向量,n为训练数据个数,yi为分类标记(yi取-1或1)。定义函数和超平面分别为
g(xi)=〈w,x〉+b,i∈[1,n]
(1)
〈w,x〉+b=0
(2)
式中:w为系数向量,其维度为n;b为常数变量。若使分类数据被超平面分成2类,超平面必须满足yi(〈w,x〉)≥1。SVM思想是使所求最优超平面能够具有最大的分类间隔,分类间隔δi表示为
(3)
式中:||w||为向量w的范数;|g(xi)|为g(xi)的绝对值。这等同于求二次规划问题,即
(4)
yi(〈w,x〉+b)≥1,i∈[1,n]
(5)
引入Lagrange算子α*,令α*≥0,满足式(6)有唯一解,即
(6)
式中b*为最优化的常数变量。当样本点到超平面距离为最短距离,则yi(〈w,x〉+b)=1且α*≠0,否则yi(〈w,x〉+b)>1且α*=0。α*=0的样本称为支持向量(support vector,SV),样本的总个数称为SV个数(number of SV,NSV)。在SVM分类算法中,可分性的优劣就是由NSV判断,NSV越小,可分性越好。
除了3类水稻田的最优特征,利用上述方法还选出了区分水稻与非水稻的最优特征。
2.3 3类水稻田CP-SAR响应规律
面向水稻田精细分类,利用SVM + SFS方法,优选出的CP特征参数如表2所示。图4给出了3类水稻田在优选参数上的差异,且将优选特征参数分为2类:①强度特征参数;②非强度特征参数。
表2 利用SVM + SFS方法优选的CP-SAR特征参数
(a) 强度极化特征参数 (b) 非强度极化特征参数
相对于TH和TJ,DJ水稻植株密度更大,因此其后向散射和体散射都比较大;而TH和TJ的下垫面为水面,引起镜面反射使其后向散射和体散射较小,这导致DJ与TH,TJ的后向散射和体散射差异较大。由于σ0RH和σ0RV主要来自体散射的去极化作用,因此DJ的σ0RH和σ0RV大于TH和TJ(如图4(a)所示),差值约为0.8 dB;而g0,g1与后向散射密切相关,2参数对于区分DJ与TH,TJ有较大贡献。TH下垫面为水面,且籼稻幼苗植株更高且粗壮,下垫面与植株垂直结构更容易形成二面角,因此TH的二次散射更强;TJ植株高度较小,DJ下垫面为土壤,因此TJ和DJ的二次散射相对较弱。由于二次散射在RR上的响应较强,因此TH的σ0RR大于TJ和DJ,差值约为1.3 dB;m-χ_db和m-δ_db表征二次散射的强度,因此TH的m-χ_db和m-δ_db强度值大于TJ和DJ,差值约为3.8 dB。所以σ0RR,m-χ_db和m-δ_db对于区分TH与TJ,DJ有较大贡献。DJ下垫面为土壤,其面散射贡献最大;TJ植株相对弱小,下垫面粗糙面散射贡献较大,TH植株相对高而粗壮,面散射最弱,由于σ0RL,g3,m-χ_s,m-δ_s与面散射密切相关,因此3类水稻田对应的这4个参数差异较大(如图4(a)所示)。以g3为例,其差值约为3 dB,对于区分3类水稻田贡献较大。TJ植株密度相对较小,而且粳稻植株相对弱小,因此其体散射相对于DJ和TH较小。m-δ_vol和m-χ_vol表征地物体散射,故TJ的这2个参数小于DJ和TH,其差值约为0.7 dB,对于区分TJ与DJ,TH贡献较大。
Hi表征散射机制的复杂程度,由于体散射更为复杂,因此体散射贡献越大Hi越大。通过前面3类水稻田的散射机理分析,DJ的体散射贡献最大,TH次之,TJ最小,由图4(b)可以看出,DJ的Hi大于TH且远大于TJ,因此,Hi对于区分DJ和TJ贡献较大。μ和α都与散射机理密切相关,μ从大到小分别表示面散射、体散射和二次散射;而α反之。因此DJ的μ值大于TJ和TH,而DJ的α值小于TJ和TH。μC也与目标的散射机理密切相关,其值与面散射的贡献成反比,DJ对应的μC值小于TJ和TH,对于区分TH与DJ贡献较大。
2.4 基于CP-SAR优选特征的水稻精细分类
基于SVM + SFS方法优选CP-SAR特征,分别采用决策树和SVM方法进行水稻精细分类。另外,将3类水稻田、城镇建筑和水体样方分为训练和验证样本2部分,TH、水体和城镇建筑的训练和验证样本各占一半,二者之间没有重叠。由于TJ和DJ的样本数较少,训练和验证样本之间约有30%的重叠。
2.4.1 决策树分类
首先利用CP-SAR优选特征区分水稻与非水稻,再进行3类水稻田的区分,最终实现精细分类,决策树分类如图5所示。图中变量的数字后缀代表影像获取日期。
图5 3类水稻田的分类决策树
研究区非水稻区域主要包括城镇建筑和水体等,水稻与水体、建筑的二次散射贡献差异很大(图6),而RR极化对二次散射敏感,因此首先根据σ0RR,区分水稻和非水稻。水体的m-δ_db约为-35 dB,小于其他非水稻区域,因此利用m-δ_db区分水体;最后再利用m-δ_db和σ0RR将城镇建筑与其他非水稻区分开。针对3类水稻田,先利用6月27日(幼苗期)m-χ_db_0627,μC_0627和m-δ_vol_0627区分不同种植方式,即DJ与TH,TJ。因为撒播田下垫面为土壤,且植株矮小,二次散射比插秧田弱,而由于植株密度较大,其体散射较弱大于TJ,小于TH。另外,针对TH与TJ可分性较弱,且二者种植方式相同,田块结构相似,只能依靠水稻植株形态差异进行区分。7月11日,TH在RR上的响应较强,21日由于冠层密度增加,衰减增大,TH发生二次散射的能量减少,在RR上的响应减弱;而TJ刚好与之相反,因此利用二者在2个时相上的差异来实现区分。
2.4.2 SVM分类
基于CP-SAR优选特征,利用SVM进行分类。选择径向基核函数(radial basis function,RBF),其Gamma值为输入图像波段的倒数,惩罚参数为100;分级处理等级为0,以原图像空间分辨率进行分类处理;分类概率阈值为0。
3 结果与分析
通过设计4组对比实验进行结果分析:①利用6月27日12个CP优选参数进行SVM分类,并与全部22个参数SVM分类结果进行比较;②考虑时相信息,利用3个时相28个优选参数进行SVM分类,并与全部66个参数分类结果进行比较;③利用决策树方法进行TH,DJ与非水稻区的区分;④利用决策树进行3类水稻田与非水稻区的区分。最后利用验证样本对分类结果进行精度评价(表3)。可以看出,水体和城镇建筑分类效果较好,生产者精度和用户精度均在90%以上,不同方法、不同时相组合对应的分类结果差异不大。
表3 2种分类方法的分类精度比较
①在Tm-n-k中,m表示用于分类的SAR数据时相数;n表示参与分类的CP-SAR特征参数个数;k表示水稻分类类别。
对于水稻来说,单一时相12个优选参数SVM分类,TH平均精度约为70.6%;TJ的生产者和用户精度都很低。多时相28个优选参数SVM分类,3类水稻的精度都有所提高,因此多时相对区分水稻种类、种植方式具有一定贡献;但是TJ生产者精度只有24.16%,即大部分TJ被错分成TH,说明水稻种类的区分能力仍然不高。多时相全部66个参数SVM分类,总体精度为91.38%,Kappa系数为0.880,与多时相28个优选参数SVM分类结果相近,可见对于水稻精细分类,基于SVM + SFS策略优选的28个特征参数能够与全部66个参数达到同样效果,避免了数据赘余、提高了运算效率。
利用多时相28个优选参数,进行决策树方法,区分TH和DJ,总体精度为97.44%,Kappa系数为0.962;区分3类决策树分类总体精度达到92.57%,Kappa系数达到0.896。与优选参数SVM分类对比总体精度提高1%~9%,Kappa系数提高0.01~0.12。TJ生产者精度为45.74%,比SVM分类精度提高了0~40%。总体来看,SVM + SFS策略优选参数决策树分类要优于SVM分类,并且分类速度更快。
从分类精度来看,TJ生产者精度较低,区分效果不好主要有以下几方面原因:①由于播种方式的不同,幼苗期插秧稻田种植稀疏,植株成行成垄,而撒播稻田植株较稠密,在雷达响应上表现差异性大,因此DJ容易与TH,TJ区分。幼苗期TH和TJ这2类水稻具有水稻共性,并且幼苗期水稻植株小,导致在雷达响应上表现差异性小;分蘖期和拔节期2类水稻植株表现出差异性,但随着植株生长,植株间的缝隙减小,这种差异性又淹没在水稻群体中,导致在雷达响应上差异性小,使得TJ区分效果不好;②研究区TJ种植面积少,在研究区地面获取的样方也少,影响TJ生产者精度;③本研究使用CP-SAR模拟数据,空间分辨率为30 m,噪声水平为-25 dB,空间分辨率和噪声水平与真实SAR数据(以RADARSAT-2全极化为例,空间分辨率8 m,噪声水平约为-32 dB)存在一定的差异。
采用SVM和决策树分类方法,3个时相28个参数分类结果如图7所示。
(a) SVM分类 (b) 决策树分类
从图7(a)中可看出,城镇建筑和水体被明显分出,这与城镇建筑、水体与水稻的散射特性差异性大有关。除水体和城镇建筑外,水稻田分为3类,TH多分布在东南区,TJ和DJ多分布在西北部,以TH分布最为广泛。这与研究区实际水稻种植分布现状基本相符;在图7(b)中,利用决策树分类比SVM分类效果更细,将村庄道路也区分出来,从整体来看,依然是TH分布在金湖地区东南部,TJ和DJ分布在西北部,城镇多分布在研究区南部。
4 结论
利用CP-SAR模拟数据提取多维特征信息,引入基于SVM + SFS的特征选择方法,构建了基于决策树和SVM的水稻精细分类方法,为水稻长势监测与估产提供了更精准的信息。具体结论如下:
1)利用多时相CP-SAR模拟数据,分析了不同种植方式、不同品种的3类水稻田的CP-SAR响应特征、散射机理及其时相变化规律。
2)针对CP-SAR多维特征参数,引入基于SVM + SFS的特征选择方法,建立了面向水稻田精细分类的CP-SAR最优特征集,并结合物理意义分析了这些特征在不同水稻田区分中的优势。
3)基于优选的CP-SAR特征参数,建立了不同种植方式、不同品种的3类水稻田的精细分类方法,TH与DJ的分类精度较好,平均精度分别达到88%和82%。TJ的分类结果相对较差,平均精度达到60%。
4)当利用3个时相CP-SAR数据水稻精细分类时,基于SVM + SFS优选特征的分类结果优于全部特征的分类结果。
但是TJ分类精度不高,应继续分析TJ与TH,DJ的差异,充分利用CP-SAR数据,提高TJ分类精度将是我们下一步的工作重点。