基于多时相双极化SAR 数据的作物种植面积提取
2020-07-02古丽努尔依沙克买买提沙吾提马春玥
古丽努尔·依沙克 买买提·沙吾提 马春玥
新疆大学资源与环境科学学院 / 新疆大学绿洲生态教育部重点实验室 / 新疆智慧城市与环境建模普通高校重点实验室, 新疆乌鲁木齐 830046
农作物种植面积是农情监测的重要要素之一,准确分类识别作物, 及时获取农作物种植面积信息及空间分布状况在农业生产管理与农业政策等方面具有重要意义[1-3]。与传统的农业统计报表和抽样调查方法相比, 遥感技术具广泛性、时效性、周期性、综合性和经济性等特点, 在农业生产中发挥着极其重要的作用[4-5]。目前, 国内外众多学者利用光学遥感影像对不同时空尺度下的多种农作物进行了分类识别研究[6]。尽管光学遥感技术在作物识别和种植面积提取应用中已经很成熟, 但是易受阴雨天气的影响, 从而使光学遥感数据的使用受到了的限制[7]。
合成孔径雷达(Synthetic aperture radar, SAR)由于不受光照和天气等条件的限制, 能够实现全天时、全天候对地观测, 同时具有较强的穿透能力, 其他遥感无法与之比拟[8]。随着雷达技术的发展, 利用SAR 数据识别农作物、获取农作物面积、长势、产量等关键信息, 并且由单极化、单传感器向多极化、多传感器领域发展, 为农作物识别和种植面积提取研究提供了强有力的数据保障和技术支持。以往农作物识别研究中大多以光学数据或者单极化、单时相SAR 影像为主要数据源, 而且多数研究是对水稻进行识别[9-11], 很少应用到旱地作物的种植面积信息提取研究。Loosvelt 等[12]利用L 波段的EMISAR数据进行极化分解、提取极化散射特征, 用随机森林计算重要性随时间的变化, 对豌豆、甜菜、冬小麦、冬大麦和黑麦进行分类, 为SAR 监测作物整个生长季提供了参考。Zhou 等[13]将资源三号和Sentinel-1 数据叠加, 基于时间序列分析方法, 对多云多雨地区的农作物分类, 且与SVM 和RF 分类对比, 使精度提高了5%。Paolo 等[14]结合Landsat-8 和X 波段SAR (COSMO-SkyMed)数据, 根据其季节性特征组合, 在不同作物可分离性的基础上建立分类方法对温带地区的7 种作物制图, 表明光学和SAR遥感影像相结合可有效提高作物识别精度。李俐等[15]利用多时相Sentinel-1A 影像根据不同生育期玉米后向散射系数的变化情况, 运用SVM 算法提取了玉米种植面积, 得到了较理想的结果。Jia 等[16]利用ASAR 和TerraSAR 数据提取小麦和棉花的纹理特征,对不同生长期、不同波段以及不同极化的SAR 影像进行组合, 利用SVM 方法对作物分类, 结果表明相较于单波段影像不同波段组合的SAR 数据在作物分类上具有一定的优势。郭交等[17]基于多时相PolSAR数据, 通过定义参数描述不同农作物的极化散射特性的变化规律, 提出一种新的分类算法, 对油菜、豌豆、春小麦等作物进行监督分类, 使识别精度得到提高, 为SAR 数据在农业遥感监测应用方面提供了有力的科学依据。以上研究结果都表明, 多时相、多波段的雷达遥感数据在作物识别方面具有一定的可行性和潜力, 可作为旱地作物识别的有效遥感数据源[18]。
本文以多时相、双极化Sentinel-1A SAR 数据为主要数据源, 在充分分析不同农作物的SAR 影像后向散射系数的基础上, 分别采用支持向量机、人工神经网络和随机森林3 种方法进行作物分类, 针对不同分类方法的识别能力做出评价, 为时序SAR 数据用于旱地作物识别及面积提取研究提供了新的技术支持。
1 材料与方法
1.1 研究区概况
渭干河—库车河三角洲绿洲, 位于83°06'30″—83°31'40″E, 41°24'45″—41°44'50″N, 地处天山南麓、塔里木盆地中北部, 隶属于新疆阿克苏地区, 包括库车、沙雅和新和3 个县, 是典型的扇形平原绿洲。渭—库绿洲地势北高南低, 自西北向东南倾斜,年降水量为 50.0~66.5 mm,年均蒸发量为 2000~2092 mm。研究区主要土地利用类型为农业用地, 农作物生长依赖于灌溉, 该地区主要作物包括棉花、夏玉米、核桃、红枣等, 作物生长期为4月至10月[19]。研究区示意图见图1。
1.2 地面调查数据
分别于2018年7月3日至7月12、2019年2月5日至2月9日进行了2 次野外实地考察。目的是为了考察影像分类所需要的各类地物的样本和样方, 以及不同作物的分布特征。考察中总共获取了478 个典型地物样点, 其中包括246 个训练样本和232 个验证样本, 以及 20 个样方, 样方面积约1 km×1 km。此外, 用差分GPS 获取了样点的经纬度,测量样方各作物面积。根据实地考察情况, 将棉花、玉米、果园(Orchard)、建筑、水体以及其他确定为最终的分类类型。
1.3 SAR 数据及处理
Sentinel-1 是由欧空局(ESA)研发的C 波段雷达成像系统, 由A、B 两颗卫星组成, 能够全天时、全天候采用4 种成像模式观测。本文以Sentinel-1A 影像IW模式的L-1 级GRD 产品作为主要数据来源, 该产品已经过多视处理以及投影, 其主要参数如表1 所示。
图1 研究区及样点分布示意图Fig. 1 Map of study area and sample distribution
表1 Sentinel-1A SAR 数据主要参数Table 1 Main parameters of Sentinel-1A SAR data
利用由ESA 提供的SNAP 5.0 软件中Sentinel-1 Toolbox 对SAR 数据进行预处理。通过公式(1)进行辐射定标[20]。
式中,i,j表示像素点位置为第i行第j列; DN 为影像灰度值;Ssigma为定标参数。借助30 m 分辨率的数字高程数据SRTM 来完成几何精校正。再对以上结果进行地理编码, 最后选用7×7 窗口的Lee Sigma 方法进行噪声处理。
1.4 研究方法
首先对Sentinel-1 影像进行预处理, 步骤包括辐射定标、Range-Doppler 地形几何校正、地理编码以及Lee Sigma 滤波。其次, 为了进一步分析不同农作物在不同时相和极化方式下的变化特征, 计算出研究区5 种地物(包括棉花、玉米、果园、水体和建筑)在各个波段的后向散射系数Sigma 值、归一化后向散射系数Gamma 值, 分别给出6 个时相的VH 极化、VV 极化图像的统计图。再次, 为克服以定性方法分析地物的后向散射特征, 采用J-M 距离对研究区典型地物类型进行可分离性分析, 结合不同作物的生长周期和物候特征, 分析其相互间的分离度, 在此基础上选取能有效区分不同作物类型的最佳识别时相, 并计算出其J-M 距离(表2 和表3)。基于以上工作, 结合野外考察数据, 采用人工神经网络(ANN)[21]、支持向量机(SVM)[22-23]和随机森林(RF)[24]3 种分类方法对多时相双极化SAR 影像进行分类,并验证其精度。技术路线见图2。
2 结果与分析
2.1 典型地物散射特征分析
基于SAR 遥感影像, 算出了典型地物的Sigma、Gamma 值, 给出不同时相的多极化影像后向散射统计图(图3)。雷达后向散射系数受作物的叶片密度、结构、含水量、品种、生长时间等因素的影响, 不同类型作物的散射特征随着生长周期的变化表现出不同的散射机理[17]。总体来看, 棉花的后向散射系数分布在-21.5 dB 到-6.5 dB 的区间; 玉米的后向散射系数分布在-19.43 dB 到-10.94 dB 的区间; 果园的后向散射系数主要分布在-16.98 dB 到-7.47 dB 的区间; 水体的后向散射系数则普遍较低, 主要在-26.47 dB 到-19.29 dB 区间; 建筑的后向散射系数普遍较高, 在-6.29 dB 到13.98 dB 区间内变化。这是由于水体表面光滑, 水体在雷达图像上发生镜面反射, 后向散射极其弱; 受建筑结构和形状的影像,使建筑发生了角散射, 后向散射较强。
表2 典型作物不同时相J-M 距离Table 2 Jeffries-Matusita distance of typical crops with different phases
表3 典型作物不同波段组合J-M 距离Table 3 Jeffries-Matusita distance of typical crops with different band combinations
图2 技术路线图Fig. 2 Technology road map
图3 多时相SAR 典型地物后向散射统计图Fig. 3 Histograms of backscattering of typical ground objects in multi-temporal SAR data
从时间尺度上来看, 棉花的后向散射系数从4月份至 8月份, 频率峰值逐渐上升, 平均增长了5.32 dB; 在8月份峰值达到最高, 平均为-11.38 dB;到了9月, 后向散射系数有小幅度的减小。棉花在4月至5月处于播种期和出苗期, 受到地面散射的影响, 后向散射强度较小, 6月和7月份随着棉花生长到现蕾期和开花期后向散射系数也逐渐增长, 8月和9月份达到吐絮期后, 与其他作物的散射差异最明显, 后向散射达到最高。玉米的生长期与棉花相似,4月和5月份玉米处于播种期和出苗期, 后向散射较低, 均在-13 dB 以下; 6月和7月份到了拔节期和抽穗期之后, 逐渐向右移, 后向散射逐渐升高; 8月和9月份成熟期达到最高, 达-6.15 dB。果树在4月和5月处于萌芽期和展叶期, 其后向散射特征不明显,平均为-13.4 dB; 6月至9月从开花期到成熟期, 后向散射系数明显上升, 峰值最高达-7.47 dB。
在不同极化方式下对比, 相较于VH 交叉极化方式, 同极化VV 后向散射系数特征变化明显, 且分离度较高。棉花和玉米的散射特性比较相似, 在VV极化中, 棉花的后向散射系数最低值为-11.88 dB,最高值达-7.13 dB, 玉米的后向散射系数则从-13.18 dB 增长到-11.04 dB。在VH 极化中, 棉花和玉米的后向散射系数均在-21.99 dB 到-14.52 dB 的区间内逐渐升高, 但是特征不明显。果树的后向散射在VV 极化与棉花、玉米的趋势一致, VH 极化中几乎无差别。这是由于作物和果树在生长过程中显示出不同的几何结构和树冠形态, 空间分布的介质材料不同, 雷达信号的反射、吸收也不同。SAR 数据中作物的某些部分(如: 茎、穗、叶)在不同极化方式下会表现出不同的反射强度。如, 玉米植株呈垂直形态, 叶片呈条状且面积较大, 同时茎秆大小与其他作物存在一定的差异, 因此在VV 极化方式下其反射强度要高于VH 极化。VH 极化散射方式的回波是分散在各个方向上的, 因此传感器能够接收到的回波强度与VV 极化相比是小的[25]。
对Sigma 和Gamma 数据统计图分析, 能够看出2 种数据随时间发生的变化趋势总体一致, 所有地物的Sigma 和Gamma 数据之间平均相差1 dB。在Sigma 数据中, 棉花的峰值分布在-21.99 dB 到-7.04 dB 区间; Gamma 数据中, 峰值在-20.81 dB 到-6.49 dB 区间变化。玉米的Sigma 值和Gamma 值均小于棉花和果树。其中, 建筑的Gamma 值随时间的变化较大, 平均差值为1.11 dB。这表明, Gamma 数据在建筑等二面角散射体的识别中比Sigma 较有优势,在其他地物的识别中Gamma 与Sigma 差别不大。在该研究区Sigma 数据更适合不同作物的分类识别。
图4 典型地物后向散射特征时间序列变化Fig. 4 Time series variation of typical ground objects backscattering features
为了进一步分析典型地物后向散射系数时变特征, 计算出每类样本在不同极化方式下的后向散射系数平均值, 并分析其变化规律(图4)。总体来看,VV 极化的Sigma 数据分离度相对较好。而在4月、5月、6月份, 不同作物在VH 极化下的分离度要优于VV 极化, 棉花和玉米的后向散射系数明显上升,果树则处于平稳的状态, 在7月份3 种作物几乎达到一致, 分离度较差。到8月和9月份时, VV 极化下作物的分离度较好, 后向散射逐渐升高并达到平稳的状态。在该时期棉花进入吐絮期, 植被表层相对均匀且茂密, 起伏变化不大, 因此散射系数在一定程度上得到提高, 使其与玉米和果树得以区分。
2.2 可分离性评价
Jeffries-Matusita 距离(J-M)是基于特征计算不同类别样本间的距离, 是用来衡量类别间分离度的有效工具[26]。J-M 距离的数值在0~2 范围内, 能够定量衡量2 个类别间的差异性程度, 大于1.8 表示分离性好。表2 给出了不同时相条件下果园、棉花、玉米的Sigma 和Gamma 数据与典型地物间的J-M 距离。综合来看, Sigma 和Gamma 的J-M 距离差别不大, 相较之下, 作物之间的差异性在6月和8月份显示最好。玉米和果园的分离度在6月和8月都较理想, 分别为1.22 和1.15。棉花和玉米的分离度在6月份提升到了0.62, 最高值为0.81, 出现在8月份;棉花和果园的分离度在 9月最好, 但最高只达到0.4。这是因为果树和棉花的空间分布状态密集, 后向散射特征相似; 玉米的分布则相对比较稀疏, 因此玉米的回波包括作物本身的散射、土壤背景的散射及二者之间相互作用的二次散射数据, 相较于果树和棉花更容易受到土壤背景的影响。水体和果园、棉花、玉米的J-M 距离在4月比较低, 5月至9月平均在1.5 以上, 分离度比较理想。建筑与3 种作物的J-M 距离在6 个时相均在1.5 以上, 最高值在8月和9月份, 达到1.99。上述表明, 8月下旬为棉花识别的最佳时相, 6月中旬为玉米识别的最佳时相, 果园与其他作物之间进行识别需要9月上旬与6月中旬的数据才能得到较好的效果。
基于以上分析, 选取3 种作物分离度较好的3个时相, 即6月16日、8月27日和9月2日。对时相间进行波段组合, 计算出不同时相组合条件下各地物间的分离度。从表3 可以看出, 在6月16日、8月27日和9月2日3 个时相的组合条件下, 棉花和玉米的分离度达到了1.5; 棉花和果园的分离度是1.47; 玉米和果园的则达到了1.52。3 种农作物和其他地物间的J-M 距离均在1.7 以上, 说明该波段组合条件下的分离程度最好。因此, 本文选取该波段组合条件下的Sigma 和Gamma (共6 景影像)进行下一步的影像分类。
2.3 分类结果及面积提取
本文结合野外考察数据, 采用人工神经网络、支持向量机和随机森林3 种分类方法对6月16日、8月27日和9月2日波段组合的多时相SAR 影像分类, 将地物分为果园、玉米、棉花、建筑、水体和其他6 类。从图5 可看出, 玉米主要分布在绿洲东北部, 沿着河流和果树交错分布, 棉花则多分布于南部和西南部。整体来看, SAR 影像分类结果中, 玉米和果园的分类结果比较细碎。相对而言, 棉花能够较好地被识别, 且呈片状、由内而外扩散分布在绿洲。
根据Sigma 数据的随机森林分类结果提取研究区内果园、玉米和棉花3 类作物的种植面积(表4),研究区的主要作物为棉花, 占总面积的30.23%; 其次是果园, 占总面积的9.47%; 玉米的种植面积最少, 仅占总面积5.97%。
2.4 精度验证及分析
以232 个样点数据作为验证样本, 对6、8 和9月波段组合的影像计算人工神经网络、支持向量机和随机森林分类方法的混淆矩阵得出制图精度(Prod.Acc)和用户精度(User. Acc), 并且计算出各种分类结果的总体精度和Kappa 系数, 其值越大, 表明分类准确度越高。由表5 可看出, 1)与Gamma 的分类结果相比, Sigma 数据的分类效果更好。Sigma 数据的人工神经网络、支持向量机和随机森林分类的总体精度分别高出1.43、3.06 和6.40 个百分点, Kappa系数也有明显的提升。2)与随机森林分类方法相比,人工神经网络和支持向量机分类方法在不同类型农作物信息的提取中处在较劣势的地位。随机森林分类总体精度(Overall.Acc)达到88.97%, 其中棉花的精度达到90.88%。以上描述表明利用随机森林对时间序列Sigma 数据进行作物的识别及面积提取可达到比较理想的效果, 其原因分析如下。
1) 随机森林分类方法是利用集成学习的思想将多棵树集成的一种算法。该算法具有极好的准确率, 能够有效地运行在大数据集上处理具有高维特征的输入样本, 而且不需要降维, 能够评估各个特征在分类问题上的重要性, 不需要像支持向量机那样做很多参数的调试。因此, 在本研究中获得了较好的分类效果。2) 居民地与水体与其他区域后向散射系数差异明显, 因此均能获得较高的分类精度。棉花和果园的冠层叶片较为均匀且相对茂密, 起伏变化不大, 因此识别效果也较好。而玉米在种植过程中相对稀疏, 容易受到地面粗糙度等其他地物的影响, 因此容易混淆, 相比而言精度较低。3) 用SAR 数据对作物分类的准确性, 原则上主要取决于雷达后向散射系数对植物结构生物物理特性差异的敏感性, 即雷达后向散射与冠层结构相互作用行为的差异。此外, 作物生长早期土壤条件对SAR 信号的后向散射特性也有影响。
表4 不同农作物种植面积Table 4 Planting area of different types of crop
为了进一步对不同农作物的种植面积进行精度验证, 利用实地考察的20 个样方, 并将样方内提取的作物面积的总量与SAR 影像分类结果中相应区域内不同作物类型的面积统计结果对比, 从而进行精度评价。其计算公式如下[27]。
其中,Kr为所有样方内作物面积总量精度, 它是将样方内提取棉花、玉米和果园面积结果的总量与遥感影像解译提取的作物面积结果的总量进行比较,获取样方内作物面积总量提取精度。A1为野外实测样方数据提取的不同作物总面积, A2为SAR 影像数据中提取的作物种植面积。
从表 6 可看出, 棉花的样方总面积为1147.85 hm2, 通过对多时相Sigma 影像进行随机森林分类得到棉花总面积为1058.03 hm2, 利用公式(2)计算出的棉花种植面积精度达到了92.7%。利用同样的方法对玉米和果园的种植面积进行精度验证,分别为55.79%和72.59%。
表5 时间序列数据不同分类方法精度验证Table 5 Accuracy verification of different classification methods for time series data
表6 棉花种植面积精度验证Table 6 Accuracy verification of cotton planting area
3 讨论
本研究对试验区进行了充分的野外调查, 系统分析了不同农作物的6 景SAR 影像后向散射系数,建立了散射特征时序变化曲线; 通过计算J-M 距离,针对不同作物的分离度进行了定量分析, 评价各个时相不同作物间的可分离性, 并且探究了作物的最佳识别时相。在此基础上, 将6 景时序影像进行组合, 对作物进行识别及面积提取研究。以上研究工作弥补了以往学者[28-29]在利用SAR 后向散射系数的研究中用定性方法分析地物后向散射特征、特征优选及分类等缺陷, 从而克服以往定性研究中存在的不确定性。另外, 为时序SAR 数据在旱地作物的识别及面积提取研究提供了一定的参考。
近年来, 时序光学影像在农作物的信息提取中也得到了广泛应用, 如通过构建NDVI、EVI 时序曲线结合不同作物在各个时间段的特征, 较好地提取了水稻、小麦、玉米等作物类型的分布信息, 精度均比较理想[30-33]。本文基于Sentinel-1 数据通过3种不同分类方法对研究区进行不同农作物的分类识别和面积提取, 最终玉米、果园和棉花的精度分别达到了55.79%、72.59%和92.17%。棉花在研究区大范围分布, 且成片状, 因此得到了较好的分类效果。但SAR 在像玉米和果园种植模式较复杂的区域存在明显不足, 作物识别精度还有待提高。尽管存在以上缺陷, SAR 仍以全天候全天时对地观测、采用侧视成像穿透植被、充分反映植被的结构特征等优势能够克服光学遥感所存在的易受云雨天气影响、反映植被冠层信息而无法穿透植被、难以充分获取植被垂直方向上的信息等不足, 使它在农业遥感领域中发挥作用[34-35]。
本文利用的人工神经网络、支持向量机和随机森林3 种监督分类方法中, 随机森林的分类效果最好。用该算法分类时, 输入了多时相、多极化以及后向散射系数等多种不同尺度不同类型的参数, 可在决定不同作物类别时, 有助于提高类别间区分性。但分类方法的选择需要根据研究区内作物的种植结构、复杂程度、应用需求以及结合不同数据综合考虑和调整。因此, 在往后的研究中应针对复杂种植模式下的旱地作物寻求更加准确的识别方法。
4 结论
(1)棉花的后向散射系数在6月现蕾期和7月开花期明显上升, 8月份达最高值, 变化特征最明显,易与其他作物区分。玉米和果树的后向散射系数在9月份与其他地物之间表现出了显著差异。通过多时相SAR 影像能够有效得到农作物在关键生长期的作物长势情况, 能够作为光学空缺数据的有力补充。文中提出的旱地作物最佳识别时相的选择方法可被推广到我国西北地区, 为基于SAR 数据的旱地作物识别研究提供应用参考。(2) Sigma 数据的分类效果明显要比Gamma 数据更适用于旱地作物的分类识别研究。随机森林的分类精度最高, 总精度达88.97%, 比支持向量机和人工神经网络分类分别提高约4.6 个百分点和11 个百分点。该法更适用于基于时间序列SAR 数据的干旱区农作物的分类和种植面积提取。