APP下载

基于J-M距离的多时相Sentinel-1农作物分类

2020-07-14韩冰冰陈圣波曾庆鸿孙士超

科学技术与工程 2020年17期
关键词:训练样本农作物作物

韩冰冰,陈圣波*,曾庆鸿,孙士超

(1.吉林大学地球探测科学与技术学院,长春 130026;2.中国人民解放军93116部队,沈阳 110141)

及时准确地获取农作物空间分布信息对保障食品安全、自然资源保护和实现可持续发展的农业管理有着重要意义[1-3]。遥感影像在时空尺度上的优势为大范围农作物检测提供了有效的技术支撑。利用遥感数据进行农作物信息提取多基于陆地卫星(landsat)、中分辨率成像光谱仪(moderate resolution imaging spectroradiometer, MODIS)等光学数据,并取得很好的成果。李晓慧等[4]通过光谱角填图法结合决策树对大同市东部地区Landsat8影像进行分类,总体精度为85.34%。郭昱杉等[5]利用时间序列的MODIS数据对黄河三角洲地区农作物种植信息进行提取取得较好分类结果。利用光学影像进行农作物分类的方法多是通过多时相数据进行划分,而作物生长期云雨天气较多,光学影像质量难以保障,影响了及时准确进行农作物划分。

合成孔径雷达(successive approximation register, SAR)不受天气影响,可全天时、全天候对地观测,有效避免数据获取难的问题[6]。基于SAR数据的农作物分类虽然还没有广泛应用于作物的实际监测,但已经进行了大量的研究。在过往的研究发现,C和L波段是在多种作物中捕捉这些细节的最有效波长[7-9]。利用SAR数据对农作物进行分类的研究大多数都强调对水稻进行面积估计[10]、生长监测[11-13]和产量预估[14]等,因为水稻与临近作物的后向散射系数存在相对明显的差异[15]。与水稻相比,旱地作物具有种植结构复杂、不同地区作物类型不同等特点,使得当前利用SAR数据对旱地作物分类的研究多为某一研究区的特有作物分类研究[16-18]。当前利用雷达影像对农作物分类方法,忽略了对循环次数的探讨。分类方法大多利用多源数据或选择生长期内的多期雷达影像,通过不同作物在不同生长期时后向散射系数差异,实现对农作物的划分。

在此基础上,以生长季云雨天气较多的吉林省敦化市的黑石乡和额穆镇为研究区,探究利用C波段Sentinel-1数据对敦化市主要农作物玉米、大豆和水稻分类可能性以及循环次数对最邻近分类器分类结果的影响并得到最佳循环次数,弥补单次循环分类结果存在偶然性的不足。

1 研究范围和数据

1.1 研究范围

研究区为延边朝鲜族自治州敦化市的黑石乡和额穆镇,位于敦化市西北部,地处长白山腹地,位于127°50′53″E~128°22′20″E和43°31′25″N~43°56′14″N,研究区地理位置如图1所示。研究区属于北半球中温带,大陆季风气候明显,春季多风干燥,夏季湿热多雨,秋季温和凉爽,冬季寒冷漫长,具有四季分明,干湿适中的气候特征[19]。

图1 研究区位置Fig.1 Location of the research area

1.2 数据源及预处理

1.2.1 遥感影像数据

研究以GF-1的宽视场(wide field viem, WFV)传感器和Sentinel-1数据为数据源。其中WFV数据包括4个波段,空间分辨率为16 m[20],下载影像时期为9月10号。Sentinel-1数据选取的是干涉宽幅(interferometric wide swath,IW)模式、level-1的地距探测产品(ground range detected, GRD),包括VH(vertical horizontal)和VV(vertical vertical)两种极化方式[21],下载Sentinel-1影像日期从5月到10月初共17景。

WFV数据预处理通过ENVI5.3软件实现,首先对WFV影像进行辐射定标得到大气上行辐射亮度值,选择FLAASH (fast line-of-sight atmospheric analysis of hypercubes)模型进行大气校正,校正所需的参数信息从影像头文件中获取,最后采用二次多项式纠正方法对大气校正后的数据进行几何校正。对预处理完的数据利用研究区矢量边界进行裁剪,得到研究区光学影像集。

Sentinel-1数据的预处理通过Snap实现,主要包括热噪声去除、辐射定标、滤波、地形校正和转换成dB表示的后向散射系数5步。本文采用的滤波算法是Lee滤波 (7×7),该算法是通过图像的局部统计特性控制滤波器的输出[22]。地形校正是通过Snap中的SRTM(shuttle radar topography mission) 3Sec作为数字高程模型(digital elevation model, DEM)数据进行校正,影像投影选择WGS84/UTM Zone 52N坐标系。最后将校正后的数据转换成dB表示的后向散射系数。将预处理完的Sentinel-1数据重采样为16 m,利用ENVI5.3对WFV数据和Sentinel-1数据进行配准,将Sentinel-1影像和WFV影像配准后可应用于后续样本选取、裁剪。对WFV影像和配准后的Sentinel-1影像利用矢量进行裁剪得到研究区影像。

1.2.2 野外数据

为准确获取样本信息,在2018年7月中旬前往实地调研采集农作物信息,选择远离居民点、道路的农田,利用手持全球定位系统(global positioning system,GPS)进行采样,采样信息包括作物类型、作物株间距和垄间距、高程信息、GPS位置、作物高度和受灾信息等。在研究区内共采集玉米采样点22个,大豆采样点13个,水稻采样点21个,采样点分布如图2所示。

1.3 研究方法

研究分类流程如图3所示。

1.3.1 研究区耕地

研究区耕地范围提取是通过GF-1 WFV数据的分类结果进行掩膜。其中9月10日作物处于成熟期,耕地与其他类地物特征差异较大。结合野外采样点进行监督分类兴趣区样本的选取,选取最大似然分类器,生成分类结果如图4所示。利用WFV数据分类结果中的耕地范围对预处理的Sentinel-1影像进行掩膜,再根据野外采样点和WFV影像信息选取各类作物样本矢量。

图2 研究区采样点分布Fig.2 Sampling sites in the study area

1.3.2 J-M (Jeffries-Matusita)距离

为有效利用雷达影像信息需对不同时相组合下的雷达不同类别间样本间的分离度进行计算,将其中不利于区分样本的特征,对样本分离性贡献不大,应予以摒弃。同时在分类时不使用不必要的波段会减少计算量,提高程序运行速度。进行样本间特征可分性判断的方法有很多,如J-M距离、B距离(B hattacharyya distance)、样本间的平均距离、离散度等,其中J-M距离被认为更能够准确表达类别间可分性[23]。J-M距离计算公式为

(1)

式(1)中:p(x/wi)是第i个像元属于wi类别的概率。Jij为0~2,值越大代表样本间可分离程度越高[24]。通过比较不同波段组合后Jij的大小,最终选取5月13日、6月25日、7月7日、7月15日、7月31日、8月17日、8月29日、9月5日、9月22日9景时相的影像进行农作物分类,此时3种作物样本J-M距离均在1.9以上,样本分离度较好。

图3 分类流程Fig.3 Classification flow chart

图4 WFV分类结果Fig.4 WFV classification result

1.3.3 分类过程

基于J-M距离选择出的最优分类时相组合,根据野外信息和WFV影像信息生成的作物样本矢量对选取的Sentinel-1影像裁剪生成作物样本集,将生成的样本集分为两类分别用于作物分类和结果验证。分类过程为每次随机输入若干个样本,通过式(2)对选取样本均值和影像间误差值进行计算,最终通过比较各类样本的误差值来进行所属类别判断,分类过程利用Python进行编写。

(2)

式(2)中:n代表不同时相的个数;σobs是影像的像素值;σtrain是选取的训练样本的均值;var[σtrain(n)]是训练样本的方差。在分类过程中实验分别输入不同数量样本进行训练时分类结果的变化情况,对分类过程进行多次循环,每次分类过程中会选取不同样本组合以充分利用训练样本,多次循环结果判断是根据多次分类结果中最常出现的类别确定最终分类结果。

2 结果分析

根据分类过程对研究区农作物进行分类,在本次研究中共生成90个训练样本,玉米、水稻、大豆各30个。从每类中选取20个样本进行训练,剩余的样本用于验证。研究区黑石乡和额穆镇位于长白山腹地,耕地均属于小地块,当选取的训练样本半径过大时,样本内会包含其他类作物,进而影响到分类精度。此外大豆和玉米的混合种植也使得训练样本不宜过大,在实验中样本半径设置为20 m。在分类过程中分别实验每类输入3、5、10、15个样本,对不同训练样本数均进行1、3、5、7次循环以得到最精确的分类结果。为了保证结果一致性,每次输入样本或循环次数变化时均进行5次实验,以5次分类结果的平均总体分类精度作为该训练样本数的精度,在本次研究中共进行80次分类实验。其中多次循环分类结果是根据影像上每个位置的多次分类结果进行统计判断,影像中每个位置上分类结果出现次数最多的一类即为该位置所属类别。不同循环次数时不同训练样本数下精度变化如图5所示。

图5中的训练样本3代表在每次分类过程中每类输入3个训练样本,从图中可明显看出,当循环次数为1时分类精度随着训练样本数的增加分类精度也在不断增加,训练样本数为15时分类精度达到了75.86%,远远高于每类训练样本数为3时的分类精度56.18%。结果表明想要仅通过单次分类得到较好的分类结果需要充分的训练样本数,当训练样本较少时分类结果较差。

图5 分类精度变化Fig.5 Classification accuracy change graph

当循环次数大于1即多次循环分类时,总体分类精度均大于单次分类结果,这表明多次循环可有效减少随机选取较差的训练样本带来的影响。当循环次数达到5次时结果趋于稳定,训练样本数为10和15的分类精度相差不大。从训练样本数为10时进行5次循环的分类结果中选择最优分类结果,如图6所示,利用样本验证生成的混淆矩阵、生产者精度和用户精度如表1所示,总体分类精度为84.23%。

3 结论

以敦化市黑石乡和额穆镇农作物为研究对象,以Sentinel-1雷达数据为数据源,通过实验不同训练样本数和不同循环次数的最近邻分类器对敦化市西北部农作物分布信息进行提取,得到较好的分类结果。基于上述研究得到以下结论。

(1) Sentinel-1数据具有覆盖广、分辨率高、回归周期短等特性,能够满足在云雨天气获取农作物分布信息的需求,为云雨天气较多的地区研究土地利用提供了新思路,具备大区域、高精度反演作物分布信息的潜力。

图6 Sentinel-1分类结果Fig.6 Sentiel-1 classification result

表1 Sentinel-1分类精度评价Table 1 Sentiel-1 classification precision evaluation

(2)通过J-M距离选择出Sentinel-1分类的最佳时相,在保留获取分类所需信息的同时,减少了分类过程中产生的数据冗余和数据处理的复杂度,提高分类精度和效率。

(3)研究证明多次循环下分类精度优于单次循环分类结果,在训练样本较少的情况下可通过增加分类器循环次数以提高分类精度,同时通过Sentinel-1得到的分类结果较理想,可为本地区农业政策制定、种植结构调整等提供参考依据。

此外,2016年8月发射的高分三号卫星是中国首颗分辨率达到1 m的C波段多极化合成孔径雷达成像卫星,为农作物识别提供了新数据。此次研究中所用Sentinel-1数据为C波段双极化数据,在今后的实验中可使用高分三号卫星数据进行农作物分类研究,同时探究该方法在其他地区的实用性。

猜你喜欢

训练样本农作物作物
高温干旱持续 农作物亟须“防护伞”
俄发现保护农作物新方法
夏季农作物如何防热害
厉害了!农作物“喝”上环保酵素
作物遭受霜冻该如何补救
四种作物 北方种植有前景
人工智能
内生微生物和其在作物管理中的潜在应用
作物遭受药害的补救措施
基于小波神经网络的网络流量预测研究