APP下载

基于随机森林算法的多作物同步识别

2019-08-03许淇李启亮MathildeDeVroey张吴平范锦龙

山东农业科学 2019年3期
关键词:随机森林时间序列

许淇 李启亮 Mathilde De Vroey 张吴平 范锦龙

摘要:作物类型遥感识别是农业遥感的重要组成部分,为获取作物种植面积、长势信息并进行产量估算提供了手段。目前,对玉米、水稻和小麦等大宗农作物进行单一识别或两类间分类识别的技术研究较多,对研究区多种农作物同步分类识别的研究较少。本研究基于随机森林分类器利用Landsat 8数据开展宁夏农作物分类,对八种主要农作物春小麦、玉米、水稻、苜蓿、蔬菜、葡萄、枸杞和瓜类进行同步分类试验。结果表明:随机森林方法可以满足研究区内多类作物同步监测的需求,精度可达80%以上。单时相分类精度可达到81.8%,后分类处理精度可达到82.8%,时间序列分类精度可达到85.1%,时间序列分类和后分类处理可以有效提高分类精度。随机森林分类精度随着树数量的增加而增大,当树的数量足够多时,模型趋于稳定,特征变量对精度的影响被控制在一定范围内,当特征变量设置为总特征变量的平方根或对数时,精度达到最佳。因此,基于对分类实验时效性的考虑,将参数分别设置為Ntree= 100,Mtry=总特征变量的平方根或对数。

关键词:随机森林;多作物识别;分类后处理;单时相;时间序列

Multi - Crop Synchronization Identification Based on Random ForestXu Qjl,2 , Li Qjliang1,2 , Mathilde De Vroey3 , Zhang Wupingl , Fan Jinlong2

Abstract Identifying crop type with remotely sensed image is the fundamental step for calculating croparea and monitoring crop growth as well as estimating crop yield in the context of agricultural remote sensing.At present, there were many studies on single recognition or inter - classification recognition among the majorstaple crops, such as corn, rice and wheat, however, less researches have been done on simultaneous classifi-cation and recognition of multiple crops in the study area. Based on the random forest classifier and Landsat 8data, this study carried out the crop classification in Ningxia, the crops including rice, corn, wheat, clover,grapes, alfalfa, vegetables and melons. The results showed that it was feasible to use the random forest methodto simultaneously identify multiple crops in Ningxia, and the accuracy could reach more than 80%. Thesingle - phase classification accuracy could reach 81.8% , after classification post - processing accuracy couldbe up t0 82.8% . The time series classification accuracy could reach 85.1% . Time series classification andpost - classification processing could effectively improve classification accuracy. The accuracy of random forestclassification increased with the increase of the number of trees. The model tended to be stable when the num-ber of trees was sufficient, and the influence of characteristic variables on the accuracv was controlled within acertain range. The precision was optimal when the feature variable was set to the square root or logarithm ofthe total feature variable. Therefore, based on the consideration of the timeliness of the classification experi-ment, the parameters were respectively set to Ntree = 100, and Mtry = the square root or logarithm of the totalcharacteristic variable.

Keywords Random forest; Multi - crop classification; Post - classification; Single - phase; Time series

掌握农作物种植的空间分布状况,对于宏观指导农业生产、合理采取作物管理措施具有重要的现实意义[1-3]。传统的农业统计报表和抽样调查,通常需耗费大量人力物力且持续时间长[4],对当季农业生产的指导作用有限。遥感技术具有观测面积大、观测周期短、数据的综合性和可比性较强等特点,为及时、准确、客观地获得作物种植面积提供了技术手段和重要基础数据[5,6]。近年来较主流的作物分类方法包括支持向量机(SVM)、随机森林(RF)、神经网络(ANN)、K近邻法( KNN)、决策树(DT)、最大似然法(MLC),其中支持向量机与随机森林应用最为广泛[7]。

随机森林算法是由多棵CART决策树组合而成的一种监督分类方法,构成决策树模型的数据是通过Bootstrap方法随机抽取的,抽取剩余的数据即袋外数据则用于误差测试,最终分类结果由多棵决策树投票决定。随机森林分类器具有对参数不敏感,不易过拟合,训练速度快的特点[8]。众多研究者已基于随机森林算法在作物分類领域进行了研究并取得了较好的精度[4.9-11]。但现有的研究大多针对大宗农作物进行单一提取或两类间进行分类识别,并未进行研究区全部主要作物的同步提取试验,无法满足我国地块破碎、作物种类繁多的现实性需求。

本研究以宁夏青铜峡灌区为研究区,采用随机森林分类器对研究区种植的八种主要农作物——春小麦、玉米、水稻、苜蓿、蔬菜、葡萄、枸杞和瓜类进行同步分类试验,分析Ntree和Mtry对随机森林模型精度的影响,单时相与时间序列、后分类处理对分类结果的影响,最后评估了随机森林算法在多作物同步提取中的实用性,为实现我国多作物同步监测提供依据。

1 数据来源与研究方法

1.1 研究区概况

研究区位于宁夏回族自治区内的青铜峡灌区(石嘴山市、银川市和吴忠市),地理位置东经105. 39°~107.00°、北纬37.49°~39.27°。位于中温带干旱区,日照充足,温差大,热量丰富,无霜期较长。年均气温8—9℃,4-9月作物生长季累计积温3200—3400℃,大于等于10℃积温的初日及终日与无霜期吻合,再加上太阳辐射达619.68J/(c㎡·a),有利于作物生长。灌区主要作物有春小麦、玉米、水稻、苜蓿、蔬菜、葡萄、枸杞和瓜类。

1.2 数据源

1.2.1 影像数据本研究所用的主要数据源为30M分辨率的Landsat 8卫星数据,包括9个波段,分别是海岸/气溶胶、蓝、绿、红、近红、短波红外1、短波红外2、热红外1和热红外2。对影像进行预处理操作后的计算又增加了归一化植被指数(NDVI)、归一化水体指数(NDWI)、归一化建筑指数( NDBI)信息数据,共12个波段。

共获取了13期Landsat 8卫星影像数据,时间分别为2018-05-04、2018-05-11、2018-05-20、2018-05-27、2018-06-05、2018-06-12、2018-06-21、2018-06-28、2018-07-14、2018-07-30、2018-08-08、2018-08-15、2018-08-24。但只有2018-06-05、2018-06-21及2018-08-24三幅完整覆盖研究区,而由于小麦生长期只持续到7月,故选用2018-06-05及2018-06- 21影像进行分类,其他时间的影像用于辅助样本点的扩充。

本研究还用到了10 m分辨率的Sentinel-2数据[12-14],主要用于工作者B选取验证样本及结合哨兵农业系统(Sen2-Agri)。[15-17]生成研究区作物分区图。

1.2.2 地面调查数据 于2018年6月7-8日及6月28日-7月3日分别进行实地样方采集工作。采用野外沿途拍照采样与室内解译相结合的方法,在研究区内选取11个10 kmxlo km的采样框,在采样框中进行密集型采样,采样框之间则采取跟随车的行进路线进行随机拍照采样的方式来增加样本的采集。在采样过程中分左右两个方向进行拍照采样,采集了7950多个左侧地面样方照片数据,5330多个右侧地面样方照片数据。

训练样本采用背对背选取方式,左边工作者A实地样本用来在Landsat 8数据上采集扩充训练样本,右边工作者B实地样本用来在Sentinel -2数据上采集验证样本以及借助哨兵农业系统(Sen2 - Agri)生成研究区作物分区图。训练样本及验证样本量如表1。

1.3 研究方法

1.3.1 随机森林算法 随机森林算法(RFC)是Breiman[18]2001年提出的一种多决策树分类方法,是监督分类方法的一种。随机森林算法的分类结果由构成模型的所有CART决策树投票决定,而构成每个决策树模型的样本数据和特征变量都是随机抽取的结果,同时会将剩余的数据组成袋外数据进行误差测试。由于每次构建模型时的数据与特征变量都是随机选取,故每次构建的模型和分类结果不完全一样,会存在一定的误差值。随机森林方法对于遥感影像分类具有很好的抗噪声性能,分类精度较高[9]。

随机森林算法通过IDL语言实现,有两个重要参数需要设定,分别为决策树的数量(Ntree)和特征变量的数量(Mtry)。为找出最佳分类参数,本研究分别将树数量设置为10、50、100、300、500、1000,特征变量以1为步长,分别对12个波段进行分类验证,结果发现分类精度随着决策树数量的增加而增大,当树的数量达到100时分类精度趋于平稳状态,误差保持在一个精度的范围内;当树的数量足够多时(达到100),特征变量对分类精度的影响被控制在一定范围内,当特征变量设置为总特征变量的平方根或对数时,精度达到最佳。因此,基于对分类实验时效性的考虑,本研究将参数分别设置为Ntree=100,Mtrv=3。

根据随机森林算法参数调试结果对分类器进行设定,采用训练样本数据分别对影像分三种情景进行讨论:①2018-06-05单时相影像;②后分类处理,对2018-06-05分类结果中蔬菜及水稻两类进行3x3窗口的Majority和Clump分类后处理;③时间序列影像。最终得到研究区作物分类图。图1为三种情景讨论结果的部分细节展示。

1.3.2 精度验证采用工作者B根据实地采样照片基于10 m空间分辨率哨兵影像得到的样本点作为研究结果精度验证的数据,共计19027个验证点(表1)。采用混淆矩阵、Kappa系数、总体分类精度、用户者精度、制图者精度[19]和F1Score 6种方式描述和比较分类精度。

2 结果与分析

2.1 分类后处理

对2018年6月5日的单日影像分类结果先后进行Majority和Clump方式的分类后处理。由于研究区北部地块破碎,主要以种植玉米和小麦为主,枸杞和葡萄也存在相邻小块种植的现象,故为了避免分类后处理给分类结果带来失真影响,只对大面积种植的水稻和蔬菜进行分类后处理,Majority和Clump的处理窗口分别为3x3和2×2,表2展示了处理前后影像及混淆矩阵。经分类后处理,总体精度、Kappa系数、F1 Score分别较处理前提高了约1个精度范围;每种作物的F1Score都略有提高,蔬菜最为明显,提高了约4个精度值。

2.2 单时相与时间序列影像分类对比

2018年6月5日单时相影像分类结果总体精度81.8%,Kappa系数0.76,F1 Score 68.58%。采用2018年6月5日与6月21日时间序列影像的分类结果总体精度可达85.1%,Kappa系数为0.81,F1 Score为74.09%(表3)。两种影像分类结果中枸杞的精度都较低,F1 Score只有20%左右,可能是由于训练样本较少以及枸杞种植区分散且多与葡萄相邻造成混淆。相较于单时相影像分类结果,总体精度提高了3.3个百分点,苜蓿、玉米、葡萄、枸杞、瓜类、水稻、蔬菜的F1 Score分别提高了2.1、5.5、9.3、6.O、18.4、1.1、2.6个百分点,小麦的F1 Score降低了1.1个百分点。总体来看,时间序列影像分类可有效提高作物分类精度。从细节图(图1)来看,时间序列影像分类较单时相分类可以较好地处理地块边界问题,并有效避免因地块短期管理问题造成的地块内部个别像素错分误分的现象。

3 讨论与结论

基于随机森林方法对宁夏种植的多种作物进行同步分类提取,总体精度达到81%以上,且分类结果与灌区北部地块破碎、中北部地块较大、南部地块适中、葡萄主要分布于西部的实地作物空间分布一致,满足了多类作物同步监测的需求。主要研究结果及存在问题如下:

(1)分类精度随决策树数量的增加而增大,当树的数量达到100时分类精度趋于平稳状态。当树的数量足够多(达到100)时,特征变量对分类精度的影响被控制在一定范围内,当特征变量设置为总特征变量的平方根或对数时,精度达到最佳。因此,基于对分类实验时效性的考虑,建议将参数分别设置为Ntree=100,Mtrv=总特征变量的平方根或对数。

(2)时间序列影像可以有效提高分类精度,与单时相影像分类相比,可以较好地处理地块边界问题,并有效避免因地块短期管理问题造成的地块内部个别像素错分误分现象。由于本研究区有效数据较少,分类精度与有效数据数量是否存在正相关关系还需进一步探索。

(3)由于苜蓿、蔬菜在生長季内存在收割一生长多次反复的现象,故可能与玉米产生一定的混淆;而葡萄因种植模式导致植被覆盖度低,易与生长初期的玉米产生一定混淆。故在今后的研究中应尝试分层提职来改善作物的混淆问题。

(3)对大地块地物进行适当窗口大小的Ma-jority和Clump分类后处理,可以有效解决地块内部个别像元的错分误分问题,从而小程度地提高分类精度。部分地区由于地块破碎程度严重,分类结果呈现麻点分布,对整个研究区的主要作物同时进行分类处理会导致失真现象,今后应寻求更便捷的分类处理方法以避免此类问题。

参考文献:

[1] Wessels K J, Reyers B, Jaarsveld A s V, et al. Identification ofpotential conflict areas between land transformation and biocliversi-ty conservation in north - eastem South Africa [J] . AgTiculture,Ecosystems & Environment . 2003 . 95 (1) : 157 - 178.

[2] Fry J, Xian G Z. Jin S, et al. Completion of the 2006 NationalLand Cover Database for the contermious United States [ JlPhotogramm. Eng. Remote Sens. . 2011 . 77 :858 - 864.

[3] Guidici D. Clark M L. One - dimensional convolutional neuralnetwork land - cover classification of multiseasonal hyperspec-tral imagery in the San Francisco Bav Area. Califomia [Jl.Remote Sens., 2017.9(6):629.

[4] 黄健熙,侯矞焯,苏伟,等.基于GF -1 WFV数据的玉米与大豆种植面积提取方法[J].农业工程学报,2017,33(7):164 -170.

[5] Topalo g R H, Sertel E. Musao g N.Assessment of classifica-tion accuracies of Sentinel -2 and Landsat -8 data for landcover/use mapping[J]. DOI: 10. 5194/isprs - archives -XLI - B8 - 1055 - 2016.

[6] Khatami R. Mountrakis G,Stelunan S V.A meta - analvsis ofremote sensing research on supervised pixel - based Iand - cov-er image classification processes: general guidelines for practi-tioners and future research[J]. Remote Sensing of Environ-merit, 2016, 177: 89 - 100.

[7] Than T N,Kappas M. Comparison of random forest,k- nearestneighbor, and support vector machine classifiers for land coverclassification using Sentinel -2 imagery[J].Sensors. 2018,18(1):18.

[8] 崔小芳,劉正军.基于随机森林分类方法和多源遥感数据的湿地植被精细分类[J].测绘与空间地理信息,2018,41(8):113 -116.

[9] 王利民,刘佳,杨玲波,等.随机森林方法在玉米一大豆精细识别中的应用[J].作物学报,2018, 44(4):569 -580.

[10]王娜,李强子,杜鑫,等.单变量特征选择的苏北地区主要农作物遥感识别[J].遥感学报,2017, 21(4):519 -530.

[11] 高梦婕,姜群鸥,赵一阳,等.基于(F-2遥感影像的塑料大棚提取方法对比[J].中国农业大学学报,2018,23(8):125 -134.

[12] ESA. Sentinel -2 User Handbooks[M].ESA, 2015.[13] US(.S (2017) Landsat Missions[K/OL]. United States Geo-logical Survey. 2017.

[14] Martins V S,Barbosa C C F,De Carvalho L A S,et al.As-sessment of atmospheric correction methods for Sentinel -2 MSIimages applied to Amazon Floodplain Lakes[J].Remote Sens-ing,2017,9(4):322.

[15] Grizonnet M. Michel J,Poughon V,et al.Orfeo TooIBox:open source processing of remote sensing images [J]. OpenGeospatial Data. Software and Standards. 2017(2): 15.

[16] ESA Sentinel Online. Sentinel -2:Operations Ramp - UpPhase[K/OL]. https://sentinel. esa. int/web/sentinel/mis-sions/sentinel - 2/operations - ramp - up - phase. 2015 -08 - 21.

[17] Sentinel -2 for Agriculture. The SEN2 - AGRI System: toserve the exploitation of Sentinel -2 for local to national opera-tional agriculture monitoring [K/OL].http://www. esa -sen2agri. org/. 2015 - 09 - 18.

[18] Breiman L.Random forests[J].Machine Learning, 2001,45:5-32.

[19] Congalton R G.A review of assessing the accuracv of classifica-tions of remotelv sensed data[J].Remote Sensing of Environ-ment. 1991, 37(1):35 -46.

猜你喜欢

随机森林时间序列
随机森林在棉蚜虫害等级预测中的应用
基于二次随机森林的不平衡数据分类算法
拱坝变形监测预报的随机森林模型及应用
上证综指收益率的影响因素分析
基于指数平滑的电站设备故障时间序列预测研究
基于时间序列的我国人均GDP分析与预测
基于随机森林算法的飞机发动机故障诊断方法的研究
基于线性散列索引的时间序列查询方法研究
基于组合模型的能源需求预测
基于随机森林算法的B2B客户分级系统的设计