APP下载

基于随机森林法的农作物遥感识别方法研究

2020-12-23包珺玮于利峰乌兰吐雅

河南农业·综合版 2020年12期
关键词:光谱精度作物

包珺玮 于利峰 乌兰吐雅

科技迅速发展,农业遥感技术用于农业资源监测已成为当今人们研究和应用的热点。传统的农业信息获取方式往往采用统计汇总,以行政区域为统计单位,逐级统计汇总,需要投入大量的人力、财力,而统计结果时效性差、干扰因素多。遥感技术具有监测范围广、时效性强、信息量大、成本低、数据及时准确等特点,被广泛应用于农情监测中,为农业产业规划、乡村振兴提供了科技支撑。

随着遥感影像数据源的不断丰富,高分辨率影像已广泛应用于大范围农作物面积的提取研究。自2015年6月欧空局成功发射Sentinel-2A以来,因其影像覆盖范围大、分辨率高、光谱信息风度等优势被广泛应用于土地覆盖分类、农作物识别、物种分类等领域,取得了很好的效果。朱琳利用Sentinel-2A多源遥感数据进行了农作物分类和面积的提取研究,取得了不错的效果,分类精度及Kappa系数都比光学遥感分类结果好。王蓉等利用Sentinel-2A影像结合DEM高程模型提取雨养区和灌溉区的冬小麦种植面积,Sentinel-2A影像对冬小麦提取效果明显。农作物面积提取是农作物估产、长势等农情信息分析的基础,如何提高农作物提取的准确性,改善分类时效性就显得尤为重要。

随机森林法作为一种集成学习方法,具有高效、灵活、准确、选择能力强等特点,被广泛应用于中高分辨率影像分类中。黄春燕等基于Sentinel-2A数据,采用机器学习法以地块特征基元为基本单元,提取农作物分类信息,有效解决了“椒盐”效应,提高了农作物分类精度。雷小雨等利用随机森林法结合构建差值特征对南方水稻种植面积进行提取,改善了水稻面积的提取精度。王娜等利用单变量特征和随机森林法进行苏北地区主要农作物识别和提取,有效降低了数据冗余,提高了农作物的分类精度。因此,如何利用遥感数据源、特征变量及面积提取算法模型提高分类精度已成为农作物识别的主要研究内容。

基于前人研究成果,本文在Sentinal-2A光谱特征、数据提取方法和模型选择方面进行尝试,较高精度地提取研究区的主要农作物种植面积并绘制空间分布“一张图”,通过阿荣旗部分区域实践和探索,制定出适合内蒙古自治区东北部地区的主要农作物提取方法和模型,为将来更大幅度地提取打下坚实基础。

一、研究区概况

阿荣旗地处呼伦贝尔市东南部,全旗总面积1.36万km2,耕地面积31.44万hm2,种植作物种类丰富,主要有玉米、马铃薯、大豆、水稻等,常年粮食生产量15亿kg,是全国441个优质商品粮基地之一和内蒙古自治区5个大豆主产区之一。

二、数据预处理与分析

(一)数据预处理

Sentinel-2A卫星是可覆盖13个光谱波段并携带多光谱成像仪的全球环境卫星,包括10 m分辨率的红、绿、蓝波段及1个近红外波段、4个20 m分辨率植被红边波段、2个短波红外波段,另外还有60 m分辨率水蒸气、卷云、沿海气溶胶数据。研究区影像在USGS网站下载后,经过大气校正、重采样,得到10 m分辨率影像,利用ENVI软件转换为标准格式并裁剪得到影像。

研究区影像采用2018年7月的Sentinel-2A卫星影像,选取11波段、5波段、4波段组合显示图像。该方法利用与Rapideye相近的红边波段及短波近红外波段。短波近红外波段能够显著放大作物之间的光谱差异性,是识别作物的有效手段。(见表1)

(二)地面调查

地面调查数据为解译点坐标信息、验证点坐标信息、照片等。获取方式是选择农作物种植类型丰富且集中连片的区域,利用手持差分GPS沿着省级、市级、县级等主要道路,按照每5 km一个点的标准采集。此次共采集解译标志394个、验证点100个。采集作物包括玉米、高粱、水稻、大豆、小麦、甜菜及其他作物。采集多种解译标志避免其他作物特征影响目标作物识别。(见表2)

线状地物采集类型为省级、县级、乡道及田间道路、河流、沟渠、林带等,共采集19条线状地物。经过实际调查,受两盟市耕地种植结构和种植习惯影响,采集的线状地物小于1个像元15 m。

(三)辅助数据

2014—2015年快鸟影像、Wordview影像为底图解译出已经确定耕地面积范围并去除了线状地物信息的2 m分辨率的呼伦贝尔市耕地底图。

三、研究方法

(一)技术路线

研究区主要农作物面积提取主要以计算机解译为主,充分利用Sentinel-2A影像丰富的光谱信息,结合研究区种植结构制定如下技术路线。(见图1)

(二)特征分析

在实际农作物遥感提取中,人工目视解译实效性差、效率较低,而传统基于像元的高分辨率数据分类会受到“同物异谱”“同谱异物”的影响出现“椒盐”现象,使得地块整体结构破坏。因此,本文拟从光谱特征、参数特征与纹理特征入手,充分挖掘数据信息,实现精确作物提取。

1.光谱特征分析。目前,有大量的影像分割处理软件,但是对于提升影像的分割精度和准确度往往难度较大,因为对于同一个农田,温度、水分、光照等影响因素导致其农作物长势不同,呈现的光谱特征差异较大。研究区属于农业大县,种植作物种类丰富,大量的杂粮杂豆,光谱特征变化不大,种植作物边界不清晰,研究区耕地种植紧凑,农田间边界不清晰,影像分割难度大。

本文采用均值漂移的算法改善影像分割精度和準确度。均值漂移MS(Mean Shift)算法是一种通用的聚类算法,其特点是不受数据分布特征及形态影响,适用于各种分布特征的影像数据。该算法最初由Fukunaga和Hostetler于1975年提出, Cheng和Com-

aniciu等针对采样点对周围样本的重要程度提出了一组核函数,将均值漂移算法的使用范围进行了发展,其基本数学形式为:给定一个d维空间中,存在n个样本点,则均值漂移基本形式为:

式中,Sh是一个半径为h的高维球区域,k表示n个样本点有k个点落入Sh中。

对于所有采样点,每个样本点的重要性应该是不同的,离中心点越远,其权值应该越小。因此,应引入核函数和权重系数来提高跟踪算法的滤波性并增加搜索跟踪能力。在一个d维的欧式空间中,x表示该空间中的一个点,用一列向量表示,存在标准化常量c,d使得核函数K(x)=cdk(||x||)2。K(x)核函数应满足K是非负的、K是非增的、K(x)连续的。

平均的偏移量会指向样本点最密的方向,也就是概率密度函数的梯度方向,引入核函数和权重系数后得到:

式中G(x)是一个单位核函数,H是一个正定d×d的对称矩阵,ω(x(i))是采样点x(i)的权重。苏腾飞等利用改进型MS滤波算法对高分辨率影像分割,其结果明显改善了农田边界的平滑效果,优化了影像分割精度。

2.参数特征分析。遥感的参数特征是指采用了比值运算和归一化(normalization)处理得到的一系列指数。由于进行了比值计算,其生成的指数影像有助于消除地形差异的影响。通过比值运算,以几何级数进一步扩大反射率之间的差距,使要研究的农作物在指数影像上得到最大的亮度增强,达到农田特征区分的目的。

归一化植被指数NDVI(Normalized Difference Vege-

tation Index)表达式为NDVI=(NIR-Red)/(NIR+Red)

NDVI通常是用卫星遥感数据计算,以评估目标地区绿色植被的生长状况。计算方式是利用红光与近红外光的反射,显示出植物生长、生态系活力与生产力等信息。数值越大表示植物生长越多。Huete提出了土壤调节植被指数SAVI(Soil Adjusted Vegetation Index),通过引入土壤调节因子l,使无论是在深色土壤或浅色土壤背景中求得的植被指数都完全相等,从而消除了土壤背景的干扰。表达式为:

SAVI=[(NIR-Red)(1+L)]/(NIR+Red+L)

式中,L即为土壤调节因子,其值在0~1。“0”和“1”分别代表植被覆盖率极高和极低的两种极端情况。通常选择0.5可以较好地减弱土壤的背景差异,清除土壤的噪声影响。增强植被指数EVI(Enhanced Vegetation Index)表达式为:

EVI通过加入蓝色波段以增强植被信号,矫正土壤背景和气溶胶散射的影响。EVI常用于LAI值高,即植被茂密区。

3.纹理特征分析。纹理是地物的物理形态所表达出的灰度空间的相关特性,纹理特征的核心问题是纹理区域的一致性和相邻区域边界的准确性。高分辨率数据下,由于不同作物之间的生理形态与疏密情况的差异,不同作物之间也存在纹理区别,可以有效区分农作物类型。

(三)分类方法

机器学习法是人工智能的一个分支,是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。作为新兴的、高度灵活的一种机器学习算法,随机森林法RF(Random Forest)拥有广泛的应用前景,它的本质是集成學习(Ensemble Learning)方法。从直观角度来解释,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林法集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。在遥感领域其优点是几乎不需要设置参数就可以得到比较好的提取结果,而且能够有效地运行在大数据集上,能够满足未来大尺度范围提取的要求。

四、分类结果与精度评价

本研究通过挖掘遥感数据的光谱特征、参数特征和纹理特征等信息,构建基于机器学习法的作物提取模型,对于未来大尺度提取农作物面积提供借鉴。在耕地底图范围内,基于2018年Sentinel-2A影像数据,利用随机森林法得到各主要农作物的空间分布情况。

(一)精度验证与评价

分类精度是影像像元被正确分类程度的评价指标。本文采用混淆矩阵精度分类,确定分类结果的精度和可靠性。混淆矩阵的分类评价指标包括总体分类精度、Kappa系数、漏分误差、错分误差、制图精度、用户精度,而制图精度指标和用户精度指标直接影响和决定分类结果的准确性。在精度评价过程中,将野外采集的100个地面验证点,采用定性和定量的方式对作物品种判别准确度和作物面积提取的精确度进行验证,建立了混淆矩阵评价指标。(见表3)

(二)结果分析

随机森林法对农作物分类的制度精度能达到80%;Kappa系数0.72,表示分类精度相对较好,尤其是大豆和甜菜的制图精度可以达到90%,但是对于玉米和高粱的用户精度则不高,分别是82%和53%,其主要原因是玉米和高粱在8月的光谱特征相似,玉米和高粱错分、混淆的概率加大,影响了整体的Kappa系数。采用均值漂移MS法可以有效改善混合像元模糊与地块内部光谱特征差别大的现象,但是对于光谱特征相似的作物,分类结果不理想。

本研究主要以农作物分布的遥感提取方法和模型为出发点,通过Sentinel-2A数据进行一系列预处理和分析,并利用机器学习算法提取研究区的主要农作物分布“一张图”,建立呼伦贝尔东北部的作物提取模型,为将来更大尺度地监测打下坚实基础。

虽然通过模型可以提取较好的作物分布“一张图”,但仍存在许多不足之处。首先,数据选取时受多种因素影响,是否存在与最佳提取时期不匹配的情况,应该进一步研究。其次,通过提取、挖掘遥感影像信息,可以较高精度地识别农作物分布,但在一定程度上也造成数据量冗余。最后,大尺度的数据选取与模型改进仍需一段时间的研究。

〔基金项目:内蒙古自然科学基金项目(2016 MS(LH)0301)〕

猜你喜欢

光谱精度作物
为什么要多元
数控车床加工精度的工艺处理及优化试析
无公害水稻病虫害防治要点
挖掘这些基因,让作物抗各种病(2020.3.27 科技日报)
郭守敬望远镜获取光谱数破千万
近似边界精度信息熵的属性约简
浅析光谱技术在200 nm以上和以下尺度范围内的不同
光谱、能级和能级图的理解和应用
电力系统短期负荷预测方法与预测精度
地下作物