APP下载

基于决策树和SVM的Sentinel-2A影像作物提取方法

2018-09-17王利军王利民张喜旺

农业机械学报 2018年9期
关键词:样方植被指数决策树

王利军 郭 燕 贺 佳 王利民 张喜旺 刘 婷

(1.河南省农业科学院农业经济与信息研究所, 郑州 450002; 2.中国农业科学院农业资源与农业区划研究所, 北京 100081;3.河南大学环境与规划学院, 开封 475004)

0 引言

空间遥感技术的不断发展,为快速、准确获取农作物空间分布信息提供了新的技术手段。目前,多传感器、多时相和多空间分辨率的遥感数据已广泛应用于农作物空间信息提取,在理论、技术和实践方面都取得了长足的进展[1-3]。然而,由于秋季作物种植结构复杂、生育期较短,中高空间分辨率遥感数据受到回访周期和云雨天气的影响,往往难以获得“最佳物候期”的时序遥感影像数据。这使得秋季复杂的种植空间分布信息提取成为农业遥感专题信息提取的难题。研究表明,植被指数和红边光谱数据与表征作物生长状况的农学参数之间存在较好的相关关系[4]。针对秋季玉米、花生、大豆、水稻等农作物生育期接近、光谱特征相似且较难区分等问题,毕恺艺等[5]基于Sentinel-2A时序数据的归一化植被指数(Normalized difference vegetation index,NDVI)时序曲线特征和光谱特征,利用面向对象决策树的方法识别了林地和农作物,总体精度和Kappa系数分别为89.7%和0.87。刘佳等[6]利用长时序中空间分辨率遥感影像及其波谱特征,有效识别了春玉米、夏玉米、棉花和小宗作物(主要包括红薯、大豆和花生等),分类总体精度达90.9%。贾树海等[7]通过分析3个不同时期农作物物候特征差异和影像NDVI特征值,提取了县域尺度下花生空间分布信息。黄健熙等[8]基于多时相GF-1 WFV影像,利用4个不同植被指数特征参数和实地样本点,采用随机森林分类算法提取县域尺度下玉米和大豆的空间分布,总体精度和Kappa系数分别为84.8%和0.774。以上研究都不同程度提高了作物识别精度,但基于构建作物特定发育期生长特征光谱曲线、利用单时相遥感影像进行秋季多种作物空间分布信息提取方面的研究相对较少。

Sentinel-2A、RapidEye和Worldview-2等卫星通过增加多光谱谱段提高遥感数据应用能力,尤其是其红边波段数据为农作物遥感监测提供了数据支持[4]。Sentinel-2A卫星覆盖13个光谱波段,能够提供10 d重访周期和最高10 m空间分辨率的多光谱数据。本文以河南省濮阳县为研究区,针对秋季农作物,主要包括玉米、花生、大豆、水稻和蔬菜等小宗作物,通过构建、分析NDVI和红边归一化植被指数(Red edge normalized difference vegetation index,RENDVI),在确定植被指数分割阈值的基础上,采用决策树和SVM相结合的方法,对秋季主要作物空间分布信息进行提取,并结合地面样方和样本点数据,与ML和SVM分类结果进行对比分析,以期提高农作物分类提取精度。

1 研究区概况

濮阳县位于河南省东北部(114°31′~115°15′E,35°12′~35°30′N),地势平坦,属温带大陆性季风气候,年平均气温13.4℃,年均降水量626 mm,年平均无霜期205 d。县域面积1 382 km2,2016年濮阳市统计年鉴显示该县耕地面积为97 791.90 hm2。以小麦、玉米一年两熟的作物轮作模式为主[6],其中玉米、花生、大豆和水稻4种作物生育期见表1。一般秋季作物于6月上中旬播种,8月进入生长旺期,9月中下旬收获,总生长期约4个月。玉米、花生、大豆和水稻分别在抽雄期、下针期、结荚期和孕穗期开始有较高的植被覆盖度。

2 数据获取

2.1 遥感影像获取与预处理

Sentinel-2A卫星数据主要用于农业、森林监测、土地使用变迁、土地覆盖变化监测等方面[5],波段信息如表2所示。其中Band 5和Band 6用于获取红边位置,Band 7用于反演叶面积指数(Leaf area index,LAI),Band 8A是LAI、叶绿素和生物量敏感的波段[4]。

表1 主要农作物生育期Tab.1 Major crop development periods

表2 Sentinel-2A波段信息Tab.2 Band information of Sentinel-2A

图2 研究区样方分布Fig.2 Distributions of ground samples in study area

结合秋季作物主要生育期及其地表覆盖度,为降低地表土壤反射光谱对农作物面积提取的影响,选取2017年8月6日质量好且完全覆盖研究区的1景影像(20170806_n0205_r075_t50sle_albers)。并通过网站(http:∥step.esa.int/main/download/)下载Sentinel-2 Toolbox软件,对影像进行重采样和格式转存,生成有10个波段(不包括Band 1、Band 9和Band 10)且空间分辨率为10 m的ENVI格式(*.img)的影像数据,并基于研究区基础影像进行几何校正和大气校正等预处理,经矢量边界裁切后影像如图1所示,ArcMap图层属性中标准差设为1.5。

图1 研究区遥感影像(R/G/B:7/9/3)Fig.1 S-2A imagery of study area(R/G/B: 7/9/3)

2.2 地面数据

首先将研究区制作成为2 km×2 km的规则格网,删除无覆盖研究区格网后获得411个格网,然后基于格网总体均匀分布的原则选取23个约1 km×1 km的地面调查样方,针对黄河沿岸复杂作物种植结构需增设样方,其分布如图2a所示。样方数据均采用Trimble GeoXT差分GPS实地测量标注,调绘结果基于Sentinel-2A影像进行几何校正,误差控制在0.5个像元内。经实测23个样方总面积为2 330 hm2,其中玉米、花生、大豆、水稻、小宗作物面积分别为987.6、193.5、460.1、157.8、17.3 hm2,分别占样方总面积的42.4%、8.3%、19.7%、6.8%和0.74%,其余为水体、园地、建设用地等类型。图2b和图2c为样方影像和作物分布类型。在样方调绘过程中利用Geatc F110平板计算机采集各作物类型样本点,作为选择训练样本参考、植被指数变化分析及分类结果验证数据,共获取实地样本点274个,其中玉米、大豆、花生、水稻、小宗作物(蔬菜、药材、红薯等)各81、67、59、15、52个。

3 研究方法

3.1 研究思路

在影像数据预处理后,首先构建NDVI,根据地面样方和实地样本点数据确定试验区主要作物和小宗作物的分割阈值,通过构建决策树和波段计算工具进行区域分类。然后,对主要作物区域数据进行RENDVI计算,根据地面样方和样本点进行植被指数分析,采用决策树和波段计算工具将影像分为玉米/水稻、花生/大豆种植区,并根据作物训练样本对玉米/水稻、花生/大豆采用SVM进一步分类,得到研究区秋季主要作物分类结果,并与传统分类方法的分类结果进行分析和精度评价,如图3所示。

图3 研究流程图Fig.3 Flow chart of study

3.2 植被指数计算

植被指数是利用遥感影像不同波段组合而成的光谱特性,能够反映不同植被类型的物候差异和光谱特征,将分类精度提高到作物层次,NDVI和RENDVI是农作物监测中应用较为广泛的光谱参数[8-9]。NDVI和RENDVI计算公式分别为

(1)

(2)

式中ρNIR、ρRED——对应表2中的近红外Band 8和红光Band 4的反射率

ρ665、ρ705——对应表2中的红光Band 4和植被红边Band 5的反射率

3.3 训练样本选取

在执行传统监督分类时,一般每种地物类别所选取的训练样本数量大致为30n(其中n为影像波段数)[10],经实地调查,将试验区的分类系统确定为玉米、花生、大豆、水稻、小宗作物、林地、建筑(房屋、道路、休闲耕地)和水体8类,因此,训练样本人工目视选择工作量较大,而支持向量机因其本身具有良好的泛化能力,可减少训练样本点数量的选择。利用RENDVI将作物分为玉米/水稻、花生/大豆种植区影像数据后,根据作物光谱特征和纹理特征等信息,单独选取了用于训练的389个样本点,其中玉米、大豆、花生、水稻各113、109、92、75个。

3.4 分类方法

ML和SVM作为传统监督分类方法,在作物种植结构提取、森林面积监测、土地利用变化监测等领域得到广泛应用和评价[11-16],支持向量机典型方法是模糊支持向量机,通过对每个样本引入模糊隶属度参数来实现分类;决策树分类基于遥感影像等空间数据,采用自顶而下的递归方式,通过寻找分类能力最优的属性变量,把数据依次分为多个子集,迭代直至所有子集仅包含同一类型或子集包含的样本数小于某阈值[17-18]。多年来,国内外专家学者经过与传统分类方法对比研究认为,决策树分类方法具有分类运算速度快、分类精度高的优势,结合植被指数、纹理特征等其他多种特征变量能获得较好的分类结果[19-20]。本研究中采用决策树与支持向量机相结合的方法进行秋季主要作物空间分布信息的提取。在分析作物物候特征和光谱特征基础上,通过构建不同植被指数分割阈值的分类决策树,逐层分类提取不同地物信息;同时,利用模糊支持向量机原理在ENVI中将主要作物进一步分类提取,获得研究区主要种植作物空间分布数据。

3.5 精度验证

基于地面实测数据验证是精度验证的主要手段之一,也是说明遥感分类器和分类结果准确程度的指标之一[6,11]。本文基于地面样方和实地样本点数据,以混淆矩阵、Kappa系数、总体分类精度、制图精度和用户精度5种方式表达。其中混淆矩阵是一个k×k的矩阵,是计算总体分类精度和Kappa系数的基础,总体分类精度是指所有被正确分类的像元总和与总像元数的比例,其算式为

(3)

Kappa系数计算公式为[19]

(4)

式中k——类别数

xii——分类结果中第i类与参考类型数据第i类所占的组成成分

N——像元总数

xi+、x+i——混淆矩阵第i行和第i列的元素之和

4 结果与分析

4.1 主要作物光谱特征分析

NDVI和RENDVI数据结果如图4所示。NDVI二值化后局部数据如图5a所示,基于实测274个样本点数据,结合选取23个样方中各作物类型分布中心位置作为作物类型样本点,形成主要作物植被指数变化范围(表3)。

图4 NDVI与RENDVI计算结果Fig.4 Results of NDVI and RENDVI calculation

图5 植被指数与局部影像计算结果Fig.5 Local image and results of NDVI and RENDVI

表3 主要作物植被指数变化特征Tab.3 Characteristics of NDVI and RENDVI for major crop types

玉米、水稻、花生和大豆的NDVI在该时期较为接近,因此,将研究区初步分为主要作物、非作物和小宗作物种植区域;将主要作物种植区域与研究区遥感影像进行波段计算,获得主要作物种植区域影像数据,其局部放大结果如图5b所示,以此为数据源计算RENDVI,并结合作物样点调查数据发现,该植被指数能有效地将玉米/水稻、花生/大豆区分为两类,其局部结果如图5c所以,颜色较深的为玉米和水稻,颜色较浅区域为花生和大豆。

4.2 基于光谱特征的类别提取过程

图6 构建基于植被指数阈值分割的分类决策树Fig.6 Building of decision tree based on threshold segmentation of vegetation index features

根据以上数据结果,当NDVI分布范围在0.480~0.724之间时为作物种植区,其余为非作物种植区,当NDVI分布范围在0.480~0.628之间时,为小宗作物种植区域;当采用红边植被指数对主要作物区进行玉米/水稻、大豆/花生提取时,由于阈值范围之间有差值,因此需要将阈值进行调整,保障二者阈值之间无差值且能达到全作物种植区完全覆盖,分类结果采用样方数据和实地样本点对分类结果进行验证,当精度验证结果较低时,重新调整RENDVI的阈值进行分类,当已基本满足分类要求或精度改善不大时停止调整,接受当前分类结果,其分类过程决策树构建如图6所示。在主要作物种植区域,利用RENDVI通过阈值调整达到最优分类效果,经试验获得分割阈值为0.137。

4.3 分类结果与精度验证

采用最大似然法、支持向量机法和决策树+支持向量机法分别提取了研究区2017年8月玉米、水稻、大豆、花生和小宗作物,其分类总面积分别为96 770.18、95 936.88、95 240.58 hm2。采用23个地面样方和获取的274个地面样本点进行作物分类精度验证,各分类方法提取秋季作物面积比例及精度验证对比数据见表4,其中用户精度和制图精度各行依次对应最大似然法、支持向量机法和决策树+支持向量机法。

由表4可以看出,玉米识别精度较高,小宗作物由于种植类型复杂且面积较小,识别精度较低。因此,采用决策树和支持向量机的方法可以获得较高的分类精度,其总体精度为92.3%,Kappa系数达0.886,用户精度和制图精度均达81.2%和84.7%。采用同一组训练样本进行分类,由图7红色框选区域可以看出,最大似然分类法在作物分类时能较好地提取线性地物,但“椒盐”现象问题较为明显,尤其面积较大分类图斑周边会出现大量细碎图斑,且细碎图斑属性需要进一步人工处理,后期处理工作量较大,支持向量机分类法可以有效地解决分类中细碎图斑的问题,但存在线性地物和小地块不同作物分类提取不完全等问题,而引入植被指数,采用决策树与支持向量机相结合的分类方法则能较好地解决以上问题,作物提取结果和分类精度较好,能满足区域作物分类提取研究的需要。

表4 秋季主要作物分类结果比例和精度对比Tab.4 Classification result and precision comparison of major crop types

图7 不同方法分类结果局部数据Fig.7 Comparisons of local results of different classification methods

采用决策树和支持向量机相结合的方法提取研究区秋季主要作物空间分布如图8所示,该区域玉米种植面积分布最为广泛,占秋季作物总种植面积的67.1%,沿黄河一带种植分布较少;大豆种植面积占16.0%,主要分布于东部和东南部沿黄河区域,西部与内黄县、滑县接壤处则有少量分布;水稻种植面积占3.7%,种植较为集中,主要分布于徐镇镇和渠村乡,梨园乡、习城乡和海通乡则有少量分布;花生则主要分布于习城乡和中原路街道办事处,与大豆混种情况较多,中部和北部也有少量分布,占12.5%;小宗作物主要有蔬菜、红薯、药材等,在全区种植分布较少,文留镇分布较多,占0.7%。总体来看,植被红边Band 5在植被分类中效果最优,各类型农作物的空间分布格局宏观上与当地作物分布一致,分类结果与实地调查结果较为符合,说明采用决策树和支持向量机相结合的方法对Sentinel-2A影像进行农作物提取具有一定的区域应用价值。

图8 研究区主要秋季作物分类结果Fig.8 Classification results of major crop types in study area

5 结论

(1)决策树和支持向量机相结合的分类方法能有效解决线性地物和小地块不同作物分类提取不完全以及“椒盐”现象等问题,在准确提取大宗作物的同时,对小宗作物也有一定的区分能力,作物面积提取总体精度较高,验证了基于Sentinel-2A单时相遥感影像进行复杂秋季作物面积提取的可行性。

(2)NDVI和RENDVI的引入可以提高单时相遥感影像对复杂作物分类识别能力,在提高遥感影像分类精度的同时,减少了训练样本选取数量及其对作物分类精度的影响。作物分类提取总体精度和Kappa系数分别达92.3%和0.886,优于最大似然法和支持向量机法。

猜你喜欢

样方植被指数决策树
基于无人机图像的草地植被盖度估算方法比较
昆明金殿国家森林公园林业有害生物调查研究
基于决策树和神经网络的高血压病危险因素研究
植被盖度对飞播造林当年出苗效果的影响
典型野生刺梨(Rosa roxburghii Tratt.)灌草丛植物多样性研究
冬小麦SPAD值无人机可见光和多光谱植被指数结合估算
基于植被指数选择算法和决策树的生态系统识别
决策树和随机森林方法在管理决策中的应用
决策树多元分类模型预测森林植被覆盖
基于决策树的出租车乘客出行目的识别