面向对象的作物种植信息提取研究
——以新疆奇台县为例
2020-07-06吕昱范燕敏武红旗彭田田皇甫蓓炯贺梦婕
吕昱,范燕敏,武红旗,彭田田,皇甫蓓炯,贺梦婕
(1.新疆农业大学草业与环境科学学院,新疆 乌鲁木齐 830052;2.奇台县农业技术推广中心,新疆 奇台 831800)
农作物识别作为农情监测的基础,是农业现代化的初始阶段和重要环节[1]。高效提取作物种植信息,可给予农业普查、估产与灾害预警等工作空间决策支持,为政府相关部门制订农业政策与指导农业生产提供重要依据[2,3],同时对农业的精细化管理有着重要意义[4,5]。
遥感技术由于其探测范围大、受海拔地形约束少、快速成像与多波段的特点,被广泛用于现代作物监测[6-8]。相对于传统农业调查手段,做到了省时省力并更加高效地了解作物种植信息[9]。
近年来,大量学者采用面向对象的方法进行地物识别取得了较好效果。刘金丽等[10]利用ESP2工具找出固定尺度范围内的最优分割尺度范围,最后执行最佳同质性准则组合参数配合下的最优分割尺度范围内各个尺度下的多尺度分割;陈杰等[11]使用尺度分层方法对耕地进行提取,取得了较高精度;雷鸣等[12]利用神经网络分类方法确定了基于对象分类的最优特征组合,并采用基于对象的最近邻(kNN)分类方法对遥感图像进行分类。张峰等[13]使用面向农用地实际应用方法对奇台县南部分类。但目前国内外学者较少综合利用土地利用现状图提取耕地作掩膜并使用面向对象的方法对县域级作物进行识别。
奇台县是新疆维吾尔自治区重要粮食产区,主要作物为小麦和玉米。该县农田分布包含前山丘陵、冲积扇上中下部、沙漠边缘等地形部位,利用方式包括旱地与水浇地。因此,该县具有较好代表性。故为了探索县域农作物信息的高精度提取方法,使用多尺度分割算法、面向对象的分类方法对奇台县农作物种植信息进行提取。
1 材料与方法
1.1 研究区概况
奇台县位于新疆东北部,东西横距150千米,南北纵距250千米,县域总面积1.93万平方千米。地理坐标为东经89°13′至91°22′,北纬42°25′至45°29′。该县地理环境独特,地形地貌复杂多变,地势南北高、中间低,呈马鞍形状,属中温带大陆性半荒漠干旱性气候,主要作物为小麦、玉米、向日葵和打瓜。
1.2 遥感影像数据来源及预处理
Landsat 8卫星影像具有中等空间分辨率、单幅覆盖面积大、获取时间集中和不同波段合成对地物有强的效果等特性[14,15]。
本研究采用从美国地质调查局(USGS)下载的研究区2019年3—9月共7期Landsat 8影像作为基础数据,使用ENVI 5.3软件进行辐射定标、大气校正、云量检查、校正、影像镶嵌等处理,获得2019年奇台县Landsat 8多时相遥感影像。
结合奇台县作物物候期,分析比对各个时期影像。3—5月,除种植小麦的地块外,种植玉米、向日葵与打瓜的地块植被覆盖度较低,与裸地差异不大,故识别精度低;8月,遥感影像云量较大,无法识别;9月,部分玉米已收获;对比6—7月影像并结合当地物候与实地调查得知,7月底正值奇台县小麦收获、玉米处于抽雄期,便于识别。故选取2019年7月30日的Landsat 8遥感影像对奇台县作物进行分类。
以奇台县2016年土地利用现状图为底图,依据2019年多时相遥感影像,利用目视解译更新获得2019年研究区耕地分布。
1.3 实地调查数据
实地调查数据可为面向对象的多尺度遥感识别提供基本的参考依据,并为机器学习提供样本数据。依据样本要客观随机并具有代表性的原则,根据奇台县耕地面积、作物分布情况以及研究区实际交通情况,本研究共布设735个样点,其中玉米300个,小麦228个,向日葵139个,打瓜68个。随机选取70%样点用于机器学习构建训练样本,30%样点用于对识别结果进行验证。耕地与实地调查点分布如图1所示。
1.4 最佳分割尺度
在多尺度分割中,尺度的选择对于分割而言尤为重要,太大使影像欠分割,同一对象包含多种地物信息;太小则使分割对象过于破碎,也不利于运算。ESP2(estimation of scale parameter 2)是一种尺度参数评估工具,能快速地给出最优尺度的可选范围。其结果图显示了局部方差和变化率随尺度变化的情况,而ROC曲线的峰值指引了可能的最优分割尺度[16]。本研究利用ESP2确定最佳分割尺度。
1.5 面向对象的分类方法
面向对象的分类突破了传统的基于像素的分类方法,它不再以像元为最小单位,而是将影像分割成对象,综合利用各对象之间的光谱及空间特征进行分类[17]。本研究基于ESP2确定的最佳分割尺度,使用德国eCognition 9.0软件对奇台县耕地进行多尺度分割,然后利用Cart决策树和随机森林算法进行分类,并对分类结果进行精度评价。
图1 耕地分布与实地调查点分布
Cart决策树是由Breiman等[18]提出的一种决策树构建算法,能够高效、迅速地处理高维数据,并筛选出重要的变量,生成可以理解的规则。
随机森林是利用多棵决策树对数据进行训练、分类和预测的方法。随机森林算法通过利用多个分类器进行投票分类,可以有效减少单个分类器的误差,提升分类准确度。实践证明,相比于人工神经网络(ANN)、回归树以及支持向量机(SVM)等算法,随机森林算法具有更高的稳定性和鲁棒性,并且相应的分类准确率也处于领先水平。随机森林算法不仅能够进行大规模数据的高效处理,并且能够适应高维数据应用场景,同时也可以在缺失数据的场景中依然保持较高的分类[19]。
2 结果与分析
2.1 最优分割尺度的确定
通过ESP2结果(图2)可知,90可能为最优分割尺度。
为验证其准确性,参考他人多尺度分割研究选用不同分割尺度40、90、140,并根据耕地大小、形状与分布特点以及资料查询和实验对比,将形状因子和紧密度分别设为0.1和0.5,对提取的耕地进行分割,结果见图3。可见,当分割尺度为40时,分割过于破碎,不利于计算;当分割尺度为140时,存在欠分割现象,对于不同作物相交的边界没有很好地分割出来;而当分割尺度为90时,更接近研究区耕地的真实轮廓,因此,确定90为奇台县耕地最优分割尺度。
图2 ESP2尺度分析结果
2.2 随机森林分类器决策树数量确定
利用随机森林分类器进行分类,需要先设置Cart树的数量,并对分割后的研究区耕地进行Cart树数量参数测试,结果见表1。可以发现,通过加大Cart树数量,生产者精度、用户精度、总体精度与Kappa系数均呈先升高后降低趋势,在80~90时达到高值,因此,本研究选用90作为随机森林分类器的Cart决策树个数进行研究区作物分布的提取。
图3 不同尺度分割效果对比
表1 不同Cart树数量的分类精度评价
2.3 Cart决策树法与随机森林分类器分类精度对比分析
利用最优分割尺度90对奇台县耕地进行分割,对分割后的结果分别使用Cart决策树和随机森林分类器进行分类,并对分类结果进行精度评价,结果如表2所示。可见,随机森林分类器的分类精度高于Cart决策树。这是因为随机森林通过建立多个决策树进行分类预测,即使个别决策树因异常值影响导致预测不准确,但最终分类结果是参考多个决策树得到的,降低了异常值带来的影响。两种方法提取的奇台县作物种植信息见图4、图5。
表2 Cart决策树和随机森林法的分类精度评价
2.4 精度验证
实地调查220 个样点,并建立混淆矩阵[20,21],对奇台县的主要农作物提取精度进行验证,结果(表3)表明,7月奇台县小麦正处于成熟收获期,而玉米处于抽雄期,植被指数较高,两者的识别精度高,用户精度和生产者精度均达到1.0000;但此时期的向日葵处于现蕾期,打瓜处于坐果期,且两种作物的叶子形态相似,识别较为困难,分别存在1个和2个样点的误判。对比实地调查结果,随机森林分类法总体精度达到0.9864。
表3 基于随机森林法的分类精度验证结果
图4 基于Cart决策树分类法的作物种植信息提取结果
3 讨论
2019年《土地调查条例实施办法》颁布,土地确权实施[22,23],有利于获得更佳的土地利用数据,可以使用土地利用现状图准确、高效地提取耕地,快速得到耕地掩膜,减少作物识别工作量,提高工作效率。
地物普遍存在尺度效应,在多尺度分割中,不同的分割尺度会影响对象斑块的大小、对象之间的异质性。雷鸣等[12]使用500分割尺度通过面向对象的分类方法基于遥感影像检测森林变化;吕道双等[24]使用100分割尺度、面向对象方法提取建筑物。根据研究区的实际情况和作物种植结构进行多次分割试验,再结合地物的特点选取分割尺度,得到最优的参数进行多尺度分割,再进行后续分类,可以大大提高作物的分类精度[25]。
4 结论
本研究利用ESP2确定最佳分割尺度,比较Cart分类树和随机森林法分类结果,并通过野外调查点进行精度验证,得到了以下结论:
图5 基于随机森林分类法的作物种植信息提取结果
(1)使用面向对象的研究方法对作物进行分类效果较好,Cart决策树法总体精度0.9253,随机森林法总体精度0.9450,随机森林分类器的分类效果更好。
(2)基于2019年7月30日Landsat 8遥感影像使用随机森林分类器对奇台县主要作物:小麦、玉米、打瓜与向日葵进行提取,总体精度为0.9864。
可见,使用中分辨率遥感影像并利用面向对象的分类方法对县域作物进行识别是可行的,且识别精度较高。