基于数据挖掘模型的耕地质量评价研究
2023-01-11任斌裕周晓桢
任斌裕,张 清,周晓桢
(1.数字中国研究院(福建),350116,福州;2.中国科学院空天信息研究院,100094,北京)
0 引言
耕地对保障粮食安全、生态安全、经济健康发展具有重要意义[1-2]。然而我国耕地质量问题十分突出,近年来耕地存在非农化、非粮化、占优补劣、土壤污染等现象导致优质耕作流失、耕地质量下降等问题[3]。第3次全国土地调查结果显示我国耕地面积为0.012 786 7 亿km2,但人均耕地面积不足世界平均水平的40%,且人均耕地面积从2000年的0.001 006 7 km2下降到2021年的0.000 7 km2。因此在耕地面积减少且质量下降的背景下,通过开展耕地质量评价工作了解耕地资源状况,进行人工有效管理提高耕地质量从而提高粮食产量,对土地整治、保障粮食安全有着重要意义[4]。
当前耕地质量评价的方法有很多,如何客观准确地评价耕地质量是当前的一个热门话题。耕地质量评价方法主要有3种:第1种是基于样本信息分析(指数和法、层次分析法、模糊综合评价法、灰色关联分析法等),2012年我国颁布农用地质量分等规程提供了因素法和样地法可为国土部门开展农用地分等工作[5];陈文广等[6]利用地形、土壤和耕地条件、健康状况和生物特性5个方面构建耕地质量评价体系,利用层次分析和专家打分法耕地质量指数。徐伟芳等[7]基于限制性因子评价法分析耕地后备资源数量、类型及空间分布特征。这些方法简单易行,层次清晰,但在确定因子权重时,过度依赖于经验,势必会影响评价结果。第2种是基于GIS技术方法,利用遥感数据为基础对耕地质量评价,如郑梦蕾[8]以利辛县为例,利用NDVI、DVI作为耕地状态指数,RVI和坡度作为生产压力指数进行耕地质量评价。马佳妮等[9]利用遥感数据反演NPP来分析耕地作物长势,从而分析耕地质量。这类方法可以实现大面积评价耕地质量但遥感数据处理量大且过程计算步骤繁琐。第3种是利用数据挖掘方法,由于该方法在处理影响各因子之间的关系具有明显优势,评价过程中无需确定影响因子的权重,因此受主观因素影响较小,且能够快速准确的评价耕地质量。
当前利用数据挖掘方法分析耕地质量取得了一些良好的进展。叶云等[10]首先构建珠三角耕地质量评价指标体系,然后基于GA-BP神经网络模拟耕地质量等级,李小刚等[11]利用模糊模型和BP神经网络模拟耕地质量并绘制空间分布图,表明BP神经网络模型在应用耕地质量分等中具有良好效果。朱瑕等[12]利用因素法与SVM模型方法进行对比耕地质量评价,表明SVM模型划分等别具有高效性,正确率高达96.93%。总体来看,利用数据挖掘模型评价耕地质量还不够深入,其精度、评价体系还缺乏对比验证的过程。本文以四川省叙永县为研究区,基于因素法、BP神经网络、SVM模型模拟农用地(耕地)等级,并对比分析3种分类方法结果。为解决耕地质量分类评价中过度依赖于主观因素划分权重,探索一种高效、客观的耕地质量评价方法应用到国土资源部门进行农用地分等提供新思路。
1 材料与方法
1.1 研究区概况
叙永县位于我国四川省泸州市,是云、贵、川3省的结合部,长江上游与赤水河中上游之间,自古有“川南门户”之称。叙永县东西宽约为54.3 km,南北约长94.9 km,总面积约2 977 km2,耕地和林地约占总面积的77%,其中耕地面积为约1 207 km2,旱地约占60%,水田占40%。林地面积为1 120 km2。当地主要农作物有稻谷、小麦和玉米。属于亚热带湿润季风气候,气候温和、降水丰富、雨热同期,全年平均温度18.0 ℃,年平均降雨量为1 138 mm。
1.2 数据来源与预处理
本研究采用2018年叙永县耕地质量等级调查年度更新评价数据。耕地评价单元采用叙永县2018年耕地质量等级调查年度更新评价的耕地图斑,其图斑个数共61 124个。其评价指标采用农用地分等规程中8个分等因素进行耕地质量评价。数据进行网络训练前,本文采用极差变换法进行数据标准化以提升训练过程中运行速度、强化收敛和泛化能力,其计算公式如下:
对于正向指标,
(1)
对于负向指标,
(2)
式中:maxXij为各指标最大值,minXij为各指标最小值,Xij为各指标实际值;d为各指标指定最佳值。经过极差变换后,数值0~1,最优值为1,最劣值为0。
2 评价模型的建立
2.1 基于因素法评价耕地质量
基于因素法评价耕地质量是根据《农用地质量分等规程》选择的影响耕地质量的指标有:有效土层厚度、有机质含量、土壤层质地、剖面构型、地表岩石露头度、灌溉保障率、排水条件和坡度共8个;然后运用专家打分法确定指标权重,加权相加耕地图斑的各个评定因素指标的分值来判断土地性质的优劣。其计算公式如下:
(3)
式中:CLij为耕地图斑的自然质量分,i为第i个耕地图斑,j为耕地中的第j个指定作物,wk为耕地质量分等因素权重,m为分等因素个数,fijk为第i个耕地图斑内第j种指定作物中第k个分等因素的分值。
Rij=αij×CLij×βj
(4)
Ri=∑Rij
(5)
式中:Ri为第i个耕地图斑的自然质量等指数,αij为作物光温生产潜力指数,CLij为分等单元自然质量分,βj为第j种指定作物的产量比系数。
2.2 基于BP神经网络评价耕地质量
BP网络模型属于梯度下降算法,是一种监督式的学习算法[13]。该模型有3层网络结构,即输入层、隐含层和输出层数量。本文采用11个指标对耕地质量进行评价,因此网络输入层节点数n为11。将叙永县总样本数的1/6作为训练数据,完成标准化后随机抽取训练数据的1/5用于BP神经网络的验证,1/5的训练数据组用于模型测试,其余数据用于训练网络。本文选取网络隐含层激活函数为“Sigmoid”函数,训练模型时使用“Trainlm”函数。
2.3 基于SVM法评价耕地质量
SVM(Support Vector Machines)是基于统计学习原理对数据进行二元分类的广义线性分类器,利用核函数解决因子的非线性和高维空间映射问题中具有很大优势[14]。其分类的思想是以结构化和风险化最小原则为基准构建一个超平面,使得训练样本数据尽可能远离该平面,通过寻求最大间距得到分类最佳解。
3 结果分析
3.1 基于因素法评价耕地质量
因素法是我国为方便国土部门评定耕地质量的自然等级、利用等级、经济等级而颁布了《农用地质量分等规程》。耕地的自然等级是指在某耕地图斑中按照标准耕作制度,在一定的水热条件下,根据层次法和专家打分法确定影响耕地的指标权重,从而计算耕地质量得分,利用阈值法划分出耕地属性等别。本文依据农用地质量分等规程对耕地进行评价,其结果表明,叙永县耕地质量主要是高等地和中等地,9等地(中等地)占耕地图斑的个数最多,约为57%,7等地、8等地(高等地)约占为23%。
表1 因素法评价耕地质量
3.2 基于BP神经网络法评价耕地质量
图1为BP神经网络训练精度图,图1中可以看出训练数据的拟合精度为0.997、验证数据精度为0.995、测试数据精度为0.997和全体数据的精度为0.997。说明本研究建立的训练BP网络模型效果良好,可以基于此训练好的BP神经网络模型对其余耕地图斑进行耕地质量评价。
利用BP神经网络模拟耕地7等地、8等地、9等地、10等地的占比分别为2.6%、24.9%、55.6%和16.9%(表2)。叙永县耕地为8等地划分正确率达到了98%,7等地和9等地的正确率分别为84%和88%,10等地最低,仅为76%,整体精度约为88%。仅出现7次错分在2个等别,其余的错分的图斑等级均在一个等别差。本次模拟精度出现误差的原因可能是由于训练时没有或相对较少有拐点处的数据,导致真值与预测值之间的误差刚好在划分等级阈值左右而划分为其他等别。如国家自然质量等指数2 000~2 400为10等地,2 400~2 800为9等地,某图斑耕地的国家自然质量指数为2 390,而预测的指数为2 410,将会错分为9等地。
图1 BP神经网络训练精度图
表2 BP神经网络法划分等别情况
3.3 基于SVM评价耕地质量
图2为SVM模型等别划分混淆矩阵,其对角线上的值为SVM模型预测正确的耕地等级图斑总数。整体来看,划分耕地等级的正确率均在99%以上,说明模型精度良好,测试结果符合后续耕地质量评价工作,因此可以选择该训练好的模型完成剩下的样本数据进行评价。
利用SVM方法进行模拟耕地质量等别如表3,7等地模拟的准确率达到了100%,9等地的模拟精度为95%,10等地的模拟精度相对较低为92%,整体精度为96%,能满足实际评价生产中的需求。各个等别划分错分均在一个等别,该模型出现等别划分错误可能是由于数据集的不平衡。如在叙永县耕地数据中,9等地数量最多,为35 519个图斑,而10等地为11 133个图斑,SVM模型偏向于将部分实际为10等地划入9等地中样本数量较多的等别;还可能是因为阈值原因,预测值的10等地和实际9等地耕地质量指数相差较小,也会导致模型精度的下降。
图2 SVM模型等别划分混淆矩阵
表3 SVM划分等别情况
4 结论与讨论
开展农用地(耕地)分等工作是全面了解耕地资源的基础,其质量等级受多种因素的影响,因此评价前需要根据实际情况选择耕地影响因子,其次需要考虑训练样本的典型性、均衡性进行模型训练。BP神经网络模型需要人工设置隐含层节点以达到最优解,能在评价过程中跳过设置权重,在学习过程中可以主动修正模型相关参数(阈值、学习率、期望误差)以提高预测精度。SVM模型使用核函数法能够使类与类的间隔最大化,在训练的过程中可以自动实现参数最优且尽可能少地用到样本信息(仅用到支持向量),因此可以避免模型的过渡拟合,具有良好的鲁棒性,准确率较高、推广性能强。在泛化能力上SVM模型要高于BP神经网络。评价过程中,SVM收敛快,用时更少。在精度上,BP神经网络模型评价的耕地等别的准确率为88%,SVM模型其准确率达96%。从每一个耕地等别上看,SVM模型划定农用地自然质量等别的正确率均比BP神经网络法精度高(图3),特别是7等地和10等地中,2种分类器的差别较为明显。
图3 BP神经网络与SVM方法各等级正确率情况
当前耕地质量评价传统的方法主要有:因素法、层次分析法、模糊综合评价法等,这些分类评估方法易受人为因素干扰且评估效率较低。基于GIS评价方法在遥感数据处理量大且计算过程步骤繁琐。因此本研究首先根据《农用地质量分等规程》计算耕地质量指数和分等情况作为真值,再引入BP神经网络模型和SVM模型,经过样本数据训练和模型精度验证后进行耕地质量评价,最后对比分析因素法、BP神经网络、SVM模型法的优缺点,得出了以下结论。
1)利用因素法进行耕地质量评价,叙永县耕地质量主要是高等地和中等地,中等地(9等地)占耕地图斑的个数最多,约为57%,高等地(7等地、8等地)约占为23%。该结果可用于国土部门土地管理工作。
2)BP神经网络模型模拟精度约为88%,SVM模型的模拟精度为96%。模拟每一种耕地等别中,SVM模型模拟耕地质量等别的正确率均比BP神经网络法精度高。2种模型都可以避免主观赋予权重误差且有良好评价效率。在耕地年度变更调查中,应用SVM法进行农用地分等工作有一定的优势,可以推广使用该模型进行耕地质量评价。