基于随机森林的中大尺度农田产能提升潜力评价
——以广东省为例
2019-11-11陈旭飞任向宁咸春龙冯雪珂刘健美
陈旭飞 ,任向宁 ,张 池 ,咸春龙,冯雪珂,马 涛,刘健美
(1.广东省土地开发整治中心,广东 广州 510630;2.华南农业大学资源环境学院,广东 广州 510642;3.华南农业大学经济管理学院,广东 广州 510642)
【研究意义】随着人口规模增长,工业化、城市化快速发展及农业结构的调整等,耕地产能下降与社会经济需求增加之间的矛盾愈发突出,成为区域可持续发展的重要制约因素。中国人口众多,社会经济对农产品需求巨大,但人均耕地远低于世界平均水平[1];且耕地后备资源多位于区位较差、海拔较高、坡度较大地区[2],其开垦成本高、生态环境风险大,相对经济产出效益偏低[3]。据第二次全国土地调查的耕地质量分等成果,中低等农田占现有农田的比例达70.6 %[4],其产能提升潜力巨大。因此,进一步完善农田产能提升潜力评价技术,挖掘现有农田产能潜力,促进农田高效利用,提高农田供给能力,对保障区域粮食安全,降低对外粮食依存度具有重要的现实意义[5]。【前人研究进展】农田产能提升潜力评价是基于农田整理潜力评价的定向粮食生产潜力提升的农田产能评价,区别于一般农田整理潜力评价注重农田数量与质量提升的复合目标,农田产能提升潜力评价则集中在农田质量及其内在的产能提升目标[6]。早期的农田产能提升潜力评价侧重于单方面生产力水平的提高,如德国通过农田状况、耕作条件、种植结构等评价产能提升的潜力[7]。进入20世纪90年代后,逐渐注重农田的保护及其合理性利用,如俄罗斯从水土流失等自然灾害的防治、土壤肥力保持、高产农田建设的角度评价农田的潜力[8-9]。我国早期注重农田数量潜力的评价,通过引入耕地标准系数的概念[10],建立农田潜力评价系统[11]测算农田数量提升潜力。随着研究的深入,进一步提出多目标评价指标体系,即在农田数量评价的基础上增加了农田产能、生态环境等方面的评价指标[12]。同时,逐渐将数学建模思想运用到农田产能提升潜力评价中[13],不断促进了农田产能提升潜力评价的科学性与适用性。目前,构建农田产能提升潜力评价指标体系,一般多采用理论分析与专家咨询相结合的方法,以满足评价指标的科学性和完整性[14]。【本研究切入点】但是,综合了土地资源学、系统科学、生态学、经济学等理论分析,及各专业学科专家的专家经验判断,构建的农田产能提升潜力评价指标体系较为庞大,不同指标影响尺度不一致,导致潜力评价难度上升,评价结果的科学性与真实性下降。因此,如何从众多自然、社会与经济影响指标中筛选、构建可信度高、科学性强,且较少人为因素干扰的潜力评价指标体系,是目前进一步推进农田产能提升潜力评价的重要现实问题。【拟解决的关键问题】本文以中国华南区广东省为研究区域,试将随机森林算法引入农田产能提升潜力评价指标体系的构建中,进一步明晰农田产能提升潜力评价的关键性指标及其影响力大小,提高评价结果的科学性和准确性。
1 材料与方法
1.1 研究区概况
广东省位于中国大陆最南部,毗邻港澳,东邻福建、西接广西,北面与湘、赣两省接壤,西南端隔琼州海峡与海南省相望。全境位于北纬20°13′~25°31′,东经109°41′~117°20′之间,陆地面积17.83×104km2。2015年,广东省现辖广州、深圳、珠海、佛山、东莞等21个地级市,119个县级行政区划单位,1586个乡镇(街道)。2015年末,广东省常住人口10 849 万人,其中城镇人口7454.35 万人,乡村人口3394.65 万人。
广东省地处低纬度,北回归线横贯省境陆域中部,大部分地区属亚热带季风气候,部分属热带季风气候,全年太阳高度角大,所得到的太阳辐射多,热量丰富,年平均气温22 ℃,年平均降水量1500~2000 mm。广东省地形受深度地质构造与地史发育过程影响,大体是北高南低。陆地以山地丘陵为主,山地面积大,分布较广。山地之间,丘陵、台地、盆地、平原断续分布,地貌类型复杂多样,相互交错。其中500 m以上的山地占21.08 %,丘陵占41.26 %,台地占13.35 %,平原占23.42 %,内陆水域占0.89 %。广东的山地均属于中低山地,全省山地面积为375.48×104hm2。丘陵面积较大,共有734.87×104hm2(图1-A,图1-B)。广东省境内河流密布、纵横交错,水资源丰富。其中集雨面积在100 km2以上的河流有542 条,多年平均水资源总量1.82×1011m3,其中地表水资源量1.82×1011m3,地下水资源量4.5×1010m3,地表水与地下水重复计算量为4.4×1010m3。但区域水资源时空分布不均,沿海台地和低丘陵区不利蓄水,缺水现象突出,尤以粤西的雷州半岛最为典型。
受气候、地形、成土母质、水文、植被以及人为活动的综合影响,广东省主要分为河谷平原土壤组合、红岩盆地土壤组合和石灰岩山地土壤组合3种类型的土壤组合。其中河谷平原土壤组合主要由河流冲积物和三角洲沉积物发育而成,包括潮土、泥田、砂泥田、赤红地,以及潜育型水稻土、潴育型水稻土等。红岩盆地土壤组合主要由紫色砂页岩及其洪积冲积物发育而成,主要包括紫色土、牛肝地和牛肝土田等。石灰岩山地土壤组合主要由石灰岩风化物发育而成,形成红色石灰土和黑色石灰土。根据第二次土壤普查成果,广东省土壤类型主要包括16个土类,36个亚类,131个土属,522个土种(图1-C)。
根据2011-2015年土地利用变更调查数据,广东省水田和水浇地面积呈现逐年减少趋势,水田面积由167.39×104hm2减少至165.96×104hm2,年均减少0.36×104hm2;水浇地面积由12.18×104hm2减少至11.77×104hm2,年均减少0.10×104hm2。通过耕地“占补平衡”政策管制,旱地面积呈现逐年增加的趋势,旱地面积则由80.56×104hm2增加至84.21×104hm2,年均增加0.91×104hm2(表1)。广东省旱地分布主要集中在粤西和粤西北的山地丘陵区,占全省旱地总面积的78.08 %(图1-D)。
图1 广东省概况
表1 2011-2015年广东省耕地面积变化情况统计
1.2 数据来源
研究区农田产能潜力变化样点来源于2011-2015年广东省高标准农田建设项目库,共3531个(表2,图2)。农田样点可实现产能潜力数据、农田土壤属性及量化数据及农田基础设施状况数据采集于2011-2015年广东省耕地质量等别年度更新数据库,中低产田数据采集于广东省耕地地力评价成果更新成果(2015),生态环境资料来源于广东省地质灾害防治规划及其基础数据与规划数据库,研究区水体、植被数据及行政区划界线主要根据研究区2015年度土地利用变更调查成果,并采用地理空间数据云下载的高分一号遥感影像解译进行检验、修正。DEM数据采用ASTER GDEM数据(国家基础数据中心),用于研究区海拔高度、地形坡度等信息提取,空间分辨率30 m。人口、经济等数据主要来源于研究区下辖各区1980和2015年统计年鉴或统计报表,公路交通数据采集于公开地图(open street map)。
1.3 研究方法
1.3.1 随机森林算法模型 随机森林(Random Forest, RF)算法模型[15]是一种基于分类树的算法模型,属于机器学习技术。随机森林利用Boot-strap重抽样方法从原始样本中抽取多个样本,对每个Boot-strap样本进行决策树建模,通过产生大量的分类树,建立若干自变量与因变量的关系,然后组合多棵决策树的预测,最终通过投票得出预测结果。RF模型通过对大量分类树的汇总提高了预测精度,是较神经网络等传统机器学习方法更为先进的算法模型。
RF算法现已被广泛应用到诸如生物信息[16]、医学研究[17]、商业管理[18]、语言建模[19]、文本分类[20]、经济金融[21]等实际领域,这些领域的问题利用随机森林方法都取得了较优的解决方案。在面对较大变量数目及海量数据集时,算法模型较经典建模有很多不可比拟的优越性。随机森林学习算法用于评价指标的选取,能较好地挖掘出原始数据包含的内在信息,针对原始数据集不同的训练数据,该算法选出的指标具有一致性,比简单的统计评价方法更为科学准确[22-23]。同时,随机森林克服了决策树过拟合问题,对耦合噪声和样本异常值有较好的容忍性,具有良好的可扩展性和并行性。此外,随机森林作为一种由数据驱动的非参数分类方法,对分类先验知识的依赖性下降[15]。
1.3.2 影响因素遴选与量化方法 受自然环境变化与人为活动双重扰动,农田产能提升潜力其具有较强的空间变异性,且影响因素众多[24]。农田产能提升潜力一般可分为自然潜力和外部潜力[25],其中自然潜力主要为农田自然禀赋,如光温生产潜力、自然地理环境、土壤条件、水文条件等;外部潜力包括农田管理措施、农田投入水平、农业科技水平、农田生产设施状况、农田施肥状况等。采用文献法收集已有研究成果,整理出农田立地条件、基础设施配套、社会经济环境、农田管理措施和生态环境改善5个方面25个影响因素[6,14,25-26],并通过“现代农业发展趋势-时空变化-影响因素”响应特征分析,剔除与现代农业发展趋势响应度较低的人均耕地、农业人口比重、财政收入、农民人均收入、权属状况和插花地状况等社会、经济因素,及农田管理措施、农田投入水平、农业科技水平、农田施肥状况具有较强的空间随机性和不稳定性的影响因素,补充对产能提升影响显著的区域水源与农田匹配程度这一因素,初步筛选确定海拔高度、地形坡度、水源与农田的匹配程度、土壤有机质含量、有效土层厚度、剖面构型、土壤pH值、障碍层深度、灌溉保证状况、排水条件、田间道路状况、中低产田面积指数、田块破碎程度、土壤侵蚀程度、农田防护林建设状况、自然灾害抵御状况、对外交通便利状况等17个影响因素[14,26]。
图2 广东省高标农田项目分布
表2 广东省农田产能潜力变化样点统计
采用ArcGIS软件中空间分析工具完成研究区农田产能提升潜力影响因素的空间化,其中海拔高度与地形坡度根据区域DEM采用ArcGIS进行测算,水源与农田的匹配程度根据农田与水库、河流、灌渠等水源的空间距离进行度量,农田土壤有机质含量、有效土层厚度、剖面构型、土壤pH值、障碍层深度及灌溉保证状况、排水条件直接采用耕地质量等别年度更新数据库中的量化数据,田间道路状况根据土地利用变更调查成果测算农田路网密度进行测度,中低产田面积指数根据行政村内中低产田面积比率及省内平均中低产田面积比率进行测度[14]。田块破碎程度根据样点工程建设前后的农田总面积与斑块数量,测算出农田破碎化指数的变化量,表征田块破碎度的变化强度。土壤侵蚀程度、农田防护林建设状况、自然灾害抵御状况根据广东省地质灾害防治规划基础数据库进行量化,对外交通便利状况则结合公开地图与土地利用变更调查成果,采用ArcGIS软件分级进行空间分析完成量化。不同因素对农田产能提升潜力的影响方向是不同的,因素值越高,农田产能提升潜力越大的因素为正向影响因素。反之,则为负向影响因素。
图3 研究区农田产能提升潜力影响因素分析
2 结果与分析
2.1 农田产能提升潜力评价指标
以广东省2011-2015年高标准农田建设项目为样点,项目建设前后农田可实现产能变化量为因变量,各影响因素为自变量,采用SPSS19.0进行多重共线性诊断。其结果显示:各因素之间特征根(Eigenvalue)在0.021~6.638,,条件指数(Condition Index)在1.000~7.163,相关系数矩阵为非线性弱相关关系,各因素间不存在显著共线性。采用随机森林算法模型进行探测,17个影响因素的重要度(I值)在0.21~12.71。其中水源与农田匹配系数重要度最大,其I值为12.71,地形坡度、剖面构型、有效土层厚度、土壤有机质含量的I值在6.35~9.32。其余12个因素对项目区农田提升潜力指数的重要度均在5.00以下。其重要度序列为:水源与农田匹配系数>地形坡度>剖面构型>有效土层厚度>土壤有机质含量>灌溉保证状况>排水条件>障碍层深度>田块破碎程度>土壤pH值>海拔高度>土壤侵蚀程度>田间道路状况>对外交通便利状况>中低产田面积指数>农田防护林建设状况>抵御自然灾害状况。
农田潜力提升潜力的影响因素中,抵御自然灾害状况(RND)、农田防护林建设状况(FSC)、中低产田面积指数(MLYA)、对外交通便利状况(TC)、田间道路状况(FR)的重要度在1.00以下,对农田产能提升影响较小;土壤侵蚀程度(SE)、海拔高度(Altitude)、土壤pH值(pH)、田块破碎程度(FF)、障碍层深度(OD)、排水条件(DC)、灌溉保证状况(IGR)的重要度在2.43~4.45之间,属于一般影响因素;土壤有机质含量(SOMC)、有效土层厚度(EST)、剖面构型(PC)、地形坡度(Slope)、水源与农田匹配系数(WFMC)等5个因素的重要度大于5.00,其I值平均值为8.47,对农田产能提升影响显著,为中大尺度上农田产能提升潜力评价的核心指标(图3)。
图4 广东省农田产能提升潜力级别分布
2.2 广东省农田产能提升潜力评价结果
根据评价指标对农田产能提升的重要度,采用加和分权法测度指标权重,地形坡度、水源与农田的匹配系数、有机质含量、有效土层厚度、剖面构型等5个指标权重分别为地形坡度权重是0.22,水源与农田的匹配系数权重是0.30,土壤肥力是0.15,有效土层厚度是0.15,剖面构型是0.18。按照农田产能提升潜力评价体系,采用多因素加权评判法测算广东省21.29×104hm2产能较低的农田提升潜力指数。采用自然断点法进行潜力等级划分,其中I级(潜力指数>88.86)为6.06×104hm2、II级(80.01<潜力指数≤88.86)6.81×104hm2、III级(71.81<潜力指数≤80.01)4.68×104hm2、IV级(63.47<潜力指数≤71.81)2.70×104hm2、V级(潜力指数≤63.47)1.04×104hm2(图4)。
3 讨 论
目前,一般的农田产能评价多采用理论分析与专家咨询相结合的方法,该方法综合性强,指标覆盖领域广泛,指标数量多在10~25[24,27]。但是该方法过于追求指标覆盖度,且受人为因素的影响较大,部分参与评价的指标重要性不高,导致评价指标体系的整体离散性显著,针对性和真实性下降。同时,现有的评价指标体系涉及的资料数据庞大,数据难以获取,评价工作量大,难以满足在中大尺度上对时间、质量的要求[14,27]。而随机森林模型通过组合多棵决策树测度不同影响因素的重要性,有效降低了农田产能提升潜力评价的指标维度,将广东省农田产能提升潜力评价指标从17个降低到5个。该方法减少了因素间的相互干扰噪音,进一步收敛了评价结果的针对性,提高了评价效率。
研究区(广东省)产能较低的农田多位于区位较差、远离海岸线、海拔较高且坡度较大地区,因此,在沿海或内陆干旱半干旱区农田中影响显著的土壤pH值[26]、对农田系统中物质能量交换具有重要作用的对外交通便利状况[25],对田块尺度上农田产能影响显著的灌溉排水等基础设施状况、田块破碎程度、田间道路状况等因素[6,25-26],在随机森林模型判定中都属一般影响或较小影响,重要性较低。但是,我国幅员辽阔,不同区域、不同空间尺度,地理环境与农作方式不同,农田产能提升潜力评价指标必然存在一定的差异性,其指标体系构建应尽量采用科学数据与方法测度。同时,在现有研究成果中尚未采用的水源与农田匹配系数,在中大空间尺度上对农田产能提升的重要性最大,高于土壤条件、地形坡度等其他16个影响因素。因此,建议在其他区域的农田产能提升潜力评价进行广泛的试算,进一步探讨、判定其重要性。
4 结 论
基于随机森林模型构建农田产能提升潜力评价指标体系,进一步提高了指标体系与区域农田特征的契合度,保证了评价结果的科学性、有效性。在人为活动的强烈干扰下,农田产能的影响因素众多,包括农田立地条件、基础设施配套、社会经济环境、农田管理措施和生态环境等各方面因素,具有强烈的多因性和复杂性。根据随机森林模型的重要性测度结果,在中大空间尺度上,交通、基础设施配套、社会经济环境、农田管理措施和生态环境等因素对农田产能提升潜力影响较小,而地形坡度、水源与农田的匹配系数、有机质含量、有效土层厚度、剖面构型等5个自然地理环境指标对农田产能提升潜力的影响较为显著。其中水源与农田的匹配系数在诸多因素中影响最为显著,综合体现了区域“水-土”资源协调关系的紧密程度。
农田产能提升潜力评价结果显示:广东省农田产能提升潜力较大的I、II级面积12.87×104hm2,主要分布于广东省中部的惠州市、东部的汕尾市、西部的湛江市和茂名市,一级北部的清远市,占全省一、二级潜力总面积的60.48 %。
由于时间及数据资料收集的限制,农田产能数据直接采用了省级耕地质量等别年度更新数据库中的可实现产能结果,下一步可基于科学实测数据提高影响因素重要性测度的精度。