基于两级选择性聚类集成的农用地整治时空配置分区
2022-08-06张雅杰孔雪松
张雅杰,靳 铭,张 丰,孔雪松
(1.武汉大学资源与环境科学学院,武汉 430079;2.武汉大学遥感信息工程学院,武汉 430079)
0 引 言
农用地整治是对农用地及其利用方式的再组织与再优化的过程,包括开发、复垦、整理(高标准农田建设、中低产田改造)等措施,是实现耕地保护、生态安全保障的重要抓手。随着中国进入增速换挡、发展动力转换的新常态,农用地生产、生活及生态属性均被赋予了更加丰富的时代内涵,因地制宜、因时制宜成为当下农用地整治的基本准则。因此,如何科学地确定整治工作的空间组织与工作时序,从而使整治工作有据可依、有序可循,成为迫切需要解决的问题。
在农用地整治推进的过程中,相继有学者从社会经济、生态等因子着手,对区域的适宜性条件、限制性因素等实施评价,并依据评价结果对整治区进行划分。在农用地整治分区方法上,以往研究主要采用K-means算法、自组织映射神经网络(Self-Organizing Feature Map, SOFM)等传统方法来实现。随着研究的进一步深入,国内外学者逐渐意识到传统聚类算法存在易陷入局部最优等局限,并逐渐采用改进后的聚类算法来进行研究。Ertunc等在对农用地整治项目区内地价影响因素进行分析的基础上,通过集成K-means、K-medoids、Fuzzy C-means三种算法对整治后的农用地价值进行评估。Xiao等系统分析湖北省土地利用条件等属性差异,采用SOFM神经网路与层次聚类法(Hierarchical Clustering,HC)将湖北省分为7个整治区。毛祺等基于生态敏感性与生态系统服务,耦合SOFM神经网络与支持向量机将鄂尔多斯市划分为11个生态功能分区。相关研究通过使用改进后的算法对研究区的属性空间进行分析,提升了研究的科学性。但仍存在以下问题:1)对于整治工作的时序差异研究仍需深化;2)忽略了地理要素由于位置相近而可能存在的显著关联性;3)聚类方案的质量有待识别。
本文针对当前研究所存在的不足,从农用地整治的空间组织和时序安排两方面进行思考,综合考虑聚类单元的生态敏感性、用地适宜性以及整治迫切性,利用两级选择性聚类集成的思路,在依据地理及属性双重空间构造混合距离的基础上,利用层次聚类法、SOFM神经网络、K-means聚类法3种算法生成方案库。参考帕累托原理确定集成方案的数量,并利用质量指数对方案进行筛选,随后依据优胜方案进行两级聚类,形成农用地整治时空配置的分区方案。最后,针对每个分区在农用地整治的工作时序及整治重点两方面给出了建议。从而为解决当前研究中所存在的不足提供一些方法,并为未来全域国土综合整治的时空配置工作提供思路借鉴。
1 研究区概况及数据来源
怀化市位于湖南省西部,下辖12个县(市/区)及1个管委会,土地总面积27 572.54 km²,其中农用地占土地总面积的比例达90%以上。怀化市地处中亚热带川鄂湘黔气候区和江南气候区的过渡部位,境内雨量充沛、光温条件较为优越、严寒酷暑期短。市域内地势东西两侧高峻、南部突起,向中北部倾斜,地貌类型丰富,以中低山、丘陵为主。充沛的降雨与复杂的地形为土壤侵蚀提供了适宜的环境,为农业的发展设置了障碍。为解决生态安全、耕地保护与经济发展间日益凸显的矛盾。2006年以来,怀化市规划了一系列农用地整治项目,总面积达5 952.10 hm,但由于缺乏科学统一的空间组织与时序计划引导,项目存在类型单一、规模效益不显著、空间分布零散的问题。综合来看,怀化市的自然条件、农用地整治问题等在中国南部的农业生产大市中具有较强的典型性与代表性,以之为研究区,利于探究具有可移植性的地级市农用地整治思路。
研究数据包括土地利用数据、行政区矢量数据、土壤、植被、气象数据、遥感影像数据、社会经济数据。其中,土地利用遥感监测数据与行政区矢量数据来源于中国科学院资源环境科学与数据中心(https://www.resdc.cn/),水系矢量数据从第三次全国国土调查数据中提取;土壤数据集来源于国家冰川冻土沙漠科学数据中心(http://www.ncdc.ac.cn/portal/);气温与降雨站点数据来源于中国气象数据网(https://data.cma.cn/),年均潜在蒸散发数据来源于CGIAR CSI数据集(https://cgiarcsi.community/);DEM数据从地理空间云(http://www.gscloud.cn/search)获取,年度NDVI与植被类型数据来源于中国科学院资源环境科学与数据中心;社会经济数据来源于《怀化统计年鉴》。
2 研究方法
怀化市农用地利用问题表现为:沅陵县等山区生态空间与生产空间的矛盾日益显现,生态系统退化隐患较大;农业发展潜力有待进一步挖掘,区域农业生产的比较优势未充分发挥;农用地整治的统筹性有待提升,整体效益一般;农用地整治的工程措施同质化严重,同时空间布局分散,规模效益不明显。研究基于上述问题,结合怀化市农业发展的限制性因素,从空间及时间两个维度构建指标体系。在此基础上,将聚类单元的地理空间与属性空间进行结合以构造混合距离。最后,采取两级选择性聚类集成方法实现农用地整治时空配置。详细研究方法如下:
2.1 指标体系构建
为全面解析农用地属性,识别区域农业资源潜能及限制,在借鉴相关成果的基础上,围绕区域生态、用地条件与整治迫切程度,研究提出集成“生态敏感性-用地适宜性-整治迫切性”视角的农用地整治评价框架(图1)。
图1 集成“生态敏感性-用地适宜性-整治迫切性”视角的农用地整治解析 Fig.1 Analysis of agricultural land consolidation from the perspective of “Ecological sensitivity-Land suitability-Urgency”
生态敏感性指生态系统对自然环境变化和人类干扰的反应程度。研究从以下方面构建指标(表1):
1)地形条件:一般而言,坡度、高程越大,生态系统越容易受外力干扰而产生退化。同时,坡向是山地生态系统敏感程度分异的重要原因,向阳面的生态系统相对于背阴面更稳定。
2)地表水系:农业生产活动会对周围的水文系统造成一定影响,且距离越近越易产生影响。
3)植被景观:植被覆盖情况的不同往往会致使其生态系统响应程度存在差异。本文借鉴刘思源等的研究成果,认为阔叶林敏感性大于针叶林,常绿林大于落叶林。而在植被类型相同时,植被覆盖度较高的区域的生态敏感性更低。
用地适宜性指区域进行农业生产的适宜程度。充分借鉴前人研究,研究从以下方面构建指标(表2):
1)用地条件:光温条件、水源涵养能力、用水便捷程度与土壤条件对农业发展起决定性作用。对于水源涵养,本文采用InVEST模型的Water yield模块分析。用水便捷度以农用地(不含坑塘水面)和与之最近沟渠的距离的倒数来体现。
2)工程实施可行程度:基于科斯定理进行推论,利益各方人数越多,达成有效协议的困难程度越高。因此,较多的受偿农民可能会增加项目推进难度。同时,低收入会增加受偿群体寻租的可能性,从而阻碍项目推进。
整治迫切性指实施农用地整治的迫切程度。借鉴前人研究,从以下方面构建指标(表2):
1)整治驱动:运用InVEST模型的Habitat quality模块计算生境质量。根据其计算过程,低值农用地距离生境胁迫源较近,生产条件退化隐患较大。同时,农用地破碎化与土壤侵蚀是怀化市农业发展的主要限制因素。此外,人均农用地面积是人地关系协调性的表征,在其他条件既定时,优先在用地紧张的区域补充农用地。
2)用地效率:农用地利用效率较低的区域可能存在规模性撂荒、生产设施不完备等情况。对于这些农用地,应及时整治,以保障土地资源的充分、高效利用。
2.2 指标量化与权重确定
各指标依据式(1)进行归一化处理,并邀请11位专家对各指标的相对重要性程度进行打分形成判断矩阵,依据判断矩阵进行层次分析法运算,最终结果如表1与表2所示。
表1 生态敏感性指标体系 Table 1 Ecological sensitivity index system
表2 农用地整治时空配置指标体系 Table 2 Spatial-temporal allocation index system of agricultural land consolidation
式中x与′分别为归一化前后的指标,与为相应指标的最大、最小值。
2.3 基于两级选择性聚类集成方法
两级选择性聚类集成采用基本聚类算法形成聚类方案库,依据质量指数在方案库中选择若干优胜方案进行第二级聚类。本文所使用的两级选择性聚类集成方法步骤如下:
1)构建基本聚类算法。此次研究根据算法原理,选择层次聚类法、SOFM神经网络以及K-means聚类三种算法,算法构建过程如表3所示。随后对聚类单元的地理坐标及属性空间各项指标分别进行归一化处理;
表3 层次聚类法、SOFM神经网络及K-means聚类算法伪代码 Table 3 The pseudo-code of the hierarchical clustering method, SOFM neural network and K-means clustering algorithm
2)构造混合距离。根据地理学第一定律,相近的事物关联性更加紧密。考虑到相近聚类单元在所构建的属性空间以外可能存在着显著性关联,本文采用混合距离来衡量聚类单元之间的相似性。反映双重空间的集合X定义如下:
3)运算3种基本聚类算法。随机输入属性向量,基于混合距离衡量匹配点。在不同条件限制下,各基本算法进行有限次的迭代,最终生成第一重的若干聚类方案;
4)对第一重聚类方案进行筛选。本研究利用聚类的质量指数对各方案质量进行量化及排序,其计算过程如式(4)所示。随后根据排序结果筛选出若干聚类方案;
式中quality(P)是聚类方案的质量指数,是所有聚类方 案数量,NMI(P,P)表示方案P、P之间的归一化相互信息值(Normalized Mutual Information, NMI)。通过NMI值的计算,可比较不同簇中特定聚类单元的,从而进一步识别各聚类方案之间的交互性,其计算过程如下:
5)依据优胜方案对数据集进行第二级聚类。利用MATLAB R2021a设置循环条件,将具有最大数量相同聚类单元的两个簇的交叠部分划分为独立的新簇,直至形成新的聚类成果。自动聚类过程结束后,依据属性特征归并相似性较大的簇。
3 结果分析
3.1 研究区属性空间特征分析
如图2所示,研究区三层属性均具有显著的空间异质特征,区域内部差异明显;各属性均呈现出一定的空间聚集性,但聚集的尺度与水平有所差异;属性间的空间特征差异显著,同时彼此之间无明确关联性。即研究区的属性空间呈现出较强的复杂性特征,在此条件下,简单的分类手段已难以满足配置要求,有必要开展进一步的研究。
图2 怀化市农用地整治时空配置指标分布图 Fig.2 Distribution of spatial-temporal allocation indicators for agricultural land consolidation in Huaihua City
3.2 农用地整治时空配置结果分析
将各聚类单元的中心点坐标、各评价指标的标准化值分别作为计算变差函数的地理、属性空间变量。在此基础上,利用软件MATLAB R2021a来构建三种基本聚类算法。从理论上来讲,依据聚类单元的相似性进行聚类所生成的簇数目在[2,-1](为聚类单元的总数)范围时,聚类结果就有一定的意义。但出于对农用地整治工作实际需要、研究尺度等的考虑,此次研究将聚类数目限定在[7,11]范围内。层次聚类法采用默认参数进行运算,SOFM神经网络的初始权值为[0,1]的随机数,地理空间变量及属性空间变量的权重分别为0.4及0.6,基本学习速率为0.5,最大训练步数的选择要结合具体聚类数目下的聚类结果,选择聚类结果开始稳定后的最大训练步数。如在SOFM网络聚类数目为8且其他参数既定的条件下,当训练步数达到4 000时,聚类结果稳定下来。K-means聚类法除运算次数外均采用默认值,运算次数设置为各聚类数目下聚类结果稳定后的次数。通过运算,最终得到15个聚类方案,225个有效NMI值,如图3所示。
图3 聚类方案归一化相互信息值(NMI值)与质量指数水平示意图 Fig.3 Diagram of clustering scheme normalized mutual information (NMI) values and quality index levels
根据NMI值计算出各方案的质量指数,随后将各方案按照对应的质量指数由大到小进行排序。参考帕累托原理,选择前20%的聚类方案,筛选出聚类数目为8、10、11的层次聚类法的运算成果,如图4所示。
图4 依据质量指数筛选出的聚类方案 Fig.4 Clustering schemes filtered by quality index
对上述方案所生成的22个簇进行分析,将具有最大数量相同聚类单元的两个簇的交叠部分划分为一个分区。然后根据各分区的属性特征将300个聚类单元分为近期重点整治区、近期适度整治区、中期重点整治区、中期适度整治区与远期限制整治区5类,结果如图5所示。
图5 怀化市农用地整治选择性聚类集成与时空配置结果图 Fig.5 Results of selective cluster ensemble and Spatio-temporal allocation of agricultural land consolidation in Huaihua City
1)近期重点整治区主要分布于中方县、芷江侗族自治县,共包含36个乡镇,总面积为2 495.67 km²,占全市总面积的9.05%。该区生态敏感性较低、用地适宜性与整治迫切性较高。生态系统稳定、自然条件优越,利于农业发展,但也存在着农用地破碎化、土壤侵蚀等限制因素。未来应结合现行整治政策,以打造高效生产、适应市场的现代农业为目标,以开发补充耕地、农用地提质增量、工矿废弃地复垦、高标准农田建设项目为主要内容进行项目布局。短期内可以结合优势产业,进一步发掘当地农业潜力,建设农用地整治示范区,打造怀化市农业生产新高地。
2)近期适度整治区主要分布于会同县、新晃侗族自治县、溆浦县和沅陵县,共包含81个乡镇,总面积8 403.75 km²,占全市总面积的30.48%。该分区生态敏感性与用地适宜性适中,整治迫切性较高。自然条件优越,但土壤侵蚀程度较高带来生态系统退化隐患。因此,该区域范围内不适宜开展大规模的用地开发活动。未来应结合区域农业基础,对保护区外的现状农用地进行归并、改造,提高农业生产效率,并采取综合措施来减少这些区域的土壤侵蚀、地质灾害隐患,促进土地利用与生态环境相协调。
表4 怀化市农用地整治分区属性情况及面积 Table 4 Zoning properties and areas of agricultural land consolidation in Huaihua
3)中期重点整治区主要分布于溆浦县、鹤城区、洪江市、洪江区,共包含80个乡镇、11个街道与1个辖村度假区,总面积为6 225.42 km²,占全市总面积的22.58%。该分区生态敏感性较低、用地适宜性较高、整治迫切性适中。生态系统稳定、自然条件优越、农业发展潜力较高。未来应以进一步改善农业生产条件,减少农业发展限制性因素为工作重点,开展大范围的破碎土地归并、高标准农田建设、土壤构型改良等农用地提质工程项目,增加农用地数量,提高其生产规模效益,进一步巩固全域农业重心地位。
4)中期适度整治区主要分布于通道侗族自治县,共包含21个乡镇、1个林场、1个农场,总面积为2 021.14 km,占全市总面积的7.33%。该分区生态敏感性、用地适宜性、整治迫切性均适中。该区的农用地整治应以“优化生态安全格局与农业生产条件并行”为重点,农用地的提质增量以保障当地生态安全为前提。总体而言,整治力度不宜过大,应结合当前农业发展格局,以现存问题为导向对生态敏感区以外区域的生产条件加以改善。除此之外,可在播阳农场等区域将农业发展与旅游观光相结合,构建田园综合体,并以部分收益投入到生态修复与保护中,在提高用地效益的前提下形成良性循环。
5)远期限制整治区主要分布于靖州苗族侗族自治县、芷江侗族自治县、麻阳县、沅陵县,共包含68个乡镇,总面积为8 426.56 km,占全市总面积的30.56%。该分区生态敏感性较高、用地适宜性较低。在该区域实施农业活动的规模效益低、成本高昂且生态安全难以保障。即区域农业发展潜力不足,进行农用地整治的战略意义不明显。因此,不建议在该分区范围内实施大规模的农用地扩张与建设活动。
4 讨 论
为全面解析农用地属性,研究基于“生态敏感性-用地适宜性-整治迫切性”的视角,结合怀化市用地问题与限制性因素,从时间与空间两个维度构造评价体系。具体而言,用生态敏感性表征生态保护要求,用地适宜性表征农业生产潜力,对怀化市的农业生产的效益与限制性因素进行识别,从而为整治项目的重点内容与力度提供参考。同时出于行政管理的考虑,用整治迫切性指标为管理者对项目区的优先级划分提供参考。未来研究可结合农用地整治的多目标化和差异化趋势,进一步因地制宜地优化和完善评价指标体系。
在农用地整治时空配置的方法上,研究基于传统聚类算法不兼顾地理空间、易陷入局部最优的问题提出了两级选择性聚类集成方法。通过构造兼顾属性与地理空间的混合距离,充分考虑到相近地理要素的自相关性,从而能够克服聚类成果集聚性不高的问题。项目区的集聚利于整治工程发挥规模效应,从而极大程度地降低整治成本。但项目区的划分仍需以区域特征为依据,不应过分追求项目区连片而忽略部分区域的实际属性,尤其是以行政区为单元进行聚类时,更要注重聚类成果对区域属性的反映,否则会对决策者造成误导。同时,新的聚类方法引入了质量指数,通过方案质量识别与优选的方式有效保障了聚类成果的质量,从而为农用地整治时空配置提供更加有效的方案。聚类过程的自动化也充分保障了研究成果的客观性。但研究在以下方面还存在着进步空间:1)研究在对聚类方法的原理进行分析的基础上,选用了学术界常用的三大聚类算法。如图3所示,在怀化市农用地整治时空配置中,各聚类算法的质量指数差异较为明显,这体现出了基本聚类算法的选择上存在一定不确定性,但同时也说明了聚类集成策略的意义及方案比选的必要性;2)若要采取大规模计算的思路来进一步提高聚类方法的有效性,有必要找到方案库容量、方案优选数量与聚类效果的相关性。在理论充足的前提下,可以通过进一步提高运算量来实现聚类质量的突破;3)通过对NMI值的衡量,质量指数能够依据各簇间的相似性来剔除异常方案。未来的研究可以从更多的方面进行切入对方案质量进行检验。总体而言,实例研究验证了两级选择性聚类集成的有效性,在未来的农用地整治等领域中,可以尝试结合该方法对整治项目进行空间组织与时序安排。
5 结 论
本文综合考虑生态敏感性、用地适宜性与农用地整治迫切性因素,分层构建了体现聚类单元农用地整治时空特征的指标体系,并基于兼顾地理、属性双重空间的混合距离,使用两级选择性聚类集成的方法进行农用地整治时空配置研究,在明确各分区特征的基础上,结合区域发展需求提出农用地整治的重点方向及内容。
怀化市生态敏感性、用地适宜性与整治迫切性均具有显著的空间异质特征,空间格局差异明显,彼此之间无明确空间关联性。在此条件下,如自然断点等简单分类方法已不能满足配置需求,需进一步展开研究;通过两级选择性聚类集成的方法将怀化市300个聚类单元分为近期重点整治区、近期适度整治区、中期重点整治区、中期适度整治区、远期限制整治区5个分区,面积分别为2 495.67、8 403.75、6 225.42、2 021.14、8 426.56 km,分别占全县土地总面积的9.05%、30.48%、22.58%、7.33%、30.56%;不同算法之间质量指数存在着明显的差异,这体现了聚类集成与方案优选的必要性;实例结果显示,在聚类单元较多、属性空间复杂的条件下,两级选择性聚类集成方法仍适用。并且因其基于地理与属性双重空间,同时具有兼容不同算法和识别聚类质量的优势,相较于传统聚类方法,其所提供的方案更具实践价值。