APP下载

数据挖掘技术在土地定级中的应用研究

2022-04-08刘兴波徐志英

智慧农业导刊 2022年5期
关键词:决策树数据挖掘土地

刘兴波,徐志英,都 春 ,张 红

(1.朝阳师范高等专科学校,辽宁 朝阳 122000;2.朝阳市自然资源局,辽宁 朝阳 122099)

随着计算机技术、互联网技术等相关技术的发展,针对于不同资源的数据不断产生,这就导致了数据库的总量激增,不同的数据库反映了不同的数据类别,解释了不同的数据内容,具有相对独立性,因此各种数据之间存在非线性关系,在数据的尺度特性、数据的多维化、数据的模糊度、数据采集度等方面存在缺失性因素,即数据与数据之间的内涵关系很难形成“挂钩”,这就导致了数据之间的内在关系、规则和发展趋势等潜在问题很难被发现。但往往数据隐身背后的意义在实际应用中更具有指导性意义和对于解决问题更具有数据支撑的意义。土地定级也需要采用数据挖掘技术发现数据背后隐藏的秘密和资源,发现土地定级各项数据指标之间的关系或者其他模式,需要数据挖掘技术才能得以实现。

1 数据挖掘技术概述

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。通过对随机的数据,不同类别的数据进行数据加工和分析,使得其变成具有价值性、可为相关决策人员提供支撑的有效数据。通过对数据的收集、存贮和清洗、分析等步骤挖掘数据的价值。一般包括描述性数据分析、预测性数据分析、相关性数据分析等等。

由于大数据比一般数据更为复杂,其数据群体庞大、挖掘角度多样且数据清洗困难等原因,利用大数据进行分析研究的方法近年也刚起步,因此目前从事大数据研究的领域依旧有限,就土地定级而言依旧有很大研究拓展空间。数据的挖掘离不开对大数据的分析,其中从纷乱的各类数据中挖掘有价值的信息需要各种知识背景,如数据知识和土地测绘知识等等,因此这是一种多学科的交叉。在数据挖掘时要采用不同的分析法对数据库中的海量数据进行统计、分析和归纳,在此基础上提取类似于趋势、模式或相关性等有用的信息[1],再将信息进行整合总结后用于辅助决策的制定。

一般而言数据挖掘需要包括如下几个阶段:第一阶段是数据的准备,这个阶段主要是建立一个数据分析构思或数据分析模型,确定最终的研究目标和期望的结果,并针对目标开始着手准备各类数据。这种数据的准备阶段也叫做数据收集或者数据汇聚阶段,既可以准备现有手头数据也可以通过购买商业数据、政府数据等进行数据汇聚。第二阶段即数据挖掘阶段,这个过程中值得注意的是需要在挖掘前对数据进行清洗,把不同类别的数据统一数据格式,剔除无用的数据和具有不稳定的、极值性的数据。待数据清洗后将“生数据”变为具有可分析性的“熟数据”就可以进行各类的数据分析,既可以建立各种数据模型分析,也可以进行各类基本分析。第三阶段呈现分析成果,该阶段主要是将数据分析的结果用文字进行表达和解释,并根据解释的结果提出相对应的策略以及下一步相关领域的研究对象。

2 土地定级的概述

2.1 土地定级的概念

土地定级最核心问题反映的是土地的质量和价值。这就好比商品的定级,商品的质量越高、越稀缺其价值越高,在土地定级中也是如此,需要根据土地的自然属性和经济属性,定级前通过对土地进行调查、测算等技术手段来测量土地的价值和质量。此外,不同用途的土地有不同的质量和价值及价值评价指标,城镇土地和农用土地这两种使用不同途径的土地测算方法,所需要捕捉的数据差异很大。例如在农田测算时其数据就需要考虑水田、农田、林田等相关数据,而在城镇用地时却对这些数据的指标不需要考虑,需要考虑的是繁华程度、交通条件、基础设施建设、人口状况等数据指标。

2.2 土地定级的现状

我国幅员辽阔,地形地势气候条件复杂多样,土壤条件也各不相同,因此不同地区进行土地定级有一定难度,不同评价工作中得到的土地等级在全国范围内无可比性[2]。加上我国部分土地信息不完整,土地定级估价中算法复杂,定性资料不能量化,计算效率低下,对于土地信息专业知识获取仍有“瓶颈”。此外,现有针对土地定级的研究方法仍有不足,无论是最短距离分析法、基于栅格数据的空间分析法、基于矢量的缓冲区分析法等均存在各种短板。

目前,数据挖掘技术在投资、制造业、银行和金融等行业已经加以应用,但在土地定级领域的运用仍处于较新的应用阶段。通过对土地资源相关数据进行挖掘和分析可以较好地评价土地位置、形状、走向和坡度等地理数据,使这些分布的数据在空间上和时间上形成一种相互关联、相互制约、相互发展的数据集关系[2]。运用数据挖掘技术进行土地的定级不仅仅是对土地资源的最优化配置,同时是对土地资源的经济价值及其商业价值进行评估,有助于促进该地区经济和社会的发展。

3 数据挖掘技术在土地定级中的应用

3.1 应用方法

对于数据在土地定级中的挖掘而言,首先要考虑各类数据之间的联系、数据的种类、特点及其相互之间的关系。因此在挖掘前,需要对数据有一个大致的判断,判断各类数据的属性和基本价值与信息,并能预测所分析的结果,和采用分析的工具及其分析的方法。以城镇土地为例,其土地定级是对不同区域的土地价格进行区分,经过对区域内相关数据的采集、计算、验证、除错等计算出该区域版块土地的价格,接着实施空间上的聚类,以此完成土地级别的确定[3]。

针对土地定级,数据挖掘技术的基本方法主要是聚类分析法,传统聚类分析主要包括:划分方法、层次方法以及基于密度的方法、基于网格的方法和基于模型的方法。此外,基于上述方法的前提下,土地定级中也常用到遗传分析法,这种方法的测定是由土地的效用所导致的并且不受到样本集方差分布的影响,这种基于遗传算法的空间聚类方法应用广泛。遗传算法首先可将需要定级的土地进行编码,并采用二进制、十进制、灰度和DNA等方式进行编码,然后随机选取构成初始种群,接着计算适应值并进行复制,通过遗传算子来产生新的种群,最后收敛到一个最适应环境的个体上获得最优解,即选择、交叉和变异3个操作。

其次,决策树分类算法也应用得比较多。通过构建一个分类模型并建立一个决策树模型,由此揭示土地数据之间的分类规则,该方法在土地定级过程中得到广泛认可[4]。

在土地定级中,决策树被表示为一种类似流程图的模式,根据层次的不同分为根节点、分支节点和叶子节点,其中根节点是整个决策的起点。决策树的算法有很多,常见的决策树结构如图1所示,决策树算法见表1。

表1 决策树常见算法

图1 决策树结构

在数据挖掘中,可通过对4种算法在生成决策树的结构、对属性采用的测试方法、属性处理方式等方面的比较,确定土地定级的研究方法。决策树算法还可以用于可视化空间数据的挖掘、空间目标分类以及土地定级估价。

3.2 应用策略

3.2.1 加大政策资金支持力度

相关主管部门要严格按照土地定级有关的法律法规,严格执行土地定级的标准,部门之间开展跨部门合作,定级部门要和信息部门通力合作,积极获取区域土地资源数据。数据挖掘技术需要配套的设备和人力资源,同时会产生一定的经济成本。相关部门可与高校、企业组织等展开合作,由政府部门牵头,合理运用高校的技术资源和社会组织的资金资源,为搭建土地顶级信息系统奠定基础。

3.2.2 构建土地定级信息系统

首先,在国土资源“一张图”的背景下,立足于国土空间基础信息平台,运用高分辨率遥感影像进行挖掘,以“三调”成果为统一底版,建立区域内的土地资源数据库。其次,将GIS与数据挖掘技术集成构建土地定级专业信息系统,通过GIS提供海量的数据资源平台,再通过数据挖掘技术进行知识推理挖掘,开发面向数据挖掘技术和土地定级的系统模型,包括以下功能模块:土地区域地理挖掘模块、土地区域经济挖掘模块、系统库管理模块和可视化表达模块[4]、土地定级模块,进一步深化数据挖掘技术在土地定级中的应用。在选择并整合土地数据的基础上,获取土地定级的关联规则,并将这些规则和其他元素用于后期编码和聚类实验。

大数据挖掘技术的不断发展过程中,其提供的时空大数据信息资源十分丰富,因此可采用多源时空数据进行收集存储、分类汇聚和关联分析,通过海量模糊时空信息的挖掘、映射、反演获取新型的数据产品,多维度进行地表土地资源分析,参考“三调”分类方案实现结构属性编码统一,并通过空间综合映射土地的范围和模型,结合多场景特征和分类权重进行判断,最后实现空间聚合分析,补充原有产品的不足,决策者可迅速获得地区土地的相关模式及规则,运用空间聚类分析进行土地定级,最终实现土地的科学定级[5]。

值得注意的是,在系统设计中,充分利用当前计算机信息技术的优势,将空间数据挖掘技术与数据库、可视化、人工智能等多种相关技术相结合,建立一套完整的、具有复制性、可用性的信息系统。各级用户可以通过可视化的信息操作系统进行信息化处理,如“土地定级及基准地价动态更新系统”等可实现从宏观到微观。从纵向到横向,增强了辅助决策和空间分析能力。

3.2.3 完善土地定级评价体系

土地定级是复杂的系统工程,在土地定级过程中不仅需要科学的土地评价体系,同时针对土地定级结果也需要有科学的后期评价体系,这是多个体系的融合才能得出既能在全国范围内反映宏观地带性分异规律又能在区域范围内反映非地带性分异规律的土地定级成果[6],同时明确人为活动对土地定级的短期影响,并将土地货币差异性的内容纳入土地定级考量中。

3.2.4 提升人员专业素质

不论是土地资源数据的采集,还是土地资源数据库的建立以及数据挖掘技术的实施,甚至是后期的数据更新维护,都需要专业的技术人才。因此人员的专业素质必须得到保证,定期的专业培训有助于提升相关人员的专业素质。

3.3 应用步骤

本文以城镇土地定级为例,探讨数据挖掘技术的可操作性和应用步骤。一般包括从数据源中搜集数据到数据库里,并对数据进行预处理后成为待定数据集,通过对这些数据集的挖掘提取需要的信息并进行相关模式的展示和评价,最后得到有价值的知识。简而言之,就是选定土地区域后进行样本点的价格计算,并通过一定计算剔除异常数值,最后选取有效样本得到土地定级和定价。

3.3.1 数据源采集

数据源是参与定级的土地的集合。以城镇土地为例,所收集的数据包括:繁华程度、交通条件、基础设施、环境条件和城镇规划等相关数据皆可作为数据源进行采集。

3.3.2 获取样本空间

首先,对样本进行定价。对于城镇土地,要将住宅或者商业服务的区域运用楼面地价进行展示,对于工业用地使用地面地价进行展示,而农用土地还要在地面地价的基础上考虑农产品的各类经济价值因素。

其次,剔除异常值。由于搜集数据的方式与样本不同,因此样点数据存在一定的差异,所以在数据利用之前需要“去除糟粕”,剔除异常数据是最常见的做法。异常值数据是相同片区范围内相同的土地运用种类样本里,由于外界环境干扰因素引起的与其他样本之间产生的差异。

3.3.3 采用聚类法进行土地定级解释

土地定级中聚类法常常应用于空间土地片区的测算。首先,在数据进行初始化时需要以数据的聚类为核心,先对数据进行分组,如果数据与数据的相似性较高,那么每个组的组间距就越大(反之亦然),间距越大的组其聚类效果就越好。其次,确定聚类的方法。由于聚类法也有多种操作方法,但就土地定级而言比较适用的方法为层次聚类法中的分裂层次聚类法,将土地的分类,自最顶层向下进行分类,直到出现一个数据点只含有一个数据为止。比如最顶层为一片土地区域可以假设定义为耕地,将其拆分为水田、旱地、林地等等,再将水田拆分为山区水田、丘陵水田,再根据其数据指标拆分为宽度、坡度、深度等具体指标。最后计算每两组数据之间的最小距离,并将最小的两个类别合成一个新类,直到合并成一类为止,通过这种方法可以较好地对土地分级进行解释,聚类水平越高其解释度就越好。

3.3.4 路径距离分析法

在结合聚类法的基础上,可以采用路径距离分析法进一步对数据进行挖掘与处理。路径距离分析法是计算一个源到每个像元的最低累计成本,以栅格的形式输出。应用到土地定级中不仅可以计算表面累计成本,也可以计算因地表起伏引起的实际曲面距离累计成本。其具体方法包括3种:计算相邻节点成本;计算累计成本;计算对角线节点成本。通过这种方式结合所获得的土地指标数据可以计算出土地的等级,如土地的经济价值、利用价值等。

在具体数据挖掘上,首先对相关数据进行提取,分析数据的影响因子、障碍数据、DEM数据等,在确定各影响因子、作用半径、作用分值和权重后,利用地形图数制作数字高程模(Digital Elevation Model,DEM),实地考察确定不可直接通过的“障碍”因素;根据点线面影响因子的特性选择衰减模型,得出单因子作用分值图;其次选择数据衰减模型(指数衰减、线性衰减、无衰减)。再次,计算作用分值并对各影响因子加权求和;最后,土地定级(利用多因素综合法叠加得出总的作用分值图,根据总分值频率直方图确定土地定级图)。

4 结束语

随着数据获取方式的科技化,与空间区位有关的数据被搜集。在对数据的研究过程中,空间数据挖掘技术通过创新的空间聚类方式对土地进行定级区分,这对土地定级环节有至关重要的作用,也影响着土地的利用效率。

猜你喜欢

决策树数据挖掘土地
基于数据挖掘探讨慢性肾衰竭处方规律
基于数据挖掘技术的非均衡数据分类研究
我爱这土地
简述一种基于C4.5的随机决策树集成分类算法设计
对这土地爱得深沉
决策树学习的剪枝方法
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
分土地
决策树在施工项目管理中的应用