APP下载

影像信息决策树分类方法设计

2015-11-05

中国科技信息 2015年6期
关键词:训练样本决策树水体

李 慧

辽宁师范大学城市与环境学院

影像信息决策树分类方法设计

李 慧

辽宁师范大学城市与环境学院

归纳学习训练样本能够产生决策规则或决策树,通过决策规则或决策树分类新数据的方法称为决策树。本文以大连市旅顺口区为研究区域,分析该区影像信息选取分类样本,选取合适的特征,统计分析样本的特征值,运用基于特征的决策树分类方法,设计决策树分类器,来解决该区域土地利用分类问题。

提取和分类遥感数据是目前数据挖掘领域的焦点问题,以统计特征为基础的模式识别技术是进行遥感数据分类和提取最主要的方式。但是,由于遥感图像具有同物异谱和异物同谱的现象,因而用传统统计模式分类效果并不尽如人意。因此,人们开展了大量关于遥感数据提取和分类的相关研究。基于知识的二叉树信息提取方法,知识结构简单,技术先进,理论成熟,流程清晰、直观,在现阶段有着不可取代的优势。

决策树分类方法基本思想

本文选择以多特征为基础的决策树分类方法,以遥感图像的特征值和数据为参考,利用数学归纳和统计等手段,生成分类规则,并完成遥感分类。这种方法的实现原理和方法较为简单,与人类认知的过程极为相似,能够对多元数据进行合理利用。

基于多特征的决策树分类方法通用的总体思路为:首先,统计分析训练样本的特征分布,将决策树分类提取过程寻找出来;其次,设计并生成决策树分类器,分类遥感图像。

决策树分类方法介绍

归纳学习训练样本能够产生决策规则或决策树,通过决策规则或决策树分类新数据的方法称为决策树。决策树属于树型结构,由若干叶节点、若干内部节点和一个根节点构成。任意节点有超过两个的子节点和一个父节点,各节点之间利用分支连接。决策树内的任意内部节点都与集合或非类别属性相对应,任意边与属性的可能值相对应。决策树上的任意叶节点都与类别属性值相对应,同一类别属性值能够与不同叶节点相对应。决策树不仅能够用“树”的形式来描述,还能够用符合IF-THEN格式的产生式规则来描述。规则比决策属性更加简单、直观,易于修改、使用和掌握,在实际工作中使用的更为广泛。

实例

基于多特征的决策树分类流程

以多特征为参考的决策树分类方法,解决土地利用分类问题的具体流程如图1。

数据源选择

本文选择1996年8月的大连旅顺口区LANDSAT5 TM数据,该数据已经进行几何纠正。

研究区大连市旅顺口区位于辽东半岛的最南端,是辽宁省大连市的一个市辖区。旅顺口区全境属长白山余脉构成的沿海丘陵地带,东高西低,多山地丘陵,少平原低地,平均海拔140m,针叶林分布广泛。大部分农田分布在温度约15℃的缓坡上,少部分农田分布在沿海河谷和丘陵盆地。除耕地外,有大量果树种植。

样本选择

对研究区TM影像进行4、3、5波段RGB假彩色合成,对合成图像进行分析,并结合研究区的概况以及其地形图,将地物划分为针叶林、建筑用地、耕地、水体、阔叶林(果林)和其他六种类。然后在该RGB图上选择部分特征明显的区域作为样本。

图1 基于多特征的决策树分类流程图

在进行遥感图像分类时,往往根据训练数据类分析图像的可分性,对各种特征组合中的期望分类误差进行估算。可分性度量由J-M距离和离散度构成。根据ENVI4.8,估算出不同类别的训练样本之间的J-M距离和变换离散度。计算结果显示,不同类别的训练样本之间的J-M距离和变换离散度均超过1.9,表明训练样本具有良好的可分性,可分性强。

分类特征选择

本文选用了5种数据作为决策树分类特征数据,分别是近红外波段(B4)、主成分分析的第一主成分(PC1)、第二主成分(PC2)、第三主成份(PC3)和归一化植被指数(NDVI)。主成分分析数据源,对指数进行归一化处理。选择上述特征的原因主要包括以下几个方面:近红外波段:具有强吸水特性,能够用于区分非水体和水体。

主成分分析:该方法能够有效降低决策树复杂度和数据冗余度,并使分类精度显著提高。对LANDSAT TM影像的7个波段进行主成分变换, 变换后的PC1、PC2和PC3包含了绝大部分信息,所以选择这三种主成分作为特征参数。

归一化植被指数:归一化差异植被指数对绿色植被敏感,可以将水泥表面、柏油路、植被等地物准确的区分开。按照下列公式能够计算出NDVI:NDVI=(NIR-R)/(NIR+R)

统计分析样本地物的特征分布

统计出训练样本在每个特征中的特征值, 计算出特征数据(B4、PC1、PC2、PC3和NDVI)的标准差和均值。为了便于分析,假设样本数据符合正态分布规律,按照样本数据的概率密度分布曲线,能够将地物的特征样本值分布信息统计出来。

(1)水体。LANDSAT 5多光谱数据的B4近红外波段具有强吸水性特征,能够将其划分为非水体和水体两类,将水体与其他的地物类型予以区分。对于水体里面混有少量的针叶林,可通过PC2将其消除;对于水体里混有的少量建筑用地,可以通过PC1消除。

(2)植被与非植被。NDVI可区分植被与非植被,从而将其他用地和建筑用地与植被区分开。对于非植被中混有的少量针叶林,可用PC1将其消除。

(3)建筑用地与其他用地。运用特征值 PC3,利用阈值分割将建筑用地和其他用地区分开,无法有效的区分其他特征数据。

(4)针叶林。PC1能够很好的将针叶林从其他植被中提取出来;PC2对针叶林和其他植被的区分也比较明显。

(5)阔叶林(果林)和耕地。只有PC3能够较好的将阔叶林(果林)和耕地区分出来,其他的特征信息都不能作为区分指标。

决策树分类器设计

根据样本特征值的统计分析结果以及先验知识,综合考虑地物光谱特性,能够将人工决策树构造出来。按照样本特征数据的峰值,能够确定人工决策树的分割阈值。如:耕地与阔叶林(果林)可以通过PC3来区分。样本统计结果表明,耕地特征值的谷值是5.1,阔叶林(果林)特征值的峰值是11.5,耕地和阔叶林(果林)的分割阈值选择二者的平均值8.3,完成分类,目视评价分类结果,并与样本进行对比分析,对阈值进行适当调整,直到分类效果最理想为止。实验结果表明,分割效果最理想的分割值是7。如图2所示,为决策树分类器设计的流程图。

图2 人工决策树分层提取地物流程

结果分析

结果

决策树分类在编辑好分类树后在ENVI4.8下实现。

比较与分析

为了与决策树分类方法进行对比比较,本文采用了一种传统监督分类方法——最大似然分类方法,用同样的样本进行了分类。通过总体的对比观察,决策树分类结果与原图像图形更加贴近,精度更高,尤其是在建筑用地的筛选当中。在其他地域类型的筛选中,也有相对较高的精度。

结语

(1)利用LANDSAT5 TM多光谱数据的近红外波段(B4)、主成分分析和归一化植被指数(NDVI)计算出的特征数据PC1、PC2、PC3能够有效分类决策树。

(2)相较于传统MLC分类方法,决策树方法具有原理简单、易于实现、准确率高的优点,尤其适用于建筑用地分类。

(3)决策树具有应用简单的优点。从决策树的树根开始,沿分支追溯到树叶,根据二叉树对地物类型进行筛选和排除,能够提高提取特定类别地物的效率。

然而,因为以决策树为基础的分类方法的分类知识来自于空间数据,所以会受到参考信息的干扰。此外,在进行决策树分类时,不能对样本点数据的误差进行有效识别。因此,为了确保样本参考信息的准确性和全面性,提高分类精度,在进行决策树分类时,要保证样本参考点数据的充足,合理设置阈值。在决策树分类理论中引入数据挖掘技术,实现决策树的自动构建是未来研究的重点问题。

10.3969/j.issn.1001-8972.2015.06.026

猜你喜欢

训练样本决策树水体
农村黑臭水体治理和污水处理浅探
多源污染水体水环境质量提升技术应用
生态修复理念在河道水体治理中的应用
人工智能
决策树和随机森林方法在管理决策中的应用
广元:治理黑臭水体 再还水清岸美
决策树多元分类模型预测森林植被覆盖
基于小波神经网络的网络流量预测研究
宽带光谱成像系统最优训练样本选择方法研究
基于决策树的出租车乘客出行目的识别