1种结合FCM聚类算法与粗糙集的林木提取方法
2018-09-07刘祖瑾段琳琳龚娇娇乔贤贤
刘祖瑾, 杨 玲, 段琳琳, 龚娇娇, 乔贤贤
(河南大学环境与规划学院,河南开封 475004)
近年来,高分辨率遥感影像技术的空前发展对快速准确的高分辨率影像分析技术提出了新的要求,加上地理信息行业要求的即插即用数据更新技术,两者共同构成了面向对象分析方法产生的市场条件。面向对象分类方法在植被分类中已被广泛运用。其中,面向对象最重要的特点就是分类的最小单元由影像分割得到同质影像对象(图斑),而不是单个像素。因此,面向对象分类方法能有效解决同物异谱、异物同谱、混合像元等问题,提高分类精度。在面向对象分类时重点是要解决遥感影像分割问题,而规则分类法是面向对象分类方法中的一个重点和难点。规则分类法[1]在高分辨率遥感影像处理与分析中已越来越受到研究者的关注,通过规则分类法,可以将植被从影像中提取出来。韦雪花通过对提取的特征属性进行定性分析,建立了分类规则集,实现了规则分类单木冠幅提取,其单木冠幅估测精度为72%[2];王伟选取最优分割尺度和最优分类指标进行面向对象分类提取试验,分类总体精度达到93.7%,Kappa系数为85.8%[3];樊江川采用基于像元及面向对象的方法,并结合地物的光谱、纹理及形状特征进行规则分类,得到森林参数,测量单木冠幅精确达到94.31%[4];张凝等结合航空影像纹理和光谱特征,利用规则分类提取单木冠幅精度为90.05%[5]。
上述研究虽是基于规则分类,其结果都取得了较好的分类精度,但大部分是直接借助于知识库或定性分析建立分类规则集,极少用定量的分析法对大量的特征进行优选,使特征存在冗余,从而导致产生类别错分以及运算时间较长的问题。而且分类特征约简也是目前亟待解决的主要问题之一。
针对上述特征冗余问题,王婧等基于粗糙集理论进行对象特征的属性约简,约简出最能代表树种分类的特征参数,结果将34个特征约简为13个,其分类精度达到80.45%[6];陈杰等在对光谱特征的初步分类结果基础上,结合粗糙集理论约简的纹理特征进行规则分类,分类总体精度达到92.07%,Kappa系数为90.75%[7]。而在上述研究的分类特征约简过程中,对连续属性进行离散化时使用的是粗糙集软件Rosetta中自带的离散方法,这些方法存在较大的时间复杂度和空间复杂度缺点,容易产生过多的断点以及陷入局部最优等问题。离散化后的数据集将会降低系统冗余以及机器学习算法的运行效率,提高分类精度[8]。因而,对数据集合中的连续属性值进行离散化以及离散化方法的研究都具有重要意义[9]。
为解决由于“同谱异物、异谱同物”而造成的地类难以划分的现象,遥感影像的地物分类提取不仅需要光谱信息,而且需要纹理等信息作为辅助。己有的研究证明,纹理信息可有效提高地物的分类精度,当遥感影像像元大小在25 m以下时,同时应用光谱信息和纹理信息进行植被分类时获得的精度结果要明显高于采用任何一种单一信息分类的结果。因此,在基于遥感影像的植被提取中,光谱-纹理信息可作为提高分类精度必不可少的要素。
针对上述问题,本研究结合影像的光谱-纹理及植被的归一化植被指数(normalized difference vegetation index,简称NDVI)特征,并引入粗糙集理论与广泛用于数据挖掘的FCM(模糊C-均值,Fuzzy C-Mean)聚类算法来约简分类特征,建立植被分类规则集,以解决特征冗余问题,达到降低错分率、缩短分类执行时间及提高分类精度的目的。
本研究的主要思路:首先,提取特征参数,计算影像的纹理特征和光谱特征,用于区分植被和非植被,再将提取的不同地物的光谱特征和纹理特征及类别构成决策表;然后,利用模糊C-均值(fuzzy C-mean,简称FCM)算法对决策表进行离散化,运用粗糙集理论对离散化后的决策表进行特征约简,其结果精度以支持向量机(support vector machine,简称SVM)分类器进行评估检验,实现规则分类提取时特征向量的优选;最后,完成植被规则分类。采用FCM算法与粗糙集理论对无人机遥感影像进行林木分类提取的主要技术路线如图1所示。
1 提取光谱-纹理特征参数
1.1 计算影像纹理特征
对于所获取的无人机影像数据,计算其多光谱影像对应的红(red,简称R)、绿(green,简称G)、蓝(blue,简称B)3个波段内的均值(Mean)、方差(Variance)、信息熵(Entropy)、二阶矩(Second Moment)、对比度(Contrast)、均一性(Homogeneity)、相关性(Correlation)及相异性(Dissimilarity)8个纹理因子,这些纹理因子对于影像中植被与非植被的区分具有重大影响。通过计算,可以得到24个纹理特征图层。
1.2 提取不同地物的光谱-纹理特征
1.2.1 网格法采样 选取ArcGIS中渔网法设置80×80的网格,采用人工选取的方式均匀采样,根据实地考察结果以及分析影像中研究区覆盖范围内包含的地类,将地物划分为林木、裸地、草地、道路以及其他五大类。在研究区覆盖范围内,尽可能均匀地选择每个不同类别的样点,其中林木样点322个,裸地样点107个,草地样点253个,道路样点275个,其他样点183个,共选取1 140个样点,样点分布如图2所示。
1.2.2 提取光谱-纹理特征值向量 在确定了地物样点后,将24个纹理特征图层导入ArcGIS中,利用ArcGIS中的Sample功能提取不同地物各个样点的光谱及纹理特征值。提取的3个光谱特征向量分别用x1、x2、x3表示, 纹理特征分别用y1、y2、…、y24表示,分类类别用classes表示。表1列出了部分样点的光谱和纹理特征值。由于上述样本特征的取值范围不同,其特征之间没有可比性,为此笔者对特征向量作归一化处理,归一化公式如下:
(1)
式中:xmax和xmin分别为特征值的最大值和最小值,将特征数据归一化到0~1。
2 分类特征优选
随着计算机技术和网络信息技术的迅速发展,使各类数据集呈现爆炸式的增长,从大数据中去除冗余,以及准确获取其内在的相似关系,成为当今研究的热点之一[10]。由波兰数学家Pawlak于1982年提出的粗糙集理论是一种解决不完整性和不确定性问题的新型数学工具[11],并已被成功应用于数据挖掘、特征选择、模式识别等领域[12-13],其基本思想是在维持决策表分类和决策能力不变的情况下,通过知识约简导出问题的决策或分类规则。
2.1 分类特征的FCM算法离散化
由于粗糙集理论要求样本数据的属性值为离散型,而决策表中数据的属性值是连续型的,因此需要对决策表进行离散化处理[14]。粗糙集离散化算法主要有Equal Frequency、Scale Entropy/MDL Scale、Naïve Scale、Semi Naïve Scale和FCM等[15]。其中,FCM算法是依据对象之间的相似程度,将对象聚合成有限的几个类别,是一种广泛适用于数据挖掘的方法。目前,已经有在粗糙集约简中引用FCM离散方法的报道,并取得了较好的效果[16-17]。
聚类算法FCM最初是由Dumm提出的[18],但其发展和推广是由Bezdek等完成的[19]。FCM模糊聚类算法是一种迭代优化算法[20],可以描述为最小化指标函数。
设集合X={xi,i=1,2,…,N|xi∈Rn}是特征空间Rn上的1个有限数据集,FCM算法的目标函数如下[21]:
(2)
表1 部分样点地物光谱及纹理特征值
式中:c为聚类的类数,且2≤c≤N;m为模糊加权指数,且 1 使目标函数J最小的迭代优化算法如下: 步骤1:确定参数,包括聚类数c、模糊加权指数m、迭代终止阈值ε以及初始化聚类中心矩阵V。 步骤2:按下式,用当前聚类中心计算隶属度函数: (3) 步骤3:按下式,用当前隶属度函数更新各类聚类中心: (4) 步骤4:如果‖V(n+1)-V(n)‖<ε, (5) 则算法终止,否则n=n+1,转到步骤3。 因此,本研究引入FCM算法对原始数据集进行聚类离散化,根据聚类结果中的模糊隶属度矩阵确定的相似关系,得到离散化后的决策表(表2)。 特征约简的目的主要是在保持分类能力不变的前提下,约去多余的属性,最大限度地降低系统冗余[16]。目前,特征约简的计算方法有多种,如动态约简法[22]、Genetic算法[23]以及Johnson’s算法[24]等,本研究选择Johnson算法对条件属性进行约简。得到最小条件属性集为{R、G、R_variance、Rhomogeneity、R_contrast、G_homogeneity、G_variance、B_variance、B_homogeneity、B_second_moment},即R和G波段的光谱,R分量的方差、均一性和对比度,G分量的均一性、方差以及B分量的方差、 均一性和二阶矩。经过粗糙集特征约简处理后,去除其中的冗余条件属性,决策表中的条件属性从27个精简为10个。 表2 部分离散化决策表 为了验证最小条件属性约简结果,本研究基于Matlab平台用Libsvm线性核函数进行评估验证。运用约简的最小条件属性集对测试样本集进行评估检验,由表3可知,利用粗糙集理论规则约简后的结果评估识别正确率为89.29%,比无规则约简结果提高9.89百分点。 表3 评估检验结果 从测试结果可以看出,通过FCM算法离散化和粗糙集特征约简,使得分类准确率有较大程度的提高,采用粗糙集和FCM算法相结合的方法进行特征约简具有一定的优越性。 遥感影像多尺度分割技术中的难点问题是最优分割尺度的选择。最优尺度的确定直接影响到后续图像的信息提取与分析,因此确定最优的分割尺度对地物提取是至关重要的。以eCognition Developer遥感软件为试验平台,进行无人机影像林木提取研究。具体方法如下:将加权均值方差、加权均值方差变化率和最大面积相结合,即将加权均值法以及均值方差变化率确定的最优尺度对应到最大面积曲线阶梯平台中,结合加权均值确定的最优分割尺度与最大面积法确定的最优尺度范围,确定最终分割尺度区间。每个平台都对应某种地物相应的分割尺度范围。 通过此方法最后得出遥感影像最优分割尺度为44,即当分割尺度为44时,研究区域整体分割效果最好,而且林木分割边缘较完整。 利用上述方法选取影像最优分割尺度,可有效避免人为确定分割尺度的主观性和低效性,提高工作效率。由图3可以看出,当分割尺度为30 时,对象分割过于破碎,不利于分类,如图3-a中红色标注部分是将1个树冠分割成5个对象,而绿色标注部分为正确分割的树冠;当分割尺度为70时,分割不完整,出现1个对象包含多种地物或同种地物被分割成1个对象的现象,如图3-c中红色标注部分将5个树冠分割成1个对象,绿色标注部分是1个分割对象包含了2种地物;分割尺度为44的结果相对兼顾了研究区各种地物的局部细节以及空间分布特征,分割效果较好,如图3-b中红色和绿色标注部分,都被分割成相互独立的个体,极个别区域存在2个树冠被分割成1个对象的现象,如蓝色标注部分。3种分割尺度相比较可知,分割尺度为44时分割效果最好。 多尺度分割遥感影像后,具有高度复杂和差异的地物需要利用多种提取知识进行识别提取[25]。首先,建立层次结构体系[26]。通过层次间的传递,使得层次之间具有继承关系,组成复杂的规则知识网络结构,实现不同地物的高效和准确分类[27]。根据对不同地物的知识分析和特征挖掘,将研究区地物按VI′规则分为植被与非植被,再将植被细分为草地和林木,将非植被分为裸地、道路和其他。其次,建立分类规则集。利用提取影像中不同地物的光谱和纹理特征值,结合“2.2节”中约简的特征组合,建立分类规则集(图4)。 本试验采用无人机遥感影像,无人机型号为AVIAN -PUAS,是弹射型固定翼无人机,无人机搭载的相机型号是SONYILCE-7R,焦距为35.626 8 mm,采集影像时相对航高为280 m,影像航向重叠度为81%,旁向重叠度为43%,影像地面分辨率为0.05 m。数据影像拍摄于2014年10月4日,天气晴朗。试验采用的影像经过预处理,使用eCognition Developer遥感软件与Matlab作为试验平台对预处理后的无人机影像进行植被分类提取分析。 由“3.2”节中构建的分类规则集获得分类结果,图5-b中,绿色区域为林木,深绿色区域为草地,黄色区域为裸地,灰色区域为道路,红色区域为其他。采用基于样本的评价方法对本研究方法的分类结果进行精度评价,计算分类结果的混淆矩阵如表4所示。其中,用户精度(user’s accuracy,简称UA)是描述地物对象被正确地分到对应地类中的比率;生产者精度(producer’s accuracy,简称PA)是描述某类分类中,其中确实属于该地类的对象数占总数的比例;分类精度(accuracy)是表示分类结果总体准确性的指标;Kappa系数是描述整幅影像的分类精度。一般情况下,认为Kappa系数可以更准确地描述全局的分类精度。 表4 本研究方法分类结果精度评价 总体上看,规则分类取得了较好的分类效果。与原始图像相比,可以看出图中有一部分草地区域被分类成林木区域,降低了其总体分类精度;道路类别存在极个别的错分和漏分现象,情况不太严重;裸地和其他2个类别存在较严重的错分现象,较大程度地影响了分类精度。 表4为规则分类模型方法对无人机数据集分类结果的混淆矩阵,每行的数值代表此类别样本被正确或错误分类的样本数。由表4可以看出,分类总体精度为91.94%,Kappa系数为84.20%,分类精度较好,能够满足林业需求。林木的用户精度为92.53%,虽然植被与非植被的光谱特征相似,但是加入多尺度纹理特征和VI′(一般用VI′来计算获得RGB影像的植被指数)后,使其与另外2种地物得到了较好的区分。草地虽然与部分林木光谱特征相似,且存在一定的混合分布,但通过纹理特征得到了较好的区分,用户精度为 93.16%。 将本研究方法与文献[6]、[2]中的方法进行林木提取结果比较,选取3种分类方法的分类精度和Kappa系数对比,由表5可知,本研究分类方法的总体分类精度和Kappa系数优于其他2种方法,是由于本研究采用基于FCM聚类算法的粗糙集理论进行特征约简,消除了特征冗余,并优选出合适的、分类精度更高的分类特征,降低了错分率。 表5 3种方法比较分析结果 本研究结合无人机影像的光谱特征和纹理特征,利用FCM聚类算法与粗糙集理论进行特征约简,减少了特征冗余,实现了林木提取特征向量的优选,完成了林木规则分类提取,并将其结果与其他分类方法进行比较。最后,比较和分析了3种不同分类方法的分类效果和分类精度,结果表明,本方法的分类效果较好,解决了降低错分率和有效降低混合像元等问题,并很好地表达了影像上真实林木特征信息。遥感分类规则能清晰地描述地物分类中的复杂关系,能够改善分类效果。同时,本方法也存在一些问题,其分类规则集不具有通用性。2.2 特征约简
2.3 SVM评估测试
3 规则分类
3.1 影像分割
3.2 分类规则集的建立
4 分类结果及分析
4.1 结果与分析
4.2 与其他方法比较分析
5 结论