基于多特征图像集成的高光谱图像分类方法
2020-03-11
(山东科技大学 计算机科学工程学院,山东 青岛 266590)
近几年来,由于遥感技术的快速发展,高光谱遥感影像的采集变得更加容易。随着高光谱图像光谱和空间分辨率的增加,影像所包含的地物信息越来越丰富,更加有利于地物的精细分类。为了提取有效的地物特征改善分类精度,多种特征提取方法已经被应用到高光谱图像分类领域[1-3],例如主成分分析[4](principal components nalysis,PCA)、滤波方法以及形态学特征提取方法[5]等。形态学方法选用不同的结构元素去提取图像中对应的结构形式的信息[6],通过改变结构元素的类型和比例来生成地物的不同特征图像,特征图像表达地物的不同信息。但该方法的结构元素种类众多,从中恰当地选择一个或几个符合高光谱图像特征的结构十分困难。
在高光谱图像分类中,结合地物不同层次的特征可以更好地反映地物性质、区分不同地物,改善分类精度[7-8]。对于多波段、高维度的高光谱图像来说,每一种特征提取方法均可以提取一定的地物特征,但是单独的一种特征图像通常无法覆盖地物的所有特征,集成的概念由此出现[9],将多种不同的特征图像组合,取长补短,进一步提升高光谱图像的分类精度[10]。
1 相关工作
本研究利用几种新的特征提取方法,包括高斯滤波[11](Gaussian filtering, GF)和滚动引导滤波[12](rolling guidance filtering, RGF)。图像是由不同尺度的对象所构成,不同尺度的结构传递着不同信息。大尺度结构或边缘一般包含更多信息,而较小尺度的结构或边缘包含较少信息并且可能包含噪声数据。GF方法利用高斯核函数对图像进行卷积,对图像进行去噪。而RGF方法可以较好地保留图像中重要的边缘结构,防止信息丢失。
RGF方法具体的实现步骤如下:
1)图像由GF进行处理,图像中的小尺度结构将被完全去除,大尺度结构被模糊。滤波器为:
(1)
2)大尺度结构边缘恢复。RGF方法通过迭代改变引导图像,逐渐恢复模糊的边缘结构。公式为:
(2)
2 基于多特征图像集成的高光谱图像分类方法
为了避免形态学中结构元素种类不易选择的问题,本研究提出一种基于多特征图像集成的高光谱图像分类方法。具体过程是:
1)生成多种特征图像即构建多个基本核。通过PCA降低原始高光谱图像的维数,然后利用GF和RGF进行特征提取,其中GF方法产生的特征图像去除同一类别中的小尺度结构,RGF方法通过控制迭代次数来生成不同的特征图像。为选择合适的特征图像,选择Indian Pines、University of Pavia数据集进行实验。图1为Indian Pines数据集特征提取的结果,RGF方法迭代3次时,被模糊的大尺度边缘基本恢复。图2是Pavia大学数据集对应的特征提取结果,同样在迭代3次时,形成了边缘清晰、内部均匀的特征图像。
图1 Indian Pines图像不同的特征图像
图2 University of Pavia图像不同的特征图像
2)采用支持向量机(support vector machine, SVM)[13-15]分类方法得到每种特征图像对应的分类结果, 选择最优的分类结果作为最终组合的基本核之一,然后采用自适应增强的方式[16]进行学习,获得多个基本核。集成学习(ensemble learning, EL)方法可以将多个分类器结合,得到更加准确、稳定的结果。采用集成学习将多种特征图像的分类结果结合,以进一步提高分类精度。
图3 使用不同特征图像对精度的影响
由图1和图2可看到,当迭代3次时,特征图像的特征边缘已变得清晰稳定。图3展示了两个数据集下的分类精度,每个类别随机选择50个训练样本,其余作为测试样本。实验结果用总体精度(overall accuracy,OA)进行评估。由图3可以看出,当使用迭代3次的滤波图像时,分类精度已达到最高值,在后续实验中,选择原图、GF、迭代3次的RGF作为基本特征图像。
基于多特征图像的集成学习(MFI-EL)分类方法思路如下:①将构建的特征图像利用SVM进行分类,选择最优的分类结果作为最终集成的分类结果之一;然后采用自适应增强方式不断的训练获得多个最优结果。自适应增强的方式就是在整个实验期间赋予每个训练样本权重值(在实验开始时,所有训练样本的权重值相等),在第t次被错误分类的训练样本在第t+1次增加样本的权重值,那么分类器将集中在这些训练样本上,这些训练样本将会被正确分类,最终得到较优的分类结果。②将多个分类结果组合,根据分类结果的误差率来确定其在最终结合核中的权重系数。
本研究得到的MFI-EL分类方法流程如图4,具体过程为:
图4 MFI-EL分类方法过程
气则是构成具体事物的材质,具体物皆气造而成,但气的造物必有理为其依据。理是一类事物的形式,气是构成事物的质料。理气无时间上的先后,但有逻辑上的先后,因为理是超时空的永恒存在者,气是时空中的变化者。太极中有动静之理,气因此理而有实际的动静。此气中之理,就是此事物的性。不唯人有性,物亦有性,“天下无性外之物”(《朱子语类》卷四)。
然后,利用SVM对不同的特征图像进行分类得到对应的分类结果Ik(k=1,2,…C),C表示特征图像的个数,并计算每个特征图像下的分类错误率errk,如式(3)。根据公式(4)挑选出错误率最低的结果(用errt表示)作为最终集成的基本核,ft表示第t次获得的基本核,并计算相应的结合权重αt如式(5)。
(3)
k*=argmmerrk,k=1,2,…,c;(ft,errt)=(Ik*,errk*)
(4)
(5)
其中Wt是第t次时样本权重向量。通过该过程,获得了一个基本核。
其次,如式(6)更新样本权重,将分类器集中在被错误分类的样本上,再次训练得到新的样本子集下对应的基本核。
(6)
其中,Zt是规范化参数。
最后,重复以上过程,获得满足条件的T个基本分类器结果,并将得到的多个分类结果根据权重系数αt进行集成,如式(7)得到最终的分类结果:
(7)
3 实验
3.1 实验数据与实验设置
首先,利用PCA对原始图像降维,保留25个波段。其次,通过特征提取方法得到特征图像。实验选用原始图像、高斯图像、迭代三次的RGF图像。在所有的实验中,训练样本集是在标记样本中每个类别随机选择50个训练样本,剩余的作为测试样本集。为了消除实验随机性引起的偏差,进行了10次重复实验,每次实验的训练样本集和测试样本集均是随机产生的,将10次结果的均值作为最后的分类精度。实验精度表格中“±”左侧的数据代表10次重复实验分类结果的平均值,右侧表示的是10次实验结果的标准差,且最高精度以粗体突出显示。为了验证提出方法的有效性,与标准的SVM、表示多核学习(representation multiple kernel learning, RMKL)、样本筛选多核学习(sample screening multiple kernel learning, S2MKL)方法进行对比。最终的分类性能利用总体精度(OA)、平均精度(average accuracy, AA)和Kappa系数进行评估,其中OA是正确分类像素的百分比,AA是每个类的正确分类像素的百分比的平均值,Kappa系数是综合考虑用户精度和制图精度的一个质量指数。
3.2 实验结果与分析
首先,利用Indian Pines数据集验证提出方法的分类性能。实验中将12个类别中具有很少标记样本的4个类别去掉,表1显示剩下的八个类别通过不同方法获得的分类结果及其相应的OA、AA和kappa系数值。由表1可见,相比于标准的SVM方法,本方法的精度提升了17.63%,证明集成方法的作用。与RMKL和S2MKL方法相比,本方法的OA分别提升了约6.88%、1.6%。本方法在一些复杂类别如Grass_M,Grass_T和Wheat中表现突出,对应的分类图如图5所示。训练样本数量对分类性能的影响如图6所示,每个类别的训练样本数量从20到50,可见所提出方法的分类性能在不同数量训练样本下均优于其他方法,特别是在小样本的情况下,所提出的算法显示出良好的分类性能。
表1 Indian Pines图像下不同方法的分类精度对比
图5 Indian Pines图像下的不同方法的分类图
图6 Indian Pines图像下的不同数量训练样本下的分类结果
为验证所提方法的泛化性能,在Salinas数据集上进行实验。分类结果如表2所示,可见本方法的分类精度高于SVM方法约8.67%,分别高于RMKL、S2MKL方法大约5.27%和2.43%。尤其在Grapes、Corn、Lettuce_4和Vinyard_U类别上分类性能提升显著,分别高于S2MKL方法约3.32%、4.45%、4.86%和9.52%,体现了本特征提取方法的作用。不同方法的分类图像如图7所示,可以看到本方法在类别Corn 和Vinyard_U上的分类图清晰规整。不同数量的训练样本下训练得到模型的性能差异实验结果如图8所示,进一步表明所提方法的性能显著优于其他算法。
表2 Salinas图像下不同方法分类精度对比
续表2
图7 Salinas图像不同方法的分类图像
图8 Salinas图像下的不同数量训练样本下的分类结果
为进一步验证提出方法的普适性,选择Pavia大学数据集进行实验。表3展示了分类精度结果,对应的分类图如图9所示,可见,相比于其他几种分类方法,本方法的分类精度有显著提升:OA分别比RMKL和S2MKL方法高大约1.81%和0.38%。不同数量的训练样本下的精度结果如图10所示,证明了本研究提出方法的优越性。
表3 University of Pavia图像下不同方法分类精度对比
图9 University of Pavia图像不同方法的分类图像
图10 University of Pavia图像下的不同数量训练样本下的分类结果
4 结论
提出一种基于多特征图像的集成学习方法MFI-EL,使用PCA将高光谱图像的主要信息集中在前几个波段,然后使用GF和RGF来获得特征图像。为了保持原始光谱信息,将原始图像也作为特征图像。其次,通过自适应增强的方法得到多个不同的基本核,并根据每个基本分类器的分类精度确定组合权重将其集成。实验执行在三幅真实的高光谱图像数据上,通过与其他三种方法进行对比,验证了所提出方法能够提高高光谱图像的分类精度。