APP下载

基于近邻传播算法的高光谱波段选择∗

2018-09-27任智伟吴玲达

舰船电子工程 2018年9期
关键词:波段光谱聚类

任智伟 吴玲达

(1.航天工程大学研究生管理大队 北京 101416)(2.航天工程大学复杂电子系统仿真实验室 北京 101416)

1 引言

高光谱图像既能够描述地物的空间形态与分布,也具有光谱分辨率高、光谱连续以及图谱合一等特点。但高光谱图像的光谱分辨率过高,导致数据量大、各波段间相关性强,信息冗余现象严重等问题。因此,高光谱图像处理的难度较之彩色图像以及多光谱图像大大提高,“Hughes”现象[1]明显。为避免可能出现的维数灾难问题及提高处理效率,在高光谱图像分类分析之前,往往对其进行降维处理。

目前,用于高光谱图像降维处理的方法主要有两种:光谱特征提取以及光谱特征选择[2]。光谱特征选择也被称为波段选择,针对特定对象选取光谱特征空间中的一个子集。特征提取是指原光谱特征空间或其子空间通过某种数学变换达到维数约减、特征增强等目的的过程。

波段选择的目的是选出信息量大、相关性弱、具有代表性的波段或波段子集。常见的波段选择方法可根据是否使用已标记样本信息分为无监督、有监督及半监督波段选择。有监督波段选择运用标记样本的可分性来选择波段子集。无监督波段选择通过考察波段包含信息量大小及波段间相关性给出某个指标,根据给出指标对所有波段进行降序排列,选择满足要求的前几个波段。给出指标的方法包括最佳指数因子方法,自适应波段选择方法、熵和联合熵方法及自动子空间划分方法等[3]。半监督波段选择能够充分利用有限的已标记样本数据和大量未被标记的样本数据,既能够得到较高的分类精度,又满足真实高光谱数据要求,受到越来越多的研究者关注。目前基于自训练与图谱的半监督波段选择方法较多[4~6]。

基于聚类的波段选择也是实现波段选择的可行思路。但传统的聚类方法对初始聚类中心敏感,需要认为确定聚类类数,初始中心选取的随机性可能导致聚类结果的不稳定。此外,通过传统聚类的结果不是真实的波段,因此最终的波段选择结果与聚类之间存在很大误差。2007年,Fray等[7]提出一种近邻传播聚类算法(Affinity Propagation Cluster⁃ing,AP),解决了以上的问题。在处理大规模、多类数据时,AP算法效果较好。目前,AP算法已经成功的应用于图像分割、目标识别等领域[8]。

本文在AP聚类的基础上,利用小波分解对高光谱图像进行处理。得到的高频成分包含图像的细节与噪声信息,得到的低频成分包含图像平滑信息。利用高频成分计算各波段间的相关性及信噪比,从而完成聚类。本文提出算法能够选出信噪比高、相关性弱的波段自己。将得到的聚类结果输入最小距离分类器进行分类,验证本算法的有效性。

2 近邻传播算法

假设数据集中包含n个样本{x1,x2,…,xn},AP算法首先计算每两个样本之间的相似度,通过相似度来计算吸引度和归属度,结合吸引度和归属度两方面信息找到最优的类代表点集合,最终使得所有数据点到其最近的类代表点的相似度之和最大。

n×n维的相似度矩阵S为工作的基础,每个元素为负值,可根据不同任务选择相应指标作为测度[9]。当 i=j时,s(i,j)代表偏向参数 p(i)。p(i)越大,点xi作为聚类中心的可能性越大。在无监督条件下,P通常取相似矩阵的中值。r(i,j)表示数据点 j对点i的吸引度,描述点 j适合作为点i的类代表的程度。a(i,j)表示数据点i对点 j是归属度,表示数据i选择点 j作为类代表的程度。r(i,j)和a(i,j)越大,表明点 j作为最终聚类中心的可能性越大。

吸引度矩阵和归属度矩阵的计算公式如下:

在更新 r(i,j)和 a(i,j)时,通常采取引入阻尼系数λ∈[0,1 )的方式对 r(i,j)和 a(i,j)进行缩放操作,以避免震荡的发生。缩放公式如下:

3 小波变换改进AP聚类

波段选择是高光谱图像处理中的预处理结果,波段选择结果影响分类及目标识别精度。除波段所包含信息量、波段间相关性外,噪声大小也是影响精度的一个重要因素。计算图像的信噪比需要将噪声与信号分离开[10]。而小波变换可以将图像分为包含细节和噪声信息的高频分量和包含地物背景等平滑信息的低频分量。因此,本文利用小波变换计算波段间的相关性以及波段信噪比,改进AP聚类算法,实现波段选择。

在图像处理领域,常将图像进行小波变换得到图像的不同信息。对光谱曲线进行小波变换,可以得到该光谱曲线的低频成分和高频成分向量[11]。由于低频分量主要包含图像平滑信息,反映原数据的近似特征;高频分量主要包括光谱曲线的细节特征和噪声信息。由于高光谱图像各波段间信息冗余严重,在小波变换的结果中,各光谱曲线的低频成分普遍相似性高,高频成分普遍相似度低。因此,本文使用小波变换得到的高频成分进行相似性分析。本文对光谱曲线进行三层Sym4小波分解,对高频分量进行相似性度量。

针对小波变换后的高频成分,本文采用光谱角制图法(SAM)计算两两波段间相似性,构造AP聚类的相似度矩阵s。SAM的计算公式如下:

其中,sx和sy表示进行相似性计算的两个波段;L表示波段内像元个数。si表示第i个像素点的像素值。

小波变换后,图像的能量大部分集中在低频分量上。因此,当噪声较大时,可将最高频率子带的系数全部看成是噪声,由此来估计噪声的标准方差。Donoho和Johnstone提出在小波域中噪声标准方差的估计公式[12~13],即

其中,M是高频分量小波系数幅度的中值。

因此,高光谱图像的第i个波段的信噪比计算公式为

其中,σsi与σni分别表示波段i的信号标准差和噪声标准差。

基于小波变换改进AP算法的波段选择(WT-AP):

输入:归一化后的高光谱图像数据(N个波段)

输出:一维向量idx1×k,其中k表示波段选择的波段数,idx1×j表示聚类中心所在波段的标号,j=1,2…k。

步骤1 依次对高光谱图像数据每个波段进行小波变换;

步骤2 提出高频分量根据式(6)计算相关性矩阵s,根据式(7)、式(8)计算偏好值p;

步骤3 进行AP聚类。

4 实验验证

将本文提出的方法(WT-AP)与文献[14]提出的最大信息量法(MI)、文献[15]提出的自动子空间划分法(ABS)以及基于未改进AP聚类的波段选择方法(AP)进行对比试验。将各波段选择方法的输出结果输入最小距离分类器中进行分类处理,对分类精度和运行时间进行比较分析。

实验采用由机载成像光谱仪AVIRIS在美国印第安纳州西北部某农林混合室验场采集得到的In⁃dian Pines数据集。图像空间分辨率为25m,图像大小为145×145像素。原始数据具有224个光谱波段,波长范围0.4μm~2.5μm。最后保留了信噪比较高、质量较好的200个波段。最终实验所使用的图像大小为145×145×200,包含了16个地物类别。Indian Pines数据集灰度图像及如图1所示。

图1 Indian Pines数据集灰度图

图2是分别使用上述四种波段选择算法的总体分类精度的变化曲线。从曲线可以看出本文提出的WT-AP的整体分类精度明显高于其余三种波段选择方法,尤其是当波段数小于10时。这说明WT-AP更能够充分挖掘高光谱数据的有效信息。ABS与AP方法的精度较低。当波段数高于10时,WT-AP方法精度有小幅下降,但仍高于其余方法。此时MI、ABS及AP的分类精度变化缓慢。这说明当波段数增加到一定程度时,增加的波段不能够提供更多有利于分类的有效信息。反映出高光谱数据图像各波段间的信息冗余现象严重。再一次证明了降维的必要性和有效性。AP方法的精度低于其余方法,原因是此方法没有根据高光谱数据特征进行改进。从图中也可以看出,最小距离分类器的分类能力偏低,后续研究将选用其它性能良好的分类器。

图2 分类精度对比

表1为选择波段数为10时,运行时间的对比。从表中可以看出,MI方法运行时间明显高于其余三种方法,ABS方法运行时间较低。原因是此方法只考虑相邻波段的相关关系,而其余方法均考虑两两波段间的相关关系。WT-AP的运行时间长于AP方法,原因是WT-AP增加了小波计算和光谱角制图的时间。但WT-AP方法的时间远远低于MI方法。因此,本文提出方法在实际应用中的可用性强。

表1 不同方法运行时间对照表(10波段)

图3(a~d)分别是10波段时四种方法地物分类示意图。从图中可以看出,WT-AP方法对面积大、细节较少的区域的分类具有明显优势。在细节丰富区域的表现还有待加强。这与算法中引入了小波变换并计算信噪比时,将部分细节错误作为噪声进行计算。下一步研究将对这一问题进行改善。从图中也可以看出最小距离分类器的不足,需要进一步改进。

图3 四种波段选择方法分类结果图

5 结语

本文提出基于小波变换改进AP聚类的高光谱图像波段选择方法,利用光谱角制图对波段相似度进行计算,利用信噪比计算偏好度。设计实验对Indiana Pines数据集进行降维处理,并将降维结果输入最小距离分类器进行地物分类。实验证明:基于小波变换改进AP聚类的高光谱图像波段选择整体分类准确性高于MI、ABS、AP等方法的分类准确性;与上述方法相比,基于小波变换改进AP聚类的高光谱图像波段选择能够更加有效地利用数据集的信息,提高分类的准确性。且计算成本的增加在合理范围内。在今后的研究中,将重点利用其他先进的相似度计算方法,提高算法效率和精度。

猜你喜欢

波段光谱聚类
基于三维Saab变换的高光谱图像压缩方法
一种傅里叶域海量数据高速谱聚类方法
Ku波段高隔离度双极化微带阵列天线的设计
最佳波段组合的典型地物信息提取
基于3D-CNN的高光谱遥感图像分类算法
新型X波段多功能EPR谱仪的设计与性能
一种改进K-means聚类的近邻传播最大最小距离算法
最佳波段选择的迁西县土地利用信息提取研究
AR-Grams:一种应用于网络舆情热点发现的文本聚类方法
基于Spark平台的K-means聚类算法改进及并行化实现