APP下载

基于信息量改进主成分分析的高光谱图像特征提取方法

2018-07-31任智伟吴玲达

兵器装备工程学报 2018年7期
关键词:信息量降维特征提取

任智伟,吴玲达

(航天工程大学 复杂电子系统仿真实验室, 北京 101416)

与其他遥感图像相比,高光谱图像具有更高的光谱分辨率,能够表达更丰富的地物信息。但高光谱图像存在数据量大,各波段间相关性大,信息冗余现象严重等问题。因此,在对高光谱图像分析之前,往往对其进行降维处理。高光谱图像降维方法通常分为两类:光谱特征选择和特征提取。光谱特征选择又称波段选择,常见的波段选择方法包括:基于信息量的波段选择以及基于类间可分性的波段选择[1]。特征选择不对原始数据进行数学变换,而特征提取则是在N维原始数据变换后,选取其中M维数据(M

高光谱图像特征提取方法分为线性提取和非线性提取两类。目前应用广泛的线性提取方法有主成分分析法[3]、最大/最小自相关因子分析法[4]及最小噪声分离法[5]等。常见的非线性提取有基于核函数的非线性特征方法比如Kernel LDA方法[6]和基于流型学习的特征提取方法[7]等。与非线性特征提取相比,线性提取计算代价低,在实际工程中应用广泛。现有的特征提取方法大都以方差贡献率作为评价标准,没有顾及到数据本身信息的度量问题。本文提出利用香农信息量对主成分分析过程中的变换矩阵进行修正,使提取出的成分包含更多信息量,有效增加分类精度。

本文将分别用PCA法和信息量改进PCA法对高光谱图像数据降维。将降维结果输入最小距离分类器[8-9]中进行分类,比较两种方法的分类精度。通过实验证明,与传统PCA降维方法相比,信息量改进PCA降维能够有效提高高光谱图像的地物分类精度。

1 信息量改进PCA的特征提取方法

1.1 成分分析降维方法

主成分分析法(principal component analysis,PCA)在目前高光谱图像数据特征提取中应用广泛。主成分分析法的核心是计算不同数据特征之间的相关性,根据相关性的强弱提取主要特征,完成信息融合。PCA能够有效地摒除原始图像数据中的冗余信息,提取出方差贡献率大的主成分因子。对高光谱图像数据进行PCA降维的具体步骤如下:

1) 计算高光谱图像数据矩阵的协方差矩阵。

输入矩阵Pm×n,其中,m表示样本个数,在高光谱图像中表示像素点;n表示特征个数,在高光谱图像中表示波段个数。计算协方差矩阵C:

(1)

2) 求解协方差矩阵的特征值及对应的特征向量。

求解出按照降序排列的特征值λi,并利用式(2)计算出与特征值λi一一对应的单位化特征向量xi。

λixi=C*xi

(2)

3) 计算各特征xi的累积方差贡献率,选取贡献率高的成分构造线性变换矩阵。

根据式(3)计算累积方差贡献率pi以及设定降维维数k,选取变换矩阵的前k列对高光谱原始数据矩阵进行线性变化,得到所要提取的特征,如式(4)。

(3)

Y=P*[x1,x2,…,xk]

(4)

1.2 信息量改进PCA

虽然PCA降维能够较好地用少数特征代替原始高光谱图像数据特征,但该方法并没有顾及到原始图像数据的信息量问题,无法完全利用原始数据中隐含的信息。在香农信息论中,信息量I表示数据包含信息量的大小。信息量越大,说明数据包含的信息越多,反之数据包含的信息越少。因此,将信息量的理论引入高光谱图像特征提取中,是对现有提取方法十分有效的补充和完善。

以ai(i=1,2,…,n)表示高光谱图像的每一个特征,即每一个波段。hi(i=1,2,…,n)表示每个特征提供信息的概率。用一个样本空间及其概率空间来描述原始的高光谱图像:

(5)

针对高光谱图像矩阵的协方差矩阵的特征值,对概率hi进行定义:

(6)

因此,各特征包含信息量可计算得到:

Ii=-log2hi(i=1,2,…,n)

(7)

根据各特征的信息量,可以计算信息量贡献率w:

(8)

根据信息量贡献率wi,构造信息量加权矩阵W:

W=diag[w1,w2,…,wn]

(9)

利用信息量加权矩阵对PCA变换后的矩阵进行信息融合,得到信息融合后的变换矩阵Y*:

Y*=YW

(10)

利用香农信息量理论对主成分分析降维方法提取成分进行信息量加权计算,充分利用了原始高光谱图像的信息,特征提取的结果也能够更有效地表示原始数据特征。

2 高光谱图像特征提取

2.1 特征提取实验样本数据

实验所用的两组高光谱图像数据是分别由成像光谱仪AVIRIS获取的美国Indiana某农林混合实验场和加利佛尼亚州萨利纳斯山谷的高光谱图像数据[10]。图1是Indiana Pines数据集地物理想分类和各种类地物分布和名称。该高光谱图像数据分为两部分,其一是地物空间信息,其二是地物真实分类类别。此图像数据的波长为0.4~2.5 μm ,空间分辨率为25 m ,空间大小为145×145个像素点。本文实验在原始的220个波段中,去除水汽吸收波段和低信噪比波段([104-108],[150-163],220),保留了其他200个波段进行数据降维及分类处理。该数据中,地物真实分类类别为16类。图2是Salinas数据集理想地物分类和各类地物名称及分布。与Indiana Pines数据集相类似,去除水汽吸收波段和低信噪比波段([108-112],[154-167],224),保留其他204个波段进行数据降维及分类处理。

图1 Indiana Pines数据集地物理想分类及名称

图2 Salinas数据集地物理想分类及名称

2.2 特征提取结果对比分析

对Indiana Pines数据集的200个波段数据进行直接分类处理,采用的分类方法为最小距离分类法,分类结果与地物真实分类类别进行比对,分类准确率为81.38%。分别采用未改进PCA方法和信息量改进PCA方法对原始数据进行降维,降维结果输入最小距离分类器,将分类结果与地物真实分类比对,统计分类精度。

表1为使用两种特征提取方法的分类精度汇总。从表1可看出:PCA方法整体精度略低于直接使用200个波段进行分类的精度,这说明虽然PCA选取出有效信息多的成分,但对高光谱图像进行降维处理,仍丢失了部分有用信息。信息量改进PCA方法整体分类精度明显优于传统PCA方法以及使用200个波段进行分类的结果。这说明使用信息量对变换矩阵进行加权运算,能够更好地提取出原始数据包含的有用信息量,能够避免无用甚至错误信息对分类精度的影响,更加有效地对高光谱图像进行分类。随着降维维数的增加,两种方法的分类精度略有增加;维数增加到一定程度,分类精度变化不大。这说明维数进一步增加所提供的额外有效信息量不大,无效信息量增加,因此可以少数波段的有用信息代替全部波段的信息,再一次证明了降维的合理和必要性。在计算代价方面,改进PCA是在传统PCA的基础上进行线性加权计算,计算代价的增加少,远远小于分类所用时间。因此,改进PCA方法实践性、有效性、合理性都很高。

表2为两种方法降维的运行时间。从表中可以看出,两种方法运行时间的差距不大。信息量改进的PCA方法是在传统PCA的基础上,利用协方差矩阵特征值计算信息量贡献率。因此,计算代价仅增加此步骤的运行时间。不同维数的时间相近的原因是,两种方法均是对全部数据进行变换,根据维数要求选择结果的维数,因此时间相近。

表1 (Indiana Pines数据集)不同维数下不同方法的分类精度汇总 %

表2 不同维数下不同方法的运行时间 s

图3是使用数据集Indiana Pines进行实验的结果。图3(a)是未降维处理的地物分类图像。图3(b)是使用传统PCA方法将维数降至30维时的地物分类图像,此时最小距离分类器的分类精度为81.01%。图3(c)是使用信息量改进PCA方法将维数降至30维时的地物分类图像,此时最小距离分类器的分类精度为86.06%。从图中可以看出,使用改进PCA方法降维的分类效果优于传统PCA降维方法以及未降维方法。在面积大、周围环境简单的区域划分精度高,如图中“小麦”、“非耕犁玉米”和“牧草(左下部分)”等部分;在面积小、周围环境复杂的区域,改进PCA方法仍明显优于PCA降维方法,如图中“非耕犁大豆(左上部分)”、“燕麦”和“牧草(左上部分)”等部分。因此,信息量改进PCA降维方法能够适用于简单环境和复杂环境,使用此方法可以明显提高地物分类精度。此外,从分类结果图中可以看出,三种方法均将“石铁堡”部分误判,说明存在不足,需要改进。

对Salinas数据集的204个波段数据分别使用PCA和信息量改进PCA降维方法进行降维处理。表3列出使用两种降维方法及未降维处理的分类准确率汇总。图4(a)、(b)、(c)分别是未降维处理的分类图像、使用PCA方法降至20维的地物分类图像及使用信息量改进PCA方法降至20维的地物分类图像。从表中可以看出,实验2的结果与实验1类似,信息量改进PCA降维方法确实提高了分类精度。但与实验1相比,实验2改进PCA降维方法对分类精度的改善小于实验1。这是因为实验2使用的Salinas数据集中地物分类明显,环境相对简单,说明了信息量改进PCA降维方法更加适用于环境相对复杂的环境,具有很强的实用性。从图4可以看出:改进PCA方法对地物的整体分类精度明显提高,比如在“Vinyard_vertical_trellis(左下部分)”、 “Vinyard_vertical_trellis(中间部分)”和“Com_senesced_green_weeds(中下部分)”等区域。

图3 未降维、PCA降维及改进PCA降维的分类结果

图4 未降维、PCA降维及改进PCA降维的分类结果

%

3 结论

基于信息量改进PCA的高光谱图像特征的降维方法整体分类精度高于未降维处理和传统PCA降维,能够更加有效地利用数据集的信息,提高分类精度,而计算代价比传统PCA方法计算复杂度仅多o(n)的复杂度。在分类时间远大于降维时间的情况下,改进方法所增加的计算时间成本可忽略不计。从分类结果图可以看出,不同区域分类效果差异加大,存在区域判错,因此,按区域进行特征提取及分类以及使用其他分类器将是今后的研究方向。

猜你喜欢

信息量降维特征提取
混动成为降维打击的实力 东风风神皓极
基于数据降维与聚类的车联网数据分析应用
重磅!广东省发文,全面放开放宽落户限制、加大住房供应……信息量巨大!
Helicobacter pylori-induced inflammation masks the underlying presence of low-grade dysplasia on gastric lesions
降维打击
空间目标的ISAR成像及轮廓特征提取
基于Gazebo仿真环境的ORB特征提取与比对的研究
基于特征提取的绘本阅读机器人设计方案
基于Daubechies(dbN)的飞行器音频特征提取
走出初中思想品德课的困扰探讨