APP下载

高光谱图像特征提取的方法研究

2021-05-14董朋欣

科教导刊·电子版 2021年8期
关键词:特征提取线性光谱

董朋欣

(长安大学理学院 陕西·西安 710064)

0 引言

遥感是根据电磁波理论,在光谱和空间两个方向维度对目标地物进行立体成像的综合性探测技术。高光谱遥感则是利用成像光谱仪在可见光到短波红外范围内对地物进行持续遥感成像,获取地物空间信息和光谱信息的遥感技术,其波段通道狭窄且连续,高分辨率特性明显,在农作物、湿地环境、地球矿物、城市地物、军事伪装等领域得到广泛应用。2019年11月3日,我国高分七号对地观测卫星在太原卫星发射中心成功发射,并表示2020年8月20日正式投入使用,其卫星测绘相机分辨率达到亚米级,这标志着高空间、高时间、高光谱分辨率的时代正在到来。

高光谱遥感图像的分类一直以来都是遥感科学领域的研究重点,但高维度的数据和相邻波段的高度冗余,对高光谱图像的分类提出挑战。不同地表物都有自己独特的特性,如何快速精确的对地物进行分类,关键就是如何有效提取出能代表地物信息的判别性特征,这是高光谱图像分类的关键,也是遥感信息技术研究的重点。

1 高光谱图像的特征提取方法

特征提取是指利用线性或非线性变换,将原始高维数据特征转换为更能反映原始数据本质或进行数据区分的低维数据特征,是一种改变光谱物理意义或统计意义的降维技术。高光谱图像的特征提取方法按照是否线性空间,分为线性特征提取和非线性特征提取。

1.1 线性特征提取

线性特征提取又称子空间学习,旨在根据一定的性能目标,将原始空间数据通过线性变换投影到低维子空间的过程,该类算法使数据的潜在分布更加凸显,使用简单,有效减少数据存储和数据冗余。主要代表算法有主成分分析(PCA)、线性判别分析(LDA)和独立成分分析(ICA)。

主成分分析(PCA)又称主分量分析,是一种寻找数据分布最优子空间的降维统计方法。基本原理是利用正交变换设法将一组分量相关的初始数据作某种线性组合,重新转换成一组线性不相关的低维新数据,其中在所有变换中,选取方差最大(方差越大包含的信息越多)的线性组合变量,即称为第一主成分,如第一主成分未能表示初始数据的全部信息,然后再选取方差次大的线性组合变量,即为第二主成分,依次类推。由于前面主成分所含的方差较多,只有几乎为零的少量方差含在后几个主成分中,于是忽略贡献几乎为零的高阶主成分特征,只保留贡献较大的前几个低阶主成分,实现对数据特征的降维处理。

线性判别分析(LDA)要求数据符合高斯分布,是一种可以利用物体类别先验知识进行有监督学习的降维技巧。主要思想是将高维原始空间在低维空间上进行映射,使映射后各类别的类间散度最大、类内散度最小,即映射后不同类别的数据尽可能相距较大,而相同类别的数据尽可能聚在一起。与无监督降维方式的PCA算法不同,LDA是使变换后的数据获取最好的分类性,而PCA是获取最大的发散性,但两者都在寻找最佳解释数据的变量线性组合。

独立成分分析(ICA)又称盲源分离,起初被应用于“鸡尾酒会”场景。ICA模型认为混合观测数据可以由多个相互独立的源数据线性组合而成,即n维观测数据X服从模型X=AS,其中A为混合矩阵,S为相互独立的m维(mn)源信号(源信号为非高斯或者只有一个成分是高斯分布)。ICA核心就是要解混,找到一个解混矩阵W(A的逆矩阵)对观测信号X进行线性变换,获得相互独立的源信号S,即S=A1X=WX。

1.2 非线性特征提取

非线性特征提取是将高维数据在低维空间上进行非线性变换映射,该类算法能更好的提取数据分布特征,但计算复杂度大。主要代表算法有核主成分分析(KPCA)、等距映射(ISOMAP)、栈式自编码(SAE)和卷积神经网络(CNN)。

核主成分分析(KPCA)是对PCA算法的非线性推广,用于处理线性不可分的样本集。通过引入核函数,把线性不可分的原始空间投影至高维的特征空间,从而达到线性可分的情况,再采用PCA算法对特征空间处理降维,这是一个先升维后降维的过程,核方法解决了不可分问题,提取到了数据潜在的非线性分布特征。其中常见的核包括Sigmoid核、双曲正切核、多项式核等。

等距映射(ISOMAP)是流形学习中非线性降维方法的一种,它的核心是将原始数据映射到低维空间之后依旧保留流形上点对之间的测地线距离(即相对距离关系),换句话说投影前后,距离近的点还要是近,距离远的点还要是远。等距映射是基于图论中测地线的理论,把带权图的测地距离作为流形映射的几何描述,希望得到一个保持流形结构的低维嵌入,保留非线性样本的本质几何结构,是一种无监督学习方法。

栈式自编码(SAE)是由多层自编码器堆栈形成的网络模型。传统自编码由输入层、隐藏层和输出层组成,分为编码和解码两个部分,其中输入层到隐藏层为编码,隐藏层到输出层为解码。栈式自编码就是将原始数据作为输入训练自编码器,并去除其解码过程,然后把前一层自编码的输出(即隐藏层特征)作为下一层自编码的输入,依次类推。本质上就是利用逐层贪婪训练的思想,对数据做非线性转换,进行无监督训练。

表1:Indian Pines地区各方法分类精度

图1:Indian Pines地区各方法分类结果。(a)原图;(b)实际地物;(c)SVM;(d)PCA-SVM;(e)ICA-SVM;(f)SAE-SVM;(g)Resnet-SVM;(h)3D-CNN

表2:University of Pavia地区各方法分类精度

图2:University of Pavia地区各方法分类结果。(a)原图;(b)实际地物;(c)SVM;(d)PCA-SVM;(e)ICA-SVM;(f)SAE-SVM;(g)Resnet-SVM;(h)3D-CNN

卷积神经网络(CNN)类似于人工神经网络的多层感知器,是一种前溃式监督学习网络,常用来分析视觉图像。其本质上是一种输入到输出的映射,网络结构主要包括数据输入层、卷积层、ReLU激励层、池化层、全链接层。CNN通过采用局部连接、参数共享和降采样等方法优化网络结构,解决了感知器全连接和梯度发散的问题,使其适应性更强,可处理高维数据图像,并且可以挖掘出数据的局部特征和全局特征,可以识别位移、缩放及扭曲不变性的图像。其代表性网络有Alex-Net、VGG、Resnet等。

2 实验结果与分析

为了对各方法进行有效验证,选用IndianPines和University of Pavia两组遥感图像数据进行分类实验,并利用线性方法(PCA、ICA)和非线性方法(SAE、Resnet、3D-CNN)对高光谱图像进行特征提取,同时输入支持向量机(SVM)分类器实现不同地物间的分类。本文还采用两个评估指标(整体分类精度OA、Kappa系数)进行对比分析。

2.1 实验一

实验一在Indian Pines数据集上进行验证,共16类地物(如草地、农田等),由波长为0.4-2.5,大小为145pixel×145pixel的像素点组成,去除受水汽等干扰因素的20个波段,用剩余的200个光谱波段进行实验。实验随机选取每类标记样本的10%作为训练样本,其余样本用作测试。表1列出各类样本在6种算法下的分类精度,图1为各类样本在6种算法下的分类结果图。

2.2 实验二

图3:训练样本数量对各分类方法的影响。(a)Indian Pines;(b)University of Pavia

实验二验证的是University of Pavia地区的数据集,该数据由空间分辨率为1.3m,大小为610pixel×340pixel的像素点组成,波长在0.43-0.86 m之间,共9种地物(如树、沥青道路、牧场等),包含103个光谱波段(除去受噪声影响的12个波段)。实验随机抽取每类200个样本作为训练样本,其余样本用作测试。表2列出各类样本在6种算法下的分类精度,图2为各类样本在6种算法下的分类结果图。

2.3 实验结果分析

实验结果表明,仅利用光谱信息对地物进行分类,所得整体分类精度较低、分错的离散点较多;将线性方法(PCA、ICA)提取出的特征进行分类,分类结果得到改善;SAE、Resnet和3D-CNN算法通过非线性方式提取特征,极大提高了整体分类精度,边界区分效果明显改善,且3D-CNN的分类精度均优于其它方法,边界点区分效果最为明显。实验一,通过组合线性方式的PCA-SVM算法比仅考虑光谱信息的SVM,分类精度提高了6.5%,融合非线性特征的Resnet-SVM比SVM提高18%,3D-CNN算法比线性方法(PCA、ICA)的分类精度大约提高15%,比SAE-SVM高。实验二,PCA-SVM分类精度比SVM提高4%,Resnet-SVM比SVM提升5.38%,3D-CNN算法比PCA-SVM、ICA-SVM的整体分类精度提高约9%,高于SAE-SVM和Resnet-SVM算法,且3D-CNN算法中各目标类分类精度均达到95%以上。综上所述,仅考虑光谱特征进行分类的方法弱于线性特征方法,非线性方法优于线性方法,非线性算法所提取的地物特征具有较强的判别性,极大改善了分类结果。

为了验证各方法的有效性,图3分别展示了不同训练样本数量对各类方法分类精度的影响。结果显示,训练样本数量与分类样本整体呈现逐步升高的曲线走势,非线性特征提取优于线性特征提取,更优于仅考虑光谱特征的SVM算法。

3 结束语

线性特征提取和非线性特征提取区别在于将原始数据映射到低维空间的过程中,是选用线性方式进行变换还是非线性变换。线性特征提取复杂度较低,简单可处理,容易理解,但所提特征有些欠缺;相比而言,非线性特征提取可以更好的对数据的特有属性进行表征,不足的是算法参数缺乏理论性的调参技巧,但非线性提取方法为以后的研究提供了新思路。

猜你喜欢

特征提取线性光谱
基于三维Saab变换的高光谱图像压缩方法
渐近线性Klein-Gordon-Maxwell系统正解的存在性
基于Daubechies(dbN)的飞行器音频特征提取
二阶线性微分方程的解法
Bagging RCSP脑电特征提取算法
星载近红外高光谱CO2遥感进展
基于MED和循环域解调的多故障特征提取
苦味酸与牛血清蛋白相互作用的光谱研究
铽(Ⅲ)与PvdA作用的光谱研究
具有θ型C-Z核的多线性奇异积分的有界性