基于判别信息的复合核极限学习机算法
2021-09-13马斯宇刘德山闫德勤丁一民
马斯宇 刘德山 闫德勤 丁一民
摘 要:高光谱图像包含光谱和空间信息,这增加了其在分类与识别方面的难度。特征学习作为高光谱图像分类技术之一,能较好地提取图像中包含的特征。针对经典极限学习机算法难以较好地提取光谱特征,引入特征学习技术,提出了一种基于判别信息的复合核极限学习机(CKELM-L)方法。CKELM-L通过最大化类间矩阵与最小化类内矩阵,使投影后的低维数据同类越近而异类越远。实验结果表明,所提方法保留了更好的光谱特征,计算复杂度低且实现了出色的可分离性。
关键词:极限学习机;高光谱图像分类;线性判别分析;特征学习
中图分类号:TP391 文献标识码:A
文章编号:2096-1472(2021)-09-32-06
Abstract: Hyperspectral images contain spectral and spatial information, which increases the difficulty of classification and recognition. Feature learning, as one of the hyperspectral image classification techniques, can better extract features contained in the image. Aiming at the difficulty of classical extreme learning machine algorithms in extracting spectral features, this paper introduced feature learning technology, and proposes a composite kernel extreme learning machine (CKELM-L) method based on discriminant information. CKELM-L maximizes the between-class matrix and minimizes the intra-class matrix, so that the projected low-dimensional data is closer to the same class and farther away from the different class. Experimental results show that the proposed method retains better spectral features, low computational complexity and achieves excellent separability.
Keywords: extreme learning machine; hyperspectral image classification; linear discriminant analysis; feature learning
1 引言(Introduction)
高光谱图像(Hyperspectral Image, HSI)包含大量数据和冗余信息,并且波段间具有高度相关性[1]。因此,在不丢失有用信息的前提下,高光谱图像的特征学习[2]可以获得更准确、可靠的信息。
HUANG等人提出了一种基于单隐层前馈神经网络的求解方法——极限学习机(Extreme Learning Machine, ELM)[3],与传统的神经网络相比,其学习速度较快,泛化性能较好。但ELM及其改进算法并未充分考虑HSI分布信息中的判別特征和数据中的局部几何结构。引入特征学习技术[4]可以解决上述问题。线性判别分析(Linear Discriminant Analysis, LDA)[5-6]是一种有效的特征学习技术,主要用于图像分类和特征缩减[7]。本文提出一种基于判别信息的复合核极限学习机(CKELM-L)。对于数据样本分类问题,CKELM-L可以考虑到数据样本中的局部几何结构和图像分布信息中的判别特征,通过最大化类间距离和最小化类内距离,优化极限学习机的输出权重,增强KELM在有限的高光谱图像训练样本下的分类性能,从而在一定程度上提高ELM的学习速度、泛化性能及辨识精度。
2 KELM算法(KELM algorithm)
ELM是一种训练单隐层前馈神经网络的算法,通过随机生成输入层和隐藏层之间的输入权值和偏差,利用最小二乘法直接求出隐藏层与输出层关联的输出权值矩阵。
对于利用个训练样本来区分个类别的传统分类问题,第个训练样本可以表示为,其中是一个的输入向量;是对应的的输出向量,即,,那么具有个隐藏层节点的隐藏层输出为:
其中,和分别表示第个隐藏层节点的权重和偏差,表示神经网络的激活函数,表示将第个隐藏层节点连接到输出层节点的权重向量。则:
其中,为隐藏层输出矩阵,为输出权值矩阵,为期望输出矩阵。
在式(2)中,只有是未知的,因此采用最小二乘算法来获取解,可以描述如下:
其中,表示隐藏层输出矩阵的Moore-Penrose广义逆。
为了提高传统ELM的泛化性能,HUANG从优化的角度训练ELM[8],将和同步最小化,因此等式优化约束的ELM可以表示为:
其中,表示个输出节点相对于训练样本的训练误差向量;表示惩罚因子,是在训练误差最小化和普遍性最大化之间的权衡。根据Karush-Kuhn-Tucker(KKT)定理,式(3)可描述如下:
由式(5)可得ELM的输出函数为:
在ELM算法中,隐藏层节点的权重和偏差是已知的。如果隐藏层节点的权重和偏差未知,则可以采用如下方法定义ELM的内核矩阵。
与支持向量机(Support Vector Machines, SVM)[9]相似,可以使用内核将式(6)中的传统ELM推广到具有内核的ELM。具体地说,可以用以下核函数代替和的计算中涉及的内积运算:。替换后,使用输出函数获得内核ELM(KELM)。
3 CKELM-L算法(CKELM-L algorithm)
在分类中,当空间的维数增大,训练集的大小固定时,经常会遇到休斯现象(又称维数诅咒)[10]。特征学习可以很好地解决这一问题。LDA[11]是特征学习中常用的一种提取特征方法。LDA使用每个类的平均向量和协方差矩阵来形成类内、类间散布矩阵。基于Fisher准则,在低维空间中寻找类间离差与类内平均离差之比最大的特征。因此,本文提出一种基于判别信息的复合核极限学习机(CKELM-L)。
3.1 CKELM-L算法
首先采用线性判别分析方法对数据样本进行处理,提取具有判别信息的特征数据。是第类样本的集合,是第类样本的个数,和是所有训练样本的数量。基于Fisher准则,投影到的维低维空间的样本矩阵为,其中是由向量组成的,该样本矩阵即为具有判别信息特征数据的样本矩阵,则可被表示为:
根据HSI的光谱空间均匀分布特性[12-13],分类时应该考虑空间像素与光谱像素间的相关性[14-17]。因此采用复合核(Composite Kernels, CK)方法[18-23]执行空间光谱分类。在CK方法中,首先使用局部空间特征提取方法来提取空间特征,然后使用提取的空间特征和光谱特征來计算光谱核和空间核,它们被组合以形成CK。
对于给定的像素,分别将其光谱和空间特征表示为和。光谱特征向量是原始由所有频带上的光谱反射值组成。空间特征是从像素的局部空间邻域提取并且定义为的空间邻域中的像素均值。构造了光谱和空间特征和后,分别计算相应的空间核和光谱核。
综上所述,本文的主要贡献如下:
(1)提出的算法继承了ELM的优点,优化了ELM的特征提取。
(2)将线性判别信息引入ELM中,充分学习了数据样本中的局部几何结构和图像分布信息中的判别特征。
(3)将多个核函数引入ELM算法中,优化ELM分类器。
(4)利用ELM本身求解过程中的广义逆法(即最小二乘法)有效地解决了引入线性判别信息后矩阵奇异问题。
3.2 算法步骤
输入:
HSI原始三维数据集
输出:
HSI数据集中每个测试像素的预测标签
1.初始化数据集
2.采用式(9)、式(10)计算类间散布矩阵和类内散布矩阵
3.根据求得的和计算投影后矩阵
4.采用式(14)、式(15)计算空间核和光谱核
5.将计算得到的空间核和光谱核送入KELM框架中
6.通过CKELM-L分为训练和测试数据集,将其分类
7.为HSI返回每个测试像素的预测标签
4 实验与结果分析(Experiment and result analysis)
4.1 实验数据集
为了验证所提出的CKELM-L方法的性能,本文使用了三个可公开获得的HSI数据集Indian Pines、University of Pavia和Salinas Scene。如图1至图3所示的三幅图展示了三个数据集的三波段伪彩色图和真实地面图。
4.2 实验结果与分析
为验证本文所提算法在高光谱图像分类过程中的有效性,对照实验选择传统的分类算法ELM[17]、KELM、SVM[9],具有复合核函数的算法ELMCK[18]、KELMCK[18]、SVMCK[18]和目前较新颖的HiFi[23]算法进行综合比较。采用四个广泛使用的评价指标,即类内分类准确性(CA)、总体准确性(OA)、平均准确性(AA)和kappa系数[19]评估三个HSI数据集上所有算法的分类性能。
在传统ELM方法中,使用Sigmoid函数,隐藏层参数基于范围[-1,1]均匀分布随机生成,并且隐藏层节点的数量设置为1,000。对于CK方法,即SVMCK、ELMCK和KELMCK,其组合系数设置为0.8。对于所有基于核的算法,使用高斯径向基函数RBF核。这些方法中涉及的RBF核参数在范围中,惩罚参数的范围从到。在上述方法中,使用三重交叉验证和网格搜索策略来确定参数或的最优值。
对比实验都是在一台配备Intel(R) Core(TM) 3.20 GHz CPU和带有MATLAB R2016b的8 GB RAM的计算机上进行的。为了避免偏差,通过重复实验10 次来平均给出的实验结果。
4.2.1 Indian Pines数据集实验结果
在实验中,根据文献[20],对16 类真实数据选取10%作为训练样本总计1,031 个,其余9,218 个数据作为测试样本。不同分类算法对Indian Pines数据集的分类结果如表1所示,图4给出了在Indian Pines数据集上分类结果图对比。
表1首先给出了在Indian Pines数据集上固定训练样本个数后不同算法的类内分类准确性(CA),同时给出了总体准确性(OA)、平均准确性(AA)和kappa系数。通过比较7 种算法的OA、AA和kappa系数可以很清楚地看到,本文所提算法具有最优的分类效果,根据CA可以看出,在16 类数据样本中本文所提算法有10 类的准确率要高于其他算法。与传统分类算法KELM相比总体准确性提高17.67%,与带有传统CK方法的KELMCK相比总体准确性提高1.33%,与目前较新颖的算法HiFi算法相比总体准确性提高10.32%。
4.2.2 University of Pavia數据集实验结果
在实验中,对9 类真实数据选取1%作为训练样本总计432 个,其余42,344 个数据作为测试样本。不同分类算法对University of Pavia数据集的分类结果如表2所示,图5给出了在University of Pavia数据集上分类结果图对比。
表2首先给出了在University of Pavia数据集上固定训练样本个数后不同算法的类内分类准确性(CA),也给出了总体准确性(OA)、平均准确性(AA)和kappa系数。通过比较7 种算法的OA、AA和kappa系数可以很清楚地看到,本文所提算法具有最优的分类效果,根据CA可以看出,在9 类数据样本中本文所提算法有7 类的准确率要高于其他算法。与传统分类算法KELM相比总体准确性提高12.66%,与带有传统CK方法的KELMCK相比总体准确性提高7.36%,与目前较新颖的算法HiFi算法相比总体准确性提高11.41%。
4.2.3 Salinas Scene数据集实验结果
在实验中,对16 类真实数据选取5%作为训练样本总计2,713 个,其余51,416 个数据作为测试样本。不同分类算法对Salinas Scene数据集的分类结果如表3所示,图6给出了在Salinas Scene数据集上分类结果图对比。
表3首先给出了在Salinas Scene数据集上固定训练样本个数后不同算法的类内分类准确性(CA),同时给出总体准确性(OA)、平均准确性(AA)和kappa系数。通过比较7 种算法的OA、AA和kappa系数可以很清楚地看到,本文所提算法具有最优的分类效果,根据CA可以看出,在16 类数据样本中本文所提算法有11 类的准确率要高于其他算法。与传统分类算法KELM相比总体准确性提高6.62%,与带有传统CK方法的KELMCK相比总体准确性提高0.52%,与目前较新颖的算法HiFi算法相比总体准确性提高7.07%。
5 结论(Conclusion)
本文提出了一种基于判别信息的复合核极限学习机(CKELM-L)的HSI分类模型。该模型采用线性判别分析(LDA)算法对HSI进行提取特征。利用空间特征和提取的光谱特征,采用CKELM对HSI数据集进行分类,可以大大提高分类性能。通过在三个真实可用的HSI数据集上的实验和比较,证实了该模型与其他算法相比具有较好的分类效果,表明图像分布信息中潜在的判别特征有利于HSI分类任务。然而,本文所提算法仍存在一些不足,对数据进行分类时,由于数据含有噪声点等干扰信息,使得提出的算法在HSI数据的某些类别中不能较好地分类。在未来的工作中,将引入各种平滑噪声和消除干扰信息的方法,对HSI进行更好的分类。
参考文献(References)
[1] CAI Y, LIU X, CAI Z. BS-Nets: An End-to-End framework for band selection of hyperspectral image[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 58(3):1969-1984.
[2] 任越美.高光谱图像特征提取与分类方法研究[D].西安:西北工业大学,2017.
[3] HUANG G B, ZHU Q Y, SIEW C K. Extreme learning machine: A new learning scheme of feedforward neural networks[C]// EE Engineers. 2004 IEEE International Joint Conference on Neural Networks (IEEE Cat. No. 04CH37541). Budapest, Hungary: IEEE, 2004:985-990.
[4] 李思.复杂光照下图像特征提取技术研究[D].西安:长安大学,2018.
[5] JOY A A, HASAN M A M, HOSSAIN M A. A comparison of supervised and unsupervised dimension reduction methods for hyperspectral image classification[C]// BHUIYAN M A M. 2019 International Conference on Electrical, Computer and Communication Engineering (ECCE). Cox's Bazar: IEEE, 2019:1-6.
[6] ZHENG X, YUAN Y, LU X. Dimensionality reduction by spatial-spectral preservation in selected bands[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(9):5185-5197.
[7] 阿茹罕,何芳,王标标.加权空-谱主成分分析的高光谱图像分类[J].国土资源遥感,2019,31(2):17-23.
[8] HUANG G B. An insight into extreme learning machines: Random neurons, random features and kernels[J]. Cognitive Computation, 2014, 6(3):376-390.
[9] MELGANI F, BRUZZONE L. Classification of hyperspectral remote sensing images with support vector machines[J]. IEEE Transactions on Geoscience and Remote Sensing, 2004, 42(8):1778-1790.
[10] CAO F, YANG Z, REN J, et al. Sparse representation-based augmented multinomial logistic extreme learning machine with weighted composite features for spectral-spatial classification of hyperspectral images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(11):6263-6279.
[11] FUKUNAGA K. Introduction to statistical pattern recognition[M]. New York: Elsevier, 2013:256-483.
[12] CAO F, YANG Z, REN J, et al. Local block multilayer sparse extreme learning machine for effective feature extraction and classification of hyperspectral images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(8):5580-5594.
[13] ZHOU L, MA L. Extreme learning machine-based heterogeneous domain adaptation for classification of hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(11):1781-1785.
[14] MOU L, BRUZZONE L, ZHU X X. Learning spectral-spatial-temporal features via a Recurrent Convolutional Neural Network for change detection in multispectral imagery[J]. IEEE Transactions on Geoscience & Remote Sensing, 2018, 57(2):924-935.
[15] MEI X, PAN E, MA Y, et al. Spectral-spatial attention networks for hyperspectral image classification[J]. Remote Sensing, 2019, 11(8):963-981.
[16] SHU L, MCISAAC K, OSINSKI G R. Learning spatial-spectral features for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(9):5138-5147.
[17] BAZI Y, ALAJLAN N, MELGANI F, et al. Differential evolution extreme learning machine for the classification of hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2013, 11(6):1066-1070.
[18] ZHOU Y, PENG J, CHEN C L P. Extreme learning machine with composite kernels for hyperspectral image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 8(6):2351-2360.
[19] MARCONCINI M, CAMPS-VALLS G, BRUZZONE L. A composite semisupervised SVM for classification of hyperspectral images[J]. IEEE Geoscience and Remote Sensing Letters, 2009, 6(2):234-238.
[20] RICHARDS J A, JIA X. Remote sensing digital image analysis[M]. Berlin: Springer, 1999:146-303.
[21] TU B, ZHANG X, KANG X, et al. Hyperspectral image classification via fusing correlation coefficient and joint sparse representation[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(3):340-344.
[22] CAMPS-VALLS G, GOMEZ-CHOVA L, MUNOZ-MARI J, et al. Composite kernels for hyperspectral image classification[J]. IEEE Geoscience and Remote Sensing Letters, 2006, 3(1):93-97.
[23] PAN B, SHI Z, XU X. Hierarchical guidance filtering-based ensemble classification for hyperspectral images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):4177-4189.
作者簡介:
马斯宇(1995-),女,硕士生.研究领域:模式识别,机器学习.
刘德山(1970-),男,硕士,教授.研究领域:机器学习,智能信息处理,模式识别.
闫德勤(1962-),男,博士,教授.研究领域:模式识别,机器学习.
丁一民(1997-),男,硕士生.研究领域:模式识别,机器学习.