APP下载

融合多特征与互信息选择集成多核极限学习机的影像分类方法

2021-03-30杨素妨曾红春

遥感信息 2021年1期
关键词:互信息学习机纹理

杨素妨,曾红春

(百色学院,广西 百色 533000)

0 引言

近年来,随着空间技术的发展,影像空间分辨率不断提高,影像数据量呈现爆发式增长,为国家数字城市规划、地理国情监测、智慧城市建设等提供数据保障。仅利用影像的光谱特征进行影像分类,未能充分挖掘影像的多种特征信息,因此影像的分类精度难以满足要求。而将影像的多种特征与高性能的机器学习分类器结合的方法,已逐渐成为目前主流趋势。

常用的分类器有决策树、支撑向量机(support vector matchine,SVM)、随机深林(random forest,RF)、极限学习机(extreme learning machine,ELM)等[1-3]。极限学习机具有训练简便、结构简单,不需要调整隐含层参数信息,仅通过控制最小化训练误差和输出权重实现极限学习机分类器的生成,克服了传统神经网络的容易陷入局部最小、训练速度慢的问题。楚恒等[4]提出多特征多核的ELM分类方法,该方法将影像对象的光谱、空间特征通过简单多种核加权组合的方式进行融合,未能充分体现出不同特征在不同影像对象上的表达优势。王明常等[5]提出利用极限学习机对高分二号遥感影像进行分类,通过多种分类器分类结果的对比,分析极限学习机在高分二号遥感影像上的准确性能,结果表明该方法运行时间快、分类准确率高。Huang等[6]通过类比支持向量机的映射函数与极限学习机隐含层的特征映射,提出改进的核极限学习机分类器,为后续集成算法与极限学习机模型的结合提供一种思路。付琼莹等[7]提出一种选择性极限学习机集成算法,提高了遥感影像的分类精度。韩敏等[8]提出基于互信息选择集成的核极限学习机分类方法,但该方法仅利用影像的光谱信息进行分类,缺少多纹理信息的考虑。

鉴于此,为了充分挖掘影像的多特征信息,提高影像分类结果准确性与差异性平衡问题,本文提出融合多特征与互信息选择集成多核极限学习机的影像分类方法。通过提取影像的光谱特征与局部纹理特征作为训练简单、泛化能力强的核极限学习机的输入,同时通过最大相关与最小冗余互信息准则对核极限学习机选择性集成,确保最终集成的核极限学习机的输出结果与真实分类结果的整体准确性,较好地平衡类间差异性。

1 多特征选择

1.1 光谱特征

由于高分辨遥感影像波段间存在大量的冗余信息,采用最小噪声分离(minimum noise fraction,MNF)重新分配数据中存在的信息与噪声,通过数据变换的方式将有效信息集中少量波段数据中。MNF变换的本质是通过2次主成分分析(principal component analysis,PCA)[9]的叠加。为了进一步进行波谱处理,通过检查最终特征值和相关图像来判定数据的内在维数。通过MNF影像变换处理,数据空间被分为二类:一部分是与较大特征值和相对应的特征影像,其余部分是与近似相同的特征值相对应以及噪声占主导地位的影像。与PCA变换获得的影像相比,MNF变换获得的特征影像能有效地保留影像的特征信息,避免因信、噪分离对特征影像质量的影响。

1.2 纹理特征

由于影像分辨率的提高,影像上的相邻不同地物边界清晰。文献[10]研究发现,采用LBP纹理特征能够有效地表达地物边界信息。因此,本文采用LBP特征来表达影像的局部纹理信息。LBP特征通过计算影像局部区域强度信息与中心点影像强度关系来表示该区域的局部纹理信息。由式(1)、式(2)计算LBP纹理特征。

(1)

其中

(2)

式中:gc为影像中心像素强度值;S(x)为关于x的分段函数。本文在提取LBP纹理特征时采用3×3的局部邻域,gp为gc相邻的8个方向的像素强度值。

2 基本原理

2.1 核极限学习机

极限学习机由输入层、隐含层以及输出层3部分组成。对于给定的训练样本,通过不断地优化连接输入层与隐含层间的输入权重与偏置值,并在训练过程中保持不变。假定给定{xi,ci},i=1,2,…,N的训练样本集,其中,xi为训练样本的输入值,ci为对应的输出值。设极限学习机存在h个隐含层节点,网络输出为f,g(*)为激活函数,则极限学习机的输入输出模型可以表示为式(3)。

(3)

式中:输入节点的输出权值与第i个隐含层节点用βi表示;第i个隐含节点的输入权值与输入节点用ωi表示;第i个隐含节点的偏置值用bi表示。

(4)

输出权值即可以表示为式(5)。

(5)

式中:H*为矩阵H的逆。

将支持向量机中的核函数映射的思路替换极限学习机中的隐含层[11],则核极限学习机可以表示为式(6)。

(6)

因此,核极限学习机的输入输出模型为式(7)。

(7)

定义极端学习机核矩阵为式(8)。

ΩELM=HHT
ΩELMi,j=h(xi)·h(xj)=K(xi,xj)

(8)

对应的输入输出模型可以表示为式(9)。

(9)

隐含层的特征映射h(x)在核极限学习机中是未知的,但通常采用核K(μ,ν)(如K(μ,ν)=exp(-γ‖μ-ν‖2))进行计算,减少了因设置隐层节点数(特征空间的维数)不合理带来分类结果较差的影响。

因此,核极限学习机具有极限学习机与支持向量机有效分类的优点。

2.2 最大相关最小冗余信息论准则

在影像匹配、影像分类中,可以利用互信息衡量2个向量间的相关性。

文献[12]提出利用互信息引导输入变量与极限学习机模型,通过最大相关最小冗余信息原则[13]的方法优化学习算法,然后对优化的核极限学习机进行多核的选择性集成。

2.3 融合多特征与互信息选择集成多核极限学习机的影像分类方法

本文提出融合多特征与互信息选择集成多核极限学习机的影像分类方法,具体步骤如下。

步骤1:选取影像上的测试样本数据,提取影像的光谱特征与LBP纹理特征。为了保证像元的差异性,分别对光谱特征与LBP纹理特征进行归一化处理,构成影像的光谱-纹理复合特征。利用Bootstrap算法将用于训练的样本数据随机分成n组样本量为L的训练样本子集。S={xi,k,yi,k},xi,k∈Rd,yi,k∈R,i=1,2,…,n,k=1,2,…,L。

步骤2:利用训练样本数据集S,确定核函数以及对应的初始化参数,获得极限学习机核矩阵。

步骤3:通过核矩阵求解核极限学习机。

步骤4:迭代计算步骤2、步骤3,获得m个核极限学习机分类模型。

步骤5:利用m个核极限学习机分类模型,在检验样本数据上预测类别输出。

步骤6:根据实际样本值与m个核极限学习机分类模型,预测输出值,并计算二者间的最大相关最小冗余信息。

步骤7:依据每个弱分类器的最大相关最小冗余信息进行m个子核极限学习机排序。

步骤8:不断增加集成数量,对前m个子核极限学习机进行集成,通过投票算法获得最终的影像分类结果。

通过引入互信息的最大相关最小冗余准则进行多核极限学习机影像分类,可以增加影像分类结果与真实结果间的相关性,同时减弱多个弱分类器间的冗余信息,达到充分利用各个分类器间的差异。采用最大相关最小冗余信息准则使得影像分类结果与真实结果间的相关性最大而冗余性最小,即获得预测准确性高而相互间差异性较大的多核极限学习机,集成解决分类结果类间差异与分类精度不平衡问题,通过多种特征的融合充分挖掘影像的多种影像信息,提高最终的影像分类精度。

3 实验与分析

本文采用武汉大学计算视觉与摄影测量研究组发布的高分遥感影像数据集(GaoFen image dataset,GID),该数据集收集60多个不同城市的150幅高质量的高分二号卫星影像,覆盖面积超过50 000 km2。随机选取1组样本数据进行训练与分类。将训练好的模型在2018年6月18日高分二号卫星获取的某地遥感影像数据上进行验证测试(图1)。该数据包含空间分辨率为1 m的全色影像数据与空间分辨率为4 m的多光谱影像数据。

图1 高分二号影像

为验证本文提出算法的有效性,将本文算法与支撑向量回归(support vector regression,SVR)、极限学习机、核极限学习机(kernel extreme learning machine,KELM)的分类结果进行比较,对比不同算法的分类精度与Kappa系数。

在实际核极限学习机训练过程中,在GID数据集中进行样本数据的随机选取。选用核宽为10、正则化参数为10的高斯核为核极限学习机的核函数。训练样本的70%用于训练模型,剩下的30%作为检验样本,用于确定集成的核极限学习机个数。每次生成20个基核极限学习机进行选择性集成。

图2为核极限学习机在GID数据集的集成个数与分类精度的关系曲线。从图2可以看出,本文提出的融合多特征与互信息选择集成多核极限学习机的遥感影像分类方法对多个弱分类器进行排序,通过测试集成个数与分类精度的变化趋势可知:分类精度随着集成个数的增加先急速上升再缓慢下降最后趋于稳定,在个数为7时分类精度最高的为94.16%;由于前期参与集成的弱分类器与真实分类结果存在较大的相关性且不同弱分类器间的冗余性相对较小,所以分类精度呈急速上升趋势;随着集成弱分类器数目的增加,引起分类结果恶化现象,说明引入互信息选择集成多核极限学习机的优越性。通过与SVR、ELM、KELM算法对比,验证本文方法整体RMSE值较小,预测分类结果最好。集成个数在m=7时获得预测分类结果最好,因此本文集成个数设置为7,对高分二号数据进行分类,验证模型的准确性。

图2 不同算法在GID数据集的集成个数与分类精度关系

为了进一步验证所提算法的优越性,将所提算法应用于某地拍摄的高分二号数据进行分类实验。分类结果见图3,每种地物的分类结果精度统计见表1。

图3 高分二号分类结果

表1 融合多特征与互信息选择集成多核极限学习机分类精度 %

由表1可知,本文提出的分类模型对不同地物的分类精度较高。另外,将SVR、ELM、KELM算法以及采用单一光谱特征方法进行对比实验,如表2所示。

表2 高分二号测试数据不同分类方法精度对比

由表2可以得出如下结论。

1)本文采用融合多种影像特征作为分类器的输入进行影像分类相比于单一光谱特征作为分类器的输入数据具有更高的分类精度。将光谱特征作为SVR、ELM分类器的输入进行分类,其中分类精度较高的SVR分类器的精度为88.75%、Kappa系数为0.84,本文分类方法比SVR高3.28%,Kappa系数高0.06,这是由于本文融合了光谱特征与局部纹理特征,在特征提取阶段充分利用影像分辨率高能够表现局部信息特点,通过引入LBP局部纹理信息能较好地表达相邻地物边界信息及区分不同地物边界,影像分类精度会有所提高。本文方法体现了多特征融合能充分挖掘遥感影像信息在分类应用上的优势。

2)从不同特征表现来看,采用单一的LBP特征进行分类的精度比采用经过MNF变换提取光谱特征的分类精度低2.34%、Kappa系数低0.03,仅使用LBP纹理特征时分类表现不好。就信息表达而言,局部纹理特征在处理边缘细节信息时效果较好,通过在光谱特征中引入局部纹理特征,分类精度明显较使用单一的光谱特征或单一纹理特征的效果好。从图3分类结果图可以看出,地物的边缘细节得到了有效区分。

3)本文互信息选择集成多核极限学习机分类模型,与KELM相比,分类精度高1.47%,Kappa系数高0.02;由于KELM缺少对多个弱分类器分类结果相关性的考虑,简单的将多个弱分类器进行组合,分类结果较差,而引入互信息的最大相关最小冗余准则可以增加影像分类结果与真实结果间的相关性,同时减弱多个弱分类器间的冗余信息,达到充分利用各个分类器间的差异解决分类结果类间差异与精度不平衡的问题,从而提高影像分类结果的正确率。

4 结束语

针对遥感影像分类结果存在类间差异与分类精度不平衡问题,提出融合多特征与互信息选择集成多核极限学习机分类方法。该方法能够克服单一影像特征在高分二号影像上的分类局限性,充分利用LBP纹理特征区分不同地物边界;结合信息论中的最大相关最小冗余策略,获取与分类输出结果最相关而相互之间冗余度最小的多核极限学习机,采用平均方法进行选择性集成,科学地融合多个弱分类器的分类结果,提高影像的分类精度。但该方法缺少极限学习机不同核函数选择对分类精度影响的考虑,这也是下一步的研究方向。

猜你喜欢

互信息学习机纹理
基于BM3D的复杂纹理区域图像去噪
使用纹理叠加添加艺术画特效
极限学习机综述
基于极限学习机参数迁移的域适应算法
TEXTURE ON TEXTURE质地上的纹理
分层极限学习机在滚动轴承故障诊断中的应用
消除凹凸纹理有妙招!
基于互信息的贝叶斯网络结构学习
联合互信息水下目标特征选择算法
改进的互信息最小化非线性盲源分离算法