基于弹性网回归的水下目标无监督特征选择算法
2018-10-29杨宏晖高洁宇于传林
杨宏晖,高洁宇,于传林
(西北工业大学航海学院,陕西 西安710072)
0 引言
为了提高水声目标识别的正确率,研究人员不断通过多种方法提取水声目标辐射噪声的多域特征。然而,水声目标样本获取的代价却很大。因此,要在水声目标样本数目保持不变的前提下达到分类识别正确率损失尽可能小的目的,进行特征选择以去除冗余的、不相关的和噪声特征[1],在水声目标识别任务中具有重要意义。
根据训练数据集是否含有类标,可将特征选择算法分为有监督和无监督[2-4]。有监督特征选择方法通常依据特征与类标的相关性评价特征的重要性[5-6],而无监督特征选择方法由于缺少类标的指导,则需要依据数据的内在结构信息来对特征进行评价[7-9]。当利用未标记数据进行水声目标识别时,如深度学习方法,需要用无监督特征选择算法来选出能够保留样本内在类别属性的特征[3]。本文提出一种基于弹性网回归的水声目标无监督特征选择算法(Unsupervised Feature Selection Algorithm Based on Elastic-Net Regression,UFSER),将嵌入函数的学习问题转化为一个回归框架,且在回归框架中加入弹性网惩罚项,通过弹性网回归求解一个约束优化问题,最后得到一个稀疏解。在实测水声数据集和UCI公共数据集的声呐数据集上验证了该方法的有效性。
1 基于弹性网回归的无监督特征选择算法
1.1 水声数据图的构造
水声数据集X∈Rn×d构图G(V,E) 的过程,实质上是用图的形式对水声数据点间的几何结构和相似度进行建模的过程。图G(V,E)包含2个集合:V为顶点集合,E为边的集合。根据给定的水声数据集X,使水声X数据的样本点和图G的顶点之间建立一一对应关系,并定义成对两两样本点之间的相似度为图G的边,这样就使水声数据集X和图G有着一一对应的联系。对于水声数据集X=(x1,x2,…,xn),xi∈Rn,f1,f2,…,fm是m个特征。图G的第i个顶点vi代表水声数据X的第i个样本xi∈X;找到每个样本点xi的k个近邻,记xi的近邻集为N(xi),在每个样本点和其近邻点之间设定一条边,用高斯核函数计算边Wij权值,从而得到图G的相似度矩阵W∈Rn×n,其表达式如下:
式中:σ是高斯核函数的尺度参数;N(xi)是样本xi的k近邻集。
通过构图不仅能有效地保留水声数据的内在特性和局部结构,同时可以将数据以稀疏矩阵的形式存储起来,大大减少计算量。
通过公式(1)得到图的相似度矩阵后,可以构造度量矩阵D和拉普拉斯矩阵L,其中:L=D-W,。本文通过计算拉普拉斯矩阵的特征值和特征向量,然后选择合适的特征向量,将水声数据投影到低维,再进行特征选择。
1.2 无监督特征选择的目标函数
本文将嵌入函数融入回归框架中,并在其中加入了弹性网惩罚项构造了一种新的回归系数矩阵的学习框架。
下面是UFSER算法的目标函数构建方法。
第1步,首先根据1.1节的构图方法构造出水声数据图并计算得到拉普拉斯矩阵,然后通过图嵌入来寻找高维水声数据xi的低维表示yi∈Rm,其中,m是嵌入维数。通过这种替换得以保留高位水声数据中最有价值的信息和特性,为后面做特征选择打好基础。所以,第1个目标函数为
第2步,首先通过公式(2)特征分解得到y,然后通过最小二乘法进行线性回归得到高维水声数据与其低维表示之间的回归系数矩阵a,同时加入弹性网惩罚项优化求解回归系数矩阵。所以,第2个目标函数为
综上,UFSER算法的目标函数如下所示:
式中:λ1≥0和λ2≥0分别是2个控制收缩量的参数。
1.3 UFSER目标函数的求解
令α=λ1/(λ1+λ2),则上式弹性网回归等价于:
利用最小二乘法求解回归系数矩阵,令:
同时,Zou和 Hastie(2005),求出了最小二乘参数表示的弹性网回归解[10-11]如下:
UFSER算法的原理框图如图1所示。
图1 UFSER算法原理框图Fig.1 Principle block diagram of UFSER algorithm
2 水声目标特征选择和识别实验
2.1 实验数据介绍
本文利用实测水声数据集和加州大学用于机器学习的 UCI(University of California Irvine) 数据库中的声呐数据集对所提算法的性能进行验证实验,数据说明如表1所示。
表1 数据集说明Table 1 Dataset specification
1)实测水声数据集。
实测水声数据提取了海上71维多域特征,分别是小波分析特征(各级小波信号的相似特征、过零点的波长分布密度的信息熵和小波分解低频包络特征)、波形结构特征(峰间幅值分布特征,过零点分布特征和波长差分布特征)以及Mel频率倒谱特征和听觉谱特征等。数据分为A、B、C、D共4类,每类480个样本,样本总数为1 920个。
2)声呐数据集。
本文实验中所用的声呐数据,通过在不同的角度和不同的条件下主动声呐获取的金属圆柱壳和粗糙的圆柱形岩石的回波信号。数据集包含138个样本,金属圆柱壳和岩石两类样本数目分别为72和66。
2.2 参数选择实验
本文算法需要选择的参数有:近邻数k、控制收缩量的参数α和降维数c。本实验分别在参数取值范围内,考虑3种参数的取值对算法性能的影响。采用5次5折交叉验证,分析3种参数对分类识别正确率的影响,实验结果如下所示。
1)参数α和c对算法性能的影响。
初始化k=5,对两种数据集,本文在{0.1,0.2,…,0.8,0.9}上讨论参数α对算法性能的影响,并且在{1,2,…,d}上讨论降维数c对算法性能的影响,其中d为特征数。声呐数据的结果如图2(a)所示,实测水声数据的结果如图2(b)所示。
由图2可以看出,参数α和c的取值对分类结果的影响较大。从图2(a)中可以看出,当α=0.6,c=25时,声呐数据集的分类识别正确率最高;而从图2(b)中可以看出,当α=0.6,c=35时,实测水声数据集的分类识别正确率最高。
2)近邻数对算法性能的影响。
图2 α,c参数对两种数据集分类识别正确率的影响Fig.2 Influence of parameters a and c on classification identification accuracy of 2 datasets
固定了平衡参数,本文在2~20上讨论近邻数对算法性能的影响。实验结果如图3所示。
图3 近邻数k对数据分类识别正确率的影响Fig.3 Influence of nearest neighbor number k on classification identification accuracy
由图3可以看出,近邻数k的取值对声呐数据集的分类结果的影响较大,且从图3(a)中可以看出,当k=16时,声呐数据集的分类识别正确率最高;而近邻数k的取值对实测水声数据集的分类结果的影响不是很大,从图3(b)中可以看出,当k=4时,实测水声数据集的分类识别正确率最高。
3)参数选取结果。
声呐数据和实测水声数据在UFSER算法上的最优参数如表2所示。
表2 最优参数Table 2 Optimal parameters
2.3 SVM分类实验及结果分析
根据表2取每个数据集的最优参数,分别用上述两种数据集对UFSER算法的特征选择结果进行SVM分类实验,采用5次5折交叉验证SVM运行结果的分类识别正确率的平均值作为最终的分类识别正确率,结果得到选择特征个数与SVM分类识别正确率的关系如图4所示。
由图4可以看出,2种数据集的特征选择个数与SVM分类识别正确率关系曲线的变化趋势相似:开始时SVM分类识别正确率总体上随特征选择个数的增加而增加,当特征达到一定数目后,分类识别正确率趋于相对稳定。由图4(a)所示,用UFSER算法对声呐数据进行特征选择后,使用24个特征,分类识别正确率达到最高86.62%,在特征数目减少60%的情况下,分类识别正确率较特征选择前提升了6.6%;由图4(b)所示,用UFSER算法对实测水声数据进行特征选择后,使用28个特征,分类识别正确率达到最高92.26%,在特征数目减少60.6%的情况下,分类识别正确率较特征选择前提升了1.05%。这说明UFSER算法可以有效地消除噪声,冗余和不相关的特征,选择最有用的特征子集进行分类识别,提高分类识别的准确率。
图4 特征选择后SVM分类识别正确率Fig.4 SVM classification identification accuracy after feature selection
3 结束语
针对水下目标识别过程中,由于数据集中存在冗余、不相关和噪声特征,导致识别任务效率降低、性能不佳的问题,本文提出的基于弹性网回归的无监督特征选择算法(UFSER)在回归框架中加入弹性网惩罚项优化求解回归系数矩阵,最后对回归系数矩阵进行稀疏化来评价特征的分类性能。本文使用UCI声呐数据集和实测水声数据集来验证UFSER算法的性能。UFSER算法在2个数据集上的分类实验结果表明,这种算法能够有效地移除冗余、不相关和噪声特征,选择出对分类识别任务最优的特征子集,降低了运算量,提高了分类识别系统的运行效率并且提高了分类识别正确率。