APP下载

目标回声分类特征的冗余性评价

2011-07-11张风珍李桂娟

舰船科学技术 2011年12期
关键词:协方差特征值度量

张风珍,李桂娟,彭 圆,牟 林

(水下测控技术重点实验室,辽宁 大连 116013)

目标回声分类特征的冗余性评价

张风珍,李桂娟,彭 圆,牟 林

(水下测控技术重点实验室,辽宁 大连 116013)

对目标回声分类特征的冗余性进行评价与分析。对于2个特征维之间的冗余性,采用基于特征间线性相关系数作为冗余性度量,通过特征的相关系数矩阵分析了特征维之间的冗余度。此外,本文提出了基于特征协方差矩阵近零特征值的冗余性度量,据此可以进一步分析特征组内部的多维组合冗余。最后,利用以上2种冗余性度量,对5种目标回声分类特征各自的冗余性以及它们合并后总特征的冗余性进行了评价与分析,明确了其中的冗余关系,为目标回声分类特征的优选和组合应用提供了重要依据。

回声特征;特征冗余;相关系数;协方差矩阵

0 引言

在水中目标的声呐回声中,蕴涵着目标类别属性信息,可以通过一定的信号处理方法提取回声分类特征,从而实现对水中目标的分类。因为水中环境复杂,目标类别众多,目前掌握的特征难以完备表达水中目标的类别属性,所以许多研究者纷纷通过增加水下目标的特征量以求改善识别效果。这时,各种特征如何进行组合或搭配以提高分类效果,就成了要关心的问题。

由同一信号提取的不同回声特征,可以看作相同信号的不同映射,因此往往存在冗余性。冗余特征不但对提高分类能力没有作用[1],还会增加系统的复杂性,因此有必要对特征冗余性进行评价和分析并去除冗余,提高目标回声特征的利用效果。传统的特征选择研究主要集中在寻找相关的特征,虽然一些最近的研究指出了特征冗余的存在和影响,但是几乎没有直接针对特征冗余的研究工作。为此,本文从多角度评价和分析了多种回声特征的冗余性,为特征的优化和组合应用提供了重要依据。

文中的特征维是指多维特征的1个维度,特征组是指几个特征维度的组合,而某种回声特征表示根据某种算法提取的多维分类特征。

1 特征之间的冗余性

在模式分类问题中,特征冗余通常意义上可以理解为某个特征维的加入并不能提高或改善原特征组的可分性。这其中包含2层含义:一是该特征维本身不具有可分性,也就是所谓的无关特征,它对于任何特征来说均是冗余的;二是该特征维虽然具有可分性,但与其他特征维或特征组在统计上具有关联性,属于重复统计量,所以具有统计关联的特征之间也是冗余的。

以上对特征冗余性的描述显然不够严格。下面是1种基于马尔可夫毯[2-3]的特征冗余性定义:

给定特征维Fi,对于特征组Mi⊂F(Fi∉Mi),如果Mi满足

则称Mi是关于Fi的1条马尔可夫毯。

在上述定义中,Mi不仅包含了特征维Fi与类别C之间的相关信息,也包含了特征维Fi与其他所有特征维之间的相关信息。对于特征F,如果其特征子集G中存在关于特征维Fi的马尔可夫毯,就可以将Fi从G中去除。

对于特征F中的一个特征维Fi,如果存在F的一个特征子集Mi形成关于该特征的马尔可夫毯,则该特征是冗余的。

由于在实际目标回声特征分类问题中,特征的取值概率密度函数是未知的,所以上述定义中关于是否存在马尔可夫毯的计算变得十分困难。因此,需要变换角度对特征冗余性进行度量与评价。

在特征冗余的2种情况中,无关特征可以采用基于 Relief[4]、信息熵[5]等算法的特征选择直接去除,而对于具有一定可分性的统计关联冗余特征来说,则需要进行专门的度量与评价,才能明确其冗余关系。所以,本文的重点是度量和评价目标回声特征的统计关联冗余性。

2 冗余性评价度量

从特征值统计关联角度来度量特征的冗余,需要从2个特征维之间的冗余性和多特征维之间的冗余性2方面来考虑。

2.1 2个特征维的冗余性度量

对于2个特征维的简单情况,可以认为它们的特征值统计关联性越大,其冗余度越高,当完全关联时,2个特征维之间就是完全冗余的。因此,在特征训练样本集的基础上,可以采用统计学中的线性相关系数r作为特征维X和特征维Y之间冗余性的评价度量。线性相关系数公式为:

其中:X和Y为2个特征维;x—和y—为特征维均值;n为样本总数;SX和SY为标准差:

rXY的取值范围为[-1,1],rXY的绝对值越大,就表示特征维X和Y之间的线性关联度越高,即冗余度越大。

对于特征集合,可以采用如下的相关系数绝对值矩阵来分析其中2个特征维之间的冗余性:

式中:R为对称矩阵;rij为特征维i与特征维j的相关系数绝对值。

需要注意的是,当不同特征维的量纲和取值相差很大时,数值大的特征维对相关系数的影响要大于其他特征维,这可能给冗余性评价带来偏差。因此,特征取值在量级上最好是相当的。

2.2 特征组合的冗余性度量

特征的统计关联冗余性不只存在于2个特征维之间,而且还可能存在于多个特征维之间,这类似于多个向量之间的线性相关,即在域F上的线性空间V中的1组有限个向量 {α1,α2,…,αn},如果对c1,c2,…,cn∈F,当且仅当c1=c2=…=cn=0时等式

成立,则称向量组 {α1,α2,…,αn}线性无关,否则称为线性相关。若向量组{α1,α2,…,αn}线性相关,则其中至少有1个向量αi是其余向量αi(k≠i)的1个线性组合:

如果把特征F的每个特征维Fi视作向量αi,那么对于训练样本集来说,多个特征维之间可能存在如下的线性相关:

这时,特征组合 (F1,F2,…,Fn)内部就存在冗余。如果此时特征组合中并不存在2个特征维统计相关的情况,那么就应该有2个以上的特征维存在多维组合冗余。多维组合冗余比2个特征维之间的冗余性更复杂,可以采用如下的方法来度量:

对于n维特征F=(F1,F2,…,Fn),其协方差矩阵为:

其中,σij为特征维Fi和Fj的协方差。如果协方差矩阵Σ的最小特征值接近于0,那么就有

其中,λn为协方差矩阵的最小特征值;γn为协方差矩阵关于λn的特征向量;μ为特征的均值向量。由式(9)可得

由于上式中的特征向量 γn=(γn1,γn2,…,γnn)T是非0向量,所以(F-μ)T=(F*1,F*2,…,F*n)之间是近似线性相关的。这就意味着,中心化后的原始特征之间存在多维组合冗余。

相对于2个特征维之间的线性相关系数,通过特征样本协方差矩阵特征值可以进一步发现特征中的多维组合冗余信息。所以结合2种度量方法,可以对特征的冗余性进行更加细致的评价与分析。

3 目标回声特征的冗余性评价

主动声呐的目标回波中包含有目标的类别属性信息,可以通过提取回波的特征来表征其类别。从目标回波信号的时域、频域、听闻域等不同角度,使用不同的信号分析和处理算法提取得到5种目标回声分类特征,用来区分水中的舰艇目标和非舰艇目标。5种目标回声分类特征分别记为特征1、特征2、特征3、特征4和特征5。其中每种特征均是多维特征,每种特征的样本数都是672个。

下面首先分别对每种特征进行各自的冗余性评价,然后对5种特征合并后的组合特征进行冗余性评价。

3.1 特征各自的冗余性

1)2个特征维之间的冗余性

对于每种回声特征,首先根据训练样本集计算特征的线性相关系数绝对值矩阵。可以通过观察矩阵的直方图来初步了解其中2个特征维冗余的情况。例如,19维的特征3的线性相关系数绝对值矩阵如图1所示。

图1 特征3的相关系数绝对值矩阵Fig.1 Correlation coefficient modulus matrix of feature-3

在图1中,除了主对角元素以外,其他等于1或接近1的元素就表明所对应的特征维之间存在完全的或较强的冗余性。

对于每种特征,下面分别从特征线性相关系数绝对值矩阵的元素最大值rmax、最小值rmin、均值rmean以及大于某一阈值δ=0.9的元素个数Nδ>0.9(主对角元素除外)来分析其冗余。5种特征的各自冗余情况如表1所示。δ>0.9的特征组表示其中任2个之间线性相关系数绝对值均大于0.9的特征维的组合。

表1 各特征的相关系数统计信息Tab.1 Correlation coefficient statistic of each feature

表1中关于相关矩阵的统计信息给出了5种回声分类特征各自的冗余情况以及相关系数绝对值在0.9以上的特征维组合。总体来说,特征1中没有明显的冗余,特征5中具有较高的冗余度,其余3种特征中存在冗余,但数量上较少。而且,特征3中的(2,13)和特征5中的(1,2)属于完全相互冗余的特征维。

2)特征的多维组合冗余

下面使用特征协方差矩阵的特征值度量,来进一步分析5种目标回声分类特征各自的冗余性。

5 种特征各自的协方差矩阵特征值如图2所示,由于不同特征值的数值差别较大,图中采用常用对数值进行表示。

图2 各特征的协方差矩阵特征值Fig.2 Eigenvalues of each feature covariance matrix

由图2可见,特征1的协方差矩阵有1个明显的近0特征值,而其中又不存在两特征维冗余,所以它存在多维组合冗余;特征2不存在多维组合冗余;特征3有2个明显的近0特征值,而其中存在两特征维冗余的特征组(2,6,7,13,15,16)的协方差矩阵只有1个近0特征值,所以其中还存在多维组合冗余;同样情况,特征4也存在多维组合冗余;特征5的近0特征值显然是由两特征维的完全冗余引起的,所以其中不存在多维组合冗余。

以上使用2种特征冗余性度量方法,比较明确地得出了目标回声分类特征各自的冗余性信息。

3.2 特征合并后的冗余性

将5种目标回声分类特征合并为71维的总特征,其线性相关系数绝对值矩阵如图3所示。

由总特征的相关矩阵可以看出,不同特征间的特征维相关系数绝对值均在0.75以下,所以使用不同算法提取到的回声特征之间的统计关联冗余性较小。总特征间的协方差矩阵特征值如图4所示。

图3 总特征的相关系数绝对值矩阵Fig.3 Correlation coefficient modulus matrix of total feature

图4 总特征的协方差矩阵特征值Fig.4 Eigenvalues of total feature covariance matrix

由此可见,合并后的总特征存在5个协方差矩阵近0特征值,这也是5种回声特征各自协方差矩阵近0特征值的总个数。这意味着总特征中的多维组合冗余是5种特征各自引起的,也就是说5种回声特征之间并没有形成新的多维组合冗余。

综合以上分析可知,不同目标回声分类特征之间不存在明显的统计关联冗余。

4 结语

从统计关联冗余角度,本文对目标回声分类特征各自的冗余性以及组合后的冗余性进行了度量与评价。采用2种基于特征样本集的冗余性评价度量:特征之间的线性相关系数和特征协方差矩阵特征值。结合运用这2种方法可以对特征中的两特征维冗余和多维组合冗余进行评价与分析。据此对5种目标回声分类特征进行分析处理,结果显示各种特征各自本身存在不同程度的冗余性,而它们之间的冗余性都是比较小的。

[1]吉小军,李世中,李霆.相关分析在特征选择中的应用[J].测试技术学报,2001,15(1):15 -18.

JI Xiao-jun,LI Shi-zhong,LI Ting.Application of the correlation analysis in feature selection[J].Journal of Test and Measurement Technology,2001,15(1):15 -18.

[2]BLUM A L,LANGLEY P.Selection of relevant features and examples in machine learning[J].Artificial Intelligence,1997,245 -271.

[3]ALIFERIS C F,TSAMARDINOS I, STATNIKOV A.HITON:A novel markov blanket algorithm for optimal variable selection[R].Nashville:Technical report DSL -03 -08,Vanderbilt University,2003.

[4]KIRA K,RENDELL L A.The feature selection problem:Traditional methods and a new algorithm[C].Proceedings of Ninth National Conference on Artificial Intelligence,1992.

[5]李杨寰,高峰,李腾,等.特征选择中信息熵的应用[J].计算机工程与应用,2009,45(15):54 -57.

LI Yang-huan,GAO Feng,LI Teng,et al.Novel method for feature selection based on entropy[J].Computer Engineering and Applications,2009,45(15):54 -57.

Redundancy evaluation of the target echo classification feature

ZHANG Feng-zhen,LI Gui-juan,PENG Yuan,MU Lin
(Key Laboratory of Science and Technology on Underwater Test and Control,Dalian 116013,China)

The redundancy evaluation and analysis of target echo classification feature set is studied.For the redundancy between two features,the linear correlation coefficient is used as the redundancy measure.And the feature redundancy can be analyzed via its correlation matrix.Moreover,the paper puts forward another redundancy measure which is based on the near-zero eigenvalue of the features covariance matrix.By this,we can further analyze the multi-feature redundancy within the feature subset.Then,the two before-mentioned redundancy measure are used to evaluate and analyze the redundancy of each five target echo classification feature set and the total features.And the redundancy situation between them is made clear,which provides important information for the selection and combination of the target echo classification feature set.

echo feature;feature redundancy;correlation coefficient;covariance matrix

TP192.4

A

1672-7649(2011)12-0085-04

10.3404/j.issn.1672-7649.2011.12.020

2011-01-17;

2011-03-08

张风珍(1984-),男,硕士研究生,从事水声信号处理与目标识别研究。

book=1,ebook=92

猜你喜欢

协方差特征值度量
鲍文慧《度量空间之一》
利用LMedS算法与特征值法的点云平面拟合方法
单圈图关联矩阵的特征值
迭代方法计算矩阵特征值
代数群上由模糊(拟)伪度量诱导的拓扑
突出知识本质 关注知识结构提升思维能力
高效秩-μ更新自动协方差矩阵自适应演化策略
度 量
基于子集重采样的高维资产组合的构建
用于检验散斑协方差矩阵估计性能的白化度评价方法