样本不平衡下的海杂波弱目标分类研究
2021-09-29时艳玲刘子鹏贾邦玲
时艳玲 刘子鹏 贾邦玲
(南京邮电大学通信与信息工程学院, 江苏南京 210003)
1 引言
海杂波中小目标分类问题一直以来都是国内外研究的热点与难点。海杂波具有的非高斯、非线性和非平稳特性,使得实际海杂波偏离假设的统计模型分布,从而造成了恒虚警检测器性能严重下降[1-4]。随着机器学习技术的发展,越来越多的学者结合改进的机器学习算法对海杂波和目标进行智能化处理和研究。其中,机器学习方法在杂波分类以及海杂波抑制[5-10]方面得到了较为成功的应用。行鸿彦等人通过遗传算法优化支持向量机中的惩罚系数和核函数参数,并结合支持向量机建立混沌序列的单步预测模型,提高了目标的分类识别性能[11]。徐雅楠等人利用CNN在一维雷达回波信号中进行海杂波与噪声分类的可行性,并同步分析了数据预处理、单个样本序列长度、网络结构参数等影响因素对分类准确率的影响,其所提出的LeNet卷积神经网络在海面小目标分类方面,具有很高的分类准确率[12]。然而在海杂波和目标的分类研究中,通常情况下,海杂波样本数目远大于目标样本的数目,一般的分类方法难以处理这种样本不平衡的情况。提取合适的特征以及采取行之有效的分类方法依旧是现今分类研究中的难题。
由此,本文提出了一种新的海面小目标分类方法。首先,本文从极化域提取特征,由对目标散射特性的研究表明,小目标的主要散射成分是球面散射和双平面散射以及螺旋散射,而杂波的散射机理是多种多样的,并受海况的影响[13-14]。因此,本文借鉴了文献[15]所提取的Krogager极化分解提取球体、双平面散射和螺旋散射分量的归一化相对功率[15]。然后从时域提取相对平均幅度特征[16],从频域提取非广延熵特征[17]。为了解决杂波和目标样本不平衡以及特征混叠的问题,本文提出了一种K-means和SVM相结合的方法来进行杂波特征和目标特征的分类。首先将大量的海杂波样本细分为小规模的不同种类的海杂波样本,弱化杂波样本和目标样本之间的数量不平衡问题,有效减少目标和杂波的混叠造成的影响,然后再使用支持向量机来进行多分类,从而达到精确分类的效果。最后,将本文提出的方法与常规的分类方法作对比,发现本文的方法有较为明显的优势。
论文的创新为:第一,从多域提取特征,克服单特征提取时海杂波和目标特征区分性差的难题。第二,设计了一种K均值和SVM结合的分类器,通过将海杂波样本进行K均值动态聚类,将原本属于一类的海杂波样本分成多类,然后再将多类海杂波样本与目标样本进行SVM分类,解决因海杂波特征的样本数目远大于目标样本数目以及海杂波特征的局部聚集性而造成的样本不平衡和特征混叠的问题。
论文的结构安排如下:第2节,简单介绍多域特征的提取方法;第3节,设计一种K均值和支持向量机(SVM)结合的分类算法;第4节,根据实测数据对算法进行验证并与其他算法对比,第5节,总结了全文。
2 极化特征提取
假设雷达天线的接收回波经混频、中频采样、脉压后获得N维脉冲信号为xc=[xc(1),…,xc(n),…,xc(N)],其中,下标c={HH,VV,HV,VH},c{1}={HH},c{2}={VV},c{3}={HV},c{4}={VH},表示四种极化方式。在特征提取的过程中需要利用待检测单元样本和参考单元样本,我们把待检测单元样本记为:xc,ς=[xc,ς(1),…,xc,ς(n),…,xc,ς(N)],将参考单元样本记为:xc,i=[xc,i(1),…,xc,i(n),…,xc,i(N)],ς表示待检测单元,i=1,2,...,I表示参考单元。雷达回波示意图如图1所示。
图1 雷达回波数据示意图Fig.1 Schematic of radar echo data
为了便于后文对海杂波和目标进行分类研究,我们首先提取海杂波与目标在多域的差异性特征,包括相对散射功率特征、相对平均幅度特征和非广延熵特征,下面将具体说明。
2.1 相对散射功率特征提取
Krogager分解是一种典型的基于复杂辛克莱矩阵的相干分解方法。Krogager分解的核心是三个相干分量分别对应于球体(相当于平板和三面体)、双平面和螺旋在旋转角度变化下的散射。设xc,ς=[xc,ς(1),…,xc,ς(n),…,xc,ς(N)]为待检测单元的N维时间序列,可得待检测单元的极化分解公式如下:
(1)
其中,j是虚单位,根据上式,可以得到如下三个系数:
(2)
ks,ς、kd,ς和kh,ς反映了待检测单元回波的极化散射矩阵中球体、双平面和螺旋散射的比例。依据公式(1)和(2),我们也可以得到参考单元回波的极化散射矩阵中球体、双平面和螺旋散射的比例,即ks,i、kd,i和kh,i。基于这六个实系数,可以得到这三种散射体在回波中的归一化散射功率如下:
(3)
其中,i=1,…,I,I是参考距离单元的总数。在此三种归一化散射功率的基础上,由于对小目标散射特性的未知性,无法确定哪种散射功率占优,故本文将这三种归一化散射功率取平均,提出一个均值归一化散射功率(Average Power, AP),计算方式如下:
(4)
2.2 相对平均幅度特征提取
相对平均幅度(Relative Average Amplitude, RAA)特征是从时域提取的区分回波强度大小的特征。脉冲长度为N的待检测单元回波xc,ς(n),其平均幅度的定义如下:
(5)
(6)
其中,I是参考距离单元的总数。
对于全极化信道回波数据,为了匹配多极化分解特征,本文将四种极化方式下相对平均幅度取平均运算,于是将平均RAA(Average Relative Average Amplitude, ARAA)定义为提取的特征:
(7)
其中,c表示雷达回波的极化方式。
2.3 非广延熵特征提取
非广延熵(Tsallis Entropy, TE)是香农熵的变形,通过设定非广延参数q来调整系统的非线性动力学特征的反映情况。脉冲长度为N的待检测单元回波xc,ς(n),其多普勒谱概率密度函数可以表示为pγ,c,ς
(8)
其中,X(γ)是x(n)的快速傅里叶变换,
(9)
则TE的Sc,ς的定义如下:
(10)
其中,非广延参数q是基于多普勒谱的Tsallis熵的阶数。
对于全极化信道回波数据,同样我们将四种极化方式下非广延熵取平均运算,本文将平均TE(Average Tsallis Entropy,ATE)定义为提取的特征:
(11)
故本文提出的特征向量为:
g=[θAP,θARAA,θATE]T
(12)
构成了三维特征空间,其中,上标T表示转置。
3 聚类-分类算法
针对本文所提出的特征及其分布情况,体现出如下两个问题:第一,海杂波和目标在此三个维度的分布并不是非常聚集的,尤其是目标特征的分布。杂波特征在三维空间的分布较聚集,目标特征在三维空间的分布较为分散,于是,目标和杂波在三维空间的区分度较差。第二,本文得到的海杂波样本数目要远大于目标样本(10倍以上),且仅针对杂波特征样本,又存在着比较显著的特征值和聚集度的差异,有些特征值较大,有些特征值较小,有些特征样本比较集中,有些特征样本较为分散。这些杂波特征样本之间的差异性,则造成了分类结果的偏差性。
针对上述两个主要的问题,又结合海杂波具有遍历性、目标具有非遍历性这一特征,本文将大量的海杂波样本细分为小规模的不同种类的海杂波样本,从而使得杂波与目标之间的样本不平衡得到弱化,然后本文使用支持向量机来进行多分类,这样又可以使目标和杂波样本在局部分类上得到改善。
3.1 K-means聚类
针对海杂波特征样本的分布情况,本文采用K-means聚类算法将海杂波样本分成多个不同簇的杂波样本。采用K-means聚类算法可以使得簇内的杂波样本的相似度极高,而不同簇间的杂波样本相似度低,这样相似度高的样本聚为一类,提升了类与类之间的差异性,便于进行后续的分类。同时,K-means算法简单快速,可收缩性好,具有高效性。
三维特征空间中的m个样本gm,m=1,2,…,M构成了特征矩阵G,其维数为3×M,记为,
G=[g1,g2,…,gm,…,gM]
(13)
K-means算法是三维特征的聚类,采取欧式距离计算样本之间的距离,距离公式如下:
d(gm1,gm2)=||gm1-gm2||2
(14)
其中,m1=1,2,…,M,m2=1,2,…,M。距离越小,两样本属于同一类的可能性就越高。根据此公式,计算出每一个样本与各个簇中心的距离。
3.2 SVM算法简介
SVM是一种基于统计学理论的分类方法,随着理论基础的完善,它在小样本、非线性高维度等数据处理方面应用广泛。它的主要思想是通过类别的最大间隔化,使得分隔具有最大的可信度,并且对未知样本具有较强的泛化能力,算法可以转化为一个求解凸二次规划问题,通过求解局部最优点,得到最佳的支持向量,核函数的使用巧妙避免了数据非线性的问题。对于线性不可分的情况,SVM的主要思想是将输入向量映射到一个高维的特征向量空间,并在该特征空间中构造最优分类面。将g作非线性映射φ:Rn→H,H为高维特征空间,则有:
g→φ(g)=(φ(g1),φ(g2),…,φ(gM))T
(15)
则可以得到最优分类函数为:
(16)
其中,gm,m=1,2,…,M为输入样本,ym∈{+1,-1}为两类数据的类别值,αm>0为 Lagrange系数,b为超平面截距。
3.3 K-means-SVM算法流程
根据上一节,分析了海杂波特征样本的可分性,下面本文结合K-means算法与支持向量机对本文所提出的目标和杂波的特征进行分类。具体步骤如下:
第1步设定训练集和测试集。从杂波样本和目标样本中各随机选取一半作为训练集,剩下的一半作为测试集。
第2步将训练集中的杂波样本进行K-means聚类,聚类的簇数为K(实验中本文设K=3),获得各个样本簇{Ck},k=1,…,K,簇的中心tk,k=1,…,K。将聚类后的杂波样本集与目标样本{T}进行一一组合得到多个训练集Train1={C1,T},Train2={C2,T},…, TrainK={CK,T},并设置训练集的标签。
第3步对训练集采用SVM进行训练,获得训练模型{Model1},{Model2},…, {ModelK}。
第5步利用训练所得的模型进行测试,并统计分类的各项指标。
具体流程图如图2所示。
图2 K-means聚类结合SVM分类流程图Fig.2 The flow chart of K-means cluster combined with SVM classifier
4 实验结果验证
本文采用IPIX雷达数据库驻留模式下的4组实测雷达数据[18],其数据说明见表1。其中,该4组数据每组由14个相邻距离单元组成,距离分辨率为15 m,每个距离单元采样点数为131 072(即131.072 s),目标是用金属丝网包裹、直径约1 m的聚苯乙烯泡沫塑料球。目标所在的距离单元称为目标单元,目标单元周围的两个或三个单元受漂浮目标的影响,称为受影响单元,其他距离单元称为杂波单元或者参考单元。
表1 IPIX雷达数据
图3所示为1号数据的HH极化下的幅度图,第9个距离单元为目标所在单元,第8、10、11单元为受影响单元,其余单元为杂波单元。每个距离单元的长度为131.072 s。
图3 1号数据HH极化幅度图Fig.3 The HH polarization amplitude diagram of No.1 data
4.1 特征可行性及可视化
本文首先给出1号(#17)数据提取的三种特征分布结果,以验证纯杂波和目标的AP、ARAA和ATE三个特征的可分离性。观测时间设置为0.128 s,即N=128,每个数据集分为1024段。实验在有目标单元(第9个距离单元)和无目标单元(第1个距离单元)分别运行了1000次,特征分布图如图4所示。
图4 特征归一化后的箱线图Fig.4 The boxplot of the normalized features
图4是目标和杂波三种特征分布的箱线图,其中斜线框表示25%~75%的特征聚集区,1.5IQR表示四分位差的1.5倍,水平直线表示特征分布的水平线,黑点表示特征分布的均值。由图4可知,目标单元的AP和ARAA平均值都大于杂波单元的平均值。而目标的ATE的平均值小于杂波单元的平均值。在这三种特征中,杂波特征偏离平均值的程度要远小于目标偏离平均值的程度,说明杂波特征的聚集性更好,目标特征的聚集性较分散。图4中,目标和杂波特征的中位数也存在着较大的差异。所以,可以借助特征均值、特征聚集性和特征的中位数来区分目标与杂波。
图5给出了纯海杂波和目标之间的三个特征的归一化三维分布图。从图中可以看出,杂波特征主要分布在三维空间的上方,而目标特征松散地分布在三维空间中间和下方,这说明本文所提出的特征能够比较显著地描绘纯海杂波和目标之间的差异。
图5 杂波和目标的归一化特征三维分布图Fig.5 Three-dimensional distribution of normalized features of clutter and target
4.2 K均值算法验证
基于K-means算法,针对图5所示的海杂波在三维空间的分布,本文对所提取的杂波特征样本集进行聚类,聚类的杂波簇个数K并不是越小越好,需要兼顾杂波簇自身的聚集性。若K值过大则使得某些杂波簇的样本数目过少甚至仅有数十个,不利于后续分类,而K过小又会使某些杂波簇的样本数目过大,达不到弱化杂波样本和目标样本之间的数量不平衡问题的效果,从而导致分类偏差。所以在综合考虑和大量实验下,本文将簇个数K设置为3。1号数据的杂波聚类结果如下图6所示。
图6 杂波簇的分布情况Fig.6 The distribution of each cluster of clutter
由图6可知,杂波样本集共分为3个簇,簇间的差异比较明显,杂波簇1非常集中,其整体特征值集中在特征空间左上角附近,大量的样本都被聚类到杂波簇1中,杂波簇2相对均匀的分布在空间内,杂波簇3则非常松散的分布在较大的空间上,少量的样本被聚类到杂波簇3中。由此可以看出,本文所采用的K-means算法能卓有成效对海杂波进行聚类。
4.3 分类性能分析
本文通过在IPIX的4组数据集上展示数值结果来演示本文的检测方法的性能。每个特征单元的观测时间设置为0.128 s,即每个特征单元内的脉冲数为128个,每个距离单元采样量为1024,每组数据的杂波样本总数为10240,目标样本总数为1024。实验参数设置聚类簇数K=3,利用MATLAB工具箱libsvm[19]进行训练和分类。
利用本文提取的特征,本文又进行了几种分类算法的对比实验。为了衡量分类效果,本文设置了几个评价标准:正确率、虚警率、精确率、召回率以及F1测度,其定义为
(17)
F1测度主要从精确率和召回率上衡量分类效果,当精确率与召回率都为1时,F1测度为1。F1测度的值越近1,分类效果越好。
本文采用逻辑回归[20](Logistic Regression, LR)、CART(Classification and Regression Trees, CART)和SVM作为对比算法,其中:
CART中采用GINI系数作为节点的分裂属性[21],其公式如下:
(18)
其中,pk是某一样本集中样本属于类Ck的概率。
表2 1号数据4种分类算法的对比
表3 2号数据4种分类算法的对比
表4 3号数据4种分类算法的对比
由表2~表5可以看出,本文所提出的算法有明显优势。虽然在K-means聚类之后,海杂波簇内的样本数目仍然多于目标的样本数目,但是这种削弱样本不平衡的方法一定程度上保留了某些海杂波之间的聚集共性,从实际数据上来看也达到了预期的效果。从召回率和漏警率上来看,本文所提出的方法有明显的优势,这说明相比于其他分类算法,本文所提出的算法中有更少的目标被错判成杂波;结合精确率和召回率的F1测度比其他分类方法存在显著优势,这更说明了本文的方法在预测为目标的类中存在非常少的误判。
表5 4号数据4种分类算法的对比
通常海杂波特征样本数要远大于目标特征样本数,本文所采用的K-means-SVM将大量的海杂波样本细分为小规模的不同种类的海杂波样本,从而使得杂波与目标之间的样本不平衡得到弱化,可以有效使用SVM分类,同时使用多分类可以获得杂波与目标样本之间的多个分类平面,弱化混叠带来的影响。相对于逻辑回归来说,K-means-SVM的分类精度要好,主要原因是逻辑回归主要解决线性可分的问题,难以处理特征之间相关情况,这使得应用到本文所提出的特征空间上分类效果和精度一般。CART中的分类树选取GINI指数作为分裂属性,它可以更好的度量非均匀的分布,由图5可以看出,目标的分布相对于杂波特征的分布而言要更加地松散、不均匀,因此在对比算法中,CART分类得到的召回率要高于其他几种方法,然而在分类的精确率效果要差很多,导致在F1测度上表现很差。SVM在二分类的处理上有着明显的优势,在准确率、精确率以及虚警率上性能很好,但在样本不平衡的情况下,很难处理样本数较少的目标样本,这使得目标样本中存在更多的误判。综上所述,本文所采用的方法在处理海杂波特征空间的分类时具有比较明显的优势。
5 结论
本文针对海杂波和目标的样本非平衡下问题,提出了一种的K-means聚类和SVM分类相结合的海杂波弱目标分类算法。首先通过Krogager分解提取了球体散射、双平面散射和螺旋散射的归一化功率特征,然后从时域提取了相对平均幅度特征,从频域提取了非广延熵特征。接着,将提取的三个特征构造特征矩阵。针对目标特征在三维空间的分散性和目标特征与杂波特征的样本不平衡性,我们提出一种先聚类再分类的方法,实现目标和杂波特征的精确分类。即,先对样本数量多的杂波特征采用K-means进行聚类,将其分成多个不同簇,然后再将已分好的簇与目标特征结合作为训练集来训练模型;针对测试集,我们采用了同样的操作,即将测试集里的杂波特征采用K-means进行聚类,借助训练集的聚类中心作为测试集的初始聚类中心将其分成多个不同簇,所得各簇与目标样本组成多个测试集,最后进入训练好模型的分类检测器。通过实验验证,本文提出的方法有较好的精确率和召回率,在F1测度的表现上好于其他分类算法。最后,提取目标和杂波之间差异明显的特征和改进分类方法以及采取更加优秀的机器学习算法也是本文以后学习和研究的目标。