一种改进模糊C均值聚类的电离层杂波分类方法
2021-04-30周建宇位寅生许荣庆
周建宇,位寅生,许荣庆
(哈尔滨工业大学 电子与信息工程学院,黑龙江 哈尔滨 150001)
高频地波超视距雷达是我国重要的海洋状态监测雷达与海洋预警雷达,其工作所在的高频波段(3~30 MHz)具有探测距离远、反隐身、可全天候全时段工作的优势[1]。鉴于高频波段日益复杂的电磁环境,雷达的回波信号往往会被多种杂波和干扰所影响,这些杂波与干扰的存在极大地降低了目标的被检测概率,限制了高频地波雷达的探测性能。特别是电离层杂波,它是雷达发射信号到达高空中的电离层时,受电离层的复杂调制与反射后被雷达接收机接收所形成[2-3],其具有特性复杂多变且全天时、全天候存在的特点,是制约高频地波雷达探测性能的最主要因素[4]。在面对复杂多变的电离层杂波时,目前尚不存在一种有效的杂波抑制算法,可以适用于处理全部种类的电离层杂波。针对不同种类的电离层杂波使用不同的杂波抑制算法,是当前一种有效的电离层杂波抑制方案[5],而如何将电离层杂波进行合理的分类,使得每种类型的电离层杂波均可匹配到有效的杂波抑制算法,则成为了电离层杂波处理过程中的重点研究内容之一。
在高频地波雷达的电离层杂波分类研究中,加拿大的CHAN[6]通过对电离层杂波的传播路径的分析,结合实测数据对电离层杂波进行了分类;但由于电离层存在时变与非均匀的特性,相同回波路径的杂波同样存在不同的杂波特性,其分类结果难以和杂波抑制算法相匹配。田文龙[7]在其研究中提出以电离层杂波在距离多普勒(Range-Doppler,RD) 谱中所呈现的形态进行分类,仅利用杂波的功率特性进行识别,导致其分类结果中其他物理特性不统一,难以获取同质的杂波样本。LI等[8]通过构建卷积神经网络(Convolutional Neural Networks,CNN)完成了对高频地波雷达回波数据的分类,研究中使用遗传算法从多维特征库中选取出适用于杂波分类的回波特征,同时利用人工标注的方式获取部分有监督的样本进行网络训练,完成了对雷达回波信号中目标、海杂波、弱电离层杂波与强电离层杂波的分类识别。由于其在电离层杂波的分类过程中,仅使用了功率特征进行强弱电离层杂波分类,导致分类结果物理意义不明确,无法对杂波抑制算法起到辅助作用。此外,由于该方法依赖人工标注监督样本,因此存在监督样本难以获取、样本标注误差、样本数不足等问题[9],进而使得算法容易产生过拟合、模型泛化能力差、分类精度下降。位寅生等[5]在其研究中提出利用有限的监督样本采用k均值聚类的方法对电离层杂波进行半监督聚类,其方法可以有效减少对监督样本数量的依赖,但该方法是在杂波的特征空间中进行的,缺乏对杂波空间邻域信息的考虑,其聚类结果在距离多普勒谱中会呈现出“离散化”的形态,同一距离门中具有多种电离层杂波类型且同一类型杂波样本分散在不同多普勒分辨单元中,这将使后续的电离层杂波抑制方法难以选取,增加电离层杂波的抑制难度。
通过对电离层杂波的成因与特征的分析,笔者提出了一种改进的模糊C均值聚类电离层杂波分类方法。在传统模糊C均值聚类方法的基础上,利用专家知识构建典型的电离层杂波类型作为初始聚类中心,结合电离层杂波的邻域空间信息进行算法改进,从而提升电离层杂波分类准确率并降低聚类后电离层杂波在距离多普勒谱中的离散化。经过仿真与实测数据分析,该方法在不降低聚类性能的情况下,具有更符合实际物理意义的聚类结果,并具有更高的分类精度。
1 电离层杂波监督样本集
电离层杂波是由雷达所发射的高频信号到达高空中的电离层时,受电离层中不规则等离子体的复杂调制与反射后被雷达接收机接收所形成[10-13]的。这种复杂而又随机的调制会引起回波信号的波前相位扰动与脉间相位扰动,使得回波信号在空间谱与多普勒谱上产生展宽[14]。电离层的复杂多变使得电离层杂波种类多样,特性不同,通过提取电离层杂波的功率特征[15-16]、图像小波尺度特征[17]、方向性特征[18]、空域同质性特征[19]和距离域平稳性特征[20]构建电离层杂波的特征空间,对电离层杂波进行分析。
通过对实测数据中电离层杂波的分析,结合杂波特征空间特性,按照样本密度最大化原作,笔者提出了构建5种典型的电离层杂波样本作为监督样本集,其杂波特性如表1所示。
表1 典型电离层杂波监督样本特性
表1中,能量聚集型强方向性杂波往往出现在偶发E层与F层中,它是由电离层中粒子浓度较大且运动较为剧烈的不规则体对高频雷达信号的反射所形成的,其在距离多普勒谱中表现为聚集的形态且功率较强,样本方向性集中且具有同质的空域分布,在距离域上相关性较强;点状电离层杂波一般是由扩展E层或F层反射所形成的,其在距离多普勒谱中呈现出集中分布的点状并具有较强的功率,往往占据多个距离单元与几乎全部的多普勒单元,样本方向性分散且空域分布不统一,在距离上相关性较弱;空域同分布杂波在距离多普勒谱中表现为分布在较高多普勒频率处的分散的片状杂波,往往占据多个距离单元与多普勒单元,样本方向性虽然分散,但在空域的分布上是统一的,在距离上的相关性较弱,一般是由电子浓度变化较快的E层或F层反射所形成的;距离域相关杂波在距离多普勒谱中表现为分布在零多普勒频率附近的团状杂波,往往占据多个距离单元与多普勒单元,样本方向性分散且空域分布不统一,其在距离域上的相关性较强,一般是由电子浓度变化较慢的E层或F层反射所形成的;类目标杂波是一种与目标特性相似的杂波,这类杂波在距离多普勒谱中功率分布较为分散,由于杂波的方向性较为集中且功率较强,因此在空域对消算法处理的过程中会消耗大量的算法自由度,造成杂波抑制算法性能下降。图1给出了典型杂波的示意图。
(a) 功率集中型强方向性杂波 (b) 点状电离层杂波 (c) 空域同分布杂波
2 改进的电离层杂波的分类方法
2.1 基于模糊C均值聚类的电离层杂波分类方法
(1)
其中,
(2)
μij是第j个样本对于第i类的隶属度函数,vi是第i类的聚类中心,k是类别数目,N为样本总数,b为控制聚类结果模糊程度的常数。当b=1时,算法将成为确定性聚类划分的C均值算法。利用拉格朗日乘数法可以计算出隶属度函数与聚类中心的迭代公式:
(3)
(4)
由于文中所提出的电离层杂波特征属性的定义域为一种抽象概念,无法通过计算两个特征向量之间的欧氏距离的方式衡量两个样本的特征差异,因此使用值差分度量[21]计算样本间距离dij。定义属性u上的两个离散值a与b之间的距离为
(5)
其中,mu,a为属性u上取值为a的样本数,mu,a,i为第i个样本簇中在属性u上取值为a的样本数。两个电离层杂波样本xi与xj之间的距离dij可以表示为
(6)
2.2 改进的模糊C均值聚类的电离层杂波分类方法
在基于模糊C均值聚类的电离层杂波分类方法中,由于聚类是在杂波的特征空间中进行的,缺乏对杂波所处空间位置的考虑,其聚类结果在距离多普勒谱中会呈现出“离散化”的形态,即同一距离门中具有多种电离层杂波类型且同一类型杂波样本分散在不同多普勒分辨单元中,这不利于后续的杂波抑制方法匹配与训练样本选取,进而降低杂波抑制方法的性能。通过对大量实测数据的统计分析,电离层杂波往往是区域性呈现在距离多普勒谱中,相邻的距离与多普勒分辨单元的电离层杂波的杂波特性一般是相近的,可以划分为同一杂波类型,因此在杂波特征空间的聚类过程中额外引入杂波的邻域空间约束,可以有效地降低聚类在距离多普勒谱中“离散化”的问题。将邻域信息引入到式(1)中的最小化准则函数中:
(7)
依照拉格朗日乘数法可以计算出改进的隶属度函数与聚类中心的迭代公式:
(8)
(9)
图2 邻域选取示意图
通过迭代计算,当算法收敛到一定阈值时终止迭代。依照隶属度矩阵和聚类中心,确定电离层杂波所属分类。算法的处理流程可以总结如下:
步骤1 初始化模糊因子b、迭代终止条件ε和最大迭代次数T,设定聚类数目k。
步骤2 利用典型电离层杂波监督样本集设定初始的电离层杂波聚类中心V0,并初始化样本标签值。
步骤3 根据式(8)与式(9)计算改进的隶属度函数μij与聚类中心vi。
步骤4 重复步骤3,直到前后两次迭代的隶属度函数误差小于迭代终止条件ε,或迭代次数大于最大迭代次数T。
步骤5 对得到的最优隶属度矩阵U进行去模糊化处理,得到电离层杂波的分类结果。
3 实验与结果分析
考虑到在实际数据处理中,无法获取到电离层杂波的准确分类结果用以判断电离层杂波分类算法的准确率,为衡量电离层杂波的分类性能,采用计算分类内部指标的形式来评价电离层杂波分类结果。
分类适确性指标是一种描述样本聚类性能的参数,又称为戴维森堡丁指数(Davies-Bouldin Index,DBI)[22]。对于电离层杂波的簇划分结果C,其DBI指数为
(10)
其中,
(11)
dcen(Ci,Cj)=dist(μi,μj) ,
(12)
dist(•)为不同样本间的距离,dcen(•)为两个不同簇之间聚类中心的距离,davg(•)为簇内样本的平均距离。DBI指数越小,类内样本聚集性越好,类与类之间的区分性越高,聚类性能越好。
仿真实验的参数如下:电离层杂波样本个数为40 000个,分布在200个距离分辨单元与200个多普勒分辨单元所组成的距离多普勒谱中,样本分为5种类型且不同种类的样本在距离多普勒中呈现聚集状态。分别随机替换总样本数量5%、7%和10%的样本特征子空间,以模拟电离层杂波的时变、非平稳、非均匀性,每个替换样本的特征子空间均为随机生成。算法选取的样本特性个数为5,聚类簇数k为6个簇,算法最大迭代次数为1 000次,邻域半径r=2,模糊度常数b=2,算法选取5种典型电离层杂波样本与1种不具有任何笔者所提出特征的杂波样本构成初始聚类中心。这里对比了基于模糊C均值聚类的电离层杂波分类方法(Fuzzy C-Means,FCM)与笔者提出的改进方法的聚类性能。图3给出了不同算法处理后各类别电离层杂波在距离-多普勒谱中的分布情况。
对比图3中的处理结果,在模糊C均值算法分类中,由于分类是在样本的特征空间中进行的,在分类过程中仅将特征相近的杂波样本划分为同一类别,缺乏对杂波空间邻域信息的考虑,其聚类结果在距离多普勒谱中会呈现出“离散化”的形态,同一距离门中具有多种电离层杂波类型且同一类型杂波样本分散在不同距离多普勒分辨单元中,这将使后续的电离层杂波抑制方法难以选取,增加电离层杂波的抑制难度。笔者提出的方法中,加入了对电离层杂波空间邻域信息的约束,可以有效地提升分类后电离层杂波类型在多普勒距离空间上的连续性,有利于电离层杂波抑制算法的匹配处理与训练样本的选取。表2给出了两种电离层杂波分类方法的性能对比。
(a) FCM分类后的RD谱(5%样本替换) (b) 文中方法分类后的RD谱(5%样本替换) (c) FCM分类后的RD谱(7%样本替换)
表2 算法分类性能对比
从表2中可以看出,随着替换样本数量的增加,电离层杂波的非均匀性逐渐增强,模糊C均值算法的分类准确率逐渐下降且下降速度较快,而文中算法的分类准确率略有下降但始终保持在99%以上。对比两种算法的DBI系数,在相同替换样本数量的情况下,两种方法的DBI系数相近。由于引入了电离层杂波的空间邻域信息,为确保电离层杂波在多普勒距离谱上的连通性,降低了特征空间对分类结果的权重,因此文中算法在特征空间上的DBI系数要略高于模糊C均值算法的,即在特征空间上文中算法的聚类性能要略低于模糊C均值算法。
为进一步验证笔者所提出方法的分类性能,这里采用高频地波雷达的实测数据进行电离层杂波分类,并计算其聚类有效性。实验的具体参数如下:天线阵列为均匀分布的线阵,雷达载频为5.9 MHz,波束指向θ=-9°,杂波的样本个数为27 642,聚类簇数k为6,构成杂波特征空间的特征个数为5,邻域半径r=2,模糊度常数b=2,算法使用典型电离层杂波数据作为初始聚类中心,算法最大迭代次数为1 000次。图4(a)中给出了实测数据的距离-多普勒谱,可以看出在50距离门以上区域,电离层杂波覆盖了大量的距离-多普勒谱,目标很容易被湮没其中,电离层杂波的存在极大地影响了雷达的目标检测。
(a) 实测数据RD谱 (b) FCM方法分类结果 (c) 文中方法
图4给出了实测数据经过分类后不同种类杂波在多普勒距离谱中的分布情况。可以看出,两种方法都能够完成对电离层杂波的分类识别。模糊C均值方法的分类结果在距离多普勒谱中呈现出离散化的形态,在杂波区域缺乏连通性。在空域同分布杂波区域中,内部存在孤立的被分类为类目标杂波样本,边缘处存在部分被分类为距离域相关杂波样本,分类结果明显与实际情况不相符。由于引入了电离层杂波的邻域空间信息,笔者提出算法的分类结果符合相邻分辨单元的杂波具有相似性这一理论,算法的分类准确率要高于模糊C均值方法。分别计算两种算法聚类性能,模糊C均值方法的DBI系数为0.832 4,笔者提出的方法DBI系数为0.843 1,两者聚类性能相近。在不降低聚类性能的情况下,笔者提出的算法具有更符合实际物理意义的聚类结果,并具有更高的分类精度。
4 总 结
通过对电离层杂波的特征分析,指出了基于模糊C均值聚类的电离层杂波分类方法的聚类结果在距离多普勒谱中会呈现出离散化的问题,并在其基础上提出了一种改进的模糊C均值聚类电离层杂波分类方法。通过引入电离层杂波的邻域空间约束,使相邻分辨单元的电离层杂波具有相同的杂波类别,降低了聚类后电离层杂波在距离多普勒谱中的离散化。经过仿真与实测数据分析表明,该方法在不降低聚类性能的情况下,具有更符合实际物理意义的聚类结果并具有更高的分类精度。