基于最近邻聚类分析的多站遥测数据融合方法
2016-07-16朱学锋
朱学锋
(中国人民解放军92941部队,辽宁 葫芦岛 125000)
基于最近邻聚类分析的多站遥测数据融合方法
朱学锋
(中国人民解放军92941部队,辽宁 葫芦岛 125000)
摘要:为研究多测站遥测数据智能对接方法,提供高质量全弹道遥测数据,利用多传感器信息融合技术,采用最近邻聚类分析算法实现目标识别级多测站遥测数据融合。以某次试验5个测站的遥测数据为例进行了仿真测试,测试结果表明:该方法能从多个测站中遴选出最优遥测数据帧,经整合重组后实现多测站原始遥测数据融合,有效剔除非正常跟踪遥测数据,提高了数据处理效率和质量。
关键词:遥测数据;聚类分析;最近邻算法;数据融合
飞航式导弹试验的全程遥测数据是由多个陆上和海上测量站、船接力测量完成的。为保证记录到全程遥测数据,通常需要接力测量并在导弹飞行的各个阶段确保有2套以上的测量结果。在对遥测数据事后处理之前,需要对这些原始测量数据进行质量检查,从有冗余的测量数据中,选择记录质量最好的遥测数据重新组合,形成新的全弹道遥测数据。传统的数据处理方法是首先解析各地面接收站记录的遥测数据并提取全部或部分参数,通过观察参数曲线图的记录质量评估原始遥测数据的优劣,并生成各测站遥测数据记录质量检查表,进而建立多站遥测数据对接表。在数据对接表的基础上以对接点时间为基准截取各测站的遥测数据进行对接,并将对接点前后相同的10帧信号进行对比校验。这种方法步骤繁琐,需要较多的人工干预,影响了遥测数据检查的效率和数据对接的质量。文献[1]采用遥测数据的帧同步码和帧计数作为数据融合的基准,忽略了帧时间延迟和帧数据匹配程度的问题,对精细化数据分析会有一定影响。本文提出了一种基于最近邻聚类分析算法实现遥测数据融合的新方法,能够精确、高效地完成多测站遥测数据的子帧数据选优和重组,有效剔除干扰信号,提供高质量的全弹道遥测数据。
1多测站遥测数据的融合结构
多传感器信息融合[3-4]的基本原理就是充分利用多个传感器资源,合理支配与使用各传感器及其观测信息,依据某种准则对各传感器在空间和时间上互补或冗余的信息进行自动分析和优化综合,最大限度地获取被探测目标和环境的信息量,并对探测目标和环境形成相对完整、一致的描述。
遥测数据是由群路数据组成的,帧是群路数据的基本单元,其帧格式如图1所示。图中,N为子帧长度,M为副帧长度,W为波道号。
图1 遥测帧数据格式
原始遥测数据是各测控站实时测控获取的遥测数据流文件,具有图2所示结构[2]。
图2 原始遥测数据结构
按照信息抽象的层次,融合分为检测级、位置级、目标识别级、态势评估和威胁估计等5个级别[3-5]。根据遥测数据的特点,遥测数据的多传感器数据融合可以在目标识别级的数据层融合和特征层融合2个层次上进行。
数据层融合是在原始数据级实现数据融合。首先将各测站接收的遥测数据传输到数据处理中心进行集中式的融合处理,再提取各参数供后期处理和分析评估使用,其融合结构如图3所示。原始数据级融合结构更适合于事后的数据处理。
图3 遥测数据级融合结构
特征层融合是在遥测参数级实现数据融合,首先在接收终端实现参数提取,再将关键参数传输到数据处理中心进行融合处理,具有传输数据量小,时延短的特点,其融合结构如图4所示。参数级融合结构更适合于实时的遥测数据处理。
图4 遥测参数级融合结构
本文以遥测数据级融合结构为基础,研究遥测数据在数据层实现数据融合的方法。
2原始遥测数据融合方法
原始遥测数据融合的关键是各测控站数据的关联。理论上讲,在完成帧同步、时间同步和数据对齐后,各测站子帧数据应该是完全相同的。但是在跟踪测量飞行器过程中,各测站会受到方位、距离、电磁环境等的影响,使接收的遥测数据叠加有干扰信号。遥测数据融合的实质是判别各测站子帧数据是否一致,即相似性度量,从而将完全相异的数据剔除掉,达到数据选优的目的。为此,笔者采用最近邻聚类方法实现遥测数据的融合。
2.1最近邻聚类原理
聚类是对数据对象进行分组,形成多个类或簇,同一个簇中的对象具有较高的相似度,而不同簇中的对象则差别较大。最近邻聚类算法中的相异度主要是基于描述对象的属性值来计算,而距离是计算中经常采用的度量方式。
许多聚类算法都是以相异度矩阵为基础,相异度矩阵是存储K个对象两两之间的邻近性,表现形式是一个K×K维的矩阵。将遥测数据中的子帧数据看作数据向量对象,则t时刻K个测站子帧数据的相异度矩阵[6-8]可表示为
(1)
式中:dij是测站i和测站j 之间的子帧数据相异性的量化表示,通常它是一个非负的数值。当对象i和j越相似,dij值越接近0;2个对象越不同,其值越大。
最常用的距离度量方法是欧几里得距离和曼哈坦距离。考虑到计算效率,本文采用曼哈坦距离公式[7-8],计算如下:
(2)
式中:站位编号i,j=1,2,…,K;N为子帧数据长度。
为了减小度量单位的选择对聚类效果的影响,需要对子帧数据进行标准化处理,使原来的度量值变成无度量单位的值[7]。对子帧数据进行标准化度量,可以作如下变换。
①计算绝对偏差的平均值。
(3)
②计算标准度量值。
(4)
2.2最近邻聚类的实现
在实际应用中,无需计算相异度矩阵,采用最近邻算法实现聚类分析。最近邻聚类是一种最简单的聚类算法[8-9]。根据此算法,首先把第1个站位子帧数据作为第1组的聚类中心。然后,如果1个站位的子帧数据距该聚类中心的距离d小于某个预期值,就把该站位子帧数据放到此组中,即该组的聚类中心是和这个子帧数据最邻近;否则,把该子帧数据设为新的聚类中心。详细的算法如下。
步骤3。令k=k+1,若k≤K,返回步骤2。
2.3融合准则
在飞行器飞行试验过程中,至少要2个测站同时跟踪测量相同区段的遥测数据。因此,在全程弹道中始终至少有2个站位的子帧数据相同。根据这一特点,在最近邻聚类的基础上,设计如下融合准则。
准则3。上述2个准则失效时,调整聚类半径。
3仿真测试
以某次试验5个测站的遥测数据为例,经时码同步、数据对齐、标准化度量变换后,由式(2)获得5个测站的遥测子帧数据相异度矩阵:
由相异度矩阵可以看出:测站1、测站2相异度为0,即数据完全相同。测站3、测站4和测站5都受到了不同程度的噪声干扰。由相异度数值可判断出测站4、测站5的野值要多于测站3的野值。
根据最近邻聚类算法,设聚类半径初始值r=0.1,可以得到聚类分析的结果。
由融合准则1可确定聚类1中存在优选数据,测站1和测站2与聚类中心距离最小,可作为优质数据加以选择。
将全程遥测数据的融合处理结果与各测站遥测数据的处理结果进行对比,可以发现融合数据的野值明显减少,孤立野值的剔除率高于95%,而斑点野值的剔除率不低于85%,数据质量明显改善。实验表明,基于最近邻聚类方法进行数据融合能够有效获得各测站中的最优子帧数据。
在算法使用中,初始参数r的选择是算法正确实施的关键。r过小,在所有测站都有干扰的情况下,会使聚类的数目与测站的数目相同,即每个测站的子帧数据都形成一个聚类,致使算法失效。在实际处理中出现失效时,将聚类半径以2倍递增并重新计算。
4结束语
本文分析了遥测数据处理中数据对接方法存在的问题和弊病,提出了一种新的基于最近邻聚类分析实现遥测原始遥测数据融合的方法,使遥测数据的对接和整合达到子帧数据级别,实现了更精确的遥测数据处理。试验数据的测试和检验表明,该方法能够准确地从多测站遥测数据中遴选出最优的子帧数据,为数据处理提供了全弹道高质量遥测数据,提高了处理效率和质量。
参考文献
[1]刘亚南,陈雷.遥测数据融合软件的设计与实现[J].现代电子技术,2012,35(4):136-138.
LIU Ya-nan,CHEN Lei.Design and implementation of telemetry data fusion software[J].Modern Electronics Technique,2012,35(4):136-138.(in Chinese)
[2]陈以恩.遥测数据处理[M].北京:国防工业出版社,2002:393-397.
CHEN Yi-en.Telemetry data processing[M].Beijing:National Defense Industry Press,2002:393-397(in Chinese)
[3]何友,王国宏.多传感器信息融合及应用[M].第二版.北京:电子工业出版社,2007:2-6.
HE You,WANG Guo-hong.Multisensor Information fusion with applications[M].Second Edition.Beijing:Publishing House of Electronics Industry,2007:2-6.(in Chinese)
[4]宫志华,段鹏伟,岳锐.外弹道多源异类测元数据融合仿真分析[J].弹道学报,2014,26(4):19-23.
GONG Zhi-hua,DUAN Peng-wei,YUE Rui.Simulation of data fussion with multi-source heterogeneous measurement elements[J].Journal of Ballistics,2014,26(4):19-23.(in Chinese)
[5]王慧斌,王建颖.信息系统集成与融合技术及其应用[M].北京:国防工业出版社,2005:219-232.
WANG Hui-bin,WANG Jian-ying.Information system integration and fusion technology and its application[M].Beijing:National Defense Industry Press,2005:219-232.(in Chinese)
[6]岳昆.数据工程[M].北京:清华大学出版社,2013:178-204.
YUE Kun.Data engineering[M].Beijing:Tsinghua University Press,2013:178-204.(in Chinese)
[7]戴剑伟,吴照林.数据工程理论与技术[M].北京:国防工业出版社,2010:208-218.
DAI Jian-wei,WU Zhao-lin.Theory and technology of data engineering[M].Beijing:National Defense Industry Press,2010:208-218.(in Chinese)
[8]HAN J,KAMBER M,PEI J.数据挖掘概念与技术[M].第三版.范明,孟小峰,译.北京:机械工业出版社,2015:44-54.
HAN J,KAMBER M,PEI J.Data mining concepts and techniques[M].Third Edition.FAN Ming,MENG Xiao-feng,translation.Beijing:China Machine Press,2015:44-54.(in Chinese)
[9]王立新.模糊系统与模糊控制教程[M].北京:清华大学出版社,2003:134-164.
WANG Li-xin.A course in fuzzy system & control[M].Beijing:Tsinghua University Press,2003:134-164.(in Chinese)
A Multi-station Telemetry Data Fusion Method Based on the Nearest-neighbor Clustering Analysis
ZHU Xue-feng
(Unit 92941 of PLA,Huludao 125000,China)
Abstract:To study the multi-station telemetry data automated-docking method to provide the high-quality whole-ballistic telemetry data,the multi-sensor information fusion technology was used,and the target recognition level multi-station telemetry data-fusion was realized by adopting nearest-neighbor clustering algorithm.Taking the telemetry data of five stations in an experiment for instance,the simulation was carried out.The tests show that the optimal telemetry data frame can be effectively selected from multiple stations by this method.The multi-station telemetry data fusion can be achieved by the integration and restructuring,and the abnormal tracking telemetry data is effectively eliminated,and the efficiency of data processing and quality can be improved.
Key words:telemetry data;cluster analysis;nearest-neighbor algorithm;data fusion
收稿日期:2015-07-08
作者简介:朱学锋(1969- ),男,高级工程师,工程硕士,研究方向为试验数据工程及遥测数据处理。E-mail:18042909136@163.com。
中图分类号:V557
文献标识码:A
文章编号:1004-499X(2016)02-0093-04