系统效能评估中仿真指标数据异常值检测方法研究
2013-11-10焦秀珍
焦秀珍
(电子科学研究院,北京 100041)
0 引言
目前实现效能评估的常用方法主要有专家评定法、试验统计法、作战模拟法、ADC分析法、指数法、系统效能分析法(SEA)及分布交互仿真等方法[1]。其中分布交互仿真的评估方法是获取效能评估结果的有效途径和最可信的效能评估方法[2],也是适用于大型综合电子信息系统综合评估的有效方法。分布交互仿真评估方法的基本流程是通过构建仿真试验系统拟制试验方案或战术想定,确定论证系统效能的评估指标,进行大量的专项或综合的仿真试验来获得系统效能评估结果。
然而通过分析基于仿真试验系统进行系统效能评估的流程发现,影响评估结果的可信度和准确性主要有两个方面,一是评估指标的评估模型;二是仿真试验数据的准确性。评估指标主要指系统某一个或某几个方面固有能力的体现,通过理论研究和专家经验能够得到可靠、准确的效能指标评估模型。然而评估指标需要的数据是通过信息流程复杂的、大量的仿真试验模型构建的仿真试验系统中采集得到的仿真试验数据。由于仿真模型的随机误差叠加或者是人为因素干扰会造成异常跳变点,引起仿真数据的不真实值,造成评估指标计算结果与真实值的偏离。因此仿真试验数据必须要经过数据预处理,剔除异常值后得到更接近于真实值的数据输入到评估模型中,这样计算得到的评估结果才能正确反映系统的效能。所以将异常值检测方法引入系统效能评估中是一项值得关注和研究的内容。
1 异常值检测方法
随着数据挖掘技术的发展和KDD知识发现领域的研究,异常值检测已成为数据挖掘中研究的热点内容,并在商业和银行、防止信用卡诈骗、医疗保险等领域得到了广泛的应用,但是在效能评估领域中应用还比较少。
早在1980年,D.Hawkins给出了异常值本质的定义:异常值是指数据集中常常存在一些数据对象,他们不符合数据的一般模型,即与数据的其他部分不同或不一致,使人怀疑这些数据并非产生于非随机偏差,而产生于完全不同的机制[3]。异常值有可能是人为错误或者是机器错误造成的噪声数据,对于这些数据要进行处理,以免影响数据挖掘的结果。但是对于某些异常值,可能包含着事物真实的而且没有被发现的信息,这样就要对其进行分析,找到蕴含的知识,解决问题,这对于研究和应用都有很高的实用价值和意义。因此从异常值处理的辨证关系来看,清除异常值能够提高系统效能指标评估结果的准确性,辨别和分析异常值发生的原因能够修正仿真试验系统潜在的问题。
目前异常值检测方法主要有:基于统计模型的方法、基于距离的方法、基于密度的方法及聚类等方法[4]。现将异常值检测方法的典型算法和各自的优缺点及异常值检测算法的适用性总结,见表1。
表1 时域中异常值检测方法和特点
通过对异常值检测方法的分析,基于距离的异常值检测方法更适用于单维属性的系统效能指标数据的预处理[5]。以某型武器装备仿真试验系统为例通过仿真运行得到的试验数据项属性大都是在时间上彼此相关的单维数据序列,而且仿真数据的主要特征是在其标准值附近波动,因此比较适合采用基于距离和的异常值检测方法进行处理。本文将采用某型武器装备仿真试验系统的典型效能评估指标异常值处理过程为例介绍基于距离和检测异常值的方法。
2 基于距离和的异常值检测方法
基于距离和的异常值检测方法核心思想是计算每个数据点在该系列数据集内所占的距离比重,若距离比重越大就说明偏离数据集的期望中值就越远,标记为异常值;若距离比重越接近数据集的期望中值,则表示越接近真实值。将异常值定义如下:计算数据集中对象两两之间的距离,累计每个对象与其他对象的距离和,设用户期望的异常值个数为M,则距离之和最大的M个对象即为异常值。
最常用的距离计算公式是绝对距离和欧氏距离。绝对距离定义为
欧氏距离的计算公式为
这两个距离可统一为明考斯基距离计算公式为
对原始数据集{y1,y2,…yn}进行标准化后,计算n个对象两两之间的距离di,j,得到距离矩阵R
通过算法标识的异常值要进行剔除才能获得干净的数据集,然而剔除异常值后数据集中存在数据点缺失的问题,因此需要将剔除的异常值替换为较为合理的数据。一般采用的方法是将异常值替换为剔除异常值后数据集的均值或替换为异常值邻域内的均值(邻域大小可由用户选择)。
3 异常值检测方法的应用
以某型武器装备仿真试验系统的信息精度指标异常值检测过程为例,说明基于距离和的异常值检测方法在仿真试验系统指标评估中的有效应用。建立信息精度的评估模型为
采用距离公式对真实信息数据和经过模型算法处理后报送的预测数据进行计算,是系统仿真模型融合处理后报送的预测数据,(x,y,z)是仿真目标模型报送的真实信息数据。
选择某次试验样本中信息精度参数,共896条记录,采样率为10 s为例说明该方法。信息精度估计的实际数据如图1所示,其中存在两段连续的明显偏离数据集的程度较大的数据。
图1 信息估计精度数据示意图
通过基于距离和的异常值检测方法,检测896条记录共耗时625 ms。当调节系数为1.5时,检测结果如图2所示,能够检测出在91~109 s、200~219 s和387~406 s三个时间段内持续波动的异常值情况;当调节系数为4时检测结果如图3所示,能够检测出200~219 s和387~406 s两个时间段内持续波动的异常值情况。由此看出,通过调节阈值大小可获得不同偏离程度的异常值,提供给用户分析和辨别异常值,从而满足用户不同的数据预处理需求。
图2 调节系数=1.5时异常值检测结果
图3 调节系数=4时异常值检测结果
以图2和图3的检测结果为例进行分析,当调节系数为1.5时,可以看到在80~120 s时间段内的数据值被标记为异常值。通过仿真试验人员分析,由于某型装备仿真模型的探测距离和属性参数设置原因,在系统仿真运行2分钟之前仿真模型的信息探测精度不高,经融合算法处理后报送的信息误差较大。因此当调节系数为1.5时检测到被标记为异常值的数据不是真正的异常值,这些被标记为异常值的数据点有可能反映的就是仿真试验系统中存在的某些问题,通过判断检测到的异常值能够辅助仿真试验人员进一步认识和修正仿真试验系统中存在的潜在问题。
利用基于距离和算法在对不同数据项进行异常值检测时,为了能够避免将真实数据标记为异常值的情况,首先要了解各个数据项的特点分析和选取合理的调节系数,其次通过设置多个调节系数选取合理的阈值进行异常值检测,最终将检测结果提供给仿真试验分析人员进行分析辨别。
通过试验人员分析和异常值检测算法结果,选取调节系数为4时的异常值检测结果作为信息估计精度的数据预处理结果。剔除异常值后造成数据集中某些时刻数据值的缺失,本文拟采用检测到的异常值邻域的均值对剔除的异常值进行替换,经过修正异常值后的信息估计精度,如图4所示。
图4 修正后信息精度数据示意图
同样地,基于距离和的异常值检测方法能够应用到仿真试验系统的其他数据项中,选取合理的调节系数能够提供给用户较为准确的异常值检测结果,同时设置不同的调节系数获得的检测结果能够满足用户在不同性能指标评估的预处理需求。
4 结语
从上面的实例可以看出,基于距离和的异常值检测方法在效能指标评估中应用的可行性。基于距离和的异常值检测方法能够快速有效地鉴别各项数据集的异常值,能够剔除的异常值替换为样本均值或是邻域内均值,达到数据预处理的目的,从而提高效能指标评估计算结果的真实性和准确性。
接下来,要进一步研究如何使异常值检测方法更好地与仿真试验系统结合,以及如何满足灵活的仿真试验数据处理需求,并搭建一个仿真试验系统数据预处理软件平台,使其实现从仿真数据到评估样本的转换。
[1]张杰,唐宏,苏凯,等.效能评估方法研究[M].北京:国防工业出版,2009.
[2]董良东,陈晓,曾兴善,等.武器装备体系效能评估方法研究[J].兵工自动化,2008,27(2).
[3]RAMASWAMY S,RASTOGI R,SHIM K.Efficient Algorithms for Minging Outliers from large Data Sets[C]//In:Proceedings of the ACM SIGMOD Conference,2000:473-438.
[4]HAN J,KAMBER M.数据挖掘:概念与技术[M].北京:机械工业出版社,2000:251-303.
[5]KNORR E M,NG R T,TUCAKOV V.Distance-Based Outliers:Algorithms and Application[J].VLDB Journal:Very Large Databases,2000:237-253.