一种INS性能参数重复性离群数据挖掘方法
2014-04-19党宏涛伊国兴王常虹
党宏涛,伊国兴,王常虹
(1.哈尔滨工业大学空间控制与惯性技术研究中心,哈尔滨150001;2.解放军96117部队,山东莱芜271100)
一种INS性能参数重复性离群数据挖掘方法
党宏涛1,2,伊国兴1,王常虹1
(1.哈尔滨工业大学空间控制与惯性技术研究中心,哈尔滨150001;2.解放军96117部队,山东莱芜271100)
摘要:惯性导航系统参数长期重复性是影响导航性能的重要因素。批量生产的惯性导航系统在生产过程、运输存贮、标定等方面偶尔出现异常因素,导致个别产品性能参数长期重复性出现异常变化,进而影响惯导系统导航精度。为了快速挖掘异常数据,根据批次参数随时间变化特点,提出了一种多属性关联规则的惯性导航系统离群数据挖掘方法。通过对某型平台惯导系统参数长期重复性数据进行离群数据挖掘,结果表明对于参数长期重复性差导致的惯性导航系统性能异常现象,使用所述方法可以有效检测出离群数据,并且能发现离群数据内部的关联关系。
关键词:惯性导航系统;性能参数;重复性;离群数据
0 引言
离群数据是指明显偏离其他数据,不满足数据的一般模式或行为,与存在的其他数据不一致的数据[1]。目前,离群数据挖掘正逐渐成为数据库、机器学习、统计学等领域研究人员的研究热点[2]。离群数据挖掘的主要算法有:基于分布的离群数据挖掘方法[3]、基于深度的离群数据挖掘方法[4]、基于距离的离群数据挖掘方法[5-6]、基于密度的离群数据挖掘方法等[7],基于规则的离群数据挖掘方法等[8]。这些离群数据挖掘方法在金融、航空等领域发挥了重要作用[9-11]。
惯性导航系统 (inertial navigation system,INS)属于高精度导航产品,在生产、贮存、运输和人工标定过程中,由于各种异常因素的出现,使得产品的性能参数随时间出现异常变化,这种变化具体反映在INS性能参数长期重复性数据中,对INS导航精度具有重要影响。通过对性能参数异常变化的数据进行离群数据检测,选择性能参数重复性优良的INS进行装配导航,对于参数重复性差的INS进行机理分析和故障诊断。
针对某型平台惯导系统若干批次的标定参数重复性数据特点,提出基于多属性关联规则的离群数据挖掘方法:首先根据多属性检测指标对数据集进行离群数据检测,其次对离群数据空间进行强离群点和弱离群点挖掘,最后对强离群数据中潜在的关联规则进行置信度分析。通过选择参数长期重复性进行离群数据挖掘方法验证,计算结果表明该方法具有很好的工程实用价值。
1 多属性关联规则离群数据检测方法
定义6.关联规则可以表示为R:X⇒Y,其中:X∈I,Y∈I并且 X⋂Y=∅,它表示如果项集X在某一事件中出现,则必然会导致项目集 Y也会在同一事件中出现。X称为规则的先决条件,Y为规则的结果。
在各种有秩序的活动当中,会产生一定的规则,这种偏离规则的活动,就认为是异常的,对于大量的工业数据,有两种制定规则的方法:一种是根据生产活动的工艺指标要求,采用既定的合格性指标作为规则;另一种是根据大多数数据所表现的特点,从数据中进行规则挖掘。
关联规则是寻找在同一个事件中出现的不同项的相关性,目标是满足最小支持度、最小信任度的属性值及其属性值组合。离群数据挖掘目标也是搜索满足某一阈值的数据项集,因此提出基于关联规则的离群数据挖掘方法。
1.1基本概念
定义1.设研究对象集合定义为:S=<U,A,V,f>,其中U是一组对象的有限集合;A={a1,a2,…,am},A是有限个属性的集合;V是属性的值域集,V={v1,v2,…,vn}。其中vi为属性ai的值域; f为信息函数,f:U×A→V。
定义2.数据条件项C定义为由属性、属性值组成的合取式: ci1∧ci2∧…∧cij,i=1,2,…,m,m为属性维数长度, j=1,2,…,n,n为条件项的长度,cij条件项的长度集合组成条件项集 C;
定义3.如果对象集合U中s%的值支持数据条件项c,称数据条件项c的支持度为s,即prob(c=true)=s%,记为support(c)。
定义4.如果规则条件项oi的支持度小于某一阈值,称oi为离群条件项;这一阈值为最小离群支持度,记为minsup;条件项oi小于最小离群支持度表示为support(oi)<minsup。Oset为离群条件项集,Oset={oi,1≤i≤k,k为离群条件项个数。最小支持度表示数据项集在统计意义下的最低重要性,只有满足最小支持度的数据项集才有可能在关联规则中出现,支持度大于最小支持度的数据项集称为强项集,反之,称为弱项集。
定义5.离群规则可表示为:Oset⇒O,O为离群条件项集,Oset为真时,U中对应的数据对象集,称之为离群数据。如果离群条件项oi,ci为另外的条件项,则pi=oi⋃ci也是离群条件项。
规则的置信度描述了规则的可靠程度。最小置信度表示关联规则所必须满足的最小可信度,记为minconf,它表示关联规则的最低可靠性。
1.2算法步骤
多属性关联规则离群数据挖掘方法计算步骤为:
step1设定事件的对象集U,属性集A;
step2根据对象集和多值属性,利用信息函数f:U×A→V,生成属性值域矩阵V,构建研究对象S=<U,A,V,f>;
step3设定条件项集C,根据条件项集C进行离群事件集检测,得到多属性离群事件集D,D=<U∗,A,V∗,f>;
step5整理离群事件U∗中离群数据组合出现的次数和,计算离群数据相对于离群事件的支持度port(oi);
step6设定离群规则Oset⇒O,根据关联规则检测强离群点和弱离群点;
step7计算关联规则R的置信度conf(ri)。
2 INS性能参数长期重复性描述
本文中,INS性能参数重复性是指每次标定数据和时间减去第一次的标定数据和时间,重复性关联的参数包括产品编号、重复性数据、重复性时间间隔。
a1k表示第k个产品参数长期重复性均值,mk表示参数长期重复性参数累计个数;
a2k表示第k个产品参数长期重复性标准差;
a3k表示第k个产品参数长期重复性极差。
3 INS参数长期重复性离群数据挖掘
某型平台惯导系统主要是由陀螺、加速度计和惯性平台构成,其性能参数主要包括陀螺零偏、陀螺标度因数、陀螺与g有关项、加速度计零偏、加速度计标度因数、平台航向效应。在这些因素中,如果出现一个因素参数性能长期重复性异常,则认为该型平台惯导系统性能异常。在惯导系统长期贮存和工作过程中,需要将每一个参数变化异常的产品进行剔除,保留性能参数重复性好的产品装配使用。
3.1陀螺标度因数离群数据挖掘
选择223套平台惯导系统,为了直观形象,只取表征惯导系统特性的部分参数——669组陀螺标度因数长期重复性数据进行多属性关联规则离群数据挖掘。
图1 陀螺标度因数长期重复性数据Fig.1 long-term repeatability of gyro scale factor
图1为惯导系统陀螺标度因数历次标定参数重复性数据图,采用均值、标准差、极差表征参数长期重复性属性A={a1,a2,a3},U3表示东向、北向、天向三个轴的参数长期重复性性能,通过 f得到参数性能属性的值集域V3×3,设定离群条件项集为{C|c11,c12,c13},其中均值绝对值c11=0.3×10-2,标准差c12=0.2×10-2,极差c13=0.5×10-2,根据条件项集进行陀螺性能检测,得到性能异常陀螺集为D,并求出离群事件集U∗和属性的值域集V∗。
经步骤step1到step3的计算,陀螺标度因数性能一致数据和性能异常数据如图2所示。
图2 陀螺标度因数离群数据挖掘Fig.2 Outlier data mining of Gyro scale factor
经过step4整理,将离群数据集中离群属性值按照条件项集C转化为布尔型,满足条件项集C的标度因数性能异常的陀螺为15个,支持度为的2.24%。
根据step5计算惯导系统三个方向上陀螺标度因数离群规则O=[o1o2…o9]中单个属性的支持度support(oi),其中均值支持度分别为6.7%、20.0%、 6.7%,标准差支持度分别为 0、33.3% 、 26.7% ,极差支持度分别为 0、46.7%、13.3%,设定最小离群规则支持度阀值minsup=15%,得到北向陀螺均值、标准差、极差和天向陀螺标准差属性属于强离群项集。
表1 陀螺标度因数离群数据关联规则置信度Tab.1 Gyro scale factor outlier data association rule confidence
设定Oset=0.5时,从表中可以看出,北向陀螺标度因数标准差与天向陀螺标度因数标准差的相关规则置信度最大。
3.2加速度计零偏离群数据挖掘
对223套平台惯导系统安装的669个加速度计零偏参数重复性进行离群数据挖掘,数据维数为3,每维数据属性设定为均值、标准差、极差,其中数据离群条件项集为{C|c11,c12,} c13,均值绝对值c11=1×10-4g,标准差 c12=0.9×10-4g,极差c13=1.6×10-4g,原始数据如图3所示。
图3 加速度计零偏长期重复性数据Fig.3 long-term repeatability data of accelerometer bias
经过多属性规则离群数据挖掘方法检测,得到加速度计零偏性能一致数据和性能异常数据如图4所示。
图4 加速度计零偏离群数据挖掘Fig.4 Outlier data mining of accelerometer bias
经过检测,满足离群条件项集C的零偏性能异常加速度计为16个,支持度为2.39%。
分析离群规则条件O=[o1o2… o9]中单个属性的支持度support(oi),得到三个均值属性、三个标准差属性、三个极值属性分别为:18.8%、37.5% 、 6.3% 、 6.3% 、 6.3% 、 18.8% 、18.8%、12.5%、31.3%,设定最小离群规则阀值minsup=15%,计算强离群项集中关联规则置信度。如表2所示。
表2 加速度计零偏离群数据关联规则置信度Tab.2 accelerometer bias outlier data association rule confidence
设定Oset=0.5时,从表2中可以看出,各属性之间关联规则置信度较大的,说明其所受影响因素与平台惯导系统所受的温度、磁场等因素相关,要消除这些因素,需要进一步对平台惯导系统的环境因素进行分析。
同理,该方法可以对平台惯导系统所有参数重复性进行多属性关联规则离群数据挖掘分析。
4 结论
针对INS性能参数重复性异常的问题,提出了一种多属性关联规则离群数据挖掘方法。采用均值、标准差、极值作为参数性能属性,对某型平台惯导系统配套的陀螺标度因数、加速度计零偏长期重复性进行多属性关联规则离群数据挖掘分析验证,结果表明采用多属性关联规则数据挖掘方法可以有效检测出离群数据,并且能发现离群数据内部的关联关系,证明本文所述方法具有很好的工程应用效果。
2.3.1 精密度试验 取“2.2.3”项下供试品溶液(编号:G-1)适量,按“2.1”项下色谱条件连续进样测定6次,以淫羊藿苷峰的保留时间和峰面积为参照,记录各共有峰的相对保留时间和相对峰面积。结果,22个共有峰相对保留时间和相对峰面积的RSD均小于3%(n=6),表明本方法精密度良好。
参考文献
[1]J Han,M Kamber.Data Mining[M].New York:Morgan Kaufmann,2001.1-321.
[2]蔡博文.高维数据集中离群数据挖掘方法的研究[D].合肥工业大学,2006.
[3]肖应旺,杨军,张承军,等.统计监控建模数据预处理离群点检测算法[J].控制工程,2013,20(4):756-761.
[4]Preparata Franco,Shamos Michael Ian.Computational Geometry:an Introduction[M].NewYork:Springer-Verlag,1988.
[5]Knorr Edwin M,Ng Raymond T.Algorithms for Mining Distance-Based Outliers in Large Datasets[R].In:Proceedings of the 24th International Conference on Very Large Data Bases.New York:Morgan Kaufmann,1998: 392-403.
[6]Li Shuxin,Lee,R.,Sheau-Dong Lang.Mining Distance-Based Outliers from Categorical Data.[C]//Data Mining Workshops,2007.Seventh IEEE International Conference on,2007(1):225-230
[7]Papadimitriou Spiros,Kitagawa Hiroyuki,Gibbons Phillip B.LOCI:Fast Outlier Detection Using the Local Correlation Integral[R].Proceedings of the 19th International Conference on Data Engineering,2003:315-326.
[8]Xiao-hong Huang,Xiu-feng Zhang.Mining multi-attribute event sequential pattern based on association rulep [C]//FSKD,2010,Seventh International Conference on, 2011(1):1397-1402.
[9]汤俊,熊前兴.用于可疑金融交易监控的对比离群点监测模型[J].武汉理工大学学报,2006,28(4):112-115.
[10]Angiulli F,Pizzuti,C.,Outlier mining in large high-dimensional data sets[J].Knowledge and Data Engineering,IEEE Transactions on.2005,17(2):203–215.
[11]张叔农,康锐.数据挖掘技术在航空发动机PHM中的应用[J].弹箭与制导学报,2008,28(1):167-170.
中图分类号:TP391.41
文献标志码:A
文章编号:2095-8110(2014)03-0006-05
收稿日期:2014–01–03;
修订日期:2014–08–18。
基金项目:国家安全重大基础项目(61388010404)
作者简介:党宏涛(1976–),男,工程师,博士研究生,主要从事导航、制导与控制方面工作。E-mail:skydht@163.com
Mining Method of Outlier Data for INS Performance Parameters Repeatability
DANG Hong-tao1,2,YI Guo-xing1,WANG Chang-hong1
(1.Space Control and Inertial Technology Research Center Harbin institute of Technology, Harbin 150001,China;2.96117 Troops,Laiwu 271100,China)
Abstract:The long-term repeatability of calibration parameters is an important factor affecting the navigation performance in inertial navigation system(INS).For the mass-produced INS,the abnormal factors in the production,transport storage,manual calibration,etc.,result in the abnormal changes of the parameters long-term repeatability of individual production’s performance,which will affect the navigation accuracy of INS.In order to detect the abnormal INS performance according to the batched parameter changes over time,a multi-attribute association rule based outlier data mining method was proposed.And the effectiveness of this method was verified by outlier data mining about the long-term parameters repeatability of a certain type platform INS system.
Key words:Inertial navigation system;Performance parameters;Repeatability;Outlier data