基于聚类挖掘的安全阀试验位移数据处理
2011-03-08刘婧瑶
刘婧瑶
(煤炭科学研究总院检测研究分院,北京 100013)
基于聚类挖掘的安全阀试验位移数据处理
刘婧瑶
(煤炭科学研究总院检测研究分院,北京 100013)
在安全阀试验中,位移是计算流量的重要数据,由于液压系统振动及位移传感器数据采集误差等原因,需对原始位移数据进行处理。依据位移数据的时序性和分布特征,建立新的相似函数作为数据聚类的判定准则,改进聚类挖掘方法;并提出新的聚类中心不同的聚类方法,按照时间顺序将数据聚类与初始聚类中心的选取交替进行,完成数据样本的全部聚类。最后对各簇数据样本中的异常点进行检测和处理,并采用平均值法计算每簇数据新的聚类中心,作为实际的位移数据。
安全阀;数据挖掘;聚类分析;数据处理
安全阀是液压系统中重要的安全保护元件,需在一定压力下通过试验测定安全阀流量,标定其性能,一般通过采集液压缸活塞位移,采用位移-时间法确定安全阀的流量,因此,位移数据精确与否将直接影响流量的测定。
在国内液压系统数据采集研究中,鲁永秋等人设计了液压系统压力和流量的数据采集系统,采用DSP芯片控制数据采集模块的软硬件实现[1]。胡学军等人基于MATLAB的数据采集工具箱开发了液压元件试验台CAT系统软件和硬件[2]。国内对液压系统压力和流量的研究多集中在数据采集系统的软硬件实现,针对试验数据误差分析处理的深入研究甚少。
针对液压系统试验数据分析和处理存在的问题,通过多次安全阀流量试验,提出采用数据挖掘对实时获取的位移试验数据进行分析处理。由于传感器采集频率较高时出现数据点重复或迂回扰动现象及液压系统振动等因素的影响,采集得到的位移数据点主要特征是:时序性和呈分段带状分布。根据位移数据的特征,建立新的相似函数作为聚类判定的准则,改进聚类挖掘方法,提出依据聚类簇的部分数据依次确定聚类中心,并按照时间顺序完成每簇数据的聚类。利用改进的聚类分析法对位移数据点进行有效地聚类分析,再通过异常点检测处理原始试验数据的误差点。最后利用平均值法得到每簇数据新的聚类中心,作为实际的位移数据。
1 系统工作原理及数据定义
1.1 液压系统工作原理
在安全阀试验过程中,为了计算单位时间内工作缸液体体积的变化量以确定安全阀实时流量值,需通过位移传感器采集工作缸活塞位移数据,系统工作原理如图1所示。
1.2 获取位移数据
通过位移传感器实时采集得到原始试验数据,需对数据属性进行定义。每个数据点具有3种属性:X属性值表示时间,Y属性值表示位移,标识属性值表示该簇数据所属簇的编号。原始数据样本记录如表1所示。
图1 安全阀流量测试原理
表1 原始数据样本记录
2 改进聚类分析与优化
聚类分析是一种数据挖掘方法,从大量、杂乱连续的数据中发现新的、有实际意义的数据点。数据挖掘的方法有:分类挖掘、关联挖掘、聚类挖掘和异类挖掘[3-5]等。聚类挖掘是将大量数据划分为性质相同的子类,以便于分析数据的分布情况。聚类的结果是得到一组数据对象的集合,称其为簇。
定义1:设Ω表示一个有n个样本的集合,Si表示其中的样本,δ为预设阈值,若对于任意的Si,Sj∈C,都有
则C称为一类。
划分算法是聚类挖掘的一种重要方法,划分算法首先给定要构建的划分数目,并创建初始划分,然后采用一种迭代的重定位技术改进划分,使同一簇类中的对象尽可能接近,反之,尽可能远离。
2.1 划分算法改进
聚类分析对于任意形状的数据分布难以实现有效聚类。初始聚类中心选取是否适当,将直接影响到聚类效果。
基于距离法和相似系数法2种聚类方法的特征,提出改进聚类算法对任意形状数据簇进行聚类分析。改进聚类算法主要是具有一定规则有序分布的数据对象,按照顺序对原始数据点分组,选取第1组内第1点作为该组的初始聚类中心,然后选定阈值以相似函数作为优化目标函数进行迭代运算,确定第1簇聚类的数据样本点。第1组内未被选入第1簇的其余点作为第2簇的数据点,并通过平均值计算其数据中心作为第2簇聚类的初始聚类中心。按照这种算法依次交替确定每一簇的聚类中心和数据样本点。
假设数据库D中包含所有位移数据样本,该集合记做Ω,集合中有n个有序元素Si(Xi,Yi) (i=1,2,…n)。对全样本集按照时序进行分类后,生成簇的个数为m(1≤m≤n),每个簇用Ω的子集Gj(j=1,2,…m)表示。选取相似函数:
改进聚类算法框架如下:
(1)按照顺序将原始样本数据分为m簇,表示为Gj,每簇样本数据个数相同为p,并设定数据样本分类阈值δ。
(2)选第1个数据样本点S1作为第1簇G1的种子点,计算种子点与簇G1中每个点的相似函数值即
将初次聚类分析后的簇记做G'j,若K(S1,Su)<δ,则Su∈,否则Su∈Z1;将簇Gj中属于簇的点集合记做Zj(j=1,2,…,m-1),Zj中的数据样本点个数记做vj。
(3)计算集合Zj中所有样本点的平均值,即ZMj=;并选定Zj中最接近ZMj的数据点作为簇Gj+1的种子点ZGj+1,对簇Gj+1进行分类,并聚类得到G'j+1。
(4)按照以上方法先分类后聚类依次得到位移数据的所有聚类簇,…。
2.2 异常点检测
异常点一般来源于测量误差、人为误差等,且明显偏离其他数据。为避免影响数据分析的结果[6-7],在进行分析时将其视为噪声加以修正或剔除。基于距离法对异常点进行检测和处理可以高效、准确地发现异常点。
由于在进行簇Gj(j=1,2,…,n-1 )内数据样本聚类分析时,若某样本数据不属于第j簇,不再进行相似函数值计算判定直接记入第j+1簇,这样,G'j+1(j=1,2,…,n-1 )内将难以避免的含有属性差别较大的异常点,需进一步检测异常点并加以处理。
基于距离的异常点检测算法框架如下:
(1)设定阈值ξ。
(2)计算簇中数据样本Y属性值的平均值YMj=,计算中任意样本Si(Xi,Yi)的Y属性值与YMj的绝对距离,若|Yi-YMj|>ξ,则将样本Si作为异常点滤除。
(3)按照步骤⑵中的方法依次滤除簇(j=2,3,…m)中的粗大误差点,并相应得到不包含异常点的数据聚类簇(j=1,2,…m)。
2.3 确定新的聚类中心
为了消除数据误差的影响,将得到的每簇数据样本新聚类中心作为进行流量计算时实际位移点。计算方法如下:
(1)计算数据簇中数据样本的平均值,作为数据集的聚类中心。
(2)依次计算(j=1,2,…m)数据集的聚类中心,记做(j=1,2,…m)。
(3)最后确定每簇样本集新的聚类中心。
截取部分数据样本簇并显示其新聚类中心,如表2所示。
表2 新聚类中心记录
3 位移数据处理
3.1 位移数据聚类分析
在对位移数据进行处理的过程中,首先按照时间顺序对原始数据进行分组,然后应用改进聚类分析法对位移数据进行聚类分析,并基于距离法检测和处理异常点,得到的聚类簇数据记录如表3。
3.2 确定新的聚类中心
为了消除误差影响,通过聚类挖掘和计算得到每簇数据样本新的聚类中心作为流量计算时的实际位移点。截取部分数据样本并显示其聚类中心如表4和图2所示。
表3 聚类簇数据记录
表4 聚类中心记录
图2 位移数据聚类中心
如图2中所示,菱形表示对原始试验数据进行聚类分析后得到各簇数据的聚类中心。
4 结论
提出新的聚类判定准则:相似函数法,改进聚类分析方法,可有效、快速地实现数据样本的归属判定和聚类。采用改进的聚类分析法,先将原始数据按照时序划分为n个数据组Gi(i=1,2,3,…,n),当第G'j(j=2,3,…,m)簇数据样本聚类时,将Gj簇数据中不属于簇的数据样本划分为第G'j+1簇数据样本,依据这部分数据样本计算确定第G'j+1簇的聚类中心;改进的聚类分析法依据位移数据的有序性及其分布特征,将聚类中心初始化与数据样本特征相关联,避免由于聚类中心的选取不当引起聚类误差;同时,改进的聚类算法按照时间顺序对数据样本进行分组,大大降低了迭代运算次数,提高了计算效率。
利用改进聚类技术有效地对原始数据样本进行聚类分析后,对每簇数据进行异常点检测和处理,减小了误差;并采用平均值法计算每簇数据的新聚类中心作为实际位移数据点,以便更为准确地计算安全阀流量。
[1]鲁永秋,高钦和,蒋 威.液压系统的压力、流量数据采集系统设计[J].机床与液压,2008,36(11):124-130.
[2]胡学军,滕 达,谈宏华.基于MATLAB的液压试验台的数据采集与处理[J].自动化技术与应用,2010,29(3).
[3]王 晗,孔令富.一种新的增量式关联规则数据挖掘方法研究[J].仪器仪表学报,2009,30(2):438-443.
[4]张 贺,蔡江辉,张继福,等.信息熵度量的离群数据挖掘算法[J].智能系统学报,2010,5(2):150-155.
[5]孙庆先,陈秋平,方 涛,等.基于模糊聚类的多尺度空间数据挖掘模型及其矿山应用[J].上海交通大学学报,2008,42(2):194-197.
[6]周 荃,赵凤英,王崇俊,等.数据挖掘方法在入侵检测中的应用研究[J].模式识别与人工智能,2008,21(4).
[7]陈大峰,汪加才,韩冰青.基于离群数据挖掘的计算机审计[J].南京审计学院学报,2009,(6)2:62-66.
Displacement Data Processing of Safety-valve Test Based on Cluster Analysis
LIU Jing-yao
(Test Research Branch,China Coal Research Institute,Beijing 100013,China)
Displacement is an important data for inflow calculation in safety valve testOriginal displacementdatamustbe processed because of hydraulic system vibration and collection error of displacement sensors Based on time-sequence and distribution characteristic of displacement data,this paper setup a new similar function as judgment principle of data cluster to improve cluster excavationmethod New clustermethod was put forward That is,alternating data cluster and original cluster center selection and finishing all clusters of data samples firstly,then testing and processing outliers in data samples,applying even-valuemethod to calculating new cluster center of every cluster as actual displacement data.
safety valve;data excavation;cluster analysis;data processing
TH137.5
A
1006-6225(2011)05-0008-03
2011-06-15
“十一五”科技支撑项目:大采高综放开采技术标准体系研究 (2008BAB36B11)
刘婧瑶 (1979-),女,河北邯郸人,博士,工程师,主要从事煤炭机械检测设备研究。
[责任编辑:李宏艳]