基于Vague集的不确定数据模型
2017-03-24孙国宝
孙国宝
摘要:不确定数据广泛的存在日常生活中,不确定数据挖掘是当前重要方向研究方向。研究者必须通过对象的可能世界实例,得到概率密度函数。当对象的可能世界实例缺失时,经典不确定数据的模型将束手无策。对Vague集进行扩展,提出一种新的面向不确定数据的Vague集模型,即U-Vague集模型。并定义了U-Vague集模型之间的距离。通过直接聚类算法对模型的有效性进行了验证。最后对不确定数据的研究做出了展望。
关键词:可能世界;实例缺失;U-Vague集;距离;直接聚类
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)01-0218-04
1 引言
不确定数据即带有不确定性(uncertainy)的数据,数据的不确定性产生的原因有多种,可能是原始数据本来不准确或采用了粗粒度的数据集合,也可能是原始数据是为了满足特殊应用目的或经过处理或者数据集成而生成的[1]。不确定性的主要表现形式为随机性和模糊性。当前,学者已提出的不确定数据对象的模型,为可能世界(possible world)模型以及根据可能世界模型衍生的特殊模型。表1表示的为一组上海市嘉定区某日,气温采集数据。气温数据,分别由10个散布在嘉定区不同区域的温度采集传感器获得。
将嘉定区气温视为不确定对象,可以根据气温数据建立嘉定区气温的可能世界模型,如表2所示, c表示嘉定区气温可能世界实例(possible world instance),p(c)为不确定对象即嘉定区气温取值为c时的概率,概率值由各气温数据出现频率计算得出。由表2,即可对嘉定区气温数据进行下一步处理。
当传感器由于老化或者损坏等原因,导致采集到的数据存在缺失,如表3所示,传感器P2、P6和P8的数据无法获得。
此时,由于可能世界实例的不完整,无法对气温建立可能世界模型,完全限制了对数据继续处理。在传统确定数据挖掘的研究中,也存在数据缺失或不完备的情形,如[2]、[3]、[4]等采取的策略均是直接忽略丢失部分,其结果往往会导致真实信息的丢失。文章对Vague集理论进行扩展,提出了U-Vague集模型和U-Vague集之间的距离度量。
在文章第二节中介绍了Vague集理论相关定义,第三节定义了U-Vague集模型及U-Vague集之间的距离。第四节中,对U-Vague集模型的有效性,进行了验证。最后对不确定数据的模型的研究和Vague集的研究做出了展望。
2 相关定义
Vague集作为Fuzzy集的拓展集,引入了假隶属度函数,比Fuzzy集具有更强的表达能力和灵活性。
定义1[5]令为点集空间,用表示其中的元素,的一个Vague集可以用真隶属度函数和假隶属度函数表示。表示从支持的证据所导出的的肯定隶属度的下界,是从反对的证据所到处的的否定隶属度的下界,为相对Vague集的Vague值(Vague value),和分别是到的一个映射
3.1 U-Vague集的定义
定义4 对不确定数据对象集合,由集合中所有元素的可能世界实例的集合组成的实例空间为,即。将等距离划分成为个子空间,即称为的可能世界实例集合区间,后文简称为集合区间。用公式表达即为:
定义5对于给定不确定数据对象集合,中的对象,根据定义2和定义4将的可能世界实例集合按集合区间分割成为个子区间,即其中。称为不确定对象关于集合区间的区间二元组,其中即为不确定对象关于可能世界实例子集合的概率。。可将不确定对象表示为区间二元组集合,即为:
定义6对于不确定对象集合以及可能世界空间,不确定数据对象可以用一个真区间隶属度函数和一个假区间隶属度函数表示。表示支持对象取值在集合区间的证据的下界,表示反对对象取值不在集合区间的证据的下界称为对象关于集合区间的U-Vague值。
对于不确定对象由公式,可得
即表示对象的缺失实例均不在集合区间内时,取值为集合区间概率,即为。表示对象缺失实例均在集合区间内时,取值为集合区间概率,即为。
不确定对象的U-Vague集模型就可以表示为:
不确定对象集合为:
即称为不确定对象集合的U-Vague集矩阵。
下面通过对一组温度数据集合,模拟U-Vague集的模型建立过程。图1为某省5个市不同监测站在同一天所采集到的温度数据,由于传感器和数据保存的过程中疏忽,造成图1中的部分数据难以获得,—表示传感器数据丢失,黑色为被污染区域。
首先,用温度数据矩阵对图1进行表示,为:
然后根据温度数据矩阵的元素,划分可能世界实例集合区间,设k=5
可以得到温度数据的实例集合区间,用轴线进行表述,如图2所示对中温度数值进行根据等距划分:
最后由各可能实例集合的真隶属度与假隶属度函数建立每个市的U-Vague集:
对于市Ⅰ,可能世界实例集中在和中,缺失的实例有可能落在任何实例区间。由市Ⅰ的观测站个数为10,可以得到市Ⅰ的关于实例集合区间和的真隶属和假隶属度分别为:
市Ⅰ的U-Vague模型可以表示為:
同理,我们得到其他市的U-Vague集模型,可以用U-Vague集矩阵表示,为:
3.2 U-Vague集之间的距离
在经典Vague集的研究领域中,Vague值之间的距离是重要的研究方向。本节引入,对chen【引用】提出的距离进行针对U-Vague集模型的拓展,得到了U-Vague值之间的距离公式。
3.2.1 U-Vague值之间的距离
定义7令和为不确定数据对象集合的两个对象元素,为的一个集合区间。和关于集合区间的U-Vague值为:
其中,
表示对象关于集合区间可能世界实例集合的期望,即:
的值越大,表示U-Vague值之间距离越接近。
3.2.2 U-Vague集之间的距离
定义8给定不确定数据对象集合,以及所对应U-Vague集矩阵,中任意两个对象和,即任意两个U-Vague集的距离为两个对象关于对应集合区间的U-Vague值的距离总和,值越大,表示越相似。用公式表达为:
由公式(13)和公式(15),我们就可以对进行计算,得到的相似性矩阵:
4 实验分析
聚类(cluster)是一个将数据库中的数据划分具有一定意义的簇(clustering),使簇内的对象尽可能相近,簇间的对象尽可能相异。聚类可以发现数据中所隐含的关系和模式,是数据挖掘、机器学习等研究领域的重要方法。直接聚类算法是通过直接对相似矩阵进行分析,的一类模糊聚类算法。直接聚类算法省去了矩阵自乘运算,避免了原有数据的失真。其算法描述如下表4所示:
由3.2.2节所得求得U-Vague集的相似性矩阵,即可对进行直接聚类,得到的聚类结果,如表5所示:
结合图2和表5,对聚类结果进行分析。根据图2中各市的温度分布情况,市Ⅱ和市Ⅳ分布最为相似,表5中的聚类结果也最先把市Ⅱ和市Ⅳ划分到同一个簇内。市Ⅰ和市Ⅱ或市Ⅳ的温度分布很明显要比市Ⅲ和市Ⅴ更接近,从表5也可以得出同样的结果。模型的有效性即得到验证。
5 展望
不定数据挖掘是数据挖掘的研究热点之一,当前不确定挖掘研究主要面向的是随机不确定对象,对象的可能世界实例缺失,对不确定数据的进一步处理形成了障碍。本文引入Vague集理论,针对不确定对象实例缺失的情形提出U-Vague集模型,既有效的保留了不确定对象的实例缺失特性,又实现了对不确定对象的进一步处理。引入其他研究方向,比如模糊集、粗糙集等对不确定的研究的,已有的研究成果,是一种新的,研究不确定数据挖掘的思路。不确定数据相对于传统确定数据,区别在于不确定数据增加了概率维度。学者们通过,概率密度函数对数据的不确定性进行描述,从而实现对不确定数据的处理。新的,针对数据不确定性模型的研究,将会是不确定数据挖掘的接下来的研究方向之一。
U-Vague集模型与Vague集的重要的区别在于,U-Vague集元素不限于,论域中确定单一元素,而是由论域生成的等距集合逻辑单元,即实例集合区间。这个突破,对Vague集的广义化,以及模糊集的广义化提供了一个新的思路。
6 总结
文章首先对不确定对象可能世界实例缺失进行了介绍,在详细阐述U-Vague集模型之前,对Vague集模型的定义进行了概述。通过定义实例集合区间、实例二元组、区间二元组等定义,详细地阐述了U-Vague集模型的定义。紧接着,利用实例演示了U-Vague集模型的建立过程。文章提出了,U-Vague集之间的距离公式,并在实验分析中对,U-Vague集模型以及U-Vague集模型之间距离公式的有效性进行了验证。最后,对不确定数据以及Vague集的研究,做出了展望。
参考文献:
[1] 周傲英,金澈清,王国仁,等.不确定性数据管理技术研究综述[J].计算机学报,2009,32(1):1-16.
[2] 张师超,倪艾玲.含缺省属性值的数据中的规则发现算法[J].计算机科学,2005,32(10):132-134.
[3] 刘开第,庞彦军,王义闹.基于不一致数据库的缺省加权规则挖掘算法[J].计算机科学,2003, 30(4):174-176.
[4] 王清毅,蔡智,邹翔,等.部分數据缺失环境下的知识发现方法[J].软件学报, 2001,12(10):1516-1524.
[5] 李凡,徐章艳,饶勇.Vague集[J].计算机科学,2000,27(9):12-14.
[6] Chen S M.Measures of similarity between vague sets[J].Fuzzy Sets & Systems,1995,74(2):217-223.