APP下载

多源模糊信息系统空值估算方法研究

2021-11-17万里勇

计算机仿真 2021年4期
关键词:粗糙集信息系统对象

周 燕,万里勇

(1. 江西应用科技学院,江西 南昌 330100;2. 江西师范大学,江西 南昌 330027)

1 引言

系统是获得主要信息资源必不可少的载体,其中信息综合分析与处理已经成为了我国通信行业发展的重要研究热题。信息庞大的系统在工作中会出现数据缺失、遗漏,从而产生明显的不确定性导致系统不完备。对于这些数据的不确定性、系统的不完备现象也是现代信息知识挖掘研究的重要对象。

粗糙集理论可以反映知识处理不可分辨的现象,相对集合论而言,粗糙集[1]、模糊集[2]、等都是描述不确定性对不完备信息处理的有效工具,无论是在理论方面还是实践中都是近年来计算机科学行业重点研究对象。随着粗糙集理论被广泛的应用,受到了很多国际数学界与计算机界的高度重视,一是其数学基础性强;二是在实际运用中易用性高,对计算机系统中处理不精确、不完整和不一致的信息具有良好的显著性。

粗糙集理论作为现代智能科学计算的研究方法在很多的领域行业得到了应用,如临床医学、图像处理、电业故障诊断、金融,无论是在理论还是实践方面都展示了它光明的前景,为科学信息提供了有效的处理。然而,现实的信息系统都是不完备的,导致其中存在一些不确定的信息,原因有以下四点:离散化处理、非精确数据处理、缺失值、多重描述符。其中,缺失值可称为空值,也是系统不完备中最常出现的问题。

在系统中,空值也称未知数据,在所有非主码属性中都可能出现。空值不仅意味着该属性的位置,而且也意味着该值的不可用。如果不引入空值的话,那么就必须要有一个替代值。在物理世界中,描述一个事物有时候信息并不全面,比如在人员管理数据库中,某人的身高并不知道,但是又必须录入。对于某人的身高属性,就不知道该取什么值。如果输入0,就表示他的身高是0,0即为空值,但其属性比较特殊。而0是表示具体的值,在数据库中,0的地位跟其它非空值是同等的,它不表示现实世界中的“没有”概念。

为了减少多源模糊系统中数据不完备、不确定性出现的属性值未知的问题,传统的空值估算方法仅仅对于系统数据表中的单一属性值关系进行了估算,而没有考虑到多属性空值同时存在的属性值关系。针对这一问题,对多源模糊系统进行完备化,在模糊覆盖[3]下给出了一组完备化信任函数,并基于此,在粗糙集理论下得到的空值进行了约简、估算。实验表明,本文所提方法能够有效对系统中出现的空值进行估算,得到的估算结果也具有更高的准确率和有效性。

2 多源信息系统空值信任函数计算

在多源信息系统中往往会因为各种原因导致数据信息出现遗漏,缺失等情况,出现含有缺失值的不完备信息系统,其缺失值即为空值产生的表现。空值信息知识获取是对不完备系统处理的关键之一,通常会直接删除不完备空值将系统完备化,但是这种方法较为影响信息准确度,对后续工作会产生很大的干扰,因为这也会将有价值的的信息删除,但是系统不确定性信息不只是有空值问题,若得不到数据的信任函数也无法提升数据准确度,还会影响准确度,那么久需要严格计算多元信息系统的信任函数,以便获得最佳空值估算结果,使不完备系统完备化,以便得到最优数据结果。

结合系统空值问题对系统信息进行融合,通过融合后的概率指派函数计算,可以得到一组新的信任函数代替系统中缺少的模糊信息,为空值估算的准确性更好。

令U是一个非空值集合,一个集合函数{m:F(U)→[0,1]}称为一个概率指派函数(也可以称为mass函数),满足式(1)和式(2)

(M1)m(θ)=0

(1)

(2)

X为m的一个焦元则模糊集合X∈F(U)满足m(X)>0,所有焦元结构的集合用M表示m,(M,m)称为模糊信任结构。

在很多情况下,各种各样的概率不总是一样的。在一个模糊覆盖空间(U,A)中,Ax:x∈U是一个粒结构,系统中可以覆盖U中很多元素,而每一个元素都可以模糊覆盖U。

因为近似覆盖的对象不止要使用一次,所以应该每一个粒结构都要运用非传统的概率性定义。

已知,Ax:x∈U是U的一个模糊覆盖当且仅当(Ax)1:x∈U是U的一个覆盖,因此可以利用(Ax)1:x∈U来定义一个概率指派函数。

令{U={x1,x2,…,xn}}是一个非空有限论域。A是U的一个模糊覆盖,CX∈F(U),那么概率指派函数由式(3)所示

(3)

U上关于模糊覆盖的指派函数和近似函数分别由Belc与Plc表示,A的集合元素个数由|A|表示。那么信任函数由式(4)所示

Belc(X)

Plc(X)

(4)

由式(5)验证所得mc(θ)=0,所以mc为信任函数

∑x∈F(U)mc(x)

(5)

3 粗糙集下多源模糊信息系统空值估算

3.1 粗糙集集合论

把系统中有价值的空值信息嵌入粗糙集理论中作为集合,组成的一个部分目标,构成基于粗糙集理论上延展的经典集合论。

如现有的属性值一个目标H是否属于集合h主要分为三种情况来判断,

1)目标H属于集合h;

2)目标H不属于集h;

3)目标H可能属于也可能不属于集合。

所有掌握关于集合论论域的知识划分的依据是由x决定的等效类,即I(x)中的每个对象都与x有相同的特征属性。

3.2 空值间关系的处理

大部分常用的数据库空值估计方法中没有完全考虑多个属性值之间的空值关系,只在空值所在的单一属性值进行估算。因此,利用系统数据库中的属性相关特性简要分析在同一数据库中的空值属性关系,引用对空值的选取、转化、约简给出一个处理空值的拟合函数[4],从而实现基于粗糙集理论上对空值的估算。

3.2.1 空值的选取与转化

系统中空值的估算过程是针对存在型的空值,而在估算中由于各种复杂原因导致在某些属性上无法给出合理值的空缺称为未知型空值。可以引用对属性值填充的方法使未知型空值模拟存在型空值属性,实现存在值的转化。该方法充分考虑了系统中多个属性值之间的空值关系,使估算空值更有可信性。

举例:某工厂部门工资发放情况缺失了,由于该部门是否发放工资情况未知,导致其发放结果成为一个未知型空值。如果在空值估算的过程中,想将未知型空值转化成存在性空值,就必须将未知型空值(工资发放结果)所依赖的存在性空值(工资是否发放)被给出估算值后得到。

基于上述举例表达,所给出空值的选取方法如图1所示。

图1 空值选取流程图

3.2.2 粗糙集覆盖拟合函数

假设T是一个三角模,S是与T对偶的反三角模,I是一个基于t-反三角模S的S-蕴含算子,而且I(A(x),X(x))=(1-A(x))∨X(x),此时粗糙集覆盖拟合函数为

(6)

如果C是U的一个模糊覆盖,那么{Cx,x∈U}=M,由式(6)计算可证,Belc是U上模糊集的拟合函数。

3.2.3 空值属性约简

在信息系统中,信息的冗余是指数据在传输过程中所用的数据数目与数据信息所包含的实际数据情况的差值。

系统中的信息冗余主要有以下两种情况:一是表内冗余;二是表间冗余。表内冗余是指在两个元组内左边与右边的元祖相交和等价冗余。表间冗余是对元组内的相互冗余进行删除处理。据上文所述,系统中的空值是真实存在的,当信息量过多不能快速剔除冗余空值属性时,可以通过Skow ron给出的可辨识矩阵最佳约简[5]法快速筛选出系统中有利的空值属性进行估算,在保证精准度同时提高了空值估算的时间效率。以往的工作中对空值属性的判断都是根据专家经验来决策,然而在现实生活中,单凭专家经验判断会使最终的估算结果存在偏差,因此,对空值相关属性的获取需要一种可观性高的方法。想在遇到大量空值数据时能够快速处理并保证精准度就要删除冗余的属性,保留待估算空值相关属性最大。

现有的属性约简方法有很多,模拟退火算法、逐步回归等。其中基于粗糙集属性值约简方法优越性最大。该方法对系统中信息的空值处理完全来自本身,使得分析结果相关性、准确性更高。

在粗糙集中,对于给定的四元组信息I=定义该系统的可辨识矩阵[6]是最常见约简算法。如式(7)所示

{M(I)=(cij)n}

(7)

其中n是信息系统I中的对象个数,且由式(8)得到的属性约简算法。

(8)

1)基于现有的系统I构造可辨识矩阵M(I);

2)通过式(8)对非空值Cij(Cij≠φ)构造析取表达式Lij;

3)想将该合取范式转换为析取范式L1就要对所有的析取范式进行合取;

4)将每个融合项中所包含的属性约简组成属性集合,析取每个融合项对应一个属性值的约简结果,输出属性值约简结果。

3.2.4 等价与相容的空值估算

基于上文四元组定义I=,{V=Ua∈AVa},Va表示属性a的值域,映射f:U×A→V表示对∀X∈U,a∈A,有f(x,a)∈V。关联粗糙集理论的相关体系,假设B⊆A为系统中的非空值属性集,I(B)是U上的二元关系,若XI(B)y↔a(X)=a(y),则称X与y关于B为等价关系,I(B)为不可分辨关系。显然I(B)是U上的一种等价关系[7]。

定义1:在系统中,I=及任意对象X,y∈U,若XC(B)y,则称X与y相容。所有与X相容的对象集成为相容类,记为B1(X)。

按照上述定义,如表1所提供的数据:U=p1,p2,p3…,A=a1,a2,a3…,B=a1,a2,a3,a4,V=3,4,5…根据定义有:B(p1)∩B(p2)={a3}因为{a3(p1)=a3(p2)},故{p1C(B)p2},即p1与p2相容;同理p2与p3相容;但B(p1)∩B(p3)={a1,a3},而{a1(p1)≠a1(p3)},故p1与p3不相容。根据表1所提供的数据,图2是表1中各个对象直接相容的表现。

表1 相容关系表

图2 表1中各对象的相容关系

从上文分析可以看出,C(B)关系是粗糙集理论中I(B)关系的一种泛化即X与Y关于B不可分辨当且仅当B(X)=B(Y)=B且XB=YB。若对象X的a属性值是空值,则可用与X相容的对象的非空值a属性值[8]代替,因此,考虑两个相容对象的元祖关系可以互相补偿丢失数据,如式(9)所示

a(X)∈{a(Y):Y∈B1(X)}

(9)

可供选择的属性替换值并不是唯一,因为在系统中元祖的相容对象有时不止一个,如上,对象P2的a2属性值可用{a1(P1)=3}或{a2(P3)=5}替换。也可以通过其它算法挑选其中一个属性值,但一定在不违背相容性的情况下进行。

对于任意对象X∈U,其属性a的可能值记为V(X,a)。

对于系统中某个a(X)可能有多个值填补时,取出现次数最多的值。

1)输入信息表I=

2)基于每个对象X计算其相容类B1(X);

3)基于每个属性a∈A,每个对象X∈U,计算V(X,a)。

4)如信息表内容不再变化至5),否则返回2)

5)若信息表中存在a(X)则需要确定a(X),若无法确定则退出。

通过上文所述,该方法可以对系统中的空值进行等价与相容的估算,使信息系统中的空值具有更高的确定性。

4 实验结果分析

为验证所提出的基于粗糙集理论的模糊覆盖空值估算方法,对已植入空值的多源模糊信息系统,分别采用邻域粗糙集方法与本文方法进行仿真。

植入的空值属性,分别记作1、2、3,三个属性列优先级函数值分别为9.93、6.31、5.45。使用不同顺序对计算结果的影响如图3所示。

图3 空值估算不同顺序对平均值绝对错误率的

图3中,每行都是分别在估算序列下使用邻域粗糙集方法、概念格方法及本文对空值1、2、3的估算结果绝对错误平均值。其估算顺序为1、2、3,以此类推。从图3中可以看出,使本文方法得出的空值估算结果的错误率相对最小,可以按照优先级函数值递减的序列进行,即引入的误差是最小的。由此可见,本文提出方法是有效的具有更好相容性,可以全局考虑,提高估算的准确率。

为了验证本文方法的空值估算用时,采用上述3种方法计算空值估算用时,得到结果如图3所示。

分析图4可知,不同方法下空值估算用时不同。当数据量为50GB时,邻域粗糙集方法的空值估算用时为42s,概念格方法的空值估算用时为42s,本文方法的空值估算用时为12s。本文方法的空值估算用时远远低于其它方法,说明本文方法的空值估算效果较高。

图4 不同方法下空值估算用时

5 结论

本文对多源模糊信息系统中空值问题进行了研究,考虑到同一张表中空值的相互影响关系,提出基于模糊覆盖的粗糙集理论空值估算方法。实验证明所提方法与其它常用的空值估计方法相比具有更高的准确率。

猜你喜欢

粗糙集信息系统对象
基于隶属函数的模糊覆盖粗糙集新模型
建设工程招投标管理中智能化信息系统的运用
晒晒全国优秀县委书记拟推荐对象
2022年信息系统与运营管理专栏征稿
基于信息系统的计量标准管理
攻略对象的心思好难猜
图说车事
基于粗集决策规则性质的研究
一种基于改进的层次分析法的教师教学质量评价模型
一种改进的ROUSTIDA数据填补方法