APP下载

集值序信息系统的信息熵和知识粒度

2014-08-05鲍忠奎

计算机工程与应用 2014年24期
关键词:集值信息熵度量

鲍忠奎

1.安徽大学 数学科学学院,合肥 230601

2.合肥工业大学 管理学院,合肥 230009

集值序信息系统的信息熵和知识粒度

鲍忠奎

1.安徽大学 数学科学学院,合肥 230601

2.合肥工业大学 管理学院,合肥 230009

1 引言

粗糙集理论是波兰数学家Pawlak于1982年提出的一种数据分析理论[1],它是一种新的处理不确定性知识的数学工具。经典的粗糙集理论是在完备信息系统中建立等价关系来研究分析的,但实际问题复杂多样,一些对象在某些属性下的取值往往不是一个,而是取几个值,这样的信息系统称为集值信息系统[2]。目前,集值信息系统中的属性取值(下面说成属性集值)一般有合取和析取两种不同的语义解释。文献[3]在属性集值为合取型的集值信息系统中定义了相容关系,并给出基于相容关系的属性约简和规则提取问题;文献[4]认为相容关系过于宽松,提出了两种扩展的相容关系。另外,实际中属性值域很多是带有偏好关系的,尤其在企业管理中,值域具有偏好关系的属性最为常见,如投资报酬率、市场占有率、债务比率等。文献[5]在属性集值为合取和析取两种不同类型的集值信息系统中分别引入了基于优势关系的粗糙集方法[6]。但析取型集值序信息系统中定义的二元优势关系太过宽松,没有考虑对象之间的不同优势程度,容易将优势关系不明显的对象划分到优势类中。

信息系统的不确定度量是另一重要问题。目前,熵[7]已被广泛用于系统的不确定性度量[8-9]。文献[10]提出了一种信息增益具有补特征的信息熵,给出其条件熵和互信息,并应用于度量粗糙集和粗糙分类的模糊性;文献[11]在非完备信息系统中引入组合熵的概念,其信息增益函数具有可能知识含量的特性,并用于度量非完备信息系统的不确定性。基于粒度观点,文献[12]在序信息系统中给出了知识的粒度、粗糙熵以及知识的不确定性度量;文献[4]在扩展相容关系的同时,基于粒度也给出了集值信息系统的不确定性度量(更多的基于粒度的不确定性度量可参看文献[13])。但对于集值序信息系统的不确定性度量文献中尚不多见。

鉴于以上考虑,本文首先针对文献[5]在属性集值为析取型的集值序信息系统中定义的优势关系太过宽松的不足,提出一种δ-优势关系,然后基于δ-优势关系对论域的分划,将信息熵和知识粒度引入集值序信息系统中,给出了集值序信息系统不确定性的度量方法。

2 预备知识

2.1 集值序信息系统

设 S=<U,AT,V,f>为一集值信息系统[2],其中U是非空的有限对象集,A是非空的有限属性集,V是属性值集合,f是从U×AT到V的幂集P(V)的一个映射,使得∀x∈U,a∈AT,f(x,a)∈P(V)。

根据集值的不同语义解释,集值信息系统可分为合取型集值信息系统和析取型集值信息系统。若在集值信息系统的某个属性值域上建立了偏序关系,称这个属性为一个准则。当所有的属性均为准则时,则称集值信息系统为集值序信息系统。本文仅讨论属性集值为析取型的集值序信息系统,表1所示的是一析取型集值序信息系统。例如,对象x2在属性a3下的取值为{1,2},表示取值为1或2。

表1 析取型集值序信息系统

2.2 集值序信息系统中的优势关系

文献[5]在属性集值为析取型的集值序信息系统中,定义了下面的二元优势关系。

定义1对于给定的集值序信息系统S=<U,AT,V,f>,A⊆AT,定义A上的优势关系:

事实上,优势关系R≥

A也可以写成下面的等价形式:

其中,maxf(x,a)表示 f(x,a)中的最大值,minf(y,a)表示 f(y,a)中的最小值。

3 δ-优势关系

本章首先给出对象x在属性a下关于对象 y的可能优势程度:

其中,|f(x,a)≥f(y,a)|=|{(vx,vy)|vx≥vy,vx∈f(x,a),vy∈f(y,a)}|,(|~|表示集合的基数)。

基于对象之间的优势程度,在集值序信息系统中给出δ-优势关系的定义。

定义2给定集值序信息系统 S=<U,AT,V,f>,A⊆AT,δ∈(0,1],定义A上的δ-优势关系:

定义中δ-优势关系的自反性的构造是合理的,因为对象的属性集值是析取型的,尽管不知道会取哪个值,但一旦取定某个值,对象的属性值就确定下来,不会再去取其他的值。比如 f(x,a)={2,4},一旦确定 f(x,a)=2,f(x,a)就不会再取4,所以,f(x,a)=f(x,a)。

与定义1中优势关系的过于宽松相比,定义2要求两个不同对象只有在属性集值的优势程度达到预先给定的参数值δ时,才认为这两个对象满足优势关系。另外,参数δ是可以根据实际问题特点和需要进行选取的,这样可以得到更加适宜的优势关系,从而对对象的分类更加准确。

由δ-优势关系的定义容易得出下面的结论。

定理1给定集值序信息系统 S=<U,AT,V,f>,B⊆A⊆AT,0<δ1≤δ2≤1,有:

定义3给定集值序信息系统 S=<U,AT,V,f>,B,A⊆AT

4 信息熵和知识粒度

文献[8-9]在单值信息系统中提出知识的信息熵和知识粒度来进行系统的不确定性度量,接下来,在集值序信息系统中,引入知识的信息熵和知识粒度,并讨论其满足的重要性质。

4.1 知识的信息熵

证毕

由信息熵以及δ-优势关系的定义容易看出,知识的信息熵与δ的取值相关,并随参数δ的变化而变化,所以,可将知识A的信息熵写作E(A)(δ)。

定理3给定集值序信息系统 S=<U,AT,V,f>,A⊆AT,当0<δ1≤δ2≤1时,有E(A)(δ1)≤E(A)(δ2)。

定理表明,在集值序信息系统中,知识越精细,知识的信息熵越大;δ-优势关系中参数δ取值越大,知识的信息熵也越大。

4.2 知识粒度

定理4给定集值序信息系统 S=<U,AT,V,f>,B,C⊆AT,若B≺C,有GK(B)<GK(C)。

定理5给定集值序信息系统 S=<U,AT,V,f>,A⊆AT,当0<δ1≤δ2≤1时,GK(A)(δ2)≤GK(A)(δ1)。

以上两定理的证明过程分别与定理2和3的证明过程类似,这里不再一一赘述。结果表明,在集值序信息系统中,知识越精细,知识粒度越小;实际中,随着优势关系中参数δ取值的增大,优势类会变小,知识粒度也变小。

4.3 信息熵与知识粒度之间的关系

定理6对集值序信息系统S=<U,AT,V,f>,A⊆AT,知识A的信息熵与知识粒度有下面的关系:GK(A)+ E(A)=1。

证明 由定义4和5易得。

例5对于表1所示的析取型集值序信息系统,由上面的例3、例4知,对于不同的δ取值,均有E(A)+GK(A)=1,E(B)+GK(B)=1。

5 结束语

实际问题中许多信息系统由于各种原因(如噪声、信息缺损等)均可看作是集值序信息系统。为此,本文在集值序信息系统中提出一种广义的二元优势关系—δ-优势关系,充分考虑对象间的优势程度,结合实际选取参数δ,从而确定合适的优势关系,使得对象的分类更加符合实际。同时,将知识的信息熵和知识粒度引入到集值序信息系统中进行知识的不确定性度量,并证明了知识的信息熵随知识分辨能力的增强而上升,知识粒度随知识分辨能力增强而下降等结论。这些都为集值序信息系统的知识发现和获取提供了理论基础。

[1]Pawlak Z.Rough sets:theoretical aspects of reasoning about data[M].Boston:Kluwer Academic Publishers,1991.

[2]张文修,梁怡,吴伟志.信息系统与知识发现[M].北京:科学出版社,2003.

[3]Guan Yanyong,Wang Hongkai.Set-valued information systems[J].Information Sciences,2006,176(17):2507-2525.

[4]Dai J,Tian H,Liu L.Entropy measures and granularity measures for set-valued information systems[J].Information Sciences,2013,240:72-82.

[5]Qian Y H,Dang C,Liang J Y,et al.Set-valued ordered information systems[J].Information Sciences,2009,179:2809-2832.

[6]Greco S,Matarazzo B,Slowinski R.Rough sets theory for multicriteria decision analysis[J].European Journal of Operational Research,2001,129(1):1-47.

[7]Shannon C.A mathematical theory of communication[J]. The Bell System Technical Journal,1948,27:379-423,623-656.

[8]Liang J Y,Shi Z Z.The information entropy,rough entropy and knowledge granulation in rough set theory[J].International Journal of Uncertainty Fuzziness and Knowledge-Based Systems,2004,12:37-46.

[9]Liang J Y,Shi Z Z,Li D Y,et al.Information entropy,rough entropy and knowledge granulation in incomplete information systems[J].International Journal of General Systems,2006,35:641-654.

[10]Liang J Y,Chin K S,Dang C Y,et al.A new method for measuring uncertainty and fuzziness in rough set theory[J].International Journal of General Systems,2002,31(4):331-342.

[11]Qian Y H,Liang J Y.Combination entropy and combination granulation in incomplete information system[C]// Lecture Notes in Computer Sciecne,2006,4062:184-190. [12]Xu W H,Zhang X Y,Zhang W X.Knowledge granulation,knowledge entropy and knowledge uncertainty measure in ordered information systems[J].Applied Soft Computing,2009,9:1244-1251.

[13]Yao Y Y,Zhao L.A measurement theory view on the granularity of partitions[J].Information Sciences,2012,213:1-13.

BAO Zhongkui

1.School of Mathematical Sciences,Anhui University,Hefei 230601,China
2.School of Management,Hefei University of Technology,Hefei 230009,China

To overcome the shortcoming of the existing dominance relations,a new δ-dominance relation that considers the superiority degree between objects is proposed for set-valued ordered information systems.And then,based on δ-dominance relation,the concepts of information entropy and knowledge granulation are introduced in set-valued ordered information systems to measure the uncertainty.Results show that information entropy and knowledge granulation can evaluate the uncertainty of knowledge in set-valued ordered information systems.

set-valued ordered information systems;δ-dominance relation;information entropy;knowledge granulation

针对已有文献中二元优势关系定义过于宽松的不足,在集值序信息系统中结合对象间的不同优势程度,提出δ-优势关系的概念;基于δ-优势关系,将信息熵和知识粒度引入集值序信息系统中进行不确定性的度量。结论表明提出的信息熵和知识粒度可以精确地度量集值序信息系统的不确定性。

集值序信息系统;δ-优势关系;信息熵;知识粒度

A

TP18

10.3778/j.issn.1002-8331.1402-0056

BAO Zhongkui.Information entropy and knowledge granulation for set-valued ordered information systems.Computer Engineering and Applications,2014,50(24):38-41.

国家自然科学基金(No.71201044,No.71131002,No.71071045);安徽省教育厅资助项目(No.KJ2011Z018);安徽大学青年科学研究基金资助项目(No.33050054)。

鲍忠奎(1981—),男,博士研究生,讲师,主要研究领域为粗糙集理论及其应用、决策分析。E-mail:zkbao@ahu.edu.cn

2014-02-11

2014-04-10

1002-8331(2014)24-0038-04

CNKI网络优先出版:2014-11-04,http∶//www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1402-0056.html

◎理论研究、研发设计◎

猜你喜欢

集值信息熵度量
鲍文慧《度量空间之一》
基于信息熵可信度的测试点选择方法研究
模糊度量空间的强嵌入
具有初边值条件的集值脉冲微分方程的平均法
迷向表示分为6个不可约直和的旗流形上不变爱因斯坦度量
基于信息熵的实验教学量化研究
一种基于信息熵的雷达动态自适应选择跟踪方法
上半连续集值函数的区间迭代
图像面积有限的集值映射
地质异常的奇异性度量与隐伏源致矿异常识别