基于不协调决策信息系统的规则获取

2016-03-16王秋月孙建华郭晓林

中国管理信息化 2016年1期

王秋月，孙建华，郭晓林

（1.河北医科大学附属华北石油管理局总医院信息技术科，河北任丘 062552；2．中国石油华北石油管理局 a.信息中心；b．器材供应处，河北任丘 062552）

基于不协调决策信息系统的规则获取

王秋月1，孙建华2a，郭晓林2b

（1.河北医科大学附属华北石油管理局总医院信息技术科，河北任丘 062552；2．中国石油华北石油管理局 a.信息中心；b．器材供应处，河北任丘 062552）

［摘要］本文提出了一种新的规则获取方法，首先对单决策不协调信息系统采用最大分布约简法进行知识约简，然后通过决策分辨矩阵和决策矩阵函数来获取决策规则，从而挖掘出不协调决策信息系统中具有可信度的隐规则。最后通过实例验证了该算法的有效性，并且在一定程度上弥补了信息系统知识匮乏的缺陷。

［关键词］不协调信息决策系统；最大分布约简；分辨矩阵；决策矩阵函数；规则获取

0　前言

由Pawlak提出的粗糙集理论在处理不精确、不确定、不一致的数据时是一个有效的数学工具，基于粗糙集理论人们已经提出很多的知识约简算法。

知识约简是粗糙集理论的核心问题之一，现已证明决策表的属性约简是NP-hard问题的同时也是知识发现的重要课题。众所周知，知识库中的属性并不是同等重要的，甚至有些是冗余的。知识的冗余，一方面会造成存储空间的浪费，另一方面,会干扰人们提出正确的决策规则。知识约简就是保持知识系统决策和分类不变的情况下，删除不重要或不相关的数据的过程。因此，复杂的信息系统通过知识约简可以使知识表示更加清晰、简洁，从而更加有利于决策规则的形成。

然而现实中的目标信息系统很多都是不协调的，目前针对不协调信息系统的知识约简研究取得了大量的成果。“Comparative studies of alternative type ofknowledgereduction in inconsistent systems”一文提出了两种对不协调信息系统知识约简的方法：分配约简和分布约简。但分配约简可能产生与原系统不相容决策规则，具有一定的局限性。《不协调目标信息系统知识约简算法比较研究》总结了几种知识约简的关系，本质上只有分布约简和分配约简。《不协调目标信息系统的知识约简》提出一种新的较有效的方法，最大分布约简，给出了知识约简的判定定理和分辨矩阵的定义，提供了不协调信息系统理论基础，它弱于分布约简,降低了对信息系统的要求。但是《不协调目标信息系统的知识约简》没有进一步研究规则获取。然而目前规则获取大部分是针对协调决策信息系统的，面向不协调决策信息系统规则获取相关研究成果还鲜有报道，本文采用最大分布约简法，即通过决策矩阵和决策矩阵函数来获取决策规则集。挖掘出系统具有可信度的隐规则，并给出了实例验证，不仅对不协调决策信息系统约简方法加以补充，也同样适用于协调的决策信息系统。

1　不协调决策信息系统的描述

定义1 四元组DT=(U,C∪D,V, f )是一个决策信息系统，其中:U={x1,x2,x3,…,xn}为有限对象的集合，称为论域C={c1,c2,c3,…,cp}为条件属性集；C={d1,d2,d3,…,dq}称为决策属性集，且C∩D=Ø，C≠Ø，D≠Ø；V=∪Vα(Αα∈C∪D)是函数f的值f={fα| fα∶U→Vα,(Αα∈C∪D)}表示决策表的信息函数。

定义2 四元组DT=(U,C∪D,V, f )是一个决策信息系统，若［x］c［x］d，Αx∈U则称该决策信息系统是协调的，反之称不协调的。协调的决策信息系统产生确定性的规则，不协调的决策信息系统产生不确定的规则。

定义3 设(U,R)为近似空间，U为对象集，R是U上的等价关系，则由(U,R)产生的等价类为: U/R={［xi］R}|xi∈R，其中［xi］R={xj|(xi,xj)∈R}。

定义4［1］对任意XU，BC以下集合：。分别称为X关于B的上近似集与下近似集。上近似集是根据知识B可能属于X的U中对象组成的集合。

2　不协调决策信息系统的知识约简

定义5（规则可信度） DT=(U,C∪D,V, f ) 是决策信息系统，U/D={D1,D2,D3,…Dr}决策属性集将对象分r类，XU，BC，，(1≤j≤r)，则称(x)为规则“若y∈［x］B，则y∈DjB”的可信度。

定义6（最大分布约简） DT=(U,C ∪ D,V, f ) 是一个决策信息系统，，则称B是决策信息系统的最大分布协调集。当且仅当B是最大分布协调集，且B的任何真子集都不是最大分布协调集，则称B是决策信息系统的最大分布约简。最大分布协调集的每个对象的最大分布决策类可信度不变。如果B是(U,C∪D,V, f )的最大分布约简，则由属性B产生的不确定规则与C所产生的不确定性规则是完全一致的。

定义7（分辨矩阵）设(U,C∪D,V, f )是决策支持系统，用fm(Ti) 表示属性cm在对象Ti的取值，记:

称D(Ti,Tj) 为Ti,Tj的最大分布分辨属性集，DIS=(D(Ti,Tj) m×m)为最大分辨矩阵［12］。其中最大不可分辨函数是由D(Ti,Tj)中属性的析取得到。若D(Ti,Tj)≠Ø，则∨D(Ti,Tj)=1。

3　规则和决策矩阵的形成

多属性决策和多决策类都可以转化为决策属性值为Yes和No的不协调决策信息系统，所以下面只考虑属性值D={d}，U/ D={D1,D2}。其中:。一个有序对(cm, fm(xj)), fm(xi)为对象xi在属性cm上属性值，规则的形式表示：(cm, fm(xi))→No，(cm, fm(xi))→Yes。同理两个决策值为No的规则集合是决策矩阵的行，D1是矩阵的列，两者组成的序对形成一个矩阵。下面是矩阵元素的求法：设，sj∈D1，如果fm(xi)≠fm(sj)，fm(xi)为对象xi在属性cm上属性值，m=1,2,…,p则第i行，j列矩阵元素为(cm, fm(xi))元素的集合。

《基于粗糙集理论的一种属性约简算法》中还定义了基集和对立集，是基于归纳积极规则的候选集合:YL, YU称为基集；称为对立集。由此得到形成决策规则的多种形式：在此排出了3种情况，因为在形成规则相同的情况，如：YL,形成的规则与相同，因此忽略这3种形式。当：时，不能形成任何的规则，在此就不作证明。

这多种形式的决策规则集对于获得所需规则的价值是不同的，也就是对于这多种形式应采用不同的重视程度，有强弱之分，优先考虑权的区分，显然所形成的规则集越强，说明参考价值越高。规则集强弱程度如图1所示：

图1　规则集强弱示意图

对每一种形式(Y, N)，可以定义如下的决策矩阵D(Y, N)和决策矩阵函数μ(Y, N)。

决策矩阵的元素Dij(Y, N)定义如下：

Dij(Y, N)={cm, fm(ri)|fm(ri)≠fm(sj)

fm(sj)≠*,cm∈C},ri∈Y, Sj∈N

4　基于不协调决策信息系统的规则获取

4.1规则获取规则描述：

输入：不协调决策信息系统S=(U,C∪D,V, f )；输出：决策规则集合。

4.2详细步骤

Step1：由不协调决策信息系统得到DIS=(D(Ti,Tj) m×m)（最大分布分辨矩阵）——分辨矩阵中不同属性的并集。然后利用M=∧(Ti ,Tj)∈D*(∨D(Ti,Tj))（最大分布分辨函数）对各项合取值，求最大分布约简。

Step2：根据最大分布约简B，形成新的不协调决策信息系统M=(U,C∪D,V1, f1)。

Step3：求出新的决策信息系统S=(U,C∪D,V1, f1)的基集(YL, YU)，对立集。但大多数只考虑最强的一种，即

Step5：输出决策规则集合。

综上所述算法中，因为每个序对具有强弱之分，所以所对应的决策规则也具有不同的参考价值，序对越强，所获取的决策规则越有参价值。由于多种情况的决策规则集可信度各有不同，使该算法在数据挖掘方面有很广的应用范围，可以根据不同的应用领域选择不同程度可信度的决策规则集来进行数据挖掘工作。但是目前每种决策规则集还没有一个统一的量化标准值，也就是没有确定的方法来求出每种决策规则的可信度值，因此还不能准确根据具体情况来确定相应的规则集。

5　基于不协调决策信息系统规则获取的实例分析

以上算法步骤，以某品牌数码相机销售表为例，进行实例分析，来进一步验证该算法的可行性。销售表如表1所示，对象集U={u1,u2,u3,u4,u5,u6,u7,u8}，条件属性集C={a1,a2,a3,a4}={大小，功能，款式，颜色}，决策属性D={d}={是否购买}。

表1　某品牌数码相机销售表

（1）求最大分布约简

那么{a1,a2}，{a1,a4}是决策信息系统的最大分布协调集，也就是最大分布约简。第二步的任务是获取这七对序对的不确定性决策规则集。新的决策信息系统以a1,a2为条件属性来进行决策规则集的归纳。

首先由(NU,YL)得到的矩阵如表2所示:

表2　由(NU,YL)得到的矩阵

=（复合型∧复合型）∧（小型∧小型）=复合型∨小型最终得到可能的决策属性值为No的规则集合：

（4）决策矩阵函数

=(简易型∧正常)∨(简易型∧正常)

=(简易型∧正常)；(a1,正常)∧(a2,简易型)→接受

表3　基于(YL,)的决策矩阵

YL NˆU s1 s2 {(a1,正常)} {(a1,正常)} u1 u2 {(a2,简易型)} {(a2,简易型)}

（5）最强的序对

(YL,)对应的决策规则集为(a1,正常)∧(a4,黑色)→接受。此规则集的可信度最高，与实例分析表中的数据无任何冲突，也符合实际的事实，同时它是所有决策规则集中最具有参考价值的。(YL,所对应的决策规则集的可信度次之，依次遵循图1所示的顺序，最弱的是(YL, NU)。目前只是根据实际情况进行估计来选择适当的决策规则集来参考，目前每种决策规则集还没有一个统一的量化标准值。

6　结语

对于不协调决策信息系统，通过规则提取算法来挖掘出系统具有可信度的隐规则，在一定程度上弥补了信息系统知识匮乏的缺陷，通过最大分布约简找出那些使决策最可能发生的数据，从而实现系统的最优选择，使获取规则可信度最大。

本文在粗糙集理论的粒度计算模型框架下，将经典粗糙集理论应用于不协调决策信息系统中，对不协调决策信息系统约简方法加以补充，并以实例来验证该方法的有效性，具有一定的实际意义，显然该方法同样适于协调的决策信息系统。

主要参考文献

［1］Z Pawlak.Rough Sets-Theoretical Aspects of Reasoning about Data［M］. Dordrecht：Kluwer Academic Publishers,1991.

［2］M Kryszkiewicz．Comparative Studies of Alternative Type of KnowledgeReduction in Inconsistent Systems［J］．International Journal ofIntelligent Systems,2001(1)．

［3］张文修,吴伟志,梁吉业,等．粗糙集理论与方法［M］．北京：科学出版社,2001．

［4］苗夺谦,胡桂荣．知识约简的一种启发式算法［J］．计算机研究与发展,1996(6)．

［5］常犁云,王国胤,吴渝．一种基于Rough Set理论的属性约简及规则提取方法［J］．软件学报,1999(11)．

［6］王国胤,杨大春.基于条件信息熵的决策表约简［J］.计算机学报,2004(7)．

［7］官礼合,王国胤,于洪.属性序下的增量式Pawlak约简算法［J］.西安交通大学学报,2011(3).

［8］米据生,吴伟志,张文修.不协调目标信息系统知识约简算法比较研究［J］.模糊系统与数学,2003(3).

［9］张文修,米据生,吴伟志．不协调目标信息系统的知识约简［J］.计算机学报,2004(1).

［10］马光志,吴黎明.基于粗糙集理论的一种属性约简算法［J］.计算机工程与应用,2006(18)．

［11］谭旭.改进分辨矩阵下的增量式条件属性约简方法算法［J］.系统工程理论与实践,2010(9).

［12］胡雷刚,肖明清,方甲永.不协调信息的协调近似表示空间故障诊断方法［J］.系统工程与电子技术,2011(8).

［收稿日期］2015-12-18

［中图分类号］TP18

［文献标识码］A

［文章编号］1673-0194(2016)02-0193-03

doi：10.3969/j.issn.1673 - 0194.2016.02.150

中国管理信息化

2016年1期