粗 糙 集 理 论 的 研 究 述 评
2011-04-12霍桂利
□霍桂利
(山西建筑职业技术学院,山西 太原 030006)
一、粗糙集理论
在经典逻辑中,只有真、假值之分,但在现实生活中有许多含糊现象并不能简单地用真、假值来表示,如何表示和处理这些现象就成为一个研究领域。长期以来许多逻辑学家和哲学家就致力于研究含糊概念。早在1904年谓词逻辑的创始人G.Frege就提出了含糊一词,他把它们结到边境线上,也就是说在全域上存在一些个体既不能在其某个子集上分类,也不能在该子集的补集上分类。
1965年,Zadeh提出了模糊集,不少理论计算机科学家和逻辑学家试图通过这一理论解决G.Fewge的含糊概念,故无法计算出它的具体的含糊元素数目,如模糊集中的隶属函数和模糊逻辑中的算子都是如此。时隔20年后的80年代初,波兰的Pawlak针对G.Frege的边界线区域思想提出了粗糙集,他把那些无法确认的个体都归属于边界线区域,而这种边界线区域被定义为上近似集和下近似集之差集。由于它有确定的数学公式描述,所以含糊元素数目是可以计算的,即在真假二值之间的含糊度是可以计算的。粗糙集理论主要特点在于它恰好反映了人们用粗糙集方法处理不分明问题的常规性,即以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力。80年代以来经过许多计算机科学家和数学家的不懈研究,粗糙集已经从理论上日趋完善,特别是由于80年代末和90年代初在知识发现等领域得到了成功的应用而越来越受到国际上的广泛关注。相对于其他处理不确定性和模糊性的理论工具而言,粗糙集理论有着许多不可替代的优越性。经过近几年的研究和发展,它已经在信息系统分析、人工智能及应用、决策支持系统、知识与数据发现、模式识别与分类、故障检测等方面取得了较为成功的应用。
粗糙集概念在某种程度上与许多其他为处理含糊和不精确性问题而研制的数学工具有相似之处,主要区别在于Dempster-Shafer理论利用信度函数作为主要工具,而粗糙集理论利用集合——下近似集和上近似集。另一种关系存在于模糊集理论和粗糙集理论之间。粗糙集理论与模糊集理论多方面对照,不是和模糊集竞争,而是补充它。总之,粗糙集理论和模糊集理论对于不完全的知识来说它们是各自独立的方法。此外,有一些关系存在于粗糙理论和辨别式分析之间,于Boolean推理方法之间,于决策分析之间。
粗糙集理论的主要优势之一是它不需要任何预备的或额外的有关数据信息,比如统计学中的概率分布,Dempster-Shafer理论中的基本概率赋值,或者模糊集理论中的隶属度或概率值。必须指出,粗糙集理论也不是万能的,对建模而言,尽管粗糙集理论对知识不完全的处理是有效的,但是,由于这个理论未包含处理不精确或不确定原始数据的机制。因此,单纯地使用这个理论不一定能有效地描述不精确或不确定的实际问题,这意味着,需要其他方法补充。一般地说,由于证据理论与模糊集理论等具有处理不精确和不确定数据的方法(尽管在描述上不一定方便),因此,将他们与粗粗集理论构成互补是自然的考虑。为了能更好地理解粗糙集理论的本质和特点,本文介绍粗糙集理论的一些基本定义,目的在于阐明粗糙集的思想本质,以及与其他处理不确定性和模糊性数学工具的不同之处。
二、粗糙集的扩展模型
在数据中存基本粗糙集理论和其他处理不精确与不确定的方法相比具有独特之处,然而仍然存在着某些片面性与不足之处。目前,大多数成功的应用都从不同的侧面对基本粗糙集理论进行了拓广。基本粗糙集理论是假设对于已知的对象全域拥有必要知识的前提之下的,是处理模糊性和不确定性的一种数学工具,本质上可认为是一种三值逻辑(正区域、边界区域和负区域)。基本粗糙集理论主要存在以下问题:(1)对原始数据本身的模糊性缺乏相应的处理能力;(2)对于粗糙集的边界区域的刻画过于简单;(3)粗糙集理论的方法在可用信息不完全的情况下将对象归类于某一具体的类,通常分类是确定的,但并未提供数理统计中所常用的在一个给定错误率的条件下将尽可能多的对象进行分类的方法,而实际中常常遇到这类问题。
三、基于粗糙集的非单调逻辑
自粗糙集理论提出以来,粗糙集理论的研究者都很重视它的逻辑研究,试图通过粗糙集建立粗糙逻辑,也相应地发表了一系列的粗糙逻辑方面的论文。如Z.Pawlak于1987年发表了题为“Rough Logic”的论文,他在这篇论文中给出了其逻辑公式的语义解释:真、假、粗糙真、粗糙假和粗糙非一致性。这5种值可视为不同的近似程度,但他们缺乏确切的数学描述,认为研究粗糙逻辑——基于粗糙集的不精确推理逻辑——可能是最重要的课题。T.Y.Lin和Q.Liu等人基于拓扑学观念定义了粗糙下近似算子L和粗糙上近似算子H,这两个算子的语法性质分别与模态逻辑的必然算子□和可能算子◇十分相似,因而带有L和H算子的逻辑公式被称为粗糙逻辑公式,并建立了与模态逻辑相似的公理化粗糙逻辑演绎系统和相平行的演绎规则,但由于其定义的一阶粗糙逻辑在语义上,就L和H而言是含糊的,无法从数学上给出解释。但其毕竟指出了研究的方向,亦即必须给出L和H的数学意义,这样才能使得由L和H构成的逻辑公式也有相应的数学意义。进而,基于粗糙集理论定义了近似度λ*和λ*,它和基于专业领域的不精确数和经验数一起组成粗糙数,并讨论了粗糙逻辑的性质和λ∈[λ*,λ*]在逻辑公式解释上的价值。另外,1996年底在日本召开的第5届国际粗糙集研讨会上提出了一种精度算子粗糙逻辑(AORL),并给出其归结推理的过程。
四、与其他数学工具的结合
粗糙集与Fuzzy集并非是对立的理论,两者既互相区别,又互相补充。从根本上讲,粗糙集体现了集合中对象间的不可区分性,即由于知识的力度而导致的粗糙性;而Fuzzy集则对集合中子类的边界的不清楚定义进行模型化,它体现的是隶属边界的模糊性。它们处理的是两种不同的模糊和不确定性,两者的有机结合可能更好地处理不完全知识。D.Dudios和H.Prade由此提出了粗糙Fuzzy Set和Fuzzy粗糙Set的概念。其主要思想是当等价关系使模糊集合的论域变得粗糙时,定义此模糊集合的相应上近似和下近似;或者把等价关系弱化为模糊相似关系,从而得到一个更具表达力的粗糙模型。并通过相似关系对模糊集合的上近似和下近似的性质进行了详细研究,指明了在不分明性和模糊谓词同时存在的情况下,Fuzzy粗糙Set概念在逻辑推理方面的潜在用途。D.Dudios和H.Prade同时指出,Shafer的证据理论和Z.Pawlak的粗糙集理论是不同术语下的同一模型。A.Skowron和J.Grazymala-Buss给出了更具体的结论。他们认为,粗糙集理论可以看作证据理论的基础。并在粗糙集理论的框架上重新解释了证据理论的基本概念,特别是用上近似和下近似的术语解释了信念(belief)和似然(plausibility)函数,进而讨论了两者之间的互补问题。
五、粗糙集的实验系统
粗糙集理论已经被证实在实践中是非常有用的,从大量的现实生活中应用的记录来看已经非常明显。这一理论对于认知科学尤为重要,在决策支持、专家系统、归纳推理、开关电路等方面有了重要的应用。近年来,粗糙集理论在数据库领域知识发现(KDD)中的应用取得了较大的进展,基于粗糙集理论的方法逐渐成为KDD主流方法之一。知识发现或数据库的数据挖掘是AI的一个相对新的子领域,它涉及到从不断增长的企业信息数据库中挖掘出额外的非平凡的知识。在这方面,主要任务之一是内部数据之间的关联和关系。但是,尽管粗糙集理论对模糊和不完全知识的处理比较出色,但其对于原始模糊数据的处理能力较弱。因此和其他方法如模糊数学、神经网络等结合将会取得更好的效果。基于粗糙集的KDD系统一般都由数据预处理、基于粗糙集或其扩展理论的数据约简、决策算法等部分组成。其大概思想是先进行必要的数据预处理,为数据约简做准备,然后求出约简或近似约简,并在此基础上根据值约简等减少属性和个体数目,最终提取规则并将之应用于新对象的分类。
在过去几年中,建立了不少基于粗糙集的KDD系统,其中最有代表性的有LERS、ROSE、KDD-R和Rough Enough等。
LERS。LERS(Learning from Examples based on Rough Set)系统是美国Kansas大学开发的基于粗糙集的实例学习系统。它是用Common Lisp在VAX9000上实现的。LERS已经为NASA的Johnson空间中心应用了多年,它是作为一种开发专家系统的工具被应用的,这种类型的专家系统大多数可能被应用于医疗决策。此外,LERS还被广泛地用于环境保护、气候研究和医疗研究。
ROSE。波兰Poznan科技大学基于粗糙集开发了ROSE(Rough Set data Explorer),用于决策分析。它是Rough Das & Rough Class系统的新版,其中Rough Das执行信息系统数据分析任务,Rough Class支持新对象的分类,这两个系统已经在许多实际领域中得到应用。ROSE是运行在PC兼容机Windows/NT上的交互式软件系统。ROSE的计算模块具有如下特征:数据校验和预处理;采用Fayyad和Irani离散化算法对连续值进行自动离散化处理;用标准的粗糙集模型或可变精度粗糙集模型对条件属性进行定性评估;用Romanski和Skowron等人的算法发现属性核及信息表的约简;考察属性对目标分类的相对重要性;选择最重要的属性进行目标分类,删除冗余属性;用LEM2算法或Explore算法获取决策规则;获取规则的后处理;用决策规则对新目标进行分类;用K叠交叉验证方法对决策规则集进行评价。
ROSE的信息表数据采用ISF(information system file)文件格式,是一种纯文本格式。属性分为条件属性和决策属性。
KDD-R。KDD-R是由加拿大的Regina大学开发的基于可变精度粗糙集模型,采用知识发现的决策矩阵方法开发了KDD-R系统,这个系统被用来对医学数据分析,以此产生症状与病症之间新的联系,另外它还支持电信工业的市场研究。该系统由四部分组成:数据预处理;基于VPRS模型的属性依赖分析和消除冗余属性;规则提取;决策。
六、粗糙集的展望
粗糙理论在许多实际生活中是完备和十分有用的。粗糙理论提供了在许多分枝上应用的有效的方法。粗糙理论的粗糙逻辑的研究是值得重视的课题,因为这种逻辑将使单调逻辑非单调化,从而在AI的近似或不精确推理中将发挥出不可估量的作用,可见基于粗糙集方法的不精确推理的粗糙逻辑的研究将是十分有前途的。粗糙集理论的另一项重要的课题则是粗糙函数的理论和实践的研究。粗糙函数的各种近似运算,粗糙函数的基本性质,关于他的粗糙连续,粗糙可导,粗糙积分和粗糙稳定性,粗糙函数控制及建立由粗糙是函数控制的离散动态系统等都是典型的问题,这些问题都要求在粗糙理论的模型下,给予公式化。这些问题的研究将对定性推理方法的研究有所贡献。这些研究实质上是使数学离散化。如此,连续数学也能被现代计算机所接受。
基于粗糙理论集的控制也是一个非常有前途的应用领域,而粗糙集理论对于神经网络和遗传算法的开发也很重要。如何将粗糙集理论,模糊集理论,证据理论和概率论等不确定的理论用一个同意的逻辑模型来解释也是很值得研究的。
目前,粗糙集理论的研究还有几个领域比较引人注目:(1)在继承原始粗糙集模型的基本教学性质的前提之下,研究如何扩展模型,以更好地用于数据压缩与信息分析等。(2)在分布式粗糙集环境下,不完全的或不确定的知识表示和多Agent之间知识转换问题。(3)在特定代数结构上,如何引入上近似与下近似的概念,并研究其数学性质,例如研究概念格结构上的粗糙集运算的定义以及相互关系等。(4)粗糙集理论与形式语言之间关系的研究等。
从数据库知识发展角度看也有一些可能的研究方向和应用领域:高效约简算法。高效的简约算法是粗糙集应用于只是发展的基础,目前尚不存在一种非常有效的方法。因此,寻求快速的简约算法及增量版本仍然是主要研究方向之一。大数据集问题。现实中的数据库已经越来越大,粗糙集理论如何应付这一挑战仍旧是一个问题。虽然现在已经有一些有益的探索,但是还是没有找到一种令人满意的方法。可能的解决方案有采样,并行化等,更需要发展相应的算法。多方法融合。现在有许多种数据挖掘方法。实验表明,还没有一种方法在所有的测试集上都表现出众。因此多种方法的融合可能是进一步提高分类效率的途径之一。
参考文献:
[1]王清毅, 张波, 蔡庆生.目前数据挖掘算法的评价[J].小型微型计算机系统,2000,(3).
[2]胡侃, 夏绍玮.基于大型数据仓库的数据采掘研究综述[J].软件学报,1998, (1).
[3]陆建海,刘海峰. 数据库中广义模糊关联规则的挖掘[J].工程数学学报,2000,(1).
[4]马洪文,王万学,李振江.广义模糊关联规则的挖掘[J].黑龙江商学院学报,2000,(2).