归纳逻辑视野下的数据挖掘研究综述
2012-08-15杨宁芳
杨宁芳
(1.西南大学逻辑与智能研究中心,重庆 400716;2.中国计量学院,杭州 310018)
归纳逻辑视野下的数据挖掘研究综述
杨宁芳1,2
(1.西南大学逻辑与智能研究中心,重庆 400716;2.中国计量学院,杭州 310018)
对归纳逻辑思想在数据挖掘中的应用研究进行了综述。国外的研究主要集中在人工智能方面,重点是高阶归纳逻辑研究,通过多态归纳逻辑、机器学习等方面发展了归纳逻辑理论。国内的研究集中在知识发现方面,例如通过研究关联规则等探讨知识发现的内在机理。相对来说,国外的发展更偏重于应用领域,而国内也在不断扩展归纳逻辑的理论应用,但在数据挖掘领域研究仍然偏少。
归纳逻辑;数据挖掘;知识发现;人工智能
主持人语:中国逻辑学会秘书长 邹崇理研究员
本期的“逻辑学与科学方法论”栏目收录的两篇论文分别是关于逻辑哲学理论的阐述与逻辑方法应用之探析的。杨宁芳博士的《归纳逻辑视野下的数据挖掘研究综述》一文系统梳理了国内外学界对于归纳逻辑思想在数据挖掘领域应用的研究,并总结了该研究在理论与实践中的意义。陈昱竹的《蒯因论逻辑真理》一文则关注于逻辑哲学的核心——逻辑真理,该文在梳理莱布尼茨到维特根斯坦等前辈学者对逻辑真理的论述的基础上,系统地介绍了蒯因从结构、代换、模型、证明和语法上对逻辑真理作出的不同于以往的阐释。
一、归纳逻辑与数据挖掘的发展
科学发展史表明,归纳逻辑在推动科技进步、促进科技发展方面起着巨大作用,自然科学的经验定律、经验公式大都是应用归纳法总结出来的。随着信息技术的发展,归纳逻辑在计算机应用方面得到了广泛的发展,例如归纳逻辑与知识创新,归纳逻辑与人工智能,归纳逻辑与认知科学,归纳逻辑与科学决策,以及从应用归纳逻辑角度对人类思维的认知基础与方法进行系统的研究等。知识发现与数据挖掘作为互联网及相关产业的核心技术,有着广泛的应用领域和发展前景,因此归纳逻辑和数据挖掘及知识发现的研究有着巨大的理论价值和应用价值。
数据日益增多的现实推动了数据挖掘和知识发现技术空前的繁荣。从保健管理到社群网相互作用,数据已经成为我们生活的组成部分。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。该技术根据人们的特定要求,从浩如烟海的数据中找出所需的信息来,供人们的特定需求使用。从理论上说,数据挖掘就是在操作者的主动参与下进行知识发现的过程。知识发现是指在积累了大量的数据后,从中识别出有效的、新颖的、潜在的、最终可以理解并加以有目的运用的知识,该技术是信息化社会发展到一定程度的必然产物,是从宏观角度利用积累数据进行知识抽象的高级阶段。而归纳逻辑是指人们以一系列经验事物或知识素材为依据,寻找出其服从的基本规律或共同规律,并假设同类事物中的其他事物也服从这些规律,从而将这些规律作为预测同类事物中的其他事物的基本原理的一种认知方法。从归纳逻辑和数据挖掘的定义来看,两者之间存在着某种必然的联系。两者的联系到底体现在哪些方面?如何将已有的归纳逻辑理论应用到数据挖掘中,从而为数据挖掘提供新的思路和新的技术和方法?这些问题的研究都具有很高的理论意义和现实意义。
据国外专家预测,随着数据量的日益积累和计算机的广泛应用,在今后的5至10年,数据挖掘将在中国形成一个新型的产业,应用领域包括设计、零售、金融、银行、医疗、政府决策、企业财务、商业决策等,具有广阔的发展前景。应用归纳逻辑提升数据挖掘在相关领域的技术和方法,不仅具有实用价值而且具有巨大的经济价值。如果能够找到新的数据挖掘技术和方法,将带来非常大的经济利益。
随着人们认识与研究的深化,尤其是现代科技和社会的发展、信息化时代的到来,人们原有的对问题的描述处理工具和方法受到严峻挑战,现实要求研究必须是经验与理性的结合,必须以现实世界的实际问题为出发点,而不是以公理为出发点,因而归纳逻辑的作用显得尤为突出。这在人工智能、知识工程、虚拟技术、网络化和数据挖掘等的需求中充分地表现了出来。以人工智能研究为例,诚然,演绎逻辑是计算机科学的理论基础,但人工智能研究却离不开归纳逻辑。可以说,没有归纳逻辑,特别是没有现代归纳逻辑,就没有人工智能研究。在人工智能研究过程中,一些计算机专家不得不踏入归纳逻辑领域,从而也推动了归纳逻辑理论的进一步发展,同样,归纳逻辑理论也必然会推动数据挖掘技术和方法的探索。
目前,归纳逻辑研究的重点正从理论体系构建逐渐转向实际应用。本文沿袭这一发展趋势,通过研究归纳逻辑,为数据挖掘技术提供新的理论支持,同时为逻辑学界扩展了一个新的应用领域,为归纳逻辑的发展提供了动力。通过将归纳逻辑理论应用于数据挖掘以及知识发现中,以及将计算机逻辑和人脑逻辑之间的运行机制进行比较,必将对数据挖掘算法的研究产生影响,推动其更新。
二、国外研究现状
20世纪40年代到70年代是国外归纳逻辑蓬勃发展的时期,现代归纳逻辑分成了四大派别,即经验主义学派、逻辑贝叶斯主义学派、主观贝叶斯学派(频率学派、逻辑学派)和私人主义学派。这一阶段取得了很多成果,也遇到了不少难题,随后逻辑学界对归纳逻辑的研究逐渐减弱。80年代之后人工智能的学者进入了这个领域,他们汲取逻辑学的思想精华,不断推出新的成果,为归纳逻辑的研究带来了生机和活力。人工智能领域机器学习的核心是归纳学习问题,与归纳逻辑有关的机器学习方式主要有:示例学习、基于说明的学习、启发式学习、类比学习、联结主义学习等。这些方面的研究使人们重新开始重视归纳逻辑的相关研究。
国外新的归纳逻辑理论研究较少,只有Jürgen Landes、Jeff Paris和 Alena Vencovská介绍了多态归纳逻辑,提出一些de Finetti风格的、满足谱交换的概率函数[1]。目前大部分最新的研究集中在高阶归纳逻辑程序和数据挖掘的研究方面。归纳逻辑与归纳逻辑程序在研究对象上是一致的,都以归纳为研究对象。只不过归纳逻辑侧重于归纳推理,强调理论研究,它的目标主要是追求理论上的协调与完美;而归纳逻辑程序设计则侧重于模拟人类最初的归纳思想,也即亚里士多德提出的从个别到一般的过程,它以实用性和效益为出发点,例如运用高阶归纳逻辑程序设计以解决形式相关的数据挖掘方法存在的问题。例子、背景知识、假设和目标的概念都可用于高阶逻辑程序设计语言。这种程序设计语言能够描述复杂数据所表达的语意和模式,明确地支持包括图形在内的各种不同的数据类型。
David、Skillicorn和Yu Wang提出归纳逻辑是机器学习与逻辑程序的交叉点,其应用越来越广泛,对数据挖掘的方法有很好的指导意义[2]。他们认为可以从实例提炼归纳逻辑研究构架,从子句提供逻辑。这样就提供了一个统一的表现形式和表达手段的例子、背景知识。而由此引起的理论都是表达的一阶逻辑。这样一种富于表现力的表达非常重要,所以人们会很自然地考虑运用平行度提高归纳逻辑数据挖掘的性能。他们提出一个并行化技术,并实施了一个核心归纳逻辑程序设计系统:Progol。该技术提供了一个最理想的分割计算数据访问和交流需求的手段,使线性加速很容易实现。同时他们还讨论,为什么信息流程的技术允许在多个数据集的性能结果和平台报道中使用线性加速标准序列的算法。
Luc de Raedt提出值得注意的几个问题,推理涉及不确定性、数据挖掘、机器模拟学习。他重点介绍基于逻辑编程方法的原则[3]。他关心形式化和系统、实现和应用,以及理论归纳逻辑程序设计的概率。他同时介绍了概率归纳逻辑程序;而且详细介绍了机器学习中最重要的概率逻辑关系的形式化和系统等技术,并应用马尔可夫的逻辑、棱镜系统、贝叶斯逻辑程序、自主选择的逻辑进行程序设计。
哲学逻辑的发展中,模态逻辑、道义逻辑、多值逻辑,包括量子逻辑越来越受到关注。而归纳逻辑相对关注度在下降,目前归纳逻辑思想主要体现在归纳逻辑程序设计、人工智能、知识发现等方面。数据挖掘则建立在高阶的归纳逻辑程序设计的基础上。
三、国内研究现状
与国外相比,国内对数据挖掘的研究起步稍晚,没有形成整体力量。1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及应用研究。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究;北京大学也在开展对数据立方体代数的研究;华中理工大学、复旦大学、浙江大学、中国科学技术大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘。
国内在归纳逻辑和计算机技术结合方面,王雨田首先倡导并开展了概率逻辑与人工智能相结合的研究。他提出将现代归纳逻辑与人工智能“嫁接”起来的设想,并建立了一个包括逻辑工作者和计算机工作者的课题组。我国学者鞠实儿、陈炜、陈晓平、韩建超等在这方面做了大量的工作。其他学者包括任晓明、何向东、桂起权、熊立文、杨炳儒等也在这方面取得了相关的研究成果。
桂起权认为,经典逻辑(尤其是归纳逻辑)的研究已经进入新阶段,不仅突破了经典演绎逻辑的狭隘眼界,而且开始突破纯粹逻辑学家的圈子,计算机人工智能研究者已经加盟于归纳逻辑知识创新的事业。归纳逻辑学者不再仅仅满足于公理系统的抽象的形式美,而是更多地考虑人工智能应用研究的新特点和新要求,并与之接轨。在科学哲学、人工智能和归纳逻辑的交叉点上已经出现了一个新的研究领域。
刘宏岚、高庆狮、杨炳儒提出:标准概率逻辑系统是标准概率空间的逻辑表示。其中命题是随机事件的语言表示,命题的真值是命题所表示的事件的概率,真值满足概率的公理化定义,具有概率的一切性质;命题间的关系是命题所表示的事件间的关系;命题的逻辑运算是事件运算的逻辑表示。概率逻辑中,命题或命题公式间的相等关系有两个层面:等值和等义。其中等值就是真值相等[4]。
崔阳、杨炳儒提出关联规则挖掘一直是数据挖掘领域中最重要、最活跃的研究内容之一[5]。关联规则描述事物之间的关联性,但是通过支持度和置信度这两个评价标准可知,关联规则的挖掘过程中仅仅关注联合概率表的一部分,因此存在着无法完全反映出事物间相关性的缺点。针对这一问题,研究者通常采取一些关联分析方法,对得到的关联规则挖掘结果作进一步分析,以便尽可能多地获取有意义的和用户感兴趣的规则,但尚不能完全克服上述缺点。
因果关联规则是一类特殊的关联规则,指规则的前件与后件之间存在因果关系,由于“因”的出现而导致“果”的发生。因果关联规则与一般关联规则的不同之处在于:前者规则的前件与后件之间不但具有关联性,而且具有因果性;前者可以使用较为完备的推理机制进行推理。有关因果关联规则的挖掘,目前专门的研究还不是很多。但实际上因果关联规则是知识发现中一个重要的知识类型,它能够反应客观事物之间更为本质和内在的联系。之所以选择广义归纳逻辑因果模型,主要是考虑到其具备较好的归纳推理机制,有利于在此基础上形成不确定性因果归纳推理的计算模型和自动推理机制。
李琳娜、杨炳儒提出,逻辑的复杂结构归纳学习方法的成果最早见于基于一阶逻辑知识表示方式归纳逻辑程序设计(Inductire Logic Programming,LIP),继而出现了基于高阶逻辑的复杂结构学习方法[6]。基于高阶逻辑的复杂结构学习方法涵盖并拓展了基于一阶逻辑知识表示方式的ILP方法的学习能力。他们首先介绍基于一阶逻辑知识表示方式的ILP方法,然后在分析一阶逻辑与高阶逻辑知识表示方式及其学习机制之间区别和联系的基础上,介绍基于高阶逻辑的复杂结构学习方法。目前,ILP已经在知识获取、科学发现以及逻辑程序设计方面取得了许多重要成果。
梁开健、梁泉、杨炳儒提出随着数据量的海量扩张、数据类型的复杂化,矛盾知识的问题越发突出,成为KDD领域中一个亟待解决的问题[7]。通过对知识发现内在机理的研究,探讨在动态的知识发现过程中矛盾知识的产生原因以及矛盾区间的求解方法,对解决当前所面临的若干难题将具有一定的理论和实践意义。
四、国内外研究之比较
从对国外和国内的研究现状的梳理可以看出,国外研究主要集中于高阶归纳逻辑程序设计方面,以实际应用为主。国内学者也开始注重归纳逻辑的应用问题,目前主要将归纳逻辑应用于人工智能和知识发现,但很多研究都是介绍性的,缺乏具体的应用实例。而我们想将数据挖掘这一目前热门的应用问题和归纳逻辑理论结合起来,相对来说,国内外相关研究仍旧较少。通过对这个问题的研究,希望能推动我国数据挖掘方法和技术的进一步发展,将归纳逻辑理论应用于数据挖掘中,从而使其更好地应用于实践。
五、在归纳逻辑的视野下研究数据挖掘的创新之处
1.理论上的创新
首先,相关研究从归纳逻辑和数据挖掘的角度分别深入研究了两者的特征,对数据挖掘的理论基础进行了总结概括,探讨了如何将已有的归纳逻辑理论应用于数据挖掘。研究涉及凯恩斯类比理论在数据挖掘中的应用,莱辛巴赫、卡尔纳普的归纳逻辑思想,勃克斯归纳逻辑机器哲学在数据挖掘中的体现,以及科恩的归纳逻辑理论在数据挖掘中的应用和冯赖特的条件化归纳逻辑与数据挖掘。研究思路主要是试图通过对归纳逻辑思想的探讨,挖掘出有价值的方法将其应用于数据挖掘。这些研究领域和研究内容都具有创新性。
其次,数据挖掘研究为归纳逻辑的理论发展提供了重要的支持。归纳逻辑的研究方法可以借助于数据挖掘搜集数据的方法,数据挖掘应用可以对归纳逻辑理论进行评价和判断。数据挖掘产生的新问题,可以用归纳逻辑理论进行解释和说明。数据挖掘的算法和技术对归纳逻辑方法的进步也有重要作用。通过我们的研究,最终将为丰富和发展归纳逻辑理论提供一定的思路。
2.技术上的创新
基于归纳逻辑视野下的数据挖掘丰富和发展了现有的数据挖掘的技术模式。一方面优化了现有的方法,另一方面也为新的数据挖掘技术方法的出现奠定了基础。从归纳逻辑的视野研究计算机技术,目前主要在人工智能领域应用较多。我们将其应用于数据挖掘以及知识发现必将丰富和发展数据挖掘技术和方法,在技术上进一步推进相关领域的研究的发展。
[1]Jürgen Landes,Jeff Paris,Alena Vencovská.Some Aspects of Polyadic Inductive Logic[J].Studia logica,2008,90(1):17 -23.
[2]David B,Skillicorn,Yu Wang.Parallel and Sequential Algorithms for Data Mining Using Inductive Logic[J].Knowledge and Information Systems,2001,3(11):405-421.
[3]Raedt Luc de.Inductive Logic Programming [M].[S.l.]:springer verlag gmbh,2011.
[4]刘宏岚,高庆狮,杨炳儒.概率命题逻辑中命题相等关系的两个层面与命题演算[J].哲学研究,2009(10):113-120.
[5]崔阳,杨炳儒.知识发现中的因果关联规则挖掘研究[J].计算机工程与应用,2009(31):9 -11.
[6]李琳娜,杨炳儒.复杂结构归纳学习研究[J].计算机工程与应用,2008(5):1-6.
[7]梁开健,梁泉,杨炳儒.动态KDD过程中矛盾规则的研究[J].计算机应用研究,2006(1):79 -81.
Data Mining from the Perspective of Inductive Logic
YANG Ning-fang1,2
(1.Logic and Intelligence Center,Southwest University,Chongqing 400716,China;2.China Jiliang University,Hangzhou 310018,China)
The induction logic thought in data mining application of relevant research is reviewed in this paper.Foreign researches mainly focus on artificial intelligence,and the major point is the high order induction logic research.Through polymorphism inductive logic,machine learning,etc.,the inductive logic theory is developed.The domestic research focuses on the knowledge discovery,such as the formulation of association rules and discusses the inner mechanism of knowledge discovery.Relatively speaking,foreign development puts more stress on the fields of application;and the application of the inductive logic theory is also expanding domestically,but in data mining field,the study is still inadequate.
inductive logic;data mining;knowledge discovery;artificial intelligence
B81
A
1674-8425(2012)05-0006-04
2012-02-29
杨宁芳(1970—),女,浙江仙居人,哲学博士,副教授,硕士生导师,研究方向:论证理论。
(责任编辑 王烈琦)