知识库和知识发现技术在知识服务方面的应用
2009-10-13李伟赵卫利刘冠群曹忠民
李 伟 赵卫利 刘冠群 曹忠民
〔摘 要〕知识服务作为面向内容的增值服务,需要对知识进行系统化、综合化、深入化地加工、组织和处理。知识库和知识发现是知识服务的关键技术,在知识服务活动中发挥着重要作用。本文通过对知识库和知识发现的探讨,特别是知识发现在知识库中应用的研究,对其在知识服务中所发挥的作用进行了阐述。
〔关键词〕知识服务;知识库;知识发现
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)07-0180-03
The Application of Knowledge Base and Knowledge
Discovery Technology in Knowledge ServiceLi Wei Zhao Weili Liu Guanqun Cao Zhongmin
(Library,Hebei University of Scientific and Technical,Shijiazhuang 050018,China)
〔Abstract〕Knowledge service,as a service-oriented content and value-added service,needs to carry out systematic,comprehensive,in-depth processing,and handling for service.Knowledge base and Knowledge discovery,which play an important role in the knowledge service activities,are the key technology of knowledge service.Through the discussion on knowledge base and knowledge discover,especially knowledge discover in the application of the knowledge base,the role of knowledge base and knowledge discover was described.
〔Key words〕knowledge services;knowledge base;knowledge discovery
作为重要的生产要素,知识存在于人们的头脑中,并通过一定的方式向外界进行表达。在传播和分享的过程中,知识得到了扩散和增值。知识服务通过对知识的组织,使知识成为生产力的放大器,而知识库和知识发现技术则是知识服务中所使用的关键技术。
1 知识与知识服务
知识是信息的内容,它揭示了事物的规律。知识分为陈述性知识和过程性知识两大类。陈述性知识是知识的描述表达;过程性知识是说明性的,并使用陈述知识以确定动作[1]。
知识服务是指向用户提供知识信息、知识挖掘手段及问题解决方案的服务。知识服务是为了适应知识经济的发展和知识创新的需要,以解决用户问题方案为直接目标,通过对用户知识的需求和问题环境的分析,向用户提供经过智能化处理的符合用户需求的知识产品[2]。
2 知识服务与知识库
作为面向内容的增值服务,知识服务需要通过对原有信息和知识的系统化、综合化、深入化,如何构建集成化、智能化的知识库以产生针对性和适用性更强的再生知识,以满足用户对知识服务的需求是知识服务体系研究中的重要课题。
知识库是人工智能与数据库技术相结合的产物。作为一种开发工具与环境,知识库为用户开发基于知识的系统提供支撑。知识库系统具有下列特点:
(1)应具有支持数据库的全部功能,包括对大批量数据的高效存取以及数据共享、数据的安全性、并发控制、故障恢复等功能。
(2)应具有存取知识、管理知识的功能。
(3)知识库系统的核心部分是一个推理机构,它完成对知识的处理。
(4)一般以关系数据库管理系统为基础,外加一个规则库与推理层,组成一个知识库系统。
(5)一个知识库系统一般应能存储与管理适量的事实与规则[3]。
知识库系统的核心组成部分是知识库和推理机构。知识库是以一致的形式存贮知识的机构,推理机构则是为了使用知识库藏内的知识执行推理的控制机构。
3 知识发现
知识发现,又称数据库知识发现(Knowledge Discovery in Database,KDD)是从大量原始数据中挖掘出隐含的、有用的、尚未发现的信息和知识。Fayyad将数据库知识发现定义为“KDD是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。[4]”
数据库知识发现是从数据集中识别出可信的、有效的、新颖的、潜在有用的以及最终可理解模式的高级处理过程。“数据挖掘”是数据库知识发现中专门负责发现知识的核心环节,“数据库知识发现”是一个交互式、循环反复的整体过程,除了包括数据挖掘外,还包括数据准备和发现的结果解释、评估等诸多环节[5]。
知识发现的技术基础是统计学与人工智能。其特点是能对原有的数据进行高度自动分析,归纳推理,从中挖掘出潜在的模式,预测用户的行为,帮助决策者调整策略,做出正确的决策。知识发现的主要技术手段是统计方法,包括数理统计、多元统计方法、计量经济学和时间序列分析方法等。
3.1 知识发现的任务
知识发现是从数据集中抽取新的模式。知识发现的结果可以表示成为各种形式,包括规则、法则、科学规律、方程或概念网等。知识发现的任务包括数据总结、概念描述、分类、聚类、相关性分析、偏差分析。
3.2 知识发现的对象[6]
知识发现的范围非常广泛,涉及科学研究、社会科学、卫星观测以及商业数据等方方面面,数据结构也各不相同,有层次的、网状的、关系的和面向对象的数据。知识发现的对象,主要包括数据库、文本和Web信息。
3.2.1 数据库
数据库知识发现是在关系数据库中进行数据挖掘,从数据集中识别出有效的、新颖的、潜在有用的以及最终可理解的模式的非平凡过程。
数据挖掘的基本目标是预测和描述。预测性数据挖掘生成已知数据集所描述的系统模型。描述性数据挖掘是在可用数据集的基础上生成新的、非同寻常的信息。根据挖掘目标的不同,数据挖掘的任务分为分类、回归、聚类、总结概括、关联建模、变化和偏差检测[30]。
3.2.2 文本
文本分析是知识发现对文本数据进行挖掘的手段。文本分析的基本过程包括:语种识别、特征提取、聚类和分类。
语种识别工具用于自动发现文本使用的语种,根据不同的语种自动组织索引数据,不同的语种有不同的查询结果,并能将文本提交给文本翻译器。
特征提取主要是识别文本中词项的意义。特征识别工具在分析文本时一般采取两种模式:一种是单独分析该文本;另一种是先根据其他相似的文本自动建立一个词典,然后在该文本中寻找词典中出现的词项。
聚类是将一个文本集合分成几组的过程。聚类可以描述整个文本集的内容,找到其中隐含的相似关系,从而更容易找到相似或相关的信息。
分类工具可将文本分配到已存在的类中。分类工具的使用降低分类人员的工作强度,通过自动组织,把文本分配到相应的主题,使之容易浏览、查询。分类是数据组织的有效手段。
3.2.3 Web信息
Web信息挖掘技术是根据面向Internet的分布式信息资源的特点的一种模式抽取过程,它不仅能查找到分布式信息资源中已存在的信息,还能识别出大量存在于数据中的隐含的、有效的规律。
3.3 数据挖掘任务的分类
数据挖掘是数据库知识发现的核心部分。根据挖掘任务的不同,可分为分类知识发现、数据总结、数据聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常发现和趋势预测等。
分类知识发现是数据挖掘中最常见的任务,其目的在于根据样本数据寻求相应的分类规则,然后根据获得的规则来确定某一非样本个体或对象是否属于某一特定的组或类。
数据聚类是用于发现在数据库中未知的数据类。
关联规则发现是在数据库中寻找数据对象间的关联模式。
数据总结是将数据库中的大量相关数据从较低概念层次抽象到较高概念层次的过程。
序列模式发现是在数据库中寻找基于一段时间区间的关联模式。
依赖关系或依赖模型发现是通过对数据库中数据的分析,获取数据间的某种因果联系。
异常发现用于在数据库中发现数据中存在的偏差或异常。
趋势预测是根据数据库中的历史信息对未来信息做出估计[7]。
4 知识发现在知识库系统中的应用
4.1 知识发现在知识库系统构建中的应用
知识发现作为发现知识的完整过程,可分为数据准备(Data Preparation)、数据挖掘(Data Mining)、挖掘结果的解释与评估(Interpretation and Evaluation)3个阶段。其中,数据准备阶段就是知识储备和知识组织的过程。
数据准备阶段的工作包括四个方面的内容;数据的净化、数据的集成、数据的应用变换和数据的精简。在数据准备阶段,通过对数据的修正和缩减,使知识库中的知识得以优化,以提高知识服务的效率和质量;通过数据的转换、标引,实现隐性知识到显性知识的转变。对于文本和Web知识,只有通过数据准备,才能在知识库系统中加以使用。
在数据挖掘阶段,通过使用分类、聚类、相关性分析等智能模式,进行知识分组,抽取数据模式,确定数据记录结构、数据存储方式和不同数据表之间的数据关联关系。
4.2 知识发现在知识推理中的应用
知识库系统通过对知识的组织,使知识在具体的运用环境中产生价值。作为知识发现的核心部分,数据挖掘通过在知识库推理机构中的运用,获取数据模式,根据某种兴趣度程度,识别知识的真正有趣部分,并向用户描述挖掘出来的知识。
例如,通过数据分类区分不同样本的类别归属;通过关联规则发现,根据数据对象之间关联模式,从某一知识点作为入口,获取与样本有共同表征的知识;通过序列模式和趋势预测分析,进行归纳和估计。
5 结束语
作为知识服务活动中的关键技术,知识库和知识发现技术通过对数据的净化、优化、缩减,以及数据关联模式的分析,实现对知识的有效组织,并通过对知识库中知识的推理,向用户提供感兴趣的知识和知识模式,实现知识的增值服务。通过知识的增值服务,实现知识创新是知识服务的根本目的所在。
参考文献
[1]温有奎,等.知识元挖掘[M].西安:西安电子科技大学出版社,2005-04:22.
[2]黎艳.信息服务向知识服务转变的探析[J].图书摘报工作,2003,(2):32-34.
[3]徐洁磐,王银根,刘友华.知识库系统的研究与应用[J].微型计算机,1995,15(2):9-11.
[4]Fayyad U,Piatesky-Shapiro,Smyth,Uthurusamy.Advance in Knowledge Discovery and Data Mining.MIT Press,1996:1-10.
[5]Michalski RS,Kaufman K A.Data Mining and Knowledge Discovery:A Review of Issues and a Multistrategy Approach,Machine Learning and Data Mining Methods and Applications.New York:John & Sons Ltd,92-107.
[6]史忠植.知识发现[M].北京:清华大学出版社,2002:312-316.
[7]Mehmed Kantardzic.Data Mining Concepts,Models,Methods,and Algorithms.New York:IEEE Press,2002:1-14.