基于知识库系统的智能搜索引擎研究
2011-12-31胡风华
胡风华 王 磊
(安徽理工大学计算机与工程学院,安徽 淮南 232001)
1 引言
随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具,用以在浩瀚的网站页面的海洋中迅速地找到自己所需的信息。从用户的角度来看,当前的搜索引擎主要存在信息检索质量不高、检索方式单一、个性化服务问题、搜索引擎对信息的标引深度不够、信息收集与检索的分离等几个方面的不足。
2 智能搜索引擎功能特点
智能搜索引擎的人机接口和网络蜘蛛高度智能化,可跨平台工作、处理多种混合文档、支持多种语言搜索,并能根据用户的兴趣、爱好、特性、定题需求,不断实时推荐、推送相关的信息、知识,定制个性化页面等,表现出较大的智能性、主动性、交互性、人性化特征。使其用户范围从具有良好信息检索素质的专业人士,扩展为无任何检索技能背景的普通用户。
2.1 智能型的自然语言技术
智能型的自然语言技术包括"自然语言搜索"和"动态关联词、联想词提示"技术。内建完整的"布尔逻辑运算组合"的搜索条件和"邻近搜索"功能,配合"智能型快速响应模式",有效提高搜索速度和精确度。用户可灵活选择欲搜索的数据库,配合"中文同音"、"中英文近似概念"、简繁转换"、通配字符搜索"、词组搜索"和"多字段平行检索"等多项智能搜索功能,从而更加高效、便捷获取有用信息。
2.2 灵活的检索机制
提供多重模板设计功能,可按照用户自身需求轻松修改搜索结果的显示画面;并可依据不同的搜索方式,套用可获得不同的搜索结果的模板文件。提供"机动权值排序机制"、"阶层式分类目录"、"动态关联词、联想词提示"等功能,向用户提供更友好的搜索界面,增加搜索结果的适用性。
2.3 强大的索引功能
采用"多线式资料获取机制"、"平行索引模式"、"动态文件分析技术"及"实时差异式索引更新技术"等多种功能,有效提高文件与数据库的索引速度,大幅降低索引等候时间和更新周期。提供"多重索引数据库"架构及"群组式分类目录"功能,缩短资料索引时间,灵活整合文档资料。
3 知识库系统的原理
3.1知识的定义
知识是人类对客观世界的认识,通常知识是先由底层数据经过分类、归纳、综合等处理过程而得到的上层信息,这种信息再经过解释、比较、推理得到我们所获取的知识,这种过程主要是在语义的层面来进行的。
3.2知识的类型:过程型知识、描述型知识和元知识。
3.3知识的表示
知识表示是指知识在计算机内部的存储和组织,是数据结构和解释过程的结合。数据结构用于知识的形式化描述,而解释过程则用来说明知识的现实含义。知识的表示方法主要有一阶谓词逻辑表示法、产生式表示法、语义网络表示法和面向对象的知识表示方法等。
3.3.1一阶谓词逻辑表示法
谓词的一般形式为P(x1,x2,…,xn),其中,P是谓词;x1,x2,…,xn是个体(常量、变元或函数)。谓词逻辑适用于表示事物的状态、属性、概念等事实性的知识,也可以用来表示事物间确定的因果关系,即规则。例如:"书在课桌上"可以描述成:ON(book,desk)。谓词逻辑是一种形式语言,是目前能够表达人类思维活动的一种最精确的语言,它与人类的自然语言比较接近,因此一阶谓词逻辑表示方法是最早使用的一种知识表示方法。它具有简单、自然、精确、灵活、容易实现等优点。
3.3.2产生式表示法
产生式表示法又称为产生式规则表示法它是依据人类大脑记忆模式中各种知识之间的大量存在的因果关系,以"IF-THEN"的形式,即产生式规则表示出来的。它的基本结构包括前提和结论两部分:前提(IF部分)描述状态,结论(THEN部分)描述在状态存在的条件下所做的某些动作:
前提状态→结论动作或 IF状态THEN动作
整个产生式的含义是:如果前提被满足,则可推出结论或执行所规定的操作。产生式表示法具有自然性好,便于推理的优点,且有利于对知识的增加、删除和修改。另外,产生式表示法既可以表示确定性知识,又可以表示不确定性知识;既有利于表示启发式知识,又可方便地表示过程性知识;既可表示领域知识,又可表示元知识。但是产生式表示法不能表达具有结构性的知识,工作效率不高;而且在求解复杂问题时容易引起组合爆炸。
3.3.3语义网络表示法
语义网络是一种通过概念及其语义关系来表示知识的一种网络图。一个语义网络就是一个带有标志的有向图。其中,有向图的节点表示各种事物、概念、动作、状态、属性等;有向弧表示它所连接的节点间的某种语义联系,每个节点可以包含若干个属性。语义网络表示法具有灵活、自然、易于实现、善于表示结构性知识等优点。语义网络表示法的局限性主要表现在它对知识表示的非严格性,这使得有可能存在二义性,而且存在知识处理的复杂性。
3.3.4面向对象的知识表示方法
按照面向对象方法学的观点,一个对象的形式可定义为四元组〈对象〉::=(ID,DS,MS,MI)。其中ID代表对象标志符,DS代表数据结构,MS代表方法集合,MI代表消息接口。这种方法可以将知识抽象为对象的内部状态和静态特征属性进行封装和隐藏,而知识的处理方法表示为对内部状态和特征属性的操作,并由消息接口与外界发生联系。
3.4知识库
知识库是关于某一领域的陈述性知识、过程性知识和策略性知识的集合。知识库中不但包含了大量的简单事实,还包含了规则、过程型知识和策略性知识。从存储知识的角度来看,以描述型方法来存储和管理知识的机构叫做知识库。从使用知识的角度来看,知识库是由知识和知识处理机构组成。
3.5知识库系统
3.5.1知识库系统的体系结构
知识库系统包括知识的获得、利用和管理三个方面。知识库、推理机及存贮器是知识库系统的三个组成要素。知识库系统的核心组成部分是知识库和推理机构。
3.5.2推理机构
利用知识,解释输入的数据或事实,推导出用户所需的结论;并根据要求,说明得出结论的依据,用于进行这种推理控制的模块称为推理机构。推理机构应具备以下四个功能:
(1)知识库中新知识的获取功能。
(2)推理机构与知识库相互独立功能。
(3)知识库中信息交换及知识扩充功能。
(4)知识库与待解决问题之间的协调功能。
4 基于知识库系统的智能搜索引擎
目前的搜索引擎具有关键词检索和目录查询的缺点,为了克服这些缺点,应该采用自然语言理解技术来进行自然语言智能答询。这样就可以将信息检索从目前基于关键词的层面提高到基于知识(或概念)的层面,对知识有一定的理解与处理能力,可以实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。下面就是当前智能搜索引擎基于知识库系统所采用的一些自然语言理解技术。
4.1 智能分词技术
关键词查询的前提是将查询条件分解成若干关键词。对英文而言,一个单词就是一个词,但中文词之间的关系却复杂得多,主要问题是中文词与词之间没有界定符,需要人为切分,但人为的切分有很大的灵活性和操作性,往往容易产生词义失真。
4.2 同义词处理
汉语词语之间复杂性的另一个方面是同义词的问题,同一个词组往往有许多不同的意思,处理同义词的一种方法是在语义知识库中人工构造同义词表,对专用领域的搜索引擎,这种方法是非常有效的。
4.3 短语识别技术
用短语描述查询请求的情况很常见,但是因为汉语词组的复杂性,所以在中文搜索引擎中,我们不能象英文词组一样简单的将中文短语分离成词组。
4.4 智能搜索代理技术
以提供主动服务为主的智能搜索代理技术,能够将信息主动推送到用户面前,免去了用户被动搜索的困扰。搜索的是活动窗口而不是某一个关键词的主导概念,增强了相关性提供的链接除网络信息外,还包括客户端的本地内容、相关社区中的同类用户及相关内容的百科全书、参考资料等。
结束语
智能化搜索引擎能够实现信息服务的人性化、高效化,为用户检索互联网信息提供了极大的便利。在应用需求和相关科学技术的推动下,智能搜索引擎技术正逐步发展起来,它将会越来越好地为人们的生活服务。
[1]殷雪松,徐斌.WWW网络搜索引擎介绍.大学图书馆学报,1998.
[2]吴丹.搜索引擎的智能化研究[J].情报理论与实践,2002.
[3]李研,陈新中.基于web挖掘的智能门户搜索引擎的研究[J].计算机工程与应用,2002.
[4]张兴华.智能搜索引擎的机理,实现技术及发展趋势[J].现代情报,2003.
[5]沈一栋.知识工程[M].北京:科学出版社,1992.