智能搜索引擎在数字图书馆中的应用
2009-12-17吕精巧
吕精巧
关键词:智能搜索引擎;数字图书馆;个性化服务
摘 要:随着互联网络的发展以及现代科学技术的不断创新,传统搜索引擎已经不能适应时代的需要,如何有效地利用智能搜索引擎,特别是将它应用于数字图书馆中是我们面临的重要问题。
中图分类号:G258.6文献标识码:A 文章编号:1003-1588(2009)04-0095-03
Intelligent Search Engine in Digital Library
Lv Jingqiao
(Library of Xinxiang Medical University,Xinxiang 453003,China)
Key words: Intelligent Search Engine; Digital Library; Personalized service
Abstract: With the development of the Internet, as well as modern scientific and technological innovation, search engines already can not meet the traditional needs of the times, how to effectively use intelligent search engine, in particular, it applies to digital libraries is an important issue we face.
随着互联网的出现和发展,搜索引擎也由传统的搜索引擎发展到了智能搜索引擎。作为新一代的信息检索工具,智能搜索引擎凭着自身的优点,被越来越多地应用到各个领域。调查显示网站75%的访问量都来自于搜索引擎的推荐。如何有效地将智能搜索引擎应用于数字图书馆,打造具有本馆特色的数字图书馆,是我们面临的一个问题。
1 搜索引擎
1.1 搜索引擎的概念
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行理解、提取、组织和处理后,为用户提供检索服务的系统。
1.2 搜索引擎的组成
搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:搜索器的功能是在互联网中漫游、发现和搜集信息;索引器的功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;检索器的功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;用户接口的作用是接纳用户查询、显示查询结果、提供个性化查询项。
1.3 搜索引擎的分类
1.3.1 全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,具有代表性的有国外的Google和国内的百度。它们都是从互联网提取以网页文字为主的各个网站的信息,建立起自己的数据库,并能检索与用户查询条件相匹配或相近的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,它能自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。
1.3.2 目录索引
目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,它的信息收集与索引主要依靠人工来完成,搜索引擎的标引主要依靠手工来搜寻不断出现的新网站,给每个网站一个标题和大概的描述,将其放入相应的类目体系中。用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以不依靠关键词而按照分类目录找到所需要的信息。目录索引中最具代表性的有新浪分类目录搜索。
1.3.3 元搜索引擎
元搜索引擎本身并没有存放网页信息的数据库,它的工作原理是将用户提交的搜索请求转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的查询结果集中起来进行处理后,再返回给用户。元搜索引擎设计简单,但由于网络负载太大且搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。中文元搜索引擎中具代表性的是搜星。
2 传统搜索引擎存在的不足
搜索引擎是伴随着互联网的发展而发展起来的,它的出现为人们查询资料带来了极大的方便。然而,随着人们对信息需求的不断增加,现有搜索引擎的工作方式使得其搜索的结果让人越来越不满意。
2.1 缺乏个性化
现有的搜索引擎较少考虑用户的差异。对于任何用户,查询相同的关键词,得到的结果也一样,不参考用户的知识背景、兴趣爱好等特征。不具有对单个用户的浏览模式和浏览行为分析功能。
2.2 缺乏智能化
(1)搜索引擎对关键词之间存在的同义、近义、一词多义等现象极少进行处理,这往往导致检索出来的信息不正确或不准确。由于缺乏良好的查询接口,用户又不能准确地表达自己的查询请求。系统交互很少考虑用户的反馈,只是简单地把结果返回给用户,并不关心用户的使用情况。
(2)搜索引擎对于用户提交的查询请求,只是按照它特定的顺序返回上百或上千个网页,不能根据用户需要对这些搜索结果重新进行层次性的聚类和组合。用户要在众多的检索结果中找到所需的信息,必须对这些网页逐个浏览,极为费时费力。而且缺乏有效的适应信息源变化的机制,无法避免用户以前已经浏览过而现在不需要的文档或链接。
2.3 覆盖面有限
目前,每个搜索引擎平均只能涉及到整个WWW资源的30-50%。
2.4 数据更新速度慢
搜索引擎机器人只能在由系统管理员限定的时间间隔内跟踪特定信息,不能做到信息的动态更新,导致错链和死链的发生。
3 智能搜索引擎
基于知识库系统的智能搜索引擎是一种高效搜索引擎技术,它是通过构设知识库,将搜索引擎技术与语言学相结合,开发检索专用字典或通过全文扫描和词间关系的分析,从知识或概念层面分析用户的检索提问,实现搜索引擎对搜索词在语义层次上的理解。用户用非常自然的形式(即自然语言文字)提出查询请求,智能搜索引擎能够运用短语识别技术、分词技术、同义词技术以及概念搜索等技术,将用户的自然语言提问进行切分、抽词、同义词输出、概念搜索,经知识库使其规范化和有序化后,再交给搜索引擎进行搜索。实际上,这种检索的实质就是以有序的知识库(即人的知识)对无序的知识库(Internet)。对以自然语言文字形式提出的搜索条件的处理,可以使得智能搜索引擎查询变得更为简单,易于操作,搜索服务更具智能化和人性化。一般而言,智能搜索引擎有如下几个主要特征。
3.1 人机接口智能化
智能搜索引擎可以通过自然语言和用户交互。它采取诸如语义网络等智能技术,通过汉语分词、句法分析以及统计理论有效地理解用户的请求,用户可以灵活选择要搜索的数据库,配合“中文同音”、“中文近似概念”、“简繁转换”、“通配字符搜索”、“词组搜索”、“多字段平行检索”等众多的智能搜索功能,最大程度地满足用户的需求。
3.2 个性化的信息服务功能
智能搜索引擎能提供用户角色登记、用户兴趣自动识别、内容的语义理解、智能化信息的过滤和推送等自然语言理解技术,能在更大程度上满足特定用户的个性化信息需求。
3.3 数据更新快
众所周知,信息动态更替无时无刻不在进行,即使是在搜索过程中。智能引擎有一个设计网络蜘蛛,网络蜘蛛通过启发式学习采取最有效的搜索策略,选择最佳时机获取从Internet上自动收集、整理的信息,自动完成在线信息的索引。为了提高搜索速度,智能搜索引擎可以同时启动多个引擎并行工作(类似于元搜索引擎技术),将各个引擎的搜索结果整合,作为一个整体存放到数据库中。
3.4 跨平台,多文档处理能力
智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力。譬如既能处理超文本标志语言HTML(Hyper Text Markup Language),又能处理通用标志语言标准SGML(Standard for General Markup Language)和扩展标志语言XML(eXtended Marked Language)文档以及其他类型的文档,譬如Word、WPS等。
3.5 支持多语言搜索
智能搜索引擎还可以支持多语言搜索,允许用户用A语言输入查询B语言或其他语言的信息。以搜索引擎google为例,我们就可以用汉语输入查询英语或其他别的语言的网页。
4 智能搜索引擎的设计
一部分是用户兴趣分析,即通过用户注册、用户评价、访问记录来建立用户信息库,由分析模块对这些信息进行用户兴趣分析。用户兴趣分析的结果经过信息过滤模块将重复信息去除之后把最终结果返回用户信息库,从而建立新的用户信息模型。另一部分是资源搜索,用户向搜索引擎提交查询请求,搜索引擎从各个资源库中搜索出与其相关的信息,此时,搜索引擎调用用户信息库,从中提取用户兴趣、爱好及个性化信息,再从搜索引擎返回的结果中,消除无效的链接页面,去除重复的、冗余的信息,按照相关性进行排序之后把最终结果返回给用户。
5 数字图书馆个性化信息服务的表现形式
5.1 个性化推送或定制服务
个性化推送或定制服务是根据用户的兴趣爱好、行为习惯、独特要求等提供具有针对性的信息。比如:提供定制的WEB页面、信息频道或信息栏目,实施查询代理服务,或者是基于电子邮件的信息推送,根据用户的定制提供相应的信息栏目,定期或不定期地发送到用户电子信箱。
5.2 个性化推荐服务
个性化推荐服务不仅能根据用户的特征提供具有针对性的信息,还能通过对用户专业特征、研究兴趣的智能分析而主动向用户推荐其可能需要的信息,个性化推荐服务是一种比较深层次的、主动性和个性化较强的服务方式。
5.3 个性化知识决策服务
个性化知识决策服务强调充分利用数据挖掘、知识发现等技术,对有用的信息内容再进行深层次的分析与挖掘,向用户提供能够用于决策支持、智能查询、科学研究、解决问题的规则和模式。
6 智能搜索引擎在图书馆中的实际应用
6.1 基于智能搜索引擎的智能化、个性化等特点,我们可以利用它来完善图书馆的参考咨询服务。例如:利用智能搜索引擎为读者提供各种个性化信息服务(包括个性化推送或定制服务、个性化推荐服务、个性化知识决策服务)。智能搜索引擎在参考咨询中的应用,可以使我们更准确、更快捷的为读者提供各种信息服务,提高参考咨询服务质量。
6.2 为了方便广大读者使用图书馆资源,许多图书馆网站都设立了网上咨询台,咨询台设有“常见问题解答”栏目,即我们常说的FAQ。FAQ利用智能搜索引擎为我们提供了搜索与查询的功能,里面列举了我们浏览网站时的常见问题,利用它我们可以对这些问题进行搜索与查询。例如:一般性问题、图书馆规则、OPAC查询、读者服务、电子资源使用等等,各个图书馆都会根据自己的特点设置相应的FAQ。读者登录到网上咨询台后,可以很方便的查找自己所需要的信息,解决在使用图书馆资源时出现的各种问题。为读者提供方便的同时,也节约了咨询馆员的时间,可以让他们有时间做更多的工作。
6.3 我们也可以把智能搜索引擎应用于图书馆的各种自建数据库中,以便进行搜索与查询。如随书附盘数据库、教学课件数据库、视频资料数据库、教师论文数据库、学生论文数据库等各种数据库。
6.4 为了方便读者在访问图书馆主页时查询信息,还可以把智能搜索引擎加入到图书馆主页中,如google或baidu工具条等。
7 结语
智能搜索引擎凭借自身优点在数字图书馆的建设中起着不可替代的作用。目前,智能搜索引擎技术在各个领域的应用还不太成熟,在数字图书馆方面的应用还处于起步阶段,我们要合理利用它的优点,谨慎借鉴,结合各馆实际情况,打造具有本馆特色的个性化数字图书馆。
参考文献:
[1] 贾宏.基于搜索引擎的数字图书馆智能信息检索[J].图书馆学研究,2006,(3).
[3] 邱均平,余以胜.基于知识库系统的智能搜索引擎研究[J].现代图书情报技术,2005,(7).
[4] 马文峰.数字图书馆个性化信息服务的探索[J].图书馆杂志,2003,(5).
[5] 邹凯,汪全莉.智能搜索引擎与数字图书馆个性化服务[J].情报科学,2004,(7).
[6] 马文峰,高凤荣等.论数字图书馆个性化信息推荐系统[J].现代图书情报技术,2003,(2).
[7] 许春漫.数字图书馆个性化信息检索模型研究[J].现代图书情报技术,2006,(3).