APP下载

搜索引擎技术在现代图书馆智能搜索中的应用

2016-06-12姚银杰

2016年16期
关键词:搜索引擎图书馆

姚银杰

摘 要:本文对搜索引擎的工作原理进行了探讨,分析了搜索引擎技术在图书馆智能搜索中的应用及改进措施,希望通过本文的研究,有助于促进搜索引擎技术在图书馆搜索中的应用,为加强对搜索引擎技术的研究起到抛砖引玉的作用。

关键词:搜索引擎;智能搜索引擎;图书馆

一、图书馆建立智能搜索引擎的必要性分析

随着各个高校规模的不断扩大,高校收藏的图书、文献资料的量越来越庞大,但是其传统的搜索引擎所具有的功能是比较简单的,仅仅只能对书名、作者、年份等信息来进行搜索,读者往往需要从成千上万条搜索结果中去挑选自己所想要的结果,搜索体验较低。因此,运用智能搜索引擎,能够为读者提供专业性强、针对性强的搜索服务,同时还能够在内容上进行分类,对搜索结果根据检索的关键词进行相关性排序,能够大大节约读者检索的时间,提升高校图书馆的利用效率。

二、智能搜索引擎的优势

智能搜索引擎具有很多传统搜索引擎不具备的优势:其一,与互联网的网页数量相比,图书馆的书籍文献资料要少得多,因此将每一本书当做一个页面来采取PageRank算法来进行搜索,能够大大减少检索的时间。其二,图书馆中的信息一般都是由图书馆的工作人员通过手动录入的,每一本书的相关信息是比较全面的,因此在搜索结果中不会出现作弊的现象,例如重复关键词。在这种情况下,能够减少一些不必要的设计,建立起搜索引擎是相对简单的。其三,图书馆用户对信息的检索要求并不复杂,所给出的关键词的集中度比较高,搜索引擎的接受度比较高。

三、搜索引擎技术在现代图书馆智能搜索中的应用

(一)图书馆智能搜索的PageRank算法的设计

1、个性化PageRank算法设计的基本思路

PageRank在互联网网页的搜索应用中,是通过蜘蛛(Spider)从互联网中获得网页,再以不同网页之间相互链接的次数作为依据,来对一个网页的相关性进行评价。PageRank在互联网网页搜索中的核心,是先把所有与关键词相关的网页进行初始化评分,再根据不同网页间链接次数的多少,把整体PageRank值在不同页面间流动,在经过多次的迭代和多次的反复之后达到一个平衡的位置,再以PageRank值的高低来排序。在这种模式下,与关键词相关性最高的结果一般会呈现在搜索界面上,但是PageRank值在分配的过程中没有考虑用户的个人喜爱以及历史浏览。因此,在图书馆搜索引擎的设计中使用PageRank技术,要充分考虑用户的个人信息、喜好,来进行PageRank评分,这种PageRank评分不仅要和书籍相关联,还要和用户的个性化需求相互匹配,在具体的算法设计中可以参考传统的PageRank算法,再将用户个性化的要求加入进来,进行PageRank迭代,并对搜索结构进行个性化的排序。

2、历史评价及分类PageRank的计算

历史评价和网页的人气值具有非常高的相似度,很容易计算出来,一般情况下,只是需要以用户浏览此书籍的次数为依据,就可以给出附加PageRank值。在这种算法下,是将所有的用户看成了一个整体。而分类PageRank的计算过程是相对复杂的,她需要对专业书籍专业分类的情况进行评价,可以采取与上述用户浏览书籍次数的多少来进行给出个性化的PageRank值。由于每一本书都有自己独特的分类方式,在处理分类中相关分类间的关系,可以通过PageRank值来传递。以用户所选定的分类特征为依据,将其作为PageRank源,再在各个分类之间让PageRank值迭代,再以用户的需求选择来匹配相关性最高的分类图书,可以聘请学校各个专业的学科人士来处理,以他们的专业意见为标准,来分配比较合理的阻尼系数,同时,这些阻尼系数还可以根据用户的历史浏览记录来进行一定的优化,进而使得所搜索的结果能够更好地满足用户的需求。

3、建立数组型PageRank

不同的用户有不同的需求,因此,在设计过程中,不能将PageRank值作为一个单一的情况来处理,而要注重搜索引擎的分类化与搜索引擎的个性化。将PageRank值进行优化处理,建立一个数组,当然,这个数组是可以设计成一个多维的数组,其中包含有传统的PageRank值、个性化的PageRank值、历史评价的PageRank值、分类化的PageRank值等。图书馆智能搜索引擎,需要以用户的需求为依据,对这一多维数组中的各项PageRank值进行加权组合处理。用户在进行信息搜索的时候,可以根据自己的需求来进行有优先原则的搜索,使得所返回的搜索结果能够体现用户的不同特征的需求,进而使得用户在最短的时间获得自己所需要的信息。

(二)高校图书馆系统采用智能搜索引擎的改进措施

1、图书馆数据库的改进措施

目前,各个高校的图书信息查询系统还需要对现有的数据库进行完善。需要增加一些新的数据库,来保存书籍文献资料的检索相关性信息,这里面包含了现代书籍资料的电子化,学科分类、参考文献、出版社、发表时间等信息的录入。另外,还需要在图书馆传统数据库中添加一些新的字段来保存相关的PageRank值,建立和用户相关的数据库用来保存用户的个性化需求及用户的浏览历史记录,进而为对书籍文献资料的相关性统计分析奠定基础,进而得出关键词的相关性结果。

2、图书馆搜索引擎的改进措施

在传统搜索中,用户通过书名、作者、发表时间、出版社等信息来进行检索,搜索的结果需要SQL语句作为支持,而要实现前文所述的智能搜索,便需要对这种搜索引擎进行改进。首先,搜索引擎要对用户检索时所输入的关键词或关键字进行自然语言分析,进而更加准确地理解用户所需要的信息,甚至,还要对用户的语言习惯偏好进行深入分析,例如,繁体字以及少数民族的文字等。同时,要加入对PageRank值进行迭代的功能,这样使得搜索引擎可以根据用户所提供的关键词来以PageRank值为依据来对返回的搜索结果进行排序,使得搜索结果更加符合使用者的需求。

3、构建用户信息反馈系统

传统搜索仅仅是对用户的信息搜索结果的简单罗列,即用户向搜索引擎提供所需要检索的关键词,搜索引擎在其数据库中检索相应的信息,并呈现给用户。而智能搜索引擎在图书馆的应用,需要对搜索结果页面的搜索结果进行排序,而要使得这种排序更加满足用户的需求,就需要根据用户的习惯、爱好、知识背景等信息,来重新分配PageRank值,提升用户检索的便捷性与有效性。

四、结束语

目前,我国很多高校在数字图书馆的建设还处于起步阶段,而智能搜索引擎技术具有人机接口智能化、信息服务功能个性化、跨平台多文档处理等诸多传统搜索不具备的优势。将其应用于数字图书馆的建设,具有重要的现实意义。随着搜索引擎技术的不断发展以及人们对信息检索的需求的发展,搜索引擎的更新迭代速度将会更快,有必要加强对搜索引擎技术的研究。

(作者单位:西安思源学院)

参考文献:

[1] 罗志尧,周群芳.论搜索引擎在现代图书馆中的应用[J].高教与经济,2014,No.6604:19-21.

[2] 余艳.搜索引擎原理剖析及其技术发展[J].图书馆学刊,2013,01:58-60.

[3] 张兴华.搜索引擎技术及研究[J].现代情报,2014,04:142-145.

猜你喜欢

搜索引擎图书馆
图书馆
网络搜索引擎亟待规范
Nutch搜索引擎在网络舆情管控中的应用
基于Nutch的医疗搜索引擎的研究与开发
广告主与搜索引擎的双向博弈分析
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌