高校数字图书馆检索探析
2018-01-02尹娟
尹娟
摘 要: 现如今,全国各地的高校均已在网络技术和信息基础的支持下建立起数字图书馆,并对其进行不断的更新和完善。搜索引擎技术是当前数字图书馆中支持图书检索的重要工具,也是数字图书馆先进技术和功能服务日趋完善的表现形式。本文从高校数字图书馆中必不可少的检索工具入手,以雅虎搜索引擎为例,对数字图书馆中依托搜索引擎技术建立的检索工具及该工具的功能和工作原理进行分析讨论。
关键词: 数字图书馆 检索工具 网络信息资源
高校数字图书馆是高校学生、教师及其他相关人员获取信息资源的最佳途径,图书馆检索工具是大家从数字图书馆中获取重要信息资源的帮手。数字图书馆有专业的检索工具,才能正常发挥信息检索功能,让读者快速、高效地检索信息,帮助读者找到自己想要的准确的信息资源。
一、国内高校数字图书馆建设现状
从根本上看,数字图书馆应该是重要的数字信息资源汇聚地,在网络环境下,数字图书馆可以进行高效的数字化信息组织和查询工作,还可以为广大读者解决数字化信息服务问题[1]。
(一)高校数字图书馆建设现状
现实中的数字图书馆建设并不是千篇一律的,而是根据现实需求和实际情况,将其建设成为多种形式,其中比较突出的几项包括:第一,类似中国数字图书馆工程这样的数字化系统工程,由国家主导建设,需要投入大量数字技术和数字信息资源。第二,类似超星数字图书馆的网上书店,用户可以直接在网络上借书、还书、看书。第三,类似上海数字图书馆这一类直接由传统的实体图书馆转化以后的类型,需要将其中的书籍内容和形式进行数字化转变。
现在仍有许多地方在如火如荼地建设数字图书馆,而且图书馆的功能和作用不断完善,不少高校数字图书馆已经同时具备以上三种功能和特点。这样的建设工作是具有重要意义的:一是让中文网络领域中的学术信息资源得到了极大的丰富;二是为网络上的各类信息检索用户提供便利,要从图书馆查资料,可以借助网络实现。
其实在高校数字图书馆的建设过程中也遇到了一些问题,其中最迫切需要解决的问题是对信息量巨大网络信息资源的组织工作不够重视。工作量大并且声名远播的中国数字图书馆、上海数字图书馆、清华大学建筑数字图书馆等都存在这一问题。
当然,高校数字图书馆在运营发展过程中已经渐渐意识到网络信息资源的组织和管理是非常重要的,已经开始在这方面加大关注度,并设置了一些小栏目用于参与网络信息资源的组织。
(二)数字图书馆的指标
专业的数字图书馆应该具备以下三个指标:
第一,数字化资源丰富。作为一个完整的图书馆,必定拥有丰富的图书资源,而将图书馆转化成为数字图书馆以后,原有的图书资源会转化成为数字化资源,所以成功转化的数字化图书馆应该具有丰富的数字化资源。按照建设要求,属于图书馆中必须具备的数字资源的内容有:图书馆中的OPAC书刊目录库、全图书馆中各类书籍汇总后的数据库、多媒体数据库、图书馆的网络数据库、以网络信息为主的网络信息资源库,等等。
第二,能提供信息资源检索服务。数字图书馆的信息资源检索服务能让用户从数字图书馆中检索获取Web,FTP,Gopher,Wais,Usenet等互联网络信息资源。除此之外,还能给广大用户提供书刊和书目信息的检索服务,以及音频、视频形式的资源检索服务。
第三,拥有专门的信息检索界面,并能在该界面处理与信息检索有关的各种操作。数字图书馆建成以后使用的是统一的检索界面,对数字图书馆中各类型信息的检索及难度较高的跨数据的检索都可以在这个统一的界面上操作。
二、搜索引擎的应用
搜索引擎技术的应用是实现数字化图书馆检索的关键,分析数字图书馆检索一定要从广泛应用的搜索引擎技术入手。
(一)搜索引擎
网络用户如果要在网络上查找信息或者是链接到自己感兴趣的网站之中都要借助搜索引擎的帮助,否则只有用户死记硬背网址信息,才能避免迷失于浩瀚无边的网络信息海洋之中。除了信息搜索方面的功能和作用以外,搜索引擎还可以用来自动搜集和标引网络上的信息,用户可以通过关键词、关键语句等进行信息检索,而且通过这样的方式搜索信息时会更加方便、高效、快速。当然,要全面强化检索效果,还需要对搜索引擎的应用进行人工干预,以免自然状态下检索到的信息质量不高,信息检索的准确率偏低。
我们现在能够通过浏览器看到相关的信息检索结果,主要得益于与搜索引擎在网络中发挥作用。据悉,要实现最终看到检索结果这一步,需要先通过一些专业的搜索软件从互联网上收集网页数据、信息内容,并且将收集到的网页信息交给网站中的检索系统。在这一步过程中比较适用的搜索软件是Robot,Spider,WebCrawler等。第二步是让检索系统发挥作用对网页中的每一个信息都进行扫面和排序,排序的时候可以根据关键性词汇出现的频率排序,这样可以确保最后输出的排序结果更接近用户的实际需要。第三步是借助页面生成系统再次将检索过程中输出的排序结果组装成为网络页面,让我们从网络页面上清楚地看到自己想要查找的信息[2]。
(二)雅虎公司的搜索引擎应用分析
雅虎的搜索引擎应用是比较先进的,值得大众学习和借鉴。从雅虎搜索引擎应用现状及数字化图书馆发展趋势看,数字化图书馆中搜索引擎的应用可借鉴雅虎的以下两种模式:
第一,雅虎的目录搜索引擎。目录搜索引擎指的是采用人工标引方式组织网络信息的分类目录体系,雅虎采用的是这样的目录体系。因为在分类目录体系下,雅虎提供的目录服务中带有搜索功能,所以常有人将分类目录体系乘坐目录搜索引擎。虽然目录搜索引擎的搜索范围被限定在目录系统之中,依然能在目录系统中为用户搜索网站,而且因为搜索结果会以相关网站地址为返回信息内容,被一部分人称为网站搜索引擎。当然,这种戏称的目录搜索引擎与真正的搜索引擎之間是有着差别的,二者可以说是完全不同的两个概念。雅虎有需要的时候肯定会从外引进搜索引擎,不过雅虎本身的分类目录体系并不会被淘汰,因为雅虎自由目录体系同样能为雅虎内部搜索带来帮助。
第二,自身目录服务和Google搜索引擎相结合。雅虎公司走自身的目录服务和Google搜索引擎结合的模式,是因为以“搜索引擎”闻名全球的雅虎公司本身并不做搜索引擎,真正属于雅虎公司自己的只是一个网站目录搜索引擎,即只能搜索自己网站目录的“搜索引擎”,因为这种自身目录服务确实与“搜索”沾边,所以被大家称为目录搜索引擎。
雅虎公司应用的全文搜索引擎是和大多数的企业的门户网站一样,从专做搜索引擎的公司引进的。现在国际上做搜索引擎比较有名的公司有“Inktomi”公司,微软应用的也是这一家公司提供的搜索引擎。在国内市场中能够为国人和个大企业提供搜索引起服务的是百度。当然,雅虎公司与这些直接引擎搜索引擎的公司有所不同,因为雅虎公司引进的Google搜索引擎还需要与雅虎自身的目录服务系统配合使用,而且雅虎现在对两种搜索工具的配合非常完美,优势突出。基于这方面的原因,采用了统一搜索界面的雅虎公司搜索系统,在人工标引和自动标引两个方面都表现得很优秀。
三、国内高校数字图书馆中的搜索引擎应用
国内高校数字图书馆的建设如火如荼,随着建设经验的丰富和数字图书馆建设要求的不断严格,搜索引擎技术的应用势在必行。事实上制约搜索引擎应用的技术难题、市场需求问题等均已在数字图书馆发展过程中被攻破,现在应用搜索引擎技术建设数字图书馆检索正合适。
(一)高校数字图书馆搜索引擎技术难关已经攻破
现阶段国内数字图书馆检索的建设条件已经成熟,数字图书馆检索功能所需的搜索引擎技术和技术的应用都已不成问题。首先,国内数字化图书馆领域已经实现了对OPAC书刊目录库的标准化发展要求。其次,数字图书馆中所需要的全文数据库资源已经非常丰富,这些资源基本上是通过自建和购买的方式获取的。再次,主持工作的相关人员已经掌握先进的技术,能够将信息资源进行优化整合,还能够帮助用户实现对信息资源的跨库检索。最后,为专业检索服务系统的建设提供帮助,让这个检索系统变得更加完善。
(二)高校数字图书馆对搜索引擎技术的应用需求增加
第一,人工标引方式逐渐力不从心。在建设数字图书馆以前,图书馆一贯采用的都是人工标引的方式,这种标引方式在雅虎等企业内部应用还比较实用,但对数字化图书馆来说却有些不合时宜。一是数字化图书馆中需要标引管理资源内容丰富、数量庞大,完全依靠人工标引将是一个浩大的工程,而且效率极低。现在人工标引已经无法满足数字图书馆的标引率要求,必须转而应用更加高效的标引方式。二是面对网络信息资源的时候,人工标引的方式不太合适。网络信息资源的数量、种类规模更加庞大,所以在处理网络信息资源的时候,根本无法采用人工标引的方式。如果不顾现实情况,强制采取人工标引的方式,肯定会造成进度缓慢,耗时长久,造成大量人力、物力和资金成本方面的浪费。例如,“211工程”立项的一个高校图书馆共建项目,这个项目要求建设一个CALIS网络重点学科导航库。这个重点学科导航书库的建设需要纳入213个重点学科导航库及6万个领域内有分量的学术网站,为了实现这个建设目标,拉来了48个图书馆,花费了将近2年的时间,期间的人力和财力浪费更是严重。总体而言,建设效率非常低。
第二,搜索引擎技术表现突出。如果说人工标引方式在网络资源库建设和管理方面力不从心的表现,让大家越来越重视自动化的搜索引擎技术的话,那么,搜索引擎技术自带的优势则加快了数字图书馆资源建设中引进搜索引擎技术的步伐。引进搜索引擎技术的用途:一是节省人力和相关的投入,例如,资金方面的投入。在达到节约效果的同时还能依靠技术保证信息资源的完整性和全面性。二是因为有雅虎公司的正确示范,让数字图书馆找到了自动标引和人工标引相结合的正确方式,引进搜索引擎技术能够加快自动标引与人工标引的结合,从而进一步凸显搜索引擎技术的重要性和优越性。
四、高校数字图书馆检索工具分析
数字图书馆检索工具是图书馆用户查询信息、查找资料的时候使用的检索服务工具,这个工具的建设和应用都需要由一个完善的检索服务系统构成,由庞大的数字信息资源库支持,最后还要设计统一的检索平台和用户界面。
(一)数字图书馆检索工具与搜索引擎的区别
数字图书馆中的检索工具和互联网络中的搜索引擎都是为用户提供信息检索、关键字搜索等相关服务的工具或者是系统,但二者之间并非完全重合。从二者的实际应用情况和数字化图书馆的发展情况来看,二者的区别很大。首先,数字图书馆检索工具可提供的检索服务更周到全面,服务范围更加广阔。检索工具不仅能够提供搜索引起在互联网络上提供的网络信息资源检索,还能够对数字图书馆中各种专业的资料信息和资源库进行检索。其次,搜索引擎提供的是与人工标引方式相对的自动标引方式,在进行网络信息资源和数字图书馆资源检索和标引的时候固然比人工标引更高效,但会出现有干扰信息的情况。数字图书馆检索工具将自动化标引发方式包含其中,能够与人工标引方式相互配合。
(二)高校数字图书馆检索功能
第一,跨库检索功能。一个正规图书馆中需要建设多个资源库,跨库检索的功能就是为了让用户检索信息的时候不出现隔阂,能够直接对多个资源库进行检索,从中寻找自己想要的信息资源。
第二,检索工具支持进行全文检索。全文检索功能指的是数字图书馆检索工具能够凭借关键字检索到选定的网络信息资源库中做过内容标引的部分,并将检索到的所有匹配结果如实反馈给用户,让用户从中获得自己想要的信息。当然,在支持这方面的检索工作的前提是搜集整理网络信息资源的时候,数字图书馆检索工具对各个资料所在网站和网页全文都进行了收集和标引,再入库。
第三,提供多途径检索服务功能。常规的检索途径就是输入关键词检索,但这样的检索方式太过单一,不够严谨,无法让用户更快完成检索工作。为了让用户检索获得的结果更加接近自己的使用需求,必须在单一的关键词检索方式基础上进行扩展,例如增加自然語检索或者是主题词检索等方式,这样可以增强检索结果的准确性。因为用户的检索需要,应该让检索工具支持以下几种检索方式:布尔逻辑运算检索、特征字段检索、权重检索和支持相邻检索等。
第四,目录检索功能得到支持。该项功能是根据雅虎的目录检索系统设置,同样具有内部的目录检索服务能力,而且从雅虎经验来看,检索工具应该对功能给予高度支持。
第五,支持多媒体信息检索。随着现代社会信息资源的形式变得越来越多种多样,处理信息的设备、工具应该具备处理多样化信息的功能。检索工具支持多媒体信息检索功能,说明检索工具能进行多种形式信息资源的检索。目前除了文本信息资源检索外,还需要检索工具支持的多媒体信息检索功能包括:针对图像信息的检索功能,针对声频或者是视频的信息检索功能。
(三)高校数字图书馆检索的优势
第一,在检索结果排序方面的优势。高校数字图书馆中数字信息资源的检索结果一般是按照时间和用户查询信息的相关性排序。
第二,检索操作流畅、舒心。高校数字图书馆采用的都是统一的检索界面,而且检索界面设计简洁、大方,赏心悦目,这样大家在不同高校数字图书馆检索的时候都能熟练操作。高校数字图书馆的检索结果显示方式统一,所有检索结果都能按照标准格式,清晰明了地展现出来,方面用户了解情况。
第三,数字图书馆的检索功能具有自动化特征。自动化是数字时代的标志,数字图书馆的检索便具有这种自动化的特征,能够对网络上的网址进行自动收集、对网页万文进行自动标引。当然,所有的自动化操作最后都需要经过一道人工审定的程序,这么做是为了进一步审查信息资源的真实性和准确性,避免完全自动化操作造成的错误得不到更改。从这一点可以看出人工服务是非常重要的,至少在自动化检索达到100%准确以前,人工审查这一步不可省略。
第四,数字图书馆检索的索引范围广阔。网络中所有网页基本上都被包含在数字图书馆的索引范围内。同时数字图书馆的检索工具,还能够借助搜索引起技术对网页中的词句、内容进行分析、审查,经过专门辨别分析以后符合要求的网络数字信息才会被正式加入数字图书馆的网络信息资源库,成为被检索工具标引的內容。
五、结语
随着越来越专业的搜索引擎技术的出现,还有以搜索引擎技术为基础构建数字图书馆检索工具的技术的逐步完善,现在已经拥有了打造数字图书馆检索系统的能力,图书馆提供最健全检索功能的基础条件已经齐备。考虑到,数字图书馆检索功能设置是一个系统工程,光依靠搜索引擎技术是不可行的,还需要有信息资源库的支持。本文从国内高校数字图书馆建设现状入手,通过对国内高校数字图书馆中的搜索引擎应用及国内高校数字图书馆检索工具的分析,证实了搜索引擎技术的应用与国内高校数字图书馆检索工具的设置有重大关联,而且联系十分密切。另外,通过本文的分析研究,还应该认识到充分而准确地应用搜索引擎技术,能让数字图书馆检索工具更加专业和高效,也能让高校数字图书馆检索优势更加强劲。
参考文献:
[1]韩慧琴,刘柏嵩.数字图书馆中的知识发现[J].情报学报,2001(3).
[2]黄海.中文搜索引擎核心技术之争[J].图书馆杂志,2001(3).
[3]段其宪,时永梅.网络检索工具的比较研究[J].情报科学,2001(6).
[4]徐亚先.搜索引擎的功能概述与研究热点[J].情报科学,2001(3).