APP下载

一种实用高效的搜索引擎

2017-07-07郑祖芬

卷宗 2017年9期
关键词:信息素质信息资源检索

摘 要:高等学校的“文献检索课”是一种快速变化的课程,从印刷型检索到利用计算机联机以及对互联网资源的检索,应该与其检索对象的大环境亦步亦趋,网络信息资源日臻丰富,给高校的“文献检索课”带来了新的内涵,掌握一种新的实用高效的搜索引擎应该是大学生“个人信息基础架构”的重要的部分。

关键词:检索;信息资源;信息素质

1 引言

“信息素质”(Information Literacy),国内一般译为信息认识,信息素质,信息素养,信息能力等。信息素质具有广泛渗透性,涉及国家经济及社会发展各领域、各层次,是事关国家在信息社会的持续发展能力和综合竞争力的一个重要概念。在信息化热潮席卷全球,信息素质在发达国家已被看作是有关国家兴衰存亡的一个重要方面,并在许多发达国家的各教育阶段全面开发,有较为权威的教育政策文件、标准和面向各学科专业的信息素质教育项目、计划、课件等。

信息检索一直是信息素质相关教育中最受重视的部分,是构成学习者信息能力的重要方面,我国目前实施信息素质相关教育采用的最普遍、最主要的教学形式――高校“文献检索课”,其主要内容包括:文献信息的组织方法、检索语言,各类检索工具、检索系统的检索利用方法,各类文献的检索途径等。随着网络的日益普及和Internet信息资源的深入人心,起来越多的人们把网络作为日常获得信息的重要手段,有关的调查和分析表明,对于教育和科技界用户来说,通过网络查询、获取信息的比例已超过利用图书馆的比例。高校图书馆的“文献检索课”在外延和内涵上正经历着新的重大转变。

1984年教育部作出了具有战略意义的决策,在全国高校普遍开设“文献检索与利用”课程,文献检索课也从最初完全传统的印刷型检索工具开始,20世纪80年代后期逐步结合计算机联机的知识,90年代中后期逐步结合计算机联机检索的内容及其到如今网络信息资源的检索,在短短的十多年中发生了巨大的变化,这也是国内教学内容变化最快的课程,即便如此,然而,当我们果真面临汹涌澎湃的网络信息大潮时,却发现原有的教材已跟不上网络发展的步伐,所以我们亟待补上这一门被“文献检索课”疏忽的实则不可或缺的一个章节,掌握一种界面简洁、友好,搜索功能强大的搜索引擎――Google。

互联网是21世纪最重要的信息媒体,也是世界上最大的信息资源宝库,掌握在网络环境下的信息检索方法是大学生读者的需求,然而,网络环境下的信息检索与传统信息环境下的检索有很大不同,网络信息资源范围大、数量多,网络检索工具及检索方法也是纷繁众多,要迅速准确并相对全面完整地找到所需信息并不是很容易,往往会感到与自己的检索目标不符合或差距太远而放弃检索。网络信息检索所具有的多样性、灵活性远远超出了传统的信息检索,许多在过去的检索过程中业已形成习惯的某些检索思维,以及一些已成定势的检索方法,在网络信息检索空间往往行不通,或不能使檢索结果达到最优,所以,对一种实用的网络搜索引擎获取更深广的认知很有必要。

2 我们为什么需要信息搜索引擎

世界上的某些图书馆,特别是某些大学的图书馆,凡是正式出版的书,它们都网罗无遗,不过,这样子的做法已不能维持多久。到2040年,世界上会有2亿种不同的书,要存放这些书,就得要有5000英里长的书架,存放与编目工作的代价将是惊人的。显然,我们时代的泛滥的信息需要通过电子方法来管理,各种论文、期刊、报道与其他信息的数量远远超过书的数量,这就给信息的整理工作带来了更大的困难。

人们创造并保留下来的信息的数量是在印刷机发明以后开始增加起来的。开始时,增加的速度很慢,谷登堡印刷机的初始阶段并没有新书的创作,那时科学和学习只是对古老的书本内容的研究和再研究,但是,文艺复兴开辟了认识世界的新途径,人们慢慢地开始掌握新的知识,第一本科学期刊是在十七世纪六十年代出版的,它比谷登堡发明印刷机要晚两个世纪。到了1750年,世纪上已有10种科学期刊了,并且从那时起,每过五十年科学期刊的数量就增加到10倍。大约数字如下:

1750年科学期刊数量 10种

1800年科学期刊数量 100种

1850年科学期刊数量 1000种

1900年科学期刊数量 10,000种

1950年科学期刊数量 100,000种

到了二十世纪五十年代,有记录的信息增长之快,被称为信息爆炸,这种说法似乎并不确切,因为爆炸是很快就会结束的,而在二十世纪六十年代和以后的岁月中,电子技术以前人所不能想象的方式迅速提高了记录信息的速度。

科学论文数目的增长速度大大地超过了期刊数目的增长,人类知识的总和在1950年是每十年就翻一番,在计算机无线电通信等领域尤甚。

正当科学进展需要的时候,处理和传递信息的新技术及时出现了。回顾技术发展的历史,人们发现,某个研究领域里的一些重要发明往往正好是在其他领域的发展需要它们的时候出现的。例如,电子管出现在电信发展极其需要它们的时候,我们现在已经进入人类知识的这样一个阶段:不借助计算机,所有工业部门管理和科学研究部门所创造的信息就根本无法处理。这种信息不会终止,只会更加加剧。

随着互联网的发展,网上信息资源日臻丰富,在浩如烟海的信息中寻找有用信息更成了一个非常棘手的问题,于是,搜寻信息方便性变得与提供信息本身同样重要,互联网除了提供信息,还提供方便的信息检索服务,实现后一种功能的主要手段就是利用搜索引擎。Google于是应运而生。如果以毫不偏颇、毫不排外的眼光与情怀来看待这种风靡全球的Google,它的确是最好的搜索引擎。

Gogle是由Larry Page与Sergey Brin于1998年9月在美国硅谷设计的搜索引擎。目前,已有Yahoo、AQL、网景和中国的网易等知名网站在内的全球150多家公司采用了Google的搜索引擎技术。Google中文搜索引擎在某种程度上可以说是目前收录范围最广、功能最强、准确度最高的搜索引擎。

3 Google的功能与特点

Google搜索引擎是是一个利用蜘蛛程序(Spider)以某种方法自动在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而提供面向网页的全文检索服务的互联网查询系统,它主要有以下特点和功能:

1.采用了先进的网页级别(Page Rank)技术。这种技术是指依据网络自身结构,根据互联网本身的链接结构对相关网站用自动方法进行分类,整理混沌信息,整合组织资源,使网络井然有序。这种技术打破了传统网络分类概念,它是基于网页的自然结构,即任何网页均可直接链接到另一网页,无须任何媒介。从某种意义上说,该链接结构自动地推动了互联网的民主化,消除了等级,从而使信息与观念在站点与站点之间畅通无阻。

2.在同一个界面下,可以定制语言和到何种网站中进行搜索。因为Google将多国语言的搜索引擎整合到同一个界面,选择非常方便。它不像其他搜索引擎(如Yahoo)那样,要搜索不同语言版本的网站,必须先进入相应语言的网站。目前,Google已可以对包括中文在内的26种语言进行搜索。

3.搜索结果通常会比其他搜索引擎来得更准确。对于现实中许多不谙搜索引擎复杂系统的使用方式和规则的检索者,例如,不知道搜索引擎与分类目录的差别,不懂使用逻辑运算符,只会用单一关键词查询等这些情况,Google都替他们考虑过。当输入关键字搜索时,它不仅会去搜索包含关键字的网页,同时还会搜索和这些网页高相关性的网页。因为Google具有链接分析的功能,即根据网页间彼此的连接关系,把一篇网页被连接数目的多寡视为相关性的一项指标,并根据相关性的排列出次序,以确定谬论网页的质量或重要度。;

4.在查询时,Google能够通过提供多个关键字,将只提供包含所有关键字的网页,其正文或指向它的链接包含所输入的所有关键字。而且,Google还能遵从关键字的相对位置,对网页关键词接近度度进行分析,按照关键字的接近度区分搜索结果的优先秩序。在显示的结果中,只摘录包含查询字串的内容作为网页简介,查询字串高亮显示。

5.Google是目前收集亚洲网站最多的搜索引擎之一,对中文的支持性强,相对于许多国内研发的中文搜索引擎,Google不但大大提升了中文搜索引擎的相关性,还更好地 检索字串与网页中文字的语义上的匹配,从而提高了检索效率。例如,它支持中英文混合检索词查询,比如“甲A”,“F1一级方程式”等;它支持多种编码,比如“朱镕基”的“镕”不在GB2312字符集中,但存在于GBK编码中,许多传统搜索引擎由于不支持GBK,便无法查到有关“朱镕基”的网页,而Google则可以直接找到;此外,对于所输入的中文关键字,Google不仅会去搜索中文简体网站,还会找出相应的中文繁体网站,甚至是日文网站。

6.Google的“手气不错”、“网页快照”和“类似网页”等功能。Google和一家名为Realnames(简称RN)的网络关键字管理公司有合作关系,其网络新名词是指可以链接到网站的商标、产品、服务或者公司名称,在网络中起注册商标的作用。当关键词与Google推荐的网站匹配时,在搜索结果中就会显示“RN”标记。例如,查询的目地是想进入一个特定的网站(如公司网站),只知道名称和该网站的有关的一些局部信息(如该公司的产品等),这时,可通过的关键字来试试“手气不错”。

“网页快照”是指Google保存应急网页内容。它的作用是:当所要检索的网页在实际上可能已经过时或者已经不存在了,而由于搜索引擎的更新需要一定的时间,无法跟得上那些更新快的网站,或是有时碰到网页服务器的暂时中断而找不到服务器,这时快照内容便可暂解燃眉之急。此外,其速度也比常规链接快,但信息可能不是最新的。

到目前为止,Google依然存在以下一些令人遗憾的地方。其数据的更新速度无法进一步提高,由于数据量的庞大,使Google搜索引擎的数据库更新无法早于30天,在一定程度上影响对信息的时效需求,目前这一瓶颈还无法突破。无法搜索动态生成的网页,因为大多数负责搜索网页的蜘蛛软件都不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。Google这方面的研究虽然取得一些,但离真正的实用还有一段路要走。

4 结束语

源于信息教育的研究在我国才刚起步,对信息素质教育的整体认识和理论上的准备还有待深化。由于对信息素质概念缺乏全面认识,导致相关实践中的偏颇,如引言中所述,高校中的“文献检索与利用”一课是我国信息教育的主要形式,尽管近年来已有研究人员对大学新形势下“文献检索课”的名称和内容提出了质疑和改革建议,但只是在原有教育内容上增加机检和网络信息检索极少部分的内容,甚至一些信息检索课还保存已在高校图书馆中淘汰的手工检索式陈旧方法的教学内容,整体上仍局限于在对图书馆信息资源利用的角度,所以,相关的教育实践也停留在培养“图书馆素质”(Library Literacy)和书目指导(Bibliographic Instruction)等階段,尚未进入到真正意义的信息素质教育活动,希望被广泛应用的搜索能力极强的Google,有利于大学生读者建立“个人信息基础架构(Personal Intormation Infaastructure)。

参考文献

[1]贺志则 李修波,现代化检索信息检索[M].山东科学技术出版社 2003年: 183-185

[2]符绍宏等,信息检索[M]北京:高等教育出版社,2004年:405-407

[3]范并思,二十世纪西方与中国的图书馆学[M]北京:北京图书馆出版社,2004年:5-7

[4]马丁,信息化社会漫话[M]上海:科学技术出版社,1985年:73-75

作者简介

郑祖芬(1975-),女,广西桂林人,研究生毕业,桂林电子科技大学图书馆工作,主要从事图书馆学研究。

猜你喜欢

信息素质信息资源检索
2019年第4-6期便捷检索目录
高校学生信息素质评价指标体系研究
关于构建党校图书馆中信息资源的共建与共享方案
谈云计算与信息资源共享管理
基于网络的信息资源组织与评价现状及发展趋势研究
专利检索中“语义”的表现
国际标准检索
国际标准检索