APP下载

图书馆与信息科学开放存取仓储互操作性评价

2011-03-10

图书馆学刊 2011年2期
关键词:互操作性信息科学命中率

余 春

(武汉大学信息管理学院,湖北 武汉 430072)

1 前言

开放存取运动倡导学术资源的公开获取,促进学术信息的无障碍交流,吸引了越来越多学者、组织机构参与其中,涌现出巨量的开放存取资源。除了人们熟悉的开放存取期刊外,还有一种重要的类型,就是开放存取仓储(简称OA仓储)。OA仓储包括学科OA仓储和机构OA仓储,前者是以某一学科或多学科为主题来搜集组织数字化的学术成果,为科研人员参与学术交流提供方便快捷的平台,提供及时发表成果和新观点的有效渠道;后者是依附于特定机构,搜集、组织、保存、维护、更新该机构及其社群成员所产生的学术成果、科学数据和其他资料,以机构为单位参与学术交流,展示其学术成果,提升机构的学术地位[1]。

OA仓储近年来得到快速发展。有研究者在2007年10月14日通过开放存取仓储目录OpenDOAR检索到928个OA仓储[1],而笔者在2010年7月4日利用OpenDOAR检索到的OA仓储总数为1696个,在不到3年的时间里,增加了73%。建立仓储的目的在于与外界进行学术交流,如何才能让这些仓储在浩瀚的信息海洋中不会成为一个个的信息孤岛?如何提高OA仓储的影响力?这就需要加强OA仓储的互操作性。互操作性是两个或多个系统或组件之间交换信息并使用这些被交换信息的能力,它使得用户不需要学习或了解各种专业软件、操作系统、操作界面,就能获取并使用可互操作的不同系统中的信息,使信息交流变得高效且轻松。OA仓储发展其互操作性,不仅使世界各地的用户都能查询、获取仓储中的文档,还能同时保持自己独特的品牌效应,令仓储更加开放,使仓储中信息内容的价值得到最大化。

在当今的信息环境里,搜索引擎和其他数据发现工具成为人们查询、获取信息的最主要手段。OCLC曾调查发现,84%的信息查询用户是依靠搜索引擎来获取信息的,其中90%的人对结果感到满意[2]。也有研究者提出,OA仓储的互操作性就是仓储系统为人们提供通过多种搜索引擎和数据发现工具获取仓储内容的能力[3]。

2 研究目的

截至2010年7月13日,有关图书馆与信息科学的OA仓储已有56个,收录条目数万条,它们已成为图书馆与信息科学研究的重要资源。本研究的目的在于尝试评价图书馆与信息科学OA仓储的互操作性,通过调查统计主流搜索引擎与数据发现工具收录图书馆与信息科学OA仓储中的资源情况,以期了解这些OA仓储为人们提供利用多种搜索引擎和数据发现工具获取仓储资源的能力及图情领域OA仓储重要的查询、获取途径,为图书信息界相关人员进行研究提供参考。

3 相关研究

经过文献检索,笔者尚未发现有此类研究的发表。Markland调查研究了谷歌搜索引擎对来自英国的机构仓储文献资源的检索效率,发现谷歌与谷歌学术搜索的用户可以检索到来自机构仓储的文献,尤其是在用户知道文献全名的情况下[4]。Norris等人使用谷歌、谷歌学术搜索、OAIster、Open-DOAR查找同行评议的OA期刊论文,结果通过谷歌与谷歌学术搜索能查询到大多数论文,而OAIster、OpenDOAR的查询结果则令人失望[5]。Baldwin的研究指出,谷歌学术搜索查询到的工程学OA论文,有10%~13%来自机构仓储[6]。

4 研究方法

笔者先根据一定原则在OpenDOAR中选择5个图书馆与信息科学的OA仓储,并在每个仓储中随机选取8篇样本文献,然后再选择9种人们常用的、熟悉的搜索引擎与数据发现工具,分别利用这9种工具来检索先前选取的样本文献,根据检索结果,分别统计各仓储的文献被检命中率及每种搜索工具的检索命中率,以此评估图书馆与信息科学OA仓储的互操作性,以及查询获取这些仓储资源的主要途径。整个检索过程于2010年6月12日至7月13日期间完成。

4.1 OA仓储的选择

OpenDOAR由英国的诺丁汉大学和瑞典的隆德大学图书馆于2005年2月共同创建,是一个权威性的OA仓储目录,提供高质的全世界OA仓储清单。笔者利用OpenDOAR来选择“图书馆与信息科学”学科领域的OA仓储(包括学科资源库、机构仓储、政府仓储等类型)。为了便于研究,并让研究更具目的性、有意义及同类可比性,设立以下限制条件:①仓储使用的语言为英语;②仓储的主题仅涉及图书馆与信息科学;③仓储应包含至少100个条目。依照上述条件,从OpenDOAR中筛选出5个OA仓储,见表1。

表1 OpenDOAR中的图书馆信息科学OA仓储

4.2 搜索引擎与数据发现工具的选择

搜索引擎已成为人们查询、获取信息的最主要工具,有研究者发现大多数对仓储的下载要求是直接来自人们使用的搜索引擎。“搜索引擎观察(Search engine watch)”是对搜索引擎市场和搜索引擎优化的权威指南,笔者根据它发布的报告选择了7个为人们熟悉、好用的通用搜索引擎。

本研究是针对图书馆与信息科学领域的OA仓储与搜索引擎、数据发现工具的互操作性,因此笔者还选择了OAIster和Scirus这两种工具。OAIster是描述开放文档资源的联合目录,它通过获取那些使用OAI-PMH互操作协议的数字资源的元数据信息,来提供对那些数字资源的访问。到目前为止,它已拥有超过2300万条描述数字资源的记录。Scirus是2001年由爱丝维尔公司(Elsevier)发起的专业搜索引擎,它能搜索超过38000万个学科专业的网页,被誉为“网络最全面的科学研究工具”。

这样,就选取了9种搜索引擎和数据发现工具:Google、Yahoo、Baidu、Ask、Allthe web、AOL、Gigablast、OAIster、Scirus。

4.3 仓储中样本文献的选择

在被选取的5个仓储中,所有文献都能以年份的顺序编排、浏览。笔者分别在每个仓储中以随机的方式从2009、2008年的文献中选择了8篇文献,各年份文献大致各占一半。

4.4 检索方法与检索结果的确定

分别用所选的9种搜索工具来检索随机抽取的OA仓储文献。采用高级检索的方式,在检索框中分别输入文献的完整题名和著者名称进行精确检索,可能会检出一系列来源不同的与检索词完全匹配的文献,但其中只有在信息来源处标注的是所选OA仓储的URL文献才算是检索命中结果。如果没有出现匹配的检索结果,则再采用其他有可能的检索途径,以确定检索结果。

5 调查结果

5.1 5个图书馆与信息科学OA仓储互操作性的情况

①这5个OA仓储中的样本文献没有一个能百分百地被所选择的搜索引擎或数据发现工具检索到。被检命中率最高的是Librarian'sdigitallibrary(65.3%),最低的是E-LIS(19.4%)。5个仓储的平均被检中率为51.7%。

② E-LIS仓储的8篇文献,Scirus都能检索到,OAIster也能检出6篇,而其他7个搜索引擎则完全检索不到。

③ Inform conference proceedings仓储的被检中率为50%,Google、Yahoo、Ask能百分百地检索出它的8篇文献,而Baidu、Gigablast则一篇都检索不到,OAIster与Scirus均分别检索到1篇,Alltheweb检出7篇,AOL检出3篇。

④ Librarian's digital library仓储的 8篇文献,Google、Yahoo、Ask、Alltheweb、AOL 等搜索引擎都能全部检出,只有Scirus、Baidu 一篇都检索不到,OAIster检中 5篇,Gigablast检中两篇。

表2 检索命中情况

⑤OCLC Research Publications仓储的被检中率为59.7%,Google和AOL能完全检索出它的8篇文献,而OAIster则一篇都检索不到,Yahoo检出7篇,Ask检中6篇,Allthe web 检中 5篇,Scirus、Baidu、Gigablast都只检出 3篇。

⑥SILS Electronic Theses&Dissertations仓储的被检中率为63.9%,Google、Yahoo完全检索出它的8篇文献,而Baidu、Gigablast检索命中率为零,Ask、Alltheweb、AOL 都检中了7篇,Scirus检中了5篇,OAIster检中了4篇。

5.2 搜索引擎与数据发现工具的检索命中情况

①Google位居命中率第一位,除了没有检出E-LIS仓储的样本文献外,对其他仓储的样本文献全部检索命中,总检索命中率达到80%。而Baidu的表现有些令人失望,5个仓储中的样本文献,它只检出OCLC Research Publications中的3篇,对其他仓储的命中率皆为零,以总检索命中率7.5%列于最末位。其他搜索引擎与数据发现工具的检索命中情况见表2。

②OAIster是通过获取那些使用OAI-PMH互操作协议的数字资源的元数据信息,来提供对那些数字资源的访问。在本研究中,采用OAI-PMH协议的仓储共有3个:E-LIS、Librarian's digital library、SILS Electronic Theses&Dissertations,OAIster对这3个仓储的样本文献检出率分别为75%、62.5%、50%,均高于OAIster总检索命中率40%,也远高于它对另两个仓储的检索命中率。Scirus的情况也类似,它对这3个采用OAIPMH协议的仓储的检索命中率平均为54.2%,远超它的总检索命中率和它对另两个仓储的检索命中率。而其他7个搜索引擎则表现相反,由于它们对E-LIS的检索命中率为0,它们对采用OAI-PMH协议的仓储的检索平均命中率甚至还要低于对另两个仓储的检索平均命中率。

③依据本研究“检索方法与检索结果的确定”规定,“没有检索命中结果”可能是有两种情况,一是检索出与样本文献相一致的文献,但这些文献的来源并非所选的OA仓储;二是根本没有检索出与样本文献相一致的文献。在实际检索中,除了Google和Yahoo只出现第一种情况外,其他搜索工具都出现了上述两种情况。笔者分别以搜索工具和图书馆信息学OA仓储为单位,统计了它们发生上述第二种情况的数量和比率,分列在表3、表4。

表3 搜索工具未检出样本文献的数量与比例

表4 图书馆信息科学OA仓储未被检出的样本文献数量与比例

6 分析与讨论

①本研究涉及两个机构仓储(OCLC Research Publications、SILS Electronic Theses&Dissertations)和两个学科仓储(ELIS、Librarian's digital library),机构仓储的样本文献平均被检中率(61.8%)高于学科仓储的(42.4%)。这可能是因为机构仓储是依附于机构,以机构为单位组织建设、参与学术交流的,它比学科仓储更具有组织严密性,建设时也更着眼于向外界展示机构的学术实力,更趋向于重视互操作性。

②5个仓储中E-LIS的条目数量最多(10287条,是其他仓储条目数的13~41倍),也采用了OAI-PMH互操作协议,但是它的样本文献被检中率是最低的,仅19.4%,着实让人惊讶。联系到表4反映的E-LIS未被检出的样本文献占该仓储总样本文献检索量的比例很低(15.3%),这说明搜索工具其实检索出很多来自其他信息源的相同文献。笔者认为可能是因为E-LIS收录来自世界各地图书馆信息学界作者自行存档的论文,这些论文中很大部分都是已经发表、出版过的期刊论文、会议文献、专著摘节等,在网络上的表现就是同一文献来源复杂,有很多出处,E-LIS可能就淹没在这些繁复的来源出处中了。E-LIS应该加强它的互操作性,将它在图书馆信息学界的影响力对外发挥。

③撇开E-LIS,另两个采用OAI-PMH协议的仓储(Librarian's digital library、SILS Electronic Theses&Dissertations)的互操作性表现不错,它们的样本文献被检命中率分列5个仓储中的第1、2位,说明采用OAI-PMH对于增强仓储的互操作性还是必要的。

④通用搜索引擎成为图书馆信息科学OA仓储内容检索的最主要工具,7个搜索引擎的平均检中率为54.6%,高于两个数据发现工具的平均检中率41.3%。Google、Yahoo、Ask的表现优秀,检索命中率在72.5%~80%,这与其他一些学者的研究结果相似。Baidu对图书馆信息科学OA仓储内容的检索命中率最低,反映出它的重点始终是在中文信息搜索引擎上,对西文信息的搜索能力较弱。

⑤数据发现工具OAIster、Scirus对采用OAI-PMH的仓储内容检中率较高,尤其是Scirus对E-LIS的文献检中率达到了100%,表明这两个工具拥有独特的专业优势,可以成为通用搜索引擎的有力补充。

⑥结合表2与表3分析,可发现搜索引擎、数据发现工具的“未检出文献率”与它的“检索命中率”有逆相关的联系,搜索工具的检索命中率越高,其未检出文献率越低。Baidu、Gigablast的检索命中率位于末两位,而其未检出文献率高居第二位(并列),表明这两个搜索引擎可能不是有效的检索图书馆信息科学OA仓储信息的工具。

⑦图书馆信息科学OA仓储的“未被检出文献率”越高,说明其收录的独特内容可能越多,例如Inform conference proceedings仓储,其“未被检出文献率”在5个OA仓储中高居首位(40.3%),而它收录的内容是专门的会议文献,具有独特的学术价值。像这类仓储更应加强它的互操作性,增强与外界的交流,扩大影响力。

7 结论

由调查结果看,图书馆与信息科学OA仓储的互操作性不太令人满意,它们的样本文献平均被检命中率为51.7%,意味着仓储中将近一半的样本文献都不能被搜索工具所发现。搜索引擎和数据发现工具已成为用户发现信息的最主要工具,图书馆与信息科学OA仓储的管理者应该坚持追随各种搜索工具的索引编制政策,增强仓储的互操作性,从而努力使其学术影响力最大化。

[1]肖希明.信息资源建设[M].武汉:武汉大学出版社,2008:234-236.

[2]王行仁.21世纪万维网时代图书馆信息服务的策略[N].深圳商报,2009-11-19.

[3]Johnson,RK.Institutional repositories:partnering with faculty to enhance scholarly communication[J/OL].D-Lib Magazine,2002(11).http://www.dlib.org/dlib/november02/johnson/11johnson.html.

[4]Markland,M.Institutional repositories in the UK:what can the Google user find there?[J/OL].Journal of Librarianship and Information Science,2006(4):221-228.http://lis.sagepub.com/content/38/4/221.abstract.

[5]Norris,M.,Oppenheim,C.,Rowland,F.Finding open access articles using Google,Google Scholar,OAIster and OpenDOAR[J].Online Information Review,2008(8):709-715.

[6]Baldwin,V.A.Using Google Scholar to search for online availability of a cited article in engineering disciplines[J/OL].Issues in Science and Technology Librarianship,2009(56).http:www.istl.org/09-winter/article1.html.

猜你喜欢

互操作性信息科学命中率
军机维修保障互操作性评价技术研究
基于文献回顾的罚球命中率与躯干稳定性影响因素研究
山西大同大学量子信息科学研究所简介
三元重要不等式的推广及应用
夜夜“奋战”会提高“命中率”吗
2015男篮亚锦赛四强队三分球进攻特点的比较研究
韩军武器系统互操作性现状及未来发展
投篮的力量休斯敦火箭
基于文献类型矫正影响因子在信息科学与图书馆学期刊中的实证分析
信息科学的历史、现状与未来闫学