APP下载

国外机构知识库领域研究脉络及热点前沿研究*

2019-10-18田爱苹李文兰

图书馆 2019年10期
关键词:知识库论文机构

王 婧 田爱苹 李文兰

(1. 天津大学图书馆 天津 300350;2. 天津大学情报研究所 天津 300350)

1 引言

机构知识库是一种基于开放理念的信息获取方式,用于管理和传播机构各个部门及其成员创作的数字化产品,允许其被搜索引擎发现、揭示,便于全球学者、机构之间实现学术交流与分享。

机构知识库建设最早兴起于美国。1991年8月,在美国国家科学基金会和美国能源部的资助下,美国洛斯阿拉莫斯(Los Alamos)国家实验室的物理学家Dr. Ginsparg发起创建电子预印本文献库arXiv.or,以开放获取的方式供全球学者访问利用,旨在促进科学研究成果的交流与共享,机构知识库(Institutional Repository, IR)在美国初现雏形。21世纪初,随着建设实践的不断深入,美国正式提出IR的概念[1]。2001年,美国俄亥俄州立大学图书馆和首席信息官办公室联合推出了知识库服务(Knowledge Bank Service),员工、教师和学生可以将自己的作品上传并长期保存在知识库中,机构知识库的建设轮廓逐渐清晰。惠普公司实验室与麻省理工学院合作,从事IR的基础理论研究及操作平台的开发,于2002年11月,成功开发出DSpace系统(数字空间)并投入使用,这是全球最早的机构知识库软件平台。随着开放获取运动的兴起,机构知识库在世界范围内迅速发展,在OpenDOAR中注册机构逐年递增。截至2018年10月,OpenDOAR中共有3 779个注册机构[2],其中美国537个,英国277个,日本222个。在排名前三的国家中,英国和日本机构知识库的总和仍小于美国。可见,美国仍处于遥遥领先的地位。我国的注册机构知识库有102个,除台湾地区的61个注册机构知识库外,其它地区仅有41个,与2014年的38个[3]相比增幅不大,这表明我国机构知识库建设不仅远远落后于美国、英国和日本等发展较快的国家,近几年整体发展也非常缓慢。

我国机构知识库的概念引自国外,起步较晚,建设情况与国外相比还有一定的差距,为了全面分析国外机构知识库的相关研究概况,推进我国机构库建设,文章收集了Web of Science平台下SCIE、SSCI、CPCI数据库中关于机构知识库研究的论文数据。截至2018年10月15日,Web of Science平台的SCIE、SSCI、CPCI-S数据库中,在主题字段检索institution* near/3 repositor*,得到692篇文献,在此基础上考虑开放获取、开放数据、机构知识库、图书馆、DSAPCE等多种相关概念,通过人工筛选,最终获得540篇相关文献,其中我国机构和作者共发表23篇机构知识库论文。文章以国外作者和机构发表的517篇机构知识库论文为数据基础进行研究。

2 研究现状

2.1 文献类型分析

不同类型的文献所记载的信息内容各有侧重,在学术交流过程中起着不同作用。表1为国外作者和机构发表机构知识库论文的文献类型及被引频次分布情况,可以发现期刊类型的论文无论是发文量还是被引量都远高于其余类型的文献,对机构知识库领域的影响不容小觑。

表1 文献类型及被引频次分布情况

2.2 机构分析

从已标注所属机构的论文数据来看,国外高校院系是机构知识库建设实践的主力,也是机构知识库研究的主力,发表的论文无论是数量还是篇均被引量均高于其他类型的机构,其研究具备系统性并有一定的深度,为我国机构知识库建设实践提供了不可替代的理论指导,机构分布情况如表2所示。

表2 机构发文量分布情况(第一机构)

2.3 国家分布分析

美国作为最早提出机构知识库建设的国家,也是机构知识库领域内影响力最高的国家,发表的论文无论是数量还是总被引量都远高于其他国家,是机构知识库领域研究的领军者。国外发表的SCI论文的国家分布情况如图1和图2所示,国外发文量和被引量最高的国家依次为美国、英国、西班牙。

图1 国外机构知识库领域发文量分布情况

图2 国外机构知识库领域总被引量分布情况

表3 发文量排名前十机构

2.4 机构分析

国外高校院系是机构知识库相关研究探讨的主导力量,为机构知识库建设实践提供了不可替代的理论指导。机构知识库发文量的机构排名情况如表3所示,发文量排名第一的机构为马来西亚的马来亚大学,其次为美国的罗格斯大学和印第安纳大学。

3 机构知识库发展脉络分析

发文量的时间变化是衡量某个研究领域发展情况的重要指标之一,在一定程度上可以反映该领域研究的开展程度和研究进度,了解该领域的研究变化趋势。机构知识库相关论文的逐年发文量和五年移动平均发文量趋势如图3所示。

图3 逐年发文量情况

据此可以看出,机构知识库的研究整体处于技术的发展阶段。将国外机构知识库的发展划分为三个阶段:

3.1 2002—2004年,国外机构知识库领域的发文量较少且增长缓慢,研究还处于萌芽阶段

机构知识库建设自美国兴起后,经历了一段时期的实践探索,随着人们对机构知识库的认识不断加深,才逐渐形成明确的概念,相关的研究探讨也才逐渐兴起。萌芽阶段的研究内容主要集中在机构知识库的基础概念、建设思路、平台功能及实践案例介绍等,这些研究成果为在全球推广机构知识库建设做出了重要贡献,也为后续研究的蓬勃发展奠定了基础。2002年,加利福尼亚数字图书馆的R Tennant[4]即对机构知识库建设时采用的平台、实施方式等进行了介绍,提出了以联盟的方式发展机构知识库的建设思路,指出联盟方式发展机构知识库可以降低图书馆的建设成本并减少重复工作带来的资源浪费。2003年,CA Lynch[5]提出了机构知识库的概念及建设思路,指出机构知识库可以为高等教育机构提供变革的力量,更好地支持学术活动。惠普公司实验室与麻省理工学院合作,从事IR的基础理论研究及操作平台的开发,于2002年11月,成功开发出DSpace(数字空间)并投入使用,收集来自MIT教职员工和研究人员的各种形式的学术成果,并通过开源的方式,提供一系列遵循开放档案信息系统参考模式的上载、管理、传播数字信息的工具,对网络用户免费开放,为机构知识库建设提供了解决方案[6-7]。

3.2 2005—2006年,机构知识库在世界范围内迅速发展,对于机构知识库领域的研究开始进入快速发展时期

机构知识库对促进学术交流以及学术成果的共享和传播等都有着积极意义。在欧美等国的引领下,大学与科研院所纷纷创造条件建设机构知识库,各国机构知识库的相关研究得到蓬勃发展,相关论文发表量开始快速增长,该研究主题已然成为业内的研究热点。SJ Bevan[8]以克兰菲尔德大学为例,对电子论文提交过程中存在的问题进行了分析研究,受到了包括斯洛文尼亚大学联盟[8]、拉夫堡大学[9]在内的科研机构的广泛关注。2006年,英国联合信息系统委员会(JISC)对机构知识库的数字存储发表观点,探索了为机构存储库提供数字保存服务的模式[10],英国相关政府部门和高校对机构知识库建设的重视使得英国机构知识库数量开始急剧增长。除了欧美等国家,其他地区也纷纷开始建设机构知识库。2005年,PJ Lor[11]通过研究发现,机构知识库建设及开放存取运动对非洲南北、北南、南南方向信息流动有显著促进作用,印度科学研究所也积极开展机构知识库的建设工作[12]。S Pinfield[13]指出,最初的机构知识库开发主要集中在北美、西欧和大洋洲,特别是美国、英国、德国和澳大利亚。不久之后,日本加大了机构知识库建设。自2010年以来,其他区域和国家的库存量都有所增长,包括东亚(尤其是台湾)、南美洲(尤其是巴西)和东欧(尤其是波兰)。在此期间,法国、意大利和西班牙等国保持了平稳增长,而中国和俄罗斯等国的增长水平相对较低。在全球范围内,知识库主要是基于机构、多学科和英语语言的。它们通常使用开源的符合OAI的机构知识库软件,但在明确的许可协议方面仍不成熟,虽然机构知识库的大小很难准确评估,但据可用数据表明,目前大型机构知识库较少,绝大部分为小型的机构知识库。BC Bjork以ISI和Ulrich’s中的数据为样本,计算出2006年发表的文章总数约为1 350 000篇,其中4.6%立即可以公开获得,在为期一年的禁用期之后又增加了3.5%,得益于机构知识库,11.3%的论文可用副本可在特定主题或机构存储库或作者的主页上找到[14]。

这一时期机构知识库联盟也逐渐兴起,最有代表性的国外机构知识库联盟工程是由使用DSpace系统创建机构知识库的研究机构和大学图书馆组成的共同体,该联盟以技术系统为纽带,成员遍布世界各地,是工程师在Andrew W.Mellon基金会许可下与美国麻省理工学院和英国剑桥大学共同投资的实验项目,该项目降低了建库成本,为推动机构知识库建设提供了有力的技术保障。加拿大各个大学也积极参加研究图书馆协会的机构知识库项目[15-16],成立了CARL机构知识库实验项目[17](CARL survey of institutional repositories),为成员提供了建库指导和学术成果资源[17]。机构知识库联盟既可避免单个学术机构构建机构知识库时所面临的资金缺乏、内容征集困难、技术条件不成熟等问题,又可以避免各机构资源重复建设,实现各机构资源分布式整合、统一管理,促成各机构资源开放存取的最优化。

3.3 2007年以后,针对机构知识库的研究开始进入稳定增长期

机构知识库研究论文量保持高位,从5年移动平均发文量趋势看(见图3),机构知识库的整体发文量仍处于增长阶段,但开始出现了波动态势,2009年机构知识库的论文产出略有降低,2010年恢复发文量高位后,2011—2013年产出开始减少,随后于2014年达到峰值,随后又有所降低,这一表现主要与建设实践中遇到的问题有一定关联。目前机构知识库的建设大多停留在静态数字资源的典藏阶段,服务模式单一,用户与知识原创者缺乏沟通渠道,评价体系不健全,以上现状带来了诸多问题,如导致机构知识库带来的引文优势并没有吸引科学家的参与,而大多数机构知识库的资源和人员缺乏则带来了更严重的恶性循环。机构知识库需要与校园内的数据提供者和管理者建立良好的联系,才能系统、广泛地支持数据管理工作[18]。目前机构知识库中作者的自存档率较低,大部分文献是由图书馆员或管理人员保管的,导致可用性降低,自归档策略是较好的解决思路[19],机构知识库需要适应广泛的跨学科数据特征,才能解决目前机构知识库共享障碍的问题[20]。在开放访问运动中,大学和高校图书馆公开挑战传统学术交流体系,缓解传统学术交流体系和开放获取之间的冲突是长期以来的问题之一,然而目前并没有显示出任何减弱的迹象,机构知识库的低存储率一直在持续。R Cullen[21]指出机构知识库可以通过存储如学位论文等更广泛的数据来扩展自身功能,扮演更有价值的角色。2008年,Martinez-Uribe, L[22]指出科研数据的重要性,认为科研数据管理是机构知识库未来的发展方向。通过转换机构知识库中的元数据模式,增加谷歌学术的索引量,也是解决机构知识库存储率低的途径之一。S Corrall[23]指出,学术型图书馆未来发展方向之一即为数据管理,数据存储是机构知识库未来的转型方向。为促进数据共享,Y Kim[24]研究了科学、技术、工程和数学研究人员的数据共享行为,指出科研人员自身的态度、政策约束和机构知识库的用户友好度等都对数据存储库有重大影响,良好的数据服务及数据存储工具均可以促进数据共享行为。Á Borrego[25]通过对西班牙开放获取执行情况的研究,指出西班牙90%的基金资助论文出版商允许向机构知识库缴存,但机构知识库对这些论文的覆盖率很低,仅有14.4%,并且这些缴存的论文大多是图书馆员实施缴存的OA期刊的文章副本。2017年,Á Borrego[26]通过对比西班牙13所高校机构知识库与社交学术网站ResearchGate的学术成果的可用性,发现这13所高校的研究人员在2014年发表的论文中,只有11.1%可以在他们所在的机构知识库中找到,出现这种现象的原因是研究人员对机构知识库的认知或者操作不熟练,或者是更加认可ResearchGate的传播优势。这一系列问题一定程度上制约了机构知识库的发展,但人们仍然高度关注机构知识库建设,集中针对机构知识库建设实践中的问题展开更深层次的研究。研究的关注点开始转向用户需求分析、建设模式调整、服务内容拓展,以及机构知识库系统功能的深入开发,并将研究内容主要集中在机构知识库建设的内容模块、质量评价、服务模式、系统功能和联盟机制等更深层次的问题。同时,对机构知识库的访问政策、服务模式、版权管理、联盟机制和可持续发展等的讨论也在持续深入。

4 机构知识库研究热点与趋势分析

论文被引频次的高低,在一定程度上能够揭示该论文的学术影响力和情报价值。被引频次越高说明该文献的研究成果得到了越多研究者的认同,被研究者参考与借鉴,成为他人的研究基础,同时也表明与该研究主题相关的研究活动比较集中,该研究主题是同领域的研究热点。

通过机构知识库研究的高被引论文,可以分析不同发展阶段关于机构知识库的研究热点。根据ESI高被引论文的定义,并结合文章数据样本量,对于国外的517篇论文数据,文章取同一出版年发表的,按被引频次倒序排列的前1%的论文作为高被引论文,不足1%补足整数位,如表4所示,2002—2017年机构知识库领域排名前1%的高被引论文共计16篇,总被引频次556次,全部为期刊论文,文献来源较为集中,均为信息科学与图书馆科学类期刊。

通过分析热点论文,结合相关资料可以清楚地梳理出机构知识库发展的脉络和研究热点变化:

2004年以前,机构知识库领域研究还处于萌芽期,2002年,加利福尼亚数字图书馆的R Tennant即对机构

知识库建设时采用的平台、实施方式等进行了介绍,TA Peters[26]指出,机构数字存储库将显著提高构建机构的声望,在建立时可从个人、学科、机构、联盟及国家等多角度建立,在此基础上,2003年CJ Stoffle指出,机构知识库是图书馆未来的发展方向之一[27]。2003年,CA Lynch提出了机构知识库的概念及建设思路,指出机构知识库可以为高等教育机构提供变革的力量,并支持学术活动。惠普公司实验室与麻省理工学院合作,从事IR的基础理论研究及操作平台的开发,于2002年11月,成功开发出DSpace(数字空间)并投入使用,收集来自MIT教职员工和研究人员的学术成果,并通过开源的方式,提供一系列遵循开放档案信息系统参考模式的上载、管理、传播数字信息的工具,对网络用户免费开放,为机构知识库建设提供解决方案。研究热点主要集中在机构知识库的概念、特点和系统建设方面,也是机构知识库领域的研究起点,这一时期的文献虽少,但这些高被引论文为机构知识库的研究奠定了基础。

表4 国外历年高被引论文

2005—2006年,对于机构知识库领域的研究开始进入快速发展的黄金时期,在欧美等国的引领下,图书馆业界对建设机构知识库逐渐达成了共识,纷纷创造条件建设机构知识库,各国机构知识库的相关研究得到蓬勃发展。这一时期的主要研究热点主要集中在机构知识库建设实践方面,这些实践研究也为今后各国机构知识库建设提供了参考。机构知识库联盟也在这一时期兴起,联盟内部向着平台整合,形成统一的机构知识库服务系统方向发展,解决了技术开发能力欠缺、大量人力、物力重复性投入的问题,对机构知识库的推广起着重要作用。

2007年以后,针对机构知识库的研究开始进入稳定增长期,此时的研究热点转向机构知识库的可持续发展方面,学者们针对诸如机构知识库运行机理、提升使用率、扩展数据服务等机构知识库建设实践中的问题展开了更深层次的研究,研究的关注点开始转向用户需求分析、建设模式调整、服务内容拓展、开放获取生态系统、图书馆在数据服务中的自我定位、机构知识库系统功能的深入开发等方面。综上,国外研究对机构知识库在科研数据管理、共享中的地位和作用表示了肯定,并对机构知识库的建设开展了广泛的实证研究。

5 结论和展望

通过上文分析,目前笔者对机构知识库建设中存在的问题及未来发展方向总结如下:

论文的版权许可问题。不同机构知识库中的资源存储策略有一定区别,存缴的版本包括发表前的预印本和正式发表的版本,对于正式发表的版本会涉及到出版社的版权许可问题。目前实现开放存取主要有两大途径:金色OA和绿色OA,金色OA指整个期刊的文章都可免费获取;绿色OA指作者对手稿进行自存档处理后,存入机构知识库。机构知识库存储中涉及到版权问题的文章即为非金色OA的文章,对于绿色OA文章,机构知识库大多采用延迟一段时间(一般为6—12个月)或存储预印本来解决版权问题。目前几乎所有的公共科研自助者都发布了支持开放获取的政策,2013年5月全球研究理事会公布开放获取行动计划,欧盟2016竞争力会议要求科技论文在2020年全部OA化,但是完全实现科研人员、出版商、机构三方共同协作仍需一定过程。

机构知识库数据数量、质量问题。机构知识库中资源的收集量偏少成为机构知识库的普遍问题[28],机构知识库的作者自我存档率和全文率并不高,这除了与版权问题相关外,缺乏相应的政策激励也是重要原因之一,因此机构知识库建设时应持续关注全文率、作者自存档率和文摘率。与此同时,虽然机构知识库的建设逐渐由收集公开发表的数字化资源成果转向科研数据的存储,但数据存储管理仍任重而道远,许多并未正式出版但是具有重要科研价值的学术成果并未得到充分重视与认可,数据的归档与保存仍需要图书馆与学校、社会相关机构持续进行互补性合作。此外,与传统期刊相比,机构知识库最大的弱势在于没有严格的同行评议过程,因此未来机构知识库发展面临的巨大挑战之一就是对机构知识库内容的质量控制,只有保证数据的数量和质量,机构知识库才能实现可持续发展。服务方面,目前机构知识库的建设大多停留在静态数字资源的典藏阶段,服务模式单一,用户与知识原创者缺乏沟通渠道。通过建立机构知识库评价体系,提高机构知识库内容及功能的可用性,是未来机构知识库可持续发展的方向之一。因此,在未来机构知识库建设中,要优化、扩展数据存储服务,提升用户体验,建立完善的机构知识库评价机制,从用户出发,一方面细化服务,提升服务质量;另一方面扩展服务内容,同时为数据质量把关,并制定有效的推广计划,提升数据的利用率,服务于科研活动,促进知识流动。

机构知识库元数据标准化问题。机构知识库的元数据及功能标准化是实现开放获取和资源共享的关键,资源开放率和全文获取率的高低直接影响机构知识库的使用价值和影响力。机构知识库建立的初衷在于开放共享,提升科研成果的影响力,这就需要机构知识库建设保证其元数据的标准,以便为搜索引擎获取。根据统计显示,目前科研数据机构知识库的数据开放性和获取率仍较低,除了受版权许可问题及科研人员自身意愿所限之外,元数据是否标准化也是影响数据获取率的因素之一。因此需要加强机构知识库元数据的标准化,促进机构知识库之间的数据融合,实现数据共享。

机构知识库联盟化,扩大数据量,提高数据价值。机构知识库联盟既可解决单个学术机构在构建自身机构知识库时面临的资金缺乏、内容征集难、技术条件不成熟等问题,又可避免各机构资源重复建设;同时各机构间数据分布式整合和统一管理也可促进各机构资源融合,扩大覆盖学科范围,提升数据规模,为数据增值,有利于实现各机构资源开放存取的最大化利用。建立机构知识库的目的是为了促进科研数据的共享,高校机构知识库联盟化对于弱化高校科研活动的小科学特征、建立科学数据联盟、提高数据价值具有重要意义。同时,机构知识库联盟也应积极与政府等相关部门沟通,制定相关的激励政策和支持,实现机构知识库的可持续发展。

(来稿时间:2019年4月)

猜你喜欢

知识库论文机构
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
一周机构净增(减)仓股前20名
一周机构净增(减)仓股前20名
一周机构净增仓股前20名
一周机构净减仓股前20名
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登