基于OpenDOAR的学科知识库分析与研究
2019-08-27张颖
张 颖
(青海省人民医院,西宁 810000)
0 引 言
《布达佩斯开放存取先导计划》(BOAI)提出,开放存取期刊(OAJ)是通往开放存取的“金色之路”,开放存取知识库(OAR)是通往开放存取的“绿色之路”。自存档(Self-Archiving)是将数字化文档存放在公众可获取的网站上,存档遵从OAI协议,自存档是开放存取知识库的重要实现方式,主要类型包括机构知识库(Institutional Repository)和学科知识库(Disciplinary Repository)两类[1]。
目前,学术界对于学科知识库的定义还没有统一的界定,可以简单地描述为用以收集、保存并免费开放关于某一个或多个学科文献资源的知识库[2]。学科知识库作为开放存取知识库的主要类型这一事实,得到了国际学术界的公认。Harnad等和Chan等[3-4]指出学科知识库和机构知识库具有同等重要的地位,前者的资源采集、组织及其数据库的建设是以学科为中心,后者则是以机构为中心。在对两类知识库使用意向的调查中,多数被访问者倾向于接受专业性更强的学科知识库[5]。另有研究发现,尽管学科知识库只占全球开放存取知识库的不到10%,但其拥有的文档数量却占所有自存档数量的43%,其中94%的文档都存储于arXiv或PMC中[6-7]。此外,从文献、网络的调研情况来看,尽管国内外学者已经对自存档进行了大量的理论研究,涉及其构建模式、管理政策、系统软件等多方面,但现有研究大多专注于机构知识库或集中在自存档的相关问题,极少涉及学科知识库的研究。基于此,笔者针对学科知识库的创建和发展所涉及的相关问题展开讨论,以期为学科知识库的研究提供借鉴和参考。
1 学科知识库的概述
学科知识库是以学科为主线,对相关学科领域的各种类资源进行收集、整理、描述、组织、索引, 以实现对其长期保存和广泛传播,达到对该资源进行共享和利用的知识库[8]。学科知识库所收录的可能是单一学科,也可能是更大范围的相关学科,学科知识库不仅免费提供论文元数据、研究数据、论文全文等资源,而且可被网络索引,随着科学数据等新文献类型出现,被纳入学科知识库收录的文献类型越来越多[9-10]。学科知识库的特点如下:
(1) 自存储性。学者或专业研究人员的自主提交是学科知识库的主要建设方式。
(2) 资源类型丰富。目前涵盖学术论文、未发表的工作论文、科学数据等10余种数据,随着学科知识库的不断发展,还将出现新的资源类型。
(3) 开放与可获取性。丰富的学术资源可以极便捷地供全球所有需求者免费使用。
(4) 学科范围的发展性。从创建时的单一学科,逐步发展到更大范围的相关学科,随着时代的发展,学科知识库的学科范围将更为广泛[11]。
2 学科知识库的创建和发展分析
OpenDOAR(Direct of Open Access Repositories)是由英国诺丁汉大学(The University of Nottingham)和瑞典兰德大学(Lund University)于 2005 年创建的全球OA知识库权威目录网站[12],通过OpenDOAR 可以了解到全球学科知识库的发展现状。截至2017年9月5日,OpenDOAR收录的全球学科知识库达303个,通过逐一访问这些学科知识库站点,结合OpenDOAR公布的注册数据,在此共选取了126个信息全面的学科知识库,现从这些知识库的创建时间、资源数量、应用软件类别及组织方式等方面进行分析研究。
2.1 创建时间和资源规模
学科知识库从1991年的9个发展到2010年的45个,20年期间保持了持续增长的趋势,2011—2017年增长速度明显放缓,7年增加14%。从资源规模看,学科知识库以中小型知识库为主,1千至10万条资源量的知识库共有61个,占所统计知识库的48%。资源数量超过100万条的大型学科知识库除Europe PMC外,均创建于2010年前,Europe PMC虽创建于2011年,但其作为PMC国际存储库网络的一部分,其资源规模得益于对PMC自2000年创建以来存储的所有文档资源的整合。arXiv(1991年)和RePEC(1993年)分别在西班牙赛博计量学实验室(Cybermetrics Lab)2017年7月发布的全球知识库排名中位列第一和第五[13-18]。统计分析发现,早期建立的中小型知识库占比较高且从中产生了一批具有较高学术影响力的学科知识库,如图1所示。
图1 学科知识库创建时间和资源规模分布Fig.1 The distribution of disciplinary repository creation time&resource scale
2.2 系统软件
2000年以前,学科知识库大多自行搭建软件平台,如arXiv、PMC、SSRN等均定制了专属的系统软件;2000年以后,以Eprints和Dspaces为代表的一大批开源软件的开发和使用,为学科知识库的发展提供了重要的技术保障,后期越来越多的学科知识库开始选择采用第三方软件进行平台建设,可供选择的学科知识库系统软件较多,且绝大多数为免费的开源软件,这为以后学科知识库的构建带来了便利[19-22],如图2所示。
图2 学科知识库应用软件分布Fig.2 The distribution of disciplinary repository software
2.3 类别分布
作为一个学科知识库应具备5个基本特征,即作者自存档、收录预印本和后印本、公众免费获取、缺乏内容控制和提供数据检索的互操作机制。据此,笔者将统计的126个学科知识库分为2类:预印本出版平台、后印本存储中心。预印本出版平台是指集中存储学者们在线提交的电子预印本的数据库,允许任何人免费下载预印本,使其在正式出版之前就可以在网络上传播和分享,如arXiv、SSRN、bepress Legal Repository、ArtXiker等;后印本存储中心是指集中存储学者们在线提交的电子后印本的数据库,允许任何人免费下载使用,如PMC、PERSEE等。
2.4 创建主体
根据组织方式,学科知识库可以分为由机构组织创建的知识库和由个别科学家或学术团体的倡议而组建的独立知识库。图3统计显示,由机构牵头构建的学科知识库有91个,占126个学科知识库的72%,如PMC、HAL、bepress Legal Repository等。组织机构包括大学、图书馆、科研院所等,大学及其图书馆是创建学科知识库的主要机构。图3统计显示,独立知识库共计35个,占所有学科知识库的28%,如arXiv、RePEC、SSRN等。然而,两种组织方式差别主要存在于学科知识库的最初创建历史上,因为随着学科知识库的后期发展需要,许多独立知识库都开始往机构化运营方向发展,以便在资金、人员、管理等方面得到保障。如arXiv依托康奈尔大学进行维护和运营,并建立了一套自愿协作化商业模式来缓解其财政负担;SSRN实现了公司化运营,并宣布加入Mendeley公司和Elsevier公司进行新产品和服务的开发。
图3 学科知识库创建主体分布Fig.3 The distribution of disciplinary repository Creater
综合分析学科知识库的创建和发展情况可知,自1991年arXiv创建以来,学科知识库在其后的20年一直保持平稳的增长态势,但是随着时间的推移,学科知识库的创建速度已经明显放缓;第三方软件的出现为学科知识库的创建提供了重要的技术保障,极大降低了其创建的技术难度;根据建设目的的不同,学科知识库被建设发展成为学科资源门户、预印本出版平台、后印本存储中心、数字档案发布平台等多种不同类型,但是学科资源门户和数字档案发布平台等类型的知识库并不能完全满足学科知识库的基本特征;大学及其图书馆是牵头创建学科知识库的主体,由个别科学家或学术团体的倡议而组建独立知识库是学科知识库有别于机构知识库的一种独特的组织方式,但是由于后期资金、人员管理等方面的问题,这类知识库逐渐向机构化运营方向转化。
3 两种知识库的比较分析
3.1 相同之处
学科知识库和机构知识库都具有开放存取知识库的基本特征,即基于开放的理念,采取自存档的方式存储资源,旨在促进学术交流和传播;都遵循OAI协议,具有良好的互操作性,可以通过通用搜索引擎进行检索;存储多种类型的预印本、后印本、会议文献、技术报告等;不具备严格的同行评议制度,强调“自我管理”等。
3.2 不同之处
两者在资源、创建主体、组织方式、开放程度等方面存在较大差异。学科知识库尽管在数量上远远低于机构知识库,但其在学者团体中的影响力和利用率毫不逊色。两者的不同之处主要表现在:
(1) 收录的内容范围和侧重点不同。机构知识库收录本机构的多个专业领域成员(有的包括机构以外的研究人员)的研究成果,不仅局限于一个学科或几个学科内,极大地方便了当前出现的交叉学科、边缘学科的学者进行跨学科研究。此外,为了促进机构发展还会收录本机构的历史背景材料、发展统计数据、人员档案等资源,而学科知识库则按照学科为主线,主要收录本学科领域和相关学科领域的研究人员的研究成果,其发展是以学科为中心,侧重于促进学科发展。
(2) 建设者和维护者不同。机构知识库主要由各种机构建设和维护,学科知识库除了由机构牵头建设外,还有许多是由同一学科领域的成员及相关学科的志愿者参与建设和维护。基于学科主线,其参与主体不再局限在一个或多个机构,而是来自不同国家、不同地区以及不同机构的具有同一研究领域的学者。
(3) 组织方式不同。机构知识库是在机构倡导下,自上而下创建发展的,在政策、技术和资金方面的保障比较完善,但参与者在其参与过程中相对处于被动地位;学科知识库则是由研究者基于自身的研究兴趣与研究利益,自下而上发起组织的,参与者相对来说处于主动地位。因此,学科知识库能够更快、更好地得到研究者的支持和参与。
(4) 开放程度不同。机构知识库主要面向本机构成员提供开放存取服务,外机构的人员一般只能阅读和下载,并不能够进行自存档;学科知识库面向本学科的所有研究人员提供开放存取。
一般而言,研究人员可能会时常跨机构、跨地域工作,但不会经常更换其所属的学科领域。并且,从信息需求和行为方式来看,研究人员更习惯于从学科或主题角度查找资料,更愿意访问所在学科的资源站点。因此,学科知识库专家队伍的稳定性较机构知识库更佳,更易得到研究人员的长期关注和利用。
4 分析结果
通过对学科知识库的创建、发展分析以及与机构知识库的比较分析,可以推导出以下几个结论:
(1) 学科知识库未来将向学科多样化、资源质量优质化、资源类型多元化的方向发展。20世纪90年代初的学科知识库大多收录某一个学科的资源,随着学科之间的交叉发展,今后收录的领域将向多学科方向发展;由于学科知识库收录的资源没有经过同行评议,为保障学科知识库的学术影响力,未来学科知识库必然会更加注重资源的质量;随着新资源类型的不断出现,未来学科知识库收录的资源类型也将不断扩大。
(2) 学科知识库可采用跨机构联盟形式运营。学科知识库的运营存在着一些问题。因受学科类别的限制,同一学科领域无法存在多个学科知识库,不利于学科资源的交流传播和学科发展;学科知识库的创建和管理需要跨机构学术团队的合作,启动资金、管理人员都比较缺乏,从而许多由个人或学术团体组建的独立知识库逐渐向机构化运营方向转变。因此,由某一学科领域内具有较高影响力的机构出面组建基于该学科的跨机构知识库联盟将成为可行的学科知识库运营方式,这样既能满足学科资源的交流和传播,也保障了学科知识库的可持续发展。
(3) 学科知识库的发展应遵循本学科学术交流传统。物理学、数学领域的学科知识库arXiv取得成功后,出现了许多基于arXiv模式的其他领域的学科知识库,由于各学科的学术研究和传播差异,arXiv模式不能完全照搬。如生物学、医学领域的PMC,起源于E-biomed项目,为模仿arXiv模式进行生物学、化学、医药等领域预印本和后印本的在线存储和传播,但物理学领域可行的预印本传播模式显然不适合生物学、医学领域,因该领域与人类生命息息相关,许多专家都担心未经同行评议的研究成果可能“会对生命造成威胁”[23]。E-biomed项目于2000年重新启动为PMC,作为后印本存储中心,专门集中存储美国国家医学图书馆收录的专业期刊正式出版的论文,也允许个别作者在线提交PMC合作机构所赞助发表的期刊论文。因此,学科知识库发展应遵循本学科的学术交流传统和建设目的,选择适合本学科发展的学科知识库类型。
5 结束语
学科知识库的创建与发展经历了从快速增长到日趋平稳的过程,涉及的学科数量、资源数量、资源类型等日益丰富,但仍然存在着诸多不足之处。未来学科知识库将向学科多样化、资源质量优质化、资源类型多元化的方向发展,需要在政府支持、政策扶持、管理及运营方式优化乃至全社会科研人员参与积极性等方面作进一步研究与完善,从而保障学科知识库的长期稳定发展。