我国医药类科研机构构建国际学科知识库联盟的途径探索
2019-06-25周阳
摘 要 论文通过实例探讨了我国科研机构构建国际医药类学科知识库联盟的三种有效途径。参与途径主要适用于我国小型科研机构以成员形式参与发展已十分成熟的国外学科知识库联盟;合作途径主要适用于我国中型科研机构或中小规模的科研机构联盟与国外学科知识库或联盟在运营、资源和服务上进行合作;主导途径主要适用于我国大型科研机构,特别是获得国际基金资助并在国际上有一定学科声望的科研机构,可吸引国外中、小型科研机构为成员,主导构建国际学科知识库联盟。
关键词 医药类 科研机构 学科知识库联盟
分类号 G25
DOI 10.16810/j.cnki.1672-514X.2019.04.013
Abstract This paper explores three ways of constructing international disciplinary knowledge repository union by Chinese medical and pharmaceutical research institutions through examples. Participation way is mainly applicable to our small scientific research institutions participating in the development of foreign discipline knowledge base alliances as the members. The ways of cooperation are mainly applicable to our medium-sized scientific research institutions or small and medium-sized scientific research institutions alliances cooperating with foreign discipline knowledge bases or alliances in operation, resources and services. The leading ways are mainly applicable to our large scientific research institutions. The research institutes, which are funded by international fund and have a certain reputation in international disciplines, can attract foreign small and medium-sized research institutes as members and lead the construction of the international disciplinary knowledge base alliance.
Keywords Medical and pharmaceutical. Research institution. Disciplinary knowledge repository union.
學科知识库源自英文单词“Subject Knowledge Repository”或“Disciplinary Knowledge Repository”,是基于学科的开放存取仓储,即对某一学科的各类资源进行收集、保存,并通过互联网实现开放存取的知识库[1]。学科知识库联盟则是由同学科或某几个学科内多个成员构成,专业性强且内容丰富。在医药学领域,要构建国家学科知识库联盟,除明确其构建主体主要为科研机构,构建要求是在联盟的运营管理、资金吸纳、资源服务等方面具备全球视野以外,还须明确其构建途径,目前主要有参与、合作、主导三种。基于此,本文选取了10个医药类学科知识库或联盟作为研究对象,探讨构建国际医药类学科知识库联盟的方法。
1 从参与途径构建国际医药类学科知识库联盟
参与途径主要适用于我国小型科研机构以成员形式参与发展已十分成熟的国外学科知识库联盟,这些联盟的特征是成员众多、运营良好、资金充足、资源数量和质量都有保证,例如arXiv。从参与途径上来说,我国的科研机构只需达到联盟的成员机构标准,按照规定流程申请加入即可。我国中小型科研机构应选择成员众多、运营良好、资金充足、资源的数量和质量都有保证的国际医药类学科知识库联盟。本文以arXiv为例,探讨国际医药类学科知识库联盟的构建模式。
arXiv由Paul Ginsparg于1991年8月构建,已成功运营接近30年,有约220个成员机构覆盖全球24个国家,资金来源由Cornell大学图书馆、Simons基金和所有成员机构提供,资源量高达1 377 332条。我国的清华大学、中国科学院的高能物理研究所和文献情报中心就是其机构成员之一。
(1)arXiv机构会员资质要求。根据arXiv成员咨询委员会的规定,arXiv的机构成员可以是图书馆、研究机构、实验室、专业组织、基金会和其他为arXiv提供资助的非盈利机构,但要求该机构年下载量必须是前75%,当然满足条件的个人、出版商或其他有兴趣的组织也可以成为其成员,但没有投票权[2]。成员机构需要交纳的费用,是按照该机构前3年下载量的平均数计算的,下载量在前1~25名的成员每年需缴纳4400美元,前26~50名的成员每年需缴纳3800美元,前51~100名需缴纳3200美元,前101~150名需缴纳2500美元,前151~200名需缴纳1800美元,200名之后的会员需缴纳1000美元[3]。
(2)arXiv机构会员的特权。成为arXiv的机构会员也会有一些会员特权,包括以下几方面:通过成员咨询委员会决定arXiv项目的优先次序、新服务的开发、财务的规划、基金的分配、标准的实施、互操作性、技术的发展和政策的决定,以及宣传推广等实际运营问题;获取更详细深入的机构使用统计;以arXiv成员机构的身份获取更多的基金支持等。作为成员机构,可以在资金、运营、存取政策、学科服务、科研数据管理等诸多方面给予联盟建议和协助。如2016—2019年的Next Generation (arXiv-NG)计划,Sloan Foundation捐助445 000美元、Heising-Simons Foundation捐助322 000美元用于arXiv改进用户界面、增加存储空间、增强检索功能等技术的发展,Allen Institute for Artificial Intelligence捐助200 000美元支持语义学者试点研究[4]。因此,我国有实力的科研机构也可以对arXiv进行专项资助,甚至与其合作进行专题项目的研发。
如果科研机构想要更深层次介入arXiv的运营管理,则需要加入成员咨询委员会。成员机构可以在成员咨询委员会年会之前30天提出书面申请要求成为委员会成员,并通过成员机构选举产生。成员咨询委员会有13个具有投票权的委员和5个没有投票权的委员,一般任期四年。13个具有投票权的委员中有1个固定来自Simons Foundation,5个来自每年提供给arXiv资金占运营总额至少5%的成员机构,7个是由剩下的成员机构选举产生;5个没有投票权的委员的作用主要是提供信息和参与讨论,这些委员来自arXiv项目总监或科学主管,康奈尔大学图书馆任命的arXiv团队领导和两名来自学科咨询委员会的委员[5]。我国的科研机构还可以进入arXiv的学科咨询委员会,提供arXiv学科问题的咨询、监督与指导,并为arXiv的运营和政策制定提供建议。学科咨询委员会有10~14个可投票委员,其中约2/3的委员是从成员机构中抽签决定,其余1/3的委员由科学家在年度资助arXiv至少占运营总额25%的基金会中提名,并由其他委员投票产生;5个不可投票委员由康奈尔大学图书馆任命,与成员咨询委员会类似[6]。
2 从合作途径构建国际医药类学科知识库联盟
合作途径适用于我国中型医药类学科知识庫或联盟,可以选择与国外学科知识库或联盟在运营、资源和服务上进行合作,合作对象一般选择成员较少,且在资源、服务的数量和质量上有所欠缺的单库或联盟,如bioRxiv、Dryad、InterNano Nanomanufacturing Repository、DigitalCommons@The Texas Medical Center。合作模式构建有如下特征:(1)成员机构在十几到几十个。如bioRxiv约99个成员都是Scientific Community的成员,Dryad的20个主要成员包括美国科学促进协会、美国遗传协会等,InterNano Nanomanufacturing Repository的13个主要成员包括阿贡国家实验室、南加州大学、空军材料实验室、大金工业等,DigitalCommons@The Texas Medical Center的成员来自Texas Medical Center管辖的各分支机构,且联盟运营基本依靠顾问委员会,通过委员会易于沟通合作事宜,如果成员机构太多且资源和服务发展相对完善,一般没有合作意愿。(2)有意向扩大资金来源渠道而进行合作。(3)在完善存取政策,以及在系统技术层面的拓展合作。(4)在细分学科、文献类型、资源数量和存储需求层面上的合作,这是联盟合作最主要的方面。(5)学科服务合作是联盟合作的新方向,特别体现在科研数据管理上,可合作联盟在学科服务特别是科研数据管理上都存在一些欠缺,甚至空白,如bioRxiv几乎不提供科研数据管理服务,这就为国际联盟合作提供了契机。
从联盟模式上说,宜采用“分布采集模式”[7],参与合作的学科知识库或联盟相对独立,可分别构建和维护各自独立的平台,利用共同的数据交互标准与协议,将所有成员库的元数据整合到一个集中的搜索数据库中,并构建统一的检索平台。该模式确立之后,即可进一步确立运营、资金、存储政策、系统平台、学科服务等方面的合作方式。
(1) 运营上的合作可依托于联盟成员构建的顾问委员会,为了提高工作效率,还可下设一些具体事务的处理部门,无论是具体事务部门还是顾问委员会中,来自我国科研机构的人员比例不能低于1/3。
(2) 资金的合作可以有两个层次:一是资金全面合作,即合作双方对合作后的学科知识库联盟实行资金统筹分配,设立资金管理部门统筹管理使用;二是资金专项合作,就联盟合作开发的具体项目进行资金合作。
(3)存储政策方面,四个联盟的存储政策各有优缺点。bioRxiv对预印本资源的提交、已存储预印本的投稿都有详细的规定;Dryad的存储政策主要体现在提交、审查、纠错、附加数据、语种、格式、存储空间收费等细节问题的规定;InterNano Nanomanufacturing Repository的存储政策体现在提交、删除、记录更新和文献类型的方面;DigitalCommons@The Texas Medical Center的存储政策体现在格式、修订、删除和版权问题上。对此,可互相取长补短,并参考其他一些存储政策,如欧洲科研管理系统组织制定的通用欧洲科研管理系统标准框架,欧盟各国的科研管理系统均遵循该标准,实现系统、数据的标准化与互操作[8]。笔者认为,联盟合作之后,为更好地避免版权纠纷,存储政策可进一步细化,国际学科知识库联盟共享政策主要涉及Non-Exclusive License和Creative Commons license两个许可证,即非排他性许可证与创作共用许可证。除此以外使用较多的还有创作共用署名许可证(CC BY),以及该许可证下包含的次级许可,例如国际创作共用署名-相同方式共享许可证(CC BY-SA)[9]、国际创作共用署名-非商业许可证(CC BY-NC)[10]、国际创作共用署名-没有衍生品许可证(CC BY-ND)[11]、国际创作共用署名-非商业没有衍生品许可证(CC BY-NC-ND)[12]、国际创作共用署名-相同方式共享-非商业性授权许可证(CC BY-NC-SA)[13]等,合作之后的联盟可根据不同资源的开放要求及版权考量,采用适合的共享许可证。
(4)四个合作对象使用的系统平台各不相同。bioRxiv 的系统是Drupal,它是使用PHP语言编写的开源内容管理框架(CMF),由内容管理系统(CMS)和PHP开发框架共同构成,具有强大的定制开发能力,支持多语言、主题引擎、多模块、多角色权限管理等。Dryad的系统是DSpace,以内容管理发布为设计目标,遵循BSD协议的开放源代码数字存储系统,系统可以收集、存储、索引、保存和重新发布任何数字格式、层次结构的永久标识符研究数据,其特点是基于存储的资产管理、以事件触发构建的工作流机制、以分级权限控制的管理体系。InterNano Nanomanufacturing Repository使用Eprints3作为系统,Eprints是免费及开放源代码的软件包,用于构建符合开放文档主动获取元数据协议的开放存取知识库。Digital Commons@The Texas Medical Center的系统是Digital Commons,由Berkeley Electronic Press授权的托管机构知识库平台。
Drupal连续多年荣获全球最佳CMS大奖,是基于PHP语言最著名的WEB应用程序,因此笔者较倾向于合作之后的联盟系统使用Drupal。当然,合作联盟的也可各自使用合作之前的平台,但需解决系统兼容问题。此外,我国科研机构可在软件技术上给予联盟合作更多的支持,如构建系统网关(如PubChem Power User Gateway)、开发搜索软件(如Basic Local Alignment Search Tool、SNP Database Specialized Search Tools)、开发图像存储软件、发送接收软件(Frequency-weighted Link)、阅读软件(如Open Reading Frame Finder)、知识管理与协同软件(如Atlassian Confluence 5.10.8)等,甚至可基于B/S架构,在开源软件Drupal的基础上,采用XAMPP和后端数据库PostgreSQL开发跨机构学术管理系统[14]。
(5)学科服务,尤其是科研数据管理上的合作与互补是联盟合作的主要方面。bioRxiv、Dryad、InterNano Nanomanufacturing Repository、DigitalCommons@The Texas Medical Center四個联盟提供的学科服务与科研数据管理不算丰富,科研数据主要集中在存储服务,而学科服务主要体现在论文投稿、评论交流、引文管理、数据管理、用户培训、文档处理等方面,因此联盟合作在学科服务和科研数据管理上有很大的合作发展空间。比如,在推特、脸书、微博、微信等平台发布存储资源的推荐与更新,构建科研社区增进用户之间的科研探讨;将合作联盟的科研数据进行整合,跟踪数据引用,在科研数据存储、管理与共享的基础上,深化科研数据再利用服务;针对搜索引擎对网站的检索特征,尽量满足搜索引擎的检索原则,使联盟网站在搜索引擎自然检索结果中排名靠前,增强联盟网站的曝光度;提供详细的点击、下载、引用信息的数据统计,并出具用户行为统计分析,更细致全面的根据用户需求调整资源推送方案;构建学者库,汇集、存档合作机构内学者的学术成果,展示学者科研经历和科研合作网络,进一步挖掘提供学者图谱、科研图谱、知识图谱等高质量、智慧化学科服务,同时为形成新的科研团队与科研合作提供便利;构建科研团队学术管理系统,增加合作后的联盟成员内医药类科研机构数量,促进机构间科研合作更加频繁;为跨机构重组科研团队提供团队学术管理或专项科研管理的专门系统。此外,由于医药类学科特征,联盟合作可为用户提供生物实体突出等专业性服务,或构建实验数据库,将学科内所有成员机构可公开的实验流程,按细分学科进行整理公开,便于用户学习参考;开发更全面、细致、人性化的文献、数据、引文管理工具,并培训用户使用SPSS、Nvivo R或ArcGIS等软件进行数据处理。
3 从主导途径构建国际医药类学科知识库联盟
主导途径适用于我国大型科研机构,特别是那些获得国际基金资助并在国际上有一定学科声望的机构,联盟的主要构建工作由我国的科研机构或联盟完成。我国科研机构首先应借鉴如Ballarat Health Services Digital Repository、Chung Shan Medical University Repository(CSMUIR)、Digital Commons@Becker、Institute of Cancer Research Repository、LENUS (Irish Health Repository)等学科知识库,不断提高自身学科知识库水平,并在此基础上实现主导构建国际医药类学科知识库联盟的目标。在联盟成员的选择上,要把握以下几点。(1)机构成员所构建的学科知识库不宜时间过久,运营要较单一。因为这样的学科知识库构建不够成熟,所以才会有组建联盟完善自身的愿望。另外,运营机构单一可以加快联盟构建谈判速度,降低谈判程序的复杂程度。(2)应倾向于寻找资金来源单一,或者资金略显紧缺的机构作为其成员,这样的机构借助联盟降低自身运营成本的意愿更大一些。(3)只有在存取政策与系统软件技术上需要改进和完善的知识库,才会有构建联盟的意愿。(4)能够成为联盟成员机构的学科知识库,其存储的学科资源在数量与质量上都是要有一定的优势,这样可以将成员机构中的学科资源进行整合分析,更大程度上挖掘资源其学术价值。(5)利用联盟大平台整合提高学科服务水平,是吸引成员机构的一个优势条件,且Ballarat Health Services Digital Repository、Chung Shan Medical University Repository (CSMUIR)、Digital Commons@Becker、Institute of Cancer Research Repository、LENUS (Irish Health Repository)等学科库均没有科研数据管理服务,因此作为联盟,可将科研数据管理作为一个新的开发点。
我国科研机构主导构建国际医药类学科知识库联盟可采用“集中存储模式”与“层级构建模式”[7]。“集中存储模式”是由我国科研机构统一构建、运营和维护学科知识库联盟平台,成员机构将学术资源上传此平台系统即可,平台资源整合、学科服务、发展合作等重大决策均由我国科研机构起主导作用。如果选择该模式,那么需要构建一个统一的联盟平台,并统筹学科资源的采集、整合、管理、格式转换、建立索引并开放共享,同时还要考虑检索、导航、推送等其他功能与服务在此联盟中的“嵌入”。“层级构建模式”是由“管理级”+“支撑级”+“资源级”三级架构而成,如果使用该模式,我国科研机构可参与“支撑级”与“资源级”,但必须在“管理级”中占主导地位,负责联盟的政策支持、资金运营、发展规划、协作规范、存储标准、存取政策以及机构成员分工等统筹性事务。除了确立联盟模式外,我国科研机构主导构建国际医药类学科知识库联盟,还需要在运营、资金、技术、政策、资源、服务等方面做更细致的工作。
(1)联盟的运营资金除了各成员机构可以缴纳一些外,主导构建的我国科研机构需要解决更多的资金来源问题。对此,可将联盟构建作为一个科研项目申报国家、省部级、专项项目基金资助,或申请一些国际、国内横向项目资助,还可以与国内外数据库、出版商进行广告合作、学科服务合作、资源整合分析合作,获得一些赞助资金,或向用户提供一些有偿学科服务,使联盟运营的资金渠道丰富而广泛。
(2)存储政策应以取长补短为原则。Ballarat Health Services Digital Repository提交页面的提示按钮功能值得借鉴,使用户明晰提交过程,还可以通过单击按钮在提交过程中来回移动,且不丢失数据。存储格式上,可借鉴Ballarat Health Services Digital Repository和LENUS,规定格式,但不局限于“规定的格式”,如果提交的资源格式不在可选列表中,只需注明创建资源的应用程序名称及版本即可。共享政策可参考“合作途径”中阐述的共享政策内容。
(3)Ballarat Health Services Digital Repository、Chung Shan Medical University Repository (CSMUIR)、Digital Commons@Becker、Institute of Cancer Research Repository、LENUS (Irish Health Repository)等学科知识库使用最多的系统是DSpace。DSpace从5.0版开始,通过修改参数变量,开启jena-fuseki服务,支持系统数据发布为RDF关联数据,使其在支持OAI-PMH的基础上,增加一条分享内容的途径[15],联盟构建可以选择成员机构使用最多的系统软件进行构建,易兼容,可减少工作量。当然,也可使用开源软件Drupal或Eprints等重新架构系统平台。
(4) 成员机构资源的整合主要集中在学科和文献类型上,同时也可从来源机构、著者、发表或存储时间、特定专题等类别进行整合。在构建国际联盟之初,联盟规模与成员机构数量不宜过多,资源数量也不宜过多,且学科联系需相对紧密,使成员机构在科研上可以组建新的科研团队,增进相互交流与合作,这也能够大大加强联盟的稳固性,在联盟运营成熟之后吸引更多的成员机构,实现规模拓展。
(5) 学科服务需博采众长。如:进一步加强个性化服务;学科资源上传、使用、下载、访客等各种统计,也可以在统计的基础上出分析报告,分析潜在用户以及用户潜在行为,充分挖掘统计数据背后的价值;与其他单库或联盟构建良好合作关系,互为学科推荐网站,或被各大搜索引擎精准检索等。此外,Digital Commons@Becker提供期刊模块,允许用户创建同行评审期刊;Institute of Cancer Research Repository提供根据PubMed ID或DOI号对丢失文章为用户进行查找的功能,这些学科服务都值得联盟沿用,同时可以多参考其他联盟在学科服务提供上的新实践,不断提升本联盟的学科服务水平。
4 结语
笔者认为,对于像arXiv这样成员众多、运营良好、资金充足、资源的数量和质量都有保证的联盟,
易采用参与途径;像bioRxiv、Dryad、InterNano Nanomanufacturing Repository、DigitalCommons@The Texas Medical Center这样成员较少,且资源、服务的数量和质量有欠缺的单库或联盟,宜采用合作途径;像Ballarat Health Services Digital Repository、Chung Shan Medical University Repository (CSMUIR)、Digital Commons@Becker、Institute of Cancer Research Repository、LENUS这样运营机构和资金来源较单一,软件技术、资源建设、学科服务等存在欠缺的小型学科知识库,宜采用主导途径。当然,这三种途径并非全部途径,其他构建途径将是笔者继续探索的方向。
参考文献:
胡芳.学科存储库及相关概念辨析[J].图书馆,2016,1(1):49-51.
Who can be a member[EB/OL].[2018-05-06].https://arxiv.org/help/support/faq.
What are the benefits of becoming a member[EB/OL].[2018-05-06].https://arxiv.org/help/support/faq.
What is arXiv next generation[EB/OL].[2018-05-06].https://arxiv.org/help/support/faq.
Board composition[EB/OL].[2018-05-07].https://confluence.cornell.edu/display/arxivpub/Member+Advisory+Board+Bylaws.
ArXiv scientific advisory board bylaws[EB/OL].[2018-05-07].https://arxiv.org/help/faq/arXiv_SAB_bylaws.pdf.
周阳.构建我国药学类学科资源库联盟的策略[J].中华医学图书情报杂志,2017,26(4):41-48.
Main features of CERIF[EB/OL].[2018-05-11].http://www.eurocris.org/cerif/main-features-cerif.
Attribution: ShareAlike 4.0 International(CC BY-SA 4.0)[EB/OL].[2018-05-04].https://creativecommons.org/licenses/by-sa/4.0/.
Attribution: Non-commercial 4.0 International (CC BY-NC 4.0)[EB/OL].[2018-05-09].https://creativecommons.org/licenses/by-nc/4.0/.
Attribution: NoDerivatives 4.0 International (CC BY-ND 4.0) [EB/OL].[2018-05-09].https://creativecommons.org/licenses/by-nd/4.0/.
Attribution: Non-ommercial, NoDerivatives 4.0 International (CC BY-NC-ND 4.0)[EB/OL].[2018-05-09].https://creativecommons.org/licenses/by-nc-nd/4.0/.
Attribution: Non-ccommercial, ShareAlike 4.0 International (CC BY-NC-SA 4.0)[EB/OL].[2018-05-04].https://creativecommons.org/licenses/by-nc-sa/4.0/.
王洪軍,刘鹏年,孙奇,等.联合科研模式下虚拟团队知识管理系统的构建[J].中华医学图书情报杂志,2017,26(9):33-37.
陈和.基于关联数据的机构知识库联盟构建研究[J].知识管理论坛,2017(1):2-8.