“一带一路”视角下国际医药领域知识库联盟构建探析*
2020-01-09周阳,彭飞,黄磊
周 阳,彭 飞,黄 磊
(1.中国药科大学图书与信息中心,江苏 南京 211198;2.金陵图书馆,江苏 南京 10019;3.江苏凤凰新华书店有限公司,江苏 南京 210000)
1 导言
国际开放存取知识库联盟(Confederation of Open Access Repositories,COAR)联合了欧、亚、南美、拉美100个机构库,使COAR成为全球联盟性的OA平台,COAR提出“下一代知识库是基于全球学术交流的基础网络设施,应具备全球化的广泛视角,使每个学者和研究机构都参与到全球化科学网络和学术咨询中”。而“一带一路”的战略目标也是建立一个政治互信、经济融合、文化包容的利益共同体、命运共同体和责任共同体,开拓学术交流的途径与方式也是文化包容的重要体现之一。与“一带一路”沿线国家合作共建国际医药领域知识库联盟则是加强“一带一路”合作国家之间学术交流的创新方式,既符合国家推动“双一流”建设、加强高校学科建设的要求,同时中医中药又是我们国家医药文化的重要组成部分,带头构建国际医药领域知识库联盟亦是文化自信的重要体现。国际医药领域知识库联盟基于医药学科,对各类学科资源进行收集、保存、并通过互联网实现OA,由同学科多个机构成员构成,专业性强且内容丰富,有利于解决单个医药领域知识库的资金紧缺和人才不足问题,有利于国际医药资源的整合利用及自产资源的保存共享,也是国际OA运动的重要组成。
除中国外,“一带一路”沿线65个国家中,东亚1国、东盟10国、西亚18国、南亚8国、中亚5国、独联体7国、中东欧16国。本研究主要通过对 DOAR(Directory of Open Access Repositories)[1]中394个“医药健康(Health and Medicine)”类知识库网站的调研(数据截至2019年7月10日),筛选出来自中国与“一带一路”沿线这65个国家的医药领域知识库,并对这些样本库网站进行调研,主要针对运营管理、资金来源、系统软件、资源组织、存取政策、学科服务等问题。再通过问卷方式向这些知识库的构建机构相关人员调研国际医药领域知识库联盟构建的联盟模式、运营方式、资金来源、软件平台、人员配备、资源组织、存取政策、学科服务等方面的问题,并结合网站调查与问卷调研的结果提出“一带一路”沿线国家构建国际医药领域知识库联盟的途径与策略,为具体实践提供参考。
2 “一带一路”沿线国家医药领域知识库构建情况调研
本次调研主要通过将DOAR中394个“医药健康(Health and Medicine)”领域知识库与“一带一路”沿线66个合作国家相匹配,初步筛选出涉及23个国家87个调查样本,剔除因语言问题无法获取调研信息的网站和死链接,最终确认调研样本56个来自19国家(统计日期2019年7月22日),分别是:克罗地亚9个(Collegeof Occupational Safety and Health Repository、Dr Med、Full-text Institutional Repository of the Ruđer BoškovićInstitute、Repository of the Faculty of Medicine Osijek、Repository of the School of Dental Medicine University of Zagreb、Repository of the Sestre milosrdnice University Hospital Center、Sveznalica、University Department of Health Studies Repository、University of Split School of Medicine Repository),孟加拉国3个(BRACUniversity Institutional Repository、Daffodil International University Institutional Digital Repository、Knowledge Repository),土 耳 其 5 个(Balıkesir University Institutional Repository、DSpace@IKCU、Igdir Universitesi Acik Erisim Sistemi、Marmara University Open Archive Repository、earsiv@Uskudar),伊朗10个(Bushehr University of Medical Sciences Repository、Golestan University of Medical Sciences Repository、Mashhad University of Medical Sciences Repository、Qazvin University of Medical Sciences Repository、Repository of Research and Investigative Information、Repository of Shahrekord University of Medical Sciences、Repository of the Iran University of Medical Sciences,Tehran、Research Repository Portal of Medilam、Sabzevar University of Medical Sciences Electronic Publications、Tabriz University of Medical Sciences Repository),印度6个(DSpace at Indian Institute of Management Kozhikode、 Eprints @MDRF、Eprints@CMFRI、IR@NPL、Indian Academy of Sciences、NIRT Institutional Repository),捷克 1 个(Digital Library of the Czech Technical University in Prague),波兰 2个(ECNIS-NIOM Repository、Łódzka Regionalna Biblioteka Cyfrowa),印度尼西亚6个(Hasanuddin University Repository、Institutional Repository UIN Syarif Hidayatullah Jakarta、Repository Akademi Farmasi Putera Indonesia Malang、STIKESInsan Cendekia Medika Repository、Ubaya Repository、Universitas Ahmad Dahlan Repository),中国2个(IHNSOpenIR、Institutional Repository of Institute of Psychology,CAS),摩尔多瓦1个(Institutional Repository of Nicolae Testemitanu State University of Medicine and Pharmacy of the Republic of Moldova),乌克兰2个(Repository of Dnipropetrovsk Medical Academy、eZTUIR),立陶宛1个(LUHSeDoc Institutional Repository),塞尔维亚2个(National Library of Serbia-Digital Object Identifier Repository、VinaR-Repository of the Vinča Institute of Nuclear Sciences),白俄罗斯1个(Repository of the Gomel State Medical University),哈萨克斯坦1个(Repository of the West Kazakhstan Marat Ospanov State Medical Unversity),新加坡1个(ScholarBank@NUS),马来西亚1个(UMS Institutional Repository),俄罗斯 1个(Ural State Medical University Repository),巴基斯坦 1个(eCommons@AKU)。通过对这56个样本库的网站调查,从而了解知识库构建相关问题例如运营管理、资金来源、系统软件、资源组织、存取政策、学科服务等。
2.1 运营管理及资金来源调研
调研结果中47个依托于机构构建的知识库其运营管理都是所在机构的图书馆,存储成果也都是本机构科研产出,如土耳其Balıkesir University Institutional Repository,其运营管理机构就是巴尔克希尔大学的图书馆;波兰的ECNIS-NIOM Repository是一个学科库,存储与共享环境癌症风险、营养与个体敏感性研究机构(ECNISNetwork of Excellence)的研究产出,由波兰洛兹诺弗职业医学研究所(Nofer Institute of Occupational Medicine in Lodz,Poland)的图书馆管理。因此联盟的构建也可由各成员机构图书馆主导。且捷克技术大学(Czech Technical University,CTU)的机构库Digital Library of the Czech Technical University in Prague由CTU的中央图书馆与计算机信息中心联合开发与管理,是捷克CTU信息基础设施的一部分,CTU信息基础设施还包括CTU信息系统(SIS-Study Information System、CRIS-Current Research Information System、Usermap-User Authentication and Authorization)、图书馆系统(Aleph)和电子期刊出版系统(Open Journal Systems),最大限度的存储与利用科研信息数据与成果[2]。
当然,也有基金会、研究所、实验室构建的知识库,由所属机构直接运营,这样的知识库有9个,如印度Eprints@MDRF是马德拉斯糖尿病研究基金(Madras Diabetes Research Foundation)构建的研究糖尿病相关内容学科库;孟加拉国Knowledge Repository是国际腹泻病研究中心(International Centre for Diarrhoeal Disease Research)构建的腹泻病研究学科库;中国Institutional Repository of Institute of Psychology,CAS是由中科院心理研究所构建;印度的Eprints@CMFRI由中央海洋渔业研究所(Central Marine Fisheries Research Institute)构建的机构库;印度的IR@NPL是由新德里国家物理实验室(National Physical Laboratory,New Delhi)构建运营的学科库。
语言上,25个机构库都使用双语或三语界面,即母语或常用语和英语,用户可以选择语种,但存储内容一般是按提交内容语种存储,没有后期对全文内容进行人工翻译,亦没有增加英文内容摘要,如克罗地亚Full-text Institutional Repository of the Ruđer BoškovićInstitute是英语与克罗地亚语界面;土耳其Igdir Universitesi Acik Erisim Sistemi是英语、德语与土耳其语界面。31个全英文界面和内容的知识库,如孟加拉国的Daffodil International University Institutional Digital Repository,虽然孟加拉语是孟加拉国的官方语言,但教育界和商界广泛使用英语。因此联盟平台的构建需考虑众多成员机构的语言问题。
资金来源上,调查样本中54个资金是由所在机构提供,如图书馆财力允许也会出资。当然还有第三方机构出资的情况,如孟加拉国农村发展委员会大学(Bangladesh Rural Advancement Committee University,BRAC)由其图书馆Ayesha Abed Library运营的机构库BRACUniversity Institutional Repository,它的资金来源是科学出版国际网络机构(International Network for the Availability of Scientific Publications);波兰的Łódzka Regionalna Biblioteka Cyfrowa的资金来源除了所在机构,欧洲区域发展基金(European Regional Development Fund)也参与资助。因此联盟在成员机构出资的基础上也可向第三方组织寻求资助与合作。
2.2 系统软件调研
样本库涉及的系统软件主要有DSpace、EPrints、Islandora、Fedora、Digital Commons、dLibra、CSpace。使用DSpace和EPrints最多,均为21个,使用Islandora8个,使用CSpace2个,Fedora、Digital Commons、dLibra均只有1个,还有1个构建系统不明。
DSpace[3]开发与管理主要依靠非营利组织DuraSpace。DSpace免费、易安装、可定制,它允许访问所有类型的数字内容,还可扩展到更大的学术生态系统中与之集成,可增加使用工具和互补模块,最新版本DSpace7。
EPrints[4]是英国南安普顿大学电子与计算机科学学院发开发的免费软件,其团队提供软件托管、培训和咨询服务,最新版本EPrints3.4。在统一资源定位URL地址上,11个知识库支持OAI2.0[5],Open Archive Initiative是一种独立应用的、能够提高网络资源共享范围和能力的互操作协议标准,OAI2.0为公认的学位论文交换标准。
Islandora[6]是一个开源知识库系统,使用Drupal作为前端,并使用其他开源技术,如基于Fedora Commons数据存储,使用Solr搜索。主要由Islandora模块和不同Solution Packages组成,最新版本Islandora8。
Cspace[7]由中科院文献情报中心独家研发,由中科维智独家商业化运营,是中国用户群体最大的知识管理平台,最新版本CSpace6.0。
Fedora[8]是一款基于Linux 的开源操作系统,由Fedora Project开发,最新版本Fedora30。
Digital Commons[9]是一个基于云存储的托管系统,可管理、展示学术成果。
dLibra[10]是波兰使用的用于使数字对象和文档具有完整搜索和筛选功能的非特定系统。安装和使用较简便,可与用户合作开发其他功能满足个性化需求。dLibra的标准配置OAI-PMH和OAI-ORE协议允许其他系统交换信息,还提供OpenSearch界面,可在其他系统中显示搜索结果,最新版本dLibra5.8.4。
系统软件的选择主要侧重几个方面:费用、安装、托管、个性化、特定功能、使用率。从调研结果看:(1)免费的系统有DSpace、EPrints;(2)安装 简便的有 DSpace、dLibra;(3)可 托管的有EPrints、Digital Commons;(4)可进行个性化定制的有 DSpace、dLibra;(5)具备特定功能的例如DSpace可扩展集成、dlibra的OpenSearch可在其他系统中显示搜索结果;(6)使用率最高的是DSpace和EPrints,使用率越高,说明成员机构对该系统越熟悉。因此联盟平台的选择可根据具体构建时的侧重点考量。
2.3 资源组织调研
资源组织上,本研究主要从样本网站中调研涉及学科、文献类型、资源数量、浏览途径、检索字段、新资源展示等方面。
涉及学科上,27个知识库是单一的医药类学科,一般由医药类的专业院校或科研机构构建;11个知识库主要涉及自然科学类学科,其中包含医药类学科,多为自然科学类科研机构构建;18个知识库涉及综合类学科,其中包含医药类学科,大部分由综合类高校构建。联盟主要涉及医药专业资源,因此医药类学科库可直接成为联盟的子库,或直接将资源导入联盟平台,而涉及自然科学或综合类的知识库则需将医药专业资源整合后导入联盟平台,或重新构建子库。
文献类型上,样本知识库的文献类型主要包括期刊文章、会议论文、学位论文、研究项目、未发表的报告和工作文档、数据集、专利、图书、音频、视频等多媒体资源。联盟平台存储资源需本着尽量多的涵盖文献类型的原则,最大限度囊括各类资源。
资源数量上,百级别的知识库8个,千级别19个,万级别7个,十万级别2个,分别是印度Indian Academy of Sciences:Publications of Fellows、新加坡ScholarBank@NUS。存储上万资源的知识库,其构建机构对海量资源的存储、标引、导航与检索都有着丰富的经验,他们可以牵头负责联盟资源组织工作。
浏览途径上,样本库主要包括合集、年份、卷期、作者、题名、学科分类、存储日期、文献类型、所属组织(常见于机构库)、研究项目等。检索字段上,一般有合集、年份、卷期、作者、题名、语种、基金、学会、编辑、摘要、关键词、标识符、出版者、学科分类、文献类型、所属组织、资源格式、文档状态、期刊名称、期刊类型等。联盟平台在浏览途径和检索字段的设置上可根据实际需求在此基础上进一步完善。
新资源展示上,有首页显示新上传资源5个、10个或最近7天几种情况。联盟平台在页面容量允许的情况下,可尽量多展示。
样本中21个知识库有资源使用统计,主要涉及点击量、搜索量、下载量、下载推荐、被引排行等。其中有一些知识库可以根据具体时间区间来统计,如Dr Med;或可以根据具体国家、地区或城市进行统计,如ECNIS-NIOM Repository;或可以根据创作者进行统计,如Eprints@CMFRI。
2.4 存取政策调研
样本中23个知识库有明确的存取政策,主要有几种情况:(1)存取政策较齐全细致,主要包括:版权政策(使用SHERPA/RoMEO[11]查询)、存储政策(如资源用途、资源格式等)、“组织”政策(针对大机构里的子机构)、保存政策、删除政策(如涉及侵权或剽窃、危害国家安全的资源须删除,或不再向公众展示),但没有详细的共享政策(通常只包括允许非营利再利用,但须提到从知识库检索,并提供资源原始链接,如果是商业重用必须获得正式许可,不允许机器人收割等),这样的知识库有19个,如DSpace@IKCU等;(2)有明确的共享政策,这样的知识库有2个,如Balıkesir University Institutional Repository的共享政策是CCBY-NC-ND 4.0[12],Institutional Repository UIN Syarif Hidayatullah Jakarta使用的是创作共用署名非商业许可CCBY-NC 4.0[13]。当然存取政策也会有所不同,如Ubaya Repository、VinaR的共享政策就允许机器人收割,且VinaR也允许商业再利用。
联盟的存取政策制定需在结合国际惯例的前提下,经过所有成员商讨,参考已有知识库的存取政策,并由联盟管理委员会正式推出。政策当以详细、明确为准则,尽量减少歧义,可在运营的实践中不断增补完善。
2.5 学科服务调研
大部分样本库提供的是订阅和简单的文本编辑服务,只有极少数知识库有学科分析相关内容,但并不对用户开展针对性和交互式的学科服务。提供订阅和文本编辑服务的知识库有30个,如DSpace@IIMK等,具体的订阅服务一般提供的是RSS1.0、RSS2.0,文本编辑服务是Atom。RSS(Really Simple Syndication,简易信息聚合)是一种消息来源格式规范,用以聚合经常发布更新数据的网站,把新闻标题、摘要、内容按照用户的要求推送到用户的桌面,RSS1.0、2.0都是它的不同版本[14]。Atom是Github专门为程序员推出的一个跨平台文本编辑器,具有简洁和直观的图形用户界面,支持CSS、HTML、JavaScript等编程语言,支持宏,自动完成分屏功能,集成了文件管理器[15]。30个样本库中,中国科学院自然科学史研究所机构知识库(IHNSOpenIR)、Institutional Repository of Institute of Psychology,CAS还对成果创作者进行详细介绍制成科学家名片,此外还提供详细的文献资源类型分析和资源学科分类分析,也可根据个人需求自动生成知识图谱等。
可见各知识库为用户提供的学科服务相对较单一,构建联盟平台可充分发挥联盟优势,为用户提供更细致、完善、灵活的学科服务。
3 “一带一路”国家医药领域知识库联盟构建阻滞因素问卷调查
除了对“一带一路”国家56个医药领域知识库进行调研外,本研究还通过电子问卷和电话调研相结合的方式,对这56个医药领域知识库运营机构(一般是图书馆或者知识库管理组)相关人员进行了问卷调查。为防止基本概念认知偏差影响问卷结果,在问卷开篇笔者对相关概念做出解释,并于2019年8-9月展开调研,问卷内容主要包括“一带一路”国家联合构建国际医药领域知识库联盟的联盟模式、运营方式、资金来源、软件平台、人员配备、资源组织、存取政策、学科服务等方面的问题。本次调查共发放问卷56份,回收44份,有效问卷41份,主要以开放性探讨为主,条件允许的情况下也会通过电话和电子邮件的方式就相关问题进行个别讨论。通过归纳,问卷反映内容如下。
3.1 联盟模式与运营方式分析
联盟模式的选择,问卷中给出了三种:“集中存储”、“分布采集”和“层级构建”[16],其中70.73%的问卷反馈选择“分布采集”模式、12.20%的反馈选择“集中存储”模式、17.07%选择“层级构建”模式。由于本次调研对象均已构建知识库,因此更愿意选择“分布采集”模式,该模式由成员机构根据共同的数据交互标准和协议分别构建和维护各自独立的医药类学科库,元数据再被整合到一个集中搜索数据库里,联盟构建统一检索平台,可搜索所有成员机构的学科资源。该模式优点是成员机构拥有较高自主权,能保持各学术机构的主体性,展现各自的研究特色与实力。当然问卷反馈中也多次提到具体联盟模式要依据成员机构实际情况而定。
运营方式上,从问卷反馈看,成员机构普遍认为联盟涉及机构众多,组织庞大,管理决策人员应当从各成员机构中抽选但要注意人员比例和轮换制度,当然还需组建不同职能的工作组,如发展规划组、成员管理组、政策制定组、学科服务组、资源建设组、技术维护组、商业合作组等。此外还有问卷反馈提出需要加强激励机制,联盟提供的学科服务、学术资源都来自各成员机构,为了提升成员机构的积极性与参与度,联盟需要制定合理新颖的激励机制,充分调动成员机构热情。
3.2 资金来源分析
问卷中“构建联盟最重要的阻滞因素”问题反馈结果,43.90%的问卷选择了“资金来源问题”,位列第一;21.95%选择“技术支撑问题”;14.63%选择“标准规范、涉及的法律法规问题”;12.20%选择“主管部门的支持,以及构建联盟的统筹管理问题”;7.32%选择“专业人才问题”。接近半数的反馈都是考虑“资金先行”,这样跨国的联盟无论是平台架构、子库建设、后期运维还是人员配备都需要大量资金保障,没有坚实的经济基础,其他都会沦为空谈,无法真正从理论推向实践。对于资金来源的分析,反馈中给出了一些建议,如来自成员机构,或以项目形式从学术和慈善基金获取,或与医药企业合作获取资助等。但反馈中也提出一些细节问题,如各成员机构资助比例,成员是否需要进行资助等级划分,如何划分,是否收取会员会费,有偿学科服务如何定价,如果联盟构建是以项目形式,各成员机构可以独立申请项目资助还是以联盟的子项目形式申请,与商业合作的核心集中在哪些方面,合作的边界又在哪里,是否还可向学会、协会、行政部门、民间团体等第三方组织寻求资助,如何实现,这些问题的解答,都需要具体构建机构反复沟通协商。
3.3 软件平台分析
问卷“构建联盟最重要的阻滞因素”,反馈结果第二的是“技术支撑问题”。联盟平台涉及的首要技术问题就是平台架构的系统软件,从问卷反馈看,大部分还是选择了已构知识库的系统软件,41.46%的问卷选择“DSpace”;26.83%选择“EPrints”;9.76%选择“Islandora”;7.32%选择“Fedora”;7.32%选择“Digital Commons”;4.88%选择“CSpace”;2.44%选择“dLibra”。问卷中也有一些反馈了对于这些系统软件的使用体验、优缺点和改进建议,也表示如果利用“分布模式”构建联盟,还是会选择目前使用的系统构建子库,在操作熟悉度、构建工作量及后续运维方面经验都较充足,当然,为了方便联盟系统对接和标准规范的一致性,也愿意少数服从多数。如联盟构建采用其他模式,则需通过联盟委员会商讨或全体成员机构投票表决来确定构建系统,此外,反馈中还多次提到联盟要构建自己的技术团队,配合软件开发机构完善后期运维,并根据实际需要和特色增补模块和工具。
对于实现“联盟平台与本机构科研管理部门和档案部门管理系统整合对接,实现联盟平台内对科研项目、学术论文、教材、教师档案的一站式检索与部分原文获取”的问题,70.73%的用户“希望各系统内的学科内容可以对接”,更新的学科内容也可以在联盟中同步,具体实施可参考捷克CTU信息基础设施建设。当然也有24.39%选择“无所谓系统对接,用户可以自己去各部门网站查找”,4.88%选择“不希望对接”,给出的理由是协调工作涉及多个部门,需要学校或机构的领导层同意才可推行,且资金划拨和技术实现也需细化解决,再者这些资源公开程度不同,内容挑选需人工甄别,这些工作由原部门完成还是联盟人员完成。
3.4 人员配备分析
联盟人员配备主要涉及两方面:人员来源和岗位职责。联盟日常运营需很多工作人员,这些人员来源到底是从各成员机构抽调还是重新招聘,如果是从成员机构抽调,是全职还是兼职,如果招聘工资如何核算,由谁发放。问卷反馈也提到目前图书馆工作人员都是根据日常工作需求招聘的,无论全职或兼职图书馆都很难承受构建联盟这样庞大工程所需的人员数量,并且联盟对人员专业素质要求较高,需要技术、图情、财会、沟通、统筹等各类人员,且还需具备医药学科背景,这样的高素养人才本就不多,且愿意为构建联盟服务的就更少了。岗位职责上,联盟需组建较多职能各异的工作组,反馈中也提出各职能工作组需细化分工、明确职责,这样既能提高工作效率、又能减少矛盾与推诿。
3.5 资源组织分析
问卷中39.02%的反馈认为联盟平台对用户而言最主要的功能是“帮助用户存储科研数据等资料”;24.39%认为是“方便用户查找资料”;21.95%是“为同行交流提供平台”;14.64%是“为用户提供学科咨询类服务”。可见学科资源存储、检索与利用依然是联盟平台内容建设的主要驱动力。
资源类型上,问卷反馈可知已构建知识库中收录的资源类型最多的是期刊文章、会议文献、学位论文、工作报告、书籍章节等,其次是多媒体视听资源和专利等,预印本、教学资料和科研数据最少。但医药学科实验很多,会产生大量实验、科研数据,这些数据的开放有利于进一步发挥其科研价值,有利于避免研究的重复与浪费,因此联盟的工作重点应集中在如何鼓励科研人员尽量扩大范围共享其科研数据。
资源上传方式上,39.02%的反馈表示“应当设立专职管理人员代理用户上传资源”;60.98%表示“应由用户自主上传”。可见大部分构建人员更偏向“自主上传”,理由是联盟涉及的国家、机构和科研人员数量众多,且上传工作并不复杂,如果全部由管理人员代理上传,管理人员本就负责资源审核,再负责资源上传占用的人力太多。选择“代理上传”的问卷则表示科研人员的图情专业素养参差,对元数据提取、检索词标引不专业会影响后续检索,资源格式也常出现错误,且有的科研人员身为学科带头人或身兼行政职务,无暇自主上传,会造成资源上传滞后等问题。两种方式皆有利弊,因此联盟需尽量在二者之间取舍平衡。
在自建特色医药数据库整合上,92.68%的构建人员愿意将本机构自建的其他医药数据库与其他机构的自建特色库整合,合并在一个目录中供用户浏览并提供资源原出处链接。问卷反馈表示会尽量将自建特色库的内容OA,无法OA的内容也会提供完整目录供用户了解资源典藏地,尽量配合用户提供资源满足其科研需求。
3.6 存取政策分析
“存取政策”在问卷反馈“构建联盟最重要的阻滞因素”中排第三。“存取政策”主要分为“存储政策”和“共享政策”两方面。
存储政策调查,26.83%的反馈选择“学科要求”,指出既然是医药领域知识库联盟,存储的内容必须是医药学科,要明晰收录范围,且需将资源的细化学科标引清楚,以免影响后续资源的分类与检索;21.95%选择“内容要求”,指出上传的资源必须完整、正确,研究数据须随文档一并上传;19.51%选择“格式要求”,认为联盟须将资源收录格式规定清楚,用户可自行转换格式,或与上传人员联系,确保资源都能正常显示和下载;17.07%选择“元数据要求”,用户需将资源的语种、标题、摘要等元数据析出;9.76%选择“提交要求”,例如提交方式(自行提交、联盟工作人员代理提交还是第三方如数据库商提交)和版权问题,问卷反馈指出用户提交资源后,需将创作者信息与出版发表信息一并提交,以便联盟人员确定资源的版权归属,或将SHERPA/RoMEO查询结果附上;4.88%选择“空间要求”,包括联盟给予用户的存储空间如何确定,空间大小可否变动等。联盟在具体存储政策制定时,可参考问卷反馈的占比,充分考虑政策不同方面的主次详略。
共享政策的反馈意见较一致,建议遵循创作共用许可证Creative Commons License或创作共用署名许可证(CCBY)[17],及其次级许可,如国际创作共用署名-相同方式共享许可证(CCBY-SA)[18]、国际创作共用署名-非商业许可证(CCBY-NC)、国际创作共用署名-没有衍生品许可证(CCBY-ND)[19]、国际创作共用署名-非商业-没有衍生品许可证(CCBY-NC-ND)、国际创作共用署名-非商业-相同方式共享许可证(CCBY-NC-SA)[20]等。
3.7 学科服务分析
已构建知识库提供的信息服务大多是订阅和文本编辑类,很少涉及学科服务,但问卷反馈中,构建人员对于联盟可提供的学科服务还是提出了很多宝贵建议。82.93%反馈表示愿意为用户提供个人知识管理与统计,如发表论文清单整理、论文被SCI、SSCI等收录情况、论文被数据库收录机被引和下载次数等,同学科其他人发文情况、共著可视化、学科热点追踪、指导论文发表、课题查新、课题文献支撑等学科服务,但同时也表示这些学科服务工作对工作人员要求较高,且耗时较长,需要在人手宽裕的情况下才能提供,或者进行业务外包,这样一来有些服务可能需要收费,价格需要进行成本核算之后才能确定;17.07%反馈认为提供学科服务不能一厢情愿,在提供学科服务之前需要先进行网站投票,让联盟用户自主选择学科服务内容,以及能接受的有偿价位,先进行一个调查,对于后续工作的落实方向也能起到指导作用,具体的操作规程还需要运营管理委员会讨论。
4 “一带一路”沿线国家医药领域知识库联盟构建途径探索
4.1 联盟模式和运营方式选择
由于样本均已构建知识库,因此七成反馈选择了“分布采集”模式,既拥有高度自主权,又能在联盟平台一站式检索,确是“一带一路”沿线国家较合适的联盟模式。但如果初始构建机构实力差距较大,如新加坡ScholarBank@NUS,资源量级达到10万以上,其他成员机构都是几百或者不足百的资源量级,同时在管理实力和技术支撑上也有较大差距,这种情况则更适合“集中存储”模式,由一个机构统一构建、运营和维护联盟系统,其他成员机构只将学科资源和对应元数据导入联盟系统即可。如果是十万级、万级、千级资源量都有的成员机构,或成员机构擅长的方面各不相同,这样的组合构建联盟更适合“层级构建”模式,由“管理级+支撑级+资源级”构建,“管理级”负责联盟建设工作整体安排、向主管部门争取政策支持、向资助机构争取资金援助,并且负责联盟发展规划、存取政策制定,成员机构分工等;“支撑级”负责联盟平台的技术开发与维护、数据管理与质量控制;“资源级”负责联盟平台学术资源建设,该模式分工明确、执行力强。因此联盟模式选择要“因地制宜”。
问卷反馈与国际类似联盟如arXiv的运营实践可知,本联盟的运营需在管理委员会和成员委员会(总管联盟运营管理与成员机构事务)外,再设置不同职能工作组,如发展规划组、政策制定组、资源建设组、学科服务组、技术维护组、商业合作组等分管细化联盟日常工作。当然,问卷中也提到需要制定合理的激励机制刺激成员机构积极性,如根据资源点击和下载量,或学科服务完成量来评定成员机构绩效,业绩好的成员机构可主管资源建设组或学科服务组工作,或者在管理委员会、成员委员会、发展规划组占据更多席位,对整个联盟的发展拥有更多话语权。此外还可用业绩抵扣成员机构会员费,以减少或免除下一年度的会员费等方式充分调动成员机构积极性。
4.2 资金来源渠道
样本中54个知识库的资金由所在机构提供,所以构建联盟的资金来源之一必然是成员机构。前文也提到联盟构建可作为项目申请,一旦立项也会有基金资助,如英国机构资源存取计划(Focus on Access to Institutional Resources Program,FAIR)、荷兰数字学术机构库(the Digital Ac-ademic Repository,DARE)计划都成功通过项目推动了机构库发展[21]。当然还可向第三方如社会团体、慈善基金、公司企业、学会协会、行政部门等获取资助,如 PubMed Central[22]除了由美国国立卫生研究院提供资金,还有比尔和梅琳达盖茨基金会(Bill&Melinda Gates Foundation)、卫生研究与质量代理(Agency for Healthcare Research and Quality)、食品药品监督管理局(Food and Drug Administration)等11个机构或基金提供资助,还能以学科合作或联合举办学术活动的方式获得资金。
问卷中也提出了一些细节问题,如成员机构出资比例分配,这当然要根据具体的联盟模式来确定,如是“分布采集式”可能会趋向于平均出资,如果是“集中存储式”必然是构建联盟的主导机构主要解决资金问题,如果是“层级构建式”需要经过“管理层”商讨来确定比例;后加入的成员机构可以收取会员费的方式,会员费可根据下载资源的数量等来划分等级,目前arXiv就采取这种分层收取会员费方式,约220个成员机构需支付会员年费,年费分四个层次,从1 000到4 400美元不等,所有会员机构每年约提供至少300 000美元的资金[23];高质量、定制化学科服务也可进行有偿收费,费用标准可根据用户调查接受度进行定价;项目申请可作为独立项目,也可作为联盟子项目,从国际和国内多方申请,笔者相信有建设意义的项目一定会获得广泛资助;商业合作当然要集中在学科和学术上,不能违背联盟资源“OA”的总原则;寻求第三方资助主要靠联盟专门设置的商业合作或资助洽谈工作组完成。
4.3 软件平台架构
通过前文对56个样本库使用的系统平台软件的功能和优缺点分析,结合问卷调查的结果,笔者较为赞成使用DSpace或EPrints构建平台,首先调研样本中使用此两种软件平台的知识库最多,均为21个,如果使用“分布采集式”构建联盟,大部分成员机构不用更换构建子库的软件。其次DSpace与Eprints是免费、易安装、可定制、更新快、适用广泛的平台软件,且提供使用培训和托管等服务,即便未使用过该系统的成员机构,也可在系统搭建上获得技术保障和咨询服务。互操作协议标准可继续使用大部分样本库使用的OAI2.0。当然,联盟也需构建自己的技术团队,配合系统软件开发和托管机构完善后期运维,并将功能性软件嵌入,如数据管理工具Dataverse、Figshare等[24],数据分析工具NVivo、Minitab等,可视化工具Adobe Illustrator、Microsoft Visio等,引文管理工具EndNote、RefWorks等,并指导用户使用。
在实现联盟平台与本机构科研管理、档案部门系统整合对接系统问题上,需多部门协调解决,单从技术层面来说,可使用CERIF(Common European Research Information Format,欧洲研究项目公用信息格式)灵活关联科研环境下所有信息实体,实现科研数据自动关联分析、科研信息的交换共享,以及平台功能服务的智能组合,CERIF数据模型有强大的扩展机制,灵活满足知识库互操作需求和异质资源统一访问[25]。此外,联盟成员机构涉及语种较多,平台系统需支持多语种,界面可默认英语,为方便用户,在界面用语和学科服务上,应支持成员机构所有涉及的语种。且所有学科资源的语种,除原始资源即为英语外,其他语种都要翻译成英语供用户阅读和下载。
4.4 联盟人员配备
前文提到人员配备主要涉及两方面:人员来源和岗位职责,反馈中也提到很多细化问题,针对这些问题,笔者认为联盟工作应分两部分:统筹管理与日常运营。负责联盟管理工作的人员应来自各成员机构,这部分工作与联盟发展、总体规划、成员分工息息相关,必须由来自成员机构的人员共同商讨;负责日常运营工作可以联盟的名义招聘,并根据工作性质确定专职或兼职,如资源审核、学科服务类工作也可由成员机构具有医药类学科背景的图情人员兼职,而行政工作、商业合作和技术运维等工作量大、占用时间长的工种亦可全职招聘,工资由联盟管理委员会核算发放。
岗位职责也需明确划分,行政人员负责日常行政、技术人员负责软件运转、审核人员负责质量控制、资源组织人员负责分类标引与检索测试等,以免造成权责模糊、工作推诿的情况。此外还需制定一些绩效考核的量化指标调动工作人员的积极性与创造力。
4.5 学科资源组织
本联盟只收录医药学科资源,前文中已有27个知识库只涉及医药学科,这一部分成员机构无论是构建子库还是导入联盟系统,在资源组织上无须剔除或重新整合。文献类型可尽量囊括,除传统资源外,还要结合医药学科特点,增加科研数据、光谱图谱、实验流程的收录。科研数据的OA有利于进一步发挥其科研价值,联盟可协助成员机构组建跨国跨机构科研团队,促使科研数据共享范围扩大,或以学科服务换取学科资源的方式激励用户上传灰色资源,同时提供科研数据的引用统计并追踪数据再利用路径确保用户科研数据知识产权不被侵犯。此外,成员机构自主构建的特色库,也可整合到联盟平台供检索,尽量实现OA,无法OA的资源也要提供摘要信息与来源链接。
资源数量上,成员机构中十万级的知识库已有2个,万级的有7个,联盟资源建设目标应当在百万级以上。浏览与检索途径可尽量多元化,除常规途径,亦可突出学科特色,从学科细分的角度提供浏览,也可像SciFinder Scholar一样支持物质检索与反应检索。新资源展示上,笔者更倾向于首页显示最近7天上传的资源,可滚动播放解决页面限制问题,并标注每条资源上传日期,以便查找。联盟可根据资源点击、搜索、下载、被引排行,将热门资源滚动展示。调研中有些库已将不同国家和地区的下载量做统计,联盟可在智能化上更近一步,根据用户来源国家与地区,滚动展示该区域内的热门资源。资源上传上,笔者认为应当以“自主上传”为主,“代理上传”为辅,并安排工作人员与机器人解答相结合,辅助以“帮助手册”,特殊情况亦可向联盟申请“代理上传”。
4.6 存取政策制定
存储政策一般围绕收录范围、各方权责、版本要求、存缴类型、内容质量、公开权限、元数据提取、删除撤回等问题展开,政策制定要尽量覆盖从资源保存到利用整个生命周期并减少歧义,可利用Open DOAR的政策工具辅助制定。同时鉴于众多成员机构,还需考虑政策认可度与共融性,可通过成员委员会综合成员机构的建议并反复讨论后再由管理委员会最终确定并发布,并在运营中不断完善,因此联盟还需要设置政策委员会,或政策专员及时跟进相关工作。
共享政策一般遵循非独占许可Non Exclusive License、创作共用许可证Creative Commons License或创作共用署名许可证(CCBY),及该许可证下包含的次级许可(已在前文3.6详细介绍,此处不再赘述)。要将资源的不同共享许可标注清楚,供用户下载使用时参考。此外,对机器人抓取和商业性使用须特别规定。作为联盟,还要制定相应的“成员机构政策”(类似于机构库的“组织政策”),做好成员机构与联盟平台的对接、协调等工作。
4.7 学科服务内容
联盟构建之后订阅和文本编辑服务依然保留,此基础上,还要提供更学术的服务,可从几方面实现:(1)构建科研人员信息库。联盟可为所有存储资源的科研人员创建学者库,设置学者个人主页展示科研履历与研究方向及主要成果,并提供电话、邮箱等联系方式,还可为科研人员开辟讨论区,为跨国跨机构科研合作与课题研讨搭建桥梁。(2)个人知识管理与统计。为用户提供发表论文清单整理、论文被SCI、SSCI等收录情况、论文被数据库收录机被引和下载次数等。(3)定制学科服务。接收用户提出的各种个性化定制学科服务,如同学科其他人发文情况、共著可视化、学科热点追踪、课题查新等,这样的服务对工作人员要求较高且耗时较长,如用户急需可向学科服务组提出申请并支付加急费用,联盟本着无偿服务的原则,但工作人员有限,在用户提出加急插队要求时,只能利用支付费用进行调节,具体价格制定须经过用户接受度调研、联盟管理委员会、联盟主管部门和物价部门多重审核。(4)以MOOC形式为用户提供数据库试用、科研素养提升、原文获取技巧、其他学科知识库或联盟资源介绍等专题讲座。当然学科服务的提供可以在线问卷与开放用户建议渠道相结合的方式增加互动,服务内容需要随着实践与用户反馈不断调整。前文调研中有21个知识库已有资源使用统计,联盟可在资源统计的基础上展开学科服务,如通过对点击和下载的热点词条、冷点词条统计,帮助科研人员识别研究热点与冷点,为用户生成个性化知识图谱,并对不同国家与地区的用户资源下载内容、下载频率、下载习惯做深入分析,推送更具针对性的服务。
5 结语
本研究通过调研“一带一路”沿线国家构建的56个医药知识库网站,了解医药领域知识库的运营管理、资金来源、系统软件、资源组织、存取政策、学科服务等方面的实际情况,并通过问卷调查的方式,了解“一带一路”国家医药领域知识库联盟构建阻滞因素,包括联盟模式与运营方式选择、构建资金来源、联盟系统平台架构、与科研管理部门系统对接、工作人员配备与岗位职责划定、收录资源类型、特色资源库整合与资源上传方式的确定、存取政策制定、学科服务内容与资费问题等,并提出这些问题相应的解决途径,为“一带一路”国家医药领域知识库联盟构建实践提供参考。当然由于语言问题,导致无法了解一些知识库的内容,调研初步筛选出的涉及23个国家的87个调查样本,因语言问题和网站死链接,最终样本只有56个来自19国家,这也是以后研究需改进的地方,需邀请会更多语种的人员加入,进一步扩大样本量做更全面、完善的分析。