开放科学数据驱动下的高校图书馆馆员角色转变
2018-11-14左斯敏朱嘉麒中山大学资讯管理学院广东广州510006
左斯敏 朱嘉麒 ( 中山大学资讯管理学院 广东 广州 510006 )
梁益铭 ( 中山大学图书馆 广东 广州 510006 )
信息技术的发展,改变了信息资源收集、筛选、交流、获取的渠道与方式,从而指数级地增加了人类社会的信息总量。这些信息中,数据是重要的组成部分。据统计,2012年产生的有效数据中有97%没有得到分析利用就遭到删除,目前来看,丢失的数据将无法找回,造成永久性的损失[1]。
数据的损失是图书馆界的损失,因为数据是能够客观反映事实的数字和资料。有学者认为,科学数据因自身蕴含的大量信息而可以表征事物更多更全面的属性[2]。Viktor Mayer-Schonberger更是认为,信息时代的科学研究数据量相较以往显著增加[3]。但是现实情况并不是那么乐观——“新摩尔定律”曾经提出,全球信息总量每18个月即会翻一番[4]。全球数据量在2012年约为2.7 ZB,预测到2020年,全球数据量将会达到35ZB[5],而中国产生的数据量将会达到8ZB[6]。如此庞大的数据量,在获取、计算、存储、调用、删除的过程中都会占用大量的人力与物力。
开放科学数据获取的提出,旨在使科学数据信息公开,能更好地让人们收集、接触、筛选、分析及利用,从而更好地促进知识、信息、数据的交流与共享,推进科学研究的协同发展及学术创新。在开放科学数据的驱动下,高校图书馆应该充分发挥自身的作用,建立高校科研的沟通与开放平台,促进高校科研的发展。作为高校图书馆的馆员,在开放科学数据的驱动下,应当不断提升自身的能力并且转变自身扮演的角色,才能更适应开放科学数据的发展趋势。
1 开放科学数据的背景
1.1 开放获取概况
开放获取(Open Access,简称OA)是基于网络环境的新型学术信息交流理念和信息资源共享模式,是国际学术界、出版界、图书情报界为了推动科研成果利用互联网自由传播而开展的运动[7]。基于促进知识交流、信息传播和学术进步,实现信息自由、信息平等,消除信息屏障,让任何人在任何时间、地点免费且便利地获取所需的信息资源,实现真正的信息共享的目的,开放获取运动在国际上迅速发展起来。
在开放获取运动的发展过程中,产生了3个具有标志性成果的重要文件,它们分别是:2001年的《布达佩斯开放获取倡议书》(Budapest Open Access Initiative,简称BOAI)、2003年的《贝塞斯达开放获取出版宣言》(Bethesda Open Access Initiative)与《关于科学与人文学科领域知识开放获取的柏林宣言》(Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities)。3个文件指出开放获取的目标和价值在于用户能免费获取信息资源。
国内学术界对于开放获取目前缺少统一、标准的严格定义。虽然不同学者对于开放获取的描述方式不尽相同,但本质是一致的,且符合国际上对开放获取的科学界定与定位。
1.2 开放数据与开放科学数据概况
开放数据是开放获取的一种变现形式。开放数据强调可获得、可进入、可重用、可再散布,也就是具有互操作性(Interoperability),即不同的系统和组织之间具备协同能力,使不同来源的数据集结合在一起,从而开发出更多应用[8]。简言之,开放数据的内涵是指数据允许在线自由获取、免费使用、不受限制,可以被任何人自由使用、重用和散布。
科学数据是指人类在认识世界和改造世界的科技活动中产生的最原始、基础的数据,也包括按照不同需求系统加工的数据产品和相关信息[9]。开放科学数据能促进公开科研数据,形成数据共享,促使科研协同发展。
2 开放科学数据平台与政策
开放科学数据可以让研究人员有途径并免费地搜索、访问、获取科学数据,避免重复工作,让科学数据得以充分利用与再次挖掘。国际上科学数据的开放,更加促进国际级别的学术交流,可以让研究人员及时获知最前沿的研究资讯与科学数据,同时了解每个国家对于其研究领域未来的方向。在开放科学数据的驱动下,作为支撑高校科研的高校图书馆,目前的工作重心之一应集中在开放科学数据平台的建设上。
开放科学数据平台是促进科学数据开放的基础设施,建立在科研数据仓储的基础上。目前,已有越来越多的高校和研究中心开始建立科学数据仓储库[10]。
2.1 平台现状
2.1.1 国际开放科学数据平台现状
在欧美国家,数据平台的建设水平一直位于世界前列,这些开放数据平台包括注册和目录系统,代表性的数据平 台 有 re3data.org[11]、Databib[12]、Figshare[13]、OAD[14]、Pangaea[15]等, 一般划分为综合库与专业库,其功能包含检索、浏览、统计、可视化等,具体学科则覆盖以天文学、生物学、化学为代表的全部自然科学学科与以艺术学、管理学为代表的社会科学学科。以re3data.org为例,re3data.org是目前世界上最大的科学数据注册系统,2012年由德国研究基金会资助构建,主要从事科研数据知识库的登记注册,以及为科研人员、科研资助组织、图书馆和出版商等提供有关异构科研数据知识库的全景概述,2014年与Databib合并。截至2018年4月1日,在re3data.org中注册的仓储数量达2 026个,分布于全球60余个国家和地区,其中美国(955个)、德国(319个)、英国〔282+9(北爱尔兰)个〕的科学数据发布平台数量排名前三[16]。而我国目前在re3data.org上注册的开放数据库只有37个,与国际上领先的国家还有一定的差距。除此以外,开放科学数据平台多国共同开发的现象十分常见,目前多国联合(International)的数据仓库超过170个,欧盟联合库(European Union)更是超过了187个[16]。
2.1.2 国内开放科学数据平台现状
自2012年以来国外开放科学数据平台快速发展,我国的开放科学数据平台建设也取得了相当的成果。我国在re3data.org上注册的37个平台大多属于国际性数据平台,可以划分为自然科学数据平台、生命科学数据平台及工程科学数据平台等,有33个平台目前已经向全世界范围提供科学数据开放获取服务。
国家地球系统科学数据共享服务平台是目前我国建设最完备的科学数据开放平台,截至2018年4月1日共收录了地表类与人地关系领域内总计21 431条数据[17]。该平台提供完善的数据检索功能,还提供对国际数据资源的检索、新闻动态展示、共享成效展示、咨询服务、科学数据推荐、订阅服务等延伸服务。
由国内外开放科学数据平台对比来看,我国平台目前学科分布较为集中,以自然科学为主;数据平台建设较为传统,不够美观;提供的服务形式相对单一;数据获取和引用率相对较低。
2.2 国内外开放科学数据政策
开放科学数据的运转需要相关政策的支持与资助。国际组织诸如经济合作与发展组织(Organization for Economic Co-operation and Development,简称OECD)、联合国教科文组织(United Nations Educational, Scientific and Cultural Organization,简称UNESCO)、国际科学联盟(Science International,简称SI)、欧盟委员会(European Commission,简称EC)、科学欧洲协会(Science Europe,简称SE)、欧洲研究型大学联盟(The League of European Research Universities,简称LERU)、八国集团(G8)、国际图联(International Federation of Library Associations and Institutions,简称IFLA)等都制定了相关的科学数据开放共享政策[18],开放共享政策侧重点如表1所示。
在开放科学数据共享政策下,国际科学联盟、欧洲研究型大学联盟、国际图联等,提出了图书馆在开放科学数据中的责任及重要作用。美国国家科学基金会(NSF)、美国国立卫生研究院(NIH)、美国国家航空航天局(NASA)、英国研究理事会(RCUK)等一些重要机构也提出了数据开放政策指南,要求资助的项目提交科研数据的管理与共享计划,内容包括数据范围和数据类型、标准和元数据、数据共享方式、数据权限和时限等[10]。
事实上,吴建中[19]、温芳芳[20]、张晓青[21]、彭媛媛[22]等学者先后对国外的开放科学政策也做了比较详尽的综述,同时进行了主观解读。虽然各位学者选取的视角略有不同,但是对这些政策的解读基本达成了一致:开放科学政策的主要目标是加速研究,支持新发现,促进不同区域的学者合作,提升研究人员的研究效率与创新能力等。
但是在国内,目前科学数据开放共享实践仍然处于初始阶段,国家或行业层次的科学数据开放共享政策始终没能落地。其实早在2006年,科技部先后起草了《科学数据共享工程管理办法》和《中华人民共和国科学数据共享条例(建议稿)》[23],成为了为国内科研数据管理与共享政策的开端。可惜的是,在随后10年间,这些理论上的提议没能形成最终的指导性文件,也没能为我国的开放科学数据事业提供指导性意见。鉴于国外在发展科学数据开放共享中优异的表现,我们应积极借鉴和学习,倡导深入调研,建立沟通交流机制,充分征求民意,确保政策内容的可操作性,从而逐步建立健全包括国家层次、行业层次、机构或企业层次的科学数据开放共享政策体系。
3 高校图书馆在开放科学数据中的角色与面临的挑战
3.1 相对成熟的国外高校开放科学数据体系
国际科学联盟、欧洲研究型大学联盟等国际组织在其开放科学政策中提到图书馆、档案馆和知识库应负责有关数据服务与技术标准的开发和提供,以确保数据能被长期利用;图书馆要负责科学数据的处理和归档,提供数据管理计划指南、开放获取设备、良好的数据管理基础、知识产权、数据评价和引用等[18]。斯坦福大学图书馆、华盛顿大学图书馆、剑桥大学图书馆、悉尼大学图书馆、墨尔本大学图书馆均提供科学数据服务,主要涉及科学数据管理计划,科学数据获取、存储、共享、再利用,科学数据管理培训,科学数据保护与道德,科学数据管理参考咨询,等等[24]。在开放科学的背景下,图书馆担任开放科学的倡导者、科研基础设施的构建与完善者、嵌入科研工作流程的协作者、开放出版的资助者、知识权益的规范者、开放科学的评价者。
3.2 探索阶段的国内高校开放科学数据现状
我国高校的开放数据平台建设尚处于初步探索阶段,目前国内只有武汉大学、复旦大学、北京大学3所高校建设了开放科学数据平台。武汉大学科研数据管理平台是武汉大学图书馆为全校师生提供的一项实现数据保存、数据管理与数据共享的服务平台。武汉大学、北京大学科学数据管理平台以收集、管理、保存、共享数据为主,复旦大学社会科学数据平台正在积极探索开展数据计划功能和服务[25]。
表1 国际组织开放共享政策侧重点
图书馆在开放科学数据方面扮演着非常重要的角色,从科学数据的规划、管理、培训到平台的开发、软硬件设施、知识产权、开放政策等都需要图书馆参与其中并对科研机构提供它们所需的具体服务。除了数据提供,图书馆在其他方面的服务也要进行相应的改变,不仅要保证基础服务,还要加强学科服务及专业性的科研服务等。
由此可见,在开放科学数据的驱动下,图书馆作为高校科研的支撑者,需要找准自己的定位,发展开放科学数据服务。而图书馆员作为图书馆职能最直接的表现者、传递者,需要提升自身素质,转变自身角色,才能更好地适应发展。
3.3 国内高校图书馆面临的挑战
开放科学数据的背景无疑将图书馆所扮演的角色进行了彻底的“变装”,传统有些固化的原始储藏文献的“立方体建筑”如今亟需进行大规模的升级,将研究内容、科研人员、科研机构相互关联,从传统的服务模式中走出,在存储、管理、传播、服务等多重维度为读者与科研人员提供更为专业的服务。在开放科学数据的大背景下,图书馆目前最为迫切的任务可以归纳为以下5点:①完成资源组织体系的改革,②完善信息资源的评价标准与方法,③减少因知识产权权益引起的纠纷,④改变图书馆使用者对图书馆的固有认知,⑤提升图书馆员职业素养与专业技能。
4 开放科学数据对我国高校图书馆馆员的新要求
在开放科学数据驱动下,高校图书馆馆员要在服务中不断探索与思考,改变自身角色,这样才能更好地建设高校图书馆资源,支撑高校科研及教育。这种转型不仅仅依靠技术与策略,更要突破传统的馆员思维,以开放、谨慎的态度面对开放科学数据为高校图书馆带来的种种影响,积极地面对来自大数据时代的挑战。这就对馆员有了以下的要求:
4.1 熟悉、了解国际开放科学数据政策
在开放科学数据的驱动下,图书馆员需要充分了解国内外开放科学数据的政策、国际组织以及国内外相关机构,同时参考国外高校图书馆对政策制定的相关规范,结合自身高校科研特点,帮助图书馆制定相关的开放科学数据指导规范。成熟的指导规范,能使科研数据在政策的指导下及时有效地开放,保证开放科学数据对科研的促进作用。
4.2 积极参与科学数据服务
在海量数据的环境下,图书馆员需要认清提供科学数据服务的重要性以及自身扮演的角色——科学数据的归档、储存、管理及监督者。2013年普渡大学图书馆和伊利诺伊大学图书情报学院合作开展的Data Curation Profiles 项目的目的就在于通过访问调查形式,探明各研究领域内包括数据共享者、科研各阶段文件格式、数据价值和用途、共享途径、期望保存年限、产权归属等在内的科研数据基本情况,为后期科学数据管理工作的开展奠定基础[26],促使普渡大学近年来在科研能力方面取得巨大的进步。
事实上,图书馆员需要提供的科学数据服务包括多方面:科学数据管理计划、科学数据获取、科学数据存储、科学数据加工、科学数据共享、科学数据再利用、科学数据资源建设、科学数据批量管理、科学数据参考咨询等。用户往往不具备独立完成上述工作的能力,这需要馆员为读者、使用人员提供相应的帮助。图书馆员应该充分发挥主观能动性,积极地学习知识并且热忱地为图书馆使用者提供相应的帮助,这些都属于时代赋予馆员的新使命。
4.3 提高自身元数据相关知识储备
从开放科学数据基础设施建设到开放科学数据服务的提供,元数据始终扮演着指导者的角色。科学数据元数据的标准和通用化设计对于数据平台高效运作非常重要。
英国研究图书馆(Research Library of UK,简称RLUK)在《2014—2017发展战略规划》中提出:要不断提升图书馆员在科研工作中的地位,以提高科研工作中数据储存的效率;英国伦敦经济与政治学院(The London School of Economics And Political Science,简称LSE)更是认定未来的图书馆员是数据科学家与科研人员之间沟通的协作者[21]。
伦敦经济与政治学院将图书馆加入到开放科学数据的项目工作中,随后将采编、编目、元数据服务分离,并将传统编目服务团队分割为独立的数据采集团队以及元数据管理团队。每一部分工作交由不同的人员负责,设置了明确的团队分工和监管机制。元数据服务团队目前由1名经理、2名助理图书管理员(其中一人兼职)、2名高级图书馆助理、3名图书馆助理组成,其中一半人参与了数据库的建设工作。该团队工作的具体内容除了需要收集和保存学校的学术文章,还包括了博客文章的储存工作。所有工作顺利开展的前提是集中对图书馆工作人员进行元数据相关概念知识的普及以及培训[27]。
然而,目前很多国内高校图书馆馆员对于元数据的相关知识并不熟悉。国内高校图书馆也尚未形成一种明确的处理元数据体系。事实上,科学数据平台的高效运作不仅需要图书馆员掌握元数据的构建技术,科学数据的储存、提取、数据处理工具的运用,还需要馆员对科研数据的收集、储存、运用过程十分熟悉。除此以外,图书馆员还需要理解并掌握不同学科的元数据内容,从而整合不同学科的科学数据到开放科学数据平台上,不断增加开放科学数据平台的数据总量,更好地为科研人员提供协助。
4.4 充分发挥学科知识分析能力
英国卡迪夫大学的开放数据团队相较于伦敦经济学院庞大得多。最初团队由IT人员和编目人员组成,后来随着开放获取运动的火热发展,各种不同学科背景的工作人员及各专业的专家加入团队,使得该项目提供的开放数据服务覆盖面更广、程度更深,同时任务也更为复杂——图书馆员主要承担元数据的录入工作;团队中各个领域专家的任务是标注图书馆员难以理解的信息,对元数据进行修订和改进,从而更好地推进开放数据项目的建设[28]。金斯顿大学的科学数据团队没有引入专家,但在制定元数据时让相关人员去咨询数据来源领域的专家[29]。
学科馆员不但需要掌握图书馆专业知识,还应具有某一学科的专业背景。在开放科学数据的进程中,具备不同学科背景的学科馆员应当成为生力军——充分发挥学科知识分析能力,及时提出自己的意见来改进工作流程。事实上,学科馆员应当成为具体学科的文献信息专家,不仅能为学科读者提供权威的数据信息,还能与不同领域的专家进行讨论交流从而使得开放科学数据平台建设得更加完善。
4.5 制定行之有效的工作流程
通过伦敦经济与政治学院、英国卡迪夫大学、金斯顿大学3个开放数据团队的工作总结我们发现,规范的工作流程是亟待解决的难题。当传统图书馆工作向开放科学数据工作转变时,团队分工与工作流程会有极大的变化。开放科学数据工作不仅仅只在元数据,图书馆还必须承担开放数据宣传任务等。
在项目初期阶段,需要先确定团队的规模,项目的目标以及完成的时间。随后根据项目分阶段的具体任务,制定工作流程,强调团队分工、阶段性工作细则,明确责任人。开放科学数据项目运行后馆员工作量将大幅提升,改变原有的元数据工作流程以及减少所需处理的手动元数据条目,能进一步提高效率。除了元数据工作外,数据收集、储存、运用、平台基本建设、宣传工作等方面均需同时进行。各部分工作人员定期收集信息,进行会议接洽,根据项目进度、人员工作量以及实际问题规范工作流程,以确保项目顺利有序地进行。
5 结 语
欧盟委员会副主席尼莉·克罗斯(Neelie Kroes)称:“唯有开放和共享,我们方能在科学上取得进步。”[9]从开放获取、开放数据到开放科学数据,数据的集中与共享成为了历史赋予我们的使命。开放科学数据无疑对高校图书馆员的自身素养和能力提出了新的挑战。高校图书馆需要将工作重心由传统编目转移到开放科学数据,而高校图书馆员——包括基础服务员、编目员、技术员、学科馆员、管理员等,都需要接受培训,不断提升自身的素质以完成开放科学数据赋予馆员的任务。