大数据时代图书馆科学数据管理与服务的探索与实践
2018-04-02张计龙复旦大学图书馆副馆长
张计龙(复旦大学图书馆副馆长)
一、大数据时代的科研活动
21世纪迎来了 “数据爆炸”的大数据时代, 2011年世界经济论坛称大数据为新财富;2012年美国政府认为大数据关系到国家经济结构调整和产业升级, 是“未来的新石油”;2013年经济合作与发展组织报告指出,数据已经成为科研活动的核心和科技创新发展的核心驱动要素。作为数字化革命的引擎,“大数据”为众多科学研究带来新机遇,科学范式开始从模型驱动向数据驱动转变,开启了以数据为中心思考、设计和实施科学研究的新研究范式。
在大数据时代, 谁掌握了数据,谁就站到了大数据研究的战略制高点,因此,对数据资源的争夺是大数据研究的必然阶段。然而,拥有数据这一重要的战略资源是不够的,保证使用者拿到大数据资源,并能够对其进行有效的分析研究、挖掘使用,才能充分发挥其战略资源的作用。因此,数据资源的整合、开放、共享是实施好大数据发展战略中极为重要的一个环节。这些也同样面临着来自技术、基础设施、政策和法律、数据人才等各方面的挑战。
二、科学数据管理与共享概述
科学数据管理与服务具有二个层面的含义。首先是科学数据的管理,涉及的对象既包括研究者个人如何合理地做科学数据管理规划,也包含研究机构如何制定机构层面的科学数据管理与服务政策,搭建机构科学数据管理与服务平台,既实现机构科学数据的有效管理,又能进行科学数据的共享利用,实现科学数据的增值服务。其次是科学数据的共享服务,在机构或者研究者个人有效管理科学数据的基础上,通过科学数据交换共享协议,利用科学数据共享服务平台实现数据共享服务。科学数据管理与服务对于科研人员和研究机构而言都有着重要的作用与意义。
科研数据管理过程具有明显的周期性和阶段性特征,基于科研活动不同阶段的数据形态和数据处理活动,形成关于科研数据管理的相关生命周期理论。重点介绍了ICPSR社会科学数据存档生命周期管理模型。
三、科学数据管理与共享政策
科学数据管理与共享政策有待于政府机构和资助主体的积极推进。
欧盟委员会提出的“FAIR 原则”(Findable、Accessible、Interoperable、Reusable,即可发现、可访问、可交互、可重用) 正成为科学数据管理、监管与出版的最新通用原则。2016年7月26日,欧盟委员会公布《Horizon 2020框架下的FAIR数据管理指南》,提出所有受Horizon 2020资助且参与“开放研究数据试行计划”的项目必须提交数据管理计划(Data Management Plan,DMP)。
美国国立卫生研究院(National Institutes of Health,NIH) 也正在进一步发展数据管理、共享和引用策略,其新目标是希望通过一系列数据管理措施来保证数据的公平出版。
我国于2018 年3 月17 日由国务院办公厅印发了《科学数据管理办法》(以下简称《办法》),从职责、科学数据采集、汇交与保存、共享与利用、保密与安全等方面对科学数据管理与共享进行了规范。其中,第四章主要对科学数据的共享与利用进行了规范。《科学数据管理办法》解读可从科技部基础研究司司长叶玉江和国家科技基础条件平台中心副主任王瑞丹对《办法》提出的具体措施中体现。《办法》第十九条、二十条、二十一条、二十二条、二十三、二十四条等对科学数据的共享利用相关问题进行了规定。
为加强科技创新基础能力建设,推动我国科技资源整合共享与高效利用,打破科技信息滞留和数据垄断格局,“十一五”以来,我国科技部、财政部组织开展国家科技基础条件平台建设工作,目前科学数据共享领域已经建成。数据开放政策落实中也面临来自科研激励机制、知识产权问题、国家安全、机密和隐私保护、成本问题、个体心理和组织文化问题、技术和基础设施等多方面的阻碍。
四、国内外数据中心调研与走访
国外数据中心,走访了芝加哥大学NORC与GSS(综合社会调查项目)、密西根大学ISR与ICPSR(校际社会科学数据共享联盟)。哈佛大学IQSS、HMDC,HMDC是一个由哈佛大学和麻省理工学院联合创建的数据中心,是定量社会科学研究所(IQSS)的一个成员。加州伯克利大学数据中心的D-Lab主要为伯克利的师生和研究人员提供一些社会科学数据的服务和支持,以促进数据密集型社会科学数据的研究。另外还走访了Google 和 Facebook总部、美国人口普查局总部、英国信息系统联合委员会(JISC)、澳大利亚科学数据管理Australian code、莫纳什大学的科学数据管理计划。
国内主要调研了中国地球与地质物理数据共享子平台、上海研发公共服务平台(SGST)、北京大学中国社会科学调查中心(ISSS)、中国综合社会调查(CGSS)。
五、新探索与新实践
国外知名的社会科学数据中心至今已有五十余年的发展历史,已构建了比较成熟的数据交换共享平台。反观国内,社会科学数据中心起步较晚,针对科研机构产生的社会科学数据的长期保存和共享利用虽有尝试,但仍处于初级阶段,亟待发展。
复旦大学社会科学数据中心(FISR)制定了《复旦大学社会科学数据平台管理条例》,拓展数据资源与服务模式,并在交流合作中寻求新发展。如中国高校研究数据管理推进工作组依托大数据学院与大数据研究院的技术力量、先进设施和成果转化服务能力,充分发挥复旦大学人文社会科学的学科优势,构建人文社科科学大数据共享服务平台和服务体系,包括复旦大学人文社科数据平台的数据资源、数据可视化、数据工具、合作探索数据出版以及数据教学科研平台的建设与推广等。
六、总结:不忘初心,砥砺前行
科学数据的价值及数据管理与共享开放的意义更加明晰,政策导向更加清晰。数据管理与数据开放的理念逐步落地,新兴技术提供持续助力,推动更好发展。数据权益和数据安全依然是多方关注的焦点,合作与共赢是不变的发展之道。不论科研领域,不论利益群体,不论地区机构,未来更大的发展需要多方为了共同的目标,不忘初心,砥砺前行。