开放为常态,不开放为例外
——解读《科学数据管理办法》中的科学数据共享与利用*
2019-01-07邢文明
邢文明,洪 程
科学数据不仅是科技创新、经济发展和国家安全的战略资源,也是政府部门制定政策、进行科学决策的重要依据,受到各国重视。一些国家已形成了较完善的科学数据管理与共享规范[1],我国政府也重视科学数据的共享与利用,1984年就加入国际科技数据委员会(CommitteeonDATA for Science and Technology,CODATA),并建立了CODATA中国全国委员会[2]。2001年10月,科技部向国务院提出“实施科学数据共享工程,增强国家科技创新能力”建议,于2002年开始实施科学数据共享工程,陆续启动气象、测绘、地震、水文水资源、林业、农业、地球系统科学等科学数据共享中心的建设与共享服务试点[3]。2006年国务院发布的《国家中长期科学和技术发展规划纲要(2006-2020年)》提出:“促进科学数据共享,提高服务能力和水平,为深入开展相关领域的科学研究和政府决策提供科学支撑。”[4]2015年9月5日,国务院印发《促进大数据发展行动纲要》,提出加快政府数据开放共享,推动资源整合[5]。2016年9月19日国务院发布的《政务信息资源共享管理暂行办法》提出政务部门业务信息系统原则上通过国家电子政务内网或国家电子政务外网承载,通过共享平台与其他政务部门共享交换数据[6]。
尽管我国在科学数据管理与开放共享方面作了大量努力,但由于缺少国家层面的法规保障,科学数据的开发利用、开放共享和安全保护等方面尚存在诸多不足:科学数据共享的效率不高、范围有限,大量科学数据分散甚至流失,数据的价值没有得到最大程度的发挥。可喜的是,2018年3月17日国务院办公厅印发《科学数据管理办法》(以下简称《办法》),从职责、科学数据采集、汇交与保存,共享与利用,保密与安全等方面对科学数据管理与共享进行规范。其中,第四章主要对科学数据的共享与利用进行规范,本文对《办法》中第四章及其他有关科学数据共享与利用的条款进行解读,着重分析科学数据共享与利用的原则、途径与方式、保障措施等,从而为相关管理部门及科研人员更好地理解、把握和执行该《办法》提供参考借鉴。
1 我国科学数据共享与利用的原则
《办法》第19条、20条、24条等对科学数据的共享利用进行了规定,笔者在梳理相关内容的基础上,归纳了科学数据共享与利用的原则。
1.1 “开放为常态,不开放为例外”的数据开放原则
科学数据的开放是实现共享的前提和基础。长期以来,由于缺乏有效的数据开放机制,我国大量宝贵的数据资源分散在政府部门、科研机构和研究人员手中,形成一个个“数据孤岛”,无法共享。《办法》第19条规定:“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享。”这一条文确立了我国科学数据共享利用中的“开放为常态、不开放为例外”原则,也可称为“最大程度开放”原则。
国际上,科学数据的最大程度开放原则早已成为共识。世界经济合作与发展组织(OECD)于2007年4月发布的《OECD关于公共资助的研究数据获取的原则与指南》提出了科学数据开放获取的13个原则,其中开放(openness)和透明(transparency)是两个重要的原则,前者强调公共资助的研究数据的开放要遵循及时、易于使用、易于通过互联网获取的原则;后者强调数据的生产者、元数据及获取与使用的限制性条款等相关信息应随数据一起发布[7]。美国航空航天管理局(National Aeronautic and Space Administration,NASA)地球科学部制定的《数据与信息政策》(Data&Information Policy)指出:将所产生的地球科学数据对所有用户实行“完全与公开”(full andopen)共享[8]。2011年,英国最重要科研资助机构——英国研究理事会(ResearchCouncilUK,RCUK,该机构已于2018年4月改组为英国科研创新中心UK Research Innovation,UKRI)发布的《RCUK数据政策共同原则》(RCUK Common Principles on Data Policy)指出:政府资助产生的研究数据是为了实现公众利益而产出的公共财产,应该以及时和负责任的方式尽可能公开[9]。我国发布的一些促进科学数据共享的政策,如农业部2015年12月发布的《农业部关于推进农业农村大数据发展的实施意见》、国务院办公厅2016年6月发布的《国务院办公厅关于促进和规范健康医疗大数据应用发展的指导意见》、国土资源部2016年7月颁布的《国土资源部关于印发促进国土资源大数据应用发展实施意见的通知》、交通运输部2016年8月颁布的《交通运输部办公厅关于推进交通运输行业数据资源开放共享的实施意见》都把科学数据的开放共享作为核心原则。可见,《办法》确立的这一原则已成为国内外的普遍共识,也是推动和促进科学数据共享的内在要求。
此外,《办法》不仅确立了数据的开放原则,还指出了开放的机制措施,即“由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享”。这一措施保证了数据需求者可以方便地在统一的共享平台查询所需数据,从而畅通共享渠道。
1.2 科学数据共享的权责一致原则
权利与义务对等是确保科学数据畅通共享以及可持续发展的保障。为促进科学数据的共享,我国已颁布了一系列行业领域的科学数据共享法规,如《气象资料共享管理办法》《地震科学数据共享管理办法》《中华人民共和国测绘成果管理条例》《水文水资源科学数据共享管理办法(试行)》《林业科学数据共享管理办法(试行)》《交通运输科学数据共享管理办法》《农业科学数据共享管理办法》《国土资源数据管理暂行办法》《水利科学数据共享管理办法(试行)》等,但这些法规存在着权利和义务不平等的问题,如要求数据生产者/提供者无偿提交完整的正确的数据,但很少提及他们的权利,对数据使用者作了较多要求,但很少有条例对数据提供者发布和提供数据的时限进行规定等[10]。
《办法》强化了法人单位的主体责任,体现了“谁拥有、谁负责”“谁开放、谁受益”的原则[11]。《办法》第11条指出:“法人单位应建立科学数据质量控制体系,保证数据的准确性和可用性”;第20条指出:“法人单位要对科学数据进行分级分类,明确科学数据的密级和保密期限、开放对象和审核程序等。”第24条指出:“对于因经营性活动需要使用科学数据的,当事人双方应当签订有偿服务合同,明确双方的权利和义务。”这些内容确立了对科学数据的开放实行权责一致的原则,即一方面鼓励数据生产者和拥有者开放科学数据,并合理获得收益,以激发其积极性;另一方面他们也要对数据的质量与安全负责,遵守法律法规,接受社会监督。《办法》第23条要求科学数据使用者应“遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据”,对使用者的义务也作出了规定,进一步完善了权责一致的原则。
1.3 科学数据开发利用的公益性与市场化相结合原则
国际上科学数据共享的运行机制主要有两种基本模式,即政府主导的公益性模式和市场主导的商业化运行模式,前者强调数据的公开和公益性共享,后者强调保护数据产权和商品性质[12]。当前我国的科学数据共享以公益性为主,以有偿服务为辅。中国气象数据网、国家农业科学数据共享中心、林业科学数据中心、国家人口与健康科学数据共享服务平台、国家地球系统科学数据共享服务平台、国家地震科学数据共享中心等都是在财政支持下,面向国家重大战略需求和科技创新提供公益性数据支撑服务;而中国科学院数据云以中科院相关数据为基础,除面向国家重大需求提供一站式无偿共享服务外,还对数据进行综合集成和再加工,形成具有更高价值的科学数据产品,面向社会产业创新需求开展服务,是对科学数据共享模式的有益探索。
《办法》第21条和第24条确立了科学数据开发利用中的公益性与市场化相结合的原则,即一方面对于政府决策、公共安全、国防建设、环境保护、防灾减灾、公益性科学研究等涉及国家和公共利益需要的,法人单位应当无偿提供或按照非营利原则收取成本费用,明确了为公益事业服务的导向;另一方面,鼓励法人单位、社会组织和企业对科学数据进行分析挖掘,形成有价值的数据产品,开展市场化增值服务。这一原则既有助于调动社会力量对科学数据进行分析挖掘开发以充分发挥数据的潜在价值,也保证了涉及国家安全和社会公共利益的数据应无偿或非营利原则提供,实现了市场化经营与公共利益有机结合,保障了科学数据效益的最大化。
2 科学数据共享与利用的途径与方式
《办法》第四章的相关条文在明确科学数据共享利用原则的同时,也指出了科学数据共享利用的具体途径与方式,笔者据此归纳了科学数据共享利用的途径与方式(如图1)。
图1 我国科学数据共享利用的途径与方式
2.1 免费开放模式
公益性数据的免费开放早已是国际社会的普遍共识。美国早在1990年代就已开始实行国有科学数据开放共享的国策,并通过完备的政策体系、基础设施平台、组织管理服务机制等保障科学数据的开放共享[13]。《办法》第19条规定:“对于由政府预算资金资助形成的科学数据,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享。”这一规定确立了我国科学数据共享中公益性科学数据免费开放的模式,即由政府资助产生的科学数据,应本着“开放为常态、不开放为例外”的原则,由主管部门和法人单位编制资源目录,通过国家数据共享平台提供共享。这也是我国科学数据最基本、最主要的共享模式,因为我国科学数据的主体——无论是各职能部门长期采集和监测的业务型数据,还是各类科技计划产生的研究型数据,究其来源,都是由政府资金支持产生的,都属于公有资源,应本着免费开放的原则提供共享。因而,该模式将成为我国科学数据开放与共享的基础和基本保障。
2.2 公开出版模式
实现科学数据的开放出版是促进科学数据共享的重要途径,不仅可以通过同行评议体系保证数据质量,同时通过数据出版促进数据成果被科研评价体系认可,从而提高数据生产者共享数据的积极性[14]。《办法》第22条规定:“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据。”这一条文确立了我国科学数据共享的公开出版模式,即鼓励科研人员通过公开出版的方式将其所拥有和产生的科学数据进行发表,便于其他人员使用和引用。这一模式是对免费开放模式的补充和深化,因为数据的出版和发表,一方面意味着数据的来源和质量经过审查和编排,具有规范性和可信度;另一方面也意味着数据生产者的劳动成果得到了体现和尊重,有助于激发其公开科学数据的积极性。
2.3 市场化开发模式
《办法》第21条规定:“法人单位应根据需求,对科学数据进行分析挖掘,形成有价值的科学数据产品,开展增值服务。鼓励社会组织和企业开展市场化增值服务。”这一规定确立了我国科学数据共享的市场化开发模式,是对前两种模式的拓展与补充:一方面有助于将那些具有重大潜在价值但却长期处于分散和沉睡状态的数据进行深度整理和加工,形成有价值的科学数据产品,充分发掘数据的价值;另一方面也有利于吸引更多的社会力量参与科学数据的加工与开发,更好地满足用户的个性化和深层次需求。
这三种模式分别从数据开放/开发的主体、开发/加工的方式、共享/利用的方式等方面对科学数据的开发利用进行了明确,形成了数据开发利用与共享的多元化途径。三种模式各有侧重又互为补充,既有助于调动各方的积极性,共同开发和挖掘数据价值,也有助于满足科学数据的多样化需求,最大限度实现数据的价值。
3 科学数据共享与利用的保障措施
科学数据的共享与利用既需要政策的规范与引导,也离不开制度的保障。《办法》不仅规定了科学数据共享与利用的原则及开发利用的方式,还明确了科学数据共享与利用过程中的保障措施。这些措施主要包括“保障数据开放的目录管理制度”“推动数据共享的出版与引用制度”“确保数据安全的分类审查制度”等。
3.1 保障数据开放的目录管理制度
数据信息的公开是实现共享和利用的前提,如果使用者不知道有哪些科学数据,就无从共享。而编制和公布科学数据资源目录,是实现数据开放和有效共享的重要保障。《办法》第19条规定:“政府预算资金资助的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享。”第20条规定:“法人单位要对科学数据进行分级分类,明确科学数据的密级和保密期限、开放条件、开放对象和审核程序等,按要求公布科学数据开放目录。”这些内容确立了科学数据开放的目录管理制度,即由主管部门或法人单位对科学数据资源进行梳理,通过共享平台以目录的方式加以公开。目录管理制度是基于元数据的科学管理方法,通过编制和公布科学数据资源目录,不仅有助于主管部门摸清资源状况,也是数据需求者了解和获取科学数据资源的指南,为科学数据的利用与共享奠定了基础。
对于如何编制科学数据资源目录,一方面可参照国家发改委和中央网信办发布的《政务信息资源目录编制指南(试行)》,该指南从政务信息资源的分类、目录编制要求、政务信息资源元数据等方面对政务信息资源目录编制进行了规范;另一方面,由于不同领域的科学数据具有不同的属性和特点,应根据这些特点,制定各个领域的科学数据资源目录编制标准。
3.2 推动数据共享的出版与引用制度
科学数据出版是实现数据共享的重要途径之一。通过数据出版,一是可以利用传统期刊成熟的同行评议体系保证数据质量,二是通过正式出版的形式促进数据成果被科研评价体系认可,以保护和鼓励数据生产者共享的积极性[15]。长期以来,由于缺乏科学数据的出版与引用机制,科学数据作为科研成果的地位得不到承认,数据生产者和拥有者开放数据的积极性得不到保护,导致大量有重要价值的科学数据处于分散状态,成为单位和个人的“私有财产”。《办法》第22条规定:“主管部门和法人单位应积极推动科学数据出版和传播工作,支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据。”第23条规定:“科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据。”这两条内容明确了通过科学数据的出版与引用以促进数据共享的信号,一方面体现了对科研人员智力劳动成果和知识产权的保护与尊重,畅通了数据公开与开放的渠道,有助于推动科学数据的开放与共享利用,促进科学数据价值的发挥;另一方面,通过鼓励科学数据的发表与出版,也有助于增强科研人员的责任感,促进科研行为和科研过程的规范,推动科研规范和学术诚信,减少学术舞弊,从整体上提升我国科学研究的质量。
3.3 确保数据安全的分类审查制度
科学数据的安全是共享的前提。如果数据的安全得不到保障,国家的利益就会受到损害,科研人员的积极性也会受到打击。《办法》针对科学数据的开放与保密作出了具体的规定。《办法》第20条规定:“法人单位要对科学数据进行分级分类,明确科学数据的密级和保密期限、开放条件、开放对象和审核程序等,按要求公布科学数据开放目录。”第25条规定:“涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,不得对外开放共享;确需对外开放的,要对利用目的、用户资质、保密条件等进行审查,并严格控制知悉范围。”这些内容确定了科学数据开放共享的分类审查制度:对一般性科学数据,由法人单位根据规定对数据进行分级分类,确定其密级及开放条件;而对涉及国家秘密、国家安全、社会公共利益、商业秘密和个人隐私的科学数据,实行保密和审查制度,对数据的利用目的、用户资质、保密条件等进行审查,确保数据的安全性,维护国家和公共利益。
4 科学数据共享与利用中的未尽事宜
《办法》是我国科学数据领域第一部正式成文的法律文件,要保障其顺利实施,还需要对科学数据共享与利用实践层面的具体问题和机制加以明确和完善,如数据的产权归属问题、数据开放的时限问题、数据的出版和引用机制。
4.1 数据产权归属问题
清晰的产权归属能确保数据顺利实现开放和共享,如果科学数据的产权归属得不到明确,一方面会造成数据的生产者和拥有者不敢开放和共享数据;另一方面也有可能导致部分牟利者窃取他人的数据,抢先开放和发表,制造“事实所有人”情形,从而损害数据生产者的权益,造成矛盾纠纷和影响数据生产者的积极性。纵观《办法》全文,并没有对数据的归属权问题作出明确界定。比如,提交到国家数据共享平台的科学数据,其后续管理维护和共享授权是否由数据生产者负责?又如科研人员利用政府的资助所产生的科学数据,其知识产权是否可以归数据生产者所有?因而,有必要进一步对科学数据的归属权进行明确、有效界定,以保障数据共享的顺利进行。
当前国内对于科学数据的归属问题尚未引起重视,而国外的一些政策规定则有所涉及。美国农业部农业研究服务局发布的《数据政策》指出,所有受资助项目产生的数据都属于公共财产,其开放共享应不受版权限制[16];英国经济与社会研究委员会(ESRC)发布的《ESRC科研数据政策》[17]强调公共基金资助项目所产生的研究数据是一种公共财产,应在符合道德标准、不侵犯隐私或损害知识产权的情况下以及时、负责任的方式公开提供。这些规定可为我国的政策制定者和执行者提供借鉴。
4.2 数据开放时限问题
随着全球科技加速发展,科学数据的时效性越来越重要。如果数据不能及时开放和共享,将很快失去利用价值。国外不少机构已经注意到了科学数据开放的时限问题。NIH早在2005年发布的开放获取政策时就要求所有受其资助的研究成果在发表后一年内提交到NIH国家医学图书馆(PubMed Central,PMC)的知识库,以便向其他研究者和公众提供访问[18]。英国自然环境研究委员会(NERC)2010年9月发布的《NERC数据政策》[19]要求受资助项目完成后,最迟在两年内必须公布所有的数据和成果供他人公开使用。2013年9月加拿大SSHRC发布的《科研数据存档政策》[20],指出公共资助产生的科研数据属于公共财富,受其资助的研究者在研究项目结束两年内必须提供共享。加拿大渔业与海洋部(Fisheriesand Oceans Canada)于2013年4月对《科研数据管理政策》[21]进行修订,要求所有受其资助的科学研究产生的数据,除特殊规定外,应尽快提交到合适的数据中心,渔业与海洋部承诺对所有提交的数据在两年内实现完全与开放共享。《办法》第19条提及主管部门组织编制科学数据资源目录后应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,但并没有对数据开放的时限作明确规定。因而,后续应参照国际社会的通行实践,对不同领域数据开放的时限予以明确,以确保科学数据在规定的时间内开放,充分发挥数据的价值。
4.3 数据出版与引用机制问题
当前国际上科学数据出版模式大致可分为集成出版和独立出版两种模式[22]。集成出版是指研究人员在发表研究成果时,按要求提交支撑其论文的科学数据,以便于其他研究人员共享利用。该模式又可分为两种方式:一种是将数据提交至学术期刊,由学术期刊自行出版,如德国Thieme集团与德国国家科技图书馆(German National Library of Science and Technology,TIB)合作,将其出版的所有化学类期刊论文中包含的原始数据通过TIB进行发布[23];另一种是根据期刊的要求,将数据提交至指定的科学数据中心/存储库,并在学术论文与数据之间建立关联,如美国生态学会ESA旗下的所有期刊从2000年开始,就要求作者把论文相关的数据注册到该学会创建的数据库中[24],Nature要求作者在投稿时必须向期刊证明与论文相关的科学数据已存储到可公开访问的相关数据库中[25]。独立出版是指对那些长期观测/监测产生的系列化数据进行整理后独立出版的方式。该模式也可分为两种方式:一是直接通过数据归档机构出版,如英国的信息环境数据中心EIDC;二是对归档数据进行整理后,以数据论文的形式,在专门的数据期刊上发表,如自然出版集团的Scientific Data[26]、Wiley集团的Geoscience Data Journal[27]、生物多样性领域的Biodiversity Data Journal[28]。
我国也积极开展科学数据出版的实践探索,目前建立的数据出版期刊/平台有:(1)《中国科学数据(中英文网络版)》(China Scientific Data),作为国家网络连续型出版物的首批试点之一,是目前我国唯一的专门面向多学科领域科学数据出版的学术期刊[29];(2)《全球变化数据学报》是以出版地理、资源、环境、生态、可持续发展、全球变化等领域科学数据为主要任务的学术刊物和数据出版系统,分别以印刷版、数字化版两种格式出版[30];(3)《地质科学数据》对全国地质资料馆馆藏公益性地质调查成果进行系统挖掘出版,并将出版的数据论文关联的实体数据在“地质科学数据出版中心”(geodb.cgs.gov.cn)与“地质科学数据出版系统”(dcc.cgs.gov.cn)出版[31]。
在科学数据引用规范方面,国外诸多机构或组织对科学数据引用的元素及格式作出了说明与规定[32]。我国在这方面也取得了可喜进展:2017年12月29日,国家标准化管理委员会发布了由中国科学院计算机网络信息中心主持起草的国家标准——《信息技术科学数据引用》(GB/T35294-2017),自2018年7月1日起实施。该标准对科学数据引用元素描述方法、引用格式等作了详细规定,标志着科学数据可以像学术论文一样被学术同行标准化引用,将在一定程度上促进数据拥有者开放共享其数据。
然而,无论是国内还是国外,科学数据的出版与引用都是一个尚在探索的领域,许多问题有待优化和完善。在数据出版方面,相较于传统学术出版,科学数据出版缺乏成熟、可持续的运行模式[33],数据出版还未得到科研人员的广泛认知,科研环境也缺乏对数据期刊以及数据论文的价值评价体系[34]。在数据引用方面,不同组织机构制定的科学数据引用元素和引用格式尚不统一,科研人员尚未形成数据引用的意识和氛围,不同利益相关方(研究人员、学术期刊、数据出版与发布机构等)的实践有待协调[35]。因而,主管部门应结合我国实情,尽快推动建立多样互补的科学数据出版模式,从而为我国的科学数据出版与共享奠定基础。
5 结语
一直以来我国重视科学数据的共享与利用,并进行了长期探索。《办法》对我国科学数据共享与利用的原则、途径与方式、保障措施等方面都作出了具体规定,是对多年来国内外科学数据共享实践经验的深刻总结和提炼,同时是学术界研究成果的集中体现。作为我国第一部科学数据管理与共享的政策法规,《办法》的重点在于厘清职责、指明方向,解决我国科学数据共享过程中长期存在的体制机制难题,但对于一些具体而微的层面,如明确数据的产权归属、建立成熟的数据出版与引用机制、明确数据开放的时限等问题,《办法》显然难以面面俱到,这些问题有待于在以后的实践中加以完善和优化。