APP下载

欧盟开放科学云计划:规划纲领、实施路径及启示

2019-05-05付少雄林艳青赵安琪

图书馆论坛 2019年5期
关键词:数据保护科学

付少雄,林艳青,赵安琪

0 引言

2018年4月,国务院办公厅印发《科学数据管理办法》,强调提高科学数据的共享开放水平,以保障国家科技创新、社会经济发展及国家安全[1]。开放科学是指最大限度开放实验数据、实验方法、实验过程与实验结果,且能被免费、及时与自由地获取使用,以促进开放式的科学氛围和学术文化[2]。开放科学强调科学数据,认为科学数据与著作或论文同等甚至更重要,且重视科学数据的活用与再利用[3-4]。科学数据的共享与利用离不开可靠科学数据基础设施的存储传输,同时由于不同类型科学数据的开放水平差异,也需要从科学数据保护的物理层面和制度层面进行数据风险防控,从而管控高风险的科学数据处理行为[5]。

欧盟将充分利用数据潜力作为开放科学和第四次工业革命的关键驱动因素,欧盟开放科学云计划(European Open Science Cloud Initiative,EOSCI)旨在推动欧洲成为科学数据基础设施的全球领导者,为欧洲170 万研究人员和7000 万科学技术人员提供虚拟环境用于存储、分享、分析与利用科学大数据,采用数据驱动跨学科研究[6]。而欧盟开放科学云(European Open Science Cloud,EOSC)建设是EOSCI 的核心内容。EOSCI 主要依托欧盟研究和创新框架计划——“地平线2020”(Horizon 2020-The EU Framework Program for Research and Innovation,H2020 -FP)。地平线2020 是欧盟成员国合作参与的中期科研计划,以竞争性科技难点与国际前沿研究为核心要素,在2014-2020年间总计投入703 亿欧元[7]。

现有开放科学研究主要从开放共享政策、数据保护制度等角度进行探究,多集中在战略、政策与制度层面[5][7-11],并未对科学数据基础设施建设等国外开放科学具体举措进行分析。由于我国尚未建立完善的开放科学实践体系,因此亟需分析国外开放科学的实践措施。欧盟开放科学已走在全球前列[3][7],其先进经验与理念可为我国提供切实可行的参考。本文采用实地考察与网络调研的方法,从开放科学框架、数据开放与保护标准角度分析了EOSCI 规划纲领,从开放科学云的建设、安全与应用论述了EOSCI 实施路径。通过总结欧盟开放科学云计划的实践模式,可为国内开放科学政策规划与基础设施建设提供借鉴。

1 EOSCI规划纲领

EOSCI 规划纲领包括欧盟开放科学框架、数据开放与保护标准两个部分,其中欧盟开放科学框架有效阐明了EOSC 建设的目的,数据开放与保护标准为EOSC 应用奠定了基础。

1.1 开放科学框架

开放科学框架是EOSCI 规划纲领的核心内容,该框架指出开放科学主要通过促进科学合作、提供实验和分析的新工具以及推动科学数据开放存取,使科研过程更高效、透明和有效。同时,开放科学框架强调开放科学是信息、通信和技术(Information Communications Technology,ICT)工具和传统科学事业间的交互,ICT 能促使科学研究向数据开放与数据驱动演化[2]。因此,EOSCI 的开放科学框架基于ICT框架制定,旨在通过社会、创新和政策三个要素,驱动科学数据的开放存取、新研究方法、社会参与和科研合作等,如图1所示。具体而言,新研究方法是指用数据驱动科学研究,通过EOSC 实现科学数据的异地存储、传输与再利用;社会参与是指鼓励公众参与到科学研究,以及社会议题的政策制定中,积极推动公众科学的发展;研究开放存取是促进科学数据传播与再利用的有效路径,且能提升研究过程的可靠性、规避重复研究等,强制性开放存取已被欧盟主流科研机构采用[7];科研合作可基于EOSC 实现科学数据的安全共享,以社交媒体为渠道推动科研众包的发展,科研众包即公众参与到科学研究领域[12]。

图1 基于ICT的开放科学框架

1.2 数据开放与保护标准

欧盟委员会(European Commission)在制定一系列政策促进科学数据的开放获取时,也需要在EOSC 的建设和实施过程中保护个人隐私、防止核心数据泄露等。本文从开放与保护维度阐述EOSCI 规划纲领中的欧盟科学数据标准:

(1)科学数据开放标准。EOSCI 中的科学数据开放标准主要依据地平线2020 框架下的《FAIR 数据管理指南》(Guidelines on Findable,Accessible,Interoperable and Reusable Data Management)[13]。FAIR 数据管理指南基于如下标准:①可发现性。可发现性要求科学数据通过多维元数据进行数据描述、实现在数据检索系统中的索引与注册、匹配单独的永久标识符、元数据与科学数据标识符关联。②可访问性。可访问性要求科学数据能基于标准协议进行识别与检索,其中标准协议可授权与身份认证、协议可实现且免费开放、即使数据失效也能获取元数据。③互操作性。互操作性要求科学数据的表达语言是正式的且可获取与共享、科学数据采用契合FAIR 标准的词汇、科学数据包含其他数据的引用。④重用性。重用性要求科学数据包含准确的相关属性、数据与其来源相匹配、涵盖可访问与清晰的数据利用许可、数据符合相关领域的社区要求。此外,FAIR 还制定了数据管理计划(Data Management Plan,DMP),内容如表1所示。

表1 FAIR科学数据管理计划

(2)科学数据保护标准。根据《科学出版物和科研数据开放获取管理指南》(GuidelinesonOpen Access to Scientific Publications and Research Data)[14],用户可通过开放科学云访问统计数据、实验结果、测量、实地考察、调查报告、访谈录音和图像等数字化科学数据,还可进行免费挖掘、再利用与复制,但必须遵循如下流程与标准,如图2所示。科学数据或出版物可依据需求划分为传播/分享板块与利用/保护板块,其中传播/分享板块区分为黄色/绿色开放存取,黄色开放存取是指向用户开放存取,而绿色是指自存取并确保开放访问后最多6个月内出版物得到正式发表。同时,研究项目可基于下述因素选择利用/保护板块:科学数据在政府或者工商业的保密条例保护范围内、违背个人隐私数据保护标准规范、数据公开会导致项目主要目标无法完成、项目不会生成/收集任何科学数据等。

图2 科学出版物和科研数据开放获取管理流程图

此外,针对科学数据中的个人数据,欧盟委员会制定有专门的个体隐私和数据保护标准。欧盟委员会于2018年5月正式出台《通用数据保护条例》(General Data Protection Regulation,GDPR),针对有关欧盟内部个人数据的采集、传播、存储或利用进行约束。对于个人数据的保护范畴,下述条件只需满足其一便受GDPR 管辖:①向欧盟内部可识别的自然人提供服务(涵盖免费服务)或者商品而采集和利用其个人信息;②为监测欧盟内部可识别的自然人活动而采集和利用其个人信息。具体而言,在欧盟境内的机构处理个人数据受GDPR 管辖,无论是否在欧盟境内处理数据;不在欧盟境内的机构处理欧盟内的个人数据受GDPR 管辖,包含向个人提供服务或商品、监测个人行为。GDPR 覆盖面在欧盟《计算机数据保护法》基础上有显著提升,明确个人敏感数据范畴包括政治观点、工会身份、民族/种族出身、哲学或宗教信仰、性生活/性取向/健康相关数据、生物识别数据、基因数据。同时,GDPR 规定个人数据处理必须依据数据主体(年满16周岁)自由意愿作出知情和特定指示,指示需明确同意个人数据的处理,数据主体具有随时撤回指示的权益。未满16周岁用户的个人数据处理与利用,如用户模型构建和个性化服务设计,都必须以清晰简洁且用户易懂的方式进行,而且需要取得拥有监护权父母的授权。此外,欧盟成员国可规定有关个人数据处理的更低年龄限制,但必须高于13周岁。

2 EOSCI实施路径

EOSCI 实施路径涵盖了开放科学云建设、开放科学云安全、开放科学云应用三个方面,构建了“平台建设——安全保障——底层运用”的高效实践闭环。

2.1 EOSC云建设

EOSC 云建设主要分为云政策制定、云设施建设、云访问内容扩大、云财政支持四个维度,EOSC 云建设实施内容如表2所示①。

表2 欧盟开放科学云建设实施内容

(1)开放科学云政策制定。为有效统筹EOSCI的政策制定,欧盟委员会专门成立欧盟开放科学云计划委员会(Commission on the European Open Science Cloud Initiative)。同时,成立欧盟开放科学云高级别专家组(High Level Expert Group European Open Science Cloud),以提供云建设的参考咨询与专业支持[6]。此外,欧盟委员会为保障EOSC 物理层面的建设,成立研究基础设施计划委员会(Research Infrastructures Programme Committee),下设电子基础设施和科学云团队(eInfrastructure and Science Cloud Team),制定政策推动欧盟成员国开发大规模高性能计算(High-Performance Computing,HPC),完 善EOSC 所需的数据和网络基础设施[15]。欧盟还设立有专门网站——开放科学监测(Open Science Monitor),分析全球各国的开放科学实施现状,以制定灵活的开放科学政策[16]。

(2)开放科学云设施建设。开放科学云设施建设主要依托电子基础设施(e-Infrastructures)与HPC 的建设计划,旨在到2020年前构建面向在线研究的单一开放式欧盟空间,欧盟研究人员可在EOSC 获取可靠的网络和计算服务,以及无缝和开放访问的欧盟乃至全球科学数据资源。区分于欧盟先前的《研究与创新基金2014-2020》(Research and Innovation Funding 2014-2020)宗旨,开放科学云设施建设更重视开发人力资源,强调科学数据基础设施的发展,将市场需求作为开放科学云设施建设的导向。具体而言,开放科学云设施建设目标如下:第一,搭建全球研究和教育网络,按需提供先进、标准化和可扩展的域间服务;第二,构建数据、网格和云基础架构,实现对任何类型数据的访问,以及大数据的处理和保存能力;第三,建设超级计算生态系统,研制亿亿级(Exascale,10 的16 次方)超级计算机;第四,发展软件与服务领域的基础设置,在战略制定实施、高性能计算等方面取得领先,如数据的模拟仿真、可视化等[17]。

(3)开放科学云访问内容扩大。欧盟开放科学云计划委员会不断致力于EOSC 访问内容的扩大:首先,开放共享机构已从高校、科研院所延伸到工商业与政府机构。通过将大数据和HPC技术运用于云环境,以实现EOSC 更广泛的访问,特别是对于中小企业;其次,EOSC 可作为云技术解决方案的创新试验平台,能加强欧盟云产业;再者,EOSC 能够为欧盟公共机构的数据和线上服务提供平台基础,推动贯彻欧盟“政府即服务”(Government as a Service,GaaS)的理念。此外,EOSC 的科学数据共享范围不仅包含研究成果的基础元数据等,还包括非直接相关的关联元数据。欧盟会对开放获取相关费用给予补贴。同时,EOSC 的科学数据利用范畴,综合衡量了数据安全和隐私、知识产权等多维因素,对科学数据开放共享程度进行分级。在分级基础上,用户可进行与分级相匹配的科学数据获取、传播、分析、再利用与再制造工作。地平线2020框架内的开放科学数据先导计划(Open Research Data Pilot,ORD Pilot)还要求为上述工作提供必要的软件、工具等。

(4)开放科学云财政支持。欧盟委员会制定的《开放数据:创新、增长和透明治理的引擎》(Open Data:An Engine for Innovation,Growth and Transparent Governance)政策,要求欧盟成员国加大财政投入推动开放数据[18]。对于欧盟云计划,欧盟计划在2016-2020年间投入67 亿欧元,其中地平线2020 的专项资金20 亿欧元,欧盟成员国财政部门、欧盟结构与投资基金(European Structural and Investment Funds,ESIF)与私人行业将承担其余47 亿欧元。对于预算的使用,2014-2020年电子基础设施的指示性预算为8.90 亿欧元,针对开放式创新预算为27 亿欧元。开放式创新主要依托欧盟的创新性人才,提供知识和科学数据更广泛地转化为新的市场产品和服务。同时,欧盟创新委员会(European Innovation Council,EIC)将资助多个超 2 亿欧元的开放式创新试验平台,为约30个社会热点主题提供约3 亿欧元资助。此外,面向全球的开放科学研究预算为10 亿欧元,资助约30个领域或课题,以加强欧盟研究人员的内部流动,吸引全球科研人员。

2.2 EOSC云安全

建设EOSC 能有效提升科研的效率、参与度与可见性,加强科研质量与严谨度,促进科研团队跨学科合作[19]。然而云基础设施却存在异地数据存储和处理过程中隐私性、完整性和安全性等基本问题,特别是对于个人数据的物理定位、数据合法处理等方面,欧盟先前的技术和设施难以有效保障。为解决上述问题,欧盟委员会专门成立“云安全”项目组(SafeCloud)[20]。“云安全”作为欧盟委员会实施的成功和优异案例,能够确保数据传输、存储和处理过程中的安全[21]。“云安全”重新定义了云基础架构,主要体现在如下两个原则:在多个非串通域进行分区,对敏感数据进行设计与保护;通过相互依存纠缠使任何域都无法篡改数据完整性。分区和纠缠原则被运用于从数据开放、存储到处理的整个数据管理流程中,能够有效促进分布式云基础架构和医疗记录云存储等方面的个人隐私数据保护。

图3 “云安全”基础架构

“云安全”基础架构如图3所示,WAP1-WAP5 代表云安全机制的层级,有效覆盖了数据的安全交流、安全存储、安全查询、集成和云服务、用户案例。全新的云安全基础架构能够有效应对数据在存储、共享、传输和处理过程中所面临的公共挑战,主要针对敏感个人数据的隐私保护,以及数据的安全性、可用性、一致性、可靠性与性能保障。相较于先前云架构,当用户利用最新“云安全”基础架构时,可获取更安全快速的可靠工具和服务,并能以安全和私密的方式与第三方进行互动。

2.3 EOSC云应用

EOSC 除应用于高等教育与培训,还将逐步向政府和企业用户推广,促使EOSC 能得到更广泛应用,其中主要应用领域包括公众科学与全球系统科学。

(1)公众科学(Citizen Science)。公众科学是指包含科学爱好者、非职业科学家与志愿者参加的开放科研活动,涉及新型技术发展、科研问题探究、数据采集和分析、图像处理和识别等[22-23]。公众科学能够有效体现欧盟开放科学的理念,是EOSCI 的重要组成部分,而EOSC 能为公众科学的数据存储、传输与利用提供支撑[24]。欧盟委员会专门制定了《欧盟公众科学白皮书》(White Paper on Citizen Science for Europe)促进公众科学,同时公众科学可得到可持续性和社会创新的集体意识平台(Collective Awareness Platforms for Sustainability and Social Innovation,GAPS)的支持,该平台旨在基于ICT 开放科学框架,结合社交媒体、分布式知识创新(Distributed Knowledge Creation)、物联网数据,以促进公众科学发展[25]。所有受资助项目内的科学数据皆默认为开放存取,并保留在EOSC 中。本文对开放科学框架下的欧盟公众科学项目进行了调研,部分公众科学案例如表3所示。

表3 欧盟公众科学案例

(2)全球系统科学(Global Systems Science,GSS)。全球系统科学是指为社会领域的政策制定、公众行动与参与提供科学支撑依据[26]。当面临气候变化、金融危机、流行病治理或能源危机等高度相互关联的全球性挑战时,当前政策制定者仍倾向于子系统问题的解决,因此无法实现系统性变革。EOSC 通过为政策研究人员提供更为全面的综合科学数据,如各地气候数据、各国经济数据、城市发展动态等,能够为全球性挑战的综合政策与研究议题制定方案,有助于基础研究问题的解决。此外,EOSC 也为欧盟各国研究人员的跨区域合作奠定了基础,可为全球性问题的解决提供新路径。

3 对我国的启示

3.1 进行国家层面政策的顶层设计

《科学数据管理办法》的颁布明确了我国科学数据的开放原则,即开放为常态、不开放为例外[27]。但是我国尚未出台专门的开放科学政策或战略,开放科学政策分散在国内各个政府机构或高校文件中,如国家自然科学基金委员会的《关于受资助项目科研论文实行开放获取的政策声明》、中国科学院的《关于公共资助科研项目发表的论文实行开放获取的政策声明》等。国内开放科学缺乏国家层面的持续性政策激励和稳定资金支持,以保障开放科学政策的底层实施。国家层面也尚未建立科学数据获取与加工的通用标准,不同区域、学科、行业、机构间的科学数据无法实现有效共享。当前国内开放科学多停留在宣传层面,如高校、图书馆、期刊出版界举办系列“中国开放获取推介周”等。因此,亟需加强国家层面开放科学政策的顶层设计,以保障国内开放科学政策制定的连贯性,以及政策的底层实施。我国可借鉴欧盟的开放科学政策制定,将政策分层为计划、指南、政策建议等,如《开放科学云计划》《开放科学数据先导计划》《开放存取与数据传播与存储政策指南》《欧洲科学数据开放获取政策建议》,逐步推进国内开放科学建设。

3.2 统筹规划开放科学基础设施

开放科学基础设施建设有助于打破国内高校、区域间的数据或信息藩篱。我国现有开放科学基础设施主要集中在各类科学数据共享平台,其中,国家基础科学数据共享服务平台的学科门类集中在物理、化学、天文、生物和地球科学,但数据集仅含773个[28]。国内还针对不同领域建有科学数据共享平台,如国家地球系统科学数据共享平台、国家地震科学数据共享中心、国家人口与健康科学数据共享服务平台等。国内尚未建立全学科门类的统一基础性开放科学平台,以实现国内高校、政府乃至企业界间科学数据的共享与利用。国内也针对科学数据云服务展开了探索,如建有中国科技云[29]、中国科学院数据云等[30],但是当前云服务主要集中停留在云存储、云归档、云计算等,未真正体现开放科学中科学数据免费共享与利用的宗旨,科学数据传递也未建立其全国性的统一标准。欧盟开放科学云计划为我国提供了可操作性强的开放科学基础设施解决办法,我国可采用云服务实现机构间、地域间广泛的科学数据管理与再利用。此外,国内开放科学的基础设施建设应充分利用后发优势,在整合国内中科院等各个机构现有云服务的基础上,通过加强与企业界合作,如阿里云、腾讯云、华为云,推动开放科学云的跨越式发展。

3.3 建立数据保护指导性规范

开放科学实施过程中不同科学数据的开放程度具有差异性,如人口基因数据、用户行为数据等。同时,在科学数据传递与利用过程中,还会涉及高风险的数据处理行为,如科学数据跨境共享、数据越权访问、数据大规模泄露、数据违规篡改等。因此,有必要在完善开放科学基础设施的同时,建立数据保护指导性规范。数据保护标准制定能够规范科学数据共享与利用行为,保障个人信息隐私。此外,建立数据保护指导性规范也有助于科研人员、工商业界、政府机构各层面科学数据共享意愿的提升。国内如《个人信息保护法》等法律法规尚在制定中,相关规范分散于国内各类法律法规中,如《中华人民共和国网络安全法》《关于加强网络信息保护的决定》等。其中网络安全法要求网络运营者履行个人信息保护责任主体义务,系统性明确了个人信息保护要求,但我国尚未建立专门针对数据保护的系统性指导性规范。国内数据保护指导性规范构建,应在国内现有规范的基础上借鉴国外数据保护规范,针对国内数据保护现状与主要问题制定相关条款。如可借鉴欧盟《通用数据保护法案》,分为强制性义务、行业自律和行业指导性规范三类方式,对监管主体、数据审查流程、数据评估流程等方面作出具体规范[5]。

注 释

①由于英国尚未正式脱欧,本文的英国案例均处于欧盟整体公众科学框架内。

猜你喜欢

数据保护科学
隐私与数据保护的反垄断法考量
数据保护护航IT转型
——戴尔易安信数据保护解决方案
欧洲数据保护委员会通过《一般数据保护条例》相关准则
点击科学
点击科学
点击科学
科学大爆炸
欧盟最严数据保护条例生效 违反将严惩不贷
欧盟“最严”数据保护条例生效
科学拔牙