开放科学创新生态构建中的数据处理伦理准则框架研究
2022-11-28刘静羽贾毓洁黄金霞
刘静羽,贾毓洁*,黄金霞,王 昉
(1.中国科学院文献情报中心,北京 100190;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100190)
1 引言
开放科学是全球科技发展的重要趋势,构建 “开放、信任、合作” 的开放科学创新生态被认为是推动开放科学的重要途径[1]。当前,数据作为社会新型生产要素[2]和战略性资源[3],与开放科学的演进深度交融,以数据复用驱动的科研基础设施建设成为中国现阶段开放科学实践的核心[4]。习近平总书记在2021 年6 月30 日的两院院士大会中国科协十大重要讲话中提出要“构建开放创新生态,参与全球科技治理”[5],突出强调了前瞻预判科技发展中的伦理挑战以及要进一步完善伦理审查规则及监管框架。
做好数据治理,建立与开放科学创新生态构建相匹配的数据处理伦理准则,指导开放科学创新生态中的参与主体在数据创造、共享、传播、利用过程中按照法律规定和伦理规范开展行动,约束数据处理行为向好向善、造福社会,对于营造良好开放科学创新生态至关重要。
2 数据处理伦理与开放科学
2.1 数据处理伦理
伦理,是建立在是非观念上的行为准则,伦理准则侧重于公平、尊重、责任、诚信、质量、可靠性、透明度和信任等方面,主要包括道德准则、法律规范和利益分配等内容。2020 年9 月,美国总务署(General Services Administration,GSA)发布的《数据伦理框架草案》中,数据伦理概念被定义为在收集、管理或使用数据时,为保护公民自由、最大限度地降低个人和社会的数据使用风险、实现公共利益最大化等目的,进行适当判断和问责的依据。数据处理伦理,是指如何以符合伦理准则的方式获取、存储、管理、使用和销毁数据,是从实践出发的狭义数据伦理概念,主要应用于组织机构数据管理层面[6]。
数据生命周期的各个阶段,包括数据产生、获取、存储、传播、利用等活动,都需要数据处伦理的指导,以保证数据质量。明确数据处理伦理准则,能有效地规范组织机构对数据的管理与利用。基于伦理准则处理数据,对于任何希望从数据中持续获得价值的组织和个体来说都是必要的;反之,违反数据处理伦理准则会导致组织面临声誉损失、用户流失等风险,一些违反伦理的行为甚至会触犯法律。
随着社会探索和利用大量数据和信息的专业化能力不断提升,数据伦理与人类社会生产生活紧密融合,重要性日益增强。数据处理伦理已被纳入国际公认和权威的数据管理知识体系中,在2017 年最新出版的数据管理领域权威性基础工具书《DAMA 数据管理知识体系指南》中被作为单独的一章加以论述。国际标准化组织(ISO)、国际数据治理研究所(DGI)、Gartner公司、国际信息系统审计和控制协会(ISACA)等均尝试构建数据治理模型/框架,并强调以伦理规范指导数据管理,控制数据质量,防范数据被歪曲、滥用和误解的风险。
2.2 开放科学环境下的数据伦理难题
在数据管理领域,数据处理伦理在理论和实践层面都已经有了一定程度的发展和应用。但随着开放科学在中国的持续推进,开放科学创新生态构建成为未来发展的大趋势,其对数据治理的要求与数据处理伦理准则的核心要义不谋而合。
但数据处理伦理是一个较为复杂的问题,不仅横跨生物医学、空间科学、教育管理、计算机科学、新闻传播等多个学科,还关系到政府、企业、个人等利益相关主体。中国数据要素市场尚不完善,智能技术应用[7]中存在数据权属不明确、数据标准不一、数据共享开放不充分[8]等伦理和道德问题,阻碍了数字化时代中国的开放科学发展。刘金亚等[9]分析并得出了23 个开放科研数据环境下的伦理问题,覆盖数据创建者对数据的控制权、数据描述规则、数据滥用、数据透明、知情同意、数据隐私等多个方面;陈劲等[10]提出数据真实性审查,以及基于机器学习、大数据分析的智能数据采集、智能决策可能带来的负面社会影响均属于开放科学须直面的伦理问题;李伦[11]指出人与自由的关系是数据伦理处理准则的核心,数据伦理问题早已随着大数据技术的发展而受到广泛关注,成为技术伦理学探寻的热点命题之一。
因此,有必要研究和探讨开放科学创新生态构建中的数据处理伦理问题,包括:在开放科学创新生态构建中各利益主体需要遵循的数据处理伦理准则是什么;各国和各组织机构间已有的数据处理伦理准则是否可以移植到开放科学创新生态环境;开放科学创新生态中的数据处理伦理准则是否对原有准则内容有新的内涵或扩展。
本研究运用文献调研、内容分析法,从相关法律、指南、框架和典型数据管理模型中,调研归纳数据处理伦理准则的一般维度和认可度较高的准则内容,并从国内最新规划政策与开放科学内涵中,提炼出开放科学创新生态环境下的数据处理伦理准则需求。之后,通过矩阵分析综合比较两项结果,从共性和特性、准则内容与政策及理念协同等角度,分析得出开放科学创新生态构建中的数据处理伦理准则框架。该框架未来可用于制定适应中国开放科学创新生态构建的数据处理伦理准则文本,指导各相关利益主体形成对伦理的准确认识,使其在开展数据处理活动时,规范数据处理方式和工作流程,甄别和规避伦理风险,进而推动中国开放科学创新生态的可持续发展。
3 数据处理伦理准则的内容及维度分析
数据处理伦理仍在发展中,尚未形成一套统一的框架。受到法律、组织文化差异等影响,现有的数据处理伦理准则在国家和组织机构之间呈现出一定的内容差异性和分布零散性,不同的准则有各自的侧重。本研究从普适的角度出发,立足数据获取、存储、管理、使用和销毁的实践,面向广义的社会性数据,同时兼顾一部分科研数据,关联整合不同的准则内容,寻求现有准则间的共有主题和内容[12]。
3.1 数据处理伦理文本选取
伦理准则从类型来讲,覆盖 “硬法”(强制性的法律和条约)、“软法”(志愿性的、非约束力的协议或指南)和非正式措施(行为准则和提高意识等道义劝告);从作用面来讲,又可分为国际、区域、国家、行业等多个尺度[13]。从数据处理伦理的普适性出发,本研究选取目前国际上普遍认可、实践中较为领先的数据处理伦理相关法律法规、报告指南、框架草案及政策,同时也关注了模型中的数据处理伦理准则,期望从中提取和梳理数据处理伦理准则的基本维度。
3.1.1 法律层面的强伦理约束
随着数据在社会生产生活中的愈来愈占据重要地位,各国陆续制定了一系列法律法规,对数据处理活动进行规制。这些固定性、强制性的规则部分涉及由“隐私” “安全” 等道德伦理上升而来的内容,为数据处理相关的活动划下了一道红线,是社会生活中的数据处理活动最基本的强伦理约束。
欧盟2018 年发布的GDPR,一以贯之个人隐私保护的原则,是目前全球在保护个人数据方面,规定最为严格、处罚最为严厉的法规;加拿大响应个人信息保护国际运动号召,2019 年发布了PIPEDA,为通过商业渠道采集的欧盟国家公民的个人信息提供了强有力的保护;美国作为世界上最早提出并通过法规对隐私权予以保护的国家,1974 年的《隐私法案》是最重要的一部保护个人信息方面的法律,2019 年的NSPDPA 则开始限制跨境数据流向,将数据保护提升到国家安全层面;中国则在 “十四五” 开局之际,相继完善和推出了《数据安全法》《个人信息保护法》《数据出境安全评估办法》《网络数据安全管理条例》等多项法律法规,进入数据安全保护的法制化时代。
这些数据处理相关的代表性法律法规(表1),可以在一定程度上反映出不同区域或国家对于数据处理所秉持的态度、最基本的要求和底层的道德伦理逻辑。
表1 数据处理伦理相关的法律法规Table 1 Laws and regulations related to data handling ethics
3.1.2 指导层面的弱伦理约束
尽管部分伦理道德可以上升为法律,但法律无法完全代替道德伦理,法律的固定性和强制性决定了其在快速发展变化的社会环境下,一定程度上滞后于现实需要。因此,面对层出不穷的数据处理伦理需求,各行各业陆续制定公布了数据处理相关的报告指南、框架草案以及政策,从而进行自我规制。
宏观上,1979 年的《贝尔蒙报告》提出的贝尔蒙特医学研究原则也适用于信息管理学科,2012 年的《Menlo 报告》则将贝尔蒙特医学准则用于信息和通讯技术研究,为数据伦理准则提供了一个良好的起点;《大数据的数据隐私、道德和保护指导说明》和《DATAETHICS—公司、当局和组织的原则和指南》与数据隐私、数据保护和数据道德相关,可以帮助指导将数据伦理整合到数据处理活动中。微观上,《EDPS道德框架》《数据伦理框架》《伦理和数据保护》《数据伦理框架草案》《数据处理伦理语境关系》以及《个性化健康研究中负责任数据处理的伦理框架》则从具体实践出发,为组织和利益相关方的数据处理和操作提供了伦理参考依据。更有《科学数据管理办法》《开放存取与数据传播和保存政策指南》《开放数据白皮书:释放潜能》《开放数据政策——将信息作为资产进行管理》《NIH 数据管理和共享最终政策》为国家、机构、组织等的数据管理和开放共享提供方向指导。
这些数据处理相关的代表性报告指南、框架草案及政策(表2),是各领域和行业从业人员对于其数据处理伦理需求的补充,更具体地反映出从业人员对于数据处理行为规范有着更高级别的要求。
表2 数据处理伦理相关的报告指南、框架草案及政策Table 2 Reporting guidelines,draft frameworks and policies related to data handling ethics
3.1.3 实践层面持续发挥作用的伦理约束
数据处理伦理还在数据管理过程中持续发挥着指导作用。数据管理是一个复杂的过程,是一项跨职能的工作[6],数据质量保证这一难题贯穿着数据管理的整个生命周期[36]。在数十年的时间,DataFlux、Gartner、IBM、斯坦福大学、企业数据管理委员会(EDM Council)、卡耐基-梅隆大学旗下的CMMI 协会以及中国国家标准管理委员会等国际组织、跨国IT 服务企业和权威咨询机构相继推出模型以从不同视角揭示数据管理过程中的重要内容(表3),其中数据质量管控、数据安全策略、信息隐私保障、数据文化构建、信息风险防范等目标都与数据处理伦理相关。
3.2 数据处理伦理维度层级
从上述数据来源和内容可以看出:数据处表3 理伦理,以法律法规为准绳向上下延伸,向上是宏观的道德伦理准则,向下是微观的数据操作细则要求(图1)。
图1 数据处理伦理维度层级结构Fig.1 Dimension hierarchy of data handling ethics
表3 数据处理伦理相关的数据管理模型Table 3 Data management models related to data handling ethics
数据处理伦理相关的法律法规以保障国家安全、维护社会和公众的利益为核心原则,为数据处理相关的活动划下了一道红线,为组织保护数据提供了动机。但一些组织认为只要遵守法律相关规定,就不会有数据处理相关风险,这是一个危险的假设,因为立法往往跟不上数据生态变化带来的风险,故而在法律法规的指导下,还需要从宏观角度理解数据处理的道德伦理准则,从微观视角规范数据处理操作细节要求。从宏观来看,数据处理伦理的原则包括维护公共安全、保护社会公平、尊重主体权利、重视隐私保护、推动开放共享、保障数据生态的可持续发展;从微观来看,在数据处理的各个过程中,相关的操作要求要遵循法律规范和伦理原则进一步细化,例如:数据收集的知情同意、数据存储的安全保障、敏感数据的脱敏处理、责任主体的合理界定、数据管理的信任机制等。
3.3 数据处理伦理内容分析
以上述选定的文本为研究对象,结合数据处理伦理的维度层级,本研究将对数据处理伦理进行内容分析,主要包括3 个步骤:概念化、范畴化和逻辑整合。概念化是对原始文本语句依据普遍理解,通过贴标签后形成概念;范畴化是对已形成概念的归纳整合;逻辑整合则是在已有概念和范畴的基础上深挖其中的逻辑关系,形成有意义的理论。
3.3.1 概念化和范畴化
本研究针对原始文本,并未严格按照逐词、逐句、逐行或逐段的某种固定方式提取概念,而是选取可操作的、有意义的某些片段进行概念化和范畴化,选取的内容主要包括两个方面:一是隐性体现的一般性伦理准则;二是显性提出的一般性伦理准则。由于后者一般是已经形成的概念,故而选取的资料还是以前者为主,后者多作为辅助材料在概念化的过程中作为参考,部分概念化过程如表4 所示。
表4 概念化和范畴化过程示例(部分)Table 4 Example of conceptualization and categoryization process(partial)
3.3.2 逻辑整合
通过对选定的文本进行概念化和范畴话后,经过归纳整合,最后共得到数据处理伦理相关的11 个关键要素,包括:公众安全、个人主权、隐私保护、数据安全性、数据准确性、数据时效性、数据可信度、数据透明度、人员培训、监管机制和风险防控。将这些要素依据宏观、中观和微观3 个层面进行归纳整合后,可以得到数据处理伦理的3 个主题维度:长治久安、协调有序以及系统科学(图2)。
图2 数据处理伦理维度整合Fig.2 Dimension integration of data handling ethics
(1)以长治久安为目标,体现国家安全观和社会责任观。从国家安全观和社会责任观看,数据处理伦理以长治久安为目标,包括公众安全、个人主权和隐私保护。公众安全包括公众利益和社会安全,是数据处理伦理相关法律法规的核心原则,也是数据利用的终极目标。个人主权即尊重人的权利。大数据时代,代表个人特征的数据一旦被用于决策时,会影响人们的生活,故而无论是数据生产者还是数据利用者,都要以 “不伤害” 的原则加强对个人权利的尊重和保护。隐私保护是数据处理伦理中被重点强调的内容,在收集、处理和分析他人产生的数据时要注重隐私保护,这既是对数据生产者的尊重,也是数据处理者保护数据安全的重要一环。
(2)以协调有序为方向,强调规范秩序和行业自
律。在规范秩序和行业自律方面,数据处理伦理以协调有序为方向,包括人员培训、监管机制和风险防范。对于组织机构来说,对人员进行培训,加强伦理观念和伦理准则,是提高数据素养的直接途径。同时,建立数据处理和监督的方法、风险防范相关制度,定期进行数据审计,也是确保数据被正确使用的重要措施,例如DAMA 国际建立伦理风险模型工具,有助于帮助组织及时发现问题并解决。
(3)以系统科学为指导思想,要求操作标准和程序正当。在具体实践方面,数据处理伦理以系统科学为指导思想,要求操作标准和程序正当,包括数据安全性、数据准确性、数据时效性、数据可信度和数据透明度。这些伦理准则体现为一系列规范措施,例如数据保障措施、目的限制、问责制度、授权许可以及合规挑战等方面的规章制度,其目标是确保数据不被滥用以及不被用于欺骗和误导,以保证数据分析和数据支撑决策的精准性,从而规避数据风险导致的成本和信誉损失,最终帮助组织积极承担责任,构建良好的数据生态。
4 开放科学创新生态中的数据处理伦理准则框架
开放科学创新生态,是开放科学发展与开放创新生态建设的融合,体现着科学与社会的衔接。本研究在前文所描述的数据处理伦理准则维度基础上,结合开放科学理念和国家社会发展需要,从国内最新规划政策与开放科学内涵中,提炼出开放科学创新生态环境下的数据处理伦理准则需求后,通过矩阵分析综合比较两项结果,从共性和特性、准则内容与政策及理念协同等角度,分析得出开放科学创新生态构建中的数据处理伦理准则框架。
4.1 开放科学创新生态发展总体目标与基本原则
开放科学创新生态的构建不能脱离国家和社会发展,开放科学创新生态中的数据处理伦理准则也必须与国家科技创新、数字化转型发展中的理念、原则相契合。本研究选取《中华人民共和国国民经济和社会发展第十四个五年规划和2035 年远景目标纲要》,以及2021 年出台或实施的部分法律和规划,分析其总体目标、基本原则、与数据处理相关内容等,提取相应关键词,为设计开放科学创新生态中数据处理伦理准则的参考和依据(表5)。
表5 国内部分法律政策分析及关键词提取Table 5 Analysis and keyword extraction of some domestic legal policies
上述所有理念的并集,应成为开放科学创新生态数据处理伦理准则的指导与依据,而表中显示的 “安全、质量、开放、诚信、系统” 等高频关键词,应在开放科学创新生态数据处理伦理准则设计中得到更为突出的体现。例如,在数据处理全过程中,强化数据安全保障责任和风险防控意识,防范数据泄露,注重关乎国家科技安全、企业发展的重要数据保护,以及个人信息和隐私数据保护,重视数据记录、溯源等;尊重数据所有权、使用权、控制权、交易权等多种权益,并积极根据国家法律法规、数据要素市场发展、数据产权框架发展的动态变化,调整数据处理伦理准则中关于数据权属的规定;强调数据处理主体间的协同高效、开放合作等理念,提高行业的自律意识,营造良好的数据伦理生态。
4.2 开放科学创新生态中的数据处理伦理准则框架构建
由上述分析可知,开放科学理念与数据处理伦理准则一般维度相契合。故而本研究在数据处伦理一般维度的基础上,根据开放科学理念和国家社会发展需要所提炼和增加的内容,如图3 中蓝色部分的要素,构建起开放科学创新生态中的数据处理伦理准则框架,共包含3 个维度、15 个要素。
图3 开放科学创新生态中的数据处理伦理准则框架Fig.3 Framework for data handling ethical guidelines in the open science innovation ecology
4.3 开放科学创新生态中的数据处理伦理准则框架发展与应用
根据联合国教科文组织发布的《开放科学倡议书》,开放科学的理念是 “参与、包容、分享、合作、公开、透明”[44],这与数据处理伦理准则中 “长治久安、协调有序、系统科学” 3 个维度是高度契合的,开
放科学创新生态建设应从以下5 个方面关注数据处理伦理。
(1)科学研究是造福人类的事业,须向善而行。正如2017 年欧盟特别峰会所签署的《罗马宣言》指出的 “科研和创新的决策尊重人的尊严、自由、民主、平等、法治及尊重人权”。2021 年12 月中央全面深化改革委员会第二十三次会议审议通过《关于加强科技伦理治理的指导意见》也强调,科技活动必须遵守的科技伦理准则,包括坚持增进人类福社、尊重生命权利、公平公正、合理控制风险、公开透明等[45]。因此,开放科学中的数据处理必须以尊重人权为首要原则,同时重视保护隐私权。例如在有关临床病例或者环境监测的公民科学研究中,往往涉及个人数据的收集和身份信息的识别,需要加强对隐私的保护。
(2)开放科学中的数据处理伦理准则应更多体现包容性。联合国2030 可持续发展议程提出17 个可持续发展目标,其中有5 个都提及 “包容”。联合国教科文组织也在积极探讨如何通过开放科学推动实现更大范围的数字包容,弥补仍然存在且可能进一步加剧的数字鸿沟。目前主要发达国家的数据治理中都已考虑数字包容问题[46],中国在构建开放科学创新生态过程中,也应考虑将“包容” 原则纳入数据处理的伦理准则框架。在实践中,已有一些考虑包容性的数据实践包括美国国立医学图书馆(National Library of Medicine,NLM)为方便所有的科研人员和社会公众都能无障碍地获取开放科学所公开的出版物、研究过程、数据和软件,积极采取措施,包括建设开放资源和数据中心、应用语义化技术、开发软件工具等,帮助人们共享开放科学成果。
(3)开放科学创新生态中的数据处理伦理更多强调 “责任”。如何实现研究与创新的责任治理,引导科技创新朝着社会满意方向演进,是科技治理中的基本命题[47]。开放科学从诞生开始便蕴含主动开放的理念,包括科研人员、研究机构、政府、企业、公众等主体在参与开放科学的过程中都应具有伦理自觉性、主动承担相应责任,规范自身行为。在开放数据领域,开放科学框架(Open Science Framework)的在线社区,已形成数据信息开放的标准化管理与存储,可实现科研完整生命周期内数据资源的可读性与流通性,从而实现责任治理。在大数据、人工智能技术不断发展应用的背景下,更应强调数据处理的中的伦理责任,才能保障整个开放科学创新生态良好运转。2017 年著名的《阿西洛马人工智能23 条原则》、2018 年出台的《欧盟人工智能》文件都体现了面对新兴科技伦理所体现出的责任意识,国内学者张梦在智能社会的基本伦理中明确提出“落实责任” 这一内容。
(4)开放科学中的数据处理伦理准则也需要包含培训、监管和风险防控等内容。培训方面,数据处理伦理准则应面向参与开放科学中的所有参与主体制定培训计划,提升整体意识。监管方面,需要考虑在数据处理过程中,制定监管机构和执行机构,例如,墨尔本大学(The University of Melbourne,Australia)规定,科研中受试者的数据访问只有获得伦理委员会的许可才能执行,防止隐私泄露[48]。风险防控方面,应考虑如何从数据处理全流程出发,包括数据核验、记录、发布、权属、内容管理等多个环节,明确相应的责任和义务。
(5)在数据处理伦理中准则的实践落地方面,数据安全、准确、时效性、可信度,透明度等都开放科学中是必备条件。根据经济合作与发展组织(OECD)对开放科学的定义,开放科学强调主动向全社会披露科学知识、研究过程、研究数据与研究成果[10],确保输出高质量、可信、可检验的信息,在此基础上才能实现知识共享与再利用,以及科学共同体的高度协同与合作。中国学者姚长青等认为,促进科研过程中的数据开放性和透明度有利于科研诚信建设[49]。
5 总结
本研究面向开放科学创新生态的建设需求,引入数据管理领域中 “数据处理伦理准则” 这一重要概念,从共性与特性相结合的视角开展分析,总结归纳出数据处理伦理准则的一般维度,并结合开放科学理念和国家社会发展需要,提出包含3 个维度15 个要素的开放科学创新生态的数据处理伦理准则框架,以期为更好理解把握开放科学创新生态中参与主体所应具备的伦理道德,以及如何制定开放科学创新生态中的数据管理实施方案提供了一定参考,未来可应用于制定适应中国开放科学创新生态发展的数据处理伦理准则文本等具体场景。但本文所提出的数据处理伦理准则框架,在准则内容、准则应用场景方面还有待结合开放科学创新生态的应用需求做进一步补充完善,这也正是本文不足之处,后期也将继续深化相关项研究。