APP下载

医疗科研中的生物医疗数据“匿名化”问题研究*

2023-02-08叶竹盛刘婉君

医学与法学 2023年4期
关键词:保护法个人信息生物

叶竹盛 刘婉君

一、问题提出

新冠疫情暴发后,多个医疗机构迅速行动,收集了大量生物医疗数据,并迅速将之用于医疗科研、追寻病毒渊源、研究其致病机理和诊治方案等;在此过程中,生物医疗数据体现出了重要的医疗学术价值和公共价值,获得了高度关注。生物医疗数据是医疗科研领域的重要资源,是数字化和智能时代医学研究的驱动力——拥有数据资源就拥有了科研创新的主动权。生物医疗数据一方面包括高度私密的个人敏感医疗信息;另一方面,又对医疗科研人员了解生命机制、提高医疗诊治的服务质量,以及完善公共卫生管理机制、促进人类健康事业发展等,都有重大价值。因此如何在医疗科研过程中保护生物医疗数据安全,妥当处理个人信息保护和医疗科研公共利益两种价值之间的冲突,就显得尤为重要。

生物医疗数据来源于医疗诊治过程,出于医疗科研和公共卫生的目的,在多个领域均有对其进行处理的需要。《中华人民共和国个人信息保护法》(以下简作《个人信息保护法》)和《中华人民共和国数据安全法》(以下简作《数据安全法》)针对个人信息保护的一系列制度,未能充分考虑到医疗科研领域的具体情况,尤其是未能平衡医疗科研和公共卫生目标与个人信息保护目标之间的价值冲突,因而其核心的“去标识化”“匿名化”处理等制度,难以直接运用于生物医疗数据的处理过程。笔者结合自身在医疗机构参与医疗科研工作的实践,分析了生物医疗数据的法律属性;结合医疗科研的不同环节,来介绍医疗机构和人员处理个人生物医疗数据的习惯做法和“去标识化”制度,以及实现个人信息“脱敏”的效果。以对信息不同程度的“脱敏”对于医疗科研之学术效果、数据流通效率的可能影响,现行的“匿名化”制度对于发挥医疗科研之公益性所存在的不当制约,等等,以“匿名化”制度为核心进行讨论并结合对域内外相关规范的分析,为如何完善我国现有相应制度提出建议。

二、价值冲突之下的生物医疗数据

(一)“数据”与“信息”的概念辨别

从技术上看,“数据”表现为文字、符号、图片等不同形式,“信息”是传播的具体内容,两者是依存关系;其不同则在于,“数据”是“信息”的表现形式,“信息”是“数据”的具体内容。[1]根据《数据安全法》对“数据”的定义(“任何以电子或者其他方式对信息的记录”)和《个人信息保护法》第四条的规定(“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息”),笔者将“数据”定义为“具有身份识别可能性且与自然人具有关联性的信息”;将“匿名化数据”定义为“匿名化后,不可识别任何自然人的信息”。

(二)生物医疗数据的类别与范围

2020 年由全国信息安全标准化技术委员会发布的《健康医疗数据安全指南》(GB/T3925-2020),将“个人健康医疗数据”定义为“单独或者与其他信息结合后能够识别特定自然人或者反映特定自然人生理或心理健康的相关电子数据”。医疗科研包括生命科学基础研究与医学研究,其研究素材涵盖了通过生物技术分析所取得的数据和由医疗活动产出的数据。本文的研究对象主要是指后者产出的生物医疗数据。根据实际情况,由医疗活动产生的科研数据一般来源于个体的医疗活动,与《健康医疗数据安全指南》附录A所列举的“个人健康医疗数据”①的大部分数据类型存在重叠。除特别说明外,“生物医疗数据”和“健康医疗数据”属于同义概念。

在医疗科研过程中常用的数据有三类,包括医学科研相关数据、医疗机构所采集的与个人有关的健康数据和个人接受医疗服务而产生的数据。从数据性质的维度,又可以将这些数据分为个人属性数据、健康状况数据和医疗应用数据三类。②根据《健康医疗数据安全指南》对“个人健康医疗数据”的定义,如果未经“匿名化”处理,则上述生物医疗数据属于可识别的个人信息,落入《个人信息保护法》的调整范围。

2010 年,原卫生部颁布了《电子病历基本规范(试行)》,2011年又发布了《电子病历系统功能规范(试行)》,推进以电子病历为核心的医疗系统信息化,规范生物医疗数据的收集、使用、保存、管理与共享活动。2018 年,国家卫生健康委员会发布了《关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知》,提出“推进系统整合和互联互通”。到2020 年,全国的三级医院基本实现了信息化诊疗服务的全覆盖,生物医疗数据在医院系统内实现了高度信息化。③虽然医院中也同时存在以其他方式记录的非电子化数据,例如纸质病历、胶片等,但非电子化数据一般都是电子数据的原始数据或衍生数据,并不构成一种新的生物医疗数据类别。

(三)生物医疗数据在医疗科研中的应用

在互联网、云计算、云存储等科技的发展下,数据与技术融合,形成了挖掘生物医疗数据背后的科研价值和科学规律的新的科研方法,进一步支持了对自然规律的研究及技术转化工作。[2]所收集的数据须达到一定的量而成为数据集或者数据库,才能形成一定的价值;再经过一定的智力活动,进行数据的清洗、异质数据的排除,形成结构化数据,才能形成价值较高的标的物。结构化的生物医疗数据库具有极高的医疗科研价值,医生、科研人员可以将其用于探索研究对象的机制、发表学术成果,建立数据模型,进行药物成分、生物材料、医用材料等高分子模拟,发现基因新序列,汇编整理后用于开发生物医用软件,等等,这些形成的成果大部分都属于可申请专利的范围。

(四)生物医疗数据的多重法律属性及其价值冲突

生物医疗数据虽然具有极高的科研价值,但在医疗科研中对其的处理和应用受到其法律属性的制约。首先,患者、医疗机构、第三方数据处理者对数据权属的认识和关注重点有明显的不同;其次,数据的人格属性制约着数据的处理与流通,且根据数据的财产属性,相关主体对数据享有一定的支配权[3];最后,医疗科研活动的公益性同样也影响着对生物医疗数据的合法利用。

1.生物医疗数据的人格属性较强。

生物医疗数据具有较高的隐私性与敏感性,其所承载着的人格利益比一般个人数据更高。如果个人的一些疾病、基因缺陷、病症等被他人知晓,会引起他人的恐慌、歧视,患者甚至可能被外界恶意攻击,对其人格尊严、人身安全造成侵害,这也会导致个人产生羞耻感和精神损害。

2.生物医疗数据具有财产属性。

一方面,从法教义学角度分析,生物医疗数据与其他载体结合,可以成为专利权、著作权的客体。在数字经济环境下,数据成为众多市场主体重要的经营资源乃至关键资产。[4]另一方面,生物医疗数据经过“保管人”——医疗机构——的收集、存储,再被医疗科研或服务机构加工,医疗机构或者处理机构均对其具有支配可能性和利益性,故其具备财产权益的基本条件[5];尤其是数据被采取消毒、整理、分析、可视化等手段而结构化后,其在形式和内涵上均转化为具有科学和经济价值的数据,故相关主体的智力劳动成果应当获得法律认可[6]。

3.生物医疗数据具有公益属性。

医疗科研本身就具有公益性。根据2011 年国务院发布的《关于分类推进事业单位改革的指导意见》,公共医疗机构为公益二类的非营利机构。医疗机构应当坚持公益性,承担人才培养、医学基础科研、医疗教学、公共卫生治理等任务。即使是营利性的医疗机构,只要将生物医疗数据用于医疗科研,则同样具有公益性。具备财产权益属性的生物医疗数据被研究人员汇编、清洗、重组、分析、总结等增值处理后,就成为有价值的资产,应当作为无形资产按照《行政事业性国有资产管理条例》和《国有资产评估管理规定》法律规范管理。

综上所述,生物医疗数据的多重法律属性注定对其运用会面临价值上的冲突和平衡:既不能以保护个人信息之名偏废生物医疗数据在医疗科研中的巨大公益价值,也不能因为对生物医疗数据的开发利用而忽视对数据所内涵的人格利益的保护。如何调和这种价值冲突?关键的问题在于,“去标识化”和“匿名化”同时作为数据“脱敏”的技术性措施和规范要求,这两者之间存在相当的模糊空间。如何在医疗科研领域提出更为准确的判断准则,在实现对数据价值的最大化利用的同时又能实现对个人信息的保护,这是值得探讨的问题。

三、医疗科研中之生物医疗数据处理的域内外规范分析

不同国家基于自身的国情,并不拘泥于对生物医疗数据采用“匿名化”处理方法,这样更便于数据流通,而经过处理的数据要达到“不具识别性”的程度才能在科研中被使用,在这一点上大多数国家的规定是趋同的。下文分析国内的法律规制冲突,并对其他国家和地区的生物医疗数据处理制度进行考察和审慎借鉴。

(一)国内的规范

我国对数据安全与个人信息保护的规则有很多,其中指导医疗信息数据加工、处理过程,保护数据安全的法律与规范,主要有《个人信息保护法》和《健康医疗数据安全指南》。根据《健康医疗数据安全指南》中6.2 对数据的分级划分,科研中对生物医疗数据的使用属于“较大范围内访问使用”,需要对数据进行“去标识化”处理,且不能识别到个人身份。《个人信息安全规范》(GB/T35273-2020)中第5.6 条k项规定,个人信息控制者为学术研究机构的,其出于公共利益而有必要开展统计或学术研究的,对个人信息进行“去标识化”处理后,可对外提供学术研究或描述的结果,此情况下可不必征得个人同意。“去标识化”处理后的信息可被用于科研已成为行业习惯,但是根据《个人信息保护法》的规定,“去标识化”的信息不等同于“匿名化”信息。如前文所述,只有经过“匿名化”处理后的信息才属于“脱敏”的数据,而仅“去标识化”的信息因为仍可能被复原并识别出个人,所以依然具有个人信息的属性。如果“不能识别到个人身份的个人信息”不属于“匿名化”信息,那么根据《个人信息保护法》第十三条,他人就需要得到个人的同意才能获取该信息。鉴于生物医疗数据中所包含的个人信息之琐碎,涉及到多个系统、多个科室、不同时间段,且医疗科研活动一般为探索活动,数据收集后的用途具有未知性,若事后再取得每个信息主体的明示同意,则工作量大、成本高,可能严重妨碍医疗科研工作的顺畅开展,因此如果不能调和医疗数据使用的行业技术规范与《个人信息保护法》中“去标识化”与“匿名化”处理的分歧,则将导致对生物医疗数据的使用存在违法的可能性。

(二)其他国家或地区的经验

域外其他国家或地区的法律中,除了有与域内类似的规则如遵守有限使用、目的明确、必要等数据收集的核心原则,注意个人信息的处理给个人可能造成的后果,要求在使用过程中采取加密、脱敏等保障措施外,对于医疗科研等基于非营利目的使用个人信息的限制显得更宽松。

例如,我国台湾地区的“个人资料保护法”第六条第一项第四款规定,统计或学术研究机构基于医疗、公共卫生或预防犯罪的目的,为统计或学术研究的需要而收集、处理、使用个人信息的,可以不告知个人或不需经个人同意,但只能披露无法识别特定当事人的信息。美国的《健康保险可携性和责任法案》(以下简称“HIPAA”)是规范个人健康信息使用的立法,其允许以科学研究为目的披露未经授权的去除了16种直接标识符的个人信息,前提是接收数据者与机构签订了使用协议,并提供了数据保护措施。[7]

HIPAA 认为切断以下18 种直接标识符,就能去除对信息主体的辨识要素,达到“不可识别”的规范要求。这些直接标识符包括姓名、具体的地理位置、与个人直接相关的日期、电话号码、传真号码、电子邮箱、社会保障号码、病历编号、健康医疗保险号、账户、身份证、驾照号码、车辆识别号、网址、IP地址、指纹和声音等生物识别信息、人脸照片影像等个人可识别信息。HIPAA 除了规定要去除上述18 种直接身份标识外,还要求数据处理者若无其他理由,不得从主观上尝试将信息单独地或者与其他信息结合地用于识别特定的人,以此来进一步保证个人信息的安全。[8]欧盟《通用数据保护条例》(以下简作“GDPR”)第八十九条,规定了用于公共利益、科学历史研究或者统计等目的的数据处理,可以通过“假名制度”(即用假名代码替换直接标识符)来实现保护数据的目的。同时,GDPR 也规定,无论是数据控制者还是数据处理者,均受到同等规制。[9]2022 年欧洲议会和欧盟理事会提出《关于欧洲健康数据空间条例》提案,利用“欧洲数字健康平台”所提供的服务,在GDPR规制下促进个人健康数据的自由流动。这一提案旨在促进欧盟电子健康数据的市场使用和推动对其的科学利用,目标是创建使研究人员,医疗设备、试剂、药品的开发商,公共卫生政策的决定者,跨境分析者等可以高质量地二次利用的电子健康数据,建立一个在医疗科研上使用个人信息而无须基于个人单独同意的高效数据治理机制。[10]

值得注意的是,美国允许在科研领域使用“与个人直接相关的日期”与“除前面列举的个人识别号码外,其他可唯一关联个人的号码”这两种个人直接标识符。具体到医疗科研领域,即可以使用时间类与医院编号等标识符。因此,在美国,“不具识别性”并不等于彻底的“去标识化”,也不等于彻底地无法重新识别个人的“匿名化”数据处理。再看欧盟的标准,在特定科研语境下,被“假名化”处理后的个人信息也可供科研使用,但这也并非彻底的“匿名化”处理。反观我国,根据《个人信息保护法》,在科研过程中使用个人信息,要么取得个人同意,要么对数据进行彻底的“匿名化”处理;否则,只要数据和个人存在联系或可能有识别性,在使用过程中就可能因为损害了个人对信息的同意权而构成侵权。[11]如果科研过程中对数据采取彻底的“匿名化”处理措施,会否损害数据内涵的丰富程度,限制从中提取有意义的科学信息,这有待下文论证。[12]在此之前,有必要在厘清医疗科研中使用生物医疗数据流程的基础上,精准识别具体情境,并以此指引生物医疗数据“匿名化”处理的程度性要求,平衡个体利益保护和医疗科研的公益属性两个价值目标。下文将分析医疗科研过程中使用数据的主要技术环节与存在的问题。

四、医疗科研中之生物医疗数据处理的技术环节与“匿名化”规则的不当制约

《个人信息保护法》规定,对敏感信息之使用的合法基础包括知情同意规则、其他合法规则和“匿名化”制度。所谓“知情同意规则”的时间过长及经济成本过高,“科研使用”这一行为亦没有落入所谓“其他合法规则”之使用的范围,因此利用生物医疗数据之最方便的合规途径就是“匿名化”处理制度。申言之,在使用生物医疗数据的提取、调用、分析、共享、发布等不同环节上,医疗机构主要根据上述两部法律规范与实际需求,采用侧重点不同的技术来处理数据,以满足使用需求与隐私保护的规范要求。

(一)从收集、存储到使用:“去标识化”对生物医疗数据使用的制约

从生物医疗数据收集、存储到使用阶段的保密管理皆极为复杂。就目前的生物医疗数据使用情况,医疗机构鼓励研究人员积极从数据中挖掘课题创新点,将其转化为有价值的科技成果,但又需采取一定措施来保护患者的个人隐私,因此大部分医疗机构采用对申请人所申请的数据备案、课题审核,并使用较简单的“去标识化”手段来处理生物医疗数据。

数据的使用阶段又可进一步细分为数据的提取和数据发布阶段。数据的提取者一般为医生或者医疗机构的科研人员。他们可以通过科室向信息科申请一个只有浏览权限的账号,登录数据的存储系统后,查看医院的电子病历系统,根据自己的课题寻找相关病历,记录下病历号或者所需的信息类型和数据库字段,再向统计与数据管理办公室和临床研究中心申请,申请人需要填写项目名称、数据内容、数据使用时间,并要签署保密承诺书。待行政审批通过后,统计与数据管理办公室会通过系统调取去除直接标识符后的数据。例如,对出生日期采用了泛化技术后,所得到的结果只有年龄;对地址信息没有特殊要求的,系统会将其泛化到区或者市,保证覆盖的人群在2万人以上。除此以外,其他的检验结果,遗传史,病情或者手术描述,基因片段数据,病历中所描述的详细的生理状况(例如切除范围、病灶点、生理指标等没有办法作其他修改的图片影像),以及泛化、抑制后不准确的数据,无法处理或者确定需要原始数据的,只能有条件地提供给数据申请者;使用这些数据的项目还需要得到伦理批件,即经过伦理委员会对申请者的研究目的、研究人员名单、实验技术等审查后,这些数据才能被发送到申请者的公务邮箱。换言之,医疗机构在以科研为目的内部传输数据过程中,尤其强调数据申请者对数据安全的保存义务,例如采取存储妥当、管理到位、杜绝未授权的第三方访问等有效措施。但如前所述,《个人信息保护法》生效后,明确了“去标识化”信息仍为个人信息,对数据的提取、调用和二次使用,已改变了收集数据的最初目的,因此是否需要重新获取当事人的同意存在争议。

(二)发布前的阶段:“去标识化”的生物医疗数据被再识别的风险

根据《健康医疗数据安全指南》,对生物医疗数据进行“去标识化”的加工处理后可将其公开共享,但科研数据存在被重新识别的风险,这可能违反《个人信息保护法》。基于生物医疗数据的特殊性,具有一定科研价值的数据本身常常包含了较为敏感的个人信息。如果在研究中过多使用“去标识化”的技术手段,会影响数据的科学价值、影响科学统计的准确率、引起计算结果偏差,从而失去科学的真实性。[13]也有实践表明,患者的出生年月、性别、基因组数据、宗教信仰、罕见病等间接标识的数据组合有被重新识别的风险。[14]例如,2019 年底新冠病毒在武汉传播期间,某科研团队就发表了关于发现新冠病毒的论文,文章里面含有病人的编号标识,也提到病人来自武汉的医院,有入院日期、收样品日期、检测日期和是否去过华南海鲜市场等信息。[15]这种数据虽然删除了可被直接识别的信息,但是还存在数个间接标识符,是否有被重新识别的风险?答案是肯定的。事实上,该类文章也在科学界引发了广泛的关注,最开始的部分患者也被网民“人肉”出来。虽然这种识别不一定是借助了文章上的信息,也可能聚合了网络上的各种信息,但不可否认的是,这些间接识别的信息是调查类的医学论文的重要内容,是支撑结论的必须证据。因此,对于样品量少的流行病学的医学论文、在公开会议上或者论文中分享罕见病患者的治疗成功或失败的案例,包括其照片、影像资料、个体化治疗参数等,如果按照《个人信息保护法》所规定的对个体化数据的“匿名化”要求进行处理,就可能会失去数据的科学价值。为了平衡个人信息保护和医学研究的公共价值,在科研过程中对生物医疗数据的“匿名化”处理要求应当尊重科研活动的内在规律。

(三)机构合作的环节:“匿名化”技术处理与合同的规制

医疗机构与国内高校、企业、院外机构等合作开展医学研究是使用生物医疗数据的常见场景。医疗机构合作研究的方式一般是资源互补、技术互助、互利式合作,包括技术委托、共建大数据平台等,一般以合同规制合作行为;合同中除了明确知识产权等权益分配外,还包括合作的内容、工作人员、合同目标、风险等内容,但鲜有对数据的安全提出要求和管理的内容。虽然《健康医疗数据安全指南》附录E3有机构间在科研和医疗保健业务方面的数据使用协议模板,通过“一般性规制+列举”的方式落实数据安全义务和保密措施,但该协议侧重于规定数据处理活动的安全性,并未涵盖数据安全风险防范的全部标准,并不完全符合《个人信息保护法》的法定原则,故实务中少见实际签订与落实此类协议的情况。

总体上,可以将上述环节划分为医疗机构内部处理环节和对外合作环节。为提高处理数据的效率,提高医疗质效和医疗科研的学术价值,可以在医疗机构内部存储和使用环节降低对数据处理的要求,即在医疗机构内部,医生、科研人员出于临床调查、科学研究、医院管理目的调阅数据时,应保留尽量多的数据类型,采用医院ID 号码替代姓名,删除身份证号、医保号等直接可识别信息,就足以兼顾个人信息安全和数据利用价值。在对外合作环节,目前保护数据安全的最佳解决方案仍是合同约束与采取合规的技术措施。[16]当数据需要外发时,医疗机构应以协议方式约束数据处理机构的行为;且应当在《个人信息保护法》框架下制定协议,针对保护对象,详细列举数据处理规则,使协议更具操作性。其具体完善的建议将在下文讨论,这里先辨析在医疗科研环境下,“匿名化”与“去标识化”处理的具体技术及其区别,尝试为生物医疗数据在医疗科研过程中的合理合法使用提出可能的解决思路。

五、医疗科研中生物医疗数据之使用的“匿名化”规范辨析

根据《中华人民共和国网络安全法》(以下简作《网络安全法》)第四十二条,向他人提供的个人信息必须是“经过处理无法识别特定个人且不能复原”的个人信息,即《个人信息保护法》第七十三条所指的“匿名化信息”。被“匿名化”后的信息不但可以满足科研需求,还可被商业性利用,甚至可以被多次利用。但是如前所述,彻底的“匿名化”将导致信息内涵的学术价值被极大削弱,甚至可能使其丧失科研价值。“匿名化”程度与数据实用性成正相关,但也非线性关系。[17]为了使生物医疗数据在医疗科研过程中被合规流转,实现医疗科研的公共价值,同时又最大限度地保护个人信息,就要辨析“去标识化”和“匿名化”处理的边界,探索在医疗科研的特定语境下,何种程度的“去标识化”可被认定为符合“匿名化”处理的要求。

(一)“匿名化”是“去标识化”的最高级形态

《个人信息保护法》定义了“匿名化信息”,但是未对“匿名化”的具体操作给出详细指引,也未制定配套的关于“匿名化”的技术规范。2020 年,《个人信息去标识化指南》(GB/T37964-2019)实施,但其中却未明确何种程度的“去标识化”足以达到“匿名化”效果。《个人信息保护法》也未针对生物医疗类特定信息的使用制定技术指引。此处先讨论“匿名化”与“去标识化”技术的异同。第一,从技术的设计目的来看,“去标识化”技术的主要使用对象是有敏感属性的信息。这可以使处理后的数据不具有泄露个人隐私的可能性。“去标识化”还能降低重新标识或复原信息的风险。第二,从技术手段来看,“去识别化”和“匿名化”的技术存在较大的重叠区间。“去标识化”的方法有统计,加密,抑制,泛化,假名,等等。现有的去标识化模型有k-匿名,L-多样性,差分隐私,等等。[18]匿名模型有k-匿名,L-多样性,T-接近,等等。使用信息的方法包括假名化,加密,抑制,屏蔽,泛化,统计,等等。[19]总的来说,从技术角度看,“匿名化”也就是最高层级的“去标识化”——被“匿名化”的个人信息是穷尽所有技术也不可能被重新识别的信息,可转变为不受到《个人信息保护法》调整的“匿名化”数据。第三,从法律定义上讲,《个人信息保护法》中“去标识化”是指对个人信息进行处理,使他人在不借助额外信息的情况下无法识别特定自然人的过程。因此,防止“去标识化”的个人信息被重新识别,就要采取一定的保障措施,将额外信息分开存储。相应地,运用“去识别”技术时可以采取保序加密、同态加密、独立于标识符的假名创建等技术,通过私钥权限和解密运算等法则,重新识别个人信息。而“匿名化”过程则是不允许存在可以重新识别个人的辅助信息的,也不能使用加密、假名这类可逆的“去标识化”技术。

欧盟《关于匿名技术的意见》主要从三个维度考虑“匿名化”技术的稳定程度:筛选、关联和推断。[20]GDPR 第二十五条为数据处理的合理可能设定了标准,包括处理的时间和费用的成本、现行的处理技术、未来的“去匿名”技术等客观因素,而且规定了数据处理者和控制者有列举能直接或间接识别自然人的一切“所有、可能、合理”的手段的义务。因此,欧盟的“匿名化”标准是要达到通过“匿名化”信息不能重新识别个人的程度,同时对数据处理者或者控制者施加了很重的信息管理义务。所选取的“匿名化”模型不但要考虑当前,也需要考虑未来,防止他人对信息进行重新识别,更加注重技术的有效性。对于法律意义上的“非个人信息”的判断,部分国家只强调通过去除标识而使信息丧失个人识别性,并不一定要对其进行“匿名化”处理。在美国,HIPAA 使用“去身份化”手段来保护个人健康隐私信息,经过“去标识化”处理的个人健康信息不再受HIPAA的约束。被称为“美国有史以来对消费者隐私保护最全面”的《加利福尼亚州消费者隐私保护法案》规定,个人信息不包括“去标识化”信息或聚合的消费者信息。其1798.145(a)(5)条规定,企业可收集、使用、保留、出售或披露已“去标识化”的消费者信息。相比而言,美国更强调数据的流通价值,其“去身份标识”的制度比欧盟的“匿名化”制度在技术认定上更宽松。

我国在“匿名化”问题上与欧盟有较相似的制度,都对数据控制者或者处理者课以较重的个人信息保护义务,对“匿名化”技术的要求很高。我国的《个人信息去标识化指南》和《个人信息安全影响评估指南》(GB/T 39335-2020)(附录A 中A4)与欧盟的《关于匿名技术的意见》对于“匿名化”和“去标识化”技术效果的判断标准相似,均强调能否通过额外信息“分选、关联和推断”而重新识别个人信息。“分选”是指能在群体中分选出特定信息主体;“关联”是指通过相关信息关联到信息主体;“推断”是指通过不同的信息准确地推断出与信息主体对应的其他属性。如果存在上述任何一种情况,那么该个人信息就未达到“匿名化”的效果。[21]我国还有与美国“专家判断标准”相类似的标准。《个人信息安全影响评估指南》中制定了对数据控制者或者处理者负有的个人信息安全监督、检查、评估义务的参考指标。相对于“去标识化”,《个人信息保护法》规定的“匿名化”的重点在于“无法识别”和“无法复原”。按照这个语义,“匿名化”的效果是“去标识化”达到“无法识别到个人+不存在额外的信息可以识别数据主体”的程度。

然而,上述“匿名化”的标准过于理想化,且在操作层面上未必具有可行性。彻底的“匿名化”可能严重影响医疗管理和医疗科研的效率和效果。根据现有研究,即使去除了额外信息,只要信息聚合到一定程度,也仍然存在关联到具体个人的可能性。[22]“匿名化”强调“穷尽一切技术都不能识别到个人”,但是从“去标识化”到“匿名化”的量化标准却不明确。具体到医疗领域,基于诊疗过程获得的个人信息,经过彻底“匿名化”处理后,形成特定的生物医疗数据库,只要诊疗过程中的个人信息库仍然存在,就能通过简单的数据比对技术,将生物医疗数据库中的数据与诊疗个人信息库对应后还原到具体的个人。显然,出于医疗管理的目的,不可能在对诊疗信息做彻底“匿名化”处理后就彻底删除诊疗信息库。因此不可能实现生物医疗数据的彻底“匿名化”。为了实现价值平衡,应对医疗科研中使用生物医疗数据的“匿名化”标准做限缩解释。

(二)“匿名化”标准的限缩解释

我国对生物医疗数据的应用前提和安全保障问题更加谨慎。《健康医疗数据安全指南》10.2建议,经过《个人信息去标识化指南》“去标识”模型处理的数据只被用于受控公开共享或领地公开共享。对用于医疗科研目的的区域性的开放式使用,该指南列举了数个经典的点对点的数据交换场景,但并未针对如世界卫生组织死亡数据库、美国癌症基因组图谱数据库(TCGA数据库)、美国SEER数据库、欧洲Orphanet罕见病数据库等类似数据库提供具体的操作流程。国内众多研究者希望在国内医疗科研领域也建立类似的公开或者半公开数据库,并围绕这类数据库,制定统一的数据安全与隐私保护规范。以这种公共数据库的形式建立生物医疗数据处理者的责任“护城河”,不失为一种可行的途径。虽然进入公共数据库的信息可能与数据库外的其他信息结合,重新关联或推断出具体个人,但这已足以实现在一般情境下的信息“脱敏”效果。

笔者认为,针对生物医疗数据可以在“分选、关联和推断”三个维度内建立“去标识化”标准,并对“匿名化”标准作限缩解释;而其中关键一点,在于区分直接标识与间接标识,并在一定程度上允许在“匿名化”数据中留存间接标识符。

在生物医疗科研领域中,研究人员要通过获取符合生物医学统计学的数据样本量,对数据进行统计分析,以解释、验证、预测疾病的发生发展。可靠的结论与数据类型和样本数量密切关联,不同的数据类型和样本数量又直接影响通过间接标识符重新识别生物医疗数据的可能性。目前生物医疗领域除对“能单独识别个人的信息为直接标识符”存在共识外,对于需要结合其他信息才能识别个人信息的“间接标识符”的范围尚存在争议。对间接标识符的判断标准随着使用背景的变化而发生改变,受到数据样本量的大小、类别与性质等的影响。[23]《健康医疗数据安全指南》附录G用列举的方式,规定了哪些数据类型为间接标识符,这些间接标识符大致分为四类:时间类,地理位置类,医疗机构编制的识别码和少数人有的生物学特征。这可以作为一种数据类型的参考标准。个人信息“可识别”的关键就在于对直接标识符和间接标识符的判断。去除了直接标识符就相当于去除了识别个人信息的大部分要素,经过泛化处理后的间接识别符的可识别性也被大大削弱。在司法实务层面上,间接识别信息并不被认为是个人信息。2018 年的“淘宝诉美景不正当竞争案”中,法院认为,经过“匿名化”处理后,用户进行浏览、搜索、收藏、交易而形成的行为痕迹信息,即使可以从中推导得出行为人的性别、职业、区域及偏好等信息,也均属于“无法单独或通过与其他信息相结合”而识别自然人个人身份的“匿名化”信息。④2015年的“北京百度网讯科技有限公司与朱烨隐私权纠纷案”二审中,法院认为,cookies 没有与用户身份相匹配,无法确定信息的归属主体,因此不是个人信息。[24]法院通常认为,去除直接识别信息且使用间接信息无法指向特定主体的信息是已“匿名化”处理的信息。如前所述,生物医疗数据中可能被界定为间接标识符的信息内容,也恰恰可能是具有较高学术价值的信息,一旦将其抹除,则可能显著影响医疗科研的效果。

照此逻辑,应按照“去除直接标识符”和“泛化间接标识符”两个步骤判断生物医疗数据是否已经达到“匿名化”标准,而不应采用严格、彻底的“去标识化”标准。当然,上述标准依然受到具体样本类型和数量的影响,如果是特殊个体检测研究、样本量稀少的群体研究等科研活动,由于数量较少导致数据的间接标识强、容易引起大众对该群体关注,此时则应当采取更为严格的去除间接标识符的标准。[25]即使对“匿名化”标准做如上限缩解释,在如前文所述新冠肺炎暴发期间这种紧急情况下,这种标准依然可能导致医疗科研的学术性和公益性受到严重约束。鉴此,在紧急情况下,患者的同意规则也应从“单独同意”调整为“泛知情同意”。

(三)“泛知情同意”规则对“匿名化”规则的兜底调适

保障个人的知情同意权是使用医疗数据的伦理要求。生物材料、医疗数据的使用一般需要获得患者的泛知情同意授权书。“泛知情同意”具有开放性,患者知情同意的内容一般被高度概括为“患者的生物材料和医疗数据可能会在未来被用于科研”,但是科研的具体内容、使用的限期、是否具有知识产权收益、后续是否商业化等细节并没有被列出。“泛知情同意”与《个人信息保护法》的第二十九条、第三十条规定的“处理敏感个人信息告知同意规范”有一定的区别,但是《个人信息保护法》中对“知情”的规定并不适用于医疗科研中的生物医疗数据使用,尤其是在发生类似新冠疫情的紧急情况下。[26]基于此,针对医疗科研数据的使用,应当允许在特定情况下以“泛知情同意”替代“单独同意”,降低“匿名化”处理的要求。

六、“匿名化”规制下生物医疗数据处理制度之完善的路径

如前文讨论,《个人信息保护法》规定“匿名化”处理后的个人信息属于“数据”的范畴。但在医疗科研的场景下,这一规定缺乏可行性,且无法使生物医疗数据发挥最大的学术价值。为调和价值冲突,在医疗科研领域中更好地适用“匿名化”处理规则,笔者从实务层面提出如下完善路径。

(一)建立科研用途之“匿名化”处理的特别规范

如果在最严格的意义上适用《个人信息保护法》第四条,将彻底的“不可识别”作为数据“匿名化”处理的判断标准,将导致生物医疗数据丧失或部分丧失其重要的科研学术价值。生物医疗数据是一种对人类健康具有科学意义的数据,降低对科学数据“匿名化”的要求,有利于维护正常的科研活动,使科研工作者免于陷入违法的困境。科学数据作为创新发展的重要资源,有助于促进科学探索活动,推动认知,推动生产力进步,最终推动经济社会发展。例如,2016 年国务院办公厅印发的《关于促进和规范健康医疗大数据应用发展的指导意见》提到,国家鼓励和支持医疗数据共享;2018年国务院办公厅印发的《科学数据管理办法》旨在更好地管理科学数据,保障其安全,提高其开放共享率;2021年《科学技术进步法》(2021 年修订)第一百零二条提出,要建立科学技术数据库,并根据使用制度安排使用。为实现数据的科研使用价值,对于医疗科研中使用生物医疗数据的情况,不应盲目扩张“可识别性”“相关性”的外延,夸大潜在的间接识别对个人关联的可能性。[27]平衡个人信息保护与科技数据利用之间的冲突,建立较低要求的“匿名化”处理信息的管理和法律制度,减少合规存疑性对科研工作的干预,是促进数据利用和开放共享的重要手段。

(二)建立“去标识化”分级制度

如前文所述,在处理生物医疗数据的不同环节,出于平衡个人信息安全和医疗管理与科研效率的考虑,应当对其采用不同的“去标识化”技术。但目前我国《个人信息保护法》和一系列行业技术规范对于“去标识化”的规定尚不够明晰,尤其是没有针对不同处理场景规定不同层次的“去标识”技术规范。2019年全国信息安全标准化技术委员会发布的《信息安全技术个人信息告知同意指南(草案)》主要解决个人信息保护中告知与同意的问题,其中第六条列举了在学术研究的情形下可使用“去标识化”信息来免除告知义务。2023 年3 月,国家市场监督管理总局和国家标准化管理委员会发布了《个人信息去标识化效果评估指南》(GB/T 42460-2023),该指南旨在对不同程度的“去标识化”的个人信息进行评估,但仍无法解决其法律效果的差异。诚然,在机构内部使用生物医疗数据,用于提升医疗技术、科学发现、产出公共产品,做有利于公共利益的研究时,“去标识化”信息的使用与个人利益的矛盾还不算突出。但是学术机构的研究人员开展以产业应用为目的的商业性科研时,数据使用就具有偏私性,此时数据可能会外流到企业,“去标识化”标准就有待调整。根据科研目的,科研行为可以分为三种:以探索科学规律为目的的研究,政府资助以产出特定的公共产品目的的研究和商业性质的研究。[28]如果对不同类型的科研行为均使用同样的“去标识化”标准,有失公允。

据此,首先应当尽快明确“去标识化”的概念,针对不同类型的医疗科研行为,设计出能够在技术上确定特定级别的“去标识化”规范,尤其是要明确“去标识化”可被视为“匿名化”的特定情形。其次,应当细化科研领域内“去标识化”的使用标准,尤其应当重视对“数据使用范围”和“是否具有商业属性”两个维度的考量。他人的使用目的直接影响个人授权同意他人处理其个人信息的意愿。[29]最后,应当区分“可识别个人身份的信息”与“体现个人生理健康状况的信息”,不能因为有可能通过个人生理健康状况推测或关联到具体个人,便一概将个人生理健康状况的信息归类为个人身份识别符。[30]具体而言,应当根据数据属性、数据类型及其与个人身份的关联性,制定分层次的“去标识化”标准。其分级如下:第一类,个人属性数据,即直接标识符,包括个人统计信息(如住址、出生与死亡日期),个人通讯信息,个人生物识别信息(如基因、指纹)等个人唯一的可识别身份数据;第二类,健康状况数据,如年龄、个人所在区域、人体体征数据、病史,等等;第三类,医疗应用数据与支付数据,即医嘱、用药信息、出入院记录、支付记录、保险等;第四类为公卫数据。根据数据与个人身份关联层次的不同和使用环境的不同,制定不同等级的“去标识化”处理标准,避免在科研领域内采用“一刀切”的“去标识化”标准,损害生物医疗数据内在的科研价值,更好地平衡数据使用便利性和数据安全之间的冲突。

(三)完善机构间的合作合同

合同是约束数据控制者与使用者数据利用行为的基本形式。通过合同形成宽严适宜的数据保护条件。对此,应当重视以下几点:第一,数据控制者在接受合同约束的同时,应当遵守《个人信息保护法》的数据处理原则。数据“去标识化”的质量对数据安全尤为重要。数据离开收集机构时,数据控制者应遵循“最小授权”原则,提供数据细粒度访问控制机制。第二,由于生物医疗数据为敏感数据,在合同里应明确数据泄露的通知义务、可控措施、挽救方法、给予数据本体的补偿方案等内容,并约定各方的责任。第三,依据《健康医疗数据安全指南》,医疗机构对外输出的数据应当首先做“去标识化”处理。由于“去标识化”与“匿名化”的技术存在模糊空间,医疗机构的“去标识化”意味着《个人信息保护法》对数据控制者的责任要求转移到了后续的数据处理者身上,这可能是制约合作的瓶颈。第四,合作单位应具备更多的注意义务。合同应明确在何种情况下,对敏感信息的传输加工仍应当重新获得患者的同意。

(四)建立生物医疗数据处理的伦理审查机制

2016 年施行的《涉及人的生物医学研究伦理审查办法》侧重于审查医疗活动对受试者的个人权益的影响,包括知情同意、隐私保护、特殊保护、风险控制、补偿与依法赔偿。2023年2月国家卫生健康委、科技部、教育部联合发布的《涉及人的生命科学和医学研究伦理审查办法》(以下简作《审查办法》)在生物医疗数据使用方面明确了两个问题:第一,把“敏感”的和“用于商业”的生物医疗数据纳入医学伦理审查范围,明确伦理委员会对此负有管理义务,但是可免除对“匿名化”信息的伦理审查。该规定更突显出构建基于科研用途的信息“匿名化”处理规范的必要性。第二,《审查办法》第二十八条规定,伦理审查范围包括医疗数据的处理行为是否符合隐私保护要求。随着个人信息保护制度的完善,伦理委员会要对项目中对医疗数据“脱敏”的合法性和合理性进行审查,应当重视对医疗信息处理的技术方案的风险控制、科学研究的效益等方面的审查。同时,应当制定关于数据使用的审查手段、审查的时间节点、审查结果的公示等指引与规范。伦理委员会需要对科研成果的内容是否存在被重新识别的可能性进行评估,在维护医疗科研学术价值的同时,恰当保护患者的充分知情与选择权。

七、结语

新冠疫情暴发后,生物医疗数据的学术与公共卫生价值获得了高度重视。为了提高医疗科研中处理生物医疗数据的学术有效性和法律规范性,提出不应当机械适用《个人信息保护法》和《数据安全法》中由“去标识化”规则、“匿名化”规则等组成的个人信息保护制度,而应当以“匿名化”制度为核心,精准识别不同场景下或每个流程环节中的具体情境,并以此指导生物医疗数据“匿名化”的处理,形成分级规范,平衡“个体利益保护”和“公益利益维护”两个价值目标。

注释

①个人健康医疗数据包括:a)提供健康医疗服务时登记的个人信息。b)出于健康医疗目的,例如治疗、支付或保健护理等,分配给个人的唯一标识号码或符号等。c)在向个人提供健康医疗服务过程中采集的有关个人的任何数据,例如既往病史、社会史、家族史、症状和生活方式等各类病历记载的数据。d)来自身体部位或身体物质,例如组织、体液、血、尿、便、气体,以及DNA、RNA、蛋白质等生物大分子、代谢小分子、肠道微生物等检查或检验的结果数据。e)可穿戴设备采集的与个人健康相关的数据。f)接受的健康医疗服务相关数据,例如检验检查医嘱、诊断、操作、药物、医疗效果,等等。g)为个人提供健康医疗服务的服务者身份数据。h)关于个人的支付或医保相关数据。i)医学科研相关数据,例如临床研究病例数据、生物样本库、全基因组等多种生物组学测序结果、医学相关队列研究结果,等等。j)公共卫生与预防医学数据,例如疾控中心、公共卫生管理部门收集的疾病卫生监测个人数据。k)妇幼保健数据,例如妇幼保健院、医疗卫生机构等收集的妇幼保健服务与健康管理数据。

②健康医疗数据可分为六类:a)个人属性数据;b)健康状况数据;c)医疗应用数据;d)医疗支付数据;e)卫生资源数据;f)公共卫生数据。详见《健康医疗数据安全指南》第六章第一节数据类别范围。

③参见《关于进一步推进以电子病历为核心的医疗机构信息化建设工作的通知》(国卫办医发〔2018〕20 号),“三、不断加强电子病历信息化建设。(三)推进系统整合和互联互通。”

④浙江省杭州市中级人民法院2018浙01民终7312号民事判决书。

猜你喜欢

保护法个人信息生物
我国将加快制定耕地保护法
生物多样性
如何保护劳动者的个人信息?
个人信息保护进入“法时代”
生物多样性
上上生物
未成年人保护法 大幅修订亮点多
第12话 完美生物
警惕个人信息泄露
聚众淫乱罪的保护法益及处罚限定