涉及健康医疗大数据研究的伦理审查问题思考
2021-04-03谢小萍何晓波高雅洁
谢小萍,何晓波*,高雅洁,李 卫
(1 浙江医院伦理办公室,浙江 杭州 310030,920628092@qq.com;2 浙江医院图书馆,浙江 杭州 310030)
近年来,随着云计算、物联网、虚拟现实、基因测序、人工智能、机器学习等新兴技术的快速发展,加速了与健康医疗的融合,健康医疗大数据得到了蓬勃发展,正在成为国家重要的基础性战略资源。然而,作为新兴事物的健康医疗大数据,现有针对性的法律法规还没有跟上大数据时代的步伐。数据采集、存储、挖掘、应用、运输、传输、共享等多个环节中的安全和管理问题使得传统的隐私保护手段、知情同意程序遭遇困境,数据所有权问题、资源分配的公平性问题、政府的监测和管理等问题,迫切需要对健康医疗大数据进行伦理治理[1]。我国现行的伦理审查法规可能无法涵盖涉及健康医疗大数据研究提出的伦理和管理要求,对相关伦理问题的实际审查工作缺乏可操作化的审查标准和程序。因此,本文通过对国内外相关法律法规、文献等资料进行研究,对涉及健康医疗大数据研究的伦理审查问题进行探讨,为促进涉及健康医疗大数据研究的伦理审查规范提供一定的借鉴。
1 健康医疗大数据的概念及特点
1.1 健康医疗大数据的概念
大数据概念的提出,可以追溯到20世纪80年代。传统意义上的“数据”,是指“有根据的数字”,但在进入信息时代之后,“数字”二字的内涵在不断扩大,不仅指代“数字”,还统称一切保存在计算机中的信息,包括文本、声音、视频等。具体多大的数据才能称为“大”,尚无明确定义。一般认为,大数据的数量级应该是在“太字节”(240)的,常规的软件工具难以捕捉、存储、管理和分析[2]。因此,目前有关健康医疗大数据的定义不一。根据2018年9月国家卫健委发布的《国家健康医疗大数据标准、安全和服务管理办法(试行)》中对“健康医疗大数据”的定义,认为健康医疗大数据是指“在人们疾病防治、健康管理等过程中产生的与健康医疗相关的数据”。主要包括各级行政机关以及具有公共管理和服务职能的事业单位,在依法履行职责过程中获得的公共健康医疗数据资源,以及社会组织、企业等其他组织和社会公众通过信息技术手段产生的健康医疗数据资源,是覆盖全员人口和全生命周期、涉及国家公共卫生、医疗服务、医疗保障、药品供应、计划生育和综合管理业务等领域的极大量数据。有学者基于国内万方数据库的研究发现,中国有关健康医疗大数据的研究最早始于2013年,并之后呈现出逐年迅速增长的研究态势[3]。
1.2 健康医疗大数据的特点
大数据具有体量大、多态性、时效性、冗余性等特性,并且难以用传统数据体系结构进行有效处理的数据集[4]。健康医疗大数据除具有以上特点外,还因其包含健康、疾病、基因等敏感信息,隐私性强,一旦泄露直接关系到个人的人格与尊严。同时,早期大量数据来源于人工记录,不同医疗机构采用各自标准不一的电子病历等信息系统,导致数据记录的偏差和残缺、医疗数据散落在各个系统中,使得医疗数据库难以对任何疾病信息全面反映,具有不完整特性。
健康医疗大数据根据数据内容特征可以分为个人信息数据、健康状况数据、健康管理数据、临床诊疗数据、费用支付数据、卫生资源数据以及运营管理数据等,即健康医疗大数据不仅包含基本人口学资料,如姓名、住址、身份证件号码、电话号码、照片、基因、指纹等个人基本信息;还包括在人的生命、生活、生产过程中产生的与健康管理和临床医疗相关的既往病史、生命体征、诊断信息、处方信息、检验信息、检查信息、手术麻醉信息、随访信息、用药信息、交易信息、保险信息等通过医疗机构、诊所、药店产生的数据[5];也包括医药、医疗器械企业及经营商、高校科研院所、政府管理部门产生的药品、器械及耗材等流通交易数据、医药研发数据、临床科研数据、综合管理信息数据等。健康医疗大数据也可根据数据形态特征分为结构化数据、半结构化数据和非结构化数据,即不仅包括可以使用关系型数据库表示和存储的数据;以及以树或者图的数据结构存储的数据,还包括没有固定结构的数据,如各种文本、符号、图表、视频和音频等。当个人的健康医疗数据被医疗机构、政府、科研院所、医药公司、第三方系统维护和开发公司等众多组织记录时,一旦数据被别有用心者利用和整合、预想不到的披露,个人的隐私和尊严将不可避免地受到侵害[2]。
2 涉及健康医疗大数据研究的主要伦理审查难点
涉及健康医疗大数据的研究一般是由医院、学术研究机构、政府行政管理部门和企业发起的以确认药物、医疗器械、医疗信息系统、生物三维打印技术、医用机器人等产品或技术诊疗的安全性和有效性为目的的研究。既包括回顾性研究,也包括前瞻性研究。可以是由医生、医院、企业等自行发起或是由政府批准立项的研究项目,也可以是以社会公共利益为目的或以商业利益为目的的研究项目。根据涉及健康医疗大数据研究自身特点,其主要伦理审查难点包括国内现有法律法规规范不足、伦理治理原则尚存争议、传统审查模式遭遇困境等。
①国内现有法律法规规范不足。
2014年,大数据首次写入中国政府工作报告,从此逐渐成为各级政府关注的热点[6]。虽然我国目前已初步建立了传统数据量级中与个人信息和隐私权保护有关的法律体系,涉及的法规内容可以散见于《执业医师法》《护士条例》《传染病防治法》《医疗机构病历管理规定》《人类遗传资源采集、收集、买卖、出口、出境审批行政许可服务指南》等领域,包括民事、刑事和行政法律体系,但这类法律体系对涉及健康医疗大数据研究的规约缺乏全面性、系统性和专门性[7]。2014年5月,原国家卫计委为加强数据监管,严格保护个人隐私,出台了《人口健康信息管理办法(试行)》,提出“涉及保密信息和个人隐私信息,不得对外提供”[8]。随后,国务院办公厅为加快构建大数据发展和应用,相继出台了《关于运用大数据加强对市场主体服务和监管的若干意见》《促进大数据发展行动纲要》《关于促进和规范健康医疗大数据应用发展的指导意见》。2016年11月,全国人民代表大会常务委员会通过的《中华人民共和国网络安全法》,是我国首部综合系统地规定了个人信息保护的法律,但规定较为笼统,对涉及健康医疗大数据研究方面的伦理治理专业性并不高。2017年12月,全国信息安全标准化技术委员会发布了《信息安全技术个人信息安全规范》等23项国家标准正式发布。其中,《信息安全技术个人信息安全规范》(GB/T35273-2017),作为国家推荐标准于2018年5月1日正式实施,其内容对个人信息收集、储存、使用以及处理等做出了明确要求,并提出了个人信息安全基本原则,是目前对个人信息安全相对比较完整的规定[9],但作为国家推荐标准,并无强制执行和监督的能力。2018年9月,国家卫健委发布了《国家健康医疗大数据标准、安全和服务管理办法(试行)》,明确了各级各类医疗卫生机构和相关企事业单位是健康医疗大数据安全和应用管理的责任单位[10],但多数法规条款都属于基础原则性条款,对个人信息安全保护只能起到框架性作用,缺乏针对性可落地执行的操作性。同年,《个人信息保护法》和《数据安全法》被列入十三届全国人大常委会立法规划,目前尚未正式颁布。因此,目前我国尚未出台针对健康医疗大数据研究的专项法律法规、配套政策及监督机制等,造成数据研究准入与退出机制未建立、数据挖掘应用与共享开放的管理制度缺乏、数据的归属权与使用权不明确等问题,制约了我国健康医疗大数据研究的健康发展[11],需尽快研究制定大数据伦理规范等约束性法规,对大数据技术的发展加以规范。
②伦理治理原则尚存争议。
由于健康医疗大数据研究所涉及的云计算、机器学习、人工智能等新兴技术,人们对其可能产生的伦理问题认识滞后,对涉及健康医疗大数据研究的伦理治理原则尚存争议,目前学界尚未形成统一、公认的治理原则。一些学者认为大数据技术所引发的伦理失范主要表现在人们对信息的过分依赖和盲目崇信,使主体丧失了控制信息的能力反被信息所奴役、控制的信息异化,个人或组织对数据所拥有的占有权、使用权、支配权、知情权等数据权利,信息隐私,以及不同地域和不同群体对社会信息资源占有、使用、收益、分配过程中的地位、权利和机会存在的显著差距即数据鸿沟等方面,提出大数据的伦理治理原则应为人道、无害、统一、公正、共济[12]。一些学者则认为随着海量相关关系的过度分析将造成人类社会结果预判挑战自由、隐私披露挑战尊严、信息垄断挑战公平、固化标签挑战正义的伦理困境,亟待健全以尊重原则、橡皮原则、无害原则、可持续发展原则等为核心的后现代数据伦理体系,其中橡皮原则提到任何人应当享有在既定条件下“擦除过往”,重新出发的权利[13]。还有一些学者认为互联网医疗大数据存在元数据信息泄露、大数据所有权问题,应从隐私、对共享信息的保密原则、透明度和身份四个层次的伦理原则进行规范[14]。
③传统审查模式遭遇困境。
涉及健康医疗大数据的研究,不同于传统生物医学研究,其研究对象主要是关于人的数据。因其包含人在时空两个维度上的“全息”数据,并在信息量级上达到常规软件工具难以捕捉、存储、管理和分析的规模,数据从产生、收集到应用,涉及多个责任主体。通常情况下,其责任主体可能来自不同科室、医疗机构、行业,甚至地区,不同于传统以机构为单位开展的医学研究,很多发起研究的医护工作者对大数据的算法和分析处理技术掌握有限,往往要依赖于掌握算法和计算机技术的数据工程师,如何划分研究责任,实施伦理监督将不同于传统研究,数据资源自身的易流转性,使得数据传输链条中的源头、中介以及使用者之间明确责任分配的难度倍增,数据收集、分析、决策过程的不透明,导致由此产生的偏见、歧视、对自主权的隐私权等权利的侵害难以进行界定和追责。同时,涉及健康医疗大数据的研究其潜在的价值在于利用数据挖掘和分析等大数据算法与分析技术,揭示数据之间可能隐藏的关系、模式和趋势,从而为决策提供新的知识,因此其研究目的存在一定未知性,其审查重点将由对传统线下实施的方案设计和知情同意的审查转为对线上平台、设备、软件、网络、大数据技术等信息科学内容的审查,对数学、软件工程、计算机等领域前沿专业知识的要求,增加了伦理审查的难度。而人工智能、精准医学、生物三维打印技术、医用机器人等基于健康医疗大数据的研究,其空前宏伟的研究计划,包含基础研究、临床前研究、临床研究和转化应用等阶段,需要对各个阶段的研究方案进行独立审查[15]。其次,大量来自于以往诊疗过程中产生的健康医疗数据,使得传统由个人签署的书面知情同意难以落实,如何确保数据来源主体的有效知情同意的方式将不同于以往传统“小数据”的处理方式。再者,随着大数据交叉匹配技术的进步,数据的匿名化处理越来越困难,对隐私保护措施提出了更高要求。基于以上特点,使得传统的伦理审查模式将不能满足涉及健康医疗大数据研究审查的要求。
3 涉及健康医疗大数据研究的伦理审查要点
涉及健康医疗大数据的研究除需满足传统伦理审查的基本要求外,结合其研究自身特点,伦理审查应重点关注研究风险受益比、知情同意程序、隐私保护措施等内容。
①研究风险受益比。
研究可能遭受的风险程度与研究预期的受益相比的合理性是评估研究能否开展的必要条件。涉及健康医疗大数据的研究,其风险是对个人或社会或国家可能的伤害,应对该风险的严重性、程度和发生概率,有无采取使风险最小化的方法进行评估,而受益则包括对个体的受益和对社会的受益[16]。在具体实践中,其评判内容可以从使用数据的涉密性和敏感性,数据来源的合理合法性,以及研究目的性质是基于商业利益、公共利益还是国家利益进行审慎评估。隐私泄露是涉及健康医疗大数据研究的主要风险之一,有些风险可能难以预测。研究人员应对数据的收集和使用遵循最小必要原则,除非研究需要,尽可能少用可识别信息和敏感数据,避免数据采集与数据主体授权不一致、过度采集数据等问题。通过数据处理协议等形式,对数据安全、数据保密、数据挖掘和使用等作出明确严格的规定。唯有研究具有重要的社会价值,且不会给参与者个人或所在群体带来超过最小风险值的风险才能获得伦理的辩护[16]。
②知情同意程序。
针对海量的数据研究,传统具体的知情同意方式已不足以应对大数据时代的数据反复挖掘使用的特点。在大数据时代,伦理审查委员会应根据研究中所使用的数据的收集方式、涉密性、敏感性、研究预期目的、社会价值、重新获取知情同意的难度以及管理措施来判断研究应采取具体的知情同意、广泛的知情同意、免除知情同意还是选择退出程序。涉及健康医疗大数据研究的数据可能来源于以往因诊疗、研究或其他目的而收集和保存的数据;同时,又没有获得数据提供者对数据的未来研究的知情同意,根据新版CIOMS伦理准则要求,免除知情同意的条件必须同时满足以下三个条件:a.研究具有重要的社会价值;b.研究对参与者个人或所在群体的风险不超过最小风险;c.不免除知情同意,研究不可能或不可行。新版CIOMS还提到,对于使用由常规临床情形下收集的数据,研究者必须预先告知患者有选择退出的程序,可以随时撤回他们的数据。对于有目的的收集和储存数据的研究时,无论是用于当下特定的研究目的,还是用于未来尚未明确目的的研究,研究者均需从数据提供者那获得具体的知情同意或广泛的知情同意[16]。伦理审查委员会在保障数据提供者的知情同意权利的情况下,还应关注研究是否符合公共利益,以及如何促进公众参与和透明度。
③隐私保护措施。
伦理审查委员会通过对研究过程中涉及的人员资质、基础设施、权限控制技术、数据流通规则等内容的审查来确定研究者是否采取恰当的措施降低隐私风险。首先,因数据研究过程中可能涉及的用户对象包括个人、医护人员、医学科学家、数据工程师、医院管理者、政府行政管理部门、普通社会公众等,伦理审查委员会应针对研究过程中可能直接接触数据的人员组织资质、基础设施、权限控制技术、数据流通规则等方面进行严格审查。通过对可接触数据的人员的背景审查、信息安全和伦理培训情况,保密协议签署情况,隐私政策法规掌握情况等资质的审查评估,对不同类型的人员对数据的收集、存储和使用权限进行分类分级审批管理,并明确数据安全责任主体,确保研究过程中的数据安全可控,一旦发生数据的违规使用、滥用和泄露等能够溯源追责到个人;其次,涉及健康医疗大数据的研究,包含数据采集、存储、挖掘、应用、运输、传输、共享等环节,并涉及服务器、存储设备、网络设备、基础软件等介质,数据隐私保护措施应贯彻于全流程和全介质,因此,伦理审查委员会应关注数据载体应用的工具和设备的安全可靠性和数据全生命周期的一切行为的可追溯性;最后,伦理审查委员会还应关注研究数据是否有访问控制技术、数据显示限制技术、数据加密技术、数据使用共享限制技术等隐私保护的关键技术和数据使用场景,对数据隐私保护措施的合规性进行评估,来进一步规范涉及健康医疗大数据研究过程中的数据利用。