肺癌影像数据伦理与人工智能
2021-04-15马小睦刘俊香赵心明
许 莹,马小睦,岳 强 ,刘俊香,赵心明
1国家癌症中心/国家肿瘤临床医学研究中心/中国医学科学院北京协和医学院肿瘤医院,北京,100021;
2中国医学科学院北京协和医学院整形外科医院,北京,100043;
3中国医学科学院北京协和医学院人文和社会科学学院,北京,100730;
4国家癌症中心/国家肿瘤临床医学研究中心/中国医学科学院北京协和医学院肿瘤医院,北京,100021
2019年9月12日国际癌症研究机构(International Agency for Research on Cancer)发布的《2018年全球癌症统计报告》显示,2018年全球肺癌发病率及死亡率均稳居榜首[1],且在中低收入国家每年有50%以上的肺癌患者死亡[2],而中国肺癌发病率高于全球水平。随着大数据与深度学习神经网络在影像学中的应用与发展,人工智能(Artificial Intelligence, AI)在肺结节早期筛查及良恶性诊断中已有较多研究及应用[3-6],但由于数据来源受限、可利用度低及共享障碍等,其研究尚存在诸多局限。本文以更好地为肺癌患者及未来潜在患者服务为出发点,提出应将肺癌影像数据资源作为公共资源进行二次利用;在合理有效保护受试者权益的前提下推动科研的顺利发展,充分发挥肺癌影像数据的潜在价值,推动影像数据在肺癌方向的病因学、诊断研究及相关对因治疗的发展,最终降低肺癌的发病率及死亡率,造福肺癌患者和未来的潜在患者。
1 目前AI在肺癌研究中的局限性
1.1 数据可利用度受限
当前AI在肺结节诊断方面的研究主要根据肺结节的影像学特征,如结节大小、密度(CT值)、性质(实性结节SN/磨玻璃密度结节GGN)、征象(分叶征、毛刺征、脐凹征、血管集束征)等,但肿瘤征象并不是肿瘤所特有的,在临床上,只有将临床数据与影像数据相结合才能做出更准确的诊断。目前以隐私保护为前提的数据共享可能会选择性地去除患者的一些敏感信息(如年龄、性别、居住地、吸烟史、病史等)[7],有时不能很好地满足AI的数据分析。如能将肺癌影像数据作为公共资源二次使用,这将更好地实现二者的结合,进一步提高肺癌诊断的准确性。
1.2 研究链条滞后
影响肺癌发病的危险因素有很多:吸烟、PM2.5、性别、年龄、种族/民族、社会经济地位、遗传因素、地理环境等[2, 8]。当前AI关于肺癌的影像学研究更多聚焦于筛查及诊断,属于医疗产业链的偏后阶段,对于影像数据与肺癌病因学相关性的分析较少,而这恰恰是减少肺癌发病率及死亡率的关键所在。如果将个人肺癌影像学数据作为公共资源,建立肺癌影像学数据库,由政府主导进行数据库的建设和数据采集,可以有效打破机构之间数据共享的壁垒,增加医疗机构或企业对数据的可获得性,进一步挖掘数据的潜在价值,推动影像数据与肺癌病因学相关性研究,加快相关对因治疗的发展进程,降低肺癌发病率与死亡率,使人类在肺癌的预防及治疗层面迈上一个新台阶。
1.3 数据共享障碍
数据共享障碍主要源于以下几个方面:①目前AI研发机构的数据几乎均来自于与医院的合作,但其合作的医院数量有限,且合作医院的患者肺癌影像数据同样有限,导致数据来源缺乏广泛性。只有千分之一的论文通过来自其他人群的影像数据来验证其算法及诊断结果[9]。以有限数据进行算法训练的软件,其普适性是存在疑问的。②目前我国对个人数据所有权尚无明确规定,相关机构通常将自己与各医院合作收集来的数据归自己所有,如第三方需要数据分享,就要高价购买,这就必然导致数据流通成本的增加。③医疗机构为避免伦理及法律纠纷对于影像数据共享持消极态度。④采集到的影像数据还需经临床经验丰富的医生标注才能使用,但不同医院与软件研发机构间的影像数据标注在标准、质量、格式等方面参差不齐,使数据共享在技术层面上存在障碍。如果建立一个全国性的肺癌公共影像数据库,并制定标准的数据标注指南,AI软件研发机构取得的肺癌影像数据将是从全国范围内聚合的数据,且可有效避免医疗机构对于数据共享的消极性,提高数据质量及数据的可利用率,从而进一步提高AI软件的精确性与普适性。
2 作为公共资源的肺癌影像数据库的伦理学分析
2.1 肺癌影像数据作为公共资源的设想
所谓公共资源,是由政府、个人或相关组织向社会所有成员提供的非营利性的商品或服务。美国国家医学院(Institute of Medicine)2008年专门探讨了将医疗保健数据作为公共资源的问题[10],并针对将临床数据作为公共资源进行二次使用提出了两个关键的伦理要求:①任何实体都无权直接从数据中获利;②为促进医疗发展,应鼓励和促进数据的传播和使用。
第一点主要涉及数据所有权的问题,截至2021年2月,我国尚无立法对个人数据所有权进行明确规定,但学术界存在几种不同的观点:即个体对数据的所有权、企业等组织对数据的所有权、国家对数据的所有权、全人类对数据的所有权[11]。下文将上述观点与影像数据库的利用相结合,并一一评述。
2.1.1 肺癌患者对数据的所有权。该学说认为个人数据具有人格权属性和财产权属性,个人对于自身的相关信息应当具有所有权和控制权[11]。但我们也不得不思考其中的一些弊端:首先,如果简单地将数据所有权仅赋予肺癌患者,即使经过提取、重组和整合等途径进行去识别化和匿名化处理后形成的聚合数据库仍然属于肺癌患者个人所有,软件研发机构每次使用聚合数据时均要经过患者同意,这势必增加数据使用成本。其次,肺癌患者采集影像数据及其他临床数据是为了其个人当前的疾病诊疗,当这一目的达成后,为进一步充分挖掘影像数据的潜在价值,以更好地服务于当前和未来的肺癌患者,可以考虑将这些数据作为公共资源进入影像数据库进行二次使用。Faden等认为患者有义务为改善临床护理质量以及卫生保健系统做出贡献[12]。而患者参与的方式,不仅仅是通过支付医疗服务费用、纳税或慈善捐款等,还可以通过提供数据、参与研究等,且后者的社会价值更大。
2.1.2 医疗机构对数据的所有权。这意味着医疗机构可以将数据进行转卖。但医疗机构在对肺癌患者进行诊疗过程中已向患者收取了相应的费用,其劳动已得到回馈,医疗机构只是数据的暂存者,其对数据所有权的观点难以成立。我们坚决反对医疗机构将数据“商品化”进行高价售卖及垄断。当前关于数据售卖的例子已屡见不鲜:例如,2016年,为研究治疗肾脏损伤的新方法,英国伦敦皇家自由医院将约160万名患者的信息交给“DeepMind”公司,因数据来源的合法性和正当性受到质疑,被英国信息委员会勒令整改[13]。市场的迫切需求将导致数据交易泛滥,进而造成患者数据安全隐患及隐私泄露可能。
2.1.3 AI软件研发机构对于数据的所有权。该观点认为,机构对于经由自身搜集、整理形成的数据库(即经过匿名化处理,并保证无法通过其他技术手段再次识别到具体个人),应当享有所有权,仅在最初搜集个人原始数据时需要获得用户的同意[11]。对于肺癌影像数据库来说,由于所有影像数据的提取、采集、保存均由数据库相关管理人员及工作人员进行操作,AI软件研发机构对数据仅有申请使用权,没有所有权,因此软件研发人员从数据本身获利(如高价转售数据)是违反道德和法律的。
2.1.4 国家对数据的所有权。该学说认为国家代表着最广大人民的根本利益,收集的个人数据大多用于公民本身或者其他公益目的,取之于民用之于民[11]。这就意味着国家可以对各个医院、数据库管理人员、AI软件研发机构及个人在数据的采集、保存、提取等一系列过程中进行监督和调控。但数据国有化也会产生一些弊端,比如可能对AI软件研发机构及个人发挥抑制作用,或者可能导致数据政治化独裁。由此可见,任何一方的数据垄断都不利于数据的流通与共享。
2.1.5 全人类对数据的所有权。即数据归社会全体人员所有[11]。这在一定程度上可以促进数据的流通,但也意味着数据处于无所有权状态,所有人都可以对数据库中的数据任意支配、随意使用而不需要承担风险与责任,这样势必会导致混乱,包括无法保护个人隐私。
以上分析表明,数据所有权归属的各类主张利弊皆有,且当前伦理学界与法学界尚无定论。但数据所有权的争议并不代表着数据流通与应用的停滞。如前所述,为促进医疗发展,应鼓励和促进数据的传播和使用。欧盟的《一般数据保护条例》在第一章第一条的“一般性规定”中提到“个人数据在欧盟境内的自由流通不得因为在个人数据处理过程中保护自然人而被限制和禁止”[14],即不能因为个人利益最大化而禁止数据流通。本文提出建立肺癌公共影像数据库,并不是想要确定数据所有权归属问题,而是表明该数据库所产生的社会价值应由所有社会成员共享。本文只是提出建立一个全国性的数据库,将各医院肺癌患者的影像数据由数据库管理人员按照统一标准进行采集、保存、提取、使用,在保证患者隐私安全的同时,促进影像数据的合理流通、共享和应用。
2.2 利用已有影像数据的道德性与合理性
目前肺结节筛查主要使用低剂量螺旋CT(LDCT),有研究显示,与X线胸片相比,在高危人群中进行LDCT筛查可降低20%的肺癌死亡率[15]。LDCT管电压采用100KVp-140KVp,辐射较小[16],但与其他获取影像数据的手段相比(这些手段会让更多的人遭受额外辐射剂量),我们更应该发挥已有数据的潜在价值,即便是辐射剂量较低也应该避免。Larson等人认为从人类公益角度看,不使用已有临床数据来开发有可能造福全人类的工具是不道德的[17-18]。
从数据本身的价值来看,肺癌影像数据对患者本人的直接价值在于它们在临床诊疗过程中所起的重要作用。当这些数据被去标识化与匿名化处理并进行聚合时,就可以被视为AI软件研发的原材料,不再具有个体属性。软件研发人员通过观察并汇总群体特征,可了解群体共有的基本解剖结构、疾病病因学及发展过程,充分发挥已有数据的价值。从长远看,肺癌患者及未来的潜在患者将会是最大受益者,因为肺癌影像数据与病因学的相关性研究势必会推动对因治疗方案的发展(如某个影像特征即对应病因或流行病学特点,或通过相关性研究发现新的可能病因),以期降低肺癌发病率和死亡率,这对于未来潜在患者及现患肺癌者都是有利的。
目前国际上关于数据保护较为权威的法律依据是2018年生效的欧盟《统一数据保护条例》[14]。该条例在第二章第六条“数据处理的合法性”中提到“为履行涉及公共利益的职责所必要的数据处理”为合法的数据处理。肺癌公共影像数据库的宗旨也是如此:即在保护患者隐私与数据安全的前提下,为了公共利益,对肺癌患者的影像数据进行合理应用,以造福更多的肺癌现存患者及潜在患者。我们要避免两个极端,既不能因追求个人利益最大化而禁止数据流通,也不能将公众利益凌驾于个人利益之上而一味追求数据共享,需要在两者间找到一个平衡点,在保证肺癌影像数据安全的同时,合理促进其共享与研究,增进人类福祉,这也是伦理研究与立法机制所追求的目标。
2.3 关于知情同意
我们遵循知情同意的基本伦理原则,认为在初次数据采集过程中需要经过患者的知情同意,而在影像数据经过去标识化、匿名化处理采集、聚合入库后,由于患者的敏感信息如姓名、身份证号码、联系方式等已进行加密或匿名处理,无法通过现有技术手段识别到患者本人,我们即认为该数据库脱离了个人数据的范畴,以聚合的数据形式保存于数据库中。在后期软件研发机构对数据进行提取应用时,不需要就数据再次履行知情同意程序,其原因如下:首先,由于以后各个申请数据使用的软件研发机构的研究方向及数据处理方式具有不确定性,可能永远无法做到完全的知情同意。其次,经过去识别化处理的数据进行再次知情同意需要经过数据解码才能联系到患者个人,且数据量庞大,这就意味着以后每次数据提取都要投入大量时间及人力成本进行再次知情同意;而经过匿名化处理的数据已不可能再联系到个人,再次知情同意已不可能。Larson等人提出在符合以下条件时可免除知情同意进行临床数据的二次使用:个人隐私得到妥善保护;数据被用于研究时是以聚合形式;仅用于对未来患者有益的目的,并已建立了机构监督机制;通过公共网站或其他便捷方式让患者了解他们的数据被如何使用[18]。上海市临床研究伦理委员会发布的《人类生物样本库伦理审查范本》中也提到,“样本具有较大的科学意义和社会价值,且研究项目不涉及商业利益的,伦理委员会审查批准后,可以免除知情同意”[19]。肺癌影像数据的再次使用是以公益性为目的,以数据聚合的形式用于具有巨大社会价值的研究。我们有理由相信,只要建立完善的伦理审查委员会,在保证数据安全、不泄露患者隐私的条件下,免除数据使用的再次知情同意是合乎道德的。如果可能,我们也建议政府建立相应的网站或查询平台,以便于患者追踪了解自身肺癌影像数据的使用状况。
2.4 数据安全及隐私保护
2.4.1 个人信息与可识别性。影响深远的《世界经合组织隐私指南》、《亚太隐私框架》以及《欧盟1995年个人数据保护指令》均将个人信息定义为“与已识别或可识别的人有关的任何信息”[7]。即,当人具有可识别性时,与之相关的任何信息均为个人信息,识别性是个人信息的赋权基础。根据《最高人民法院、最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》,公民个人信息即“能够单独或者与其他信息结合识别特定自然人身份或者反映特定自然人活动情况的各种信息”,其可识别性的特征非常突出。对于肺癌影像数据库中的数据而言,若要保证数据安全并进行隐私保护,就必须消除影像数据的可识别性,尤其是对于AI软件研发机构及研发人员的可识别性,使其脱离可识别的个人信息范畴。
2.4.2 隐私保护方案。我们认为在影像数据采集前,应由肺癌影像数据库管理者及工作人员对患者进行当前条件下的初次知情同意,在尊重患者意愿的前提下进行操作。数据采集及保存、数据提取与使用等过程均与隐私保护密切相关,需采取有效的保护措施。
数据采集及保存。在数据采集过程中就使用去识别化及匿名化措施进行隐私保护。去标识化,是通过对个人信息的适当处理,使其在不借助额外信息的情况下,无法识别个人信息主体的过程[20]。对于肺癌影像数据的去标识化,可将身份信息用一对一无关代号表示,AI软件研发人员只能接触到代号,由数据库负责人掌握代号与身份关联的密钥,而解码必须制定相应规定。举例而言,“00123,70岁,肺癌患者”为软件研发人员拿到的信息,而“00123与李明”的对应关系密钥由数据库负责人保管,且只有符合相关规定时才可被允许解码。而匿名化处理则是不可逆的,如果最初收集肺癌影像数据时进行了匿名化处理就意味着完全去除了数据中的个人标识符,数据提供者与其数据之间不存在任何联系。与之相对应,关于数据保存,也可以采用去标识化与匿名化两种保存方法。
数据提取与使用。对于AI软件研发公司及研发人员需要的数据提取,我们认为其研究目的必须是公益性的,并要与影像数据库签订保密协议。比如不从数据中试图识别任何个人信息,不与其他数据库连接,不进行数据的复刻、改造与破坏,不将数据泄露给第三方,并且为个人及机构导致的数据泄露及隐私侵犯行为承担法律责任等。而该公益性研究目的应由伦理委员会评估鉴定,并对研究过程及成果进行伦理审查和监督。
如果能建立上述数据采集、保存、提取、使用的方案,就能在保证患者隐私及数据安全的前提下,实现肺癌影像数据的二次使用,为肺癌患者带来福音。随着AI技术的发展,去标识化的实现方式不是一成不变的,绝对匿名化与可识别信息的界限也变得越来越模糊[7],为保证影像数据库的隐私安全,我们反对AI软件研发机构将影像数据库与其他数据库连接,如人口统计信息数据库等,这可能导致匿名化信息不可逆地变成可识别信息。我们也坚决反对AI软件研发机构或研发人员私自将数据转交给第三方使用,更反对数据的公开披露,因为不能保证公开披露后不受限制的数据使用均是以公益性为目的。
要实现识别风险为零以及匿名化的绝对性和永久性,难度确实很大。这就要求肺癌影像数据库管理者与时俱进,定期评估剩余风险;选择恰当的去标识化与匿名化模型和技术措施;评估对识别风险的控制手段是否足够且匹配;监控并及时发现新的识别风险;若有新的识别风险,则需要重新进行匿名化处理等[21]。
2.5 伦理审查与监督
以上探讨了保障数据安全和隐私保护的技术性原则,以下论证伦理学方面的保障措施。与对违规事件进行被动的事后批评制裁策略相比,主动采用伦理审查委员会事先的评估防范策略显得更为可取[22]。
关于AI的伦理审查,需要由医学、计算机科学、法学、伦理学等不同领域的专家共同协商审查。迄今为止,完善的AI伦理审查系统尚未建立。这是因为许多人工智能的研发都是在私营企业中进行的,尚未经过多学科的评估[23],这些研发机构为保证数据独特性及AI软件的市场价值,势必进行数据垄断,从而阻碍影像数据在各机构间的共享,更难实现不同学科间的共享,这在一定程度上阻碍了AI多学科间的同步发展。而肺癌公共影像数据库则能消除垄断危险,任何以公益性为目的的数据使用申请均可得到批准,且数据来源多元广泛,这必将促进AI在诸多领域的共同发展,促进不同学科专家间进行同水平、同阶段的技术及伦理学探讨,为多学科合作、评估和监管提供可能,并有望促进AI伦理学审查机制的建立、发展和完善。
3 结论
为了更好地服务于肺癌患者及未来潜在患者,我们主张将肺癌影像数据作为公共资源进行二次使用。本文为这一设想提供了一个合理的伦理学框架并加以论证。我们希望以此突破AI在当前肺癌研究中存在的数据来源、使用及共享方面的障碍,充分挖掘和利用肺癌影像数据的潜在价值,促进肺癌影像数据与病因学的相关性研究、推动对因治疗方案的发展,最终降低肺癌发病率及死亡率,更好地促进人类健康。