医学人工智能应用中的隐私保护
2021-11-25王慧颖
王慧颖
(上海第二工业大学,上海 201209)
一、医学人工智能的相关应用
如今,人工智能在医学领域的应用还属于初级阶段,主要包括:医疗智能决策、医学影像、新药筛选、慢病管理、人机协同等[1]。而这一切医学人工智能应用都是以海量的医学数据为基础的,包括基因数据、就诊病历、住院病历、疾病影像甚至包括可穿戴设备上的数据等。由于医学人工智能对大量临床数据和疾病诊断数据的深度挖掘与分析涉及了个人信息的采集、治理、应用等一系列问题,对海量数据的不断挖掘与分析就会带来个人隐私泄露的风险。
二、医学人工智能应用中的隐私威胁
(一)隐私可能泄露的方式
在医学数据采集阶段,一般医学数据的采集方式是基于医院HIS信息系统和接口导出。患者就医时,很多个人隐私信息,包括:姓名、住址、身份证号、健康情况等都在就医过程中被记录到医院的信息系统中。而医院工作者所做的工作也只是记录患者信息,并不会对这些包含了大量疾病、用药、付费等敏感信息的数据进行保护。这大大增加了隐私数据的泄露的可能。
在医学数据整理阶段,数据整理是指对数据中的非结构化的文本进行分析与处理,实现表达形式上的转换和一致性。包括检查数据一致性、处理无效值和缺失值等,保证数据符合规范性、完整性、准确性等质量要求。对于敏感信息进行脱敏和加密保护处理。然而当脱敏后的这组数据与另一组数据结合起来分析可能仍会泄露患者隐私。
在医学数据应用阶段,数据应用是指将事先处理好的医学数据通过机器学习、深度学习等处理,通过建模、分析来挖掘出具有医疗应用价值的信息。然而经过多元数据聚合分析,可能会带来隐私信息重新识别的风险。并且在数据采集时,数据的可信性并不能得到有效保障,这就导致在数据应用阶段会产生错误的结论。
(二)健康隐私泄露引发的问题
健康隐私泄露导致的问题一般可以分为两类:后果论和道义论。后果论关注的是在隐私泄露后,会给隐私人带来不好的后果。比如:某人在招聘前被用人单位知道患有某种疾病或者从基因数据中看出他比常人更易患上某种疾病导致应聘失败,或者某人因医学隐私泄露而导致个人保险额度提高,这些都是不公平的。后果论的另一种情况不会直接带来不好的后果,但是会被焦虑的情绪所困扰。比如:有人认为现在可能会出现身份盗窃,担心自己的隐私权受到侵犯,可能会使人焦虑、神经紧张。
而道义论所关注的并不取决于经历了什么不好的后果。在此类别中,即使没有人使用隐私人的相关隐私信息也没有人受到伤害,或者该人甚至从未意识到自己已经发生违规行为,也可能会受到隐私泄露的侵害。例如,某个组织无意中访问了某人存储在智能手机上的数据,在审查之后,该组织意识到这些数据对他们毫无价值并且删除了记录。那些审查数据的人在国外生活,绝不会在现实生活中遇到。很难说这个人在结果论的角度受到了伤害,但他失去对自己数据的控制。所以入侵即使在没有伤害的情况下也存在着道义上的问题[2]。
三、医学人工智能应用中的隐私保护建议
(一)构建我国人工智能隐私保护相关法律
在我国现有法律法规中,目前仅《民法总则》《侵权责任法》《执业医师法》《护士管理办法》等部分法律就个人信息的权利和隐私保护有相关涉及条款,没有形成以隐私权为独立个体的系统化、专门化的法律条例,司法实践上存在较大困难。伴随着医学人工智能的迅速发展,没有健全的隐私保护法律体系便难以应对人工智能时代的隐私风险。
美国关于隐私保护的立法较早,1996年通过了著名的HIPAA法案。HIPAA分为不同部分,每个部分解决医疗保险改革中的一个独特问题。其中保护患者免受隐私泄露的最重要策略之一是通过删除一组18个指定的标识符(如姓名和电子邮件地址)来保护其数据。欧盟的数据隐私规则,《通用数据保护条例》(General Data Protection Regulation,GDPR,简称《条例》)经过近两年的讨论修改,于2018年正式生效。《条例》明确调整对象、增强信息处理透明度、拓展用户权利、禁止对个人敏感信息进行自动化处理、引入隐私设计理论[3]。参考美国和欧盟的隐私保护法,在我国的《个人隐私保护法案》中应关注以下制度的建立。
1.对数据进行多层次检查
主要包括三方面对数据的监管要求。首先公司有义务向国家管理机构提供相关算法决策详细解释,或关于算法如何做出决定的资料。这主要是为了避免“歧视问题”。其次是国家要求公司开展的监管,公司应当遵守让人工介入AI的使用过程,可以审核任意算法决策。三是由个人提出的监管要求,比如“擦除权”,即用户如果认为该公司的产品收集了个人数据并侵犯了隐私则可要求公司擦除涉及个人隐私的数据。
2.确定与侵犯隐私程度相对应的刑法处罚
2018年5月28日报道,Facebook和谷歌等美国企业成为GDPR法案下第一批被告。2019年7月8日,英国信息监管局发表声明说,英国航空公司因为违反《一般数据保护条例》被罚1.8339亿英镑(约合15.8亿元人民币)。刑法是调整社会关系的最后一道防线,让侵犯隐私的人付出代价才能及时止损。
(二)隐私保护的技术方法
在我国没有相关隐私保护法的情况下,大多数公司和企业都是采用技术的方法对相关隐私进行保护。
在数据采集阶段,首先需要提高医务人员的隐私保护意识,杜绝就诊时有其他不相关人员在场的现象。其次是对数据进行一定程度的脱敏处理,可以参考《HIPAA法案》中规定的18项健康信息对患者的隐私进行脱敏保护。
在数据整理阶段,首先做好隐私数据脱敏处理。在保证数据可用的情况下,降低黑客攻击的风险。其次可以使用数据扰乱技术,通过添加噪声对敏感数据进行扰乱同时保持数据或数据属性不变。HIS(医院信息管理系统)、EMR(电子病历系统)应具有容灾备份能力。
在数据应用阶段,则重点考虑数据集相互关联的情况下,最大化被匿名处理之后的数据使用效果,实现数据跨系统的共享与利用。一般使用平衡约束算法实现数据实用性和防止信息泄露的隐私保护之间的平衡。
(三)坚持公平原则
侯滢等人认为:“智慧医疗的发展关系到每一位民众的切身利益,其数据智能的发展必须符合正义原则”[4]。医学人工智能本质上是为每一位民众提供更好更快的就诊服务,提高民众就医体验的技术,不应扩大就医人群的地位和权力的差距。刘洋[5]等人认为有能力支付医学人工智能治疗方式的人占少数且人工智能也给老年人带来不便,人工智能算法所基于的数据本身可能包含有意想不到的算法偏见,不可控的产生年龄、性别、种族方面的歧视,加剧现有的社会不平等。笔者觉得医学人工智能的广泛应用引起的公平问题不仅仅体现在患者与患者之间,也体现在医疗机构之间。在现阶段大部分医学人工智能都造价不菲,再加上平时的保养和管理的费用,以及培训医务人员使用人工智能的费用,这一大笔开销使得能引进医学人工智能的医院少之又少,且购买人工智能设备都需相应的资质。这样看来,只有少数有实力有资金的大医院才可引进人工智能设备,长此以往,医疗机构之间的差距也会逐渐拉大。