大数据环境下医疗数据隐私保护面临的挑战及相关技术梳理
2014-10-29陈鹤群
陈鹤群
摘 要
随着大数据技术的迅猛发展,已经给许多领域带来了巨大的影响,但大数据也同时带来了隐私防护方面新的安全挑战。医疗大数据对传统的就医模式也带来了革命性的改变,但其便于共享、传播、挖掘等特性再加上医疗行业的特殊性,又不得不让人们更加重视隐私保护这一敏感问题。本文旨在对目前医疗大数据的现状进行分析并对其可能面临的隐私保护问题进行讨论,并对目前技术与规范方面的隐私保护手段进行梳理,从而为在大数据环境下医疗数据的隐私保护寻求可行的方法,并对医疗大数据隐私保护体系的发展方向进行了展望。
【关键词】大数据 医疗大数据 隐私保护
1 背景
由于信息化和网络化技术与产业的迅猛发展,导致产生的数据量爆炸式的增长,大数据(Big Data)概念已俨然成为学术界与产业界的热点。大数据正悄然影响并改变着人们的日常生活方式、工作方式和思考方式。在维基百科中大数据被定义为所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。如今,每时每刻均有大量的数据不断产生,其中既有互联网用户主动产生的(如:搜索引擎的使用、微博等),同时各种检测设备也在源源不断的产生大量数据。根据分析调研机构IDC发布的报告,2012年全球数据总量已经达到2.7ZB,并预计这一数字在2015年将达到8ZB,这更说明了大数据时代的来临。大数据的意义不在于拥有巨大的数据信息,而是通过专业的技术手段对这些数据进行处理,并提炼出有意义的信息,实现数据的增值。为了实现最终的增值,大数据处理主要涉及以下的各阶段:(1)数据采集与预处理;(2)数据分析;(3)数据解释。
王利明教授在其主编的《人格权法新论》一书中认为:隐私权是自然人享有的对其个人的与公共利益无关的个人信息、私人活动和私有领域进行支配的一种人格权。个人数据作为个人隐私的一部分,也应受到法律法规的保护。在如今的日常生活中互联网技术已经被广泛使用,这也引发了许多侵害个人隐私权的问题,其核心问题就是个人数据的权利问题。随着信息技术的不断更新发展,在其发展过程中对个人隐私保护还将带来许多意想不到的问题。
大数据技术就是一个典型的示例,作为一个新兴技术大数据技术在数据处理过程及应用等方面,产生的数据交互、展示等均可能造成对客体隐私的侵害。所以在大数据技术不断发展的同时,人们开始关注大数据技术所带来的隐私保护问题。
冯登国等在《大数据安全与隐私保护》一文中提出,与传统信息安全问题相比,大数据在用户隐私保护方面面临着新的挑战。大量事实已经表明,大数据未能妥善处理会对用户的隐私造成极大的侵害。根据需要保护的内容不同,隐私保护由可以进一步细分为位置隐私保护、标识隐私匿名保护、连接关系匿名保护。而医疗个人数据作为一种机具特殊性及敏感的个人数据,其在大数据环境中如何保护个人隐私不被侵害也变得日趋重要。
本文旨在对目前医疗大数据的现状进行分析并对其可能面临的隐私保护问题进行讨论,并对目前技术与规范方面的隐私保护手段进行梳理,从而为在大数据环境下医疗数据的隐私保护寻求可行的方法。
2 医疗大数据的现状
近年来,医疗卫生行业信息化技术的不断发展及各系统的不断建设,信息系统使用的范围也随之不断扩大。如电子病历的出现取代了传统手写病历,以信息化的手段记录保存了患者在医院中发生的诊断治疗行为的全过程,除此之外其还提供了其他相关服务。在信息系统被广泛使用后,每天都产生大量的数据,而产生的大量数据不再仅仅是对医疗过程的记录,通过进一步挖掘及使用后均能产生更大的意义。所以根据这些特性可以说医疗数据已经进入了大数据的时代,依照这些数据的性质可以分为医院与区域性平台两个层面:
在医院层面上,信息化系统的使用范围与使用模式已不再仅仅基于原有的挂号收费方式,信息系统应当对患者在整个就医的过程进行全程的记录,并将进一步扩展至患者的其他个人健康信息。
电子病历系统在医院的使用,彻底改变了原有的就医模式,将原有患者自管的纸质病历改为了由医院统一管理的电子化病历。这样医生就可以更方便、快捷的查询患者之前的就诊记录,有助于医生作为更加安全准确的诊断。其保存的医嘱数据、诊断数据等,更是为科研教学提供了有力的数据支撑。作为一份完整电子病历,其还应包括医技科室产生的检验检查信息。
目前医技科室使用的专业化信息系统:如检验科室使用的LIS系统,通过仪器与信息系统的连接,实现了在系统中对实验室样品,数据的存储与管理,与此同时其还提供了报告审核等其它相关的服务,实现了医院检验科室规范化、智能化和自动化的管理。其它的如PACS、手术麻醉等专业信息系统,均如同LIS系统一样为相关科室提供便捷并有助于提高管理水平,医疗质量,减少差错的发生。这类系统的使用也使得收集诊疗数据成为可能,让电子病历变得更加完整,势必也将有实验室报告、影像信息等被记录保存。
除此之外,对于一些专科与专病的需求,还将有其它的患者信息被收集记录,如体征信息,对于高血压病人持续记录其血压、心率等体征信息对于医疗行为也是非常有意义的。如其它健康信息,患者是否有吸烟史等信息对于某些疾病的治疗也是
另一方面,随着医疗卫生体制改革的不断深化,区域性医疗卫生信息平台建设已成为卫生信息化的建设重点,各地也相继建成区县级或省市及的区域平台,打破了各系统各医院间的信息孤岛,实现了互联互通、数据共享、业务协同,并建立了区域医疗卫生信息数据中心及全民健康档案等。以上海为例,由上海申康医院发展中心自2006开始主持规划的上海医联工程,在申康所辖的38市级医院之间建立了一个信息交换共享集成平台及数据中心。不仅仅是医院数据的抽取收集,而是在这些数据的基础上进行提炼利用。
随着数据采集范围的不断扩大和系统的运作,无论是在医院还是区域平台的数据中心中的数据量不断累积,均已形成了医疗大数据的数据中心,endprint
大数据对医疗卫生行业的影响已不言而喻,近几年医疗服务产生的数据总量更是急速增长,所以说医疗行业正处于一个重要的转折点。
根据大数据的特性,医疗大数据需要在以下4个方面得到支持:
(1)数据量:诊疗数据、设备产生的数据;
(2)类型:结构化、非结构化;
(3)价值:基于现有数据库中的数据进行分析,来支持不能种类的业务:如患者病史、归档检验结果分析,实时临床决策分析;
(4)速度:实时数据分析,而非传统的批量处理分析,对于实时运行中的每个时间节点产生影响,而不是事后处理。
大数据则因为有效的数据整合模式,可以满足以患者为中心医疗服务的个性化医疗、协调和沟通、患者支持和赋权以及良好可及性等多方面需求,为其提供卓越的技术平台,从医学研究、临床决策、疾病管理、患者参与以及医疗卫生决策等方面推动医疗模式的转变。
3 医疗大数据面临的隐私保护挑战
随着数据采集、加工和应用,不可避免的会发生泄漏的情况,也将会造成隐私的泄漏。医疗信息的隐私数据泄露的主要途径包含以下两个方面:
3.1 非交互式泄露
从医院内部信息系统中的隐私泄露,在医院的内部业务流程中有多个节点可以对数据进行访问;
3.2 交互式泄露
主要针对在信息使用传递过程中,发生的泄露,可能包括科学研究的过程,区域性平台数据交互等可使用基于角色访问控制技术,但是对于权限分级、设定、信息分级等方面有较大的难度。
因为数据内容的特殊性,数据未能妥善处理会对个人隐私带来极大的伤害。如孕妇个人信息的泄漏,可能带来的一系列推销、诈骗等问题,而在大数据环境下隐私泄漏的危险不仅仅限于其泄漏本身,而还在于基于数据对于下一步行为的预测与判断。如得到患者的某个检验指标,便可以对其的健康状况进行判断并对其下一步的行为进行预判。在很多情况下人们认为只要对数据进行匿名处理或者对重要字段进行保护,个人隐私就是安全的,但是大量的事实已经证明,可以通过收集其他信息还是很容易的可以定位到具体的个人。如患者的诊断信息作为重要隐私进行保护,但是还是可以通过用药信息或者实验室报告的某个相关指标轻松的推断出患者的诊断。所以医疗数据的隐私保护需要根据保护内容的不同进行进一步的细分。
4 现状研究
针对以上提出的问题,以下将从制度与技术两个方面对目前针对医疗数据的隐私保护进行展开。
从技术角度而言,大数据的隐私保护主要还是依赖于传统数据隐私保护的一些密码学技术,而医疗数据因为其特殊性对隐私保护技术的要求也有别与其它的系统。针对这些主要将需要保护的内容聚焦于以下几点,并结合目前已有的技术手段,进行讨论:
4.1 标识隐私匿名保护
在患者诊疗档案中,往往会以患者的姓名、身份证号码等作为患者的唯一标识,但是这些信息本身就应该是隐私保护的内容,所以需要在不影响信息准性的前提情况下对这些信息进行匿名保护。
童云海等提出了一种隐私保护数据发布中身份保持的匿名方法,在数据发布中先删除身份标识准备,然后对准标识数据进行处理,在保持隐私的同时进一步提高了信息有效性,并采用概化和有损连接两种实现方式。
可以看出标识匿名隐私保护,主要都是采取在保证数据有效性的前提下损失一些数据属性,来保证数据的安全性,目前大部分的技术均采用了这种方式。但是在目前患者电子诊疗信息交互的过程中,信息的损失可能会影响正常流程的运行。在很难同时兼顾可用性与安全性的前提下,需要一种针对医院及区域性平台运作特点的算法,来找到可用与安全的折中点。
4.2 医疗数据的分级保护制度
以一份完整的诊疗档案为例,其构成应当包含了各种信息,如患者基本信息、诊断信息、医嘱信息、检验检查信息、药品信息、收费信息、主治医生信息等等。这些信息在隐私保护中都有着不同的权重,如果一概而论对所有信息都采用高级别的保护手段,会影响实际运作的效率,同时也是对资源的浪费。但如果只对核心信息进行保护,也会造成隐形泄露的问题。如只对检验报告进行保护,那么检验数据的泄露可以也容易的推导出检验报告的结果。所以需要建立一套数据的分级制度,对于不同级别的信息采用不同的保护措施,但由于涉及不同的系统和运作方式,制定一套完善分级制度有相当的难度,同时还涉及到了以下的访问权限的控制;
4.3 基于访问控制的隐私保护
医疗系统中隐私保护的难点还在于参与的人员节点多,导致了潜在的泄露点也多。访问控制技术可以对不同的人员设置不同的权限来限制其访问的内容,这其实就包括了数据分级的问题。如财务部门的人员应该只能访问相关的收费信息而不能访问医生的诊断信息。
而目前大部分的访问控制技术均是基于角色的访问控制,更够很好的控制角色能够访问的内容以及其相应的操作。但是规则的设置与权限的分级的实现手段比较复杂,无法通过统一的规则设置来进行统一的授权,许多情况下需要对角色的特殊情况进行单独设置,也不便与进行整体的管理和调整。需要对规则引擎进行进一步的研究在适应医疗领域实际应用的需要。
通过以上对于不同问题不同技术手段的分析可以看出,在医疗大数据领域技术手段还不能很好的满足实际应用的需求。同时需要建立一套适用于医疗大数据领域的完整隐私保护体系,在医疗数据的存储环节、访问环节、应用环节等形成系统性的保护。而在构建隐私保护体系时,除了相关技术,更应用完善制度保障。
技术作为隐私保护的必要条件,在有了技术的基础上还是需要有相应切实可行的制度来规范人们的行为以及技术手段顺利执行。如密码学中的社会工程攻击法,它并没有直接针对任何加密系统,只是利用人们在执行过程中的一些弱点与漏洞来达到攻击的目的,所有隐私保护同样离不开法律、政策等的支撑。endprint
美国在这方面起步的最早,1974年美国就正式制定了《隐私权法》1996年美国国会就颁布了《健康保险携带和责任法案》(Health Insurance Portability and Accountability Act,HIPAA),2000年美国卫生和福利部(HHS)依据该法授权制定《个人可识别健康信息的隐私标准》。由此可以看出,美国已经建立了一个完整的医疗隐私保护体系。相比较我国对于这方面的法律政策还比较欠缺目前还有专门关于患者隐私保护方面的内容,只是有少数条文零星的涉及。2013年底,国家卫计委下发了关于《人口健康信息管理办法(试行)》(征求意见稿),针对患者的电子信息对信息采集方的义务和行为进行规范了说明,并明确“谁采集、谁负责”的原则。除此之外,还需要明确的是患者电子诊疗档案归属权的问题,患者的电子诊疗信息虽然产生在医院并由医院采集保管,但其所属权是否应当属于患者。即电子诊疗信息的用途应当仅限于为患者提供医疗服务,若为了其它目的使用时,如科研、教学等,使用者应当告知患者。
5 小结
在本文中对大数据环境下医疗大数据的形成进行了分析,并对医疗大数据所面临的隐私安全问题以及相应的技术手段进行了梳理。随着大数据技术的迅猛发展,医疗大数据已经初具规模。在享用医疗大数据带来的便利同时,不得不去考虑其带来的一系统隐私保护问题。相对而言国内目前的相关技术和制度研究均处于刚起步阶段,还缺乏系统性的整体架构来对患者隐私进行保护。通过对目前一些隐私保护技术的梳理可以看到,每项技术虽然都有不同的特点,但是其真正在医疗领域的使用范围及性能都受到了一定的限制,而且在一定程度上还缺乏对应的制度保障。只有通过对于技术手段和法规制度相结合的方式,针对医疗领域和医疗大数据的特性,才能构建出一套完善的隐私保护体系,相关的工作还需要我们进一步的研究。
参考文献
[1]维基百科,大数据,http://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E6%8D%AE
[2]冯国登,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014.
[3]杨吉江,许有志,王青.面向医疗信息的数据隐私保护技术[J].中国数字医学,2010,05(08).
[4]乔岩,王伟.大数据时代的医疗模式,医学论坛网 http://circ.cmt.com.cn/detail/345715.html.
[5]童云海,陶有东,唐世渭.隐私保护数据发布中身份保持的匿名方法[J].软件学报,2010(04):771-781.
作者单位
上海软中信息技术有限公司 上海市 200235endprint