APP下载

数据开放共享下的隐私保护

2017-05-12王智慧

张江科技评论 2017年2期
关键词:标识符攻击者差分

■ 文/王智慧

王智慧,博士,就职于复旦大学计算机科学技术学院,目前主要研究方向为数据库、数据挖掘、数据安全与隐私保护等。

随着隐私保护研究的深入开展,其研究成果将会给数据开放提供有力保障,推动数据资源的共享利用。

随着大数据时代的到来,数据资源的价值得到越来越多的重视,数据资源的开放共享利用也愈发迫切。例如,医疗数据的开放共享可以减少患者的重复检查,帮助医生对患者及时确诊、找到合适的治疗方案,以及为临床诊断、药物研发等方面提供数据支持,推动医疗数据价值的实现。

然而,在现实中,随着数据资源的战略性和商业价值越来越显现,数据资源的开放共享变得越来越困难。造成这种局面的主要原因之一是数据开放共享时的隐私保护问题。以医疗数据为例,其中就往往包含较多的隐私信息,例如患者个人信息、既往病史、就诊记录等。因此,对隐私泄露的顾虑不可避免地制约着医疗数据的开放共享。

从数据开放共享模式下的隐私保护需求来考虑,实现对个体隐私的保护是一个重要环节。通过保护数据所描述的个体对象的隐私,实现对个体隐私的保护。因此,从隐私保护的角度来说,数据开放共享要求必然是有限制的开放共享。

隐私与简单匿名处理

个人隐私通常是指特定个人相关的但不愿为他人所知的敏感信息。例如,直接开放共享如表1所示的病情诊断表(表中信息均为展示方便而虚构),就可能会造成隐私的泄露,因为一般患者并不情愿让别人知道自己患有诸如艾滋病或肝炎等疾病。

值得注意的是,敏感信息本身并不构成隐私,只有当其与特定个人形成关联时才构成隐私。因此,隐私保护可以通过降低或消除个体身份与其敏感信息之间的关联来实现。从这个角度考虑,可以通过隐藏姓名、身份证号等唯一标识个体身份的标识符属性,来实现对个体的隐私保护。例如,针对表1的患者信息,可以考虑将患者姓名去除后,发布共享如表2所示的信息。

表1 病情诊断表

表2 简单匿名处理后的病情诊断表

但是,这样简单的匿名处理能否实现对个人隐私的保护呢?假设攻击者在得到如表2所示的匿名化的病情诊断表之后,再通过其他途径得到患者登记信息(如表3所示)。攻击者通过组合表2和表3这两组数据,仍然可能唯一确定某些个体,从而造成隐私泄露。因此,这种通过隐藏标识符属性的简单匿名化处理不能达到隐私保护的效果。

链接攻击与k-匿名

如表2和表3的例子所示,通过与外部数据相关联,原本隐藏的个体仍然可能被唯一确定,进而其隐私信息被重新鉴别出来,这种攻击行为被称为链接攻击。链接攻击之所以能够成功,是由于在数据中存在所谓“准标识符”的某些属性或属性组合,例如表2中的属性组合(年龄,性别,居住地邮编)。这些准标识符虽然不能完全唯一标识个体身份,但在许多情况下能够起到类似标识符的作用。

为了解决链接攻击所导致的隐私泄露,美国哈佛大学定量社会科学研究所数据隐私实验室主任拉坦娅·斯威尼(Latanya Sweeney)等人提出k-匿名的隐私保护模型。k-匿名的基本思想是在去除标识符属性的基础上,通过对数据做进一步处理,使得每一条数据至少与其他k-1条数据在准标识符属性上都具有相同的属性值。通过这样弱化准标识符的作用,来实现对个体隐私的保护。一般来说,可以通过对数据做概化处理或抑化处理来实现k-匿名。概化处理是指将原本的具体属性值用概括的不确定值代替。比如,将居住地邮编的具体属性值“13011”用“130**”代替。抑化处理是指完全消除或隐藏原本的属性值。比如,将性别“男”用“*”代替。抑化处理也可以看成是概化处理的一种特例。表4给出了对表2进一步做k-匿名(k=3)处理后的数据,其对居住地邮编和年龄属性进行了概化处理,对性别进行了抑化处理。

表3 患者登记信息表

表4 k-匿名(k=3)处理后的病情诊断表

k-匿名的缺陷及改进

对于满足k-匿名模型的数据来说,每一个在数据中出现的准标识符属性值组合都对应至少k条数据记录。因此,在理想情况下,链接攻击的效果将至少被弱化为原来的1/k。但是,在实际应用中k-匿名模型仍然存在两个主要的缺陷,使之不能够达到理想的隐私保护效果。

首先,k-匿名模型可能会受到所谓的同质攻击。表5给出了同质攻击的一个例子。在这个开放共享的数据表中,表中数据虽然已经满足k=3时的k-匿名要求,但由于最后3条记录的病情诊断结果都是肝炎,如果已知某位男性患者的年龄为31岁、居住地邮编为13532,仍然可以从表中得到该患者的病情诊断结果是肝炎这一隐私信息。

表5 同质攻击的情形

其次,k-匿名模型可能会受到所谓的背景知识攻击。表6给出了背景知识攻击的一个例子。在这个开放共享的数据表中,表中数据满足k=3时的k-匿名要求。已知某位女性患者的年龄为29岁,居住地邮编为13130,如果攻击者了解该患者心脏正常这一背景知识,就可以从表中推断出该患者的病情诊断结果是艾滋病这一隐私信息。

表6 背景知识攻击的情形

针对k-匿名的缺陷,由美国杜克大学助理教授阿斯温·马沙纳瓦哈拉(Ashwin Machanavajjhala)等人提出的l-diversity,以及美国普渡大学计算科学系教授李宁辉等人提出的t-closeness等多种隐私数据保护模型,要求在k-匿名的基础上,进一步加入对涉及个人隐私的敏感信息分布情况的考虑。但是,由于缺乏对攻击者所具有的背景知识的有效度量,这些模型对于背景知识攻击仍然难以从根本上加以防御。

差分隐私

在现实应用中,攻击者所具有的背景知识通常是难以预知的。针对这一情况,美国哈佛大学工程与应用科学学院教授辛西娅·丹格(Cynthia Dwork)等人提出了差分隐私(differential privacy)。差分隐私通过隐私保护预算参数,来控制算法在相邻数据集上获得相同输出的概率比值,不受攻击者背景知识的约束。它能够在非常苛刻的假设前提下(即假设攻击者除了某未知的个体数据之外,已拥有所有其他个体数据作为背景知识),保证个体数据以一定概率不被攻击者获取。同时,差分隐私也具有严格的数学基础,具备可证明的隐私保护能力。因而,差分隐私在隐私风险的量化评估上也具有明显的优势。

在差分隐私的实现过程中,一般通过引入适当的噪声数据来达到保护隐私的目的。拉普拉斯机制(Laplace机制)和指数机制是引入了两种噪声数据,实现差分隐私的基本机制。这两种机制可以适用于不同的应用场景,其中拉普拉斯机制能够对数值型数据做较好的处理,而指数机制则主要针对非数值型数据。

差分隐私具有两种组合特性:序列组合性和并行组合性。序列组合性是指当使用多个差分隐私算法依次处理同一数据集时,其组合效果的隐私保护程度取决于其中各组成算法的累加效果。并行组合性是指如果多个差分隐私算法处理的数据集彼此不相交,那么其组合效果的隐私保护程度取决于其中隐私保护程度最差的那个算法。利用差分隐私保护的组合特性,结合具体应用场景,通过多个子算法的组合来设计复杂的差分隐私算法,并在此基础上进行量化分析,确保算法的有效性。

差分隐私具有严格的理论依据和完备的理论体系,因而逐渐成为当前最流行的隐私保护模型之一。但是,它也存在着信息损失过大、原始数据的可用性降低等不足,因此还需要进一步深入研究。

随着数据科学飞速发展,数据开放共享的需求日益迫切。与此同时,隐私保护的需求也不断提高。隐私保护相关的研究是数据科学中值得重视的热点之一。随着隐私保护研究的深入开展,其研究成果将会给数据开放提供有力保障,推动数据资源的共享利用。

猜你喜欢

标识符攻击者差分
RLW-KdV方程的紧致有限差分格式
基于底层虚拟机的标识符混淆方法
符合差分隐私的流数据统计直方图发布
数列与差分
DOI标识符查找文献的方法
基于区块链的持久标识符系统①
DOI标识符查找文献的方法
正面迎接批判
正面迎接批判
有限次重复博弈下的网络攻击行为研究