APP下载

基于K-匿名技术的隐私保护探讨

2015-03-05贵州师范大学物理与电子科学学院葡贵州财经大学管理科学学院葵贵州师范大学物理与电子科学学院游子毅

电子世界 2015年17期
关键词:元组标识符数据表

贵州师范大学物理与电子科学学院 陈 葡贵州财经大学管理科学学院 陈 葵贵州师范大学物理与电子科学学院 游子毅



基于K-匿名技术的隐私保护探讨

贵州师范大学物理与电子科学学院 陈 葡
贵州财经大学管理科学学院 陈 葵
贵州师范大学物理与电子科学学院 游子毅

【摘要】大数据背景下,数据挖掘技术得到了新的发展。人们享受着科技带来的便利的同时也要遭受到安全攻击—隐私信息泄露,本文介绍了隐私信息泄露,分析简单的匿名技术处理会受到链路攻击,介绍并分析了K-匿名技术来解决链路攻击的问题,最后说明其安全性。

【关键词】链路攻击;K-匿名技术

引言

随着大数据时代的到来及数据挖掘技术的发展,人们享受着科技带来的便利,比如:当去医院看病时,可能不再像以前那样依赖医生,可以根据以往的病例分析出病人的病情,从而根据以往病例的用药,科技是一把双刃剑,人们在享受科技带来的便利的同时也遭受着其带来的安全威胁,比如从医院的病历数据中挖掘关联规则,以进行疾病的预防与控制。本文介绍如何使用K-匿名保护技术保护个人隐私[1]。

1 数据匿名化问题描述

数据匿名化是保护隐私信息的一个有效方法,通过改变原始数据中的部分数据,使得新数据不能跟其他信息结合而推理出隐私信息[1]。为了帮助大家理解数据匿名化,下面将对相关概念进行介绍。

表1.1记录了美国某医院在某一天新增的病例,这些病例属于微数据,包含了患者的姓名和所患疾病等隐私的信息。如果将这些微数据直接发布出去,将会导致患者隐私信息的泄露,可能会对患者的生活和工作带来不好的影响。从表中一眼就知道Mary患有Bronchitis。

使用数据匿名化技术保护隐私数据是目前研究的比较广泛的方法。把数据中能起到标识隐私信息的属性隐藏,再将数据发布,将表1.1病例中的身份信息—“姓名”隐藏,直观上无法知道某个患者患病情况,从一定程度上保护了隐私信息。然而该匿名化容易遭受链接攻击,例如,在马萨诸塞州,可以从Group insurance Commission(GIC)得到居民的健康信息表,其中包含邮政编码、性别、生日、健康状况等一百多个属性;同时,选民注册信息登记表容易获得。将健康信息表与选民注册信息登记表进行链接,攻击者可以很容易的知道多数在选民信息登记表出现过的选民的身体健康状况。所以应在数据发布之前对数据进行特殊处理使得隐私信息不被泄露[1]。本文采用K-匿名保护技术来保护隐私信息。

表1.2 K-匿名数据表(K=2)

表1.1 某医院病例微数据

2 k-匿名保护技术

为了更好的理解K-匿名保护技术,可将待发布的数据元组的属性分为以下几类四种。

标识符属性(identifiers):能够标识个体的身份属性。如身份证号,姓名,社会保险号等[2]。

准标识符属性 QI(quasi-identifiers):与其它数据表链接后能标识个体的身份的属性。如性别,出生年月日,邮政编码,种族的组合[2]。

敏感属性(sensitive attributes):数据发布时需要保密的属性。如薪水,健康状况[2]。

非敏感属性(non-sensitive attributes):可以公开的属性,即是否公开对用户的隐私无影响的属性,又

称普通属性[2]。

其基本思想是使同一等价类中的各个元组彼此之间无法区分,从而达到隐私保护的目的。其形式化的定义如下:

定义1 K-匿名(K-anonymit),表R(A1,A2,…,An)为原始数据表,RP(A1,A2,…,An) 为匿名化后的数据表,QID是与其对应的准标识符,称数据表RP满足K-匿名,如果RT[QID]中的每个序列值在RT[QID]中至少出现k次( k>1)。

例如表1.1是某个医院的原始数据表,将标识符属性(姓名)删除,接着经过K-匿名(K=2)处理后得到表1.2,表中每个元组的准标识符属性值(Sex、Age、ZipCode)都出现2次,元祖之间在准标识符上无法区分,即使跟其他表链接由于准标识符不能唯一标识元组,也不会造成隐私信息的泄露。

K-匿名技术是指在数据发布前对数据进行处理,使得发布后的数据集中每个元组都存在至少K个元组,这些元组在准标识属性取值相等。通过处理后即使攻击者与其他容易获得的数据表进行连接也无法唯一的确定敏感属性与用户之间的对应关系,仅能以不超过1/k的概率标识元组所属的个体,降低了隐私泄漏的风险[2]。

3 结束语

大数据时代背景下,数据容易获得,数据之间存在着千丝万缕的联系,原始数据表容易泄露隐私信息,把数据表中标识属性去掉后仍然容易遭受链路攻击,为了能切实保证隐私信息的安全,本文从概念、应用介绍了K-匿名保护技术,并说明了其安全性。

参考文献

[1]何贤芒,隐私保护中K-匿名算法和匿名技术研究[M].上海:复旦大学,2011.

[2]李林.基于K-匿名技术的隐私保护研究[M].杭州:杭州电子科技大学,2013.

陈葡(1985—),女,硕士研究生,现从事无线传感器与数据挖掘研究。

作者简介:

基金项目:“基于VANET的最佳路径选择研究 ”,2014年贵州省科学技术联合基金项目(黔科合LH字[2014]7045)。

猜你喜欢

元组标识符数据表
基于底层虚拟机的标识符混淆方法
Python核心语法
湖北省新冠肺炎疫情数据表(2.26-3.25)
湖北省新冠肺炎疫情数据表
基于区块链的持久标识符系统①
海量数据上有效的top-kSkyline查询算法*
基于列控工程数据表建立线路拓扑关系的研究
基于减少检索的负表约束优化算法
科研人员唯一标识符的理论研究现状剖析
数字图书馆推广工程唯一标识符体系构建研究*