差分隐私数据保护技术分析
2016-10-13西安武警工程大学研究生12队杨济华
西安武警工程大学研究生12队 杨济华
武警杭州士官学校 郭 程
差分隐私数据保护技术分析
西安武警工程大学研究生12队 杨济华
武警杭州士官学校 郭 程
数字化信息资源的广泛产生、联接、共享和应用为社会生产、生活提供极大便利的同时,也给个体敏感信息的安全带来了威胁。本文针对数据发布和分析环境下的隐私安全问题,研究了保护隐私的数据发布与分析算法,使其能够提供更高准确性和可用性结果的同时,确保个体的敏感信息不被泄露。
数据保护;隐私算法;差分隐私技术
1. 引言
互联网的发展进步令信息的记录、处理和传播变得极为便捷和广泛。随着计算机处理能力、数据库技术的提升,数字化形式的信息呈现爆发式的增涨,层出不穷的各类信息系统也将数据的采集、发布、存储和分析变得简单和高效。而信息社会为人类活动提供效率和便利的同时,也无声无息地记录了大量关于个人、部门、企业的数据信息。当这些信息被不正当使用时,隐私安全问题便随之产生,任何人都有可能面临大数据时代的隐私危机。造成这一现象的原因,一方面是大量的访问、共享以及分析数据方法手段的涌现,使得数据拥有者难以对数据进行有效的管理。尤其是涉及隐私问题,各类数据被大量的收集和发布,这个过程中广泛存在着隐私信息滥用的现象。另一方面,除了原始数据本身所具有的隐私信息以外,一些数据中所隐含的规则和模式同样是需要保护的敏感信息。在数据挖掘技术不断增强人们对信息驾驭能力的同时,如何防止其过程中隐私泄露也是一个亟待解决的问题。
2. 数据隐私保护研究概述
2.1隐私保护来源与发展
数据的隐私保护这一问题最早是由统计学家Dalenius在20世纪70年代末提出。他认为,保护数据库个体隐私信息,就是要使任何用户(调用者)在访问数据库时不能任意获取关于任意个体确切信息。在当时这一定义具有理论上的指导意义,而现在看来它是主观的和模糊的。
而经过之后若干年的研究与改进,提出了k-anonymity模型来处理在数据的发布当中的隐私泄露以至于被盗用的问题。
k-anonymity模型通常采用泛化和压缩技术对原始数据进行匿名处理,以得到满足k-anonymity模型规则的匿名数据。规则的核心是要求每组匿名处理后的数据中至少包含k条记录,每条记录都不能和其他至少k-1条记录区别开来,从而阻止攻击者根据类身份属性识别目标个体的对应记录。
k-anonymity及其扩展模型在隐私保护领域影响深远且被广泛研究,在它的基础上又诞生了一系列隐私保护模型。这些模型的基本思想都是将数据集里与攻击者背景知识相关的属性定义为准标识符,通过对记录的准标识符值进行一系列的泛化、压缩处理,使所有记录被划分成若干个等价类,每个等价类中的记录具有相同的准标识符值,从而实现将一个记录隐藏在一组记录之中,这类模型也被称为基于分组的隐私保护模型。
2.2隐私保护的缺陷与差分隐私
然而后续研究表明,这些模型存在两个主要缺陷:
第一,这些模型并不能提供足够的安全保障,它们总是因新型攻击的出现而需要不断完善。
第二个缺陷是这些早期的隐私保护模型无法提供一种有效且严格的方法来证明其隐私保护水平。
差分隐私:
差分隐私是在2006年针对统计数据库的隐私泄露问题提出的一种新的隐私定义。在此定义下,对数据集的计算处理结果对于具体某一条记录的变化是不敏感的,单个记录在数据集中或者不在数据集中,对计算结果的影响微小。差分隐私能够解决传统隐私保护模型的两个缺陷,首先,假设攻击者掌握了攻击目标之外其余所有记录信息,可以认为这是攻击者能够掌握的最大信息量(最大背景),而差分隐私保护无需考虑攻击者所拥有的相关信息,因为攻击者不可能掌握更加丰富的信息量。其次,差分隐私技术在数学基础之上对隐私保护进行了严格的定义,而且提供了良好的量化测评,使各个参数处理的数据集具有了可比性。
2.3差分隐私定义
差分隐私保护模型的提出脱胎于数据库安全理论中的一个简单构想:当数据集D中包含某个体A的信息时,在D上进行任意查询操作f(如排序、统计求和、求均值、取中位数以及其他复杂查询等),将所得结果记为f(D)。如果将A的信息从数据集D中删除后,再对D进行同样的查询操作,所获得的结果仍然为f(D),则可以认为,A的信息并没有因为被包含在数据集D中而产生额外的风险。
差分隐私的形式化定义如下:
则称算法A提供ε-差分隐私保护,其中Pr[X]表示事件X发生的概率,即隐私泄露的风险,由算法A的随机性所决定。参数ε称为隐私保护预算,ε越小,算法A在两个临近数据集上输出同样结果的概率越相近,隐私保护程度越高。
3. 新兴隐私保护技术前景
作为当前新兴的隐私保护技术,差分隐私在理论研究和实际应用方面都有着非常广阔的前景和重要的价值。该模型在提出之初,主要用于保护统计数据库的隐私安全,使其能在发布数据库的统计信息时保护其中个体的敏感信息。现有的研究成果已经证明,随着相应实现机制的不断完善与发展,差分隐私理论既可以应用于各种常见的统计查询、数据发布等场景中,也可以在更高级的数据分析领域发挥作用,如机器学习、知识发现等。理论上的可证明性和应用上的通用性使差分隐私理论得到了业内学者们的广泛认可。
4. 小结
本文围绕数据发布和分析环境下的隐私安全问题,致力于研究算法在保证个体敏感信息安全的同时,使数据发布与分析结果具有更高的准确性和可用性,以促进隐私上更加安全可靠、应用上更加全面丰富的信息资源共享——开发技术的发展。差分隐私技术作为新兴的隐私保护技术,能够更加完善先前的隐私保护技术所存在的利用其相关信息的盲点进行攻击这一漏洞,提供了更加可靠的隐私保护技术。
[1]李奕霏.“人肉搜索”引发的隐私权侵权及其法律规制[J].西北大学学报:哲学社会科学版,2010,43(5):67-72.
[2]曾子平.发布数据的隐私保护技术研究[D].重庆:重庆大学,2013.
[3]刘英超.面向分布式的数据挖掘隐私保护方法研究[D].哈尔滨:哈尔滨工程大学,2013.
[4]Aggarwal G,Feder T, Kenthapadi K,et al.Anonymizing Tables[J]. Lecture Notes in Computer Science,2009:246-258.