XML信息共享中隐私保护技术研究
2010-10-16门爱华秦晓薇
邹 妍,门爱华,秦晓薇
(赤峰学院 计算机科学与技术系,内蒙古 赤峰 024000)
XML信息共享中隐私保护技术研究
邹 妍,门爱华,秦晓薇
(赤峰学院 计算机科学与技术系,内蒙古 赤峰 024000)
随着计算机处理能力、存储技术以及网络技术的迅速发展,信息电子化程度得到了极大的提高,这也使得XML信息共享更加广泛地深入到人们的生产和生活的方方面面.但是,随之产生的隐私泄露现象屡见不鲜,所以,如何保护XML隐私数据和防止敏感信息泄露成为当前面临的巨大挑战.而信息共享中隐私保护研究的目标就是在保护数据隐私的同时又不影响数据应用.本文对隐私保护领域已有的研究成果进行了总结,对各类隐私保护技术的基本原理、特点进行了阐述,并介绍了各类技术的典型应用.在对已有技术深入对比分析基础上,指出了隐私保护技术的未来发展方向.
XML;隐私保护;数据发布
1 引言
XML数据挖掘和数据发布是当前数据库应用的两个重要方面.一方面,数据挖掘与知识发现在各个领域都扮演着非常重要的角色.数据挖掘的目的在于从大量的数据中抽取出潜在的、有价值的知识(模型或规则)[1].传统的数据挖掘技术在发现知识的同时,也给数据的隐私带来了威胁.例如,疾病控制中心需要收集各医疗机构的病例信息,以进行疾病的预防与控制.在这个过程中,传统数据挖掘技术将不可避免地暴露敏感数据(如“病人所患疾病”),而这些敏感数据是数据所有者(医疗机构、病人)不希望被揭露的.另一方面,数据发布是将数据库中的数据直接地展现给用户.而在各种数据发布应用中,如果数据发布者不采取适当的数据保护措施,将可能造成敏感数据的泄漏,从而给数据所有者带来危害.譬如企业发布的产品信息,或者上市公司发布的财务年报,如果不对发布的数据进行仔细甄别,就会给商业上的竞争者以可乘之机.所以,如何在各种数据库应用中保护数据的隐私,成为近年来学术界的研究热点[2].
隐私保护技术[3]的出现就是为了解决上述问题.具体的说,实施数据隐私保护主要考虑以下两个方面:(1)如何保证数据应用过程中不泄露隐私;(2)如何更有利于数据的应用.当前,隐私保护领域的研究工作主要集中于如何设计隐私保护原则和算法更好的达到这两方面的平衡.
本文对隐私保护技术的最新进展进行综述.对该领域的主要技术进行了分类阐述,在具体应用中对该技术的优缺点、适用范围等进行分析.在此基础上对隐私保护技术进行了综合对比与分析,并指明了隐私保护技术未来的研究方向.
2 主要研究方向与国内研究现状
2.1 隐私保护的主要研究方向
隐私保护的研究问题是由实际应用中不同的隐私保护需求决定的.通用的隐私保护技术致力于在较低应用层次上保护数据的隐私,一般通过引入统计模型和概率模型来实现;而面向数据挖掘的隐私保护技术主要解决在高层数据应用中,如何根据不同数据挖掘操作的特性,实现对隐私的保护;基于隐私保护的数据发布原则是为了提供一种在各类应用可以通用的隐私保护方法,进而使得在此基础上设计的隐私保护算法也具通用性.
2.2 国内研究现状
作为新兴的研究热点,隐私保护技术不论在理论研究还是实际应用方面,都具有非常重要的价值.在国内对隐私保护技术的研究亦受到学术界的关注与重视,包括清华大学、复旦大学、中国科技大学、北京大学、东北大学、华中科技大学等在内的多个课题组也开展了相关的研究工作.
国内关于隐私保护技术的研究目前主要集中于基于数据失真或数据加密技术方面的研究,如基于隐私保护分类挖掘算法[4]、关联规则挖掘[5]、分布式数据的隐私保持协同过滤推荐、网格访问控制等.
总的来说,国内关于隐私保护技术的研究还处于起步阶段,具有广阔的发展空间;与国外和我国港台地区的研究组相比,尚有一定的差距.
3 各类隐私保护技术的比较分析
3.1 各类隐私保护技术的分类与描述
本文将隐私保护技术分为以下三类:
(1)基于数据失真(Distorting)的技术:使敏感数据失真但同时保持某些数据或数据属性不变的方法.例如,采用添加噪声(Adding Noise)、交换(Swapping)等技术对原始数据进行扰动处理,但要求保证处理后的数据仍然可以保持某些统计方面的性质,以便进行数据挖掘等操作.
(2)基于数据加密的技术:采用加密技术在数据挖掘过程中隐藏敏感数据的方法.
(3)基于限制发布的技术:根据具体情况有条件地发布数据.
另外,对于许多新方法,由于其融合了多种技术,很难将其简单地归到以上某一类,但它们在利用某类技术的优势的同时,将不可避免的引入其它的缺陷.基于数据失真的技术,效率比较高,但却存在一定程度的信息丢失;基于加密的技术则刚好相反,它能保证最终数据的准确性和安全性,但计算开销比较大;而限制发布技术的优点是能保证所发布的数据一定真实,但发布的数据会有一定的信息丢失.
3.1.1 基于数据失真的隐私保护技术
数据失真技术通过扰动(Perturbation)原始数据来实现隐私保护.它要使扰动后的数据同时满足:
(1)攻击者不能发现真实的原始数据.也就是说,攻击者通过发布的失真数据不能重构出真实的原始数据.
(2)失真后的数据仍然保持某些性质不变,即利用失真数据得出的某些信息等同于从原始数据上得出的信息.这就保证了基于失真数据的某些应用的可行性.
3.1.2 基于数据加密的隐私保护技术
在分布式环境下实现隐私保护要解决的首要问题是通讯的安全性,而加密技术正好满足了这一需求,因此基于数据加密的隐私保护技术多用于分布式应用中,如分布式数据挖掘、分布式安全查询、几何计算、科学计算等.在分布式下,具体应用通常会依赖于数据的存储模式和站点(Site)的可信度及其行为.
分布式应用采用两种模式存储数据:垂直划分的数据模式和水平划分的数据模式.垂直划分数据是指分布式环境中每个站点只存储部分属性的数据,所有站点存储的数据不重复;水平划分数据是将数据记录存储到分布式环境中的多个站点,所有站点存储的数据不重复.
对分布式环境下的站点(参与者),根据其行为,可分为:准诚信攻击者(Semi-honest Adversary)和恶意攻击者(Malicious Adversary):准诚信攻击者是遵守相关计算协议但仍试图进行攻击的站点;恶意攻击者是不遵守协议且试图披露隐私的站点.一般地,假设所有站点为准诚信攻击者.
3.1.3 基于限制发布的隐私保护技术
限制发布即是有选择的发布原始数据、不发布或者发布精度较低的敏感数据,以实现隐私保护.当前此类技术的研究集中于“数据匿名化”:即在隐私披露风险和数据精度间进行折中,有选择地发布敏感数据及可能披露敏感数据的信息,但保证对敏感数据及隐私的披露风险在可容忍范围内.数据匿名化研究主要集中在两个方面:一是研究设计更好的匿名化原则,使遵循此原则发布的数据既能很好地保护隐私,又具有较大的利用价值.另一方面是针对特定匿名化原则设计更“高效”的匿名化算法.本节内容将围绕这两方面展开.
3.2 比较分析
容易看出,每类隐私保护技术都有不同的特点,在不同应用需求下,它们的适用范围、性能表现等不尽相同.表1是对隐私保护的对比分析.
4 总结与展望
随着信息不断膨胀、信息获取渠道越来越多样化,数据库的应用无处不在,不论是在理论研究还是实际应用领域,对隐私保护技术进行研究都具有非常重要的意义.但由于隐私保护技术涉及多学科交叉且发展时间较短,还存在许多问题有待进一步研究:
4.1 分布式和Web环境下的隐私保护研究
随着分布式数据库以及Web应用的发展和普及,众多已有的针对XML数据库应用的隐私保护技术不能满足分布式环境下的新需求.由于分布式环境下各站点相对独立、数据异构的特点,通讯、数据协同等其他操作将更加频繁.而这些操作,有意或无意间,都对敏感数据和隐私信息构成了威胁.
如何在分布式情况下,实现多点高效协同工作的同时,保证频繁的信息交互、数据传输行为过程中,不会给隐私信息、敏感数据带来威胁?如何在保护各独立站点私有隐私的同时,还实现对整个分布式系统的共同隐私的保护?如何使得隐私保护策略或算法在有效的同时,对分布式查询、存储以及网络拓扑结构的负面影响尽量的小?分布式数据库和Web具有巨大的潜力和广阔的应用前景,虽然在分布式环境下进行隐私保护的相关研究,将面临一系列新的问题和挑战,但相关问题的解决,将无疑对各种应用起到巨大的推动作用.
表1 隐私保护技术的对比分析
4.2 特定应用背景下专有隐私保护技术的研究
虽然数据库在所有领域都有广泛的应用,但是不同领域的应用场景却千差万别.不仅数据的表现形式、存储方式、数量、更新频率等都各不相同,而且隐私信息的表现形式、数量往往也是不同的.因此,众多领域和现实应用,都急切需要一种符合其实际情况和特点、针对性强、效率/效果优的隐私保护方法.
4.3 基于动态数据的隐私保护技术研究
大部分现有隐私保护技术都是基于静态数据集的,而现实世界中,数据库中的数据却是无时无刻不在变化,包括数据表现形式的改变、属性的增减、新数据的加入、旧数据的删除等.并且,数据库数据的这种变化,一般都不是完全随机、独立的,数据与数据之间,数据与数据变化之间,都是相互关联的.因此,怎样在这种更加复杂的环境下同时实现对动态数据的利用和隐私保护,是一个更具挑战的难题.
〔1〕周志纯.隐私保护数据挖掘研究.2008:5-19.
〔2〕王智慧.信息共享中隐私保护若干问题研究.2007:5-15.
〔3〕臧铖.个性化搜索中隐私保护的关键问题研究.2008:12-30.
〔4〕张斌.隐私保护的分布式关联规则挖掘算法研究.2007:4-21.
〔5〕仲波.基于关联规则的隐私保护算法研究.2007:6-27.
TP311.13
A
1673-260X(2010)02-0035-03
内蒙古自治区高等学校科学研究项目基金资助(NJzy08152)