大数据处理和分析中的隐私保护研究综述
2019-03-02任雪斌杨新宇杨树森
任雪斌,杨新宇,杨树森,张 海
(1.西安交通大学 电子与信息工程学院, 陕西 西安 710049;2.西安交通大学 数学与统计学院, 陕西 西安 710049;3.西北大学 数学学院,陕西 西安 710127)
随着信息技术,特别是互联网、物联网、云计算等新技术的发展,人类社会已然进入了大数据时代。据国际数据资讯(IDC)公司监测统计,全世界的数据量大约以每两年翻一番的速度增长。预计到2020年,全球将拥有至少35ZB的数据量。著名的管理和咨询公司麦肯锡认为“大数据已经渗透到工业和商业领域的各个方面,成为影响生产的一个重要因素”。大数据正日益对全球生产、流通、分配、消费活动以及经济运行机制、社会生活方式和国家治理能力产生强烈冲击。
大数据蕴含着现实世界中各个领域的碎片化信息,具有不可估量的潜在价值。随着计算技术与分析方法的突破,分析和解读这些大数据信息、挖掘其中的价值已成为可能。广泛存在的大数据具有十分巨大的潜在价值:可以提供社会科学的方法论,支持基于数据的决策,助推管理科学与方法的革命;形成科学研究的新范式,支持基于数据的科学发现,减少对精确模型与假设的依赖,使得过去不能解决的问题变得可能解决;形成高新科技的新领域,推动互联网、物联网、云计算、人工智能等行业的深化发展,形成大数据技术产业;成为经济发展和社会进步的新引擎,深刻影响全球生产、流通、分配与消费模式,改变人类的思维、生产和生活方式,推动社会变革和进步。
对海量大数据的处理和分析给人们认识自身和世界带来便利、给人们的生产生活提供各种服务的同时,也带来了前所未有的隐私忧患。例如,互联网上用户个人资料、浏览痕迹、社交联系很容易被记录,物联网下智能设备普遍集成了GPS、加速度、磁场、姿态、温度、光线等各式传感器,云计算环境下金融交易、电商数据统统被集中存储。对这些敏感大数据的直接处理和分析,意味着人们的社交关系、喜好倾向、资产负债、日常行为、所处位置、周边环境,甚至心跳、血压等生理特征信息都可以成为被记录和分析的数据[1]。这些关乎人自身或者环境的敏感信息如果被超出其目的地滥用或者在数据产生到消亡的生命周期内无法得到有效保护,都可能会造成隐私的暴露[2],给人们的生命财产安全带来威胁。一方面,数据采集的便利性和高价值,极大地刺激了人们进一步采集、存储、循环利用个人数据的野心。另一方面,由于数据存储成本的持续下降和数据分析工具的不断发展,采集和存储的数据量将爆发式地增长。
大数据处理和分析中的隐私问题会给各类数据提供者带来潜在人身财产安全威胁,例如,已被证明可以通过用电大数据对住户用电器使用情况进行分析,从而分析用户的行为隐私,其识别准确率可以高达85%以上[3],用户隐私一旦被不法分子掌握,后果不堪设想。也因此,隐私问题还会引起民众对各类大数据处理和分析系统安全性和合理性的怀疑,甚至造成民众的抵触心理,有很多组织和个人因为隐私担忧和相关问题抵制各类大数据系统的建设[4],这无疑会阻碍大数据系统的建设实施和健康发展,妨碍大数据真正价值的发掘。因此,构建具有隐私保护的大数据处理和分析算法在大数据时代具有强烈的紧迫性和严峻性。
围绕敏感大数据的隐私保护这一主题,近年来,我们对隐私保护的数据发布和分析算法进行了大量研究。本文对数据隐私保护成果进行了总结,重点对隐私保护的发展、隐私度量标准和模型,相关研究现状、挑战及前景进行重点阐述和分析,为后续研究人员提供参考和思路。
1 隐私保护技术手段
大数据隐私保护这一主题,伴随着大数据处理和分析问题的出现,受到了学术界、工业界以及政界的广泛关注,各界也投入了大量的精力对其进行研究并积累了一定的研究成果,但是对于隐私问题分析和保护的研究还处于初级阶段,实际上,包括有关隐私本身的定义、危害和保护原则等问题都尚处于发展阶段,技术上隐私的形式化分析、量化衡量和保护方法更是发展较慢,很多相关研究都是借鉴传统意义上小数据集的隐私保护策略。其研究主要还是针对静态数据记录的隐私性,因此其诸多隐私保护的基本概念、衡量指标、保护原则都是由传统数据库中发展演变而来。因此,为了清晰地展现相关隐私保护技术的发展脉络,我们主要基于静态数据库介绍当前隐私保护的研究现状。隐私保护的现有研究按解决思路主要分为如下几类:基于匿名的方法、基于加密的方法、基于干扰的方法、基于噪声的方法和基于差分隐私的方法。
1.1 基于匿名技术的隐私保护
早期的很多隐私保护研究都采用基于匿名的方法来避免用户身份被识别,而且初期的研究主要集中在静态的数据库中。较为常见的是避免身份泄露的K匿名(K-anonymity)[5]策略,其通过对准标识符进行泛化后,将数据记录分为多个等价类,而要求每个等价类中包括至少K条记录,从而保证单条记录被推测连接的概率小于1/K,从而提供隐私保证。然而K匿名并未保证等价类中记录的多样性,会造成等价类之间明显的差异,从而使得攻击者可以根据准标识符对目标对象的取值特性进行判定并获取用户隐私。为此,提出了L多样性(L-diversity)[6]的模型,要求每个准标识符组中对应的敏感属性取值至少有L个代表性取值。针对L-多样性中可能存在的偏斜攻击问题,又提出了T-邻近(T-closeness)[7]的匿名隐私保护模型,要求每个准标识符组中敏感属性的分布与整个数据集中敏感属性取值分布接近,进一步强化了隐私保护。
然而,匿名方法主要适用于参与者数量小,数据通过传统访问控制方法得到严格保管的应用中,一般使用于封闭的场景中,例如,严格的生理信息采集监测等电子医疗感知场景。而对于大型数据共享的场景中,匿名化方法则存在较大的隐私暴露风险。已有研究表明,攻击者能够在背景知识的帮助下对匿名的数据集进行连接匹配,发起“连接攻击”,唯一地确定用户身份,从而侵犯隐私,例如Narayanan A等人证明了大量数据集下可以有效地进行反匿名和连接攻击[8]。尤其是在智能感知系统这样的大数据环境下,数据的属性维度急剧增加,普通的匿名策略遭受连接攻击的可能性也呈指数级增长。
1.2 基于加密技术的隐私保护
加密技术一般可以提供可验证的网络安全,因此在数据汇聚中也得到广泛关注和研究。数据汇聚中常用的加密技术包括:多方安全计算[9]、同态加密、秘密共享[10]、承诺机制、零知识证明、区块链技术等。多方安全计算与同态加密均适用于多方数据聚合过程中,可以保证在多用户密文上进行的操作有效映射到明文对应的操作,从而在不揭露单个用户记录的基础实现对数据整体操作。零知识证明则可以在不暴露具体记录的情况下,提供相应知识的证明,亦可用于隐私保护的相关机制设计中。区块链是近来较为热门的技术,其设计初衷和密码学技术本身使之可以广泛应用于很多隐私保护问题当中。
基于加密的技术,虽然可以提供可验证的数据安全,但是仍然具有应用的局限性。通常,加密操作将会导致较大的计算开销和能量消耗,给很多资源受限的分布式感知设备带来很大负载,而且加密策略通常受限于某个具体的技术,不同的数据和不同的应用可能需要新的加密策略。最重要的是,加密策略通常仅仅保护了数据的机密性,而非真正意义的隐私。一方面,普通的信道加密策略事实上仅仅保证了数据传输的机密性,可以抵御窃听者的窃听攻击,但是数据最终仍会被解密接收并被传递到后续的数据处理环节,例如,系统中不良的操作人员以及后续分析中的第三方用户都可能访问到解码后的明文,使得用户的隐私面临极高的暴露风险;另一方面,即使保证仅仅有统计数据结果被接收,在多样化的数据处理和分析系统中,仍然不能有效保证用户的隐私安全。最常见的就是差异攻击方式[11],例如,数据分析过程中通过上述加密技术很容易准确得到N个用户数据的统计查询结果,同理,N+1个用户的统计查询结果同样也能获得,通过比较这两者间的差异,可以得到对第N+1个用户数据有效推测,不能真正意义上保护用户隐私。
1.3 基于噪声技术的隐私保护
基于噪声的保护技术,通过注入随机噪声来保护用户隐私,同时会使得数据失真,因此需要实现隐私和数据效用的折衷。该方法同样具有开销小,效率高等特点,而且更为灵活。此外,很多噪声方法以分布式的方式在用户原始数据上进行操作,能够有效从源头上保证用户数据的隐私性。常见的随机噪声包括加和性噪声、乘性噪声和旋转噪声。例如,Agrawal等人首先提出将加和性噪声用于隐私保护的数据挖掘中[12],Kim J等人则提出使用乘性噪声隐藏连续数据[13], Liu K等人则进一步提出将乘性噪声应用于分布式数据挖掘中保护隐私[14]。Bohli J M等人证明了分布式节点通过添加同参数的高斯分布噪声通过中心极限定理可以保证噪声在数据汇聚后互相抵消到一个期望为零方差有限的误差变量,从而保证误差有限[15]。Lin H Y等人具体设计了一个智能仪表系统中的隐私保护机制,该机制通过向智能仪表系统中数据添加独立的高斯噪声以达到负载监控的目的[16]。为了去除噪声在关键计费中的误差,作者还引入了加密策略来二次消解误差,但是会导致大的计算开销和负载。
1.4 基于差分隐私的隐私保护
早期噪声保护方法的研究出发点还只是实现直观的隐私效用折衷,从一定程度上并未形成有效的隐私保护范式和数学证明。为此,近来由著名学者Dwork C提出的差分隐私(differential privacy)有效解决了此问题[17]。差分隐私保护可以保证,在数据集中添加或删除一条数据不会影响到查询输出结果,即无论特定个体记录是否在数据集中,对该数据集的任意计算分析或查询的结果在形式上不可区分因此,即使在最坏情况下,攻击者已知除一条记录之外的所有敏感数据,仍可以保证这一条记录的敏感信息不会被泄露。差分隐私,是一个具有数学可推导和可验证的隐私范式,其保证相邻数据集在数据汇聚函数的输出结果非常相似甚至无法有效区分,从而防止攻击者通过操纵汇聚结果来推测单个数据,以达到保护用户隐私的目的[18-19]。差分隐私可以通过拉普拉斯机制[18]、指数机制[20]和几何机制[21]等实现,较常见是通过拉普拉斯机制给汇聚结果添加根据全局敏感度校准后的拉普拉斯噪声实现差分隐私[18],其中全局敏感度反映了数据集中单个数据对数据分析结果能产生的最大差异。
差分隐私因为其严格的数学证明和灵活的组合特性,目前受到越来越多的关注,并逐步成为数据隐私保护的事实标准,被广泛应用于各类数据分析和数据挖掘的隐私保护应用中。因此,本文将重点以差分隐私为主要隐私保护理论和技术基础,对大数据处理和分析中的隐私保护技术进行总结分析。
2 差分隐私
差分隐私[17]给定相邻数据集D和D′,二者互相之间至多相差一条记录,即|DΔD′|≤1。给定一个隐私算法A,Range(A)为A的取值范围,若算法A在数据集D和D′上任意输出结果范围S(其中,S⊂Range(A))满足下列不等式,则算法A满足ε-差分隐私,且其隐私性可以用参数ε进行衡量:
Pr[A(D)∈S]≤eεPr[A(D′)∈S]
其中,概率Pr[·]由算法A的随机性控制,也表示隐私被披露的风险;隐私预算参数ε表示隐私保护程度,ε越小隐私保护程度越高。由定义也可看出,差分隐私实际上限制了单个记录对算法A输出的影响,使得单个用户记录的差异导致的输出影响非常小以至于使得攻击者无法在两个相邻数据集合之间具有辨别优势。另外,还可以看出,要实现差分隐私的有效保护,还必须依赖随机算法A,一方面,算法A的输出具有一定的模糊性来保护隐私,另一方面,算法A还需要保证输出范围的精确性,也即数据的效用性。通常,实现差分隐私保护的算法A需要噪声机制的实现。
敏感度(sensitivity) 为了达到差分隐私,标准的方法就是给正确的输出结果中添加噪声。基本思想是使用添加的噪声来隐藏当数据集中单个记录改变时,输出结果之间的差异。因此,添加噪声的规模取决于输出函数的敏感度,即就是在最多有一个数据记录不同的数据集之间数据结果的最大差异[18]。分为全局敏感度和局部敏感度,定义如下。
定义1(全局敏感度) 对于给定的查询函数f:Dn→Rd,f的Lp全局敏感度定义为
其中,数据集D和D′之间至多相差一条记录。
定理1对于任意的f:D→Rd,当λ=Δf/ε时,添加满足拉普拉斯分布Lap(λ)的机制的输出结果满足ε-差分隐私[17]。
组合理论(composition theorem) 隐私保护机制面对复杂的应用场景和多样的查询时需要组合地使用差分隐私保护机制。差分隐私的组合性质可以用来分析差分隐私保护机制在不同组合方法下的性能变化情况。其中,差分隐私有两个重要的组合性质[18]。
定理3顺序组合(sequential composition)假设每一个算法Agi提供εi-差分隐私,则数据库D上的顺序的Agi算法提供∑εi-差分隐私[18]。
定理4并行组合(parallel composition)假设每一个算法Agi提供εi-差分隐私,则一系列不相交数据集Di上的算法序列Agi提供εi-差分隐私[18]。
除了以上基本的差分隐私模型外,在针对连续动态数据的场景中还包括事件级隐私和用户级隐私的高级模型,以及针对内部攻击而提出的泛隐私模型[22]。
1) 事件级隐私(event-level privacy):事件级隐私保证在连续监测的情景中,若干时间点上某个事件是否发生的隐私,从而保护某个单一事件不被攻击者猜测到。
2) 用户级隐私(user-level privacy):用户级隐私保证在连续监测的情景中,由某个用户导致发生的一系列事件的隐私都得到保护,从而使得攻击者甚至无法推知某个用户是否参与到了系统中。相对事件级隐私,用户级隐私具有更好的隐私保护。
3) 泛隐私模型(pan privacy):针对隐私计算过程中可能产生的中间结果和内部过程本身所带来的隐私性,泛隐私模型提出同时使得计算的内部状态和外部输出都保证隐私性。
3 基于差分隐私的大数据隐私保护算法研究
大数据隐私保护是指针对敏感性数据,设计满足差分隐私的敏感大数据发布和分析算法,以保护数据中个体的隐私而实现对大数据整体效用性的获取[23-24]。大数据隐私保护的典型发布任务包括:直方图、流数据、图数据和轨迹数据的发布机制;大数据隐私保护的典型分析任务包括:聚类算法、判别分析及网络数据的结构学习等。接下来,本文重点对一些典型的基于差分隐私的数据发布任务与数据分析任务进行梳理总结。
3.1 基于差分隐私的大数据发布
直方图是反映数据分布特性的重要统计信息, 差分隐私的直方图发布旨在隐藏直方图每个桶上的频率, 其主要问题在于进行长范围查询时的过量累计噪声。 为此, Hay等人[25]提出Boost1方法并利用一致性约束对发布结果进行约束推理的后置技术提升最终发布结果的准确性。 而Xu等人[26]同时提出NoiseFirst和StructureFirst两种方法。 前者先对直方图添加噪声后利用动态规划技术合并近邻相似的桶并最小化重构目标函数; 而后者则先合并原始等宽直方图中近邻相似的桶以减小查询敏感度后添加噪声。 与StructureFirs类似, 先对直方图自身结构进行重新组织的方法还有Boost2[25]和P-HPartitionb[27], 前者利用mary树重新组织和构造直方图的敏感性; 而后者[27]利用层次聚类自适应地对桶进行分割直到最优的合并桶个数。此外,文献[28]使用基于小波的Privelet方法对原始等宽直方图进行转换,文献[29]采用傅里叶变换有损压缩直方图。整体上,现有研究仍然着眼于小数据集的单一或较低维度直方图发布,如何在大数据处理中,对多维甚至高维直方图进行满足差分隐私的准确性发布仍是未来重要的研究问题。
流式数据发布的主要问题在于如何开采利用流中数据的相关性减小隐私预算的消耗。文献[30]利用二叉树结构方法,文献[31]提出权重衰减发布方法,文献[32]提出DMFDA算法研究流数据的发布;文献[33]针对{0,1}数据流提出了级联缓冲计数器算法以自适应地根据数据中“1”的出现频率来决定流更新发布的时机以减小隐私预算消耗。文献[34]提出了FAST机制,利用PID控制算法来自适应更新差分隐私保护后数据流的结果并利用卡尔曼滤波对流数据效用性进一步进行提升。早期的流数据隐私保护主要关注于事件级隐私,即仅保护某个时间点事件是否发生,而却无法保护某个用户在多个事件中的用户级隐私,尤其是无限数据流。为此,文献[35]提出了新的ω-事件隐私的概念以保证无限流中ω长度的窗口内的任何事件序列的隐私,并设计了相应的隐私预算分配方案。而针对多维数据流间的相关性,文献[36]提出了基于时空关系的实时数据流发布隐私保护机制RescueDP,其主要结合了FAST和ω-事件隐私的概念,并利用了多维数据流间的相似性进行动态分组以降低小数值维度的扰动噪声。目前,流数据发布中的隐私保护仍停留在对简单同质数据流的处理,对于更为复杂的高维异质数据流的隐私保护也存在着相当的难度。
图数据的发布广泛应用于社交网络分析中,其中社交用户的隐私自然成为了参与者的重要关切。针对图数据发布中的差分隐私研究,主要分为边差分隐私和节点差分隐私。边差分隐私保证发布结果不会泄露图中是否包含某条边。文献[37]最先研究了在边差分隐私的保证下计算社交网络图中的三角关系并提出利用局部敏感度来校准子图计数中的噪声。文献[38]等则在此基础上进一步研究了对ε差分隐私的K-三角计数和满足(ε,δ)差分隐私的K-星型关系计数。文献[39]指出原始图相似的并具有特定统计特性的同构图可以用于发布对原始图的准确查询,并利用指数机制来搜索大量原始子图的同构图以发布子图查询。类似地,文献[40]则使用基于密度的方法重构原图。节点差分隐私保证了单个节点是否在图中的不可区分性,其比边差分隐私的定义要更为严格,并且由单个节点改变造成的敏感度通常与图的规模成正比。一般而言,许多统计查询在节点度数比较小的图中具有较小的敏感度,因此文献[41-42]提出了将原始图中超过给定度数门限的节点移除而转化为一个低度数限定的新图进行发布实现节点差分隐私。文献[43]研究了利用映射的思想并结合累积直方图和直方图合并的方法降低敏感度,从而在节点差分隐私的保证下发布图中节点的度分布。文献[44]则提出了节点差分隐私的迭代机制,利用递归的方法迭代返回任何类型子图的差分隐私计数结果,然而该方法通常是NP-难问题,实现高效的节点差分隐私仍然十分困难。
合成数据发布方法,不同于直接发布一大批隐私保护后的查询结果,而是通过发布一个隐私保护后的近似数据集供大批量查询。早期的研究将匿名泛化技术应用到非交互环境下来实现差分隐私保护,如文献[45-46]利用决策树构建算法来实现差分隐私保护数据发布。文献[47-48]则提出机器学习的过程可以用于数据集的发布,如文献[47]提出了利用指数机制不断搜索逼近在特定查询集合上有较高查询精度的合成数据集。文献[49]则结合指数机制和乘性权重迭代的方式快速获得近似最优的合成数据集。文献[50]提出了使用Copula函数对高维数据的联合概率分布进行拟合,不过,Copula函数无法处理值域较小的属性,从而限制了其实际应用。而且,前述的方法都面临算法复杂度高的问题[51-52],指出时间开销通常和数据规模和查询集合规模成指数增加,而且随着属性维度不断增高,这些方法都存在着扩展性差和低信噪比的问题,从而严重影响高维数据直方图发布的效用性,因而都难以处理高维数据集合的发布。为此,近来部分数据合成发布工作致力于对高维数据进行降维处理然后进行发布,如文献[51]提出了基于贝叶斯网络建模的高维数据发布机制Privbayes,计算属性和父属性集的相关性从而建模出一个贝叶斯网络来分析维间相关性并进行降维处理。文献[52]在Privbayes的基础上,提出了根据概率分布来计算属性维度中任意两维之间基于互信息的相关性,并通过依赖图和联合树等图结构来建模以确定相关性从而进行降维然后发布。文献[53]还提出了一种基于分布式多方计算的高维数据发布机制能够从多个数据服务器上进行联合数据发布。进一步,文献[54]提出了一种满足本地差分隐私的高维群智感知数据合成发布机制,有效解决了群智感知场景下参与节点对中心服务器隐私不信任的难题。以上工作虽可以勉强对高维数据进行处理,但是效率仍然低下,通常会消耗大量的隐私预算,而且一般仅适用于列联表查询,对多种复杂查询支持度并不好。因此,研究和设计大数据时代支持大量通用查询的高效非交互隐私保护的高维数据发布机制仍面临极大挑战。
3.2 基于差分隐私的大数据分析
针对基于差分隐私的聚类分析,文献[37]提出Sample-and-Aggregate框架实现了满足(ε,δ)-差分隐私的PK-means算法。该方法先随机将训练集分为若干个子集,在每个子集上运行K-means算法,得到若干结果,后采用平滑敏感度方法输出满足差分隐私的聚类结果。基于此,文献[55]在子空间聚类中引入Laplace和Exponential机制以实现差分隐私。文献[56]采用Johnson-Lindenstrauss变换来保证子空间聚类算法的差分隐私。此外,对于高斯混合的聚类问题常用EM算法实现。文献[57]指出若混合模型的联合分布满足指数族,则EM算法的每次参数更新由充分统计量的期望(即矩)完全决定,且矩的敏感度有界,因此可在每次迭代中加入Laplace或Gaussian噪声实现EM算法的差分隐私。针对大规模数据,需要设计高效、可行算法。
对于一般线性回归和Logistic回归问题,文献[58]提出函数机制FM来实现差分隐私。任意连续可微的目标函数均可写为多项式形式,FM通过扰动多项式系数来实现隐私保护;对正则化Logistic回归和正则化SVM差分隐私可统一到经验风险最下化(ERM)差分隐私框架下。文献[59]通过输出扰动和目标扰动实现ERM差分隐私,输出扰动方法即在算法结果上添加服从Gamma分布的扰动,目标扰动方法即在优化目标中添加服从Gamma分布的噪声,但两种方法均要求强凸及可微,对于SVM不可微的Hinge损失可通过可微的损失函数来逼近。基于此,文献[60]将ERM差分隐私扩展到惩罚函数不可微的情形;对于核方法,文献[61]提出对再生核希尔伯特空间(RKHS)上所有核函数均满足的隐私Kernal SVM算法;对于决策树的差分隐私,文献[62]在SuLQ平台开发了第一个差分隐私决策树算法,基于此,文献[63]在属性选择过程中引入Exponential机制,文献[64]提出随机决策树的隐私保护算法。对于在线学习的差分隐私,文献[65]通过对敏感度有界的在线凸规划(OCP)算法的每次迭代结果中添加Gaussian噪声来达到隐私保护。针对分布式场景,通过对算法输出结果扰动实现差分隐私的Logistic回归,进一步,针对通信过程中可能的隐私泄露,通过对算法迭代过程加噪的方式提出了分布式Logistic变量扰动算法。显然,关于此领域隐私保护学习算法尚处于初始阶段。
基于差分隐私的因果分析:因果分析的最典型总结是深度学习问题及算法。文献[66]通过将损失函数定义为不匹配训练集的惩罚,在深度学习算法中应用目标扰动实现隐私保护。由于损失函数是非凸的,因此采用小批量随机梯度下降算法,且在每步更新中加入噪声。文献[67]设计了一个分布式深度学习模型训练系统,使多方共同学习一个精确的神经网络。并用隐私随机梯度下降算法来实现(ε,δ)-差分隐私。文献[68]扰动了传统的深度自动编码器的目标函数,并采用Laplace机制来实现满足隐私保护的深度自动编码器算法。
基于差分隐私的隐变量分析:典型问题如特征提取、降维表示、稀疏表示等。主成分分析(PCA)是常用的降维方法,即找到数据投影方差最大的k个正交方向。文献[69]提出一个主成分分析的差分隐私机制。由于对称矩阵A的第一特征向量v是使vTAv最大的单位长度向量,该方法使用H(X,v)=vTAv作为Exponential机制中的得分函数从集合{v:vTv=1}中选择第一特征向量,并通过迭代依次计算k个最大特征向量。不同于此,文献[70]基于Exponential机制提出PPCA算法可同时选取k个最大特征向量。对于差分隐私下的特征提取问题,文献[71]基于Exponential机制提出一个满足ε-差分隐私的特征选择算法PrivateKD,但该方法要求特征均定性且每个特征取有限个值。
4 挑战与展望
基于差分隐私的敏感大数据发布和分析问题中的隐私保护具有重要的理论价值和现实意义,然而,现有的研究仍然主要面向属性维度较少的静态小数据集,真正实现很多大数据处理和分析问题中的隐私保护仍然面临着不小挑战。特别是,相对于传统的数据处理和分析时代,在大数据时代,数据的体量、生成速度和数据维度等多个方面的大数据特性都将更为严重地威胁用户的隐私,并带来极大的隐私保护挑战,具体表现在以下3方面:
1) 数据体量大,是指大数据时代敏感数据的量级也随之急剧增多,以社交化关系组织的人参与的社交网络和以标识到每个物体为目标的物联网,使得所有人和物的信息都可能会被采集。随着手机等日常生活设备逐步成为物联网中最广泛、最便利的感知终端,与个人息息相关的数据和信息被广泛地感知和在线分享,造成有意识或无意识的隐私暴露[72]。例如,ACM CCS 2013上的文章[73]验证了智能手机中最低权限的公共资源都会暴露用户的隐私,可用于追踪和定位发现用户。
2) 数据生成速度快,体现在大数据时代敏感数据在随时间剧增和精度不断提高造成全新的隐私威胁。如美国和欧洲部署的智能电表每6s采集一个实时读数,智能电表每天采集的数据的量和粒度远远超出传统抄表信息的量和粒度,电器本身独特的负载特征使得攻击者可以通过电量消耗情况远程监控住户的电器使用规律,从而推测用户的日常行为习惯、在家/外出等行为隐私[74-75]。
3) 数据的维度多并不断拓宽会造成很多现有隐私保护技术的失效。在具有多属性维的敏感数据处理和分析场景中,通过对多来源数据的内容进行交叉校验,隐私攻击者可以从中获取异常丰富且难以隔离的信息继而突破现有隐私保护策略(如告知许可、模糊化、匿名化)的藩篱。例如,匿名化方法对用户的姓名、标识、ID等敏感信息隐藏可以达到隐私保护的效果,然而随着数据维度的增加,已有研究结果证明通过对多个非ID的属性信息进行关联分析可以唯一地标识单个用户[8]。
可见,对于敏感大数据的隐私保护,仍然面临诸多大数据时代的难点。同时,这也表明敏感度大数据处理和分析中的隐私保护又具有广阔的空间。因此,有必要针对大数据体量巨大、数据生成速度快和数据属性维度高的特性,展开真正适用于大数据时代的敏感大数据隐私保护技术的研究。
首先,针对敏感大数据规模体量大的特点,可以考虑对数据分块,以“分而治之”的思想对分块的数据进行并行化的隐私保护处理,在保证效用隐私均衡的前提下,达到提升隐私保护算法并行可扩展的目的。其中,关键的问题在于分块的数据间如何进行通信共享全局信息,保证隐私保护算法的准确性。
其次,针对敏感大数据生成速度快的特点,一方面可以考虑建立新的时序场景或者流场景的隐私保护模型,适当放松差分隐私的强隐私保证要求。另一方面,可以对数据流进行适当的采样或预测,降低隐私预算的快速消耗[76]。
此外,针对敏感大数据属性维度高的特点,可以考虑对数据模型的分块降维,在尽可能不破坏数据原始特征的情况下,对数据进行降维分组,从而在克服高维数据隐私保护算法过程的复杂性和低效用性问题。
最后,包括隐私保护理论很多根本性的东西也需要进一步研究,使之更为符合大数据时代多样性的特点。例如,如何降低其统一隐私安全标准,达到个性化隐私保护;如何适应数据中的异常点带来的过大数据敏感性问题。更重要的是,如何针对不同的应用场景特性,例如,医疗大数据、生物信息大数据、社交网络大数据、物联网大数据等,建立起符合不同行业规范和处理分析需要的隐私保护算法及其应用实现。