基于本地差分隐私的空间数据自适应划分算法
2022-05-14金媛媛倪志伟朱旭辉陈恒恒
金媛媛,倪志伟,朱旭辉,陈恒恒,陈 千
(1.合肥工业大学 管理学院,合肥 230009;2.合肥工业大学 过程优化与智能决策教育部重点实验室,合肥 230009)
0 概述
随着信息技术的快速发展,移动互联、社交网络、电子商务等热门应用收集了大量用户数据,这些数据常被用于研究人类行为、改善交通检测、进行位置感知推荐等方面,给人们的日常生活带来极大便利。然而,在大数据时代,数据挖掘和分析技术快速发展,用户的隐私数据很容易遭受攻击和泄露,用户的位置信息泄露会对个人隐私造成严重影响,因此,确保用户的位置隐私安全在数据统计分析中尤为重要。几乎所有的数据统计分析任务都依赖于对数据分布的理解,例如,在空间众包[1]中,根据一定区域内的工人数量进行任务分配[2],通过记录用户位置[3]呈现人群密度图,许多基于位置的应用程序利用用户的区域计数来优化实际问题。因此,在收集和发布用户位置数据时,如何有效地平衡数据隐私和数据可用性之间的关系成为目前亟待解决的难题[4]。
DWΟRK[5]提出一种差分隐私模型,为敌手在任意背景知识下的攻击提供有力保护,其为一种强健的隐私保护模型。传统的中心化差分隐私模型需要可信第三方数据收集中心来收集用户的原始数据,用户无法掌控自己的数据隐私,提高了个人隐私泄露风险,且互联网时代大众的隐私意识日益增强,用户可能不愿意与数据收集者共享私人数据,从而限制了差分隐私的应用。而本地差分隐私模型将数据隐私化的工作转移给每个用户,用户的信息经过自身设备的隐私处理后分享给其他人,避免在收集用户信息过程中第三方数据收集中心窃取或泄露用户隐私。谷歌、苹果、微软等公司已经基于本地差分隐私模型,在大规模数据域内对用户的私人数据进行了频率估计。
与中心化差分隐私模型相比,本地差分隐私模型具有强大的隐私保护性能,同时也会造成更大的误差。本地差分隐私下的非均匀空间数据发布存在如下挑战:在本地化设置中,数据收集者无法收集到用户的真实位置数据,传统方法将整个待发布位置区域均匀划分,而大规模位置空间划分值域通常较大,导致通信代价较高;对于非均匀空间位置数据,均匀划分方法导致数据采集误差较大,合适的数据空间划分方法能够有效提高发布数据查询结果的精度,在本地化差分隐私场景下,需要设计高效精确的自适应划分方法;在本地化设置中,差分隐私预算分割将产生极大的噪声误差,需要减少隐私预算分割,降低在本地差分隐私模型下采集数据的误差。
本文研究本地差分隐私模型下空间数据的采集和发布问题,提出一种空间数据分层自适应划分方法。分维度统计少量用户的扰动位置信息并结合KD-树划分思想初步划分位置空间,然后划分多层数据空间,在此过程中采用抽样技术对用户进行分组,利用分组用户统计结果所提供的先验知识,采取不同的划分粒度来对不同分布密度的数据空间进行高质量的空间划分。具体地,本文提出一种自适应树划分方法对位置空间进行多层划分,该方法以用户在不同节点的统计数为先验知识,通过阈值判断分割策略、重构树结构解决空间划分值域较大的问题。在本地化差分隐私条件下,分维度统计用户的扰动位置信息,利用少量用户的位置扰动信息估计空间区域密集程度,并结合KD-树划分思想初步划分位置空间,以降低位置空间划分值域和数据采集误差。针对本地差分隐私模型下由隐私预算分割造成的数据可用性低的问题,提出一种基于用户集合采样的层次划分方法,将用户随机分为多个不相交的子集,以有效解决隐私预算分配次数过多的问题并降低差分隐私噪声。
1 相关工作
隐私数据发布面临的主要挑战是如何设计一种差分隐私机制,在保护用户隐私的同时提高查询结果的准确性。位置空间数据[6]是一组有序的数值,在差分隐私模型下处理位置空间数据需要将一个范围的值作为一个分类值,而分类粒度既取决于隐私参数,又取决于数据的分布,在这种方式下选择合适的分类粒度对于发布数据的精确度具有很大影响。在中心化差分隐私中,已经有很多国内外学者对隐私空间的划分做了突破性研究。
CΟRMΟDE 等[7]提出隐 私空间划分(Private Spatial Decomposition,PSD)的概念,其基本思想是:基于空间索引结构将数据区域划分为互不相交的区块,其中,每个节点表示划分的区块范围,然后发布每个节点中的计数或频率。QARDAJI 等[8]提出基于网格的分区策略,该策略将数据区域均匀地划分为等宽的单元格,为每个单元格计数添加拉普拉斯噪声,这种划分没有考虑空间数据具体的分布情况。针对空间数据分布的不均匀性,文献[8]提出一种空间数据的自适应划分策略,其基本思想是:在稀疏区域进行粗粒度划分,在稠密区域进行细粒度划分,然后根据2 种粒度的划分区块计数,响应范围查询计数。文献[9]根据完全四分树结构划分数据域,发布各层节点的信息和噪声计数来响应范围查询,但在偏斜的数据集中,其划分的节点不平衡,这对于查询回答而言效果并不理想。
划分数据区域通常分为数据独立和数据依赖2 类方法,均匀网格划分和完全四分树划分方法属于数据独立的方法,划分区域不依赖于数据点的数量或分布,而在实际数据集应用中,数据可用性和效率并不理想,因此,学者们开始对数据依赖的划分方法进行研究。INAN 等[10]提出基于KD-树的数据依赖结构划分数据空间,但其需要利用指数机制[11]保护每一层次的分割线,划分层次较高时隐私预算耗费很大。文献[12]提出一种基于稀疏向量技术的KD-树空间分割方法,该方法通过稀疏向量技术判断是否分割树节点,从而控制节点的噪音值。上述研究都是在有可信第三方数据收集中心的前提下,采用拉普拉斯机制对计数值进行扰动,无法在本地差分隐私模型中直接应用。
本地差分隐私常被用于解决统计分析任务中用户的隐私问题。Google[13]提出的RAPPΟR 方法利用Bloom Filter 技术和随机响应技术扰动数据,其为频数估计中的经典算法,已经被谷歌Chrome 用于收集用户的使用数据,但其通信代价较大。KAIRΟUZ等[14]提出的o-rappor 方法应用哈希映射和分组技术,针对属性域没有先验知识的情况对用户隐私数据进行频数统计。BASSILY 等[15]提出的S-Hist 方法针对分类型数据,使用柱状图列出数据中最频繁出现的项目及其频率估计数,这种方法基于随机矩阵投影技术从编码向量中随机选取一个比特,有效降低了通信代价。文献[16]利用随机响应方法解决分组无关问题模型存在的隐私泄露问题。文献[17]提出一种数值域离散化的方法,用于解决本地差分隐私下数据域密度估计问题,表明利用域的数值特性有利于平衡数据的实用性和隐私性。文献[18]提出本地差分隐私模型下的多维数据分类机制,其对数据的不同维度分别设置隐私预算,但是无法保证数据的可用性。
上述本地差分隐私模型下的频率估计方法多用于一维数据,目前对于二维空间数据的发布还存在不足。文献[19]提出一种室内定点采集人口统计数据的方法,用于估计室内区域的密度,但其应用范围较窄,且对于分布不均的数据集误差较大,难以适用于大规模区域数据的采集和发布。张啸剑等[20]提出一种空间范围查询方法,首先采用四分树索引均匀划分网格,数据扰动过程采用层次随机抽样的方法,该方法能够有效降低通信代价,但无法根据数据集的分布自适应地划分区域。文献[5]基于随机映射矩阵提出PCE 方法,用户可以根据自身需求进行个性化隐私设置,并统计不同区域中的用户数。霍峥等[21]提出一种位置数据众包采集方法,其通过构造维诺图对路网空间进行分割,但该方法仍然是与数据分布无关的划分方法,空间范围查询精确性较低。
综上,在中心化差分隐私中通常根据真实数据集的分布情况来自适应划分数据空间,然而,在本地差分隐私场景下无法获得真实数据,因此,中心化差分隐私中的划分方式不能直接应用于本地差分隐私。目前,基于本地差分隐私的二维空间数据发布方法主要是在数据域上设置等宽的网格[19],或者在数据域上构造层次均匀的分区结构[20],这些方法无法针对偏斜和非均匀数据集进行划分,导致稀疏区域产生大量空节点,大幅增加了噪声误差,而稠密区域划分不充分,容易产生较大的均匀假设误差。为了解决上述问题,本文提出一种基于本地差分隐私的空间数据分层自适应划分算法KDG-HT,目的是使数据收集者能够估计输入数据的分布情况,从而确定合适的划分粒度。
2 相关定义与问题描述
2.1 本地差分隐私
传统的差分隐私技术假设存在一个受信任的数据收集者,负责收集用户的私人信息,并通过扰动算法发布信息。然而在实际中,很难找到让用户信任并愿意共享私人信息的数据收集中心,本地差分隐私不假设用户彼此之间存在任何信任,用户彼此间不通信,每个用户通过一个扰动算法独立发布自己的信息。
定义1(本地差分隐私[13])给定随机算法A及其输出域Ο,对于用户端的所有数据对νi和νj,随机算法A满足本地差分隐私当且仅当:
其中:ε为隐私预算,ε值越小,算法对用户的隐私保护程度越高。式(1)表明,通过观测算法的输出无法判断输入值是νi还是νj。
随机响应技术[22]是实现LDP 的经典方法,它的主要思想是通过对敏感问题响应的不确定性来保护用户的隐私信息,即用户以p的概率翻转它来给出真实答案,以1-p的概率给出其他答案,用户不再需要信任任何中间数据收集者。例如,数据收集器要计算N个用户中吸烟者的比例,于是对N个用户提出问题:“你吸烟吗?”用户的回答有“是”和“否”2 种,为了保护隐私,每个用户投掷一枚非均匀硬币,出现正面的概率是p,出现反面的概率是1-p,用户抛出硬币,若出现正面,则回答真实答案,否则,回答相反的答案。
定理1(序列组合性[23])给定数据集D和n个随机算法{A1,A2,…,An},将满足εi-差分隐私的多个算法Ai进行序列组合,从而满足ε-差分隐私,其中,ε=
定理2(并行组合性[23])将给定的数据集D划分为若干不相交的子集{D1,D2,…,Dn},A为满足ε-差分隐私的任一随机算法,则算法A在{D1,D2,…,Dn}上的系列操作满足ε-差分隐私。
本地差分隐私与中心化差分隐私都具有序列组合性和并行组合性[23]。定理1 序列组合性表明有一个算法序列同时作用在一个数据集上时,最终的差分隐私预算等于算法序列中所有算法的预算之和[24],AG 方法以及大多数树结构等中心化差分隐私保护方法都应用了这一性质。并行组合性表明,在数据集的不相交子集上应用满足ε-差分隐私的算法,最终的差分隐私预算仍然为ε,本文正是利用这一性质对空间数据实现本地差分隐私保护。
2.2 KD-树空间分割
KD-树是在K维空间中对数据集进行分割的一种二叉树结构,通过指定划分维度di和划分值ν来确定一个K-1 维的超平面,将多维空间划分为di值小于ν和di值大于ν的子空间。在KD-树的不同层,依次选择K个维度中的一个,本文利用KD-树将二维空间数据划分为稀疏区域和密集区域,根据每个维度的区间密度确定划分维度和划分值。假设X轴区间密度分布Y轴区间密度分布0.3},稀疏区间包括{x1,x3,y1}。基于传统网格划分方法UG 与基于KD-树划分的空间平面图如图1 所示,在采用KD-树进行划分时,避免了稀疏区域被过度划分,在大规模数据空间划分应用中能够有效降低值域。
图1 空间分割效果对比Fig.1 Comparison of spatial segmentation effects
3 基于用户分割的空间自适应划分算法
3.1 设计思想
本文在本地差分隐私模型的基础上,提出空间数据分层自适应划分方法KDG-HT,以对空间进行细粒度的划分,KDG-HT 方法流程如图2 所示。首先,对位置空间进行粗粒度划分,基于本地差分隐私模型收集抽样数据,改进值域划分方式,利用位置数据分别从不同维度估计区域的用户位置分布情况,结合KD-树划分思想对区域进行粗粒度划分;然后,利用随机采样技术对用户分组,使其满足差分隐私的并行组合性,避免隐私预算分割造成过大的噪声误差;最后,在粗粒度空间划分的基础上,根据分组用户统计结果所提供的先验知识估计用户分布情况,对位置空间进行细粒度划分,得到满足本地差分隐私的空间数据统计结果。
图2 KDG-HT 数据发布方法流程Fig.2 Procedure of KDG-HT data publishing method
中心化差分隐私模型下的空间数据发布通常采用隐私预算分割策略,例如,在基于树的空间索引技术中,依据定理1 将隐私预算分别分配给空间索引的不同层次,实现差分隐私保护。然而本地差分隐私使用的随机应答机制对于隐私预算较为敏感,隐私预算分配到每个划分层次后所造成的噪声误差极大,因此,隐私预算分割策略在本地差分隐私中不适用。
由于用户随机分组不影响隐私性,因此本文依据定理2 提出一种用户分割策略,将用户集合分为K组从而保持隐私预算不变。在用户分割策略中,存在2 个方面的噪声影响:
1)由于子数据集分布与总体分布可能不同,使得数据集划分引入抽样误差。
2)每个划分层次的用户总计数减少,会放大噪声的影响。
由于抽样误差相比隐私预算分割所造成的噪声误差几乎可以忽略不计[17],同时可以通过KDG 算法降低划分层次,控制由用户总计数减少所造成的噪声影响,因此本文算法采用的用户分割策略能够有效降低误差。
3.2 算法实现
3.2.1 基于密度的KD-树自适应划分算法KDG
KDG 算法描述如算法1 所示。
算法1KDG 算法
KDG 算法改进了值域划分方式,将区域分为m+n个区间,相比于传统的均匀网格将区域分为m×n个区块,能够大幅减少值域范围,从而降低位置数据采集造成的噪声误差。从X轴、Y轴2 个维度分别划分区间,发送给随机采样的少量用户集合U′,用户位置的不同维度数据在本地进行扰动后发送给收集方(步骤1~步骤7),收集方分别统计X轴和Y轴2 个维度各区间的频数,并对估计数进行修正(步骤8)。根据设定的横、纵坐标的密度阈值判断区间是否为稀疏区间,获取用户在X轴、Y轴的分布情况(步骤10~步骤11)。由于初步获取的用户分布情况并不准确,因此需要根据相邻稀疏区间的相对密度差rgdd 重构密度区间(步骤12~步骤14),rgdd(di,di+1)=,其中,ratei、ratei+1为相邻稀疏区间di、di+1的密度。以区间密度作为KD-树划分网格的依据(步骤15),选择区域中密度最小的稀疏区间,如果区间一端恰好为当前待分割区域边界,则将稀疏区间所在区域标记为稀疏区域;否则,按照稀疏区间端点将区域分割为3 个部分,稀疏区间所包含区域标记为稀疏区域。检查已划分的区块,若其中存在稀疏区间,且横坐标和纵坐标内都包含密集区间,则对区块继续划分,否则,停止划分并得到根据密度划分的网格Grid。
在密度自适应网格划分的基础上,仍需对稠密区域节点继续进行细粒度划分。MTR 算法以当前划分节点的用户子集统计计数C(Vk)为依据,区分节点是否继续划分,对达到计数标准的节点按照四分树或二分树划分方法分裂稠密区域节点(步骤2~步骤5),否则不再分割(步骤7),经过多次重构后获得多叉树划分结果。
算法2MTR 算法
3.2.2 LRR 算法
在不同的划分层次统计不同的用户集合,用户根据当前划分层次节点进行编码,将扰动值发送给数据收集者,扰动过程中所采用的优化随机应答机制与文献[25]一致,如算法2 所示。LRR 算法描述如算法3 所示。
算法3LRR 算法
3.2.3 空间数据分层自适应划分算法KDG-HT
KDG-HT 算法描述如算法4 所示。
算法4KDG-HT 算法
为了有效减少划分层次,保证大规模空间数据划分算法能够抽取充足的数据,KDG-HT 算法利用基于KD-树的密度自适应划分方法KDG,获得第一层密度网格Grid(步骤1~步骤2),将位置空间分为稀疏区域和密集区域,减少空区块的产生,避免大量空节点引入的噪声误差(本文中η值设为5%)。然后将网格按照分割标准采用四叉树进行分割,预估树的最大高度h,本文基于文献[8]设定:
其中:值域|Dom(D′)|表示处于密集区域的最大网格区域。
树结构每进行一次划分,则获取用户子集在当前树结构叶子节点的分布情况,给下一层树结构划分提供总体分布先验知识(步骤5~步骤18)。收集者通过MTR 算法重构树T,直到树结构被划分到最后一层(步骤19~步骤20),最终数据收集者得到自适应划分的树结构KDT。
4 实验结果与分析
4.1 实验设置
本文实验环境为Windows7 3.40 GHz,8.0 GB,所有算法均采用Python 实现,编程环境为Python3.6。实验采用2 组真实的地理数据集Checkin 和Landmark,Checkin 数据集从基于位置的社交网站Gowalla 获取,Landmark 数据集是纽约市出租车2011 年的乘车和下车地理坐标数据,实验中只取2 组数据集的经纬度信息,2 组数据集的具体统计信息和可视化结果分别见表1 和图3。
表1 数据集统计信息Table 1 Datasets statistics
图3 实验数据集可视化结果Fig.3 Visualization results of experimental datasets
利用上述2 种数据集,参照文献[8],本文采用相对误 差RE 来度量RAPPΟR[13]、UG[19]、GT-R[20]、KDG-HT 算法的范围查询精度。设置3 种大小不同的查询区域,针对每种类型的查询区域随机生成查询,计算相对误差的平均值。相对误差计算如式(3)所示:
其中:Q(D)表示查询原始数据集D的结果表示数据集D扰动后的发布数据范围计数结果;ρ=0.001× |D|,|D|代表原始数据集大小。
本地差分隐私模型的噪音误差受隐私预算影响较大,KDG-HT 算法提出用户分组的方法以避免隐私预算分割,同时也会引入额外噪声误差,细粒度查询所涉及的树节点较深,噪声误差更具对比性,因此,实验在上述2 种数据集以及细粒度查询设置下计算噪声误差的估计值。相对误差由噪声误差与均匀假设误差构成,噪声误差的计算如式(4)所示:
本文设置抽样概率为5%,隐私预算参数的取值为0.1、0.3、0.5。实验中查询范围分别覆盖Checkin和Landmark 数据集 的[5%,20%]、[20%,40%]、[40%,60%],在每种查询范围内随机生成5 000 次查询。
4.2 数据发布可用性度量
4.2.1 基于Checkin 数据集的算法RE 值比较
图4 所示为Checkin 数据集 下RAPPΟR、UG、GT-R 以及KDG-HT 算法的RE 值比较结果。由图4(a)~图4(c)可以看出,在固定查询范围时,ε 由0.1 变化到0.5,4 种算法的查询精度随着ε 增大而逐渐提高,KDG-HT 的查询精度优于其他3 种算法。当查询范围为[5%,20%]时,KDG-HT 的查询精度相比其他3 种算法效果显著,特别是在ε=0.3 时,本文算法精度是GT-R 算法的3 倍。从图4 可以看出,查询范围从[5%,20%]变化到[40%,60%]且ε 固定时,算法查询精度逐渐提高,这主要与查询区域和相交节点的重合比例(scale ∈[0,1])有关,均匀假设误差与scale 呈反比,查询范围影响scale 大小,查询范围过小会引起均匀假设误差较大。随着查询范围的增大,查询区域与相交节点的重合比例scale 增大,均匀假设误差逐渐减小,从而提高了查询精度。本文算法能够针对性地自适应划分大规模数据空间,对于密集区域进行充分划分,有效降低了均匀假设误差,同时减少了稀疏区域空节点产生,降低了噪声误差,Checkin 数据集中数据分布不均匀、偏斜程度较高的问题得到有效解决,因此,查询精度明显提升。
图4 Checkin 数据集的范围查询结果Fig.4 Range query results of Checkin dataset
4.2.2 基于Landmark 数据集的算法RE 值比较
图5 所示为Landmark 数据集下RAPPΟR、UG、GT-R 以及KDG-HT 算法的RE 值比较结果。由图5(a)~图5(c)可以看出,在固定查询范围时,ε 由0.1 变化到0.5,各个算法的查询精度随着ε 的增大而逐渐提高,KDG-HT 的查询精度优于其他3 种算法,尤其当查询范围在[5%,20%]时,KDG-HT 的查询精度比其他算法提高了一倍以上。4 种算法的查询精度都随着查询范围的增大而提高,这种现象主要是由于查询范围增大后,所涵盖的节点面积增大,均匀假设误差降低,使得查询精度提高。由于Landmark数据集分布较为均匀,偏斜程度较低,均匀网格划分方法的精度已经达到较高水平,KDG-HT 算法查询精度的提升空间较小,因此,其效果提升没有Checkin 数据集中明显。
图5 Landmark 数据集的范围查询结果Fig.5 Range query results of Landmark dataset
4.2.3 噪声误差影响程度比较
图6 所示为Checkin 和Landmark 数据集在[5%,20%]查询范围下RAPPΟR、UG、GT-R 以及KDG-HT算法的NE 值比较结果。由图6(a)可以看出,ε 由0.1变化到0.6,各个算法的NE 值随着ε 的增大而逐渐降低,KDG-HT 算法的NE 值相比RAPPΟR 和UG 算法降低了5 倍以上。RAPPΟR 和UG 算法采用传统的隐私预算分割策略,在本地差分隐私中,这种策略对噪声误差影响较大。GT-R 算法和KDG-HT 算法都利用隐私预算的并行组合性代替隐私预算分割策略,因此,都大幅降低了噪声误差。在ε 值较小时,KDG-HT 算法的NE 值低于GT-R 算法,这是由于KDG-HT 算法根据数据集的分布情况进行空间划分,GT-R 算法采用均匀划分方法,随着ε 值的增大,噪声影响减小,因此,在ε 值较大时,2 种算法产生的噪音差异减小。在图6(b)中,KDG-HT 算法的NE 值相比RAPPΟR、UG 算法有明显降低,但效果没有Checkin 数据集中明显,这也是由于KDG-HT 算法的多层空间划分方法在非均匀数据集上优势较为明显,而Landmark 数据集中分布相对均匀,尤其在隐私预算较高时,KDG-HT 与其他算法降低噪声误差的效果相近。由图6 可以看出,KDG-HT 算法的噪声误差在2 种数据集上都明显低于RAPPΟR、UG 算法,说明用户分割策略带来的噪声影响远小于隐私预算分割所造成的噪声,其能够有效降低噪声误差。
图6 噪声误差对比Fig.6 Noise error comparison
4.3 算法运行时间比较
表2 所示为不同ε 取值下UG、RAPPΟR、GT-R和KDG-HT 算法在Checkin 数据集下的执行时间,其中运行时间不包括数据读取以及查询时间。从表2可以看出,本文KDG-HT 算法具有较高的运行效率,这是由于算法中采用的用户分割方法能够在很大程度上降低通信代价,而GT-R 算法中用户抽样层次方法也能达到类似的效果,因此,KDG-HT 和GT-R 都具有较高的 运行效 率。当ε 值 为0.1 时,KDG-HT 算法比GT-R 算法的运行效率高0.14 倍,当ε 值为0.5时,KDG-HT 算法比GT-R 算法的运行效率高0.17 倍,相较GT-R 算法,本文算法的划分效率更高,主要原因是本文采用的密度自适应划分方法有效减少了划分层次。
表2 不同ε 取值下4 种算法的运行时间对比Table 2 Comparison of running time of four algorithms under different ε values s
在表2 中,随着ε 的增大,UG、RAPPΟR、GT-R 算法运行时间增加,这是由于UG、RAPPΟR、GT-R 算法的划分粒度受隐私预算ε 影响,ε 越大,网格划分粒度越细,树结构层次越高,因此,算法运行时间增加。而本文KDG-HT 算法对区域执行自适应划分方法,ε 大小对其划分方式影响较小,因此,在不同隐私预算下本文算法的运行效率均较高且稳定。
5 结束语
本文针对本地差分隐私模型下大规模空间数据采集和发布过程中存在的空间划分问题,提出一种分层次自适应划分算法KDG-HT。该算法能够通过估计数据集的分布情况自适应划分空间,解决了本地差分隐私模型无法获取用户真实位置数据的问题,同时分层次划分方法和用户分割策略克服了非均匀大规模空间数据范围查询的噪声累积问题,有效平衡了均匀假设误差和噪声误差,使数据划分发布查询精度得到有效提高。在2 个较具代表性的大规模数据集上的实验结果表明,KDG-HT 算法查询精度优于UG、RAPPΟR 等算法。空间数据规模大且变化快,现有的静态空间分割方法无法适用于本地差分隐私模型下动态空间数据的采集和发布过程。本文KDG-HT 算法能够在本地差分隐私模型下预估空间位置数据的分布情况。下一步考虑将本文算法与滑动窗口技术相结合,并应用于本地差分隐私模型下的动态环境隐私数据发布任务。