群智能感知网络中时空众包用户隐私保护研究
2022-05-28林国福
王 瑛,林国福
(闽江学院 实验实训管理中心,福建 福州 350108)
随着传感器技术和无线通讯技术的完善,群智能感知网络也在诸多领域得到普及和应用[1]。移动技术的高速发展带动群智能感知网络的升级迭代,同时也给人们的生活和工作带来诸多便利。目前如何实现时空众包隐私位置保护成为相关专家和学者面临的难题[2]。国内外位置隐私保护主要集中在假名、隐匿、扰动、假位置、加密、敏感位置的隐藏等技术,相对成熟的k-匿名和差分隐私保护技术拥有较好的隐私保护效果。但这两种隐私保护技术仍然存在相对较多的问题,如开销大、服务质量水平低等[3]。鉴于此,此次研究提出结合k-匿名与差分隐私的位置保护模型,同时通过斯塔克伯格博弈平衡服务质量水平和用户隐私保护力度,旨在为时空众包用户提供优良的隐私保护机制,尽可能实现用户的最大化利益。
1 群智能感知网络结构和攻击模型
1.1 群智能感知网络结构
群智能感知网络结结构包括应用服务器、报告服务器、接入点、投入点,如图1 所示。移动节点是拥有感知、储存、计算、通讯等基础功能的可编程终端,一般情况下为可穿戴设备、平板电脑、智能手机,这些是完成群智能感知的基础设施单元。他们的主要功能是实现位置、视频、图像、声音等各类数据的采集,同时把采集到的数据经无线接口传输到服务器。同时这些移动终端可通过随身携带或者嵌入至车载单元,从而能够完成实时数据采集。报告服务器是被用来预处理移动节点传输过来的数据,具体的实现过程如图1 所示。将数据类别、位置等数据信息依据相关特性完成数据的分类和聚类,进而降低数据的繁杂性且提升数据的传输效率。完成上述操作后将报告服务器处理后的数据传输至应用服务器。应用服务器是用来存放报告服务器上传来的数据报告,且可以经过终端用户和开放平台接口完成数据共享。通过移动节点提供的数据,应用服务器实现终端用户的需求,例如用户查找附近的酒店、旅游景点、加油站、医院等。需要特别提出的是,应用服务器处于半可性状态,它既可以将用户的行动轨迹或者当前位置传递给其他应用程序,也可以根据用户需求为其提供的精准无误的查询结果。
图1 群智能感知网络结构
1.2 时空众包中攻击者模型
时空众包工作流程包括时空众包工人、第三方匿名服务器、时空众包任务请求者,时空众包平台实现可信第三方服务器和时间众包工人的信息传递。时空众包位置隐私保护系统结构分为集中式、分布式、混合式。混合式结构包括LBS 服务器、第三方匿名服务器、智能移动终端。当时空众包用户感知数据进行作业前,可以通过和周围时空众包用户互相协作以及第三方匿名服务器隐私算法处理达到隐私保护的目的。时空众包位置隐私保护中攻击者可以分为主动攻击者和被动攻击者,最主要的目标是得到任务请求者的真实位置信息[4]。被动攻击者经拦截LBS 服务器和第三方匿名服务器或者时空众包平台的通讯数据完成位置信息的攻击。主动攻击既可以是恶意攻击平台服务器的攻击者,又可以是众包平台系统的内部人员。研究假定时空众包平台攻击者是主动攻击者,攻击者的模型包括连续查询攻击算法和差分攻击算法。
对于连续查询攻击算法,假定时空众包用户按照相同的间隔时间持续传递LBS 服务申请,且可信第三方服务器也是间隔相同时间收集用户的查询信息,同时执行Clique Cloakingk-匿名算法清除位置和用户的关联性。攻击者能通过时空众包平台获取匿名查询快照。对于差分攻击算法,攻击者可以通过时空众包平台获取用户的差分隐私保护的相关参数以及历史位置数据信息[5]。用户将真实位置传递给可信的第三方匿名服务器,然后服务器利用隐私保护技术添加噪声到真实位置l。为保证用户的服务质量,需要设置扰动阈值r。差分攻击的示意图如图2 所示。以真实位置l为中心且半径为r组成的区域内包括被保护后的位置,同理,以被保护位置l' 为中心且半径为r组成的区域内包括用户的真实位置。第一步,攻击者依据l' 和r确定l所在的区域。第二步,依据历史位置数据形式得到用户的背景知识,即用户历史位置数据的概率分布。第三步,经时空众包平台得到隐私保护算法的隐私预算ε、度参数、位置参数u。
图2 差分攻击示意图
2 面向k-匿名与差分隐私的时空众包隐私保护模型
2.1 时空众包的数据感知传输的隐私保护机制
针对前述攻击者的两种模型,k-匿名和差分隐私的隐私保护技术是目前常用的隐私保护技术。Clique Cloakign 等第一类k-匿名隐私保护技术是一种语义位置隐私保护技术,虽然能给用户提供高质量的服务,但很难承受攻击者的连续查询攻击[6-7]。差分隐私保护是一种数理模型的位置隐私保护技术,具备隐私性好且服务质量高等优点,但在某些情况下攻击者可能会获得时空众包的真实位置。研究结合两种隐私保护技术对用户感知数据过程进行位置隐私保护,如表1 所示。避免差分隐私保护技术导致用户真实位置的暴露,可信第三方服务器首先搜索用户最近的k-1个用户形成的k-匿名集,用户的位置和身份不完全对应。避免攻击者在连续攻击下快速推算出时空众包的真实位置,利用差分位置隐私保护技术添加噪声到k-匿名集中时空用户的真实位置。
表1 k-匿名集对比
时空众包平台发布的更新特定区域的任务集用τ=(t1,t2,t3,...,t m-1,tm)指代,U=(u1,u2,u3,...,u m-1,um)表示接受且处理任务的一个户集。同一k-匿名集下的真实位置数据集用l1,l2,l3,...,lk表示,用户的真实位置用li指代,位置由(xi,yi)经纬度两部分组成。经差分隐私保护后的位置用指代。假设存在一个扰动位置使得li和lj两个时空众包用户位置满足式(1)条件,则代表这两个时空众包用户的位置具有一致性。
P(xi→)、P(yi→)分别指真实位置的横纵坐标产生扰动位置横纵坐标的概率,ε≥0 是指差分隐私预算,i,j∈{1,2,3,...,k}。研究如何添加符合拉普拉斯分布的噪声达到更好的隐私保护效果[8]。首先利用拉普拉斯逆累积分布形成离散噪声,然后扰动时空众包真实位置的横纵坐标。该种方式既使得真实位置所产生的扰动在以内,又保证扰动输出值相同的概率一致。设置拉普拉斯逆累积分布数值为[-0.5,0.5]。
2.2 时空众包隐私保护斯塔伯格博弈模型
在时空众包用户传输感知数据过程中,需要将街道的轨迹数据传递给时空众包平台[9]。针对时空众包用户的数据汇聚安全问题,常见的线性数据汇聚方式如图3(a)所示,作用特点是点对点完成数据汇聚。分布任务过程中,任务接受时空众包用户随机设置数据传输顺序。在整个传输过程中,攻击者无法从感知数据中辨别身份和数据间的关系。但这种方法存在等待时间过长、数据传输效率低等缺点。研究利用动态数据保护机制进行数据汇聚,如图3(b)所示。首先定义完成数据感知任务的ui为头结点,感知数据用mi指代,感知数据的份数、时间、位置、内容分别用c、t、l、指代。头结点将数据传输信号和份数传递给平台,然后平台随机选择一个包含头结点的k-匿名集的数据传输小组,且随机设置在同一k-匿名集中进行数据感知的um为孩子节点,并标记头结点和孩子节点。孩子节点将通过同样的方式随机选择下一个孩子节点uj,u m需要计算ci+cm的值并将mm传递给uj,其中ci∈mi,c m∈mm。设置此匿名集下存在的最后一个时空众包用户uk为叶子节点,传输数据为所有父节点和自身的c值。时空众包平台接收到后完成和用户感知数据的最小数量C对比。假如c≥C,则标记该节点并结束数据汇聚,否则重复上述过程。
图3 线性数据和动态数据保护机制
为实现服务质量和隐私位置保护的平衡,使用斯塔克伯格博弈模型获取隐私最佳保护策略[10]。时空众包平台和攻击者分别进行隐私保护策略和攻击策略,然后时空众包平台依据攻击策略优化保护策略,从而实现用户的最大利益。服务质量损失Qloss的计算公式为式(2)。
K是指差分扰动机制,Kll'指真实位置产生扰动位置的概率,π是指攻击者通过各种途径收获到的背景知识,dq(·)是指真实位置和扰动位置间的欧式距离。同时设置最大服务质量损失容忍度满足位置精度需求。攻击者通过差分攻击算法和连续攻击算法可以得到估计位置,量化时空众包用户的隐私保护力度用式(3)所示。
Reid是指连续攻击算法对k-匿名的隐私保护身份的反匿名,d p是指真实位置和估计真实位置的欧式距离。
在完成服务质量损失以及隐私保护力度的量化后,研究利用斯塔克伯格博弈模型讨论两者平衡关系。首先利用前述的k-匿名和差分隐私技术保护时空众包的隐私,然后攻击者选择最佳攻击策略估计用户的真实位置,使得时空众包用户的隐私最小化。需要指出的是,最佳估计位置是从估计者生成的多个位置中进行选择。最后时空众包平台依据攻击策略保证用户的利益最大化。
3 时空众包隐私保护效果分析
3.1 隐私保护力度分析
为验证所提出隐私保护模型的有效性,分别将其与差分隐私和k-匿名隐私位置保护机制进行对比。设置匿名集的势分别为3,5,7,查询时间间隔为[0,0.3],差分隐私预算为0.53 或者1.02。连续查询攻击的结果如图4 所示。当连续查询关联度为0,匿名集的势分别为3,5,7 时,则攻击者识别出时空众包用户真实位置的概率值分别为1/3、1/5、1/7,因此随着匿名集势的增加,攻击者识别出真实位置的几率也越低。随着连续查询关联度的增加,识别真实位置的概率也越来越高。
图4 连续查询攻击的结果
当连续关联度值为0.5 时,差分隐私预算分别在0.53 和1.02 两种数值下,攻击者识别用户真实位置的概率值分别如图5(a)和5(b)所示。随着匿名集势的增加,在k-匿名技术保护下攻击者识别用户真实位置的概率值逐渐降低,但对差分隐私保护下的概率值没有太大的影响。当差分隐私预算增加时,差分隐私保护下和新提出的保护机制的概率值明显降低。
图5 不同保护技术下的真实IR 对比
进一步利用攻击者期望误差评价用户隐私保护等级,设置最大服务质量损失阈值分别为1 km和2 km,两种情况下攻击者估计的真实位置的平均期望误差结果如图6(a)和6(b)所示。相比较差分隐私保护技术,研究所提出的保护机制具备更好的隐私保护功能。且随着最大服务质量损失阈值的增加,时空众包用户的平均期望误差增加,即用户隐私保护等级增加。在最大服务质量损失阈值为2 km 时,匿名集的势为7 时,差分隐私保护机制以及新提出的隐私保护机制的平均期望误差分别为0.89 km 和1.38 km。
图6 时空众包用户真实位置平均期望误差对比
3.2 隐私保护力度与服务质量损失平衡性分析
结合k-匿名和差分隐私的保护机制的服务质量以及隐私保护力度进行分析,结果如图7 所示。随着最大服务质量损失阈值的增加,隐私保护力度以及服务质量损失逐渐增加。在最大服务质量损失阈值小于1.68 时,服务质量损失大于隐私保护力度。而阈值超过1.68 时,得到相反的结果。这是因为当阈值较小时,时空众包用户真实位置添加的噪声较大,因此攻击者通过计算模型得到的估计位置和真实位置相差较小。
图7 服务质量损失和隐私保护力度
不同数据规模下服务质量损失和隐私保护力度的比值如图8 所示,整体来看,随着最大服务质量阈值的增加,服务质量损失和隐私保护力度的比值首先逐渐减少然后再逐渐增加。当最大服务质量阈值为4.5 km 时,比值最低,值约为0.5。当最大服务质量阈值约为1km 时,服务质量损失和隐私保护力度几乎相等。同时随着数据规模的增加,服务质量损失和隐私保护力度的比值也增加。
图8 不同数据规模下服务质量损失和隐私保护力度的比值
4 结论
对时空众包用户感知数据和传输感知数据等过程中存在防连续性攻击性弱、传输效率低下、服务质量低等问题,研究对群智能感知网络的位置隐私保护进行分析,提出时空众包用户保护机制和最佳隐私保护策略。随着最大服务质量损失阈值的增加,时空众包用户的平均期望误差增加。相对单一隐私保护机制,面向k-匿名和差分隐私保护机制具有明显优势。随着最大服务质量损失阈值的增加,隐私保护力度以及服务质量损失逐渐增加。当阈值小于1.68 时,服务质量损失大于隐私保护力度,而阈值超过1.68 时,服务质量损失小于隐私保护力度。随着最大服务质量阈值的增加,服务质量损失和隐私保护力度的比值首先逐渐减少然后再逐渐增加,最小的比值约为0.5。