群智感知系统中面向高斯差分隐私的数据新鲜度性能分析
2024-03-05杨曜旗张邦宁郭道省徐任晖
杨曜旗,张邦宁,郭道省,徐任晖
(陆军工程大学 通信工程学院,江苏 南京210001)
0 引言
群智感知是一种基于众包思想,充分利用智能终端感知能力的传感数据收集范式。不同于传统的无线传感网络,群智感知无需部署专用的感知设备,旨在利用智能设备的泛在感知能力,实现传感数据的收集[1]。随着物联网、6G等新兴技术的日益成熟,海量传感数据的需求越来越大,此时,得益于丰富的数据来源与强大的感知能力,群智感知部署成本低、实现方式灵活以及可扩展性强等优点逐渐凸显[2]。
当前,关于群智感知系统性能的研究主要集中在数据时效性与隐私安全性两方面。具体而言,由于超可靠低时延通信场景的普及,高时效性数据驱动的实时应用需求越来越迫切,传感数据的时效性成为群智感知系统性能评估的重要指标。同时,由于无线信道固有的开放特性,传感数据在传输过程中面临窃取、篡改与伪造等威胁,保证传感数据内容的隐私安全是顺利完成传感数据收集任务的重要前提。然而,当前群智感知中关于隐私保护的研究对数据时效性考虑较少,导致群智感知中隐私保护与数据时效性研究相互割裂。此外,现有大部分研究从吞吐量、时延等性能指标入手来保证系统时效性,忽略了传感数据在源节点等待时间与在目的节点停留时间因素的影响。为了填补上述研究空白,为面向隐私保护的群智感知系统时效性性能评估及优化提供理论支撑,本文在实现传感数据内容隐私保护的前提下,利用更为准确的数据新鲜度指标——信息年龄(Age of Information,AoI)[3],综合分析群智感知系统的时效性性能,实现隐私保护对数据时效性作用机理的探究。
进一步,实现群智感知中数据隐私保护的有效方式主要包括数据加密、差分隐私以及数据限制发布等技术[4],同时,基于排队论可以推导出传感数据的平均AoI的数学表达式,从而实现群智感知系统时效性性能的定量分析。然而,直接使用上述技术将面临以下3个方面的问题,为同时实现定量分析数据新鲜度性能与隐私保护效果带来挑战。
① 在基于数据加密实现隐私保护的数据新鲜度性能分析过程中,数据加密对传感数据新鲜度性能的影响主要体现在加密操作会带来附加的通信开销与计算开销。然而,此时隐私保护的效果只能从理论上定性证明,无法进行定量分析。
② 在基于差分隐私实现隐私保护的数据新鲜度性能分析过程中,向原始数据中添加人工噪声,能够对原始数据的特征分布进行扰动,从而实现数据内容的信息脱敏与隐私保护。然而,人工噪声还能影响数据传输环境,引起无线信道的特性发生改变,最终影响数据传输过程中的时效性。因此,在人工噪声特性与传输信道特性各异的条件下,定量分析隐私保护对数据新鲜度性能的影响较为困难。
③ 在基于数据限制发布方案实现隐私保护的数据新鲜度性能分析过程中,尽管数据限制发布技术能够隐藏传感数据中的敏感信息,实现数据内容的隐私保护,但是该技术同时会改变数据的完整性,影响传感数据收集任务的完成效果,最终影响传感数据的时效性。此时,隐私保护对传感数据时效性方面的影响只能被定性描述,无法进行定量分析。
因此,为了同时对传感数据时效性与隐私保护效果进行定量分析,并进一步明晰群智感知中隐私保护技术与数据新鲜度性能的耦合机制,本文在采用高斯差分隐私机制实现对群智感知数据内容保护的前提下,基于排队论推导出不同环境参数下的传感数据AoI表达式。进一步,本文的创新点与贡献主要包括以下三方面:
① 为了实现群智感知中传感数据内容的隐私保护,针对加性高斯白噪声信道,提出了一种基于高斯差分隐私机制的传感数据内容保护模型,该模型能够实现(ε,δ)的松弛差分隐私。此外,对于l2范数灵敏度低于l1范数灵敏度的应用,提出的隐私保护模型允许添加更少的噪声。
② 为了对面向隐私保护的群智感知中传感数据新鲜度性能进行定量分析,在基于高斯差分隐私的传感数据内容保护模型基础上,使用排队论推导出了不同队列模型、服务准则以及传输缓存条件下的数据新鲜度表达式,实现了不同参数环境下传感数据时效性性能评估。
③ 为了验证所提方案的正确性与有效性,对不同环境参数设置下的数据时效性与隐私保护效果进行了仿真实验,结果表明,差分隐私保护效果与传感数据新鲜度性能呈负相关,即高时效性的传感数据隐私保护效果较为一般,反之亦然。
此外,除了对群智感知中面向隐私保护的数据新鲜度性能分析问题的研究背景与动机描述,本文的其余内容安排如下:第一节从高斯机制下的差分隐私保护与数据新鲜度性能分析两方面介绍了相关工作;第二节建立了系统模型,主要包括群智感知系统模型、高斯差分隐私模型、无线传输信道模型和传感数据新鲜度模型;第三节完成了面向高斯差分隐私的数据新鲜度性能分析,得到了不同环境参数下传感数据新鲜度的表达式;第四节进行了仿真实验,验证了所提模型的正确性与有效性;第五节对全文进行了简要总结,并指明了未来可能的研究方向。
1 相关工作
1.1 基于差分隐私的群智感知
差分隐私作为隐私保护的典型技术,能够通过向原始数据中添加扰动噪声,完成对数据的脱敏处理,以实现数据隐私信息的保护。基于差分隐私方案,群智感知中传感数据内容、感知任务内容、智能感知终端的身份与位置信息等隐私数据能得到一定程度的保护[5]。当前,差分隐私保护技术已经在群智感知中得到了广泛的应用,例如,李卓等[6]基于本地差分隐私保护技术,在数据提交过程中分别设计了数据属性联合隐私保护与独立隐私保护算法,结果表明,该算法能显著降低隐私保护成本。熊金波等[7]针对群智感知系统中数据感知、上传与交易3个阶段面临的数据安全与隐私威胁问题,系统性地阐述了现有的数据安全与隐私保护方法,并基于隐私度量、隐私框架及隐私计算等角度对未来工作进行了展望。为了同时解决传感数据的隐私安全与可靠性问题,Zhou等[8]将真值挖掘技应用到群智感知系统中,并基于本地差分隐私原理构造了终端位置信息保护算法,结果表明,所提算法显著提高了真值挖掘的准确率。Girolami等[9]利用差分隐私技术,实现了在数据聚合过程中的数据内容保护。此外,该方案还能保证数据聚合中心无法获取终端的身份信息,结果表明,该方法能在实现隐私保护的基础上有效降低数据失真程度。刘慧等[10]为了解决群智感知系统中用户身份信息的安全问题,基于差分隐私技术与无节点协作技术,提出了一种面向终端间信息关联度的隐私保护算法。结果表明,该算法能够有效保护终端间的社交信息关联度,同时显著降低实施方案的时间成本。Gao等[11]为了保护群智感知系统中终端的轨迹与位置隐私信息,基于差分隐私技术与轨迹模糊技术,构造了相应的隐私保护方案。结果表明,与现有算法相比,该方案能在保证隐私安全的同时有效降低数据质量损耗。
综上所述,尽管当前基于差分隐私的技术能够在一定程度上保证群智感知中敏感数据的隐私安全,但是上述研究未充分考虑基于人工噪声的差分隐私技术对传输环境与无线信道特性的影响,将会进一步对数据时效性与用户体验等指标产生影响。因此,为了在保证传感数据质量的条件下进行隐私保护,本文采用了与加性高斯白噪声信道特征匹配的高斯差分隐私模型,有效降低了差分隐私方案中噪声添加带来的影响,保证了传感数据的时效性。
1.2 基于AoI的数据新鲜度
数据新鲜度是表征传感数据时效性的重要指标,与传统的传输时延指标相比,数据新鲜度更加关注数据时效性,常用指标AoI来衡量,包括数据在源节点的处理时延、传输时延以及目的节点的排队时延[12]。当前,已有学者开展了基于AoI的传感数据新鲜度性能分析及优化工作,例如,陈泳等[13]在短包通信场景下分析了认知物联网中双向中继系统的数据新鲜度,得到了系统的误包率与平均峰值AoI的闭合表达式。进一步地,基于交替迭代优化算法对加权平均AoI数值进行了优化。仿真结果验证了所提方案的正确性与有效性。王恒等[14]针对无线网络中频率资源受限的问题,提出了面向数据新鲜度的时隙链路调度与数据传输算法,同时,基于李雅普诺夫优化实现了网络平均AoI的最小化。仿真结果表明,所提方案能显著提升传感数据新鲜度。在非正交多址接入与移动边缘计算场景下,李保罡等[15]研究了面向最小化数据AoI的卸载任务量和功率分配问题,基于多代理深度确定性策略梯度算法,确定了面向AoI的最优的卸载因子和卸载功率策略。仿真结果表明,所提方案能显著降低更新代价。Han等[16]在无人机辅助的车载边缘计算场景中,针对AoI优化过程中的资源受限、传输干扰与车辆合作等特点,提出了面向数据新鲜度的信道接入算法,该方法能够基于势能博弈的均衡解确定信道接入策略,实现系统数据新鲜度的优化。Yang等[3]将数据新鲜度指标应用于传染病防控场景中,为了优化数据AoI数值,提出了一种跨域混合博弈模型,包括基于势能博弈的频域AoI最小化与基于联盟博弈的空间域AoI优化,所提方案较传统方案能显著提升数据新鲜度性能。在无人机辅助的边缘计算网络中,Wang等[17]为了解决信道接入攻击下的数据新鲜度性能较差的问题,提出了一种基于势能博弈的AoI优化算法,该算法能在有效抵御信道接入攻击的前提下保证数据的新鲜度性能。
综上所述,尽管当前技术已经对基于AoI的数据新鲜度性能开展了深入的研究,但是上述工作并未考虑数据安全性,而数据安全是实现传感数据收集与传输的基本前提与逻辑保证。因此,本文在基于高斯差分隐私保护技术的前提下,进行了面向数据内容隐私保护的AoI性能分析,揭示了传感数据时效性与安全性相互影响的机理。
2 系统模型
2.1 群智感知系统模型
群智感知系统模型如图1所示,系统主要由任务请求者、服务提供者以及大量智能感知终端构成。为了完成传感数据收集任务,任务请求者首先将数据收集任务发送至服务提供者处,之后,服务提供者将感知任务分配至各终端处。各终端完成数据收集后,将数据提交至服务提供者处,由服务提供者将感知数据转交至任务请求者,同时支付报酬给各感知终端。值得注意的是,为了防止感知数据的内容泄露,需要对数据内容进行隐私保护。同时,由于传感数据的时效性要求,还需要在智能终端提交数据时保证数据内容的时效性。为了方便,定义集合ST={st1,st2,…,stM}表示感知终端,其中M为智能感知终端的数量。此时,集合L={(x1,y1,z1),(x2,y2,z2),…,(xM,yM,zM)}表示感知终端的位置,P={p1,p2,…,pM}表示感知终端的传输功率集合,A={a1,a2,…,aM}表示感知终端的传输信道集合,Γ={λ1,λ2,…,λM}表示终端对数据的感知速率,H={h1,h2,…,hM}表示各传输信道的带宽,其中(xi,yi,zi)、pi、ai、λi和hi分别表示第i个终端的位置、传输功率、传输信道、感知速率以及接入的信道带宽。此外,定义f为服务提供者对数据的处理频率,(x,y,z)为服务提供者的位置信息,c为计算感知数据所需的CPU周期数。
图1 群智感知系统模型Fig.1 System model of mobile crowdsensing
2.2 通信模型
当第i个终端向服务提供者提交数据时,需要建立传输链路,二者间的距离可计算为:
(1)
此时,基于加性高斯白噪声信道模型,服务提供者处收集到的传感数据信干噪比可进一步表示为:
(2)
式中:α表示路径损耗因子,σ表示均值为0且方差为σ2的加性高斯白噪声,ICCI表示同信道干扰。
(3)
2.3 高斯差分隐私模型
为了符合加性高斯白噪声信道特性,减小人工噪声对信道特性的影响,针对上述建立的通信模型,提出基于高斯机制的(ε,δ)松弛差分隐私方案。
定义1:对于任意函数f(·):x→k,则高斯机制Ga(·)的定义如下式所示,其中(β1,β2,…,βk)的概率密度函数为
(4)
定义2:对于任意算法B,D表示该算法输出结果的集合,当Pr[·]表示事件发生的概率时,对于任意相邻数据集E与E′,若有如下关系式成立,则称算法B提供了(ε,δ)松弛差分隐私保护,其中ε为差分隐私预算,δ为失败概率。
Pr[B(E)∈D]≤eε·Pr[B(E)∈D]+δ。
(5)
定义3:对于任意函数f(·):x→k,l2敏感度的定义如下式所示,其中d(x,x′)≤1表示数据集只有一条记录差别。
(6)
F(x):f(x)+(σ′2)。
(7)
证明:具体证明过程可参考文献[18]。
评注1:高斯机制下的差分隐私是l2敏感的。在相同条件下,拉普拉斯机制需要使用l1灵敏度,而高斯机制则允许使用l1或l2灵敏度。因此,对于l2灵敏度远低于l1灵敏度的应用,高斯机制允许添加更少的噪声[19]。
评注2:对于基于高斯机制的差分隐私灾难机制,在概率1-δ的条件下,灾难机制满足ε差分隐私。在概率δ条件下,它会释放整个数据集,没有噪声。在这种情况下,高斯机制不能完全满足ε差分隐私,满足(ε,δ)差分隐私。此时,在基于高斯机制的(ε,δ)松弛差分隐私条件下,整个数据集无法被完全释放。
2.4 传感数据新鲜度模型
图2 基于平均AoI的数据新鲜度模型Fig.2 Average AoI based data freshness model
进一步,通过计算图2中锯齿状函数与时间轴围成的面积除以时间长度,可以得到平均AoI的数值。具体来讲,在(0,T)时间内,平均AoI可计算为:
(8)
(9)
当Gi=ti-ti-1(2≤i≤n)代表相邻数据包的更新时长时,此时等腰梯形Ci的面积可表示为:
(10)
当数据包的更新被建模为队列中顾客到达的行为时,Gi=ti-ti-1(2≤i≤n)表示第i个数据包的到达时间。此时,结合式(9)和式(10),AoI可表示为:
(11)
(12)
3 面向高斯差分隐私的数据新鲜度性能分析
传感数据的新鲜度性能主要由AoI数值来衡量,AoI数值越小,代表传感数据越新鲜,反之传感数据越陈旧。由于感知数据经过服务提供者计算处理后足够小,因此从服务提供者到任务请求者的数据传输时间可以忽略[20]。此时,群智感知系统中传感数据的新鲜度性能主要指智能终端提交感知任务至服务提供者过程中的AoI数值。具体而言,在实施高斯差分隐私保护技术的前提下,传感数据在传输过程中的信噪比,以及无线信道的服务利用率可进一步表示为:
(13)
(14)
基于上述建立的模型,接下来将综合考虑不同队列模型、服务准则、传输缓存以及测度指标条件下的数据新鲜度性能,全面探究在上述场景下高斯差分隐私机制对群智感知中传感数据新鲜度性能的影响。
3.1 不同队列模型下的数据新鲜度性能
在感知数据从智能终端传输至服务提供者的过程中,大部分数据经由视距路径进行传输,此时先产生的数据能够被先传输至服务提供者处。为了对上述现象进行建模,采用先来先服务的服务准则,并考虑数据包产生速率与无线信道传输速率的不同特征情况,分别建立M/M/1,M/D/1和D/M/1的队列模型。具体而言,基于式(12)~式(14),对第i个感知终端产生的传感数据而言,考虑不同队列模型对数据新鲜度性能的影响,此时基于高斯差分隐私的平均AoI表达式如下所示[12],其中ψ表示朗伯W函数:
(15)
(16)
(17)
3.2 不同服务准则下的数据新鲜度性能
由于无线信道具有时变与选择衰落的特性,在感知数据从智能终端传输至服务提供者的过程中,先产生的传感数据有可能会被后传输至服务提供者处。针对上述现象,采用后来先服务的服务准则进行建模,并考虑数据包产生速率与无线信道传输速率的不同特征情况,分别建立M/M/1,M/D/1和D/M/1的队列模型。此时,基于式(12)~式(14),对第i个感知终端产生的传感数据,考虑不同服务准则对数据新鲜度性能的影响,此时高斯差分隐私机制下的平均AoI表达式可进一步表示为[12]:
(18)
(19)
(20)
3.3 不同传输缓存下的数据新鲜度性能
由于无线信道具有不同的传输能力,在先来先服务的规则下,考虑不同传输缓存的情况。具体而言,队列缓冲区的作用是在队列未满时接收新数据包,同时在队列满时将新数据包添加到队列的末尾,从而保证队列的先进先出。在M/M/1/1队列模型下,若正在处于传输过程的数据包被丢弃,则监测到目的节点空闲的数据包会被立刻传输至接收端。对于M/M/1/2队列模型,若某一数据包在源节点处于排队队列中,同时信道中有数据包正在传输,则源节点处的数据包保持等待状态。在M/M/1/2*队列模型下,考虑等待传输的数据包在更多最新的数据包到达时被替换。在此情况下,将无线信道的传输缓存能力因素考虑到数据新鲜度的性能分析之中,基于式(12)~式(14),对第i个感知终端产生的传感数据而言,高斯机制下面向差分隐私的平均AoI可以计算为[21]:
(21)
(22)
(23)
3.4 不同测度指标下的数据新鲜度性能
为了探究不同测度指标对数据新鲜度的影响,采用平均AoI与峰值AoI两种指标,以M/M/1/1、M/M/1/2以及M/M/1/2*队列模型为例,基于文献[21],对第i个感知终端产生的传感数据而言,高斯机制下面向差分隐私的峰值AoI可以计算为[21]:
(24)
(25)
(26)
4 仿真实验
4.1 参数设置
为了验证建立的基于高斯差分隐私的数据新鲜度模型的正确性与有效性,在不同队列模型、服务准则、传输缓存以及测度指标对传感数据的AoI进行了仿真分析。具体的仿真参数与文献[22]保持一致,其中感知终端的数量设置为5,以下仿真结果均以第1个感知终端为例。
4.2 结果及分析
队列模型对数据新鲜度性能的影响如图3所示。
(a)δ=10-3
(c)δ=10-7
由图3可以看出,一方面,随着失败概率的减小,AoI的数值在增大;另一方面,对于先来先服务准则的数据包传输队列,在相同的参数设置下,D/M/1队列模型下的AoI数值最小,传感数据的新鲜度最高。M/D/1队列模型下的数据新鲜度性能优于M/M/1队列模型。上述结论的具体原因分析如下,结合式(13)~式(17)可以发现,失败概率的减小会引起隐私保护预算的增加,导致噪声值的增大,对信干噪比产生影响,最终导致传输信道服务速率减小,进而引起AoI数值的增加。此外,在先来先服务准则下,当传输信道的服务速率较大时,AoI主要取决于数据包等待服务的时间。当传输信道服务速率较小时,AoI则主要取决于数据包的状态更新速率,即传感数据的产生速率。因此,确定性到达速率的传输系统具有较佳的数据时效性,而随机到达与随机服务系统的AoI数值则相对较大。
服务准则对数据新鲜度性能的影响如图4所示。由图4可以得到两方面的结论:一方面,随着失败概率的减小,传感数据的AoI数值在增加,数据时效性性能下降,具体原因与图3中的分析一致;另一方面,在后来先服务准则下,3种典型队列模型的数据新鲜度性能较先来先服务准则都有所提升,这是由于后来先服务准则能够减小数据包在传输队列中的排队时间,进而降低了AoI数值。此外,在后来先服务准则下,D/M/1队列模型下的AoI数值最小,传感数据的时效性能最佳。M/M/1队列模型下的数据新鲜度性能优于M/D/1队列模型。原因在于,后来先服务准则导致确定性服务速率的M/D/1队列模型中数据的排队等待传输服务的时间较长,进而引起了AoI数值的增加。
(a)δ=10-3
(c)δ=10-7
传输缓存条件对数据新鲜度性能的影响如图5所示。由图5可以得到以下两方面的结论:一方面,传感数据的时效性性能随着失败概率的减小而减小,具体原因可见图3的分析;另一方面,M/M/1/2*队列模型下的AoI数值最小,此时传感数据的新鲜度最高,时效性能最佳。此外,M/M/1/1队列模型的数据新鲜度性能优于M/M/1/2队列模型,主要原因在于,当服务时间较短时,数据的AoI主要取决于数据包的到达间隔时长,相较于M/M/1/2队列模型,M/M/1/1队列模型的传输缓存机制能够保证较小的数据包的到达间隔时长,因此数据的AoI值更小。
(a)δ=10-3
(c)δ=10-7
测度指标对数据新鲜度性能的影响如图6所示。由图6可以看出,与平均AoI相比,峰值AoI的数值更大,更能反映数据传输过程中数据新鲜度的极值特性。此外,在峰值AoI的指标体系下,M/M/1/2*队列模型下的AoI数值最小,此时传感数据的新鲜度最高,时效性能最佳。此外,M/M/1/2队列模型的数据新鲜度性能优于M/M/1/1队列模型,主要原因在于,相较于M/M/1/1队列模型,M/M/1/2队列模型的传输缓存机制能够保证等待传输的数据包在更多最新的数据包到达时被替换,因此数据的峰值AoI值更小。
(a)δ=10-3
(c)δ=10-7
5 结束语
针对群智感知系统中数据隐私安全问题与时效性问题,本文利用AoI指标,在高斯差分隐私机制下,进行了面向隐私保护的群智感知系统中数据时效性性能分析。与现有的工作相比,本文弥补了群智感知系统中同时实现数据时效性分析与隐私安全性提升的研究空白,综合分析了在不同队列模型、服务准则、传输缓存以及测度指标下传感数据的AoI指标,充分揭示了数据新鲜度与高斯差分隐私保护效果间的关系,即高斯机制的差分隐私保护效果与传感数据新鲜度性能呈负相关。在未来,将考虑云服务中心节点面临单节点故障攻击时,状态更新策略对隐私安全与数据时效性的影响。