APP下载

可穿戴装置个性化本地差分隐私保护方案

2022-03-16沈苏彬

计算机技术与发展 2022年2期
关键词:差分扰动噪声

卢 岑,沈苏彬

(1.南京邮电大学 物联网学院,江苏 南京 210003;2.南京邮电大学 计算机学院,江苏 南京 210023)

0 引 言

随着可穿戴技术的发展,可穿戴装置成为了人体卫生和保健的数据源,能不断监测和传递用户的生命体征数据,例如血压、心率、体脂等数据,同时还能测量运动过程中的卡路里消耗、步伐、心率和速度等。医疗机构和健康机构通过收集并分析这些数据来为用户提供更好的服务。但是,就设备安全性和公众的隐私接受度而言,可穿戴装置还不成熟。2016年,欧盟通过了《一般数据法案》(general data protection regulation,GDPR),该法规规定了个人数据保护跨越国界,明确了用户的知情权以及个人数据隐私的保护。然而,可穿戴装置中的嵌入式传感器通常可在未征得用户同意的情况下采集和获取个人以及周围环境的数据,这种情况会侵犯用户的隐私并违反相关法规。

针对隐私量化和隐私保护的需求,研究者提出了差分隐私技术,根据第三方数据汇聚服务器是否可信,差分隐私可分为中心化差分隐私和本地差分隐私。中心化差分隐私假设第三方是可信的,每个用户将自己的真实数据发送给数据汇聚服务器,然后数据汇聚服务器通过满足差分隐私的扰动算法对数据进行处理。然而,并不是所有的第三方都是可信的。针对第三方不可信的情况,本地差分隐私通过在用户端对真实数据进行扰动,然后将扰动后的数据汇聚到数据服务器中保护用户的数据隐私安全。

但是本地差分隐私为所有个人提供了相同级别的隐私保护,每个用户对于其数据可接受的隐私级别的期望却不相同,这可能导致某些用户的隐私保护不足,而其他用户则受到过度保护。因此,在用户本地对数据进行数据扰动时,应该允许用户个性化地设置自己的隐私偏好,实现个性化的隐私保护。目前的个性化本地差分隐私存在两个问题,第一,大部分个性化差分隐私都是针对一维数值型数据的,而可穿戴装置收集的数据存在多个数值型属性,是多维的。第二,现有的个性化差分隐私都是通过随机响应机制或者添加噪声(主要是拉普拉斯噪声)实现的,将其应用于可穿戴装置中会产生隐私保护程度低和数据可用性低等问题。

在现有本地差分隐私保护方法的基础上,该文提出了一种可穿戴装置个性化本地差分隐私保护方案,允许用户设置自己的隐私偏好,实现对可穿戴装置多维数值型数据的个性化本地差分隐私。同时采用结合机制,结合随机响应机制和分段机制,解决随机响应机制最坏情况下噪声方差大的问题,提高可穿戴装置对用户多维数值型数据的隐私保护,并且提高数值型数据的数据可用性,通过理论验证和实验仿真证明可穿戴装置个性化本地差分隐私保护方案的有效性。

1 相关工作

随着可穿戴技术的发展,可穿戴装置中的数据隐私问题受到越来越多的关注。对可穿戴装置数据的攻击可分为被动攻击或主动攻击两种,被动攻击的基本目标是访问网络中共享的一定数量的私有数据或从公共数据集中推断出任何关键信息。为了克服隐私量化和背景攻击等隐私问题,2006年引入了一种重要的隐私方法,称为差分隐私。差分隐私通过添加所需的噪声量并在隐私和准确性之间保持健康的平衡来保护统计数据或实时数据。而对于不可信的第三方数据收集者,许多学者提出了本地差分隐私(LDP),本地差分隐私防止了数据管理者对确切的私人数据的收集。

LDP可以通过传统的随机响应技术实现,Erlingsson等提出了RAPPOR框架,该框架基于发布二进制属性的随机响应机制,他们将这种机制与Bloom过滤器结合使用,Bloom过滤器直观地增加了另一级的保护,并增加了对手推断私人数据的难度。后续论文将RAPPOR扩展到更复杂的统计数据,例如联合分布和关联测试以及包含大量潜在值的分类属性。但是RAPPOR通信开销大,不适合用在可穿戴装置中。Wang等研究了相同的问题,并提出了不同的方法,他们将

k

个可能的值转换为具有

k

个元素的噪声向量,并将后者发送给数据收集者。Bassily和Smith提出了一个渐进最优解,用于在LDP下建立大分类域上的频率分布直方图。但是,上述所有方法都集中在单个分类属性上,与文中多维数值型数据研究工作不同。Ren等研究了发布多维属性的问题,并采用了k-size向量的思想(类似于文献[12]),但是这种方法在数据收集者和用户之间需要相当高的通信成本,因为它涉及多个

k

大小矢量的传输。Kairouz等提出了极值机制,这是离散输入数据的LDP机制,即每个输入域

X

包含有限数量的可能值,这些机制的输出分布具有关键属性。因为LDP能很好地保护用户数据的隐私,故在室内定位数据的收集、移动感知的推理控制以及众包数据的发布等应用中都有考虑。可穿戴装置本地差分隐私应用方面,马方方等提出了可穿戴装置多维数值型数据个性化隐私保护方案(personalized local privacy scheme,PLPS),使用安全域对敏感数据进行规范化,最后使用伯努利分布对分组的多维数据进行扰动,并使用属性安全域恢复干扰结果。马方方等提出的方法比Harmony算法具有更低的最大相对误差,但是当

ε

值大于2时,噪声方差会趋于1,不会随着

ε

的增大而减小。涂子璇针对可穿戴装置的数值型流数据均值发布,为防止用户的隐私信息泄露提出一种基于自适应采样的可穿戴装置差分隐私均值发布方法。

在个性化差分隐私方面,Mousumi Akter提出了一种新颖的方法,即数字聚合的私有估计(private estimation of numeric aggregates,PENA),在确保个性化的本地差分隐私的同时计算数字数据的聚合,但是该方法只适用于一维数值型数据。Datong Wu根据LDP和用户的个性化要求提供了新颖的隐私定义,并展示了机制的最佳效用和隐私保证,但是提出的机制只适用于空间数据,也就是说只针对于位置的隐私保护。

2 问题的分析与描述

可穿戴装置的数据收集模型如图1所示。可穿戴装置首先通过传感器收集用户的各种数据,然后通过蓝牙与移动设备相连,将数据传输到移动设备中,最后第三方数据汇聚服务器收集各个移动设备的数据。

图1 可穿戴装置数据收集模型

本地差分隐私是基于中心化差分隐私提出的数据收集框架,不同于中心化差分隐私对于可信第三方的假设,其针对的是不可信的第三方数据收集者(也就是图1中的数据汇聚服务器),本地差分隐私定义如下:

定义1:本地差分隐私。给定

n

个用户,每个用户对应一条记录,给定一个隐私算法

M

及其定义域Dom(

M

)和值域Rom(

M

)。若算法在任意两条记录

t

t

(

t

⊆Rom(

M

))上得到相同输出结果

t

(

t

⊆Rom(

M

))并满足下列不等式,则

M

满足

ε

-本地差分隐私。Pr[

M

(

t

)=

t

]≤

e

×Pr[

M

(

t

')=

t

]

同时,个性化本地差分隐私定义如下:

定义2:个性化本地差分隐私。给定

n

个用户,用户

u

的隐私设置偏好为

ε

,对于任意两个输入

t

t

和任意的输出结果满足下列不等式,则M满足个性化本地差分隐私。Pr[

M

(

t

)=

t

]≤MAX(

e

)×Pr[

M

(

t

')=

t

]

图2 PLPS在最坏情况下的噪声方差

3 可穿戴装置个性化本地差分隐私保护方案

3.1 方案设计

设计方案的隐私保护目标:对可穿戴设备多维数值型数据进行个性化的隐私保护,在保护用户隐私的前提下,减小最坏情况下的噪声方差,同时保证数据均值估计的可用性。

针对PLPS中存在的最坏情况下噪声方差大的问题,采用结合机制解决,结合机制结合随机响应机制和分段机制,具体描述如下:

结合机制

输入:原始元组

t

∈[-1,1]和隐私预算

ε

(1)if

ε

<0

.

6 then

(2) 选择随机响应机制对数据进行扰动

(3)else

(4) 从[0,1]中随机取样得到

x

(5) if

x

<

e

-2then

(6) 选择随机响应机制对数据进行扰动

(7) else

(8) 选择分段机制对数据进行扰动

ε

<0

.

6时,选择随机响应机制对数据进行扰动,否则从[0,1]中随机取样

x

,当

x

-2时,选择随机响应机制对数据进行扰动,否则选择分段机制对数据进行扰动,分段机制描述如下:

分段机制

输入:原始元组

t

∈[-1,1]和隐私预算

ε

(1)从[0,1]中随机取样得到

x

(4)else

结合机制在最坏情况下的噪声方差为:

采用结合机制扰动数据和PLPS最坏情况下噪声方差的对比如图3所示。由对比图可以看到,无论

ε

怎么变化,采用结合机制扰动数据后在最坏情况下的噪声方差比PLPS小,也就是说,隐私保护程度比PLPS更好。

图3 采用结合机制扰动数据和PLPS最坏情况下的噪声方差

3.2 方案描述

可穿戴装置个性化差分隐私保护方案

输出:均值

z

,1≤

j

d

(1)for

i

=0 to

n

do(2) for

j

=0 to

d

do

(4) end

(6)end

3.3 方案隐私性和可用性分析

3.3.1 隐私性分析

用户设置自己的隐私预算为

ε

,根据个性化本地差分隐私的定义,需要证明

(1)随机响应机制隐私性分析。

因为

e

≤MAX(e),所以随机响应机制满足个性化差分隐私。

(2)分段机制隐私性分析。

分段机制的概率密度函数为:

由此可以得出:

所以根据个性化差分隐私的定义,分段机制同样满足个性化本地差分隐私。

由以上分析可以看出,无论是随机响应机制还是分段机制都满足个性化本地差分隐私,而文中的方案结合了随机响应机制和分段机制,根据差分隐私并行组合特性,文中的方案也满足个性化本地差分隐私。

3.3.2 可用性分析

通过上面的分析可以看到,文中的方案既满足个性化本地差分隐私,而且最大绝对误差小于PLPS,在数据可用性方面优于PLPS方案。

4 实验结果和分析

(1)隐私预算

ε

对MAE的影响。为了研究隐私预算对可用性的影响,随机生成虚拟数据集,

ε

取值为[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15],考虑数据属性个数

d

=10

/

20和用户数

n

=100

/

10 000的情况,不同隐私预算对MAE的影响,如图4所示。总体上看,MAE随着隐私预算的增大而减小。这是因为,隐私预算本质上代表着用户对隐私的保护程度,隐私预算越大,代表用户想要对隐私保护的程度就越小,因此第三方收集者得到的用户数据就越准确,自然地,第三方收集者对原始数据的估计也就越准确,因此最大绝对误差也就会相应的更小。也就是说,如果

ε

→∞,那么MAE→0。另一方面,从图4中可以明显看出,对于不同的隐私预算,文中的方案效果均优于PLPS。当第三方收集者拿到扰动后的数据时,对于原始数据的均值估计,使用文中的方案更加准确。

图4 隐私预算对MAE的影响

(2)属性个数

d

对于MAE的影响。为了研究属性个数对可用性的影响,随机生成虚拟数据集,

d

取值为[5,10,15,20,25,30],考虑数据隐私预算

ε

=5

/

0

.

5和用户数

n

=100

/

10 000的情况,不同属性个数对MAE的影响,如图5所示。

图5 属性个数对MAE的影响

MAE与属性个数呈正相关,即属性个数的增多会导致MAE增大,这本质上体现了数据维度的增加对于第三方数据收集者对原始数据整体估计值误差的积累过程。横向来看,文中的方案效果依然大幅度优于PLPS。

(3)用户数

n

对MAE的影响。为了研究用户数对可用性的影响,随机生成虚拟数据集,

n

取值为[5 000,10 000,15 000,20 000,25 000,30 000,35 000,40 000,45 000,50 000,55 000,60 000],考虑数据隐私预算

ε

=5

/

0

.

5和属性个数

d

=20

/

200的情况,不同用户数对MAE的影响,如图6所示。

图6 用户数对MAE的影响

图6展示了MAE随用户数量的变化规律。纵向来看,随着用户数量的增加MAE逐渐减小,因为MAE与用户数

n

的1/2次方呈反比例关系,本质上是由于用户对隐私预算的分摊。从另外一个角度也可以理解为,随着用户数量的增加,第三方数据收集者能够获取的数据样本也就越多。因为无论是PLPS还是文中的方案,第三方数据收集者均可以对原始数据进行宏观统计量的无偏估计,因此数据量越多,宏观量的估计也就越精确。横向上看,文中的方案效果依然比PLPS好。

5 结束语

为了防止可穿戴装置用户隐私泄露,文中通过采用结合机制对数值型数据进行扰动,结合随机响应机制和分段机制减少最坏情况下的噪声方差,通过随机采样提高多维数据的数据可用性,并且针对不同用户的隐私需求提出了可穿戴装置个性化本地差分隐私保护方案。理论证明,文中方案满足了个性化本地差分隐私保护需求。仿真实验结果表明,采用文中方案对可穿戴装置多维数值型数据进行隐私保护,不仅能减小最坏情况下的噪声方差,而且拥有更高的数据可用性。但是文中方案的个性化是针对每个用户的所有属性相同保护程度,针对不同属性的个性化还需要进一步的研究。

猜你喜欢

差分扰动噪声
一类五次哈密顿系统在四次扰动下的极限环分支(英文)
一类分数阶q-差分方程正解的存在性与不存在性(英文)
“白噪声”助眠,是科学还是忽悠?
基于扰动观察法的光通信接收端优化策略
基于声类比的仿生圆柱壳流噪声特性研究
一个求非线性差分方程所有多项式解的算法(英)
一类caputo分数阶差分方程依赖于参数的正解存在和不存在性
基于差分隐私的数据匿名化隐私保护方法
要减少暴露在噪声中吗?
天津大神堂海洋特别保护区生境修复初步评价