基于属性权重的隐私泄露风险评估方法
2022-10-24彭长根谭伟杰
罗 康,彭长根,,谭伟杰,杨 训
(1.贵州大学 计算机科学与技术学院,贵州 贵阳 550025; 2.贵州大学 贵州省公共大数据重点实验室,贵州 贵阳 550025; 3.贵州大学 大数据产业发展应用研究院,贵州 贵阳 550025)
0 引 言
移动互联网技术促使数字经济的快速发展,各个行业产生了海量的数据。随着数据的沉淀与积累,数据的研究和利用价值日渐突显。基于人工智能等技术对大数据的分析,导致个人隐私泄露变得越来越严重[1-3]。由闪捷《2020年度数据泄漏态势分析报告》可以看出隐私泄露的案例屡见不鲜,针对隐私信息的保护和隐私泄露风险的评估成为当前的紧迫需求。云服务实现了数据的计算存储与发布,科研机构、银行、医疗机构等单位在数据安全的情况下愿意共享一些数据用作数据的挖掘与技术的研发[4]。在数据共享发布时,为了防止泄露数据中的隐私信息,经常利用一些隐私保护方法[5-7]对数据隐私采取脱敏处理,但是数据需求者获得发布数据后容易发生与已有数据进行数据融合,链接推理出完整的数据信息的情况,造成隐私泄露。因此如何评估数据发布后隐私泄露的风险和控制数据隐私保护的强度成为数据发布领域亟需解决的痛点问题。
2016年彭长根等人[8]针对基于信息熵进行隐私度量存在的理论体系零散和缺乏统一模型基础的问题,探讨将隐私保护系统视为一种通信模型,用于搭建一个可行的体系基础解决隐私保护系统的量化问题。2017年Yeh等人[9]提出了一个名为AppLeak的分析框架,以有效评估信息丢失并检测Android 应用程序运行期间的隐私泄露。2018年晏燕等人[10]运用集对分析的五元偏联系数理论,建立隐私风险待评估指标评估系统,此方法消除了隐私泄露风险中的模糊、不确定等因素的影响,实现了对风险评估指标的动态体现。2020年,周旭晨等人[11]为了促进原始数据的共享,给数据开放者提供隐私风险定量化的评估,提出了一种利用矩阵计算来评估数据隐私泄露风险的方法。2021年谢小杰等人[12]针对隐私评估大多关注隐私数据脱敏效果,对于社交网络中的隐私问题研究却相对较少等问题,提出了社交网络用户中的隐私泄露量化评估方法,对减少社交网络的隐私风险起到良好的预防效果。
根据ISO/IEC 29100(2011)信息技术-安全技术-隐私架构框架国际标准[13],风险管控是隐私保护过程中最为核心的关键方法,并且特别提到隐私控制的识别也应该包含在组织信息安全管理框架中。通过ISO/IEC 29100(2011)隐私架构框架可以看出,建立数据的隐私风险评估方法是必要的,对于数据的保护具有至关重要的作用。
隐私评估方法从早期的专家评分为主导的主观评价慢慢转向通过贝叶斯、攻击模型等客观的隐私泄露风险度量方法,评估隐私泄露风险的方法更加多元化。但是目前而言,针对数据共享领域的隐私风险探索相对较少,但是可以从其他的隐私评估方法中找到借鉴。针对数据发布共享中的隐私风险问题,目前多数方法只是针对敏感数据进行隐私度量,然后进行评估,然而结合数据需求方与数据发布方具体应用目标的评估方法却很少。因此提出一种新的评估方法,将引入数值化映射和隐私标记方法,通过对属性字段,操作进行隐私等级标记,然后对数据进行数值化映射形成敏感数据矩阵,最后对隐私标记与敏感数据矩阵作融合,计算出数据隐私泄露风险值。从而实现数据发布方与数据需求方相结合的隐私泄露风险评估方法,实现了隐私泄露风险的预防,为提高数据共享安全效能带来一定的支撑。
1 基础知识
1.1 矩阵范数
1.2 差分隐私
定义1ε-差分隐私[14]:设具有属性结构相同的数据集D与D',两数据集间存在最多一条有差别的数据元组,则称D与D'为邻近数据集或者兄弟数据集。
给定随机算法K,PK是K输出的所有可能组成的集合。对于任意兄弟数据集D和D'以及PK的任意子集SK,如果算法K符合:
Pr[K(D)∈SK]≤exp(ε)*Pr[K(D')∈SK]
(1)
那么称K提供ε-差分隐私保护。ε为隐私保护预算,反映出隐私保护的强度,ε数值越大,隐私保护强度越弱。
1.3 拉普拉斯噪声
定义2 Laplace分布:以η变量作为满足Laplace分布的连续型随机变量,Laplace分布满足期望为0,方差为2λ2,它的概率密度函数为:
(2)
1.4 隐私标记
字段隐私等级[11]标记:某医疗机构疾病患者信息数据集包括年龄、医生、疾病等字段,机构对发布数据集字段进行标记,如表1所示(N=5,最高隐私等级为5)。
表1 某医院机构数据字段隐私等级标记
操作等级隐私标记:某医疗机构数据集中提供的操作有取平均、取值、求最值等,医疗机构分别对操作设置相应等级标记,如表2所示(N=3,最高隐私操作等级为3)。
表2 某医疗机构数据集操作隐私等级标记
2 隐私标记与隐私度量
2.1 属性字段权重计算
根据属性的特点,按照属性元素敏感度越敏感,数值映射越大的原则对数据的每个敏感属性进行数值化处理,进而建立敏感数据矩阵。但是敏感数据矩阵中,每种敏感属性在实际中,敏感性却存在差异。例如年龄和诊断结果,很明显诊断结果对于个人的隐私显得更加重要。数据使用者的不同操作需求也会增大数据隐私泄露的风险,例如取值操作明显就比求平均值风险更高,取值将会对具体的某个用户值进行操作,提高了隐私泄露的风险程度。因此通过用户具体的数据使用需求建立数据字段的隐私泄露风险权重,对于更加准确高效地评估数据的隐私风险显得尤为重要。
定义3 隐私权重向量:设每个敏感属性的隐私权重为pi,则p=(p1,p2,…,pn)。
获取数据开放者拟支持的m种操作和拟开放的n种字段,对操作建立隐私等级标记,记为q1,q2,…,qm(N=3,等级依次提高);对字段隐私等级进行标记,记为f1,f2,…,fn(N=5,等级依次提高)。然后以字段为行,操作为列建立n×m的矩阵M,根据使用需求,将第i个字段和第j个操作的值tij(tij=qi×fj)赋予矩阵中,未涉及到的需求使用0填充。
2.2 结构化数据处理
从隐私保护的角度出发,结构化数据属性中主要可以分为四类,即标志性属性、准标志属性、敏感属性与非敏感属性。由于标志性属性会进行删除,非敏感属性不属于隐私保护的范围,准标志已有相应的处理方法,因此敏感属性将作为处理的重点。敏感属性结构化数据见表3。表中Di表示用户个体,SAj表示感属性,di,j表示敏感属性值。
表3 敏感属性结构化数据
定义4 非负数值化映射[15]:设存在映射f,非负数值元素集E,若∀e∈E,f(e)≥0,则f为非数值化映射。
针对表3的敏感属性进行非负值数值化映射,敏感属性映射值随着属性敏感性的增大而增大。将表中敏感属性分别对应f1,f2,…,fn进行数值化映射。通过以下计算方法:
ai,j=f(di,j)
(1≤i≤m,1≤j≤n,且m,n∈N*)
(3)
将敏感数据进行非负数值化处理,得到D=(ai,j)m×n的敏感数据矩阵。
2.3 数据效用
数据效用是指敏感数据经过隐私保护技术手段脱敏处理后,与原来未经处理后的数据相比,所具有的真实性或者相同性的程度。当隐私保护后,往往会降低数据的使用性。因此通过效用的度量来评价隐私脱敏处理后数据的使用性。数据效用性越高数据的真实性越好,数据的使用价值就越高。
定义5 数据效用[16]:设敏感数据矩阵为D,将D经过隐私脱敏处理后的敏感数据矩阵为D',D与D'结构相同。U(D)与U(D')分别表示D和D'的数据量,数据效用计算公式如下:
R=U(D')/U(D)
(4)
(5)
3 属性权重的隐私泄露风险评估方法
3.1 隐私风险泄露评估系统的方案设计
隐私评估系统设计如图1所示。该系统主要是建立在知道具体需求的前提下,首先建立隐私等级标记矩阵;然后对发布数据采取数值化函数处理创建敏感数据矩阵;接着将隐私等级标记矩阵与敏感数据矩阵相结合进行矩阵范数计算得到隐私风险值。通过上述步骤建立数据发布的泄露风险评估系统。
图1 隐私评估系统整体框架
针对需求数据集隐私泄露风险高的问题,评估系统通过引入加噪、泛化等隐私保护方法,对数据进行脱敏处理,降低隐私泄露的风险,实现数据发布的低风险。
3.2 评估系统详细流程
数据共享成为当前的现实需求,为促进发展,数据拥有者愿意在一定条件下开放某些数据给某些科研机构进行研究,但是隐私信息安全一直是数据拥有者最为关心的问题,因此建立一套隐私泄露风险评估系统是十分必要的。隐私泄露风险评估方法作为该系统的核心,能够有效预防数据发布过程中的隐私泄露。
具体评估流程如下:
(1)数据需求方的隐私泄露风险评估首先是通过获取数据发布方拟支持的m种操作和拟开放的n种字段,对操作建立隐私等级标记,记为q1,q2,…,qm(N=3,等级依次提高);对字段隐私等级进行标记,记为f1,f2,…,fn(N=5,等级依次提高)。
(2)以字段为行,操作为列建立n×m的矩阵M,遍历数据需求者使用需求集合G,查询第i个字段与第j个操作是否存在于需求表中。如果存在,则将tij(tij=qi×fj)的值赋予矩阵中。其余矩阵中的值用0填充。
(4)根据定义5,将敏感属性数据进行非负值数值化映射,按照敏感属性的特性,敏感数值映射随着敏感度的增加而增大。该文选取学历(education)、工作时长(hours-per-week)、收入(income)敏感属性进行举例说明:
education:Doctor→0.8,Master→0.7,Bachelor→0.6,High School→0.5,Junior High School→0.4,Primary School→0.3,other→0.1。
hours-per-week:
f(hours-per-week)=
(6)
(7)
然后通过数值化构建隐私敏感数据矩阵D。
(5)将敏感数据矩阵D与隐私权重向量p合成带有权重向量的数据矩阵B。合成方法如下:
(8)
3.3 隐私泄露评估算法实现
结合上面的隐私泄露风险评估方法,该文的隐私评估算法的伪代码如下所示:
算法1:隐私泄露风险评估算法。
输入:数据使用者需求集合G,数据发布字段隐私等级集合S,数据操作隐私等级集合H,发布数据集data。
输出:隐私泄露风险系数r。
(1)matrix=Create(n,m);
//建立m×n的矩阵,默认值为0
(2)FOR item∈G;
//遍历使用者需求结合
(3)PL(item,matrix,S,H);
//通过查询字段隐私等级集合S与数据操作隐私等级集合H,对第i行与第j列进行隐私等级赋值
(4)END FOR
(5)p=CoSum(matrix)
//对矩阵行求和,得到向量p
(6)dataX=init(data);
//对数据进行处理,去除掉标识符等非敏感数据
(7)numDataMatrix=GetNumData(SenData);
//对数据进行非负值映射,得到敏感数据矩阵
(8)weightMatrix=numDataMatrix⊕p
//将敏感数据矩阵与权重向量合成带有权重的敏感数据矩阵
(9)AmountPrivacy=GetPrivacy();
//通过范数计算,获取数据隐私量
(10)r=CalculatedRisk(AmountPrivacy)
//通过数据归一化,计算风险系数得到r
(11)output:r
//输出r
(12)return
4 实验结果与分析
4.1 实验设置
该文选用公开数据集UCI中的Adult进行实验分析,其中包含15个属性字段,32 670条数据,通过进行实验分析,验证该方法的效用性和正确性。
实验环境具体如下:实验算法采用Python进行开发,操作系统采用基于x64的Windows10,内存为24G,CPU为Intel(R) Core(TM) i5-8250U CPU @ 1.60 GHz 1.80 GHz。
4.2 实验分析
实验首先验证在评估数据、操作方式、字段隐私等级不变的状态下,增加字段需求数量,数据隐私泄露风险值的变化。采用Adult数据集中的15个字段进行实验,通过数值化处理转化为敏感数据矩阵D1,字段操作隐私等级标记参考表2,字段隐私等级按照数据发布者的标记,按照字段隐私泄露的风险程度进行隐私标记,等级越高风险越大,分别标记1~5,方法参照表1。通过实验,结果如图2所示。
图2 隐私风险值随请求字段数的变化
根据图2的结果表明,在评估数据、字段操作需求、隐私等级不变的情况下,随着字段需求的增加,数据隐私泄露风险值也随字段数量的增加而增大。
接着分析在字段操作、隐私等级、字段需求不变的情况下,对数据添加噪声是否可以降低隐私泄露的风险值,对数据效用的影响情况。为了产生与拉普拉斯同分布的随机数,实验采用了拉普拉斯的逆累积分布函数,随机数据的生成如下:
(9)
其中,β为在区间[-0.5,0.5]中均匀分布的一个随机数,设均值μ=0,δ为标准差,δ代表噪声量,δ越大,噪声越大。
对敏感数据矩阵D1中的元素添加拉普拉斯噪声,首先生成满足D1矩阵大小的噪声矩阵△D,然后添加噪声如下:D2=D1-|△D|,当敏感数据中的元素添加噪声的值为负时,将元素改为零。
通过图3的结果分析表明,在字段操作、字段需求不变的情况下,随着对数据添加噪声量的增加,隐私风险值降低,数据效用也随之降低。
图3 隐私风险值与隐私效用随噪声增加的变化
最后将文中方案与文献[11]做对照分析,实验结果如图4所示。通过对评估数据添加噪声,文中方案的隐私风险值随着噪声的增加而降低,但是文献[11]没有发生任何变化。通过对比分析可以看出,文中方案不仅可以对字段和操作进行风险评估,还加入了对数据本身的数据隐私泄露风险评估,使得评估结果更加全面,也更能看出隐私保护的效果。
图4 隐私评估方案对比
综上,通过对请求字段数、数据效用、隐私风险值和其他方案的对比分析可以得出,该方法符合隐私泄露风险评估的预期,对于有效评估数据的隐私泄露风险,提高数据的共享价值具有一定的参考意义。
5 结束语
通过对数据进行数值化映射度量数据隐私并建立隐私等级标记,将两者紧密融合,实现隐私泄露风险的多方因素综合评估,提出了一种数据发布的隐私泄露风险评估方法。
该方法首先获取数据使用者数据需求,通过分别对属性字段隐私等级以及操作隐私等级进行等级划分,建立隐私等级矩阵,然后对发布数据进行数值化处理创建敏感数据矩阵,最后将隐私等级矩阵与敏感数据矩阵相结合,计算得出隐私泄露风险值,从而建立数据发布的隐私泄露风险评估方法。该方法为数据发布场景中的隐私泄露风险评估提供了适当的指导作用。
未来的研究中,将会探索更多更好的隐私泄露风险度量方法和评价指标,通过扩展相关度量方法与评价指标,建立更加可靠安全的隐私泄露风险评价体系。