APP下载

基于局部差分隐私的物联网敏感数据泄露控制

2021-11-17朱丹红

计算机仿真 2021年2期
关键词:数据链差分加密

朱丹红,程 烨

(福州大学数学与计算机科学学院,福建 福州 350108)

1 引言

物联网指代“物与物之间连接而成的互联网络”,是一种建立在互联网基础上的衍生网络,也可以作为互联网的拓展物[1]。其客户端虽然可以延伸到实物,但是其核心部分依旧是互联网数据。作为现代社会重要的组成部分,物联网保留了射频识别技术、激光扫描技术、红外传感技术等,可以实现互联网连接、定位、追踪等,其提供的数据能够满足社会生产和企业运营等多方面的需要。为了保证社会公共信息以及私人信息的安全性,必须完善物联网敏感信息保护技术[2]。而一旦出现敏感数据泄露,很有可能造成隐私信息泄露及篡改。目前国内外针对物联网敏感数据问题,已经衍生出了大量的物联网安全防护手段,不法分子很难突破外围的安全防护[3]。但是物联网敏感数据泄露的情况依旧存在,根据调查显示截止到2020年3月,我国物联网敏感数据泄露事件累积超过25万起,社会企业直接经济损失超过1000亿,其中内部数据泄露事件所占比例超过60%,可见当前物联网敏感数据的保护方法还有待完善[4]。

为了满足当前需求,不少专家学者都对物联网敏感数据泄露控制方法进行了研究,例如基于动态污点跟踪的敏感数据泄露控制方法[5]以及基于加权贝叶斯网络的敏感数据泄露控制方法[6]等。但是这两种方法由于对所有数据都进行了运算,导致工程量加大。在实际应用过程中发现,该方法的数据加密覆盖率较低,难以在实际中得到广泛应用。

针对该问题,基于局部差分隐私的物联网敏感数据泄露控制方法。将局部差分隐私技术用于物联网敏感数据保护与泄露控制过程中,可以对物联网用户终端信息尤其是敏感数据进行多方位的保护和权限监控,可以有效保障物联网敏感数据安全,杜绝数据泄露情况的发生。

2 物联网敏感数据泄露控制

2.1 物联网数据挖掘

由于物联网数据呈现海量化,因此需要进行物联网数据挖掘,将数据挖掘结果作为后续敏感数据泄露控制方法设计的基础。其具体过程如下:

数据挖掘作为安全控制数据的来源,是物联网数据链的生成形式[7]。传统数据挖掘方式因为自身采样率过高,导致数据采集负荷量过高,因此在进行数据挖掘过程中,需要对物联网数据链进行简化[8],其简化思想为:对当前物联网数据链首尾端进行连线,获取数据最小量值,并提取最大的间隔值dmax,将其如限差值δ进行对比,如果dmax小于δ,则将当前数据链中间数据点抹去,否则保留当前dmax数据点并将其用作数据链边界。所有数据点按照A和B标号,依靠豪斯多夫距离建立连接,连接公式为

(1)

将dmax带入公式距离可以将其简化为

(2)

在简化物联网数据链之后,进一步对数据链距离进行估计,设计基于链距离估计的物联网数据挖掘方法。假设数据点A与B的相似距离为E={e1,e2,e3,…,en},物联网数据链数量为N,n=N/2。为了提升数据挖掘效果,首先需要定义数据点的离群因子[9],描述为

(3)

式中,L(·)表示离群因子复杂度,T表示转置wT局部离群点,λ为局部离群系数,zi(w)表示离群点分布描述函数。

在此基础上,需要对离群因子进行排序,将排序时间复杂度设为fi,获取离散因子排序结果[10],计算公式如下

(4)

以离散因子排序结果为基础,对物联网数据链距离重新估计,计算公式为

(5)

在t时刻,数据挖掘节点i在云平台中进行物联网数据挖掘的频率利用下式进行计算

(6)

式中,Di(t)表示物联网数据分布函数,Dn(t)为数据密度描述性函数,Dk(t)表示数据挖掘代价函数。

基于物联网数据链距离重估计结果,令数据挖掘频率最大化[11],数据链距离最小化,得到数据挖掘结果,表示为

(7)

2.2 敏感数据检索

在获取到物联网数据后,为减少计算量,需要在物联网数据集中检索敏感数据,以实现后续对于物联网敏感数据泄露控制[12]。敏感数据检索首先需要按顺序进行数据存储,进而记录关键词出现频率和位置起始端的偏移量。其核心设计步骤如下:

第二步,文档化结束后,对当前数据的分词部分进行处理,中英文连词部分需要隔开,以此建立规范化的检索格式,计算公式如下

(8)

式中,η(k)表示检索到第k种敏感数据的决策函数,Si为中英文连词分隔函数。

第三步,根据上述建立的规范化的检索格式,建立敏感数据检索序列,表示为:

(9)

第四步,以检索序列为基础,对数据库中的数据进行检索,构建物联网敏感数据集,表示为

(10)

由于文档内部存有独立且唯一的安全性保密检索,根据不同的文档形式可以直接定位文档内容位置,以保证远程信息和扩展信息需要。

2.3 基于局部差分隐私的泄露控制

在检索到物联网敏感数据后,为保证数据安全性,需要对物联网敏感数据集进行加密处理。由于一般的差分隐私模型以用户为中心,网络服务商对隐私信息进行聚合,从而构建隐私数据库,通过对数据库添加噪声从而发布具有噪声的信息,并提供相应的查询服务。但是,在以上过程中,由于可能存在可信度较低的第三方服务商,因而仍有可能会面临较大的信息泄露风险,例如服务商内部员工泄露和遭受恶意攻击。

而局部差分隐私思想的提出与应用能够较好地解决以上问题,局部差分隐私针对不可信第三方服务商,通过对用户端发送的数据进行扰动,在服务器端聚合扰动数据的方式来提供差分隐私保障。其实现步骤如下:

1)初始化:假设一个q阶的双线性群为Gq,群生成元为g。随机选择两个加密参数α与β,则主钥K=(β,gα),则物联网敏感数据集初始化公式为

PK=〈Gq,g,h=gβ,e(g,gα)〉

(11)

2)数据扰动

假设一共有n个用户,则一个隐私算法J及其定义域Dom(J)与值域Ran(J),假如两条查询记录为l,l′∈Dom(J),利用隐私算法J得到两个相同的结果l*,则J满足ε(局部差分隐私)

Pr[J(l)=l*]≤eε×Pr[J(l′)=l*]

(12)

虽然上述能够从理论方面保障隐私算法满足局部差分隐私,但是需要引入数据扰动机制保障局部差分隐私的实现,而其中关键是构造一个响应矩阵。假设用户属性集合Sj具有m个属性值,分别用s1,s2,s3,…,sm表示,若Sj=vi(i=1,2,3,…,m),扰动数据为p,则扰动矩阵为

(13)

3)明文加密:实现局部差分隐私之后,需要对明文进行加密,首先定义明文的访问树λ。定义访问树中的每个非叶子节点x随机访问一个多项式P(x),该节点的门限为[dx,nx]。假设根节点为r,随机选取一个常数s,将其设为Pr(x)的常数系数,即Pr(0)=s。对于根节点以上的节点y,与其对应的多项式一律满足

Px(0)=Pparent(x)(index(x))

(14)

利用上述思路,自下而上构建明文的访问树λ。则物联网敏感数据集加密密文为

CT=〈λ,Me(g,g)αs,C=hs,∀y∈Y:Cy=ggy(0),

(15)

4)私钥生成:当新用户j申请入网之时,系统会随机分配给用户一个私钥uj。假设该用户属性集合为Sj,用户的独有属性o∈Sj,如果o∈La,Lj表示用户安全属性集合,那么用户j会获得密钥中心分发的私钥为

Ka=(∀o∈Sj∩La:Di=g1uj·Vi·Ta,i)

(16)

5)解密:假设节点z为明文访问树的叶子节点,密文为CT,私钥Ka中包含了用户属性集合Sj,z是密文CT中访问控制树的节点,则o=attr(z)表示节点z关联的属性值,如果o∈S,则解密算法如下

(17)

如果o∉S,则定义:

DecryptNode(CT.K,z)(CT.K,z)=⊥

(18)

根据以上步骤,按照自上而下方式一直从叶子节点计算至根节点,得到:

e(g1,g2)uj·v0=e(g1,g2)uj·s

(19)

基于上述结果对加密密文进行解密,获取明文ET,其计算公式为:

ET=e(C,D)/e(g1,g2)uj·v0

=e(g1,g2)τ·s+uj·s/e(g1,g2)uj·s=e(g1,g2)τ·s

(20)

通过数据初始化、数据扰动、明文加密、私钥生成、解密等多个步骤实现物联网隐私数据泄露控制,避免了敏感数据在传输过程中被拦截、复制和篡改的危险,使得敏感数据安全性得到了较大提高。

3 仿真测试

为了验证本文提出的基于局部差分隐私的物联网敏感数据泄露控制方法的实际应用效果,进行仿真测试。测试环境如下:

3.1 测试环境

测试环境如下:

本次实验在Inter(R) Core(TM) i7-3770 CPU @3.4GHz、内存为8G、硬盘容量为512G的Windows 10上进行。仿真测试软件为MATLAB 7.0,实验数据为某一大型物联网服务商的后台数据,在获取样本数据过程中,剔除损坏以及重复数据,保证其能够在仿真平台上顺利运行。

3.2 测试指标

此次实验主要应用性能对比测试的方式进行,将文献[5]基于动态污点跟踪的敏感数据泄露控制方法以及文献[6]基于加权贝叶斯网络的敏感数据泄露控制方法作为实验对比方法。通过测试物联网敏感数据检索查全率与查准率、加密覆盖程度以及非法操作定位精度,确定不同方法的综合性能。

3.3 测试结果分析

首先比较不同方法的查全率与查准率,结果如图1和图2所示。

图1 查全率比较

图2 查准率比较

分析图1与图2可知,研究方法的物联网敏感数据检索查全率在82%-98%之间,查准率在94%-98%之间,说明该方法的物联网敏感数据检索查全率与查准率均高于实验对比方法,能够精准全面地检索到物联网敏感数据。

在上述实验的基础上对三种方法应用后的物联网敏感数据加密覆盖程度进行测试,其结果如图3所示。

从图3可以看出,在对物联网敏感数据加密覆盖度对比测试中,不同方法的加密覆盖度不同。经过比较可知,研究方法的加密覆盖度明显高于实验对比方法,足以证明该方法在进行物联网敏感数据泄露控制过程中,具有更高的覆盖面,适合海量物联网隐私数据泄露控制。

利用服务端软件生成非法操作访问,监测不同方法的非法操作定位精度,比较结果如下:

表1 非法操作定位对比

根据表1数据可以清晰地看出,随着攻击量的上升,三种方法的非法操作定位准确度均出现下降趋势,但是研究方法的整体准确率依旧维持在95%以上,说明该方法能够准确定位非法操作。

4 结束语

随着现代科技的飞速发展,物联网作为传感网络和数据网络的产物,成为现代互联网产业重要的组成部分。物联网隐私数据的安全监管是企业生产安全的前提条件,为有效提高物联网数据安全性,提高敏感数据保护范围,设计基于局部差分隐私的物联网敏感数据泄露控制方法。主要通过数据初始化、数据扰动、明文加密、私钥生成、解密等多个步骤实现物联网隐私数据泄露控制。实验结果表明,该方法对于物联网敏感数据检索的查全率与查准率高,可以有效提高数据加密覆盖度,更能提高风险访问事件位置的定位成功率。

猜你喜欢

数据链差分加密
一类分数阶q-差分方程正解的存在性与不存在性(英文)
保护数据按需创建多种加密磁盘
一个求非线性差分方程所有多项式解的算法(英)
快递也有污染,绿色发展在即 以数据链净化快递行业生态链
谷歌禁止加密货币应用程序
盾和弹之间的那点事(十八)
盾和弹之间的那点事(十六)
一类caputo分数阶差分方程依赖于参数的正解存在和不存在性
揭秘信息化战争的神经中枢
加密与解密