基于隐私保护的位置大数据加密方法研究
2019-04-01黄启萍王堂志
童 威, 黄启萍, 王堂志
(1.安徽文达信息工程学院, 安徽 合肥 231201; 2.安徽电气工程职业技术学院,安徽 合肥 230051)
0 引言
位置大数据就是包含用户位置信息的规模较大、产生速度较快、蕴含价值较高且满足用户认可的数据,也正凭借其诸多优势被广泛应用,但位置大数据在给人们带来便利的同时,也存在泄露个人信息的风险。这是因为位置大数据不仅包含了用户的隐私信息,甚至连用户的习惯、喜好、健康状况等其他敏感信息都包括在内[1],一旦大数据信息遭到破坏,那么用户的隐私会受到极大的威胁,甚至影响人们的财产及生命安全。因此,对用户位置大数据的隐私保护与加密的研究是极其必要的。传统的用户位置加密方法产生时间较为久远,能够对单个用户的位置数据进行隐私保护,但随着数据量的增加,传统加密方法便不再受用,常常出现用户位置数据获取误差大、隐私数据保护程度不高等现象[2],严重限制了用户位置加密的进一步发展,为此本文提出并设计了一种基于隐私保护的位置大数据加密方法。为验证该方法的可行性,在仿真平台内进行用户位置大数据的加密保护实验,结果表明,基于隐私保护的加密方法能够对用户的位置数据进行长期有效的保护,为人们的日常生活提供了更多的便利。
1 位置大数据加密方法设计
1.1 位置表示与定位
用户在允许位置的访问权限时,移动设备会立即获取这一时刻用户的经纬度信息,并用(x,y,t)的形式表示,其中,x代表位置的经度;y代表位置的纬度;t代表获取这一位置信息的时刻。现阶段,我国用户位置数据的定位主要通过GPS实现,根据多个卫星与同一移动设备之间的通信,实时获取移动设备的定位信息,并利用三角测量方法[3],精准获取移动设备的经纬度;再通过移动设备的互联网功能,在保证互联网连接的前提下,找准互联网与移动设备的对应关系,便可在数据库中找到目标定位对象,当移动设备连接到某个局域网时,GPS也可以将用户的位置数据进行准确获取。
结合GPS系统的定位优势,将其引入数据的加密过程中,当有用户的隐私数据被泄露时,数据的隐私保护机构会立即获取移动设备的信号基站,并寻求其他设备的支援保护。在有移动设备接入互联网的前提下,对用户的位置数据进行隐私保护,并随机分配一个IP地址[4],这个IP地址便是位置大数据的映射形式,用户利用这一映射关系,将位置数据进行识别,以寻找最优的保护策略。
针对用户的位置数据进行隐私保护与加密,对位置数据的区分与提取显得尤为重要。当用户在获得自己的位置信息以后,移动设备的签到应用和导航功能便会立即启动,那么在众多数据中,只要带有(x,y,t)表示形式的数据便被归为位置数据集,再根据IP地址的映射关系[5],寻找恰当的方式对这些数据集进行加密保护。
若位置数据集中混入其他非位置数据或具有攻击性的数据时,根据数据的其他属性,将不属于位置属性的其他数据进行剔除或销毁。当用户收到位置请求服务时,带有(x,y,t)形式的数据还具有非线性特征,那么具有线性特征的数据便会立即被剔除;攻击数据属性更具识别性,本次分析不对恶意数据进行仔细分析,一旦系统检测到恶意数据后,会立即将其销毁,那么此时数据集内有且仅有用户的位置数据。
1.2 引入模糊加密理论
模糊加密理论主要包含两个层面,一个是位置数据的空间模糊;另一个是位置数据的时间模糊,只要保证这两个层面的模糊加密,才能对动态性的位置数据进行准确的重组计算[6],以为数据的隐私加密过程提供精准的数据基础。用户位置数据的空间和模糊加密过程如下:
用户位置数据的空间模糊能够在一定程度上通过降低位置数据精度的方式,保护用户的位置信息,以满足用户的隐私需求。同时,设有位置数据的妨碍区,能够将用户的隐私数据从一个模糊点转化为一个模糊区域,使得用户提交的位置数据具有隐蔽性,无法通过肉眼获得用户的清晰位置。用户位置数据的空间模糊如图1所示。
图1中,(a)图代表时刻内,从A到E这5个用户的空间位置数据;(b)图代表这5个用户的空间关系。
当用户A想要将黑色区域作为自己的模糊位置时,在符合各项参数的前提下,只要对与A临近的区域进行隐私保护,便可对全系统内的位置数据实现统一的加密保护,这样一来,将用户的位置数据限定在更小的区域内,便于对隐私数据的查询[8]。
考虑到用户位置的隐私需求能够在两个连续的区域内实现加密保护,因此本次设计结合用户的实际需求,对隐私保护的修正速度进行优化,使得用户的位置信息在这种隐私需求下得到扩展,允许每个用户具有小规模的模糊要求[7]。这种将隐私保护作为技术支持的加密保护方式,不但大大降低了位置数据的加密难度,还能缩短用户的请求响应时间,提高数据加密过程中的保护速度,提高方法的加密保护效率。
位置大数据的时间模糊加密理论,是通过增加位置数据时域不确定性的方式,减少位置数据的精度,进而实现位置数据的加密过程,如图2所示。
图1 位置数据空间模糊示意图
图2代表一个用户位置数据点C在移动设备网络中的移动过程,在经过时间模糊后,位置数据点的移动状态如表1所示。
表1 时间模糊后位置数据的移动状态
分析表1可知,数据点C在任一时间模糊函数内均能正常移动,因此说明该状态函数具备有效性。
由于时间模糊函数对位置数据的模糊程度要求较高,因此实际应用过程中,要考虑用户位置数据在时间维度上的变化特征,并利用这一特征的时域进行动态模糊,实现用户位置大数据的隐私保护需求。
1.3 位置大数据隐私保护算法建立
在确定用户位置大数据的定位与表示准确的前提下,结合数据的空间和时间模糊加密理论,对数据的保护强度进行选定[9]。假设位置数据的隐私预算记作ε,对用户查询的相关位置数据集进行集权化处理,使之满足差分隐私保护计算的要求,集权化处理过程如下:
(1)
式中,U代表满足隐私保护计算的用户位置数据,即具有位置特征的大数据集;Qi代表原始位置数据的查询结果,Qi∈(x,y,t);S代表范数距离,本次引用计算不做定向分析。
考虑到互联网系统中,用户的位置数据体量大、更新速度快、数据组合形式复杂等特征,直接对用户位置大数据进行加密计算,可能会激活数据的敏感属性[10],最终导致位置数据随着时间的变化而变化,影响最终的加密效果。为避免这一现象的发生,本次计算加入一个位置数据的敏感系数Δβ和阈值N。一旦位置数据集中的计算目录超过数据敏感度阈值,则必须停止计算,对数据集进行重新调节,实时监管并获取用户的位置数据,满足数据加密保护的最新要求。位置数据的敏感度计算过程如下:
(2)
式中,P代表符合加密规则的位置数据;γ代表数据的离散属性集合,其中,U·Δβ≤N。
在此基础上,结合差分算法的要求,设计基于隐私保护的数据加密算法模型,在满足用户位置数据加密的前提下,对用户的服务质量进行预期评价,得到最终的加密系数:
(3)
式中,E代表隐私保护加密计算系数;e2代表对同一位置数据加密时的查询函数;Rk代表数据敏感度的近似程度。分析可知,数据的近似程度Rk越高,则得到的加密系数越大,那么表明用户位置大数据的服务质量越高,误差越小,对位置数据的隐私保护强度越高。
通过上述定义,将基于隐私保护的加密方法在互联网系统内进行一次位置大数据的加密推演。当用户匿名发布的位置数据符合查询要求时,通过表述用户位置数据的方式,区分数据库中的非位置数据;再结合模糊加密理论,得到位置数据的时间及空间特征,最后简化计算步骤,保证加密计算的可用性能,从而获得快速、准确的用户位置大数据加密效果。
2 仿真实验
在仿真平台内对本文基于隐私保护的加密方法是否可行进行验证,设置仿真实验环境如表2所示。
表2 实验环境设置
由于经匿名计算后的位置数据具有不稳定性,因此其中的位置数据都是动态的、分散的,不具有任何关联特征,那么选择对数据加密前后的恶意数据拦截量与加密误差作为衡量标准是可行的。同时,为保证实验的严谨性,采用传统加密方法与本文隐私保护加密方法进行对比,在固定阈值内,分析两方法对恶意攻击信息的拦截量与位置大数据加密误差,实验结果如图3所示。
图3 仿真实验结果对比
图3中,(a)图代表两方法对恶意攻击数据的拦截量对比;(b)图代表两方法对位置大数据的加密误差对比。从图3可以看出,两方法对恶意攻击数据的拦截量及位置大数据的加密误差均相差较多,本文方法的优势明显。(a)图中,随着变换尺度的增加,传统方法对恶意攻击数据的拦截量有所提高,但仍低于本文方法的恶意数据拦截量,计算可知,本文方法的恶意数据拦截量高达97.68%,而传统方法对恶意攻击数据的有效拦截量仅为85.91%。(b)图中,当数据集为3时,两方法的数据加密误差最为接近,但对于其他数据集的加密保护,传统方法存在的加密误差在5.0左右,误差严重影响了用户的隐私安全。结合图(a)和图(b)可以看出,本文基于隐私保护的位置大数据加密方法的数据隐私保护效果较为理想,说明该隐私保护加密方法具有较好的稳定性和有效性,较传统方法具备极高的加密保护优势。
3 结束语
随着人们对互联网的依赖程度不断提升,利用互联网技术进行数据交互与存储时,人们的安全问题也受到了不同程度的威胁,因此本文利用隐私保护手段,设计了一种对用户位置大数据进行加密保护的方法。但在本次研究中,还存在一些不足之处,例如引入模糊理论时,没有重视对用户位置大数据的预处理过程,导致最终模糊加密的数据存在一定的噪声,影响最后的加密误差,虽然没有对加密结果造成严重的影响,但希望在下一次的研究中,能够针对位置大数据的预处理过程进行有针对性的研究,以不断将数据加密保护误差缩小并无限趋于零,为用户的隐私信息提供强有力的加密保护,促进我国互联网技术的进一步发展。