位置大数据中基于隐私保护的加密技术研究
2020-07-24王彩玲
王彩玲
摘 要:通过挖掘位置大数据中所蕴含的个人信息可以形成各种属性画像,给商业智慧、疫情防控、案件侦办等提供重要的价值参考。但是,位置大数据的蓬勃发展也带来一系列的安全问题,因个人隐私泄露所引发的欺诈、侵权等犯罪行为日益严重。文章针对位置大数据的隐私保护进行研究,通过分析相关的数据加密技术,提出了保护数据隐私的加密方法具体设计,实现了位置标示和定位,利用模糊加密理论设计算法,并对该研究方向进行了展望。
关键词:位置大数据;隐私保护;位置标示和定位;模糊加密理论
中图分类号: TP391 文献标识码:J
1 引言
随着移动互联网、智能穿戴设备、社交网络应用等位置感知技术的快速发展,用户位置数据大量产生并被收集,如微信中的“位置”、钉钉中的“签到”等。这些数据信息具有产生速度快、价值信息高、数据规模大等特点。
由于位置大数据蕴含有描述人们行为特征的信息,通过对其进行挖掘分析可以形成各种属性画像,从而在商业智慧、生活服务、疫情防控、案件侦办等方面提供重要的价值参考。与此同时,位置大数据的不当使用也给用户带来了个人隐私泄露的严重威胁,甚至造成不可预估和控制的严重后果。因此,在云計算和大数据时代,如何提高位置大数据的利用价值同时,又确保用户个人隐私不泄露,已成为位置大数据隐私保护研究的热点问题之一。
本文针对位置大数据的隐私保护进行了研究探讨,介绍相关的数据加密技术,在确保隐私保护的同时分析敏感数据,重点提出了保护数据隐私的具体加密设计。
2 位置大数据隐私保护技术
2.1 位置大数据中的隐私威胁
位置大数据服务具有四个特点:(1)位置信息与用户的身份信息相绑定;(2)用户的请求信息与位置有关;(3)用户提交的位置信息越精确,获得的位置数据服务质量就越高;(4)高精度的位置信息一旦发生泄漏,就会给用户带来一定的威胁或灾难。
基于这些特点,位置大数据的隐私安全问题不容忽视。当用户向服务器端发送位置信息时,恶意攻击者可能会截取用户的位置数据;当服务器端向用户返回处理后的结果时,恶意攻击者也有可能会根据背景知识分析出用户的位置信息[1]。
位置大数据中的隐私包括位置隐私和查询隐私两种。位置隐私是用户提出查询请求的位置数据;查询隐私则是用户提出查询请求的内容数据。不管是哪种隐私泄露都可能导致对用户行为模式、身体状况、业余爱好、交友信息等方面的画像分析,犯罪分子甚至伪装身份向用户推送各种恶意广告、诈骗信息等。近几年发生的多起案件表明,用户在享受位置服务便利的同时也面临着位置隐私安全的威胁,比如Google收集用户位置信息所引发的争论、各类手机APP的定位功能侵犯个人隐私等。
位置大数据隐私保护的方法很多,有位置隐私策略保护法、位置加密保护法、位置模糊匿名保护法等。本文主要研究基于数据加密技术的隐私保护方法,因为加密技术是最直接、最有效的隐私保护手段。
2.2 研究现状分析
当前,基于隐私保护的位置大数据加密技术研究已经取得了一定的成果。
2008年,IBM公司的研究人员Gentry发明出一种无需对数据解密的数学运算方法,这是同态加密的首个应用案例。同态加密是具有特殊代数结构的一种加密方案,其特点是在具体计算过程中不需要使用解密密钥,就可以直接对加密数据执行操作。2016年,微软的技术人员突破了同态加密速度的障碍,其应用领域也越来越广泛。在医疗系统中,医护人员可以根据数千万病患的医疗记录,来识别基于地理位置和人口结构的疾病态势,这些医疗记录在存储过程中,使用同态加密技术来实现对病患隐私信息的有效保护。
此外,差分隐私也是一种比较先进的数据加密技术。
差分隐私是2006年被Dwork等人首次提出的,利用密码统计计算来提高数据查询的准确性,同时实现对数据信息的保护[2]。与同态加密技术不同,差分隐私是对数据分析算法的一种属性设置,通过数据计算权限标准的设计,让不具备计算标准的外部计算方式无法对该数据进行计算或获取,从而达到数据保护的目的。差分隐私技术应用在位置大数据服务中,一是能够为位置查询服务提供准确率更高的数据,二是能够有效地抵御基于背景知识的恶意攻击所导致的隐私泄露。美国计划在2020年的人口普查中,使用差分隐私技术对公民的身份数据进行保密,从而更好地保护个人隐私。
3 位置大数据隐私保护的加密设计
伴随着定位技术及位置信息内容的逐渐扩充,相关的技术专家已逐渐将更多的加密技术应用到位置大数据的隐私保护中,具体的设计方法主要有三个方面。
3.1 位置大数据隐私保护的位置标示和定位
在位置大数据隐私保护中,对位置的获取和定位是首要的环节。
当前,对位置的获取主要采用GPS技术。GPS是目前定位系统中效率最高、精准性最强的技术,主要应用在移动设备或其他定位设备中。用户发出获取位置信息的指令,指令符合相关权限后对位置信息进行获取,经过卫星和移动设备的数据信号连接,从而获取和访问到使用者的定位数据。定位数据的内容主要包括三个方面:(1)对获取权限时间段内用户的经度位置进行定位;(2)对获取权限时间段内用户的纬度进行定位;(3)对获取权限时间信息进行校准。
在数据隐私保护设计中,这三方面数据可表示为(x、y、t)。
通过对这三项数据的定位测量,再利用当前的三角测量方法,计算出精准的位置信息。最后,移动设备和互联网相连接,对用户定位数据信息完成有效地储存处理及关联数据的搜索。
根据当前我国定位数据的获取原理,对位置大数据进行有效保护的主要措施是针对性地采取切断设备信号的方式,来提高定位数据信息获取的安全性。当GPS移动设备发出具体的定位请求时,经过数据保护系统的权限同意,加密保护装置会立即获取移动设备的信号基站,并同时向其他关联设备发出求救信号,其他关联设备对该设备的位置数据信息进行保护,并重新建立一个IP地址,这个IP地址就是对用户位置信息的映射。加密设备和技术的应用使攻击者无法正常获取信息信号,客户则通过自身的映射位置信息可以安全地了解自身的位置信息,达到了位置数据保护的目的。
除从获取渠道保护位置数据信息外,还可以从位置信息的保护层面防止用户的位置数据信息不受攻击[3]。加密技术对位置数据的基础模式进行识别和保护,即位置信息的(x、y、t)数据可以进入使用者的移动设备中,而恶意攻击者使用其他数据入侵定位系统,加密技术会自动进行非位置属性的数据销毁,从而达到对定位数据信息的保护。
3.2 位置大数据隐私保护的模糊加密理论
目前,模糊加密理论具体包括两个层面:第一层是位置数据信息中的空间信息模糊;第二层是位置数据信息中的时间信息模糊。通过对这两层信息进行模糊加密,实现位置数据的保护。在具体加密的过程中,模糊加密工作是数据保护计算的重要前提[4]。
首先,通过对位置数据信息的空间模糊来完成对位置数据信息的有效保护。当使用者想获取位置信息时,必然会发出信号获取(x、y、t)三项数据。从反向研究方法来看,如果想保护用户的位置数据信息,则可以利用模糊理论将(x、y、t)三项数据进行模糊和隐蔽,当窃取者想要获取信息数据时,得到的信息有可能是不完整的,也有可能是錯误的,这样就起到了定位数据信息保护的作用。
根据模糊理论,还可以设计隐蔽妨碍区域,通过妨碍区域的建立对数据进行更全面地保护。例如,图(a)设置有五个模拟位置 A、B、C、D、E,图(b)反映出这五个位置的空间联系关系,图(a)中的阴影部分表示当前使用模糊理论模糊的区域。如图1所示,除A用户本身之外,其他四个位置的用户想要获取A的位置信息,都会受到模糊区域的影响。通过位置模糊技术的应用,能够快速实现位置数据信息的隐私加密保护。
其次,模糊理论应用还涉及到时间模糊加密理论。时间模糊理论是指通过增加使用者位置信息获取时间的不确定性,来扰乱信息窃取者的数据计算进度,从而实现位置数据信息的保护和加密。其主要的应用原理也是对(x、y、t)三项数据进行模糊和隐藏,空间模糊中隐藏和模糊的是x、y两项数据,而时间模糊中隐藏和模糊的则是t项数据。在位置数据信息获取的过程中,如果时间信息错误,就会导致实际的计算精度失准。
例如,图2为位置数据时间模糊示意图,表1则为时间模糊理论应用后的时间数据状态。如表1所示可得,在进行时间模糊之后,加密保护技术对设备获取的位置信息进行增加模糊,从外层增加了许多的模糊时间信息,当窃取者想入侵到数据系统中时,位置信息非常复杂且具有干扰性,这就影响到窃取者的数据分析和思考。由于位置信息窃取所获得的信息都是模糊的、不准确的,据此计算得出的信息结果也都不准确,从而实现了位置数据信息的保护。
3.3 位置大数据隐私保护的加密算法实现
位置数据信息的保护主要是以相关数据精准计算为基础,通过精准计算才能实现对数据的模糊,其中位置数据的敏感度计算能够实现对数据信息的模糊处理。具体计算公式为:
在公式(2)中,e2表示在位置加密过程的使用函数,Rk则表示数据敏感的程度。Rk越大,则表示当前加密系数越大,加密保护功能越高[6]。
为验证上述加密算法的准确度,进行了仿真实验。实验环境:Win10操作系统,ADM Athlon64 FX处理器,8GB内存。搭建Python 3.6.8平台,利用 Geolife Trajectories 1.3获取用户的轨迹数据和标签。通过图3的对比可得,使用本文的加密方法比传统的加密方法计算误差值要小3个点,证明本文的加密计算方法十分有效。
4 结束语
由于位置大数据中含有用户的位置和标识信息,通过对这些信息的分析处理就可以掌握用户的隐私信息和行为习惯,这就涉及到位置大数据的隐私保护问题。本文通过分析相关的数据加密技术,提出保护数据隐私的加密方法,利用模糊加密理论设计算法进行计算和验证,比较发现误差值变小,该计算方法有效。由于位置大数据的隐私保护属于新兴领域,如何完善提升位置信息的隐私保护技术还需要人们进行更深入的探索和研究。
基金项目:
河南警察学院一般项目:多源大数据融合平台的研究与实现(项目编号:HNJY-2019-YL-01)。
参考文献
[1] 周胜利,陈光宣,吴礼发,等.大数据隐私保护中基于可信邻居选择的用户网络行为匿名技术研究[J].计算机科学, 2016,43(12):136-139.
[2] 林青.大数据背景下隐私保护方法研究[J].信息与电脑, 2018(7):50-51.
[3] 童威,黄启萍,王堂志.基于隐私保护的位置大数据加密方法研究[J].安徽电气工程职业技术学院学报, 2019,24(01):122-126.
[4] 秦晓江.物联网环境中占用空间较小的隐私保护加密算法研究[J].科技通报,2018(4):150-153.
[5] 李超零,陈越,谭鹏许,等.基于分解与加密的云数据库隐私保护机制研究[J].信息工程大学学报,2012,13(3):376-384.
[6] 李沛谕,张治学.基于可扩展加密的传感器网络数据隐私保护研究[J].计算机与现代化,2015(07):37-42.