APP下载

大数据背景下隐私保护技术的探究

2021-03-07朱禹睿

网络安全技术与应用 2021年9期
关键词:脱敏攻击者差分

◆朱禹睿

大数据背景下隐私保护技术的探究

◆朱禹睿

(浙江科技学院 浙江 310023)

本文以大数据时代存有的隐私安全问题与隐私保护技术进行阐述,首先介绍了大数据的背景与特征,并分析了大数据在其各个环节——数据存储、数据共享、数据采集过程中存有的隐私安全问题,又对收敛加密、同态加密、可恢复性证明、拥有权证明、差分隐私、数据脱敏等技术进行探讨,介绍了当前社会的隐私保护技术。其目的在于提升大数据的背景下隐私保护技术发展,保证数据可以在各个环节中都受到保护,推动计算机信息行业的发展,旨在为相关研究提供参考。

大数据;隐私保护;云计算;加密技术

1 大数据时代

1.1 大数据的背景概述

随着社会信息化和网络化的发展,如今已然是大数据的时代。在我们使用的社交软件,购物软件,短视频软件中每秒都有大量的数据在交互,在医疗、教育、科学计算等领域也正源源不断产生着数据。大数据被应用在生活中的方方面面:用户喜好的推测、智能交通、犯罪预防、城市规划,大数据给计算机领域开拓了一个新的黄金时代。安全技术作为任何新兴技术的伴生技术,大数据安全与隐私保护也引起了人们的重视,如何在数据交互便利的当今社会保护好自身的隐私是值得我们探究的问题

1.2 大数据的特征

提到大数据,人们往往最先想到的便是数据量很大,这是大数据最显著的特征之一,但除此之外,大数据还有着时效性高、数据类型复杂、数据质量参差不齐以及数据的相对价值较低等特点。数据的时效性高着很容易理解,尤其是在某些社交网站上尤为突出,例如微博、推特等,不仅数据量大,且时效性很高,若在采集、处理数据上花费大量时间,则与某些需要高时效性的数据相悖(如新闻事件、应急事件)。数据的类型复杂指的是大数据不仅需要处理传统的结构化的数据,还要处理大量非结构化、半结构化的数据,如网页、图片视频等。这些数据的处理不仅需要传统的关系数据库技术还需要引入许多新的技术。大数据的第四个特征是数据质量参差不齐,主要是指在互联网上存在的大量的无标注数据以及人为的错误数据,抑或是物联网设备在采集数据时由于环境原因、设备故障等原因导致的错误数据。数据相对价值较低是因为虽然数据量大,但数据的价值密度比较低,所以需要在数据中发现价值、创造价值。

2 大数据隐私与安全

2.1 隐私的定义

隐私通常指的是数据所有者不希望被外界所知晓的敏感信息,例如:个人的身份信息、薪资情况,企业的财政信息。一般来说,从隐私所有者进行分类,可将隐私分为,个人隐私与共同隐私。个人隐私指的是可以确定特定个人或与可确认个人相关,但个人不愿意暴露的信息。共同隐私指的是能表现出多个个体之间的联系或共性且不愿意被暴露的信息。

2.1 大数据存储及其隐私安全

随着云计算技术的迅猛发展,云存储技术受到越来越多人的青睐,用户可以将数据上传到云端,通过不同终端读取云端数据实现数据在各个设备之间的共享,也可以将其分享给他人。在云存储服务架构中共有三个角色,分别是:用户、云服务器和第三方审计者(TPA)。TPA的作用是代替数据拥有者完成对数据的完整性认证。由于用户确认自己数据的完整性是一件会花费大量时间且成本较高的事情,所以会将这个任务交由TPA负责。如何在让TPA有效率工作的同时,又不将自身的隐私泄露是一个亟须解决的问题。除此之外攻击者有能力损坏云服务器中所存储的数据,而即使数据遭到破坏,服务器也不会通知数据拥有者,以维护自身名誉,针对这个问题,数据可恢复性证明被提出,这在之后的隐私保护机制中详细介绍。

2.2 大数据共享及其隐私安全

从大数据的整体态势上看,数据的规模将会越来越大,多源数据的开采和分析才能使数据展现其真正的价值,在这过程中,数据共享技术扮演的角色日益重要。而阻碍数据大规模共享的一大问题便是如何保护隐私。在如今信息爆炸的时代,我们可以很轻易从社交网站上免费挖取他人的个人信息。而任何一个想做坏事的人可以通过从公开网络上挖取到的个人信息进行违法犯罪,因而存在很大的安全隐患。

2.4 大数据采集及其隐私安全

在大数据时代,互联网公司想尽一切办法采集用户的信息,而我们在网络空间的任何所作所为都可能会被记录下来进行分析。当我们打开购物软件,总能发现首页推荐的商品和自己曾搜索浏览的商品相似,它会分析我们的喜好,记录我们的消费水平,从而挑选出更适合我们的商品供我们选择。我们的个人信息也会被保存在网络中的任何一个角落,我们浏览过的网页会被记录下来,我们发送的电子邮件也会被存档。这还不是全部,甚至在现实空间,当我们打开定位服务时,手机会记录我们什么时候到了什么地方,手机供应商能轻易知道我们所有的行踪。这些行为都引起了大众对隐私的担忧。

3 隐私保护机制

3.1 收敛加密

大规模的云存储往往面临着两个方面之间的矛盾:一是系统需要压缩数据以节省存储空间的开销,二是用户希望自己的数据能够加密存储在云端,以保护自己的隐私,而以去重方式的压缩与加密存储的期望相违背。于是退而求其次,适度放宽对安全性的需求。允许密文泄漏原文相等性信息,使加密后的数据能够有去重的可能,最早提出的方案是收敛加密。在收敛加密中,采用数据本身的哈希值作为密钥进行加密,在这种情况下不同用户对相同数据加密所得到的值都是相同的,服务器也能通过数据哈希值的对比判断数据是否相同。用于数据标记的计算与数据密钥计算采用不同的哈希函数,因此不能够通过数据标记推出数据的密钥,使数据能够安全地在不同的用户空间共享,也就能实现加密情况下的数据去重。这既保证数据的隐私性也节省了数据的存储空间。

3.2 同态加密

即使解决了数据在云端存储的加密问题,但新的问题又产生了,对加密后的数据进行搜索与处理不是一件容易的事情,不仅管理不方便,用户的体验也很差。为了解决这一问题,同态加密被提了出来。同态加密就是将数据加密后处理得到结果进行解密,与对没有加密的数据处理后的结果相同。举个最简单的例子,当要进行“1+1”的运算时,将“1”进行加密得到“11”,预算得出结果为“22”,本地解密后得到最终结果“2”。在这种模式下云端服务器可以不用解密直接处理隐私数据,而在云环境中不会出现任何明文数据,用户的隐私数据也得到了良好的保护。

3.3 可恢复性证明

可恢复性证明的验证机制需要解决两个问题:(1)检测出文件是否被损坏。(2)修复被损坏的文件。针对第一个问题,岗哨数据块会被加入外包文件之中,服务器无法检测出岗哨数据块和普通数据块的区别。而当文件数据被破坏时,相对应的,加入其中的岗哨数据块也会被破坏。因此数据拥有者能够判断文件是否被破坏,也可以根据岗哨数据块在整个文件中的分布,判断出文件被损坏的程度。修复文件则是利用RS纠错码对文件的容错预处理,是恢复机制能够恢复文件中部分被损坏的数据。利用可恢复性证明的验证机制能够让数据所有者对自身的文件有更好的掌控,也更安全的保护其隐私。

3.4 拥有权证明

当用户向云端上传文件时,会发现几百上千兆字节的文件,很快就能完成传输。这是因为每一个文件都拥有一个属于自己的特征值,相同文件的特征值是相同的,用这个特征值与服务器中存储的特征值相比较,若有相同,则无须上传。这样虽然很大节省了存储空间与带宽,但是攻击者就可以根据一个文件的哈希值获取到整个文件。为了解决这个问题,拥有权证明模型被提了出来,就是在客户端与相应端执行一个挑战/相应的协议,能够防止攻击者通过单一哈希值获得整个文件,从而加强了用户的隐私保护。

3.5 差分隐私

当用户在查询数据时,得到的反馈是数据所有者给出的准确信息时,很容易造成隐私泄漏,因为攻击者可能冒充用户进行查询,从得出的结果反推用户的隐私信息。为了避免这个问题,研究者提出了差分隐私系统,可以保证攻击者获取到的数据几乎和没有这个人数据的数据集中所获取的相差无几。举个例子:某医院的数据库的信息存储格式:“小明,男,患有精神病”,“小红,女,患有肥胖症”......通过查询前99条记录性别为男的数量,与前100条记录性别为男的数量进行比较,可以轻易得到第100条记录的性别。但采用差分隐私技术后两次查询的结果便不准确,使攻击者无法判断。差分隐私技术就是向原始数据中添加噪声,攻击者获取到带有噪声数据的数据集后,难以反推出用户的隐私信息,从而得到保护隐私的目的。差分隐私的应用很广,小米就利用差分隐私技术实现模糊定位功能,当应用请求用户的位置信息时仅能获得用户的大致位置,从而保护用户的隐私。

3.6 数据脱敏

数据脱敏技术就是对与一些敏感信息利用脱敏规则进行变形,保护用户的隐私。但与加密技术不同的是,数据脱敏后的数据与原数据的类型相同,即不是真实信息但看起来像是真实的,例如用户名“张三”进行脱敏后变成了“李四”,身份证号码脱敏后依旧符合身份证的格式规范,电话号码脱敏后依旧为11位,且不会出现字母。数据脱敏技术在保护隐私的同时,也保持了数据监管的合规性。

数据脱敏技术分为静态脱敏与动态脱敏。静态脱敏就是将数据从数据库中取出,将数据脱敏处理后,交给开发、测试人员使用,可以任意对其进行读写操作,满足业务需求的同时,也保护了数据安全。动态脱敏是在查询敏感信息的同时,将数据进行脱敏后显示,例如查询的信息中包含一些敏感数据时,会将敏感数据先脱敏再将结果呈现出来,相当于“边查询,边脱敏”。

4 结语

在大数据时代,个人的隐私保护永远是重中之重,现有的技术可以很大程度上保护用户的隐私,但随着时代的革新、技术的发展,隐私保护问题依然值得关注,我们需要不断创新,在信息技术飞速发展的同时,保护自身的隐私不被泄露。

[1]曹春杰,吴汉炜.网络空间概论[M]. 北京:电子工业出版社,2019.

[2]石瑞生,吴旭.大数据安全与隐私保护[M]. 北京:北京邮电大学出版社,2019.

[3]刘华楠,Liu,Huanan,等. 云存储中数据完整性的可信第三方审计研究及进展[J]. 河南科技,2017,20(326):52-55.

[4]方滨兴,贾焰,李爱平,等. 大数据隐私保护技术综述[J]. 大数据,2016,2(01):1-18.

[5]张锋军. 大数据技术研究综述[J]. 通信技术,:2014(11):1240-1248.

[6]Q Wang,C Wang,J Li,et al. Enabling public verifiability and data dynamics for storage security in cloud computing[J]. European Conference on Research in Computer Security,2009(5):355-370.

猜你喜欢

脱敏攻击者差分
RLW-KdV方程的紧致有限差分格式
激光联合脱敏剂治疗牙本质过敏症
机动能力受限的目标-攻击-防御定性微分对策
数列与差分
谈一谈脱敏治疗
正面迎接批判
让青春脱敏
有限次重复博弈下的网络攻击行为研究
基于差分隐私的大数据隐私保护
Nd:YAG激光作用下牙本质脱敏机制的研究