大数据时代的隐私保护关键技术研究
2016-10-18王静婷孙亚红肖淑苹
王静婷+孙亚红+肖淑苹
摘要:大数据是目前广受社会各界研究的热点,它成为了信息社会的重要财富,同时也给数据的处理和管理带来了巨大挑战。因此,该文从大数据概念入手,阐述了大数据的定义、特点、来源以及应用目标,分析了大数据带来的安全挑战。同时,结合大数据面临的安全考验,对隐私保护的关键技术进行了探究。最后,总结了大数据时代的隐私保护的意义。
关键词:大数据;隐私保护;关键技术
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)21-0009-02
Abstract: Big data is the popular hot topic in the study of the social from all walks of life. It has become an important wealth of information society, but it has brought about great challenge to data processing and management. Therefore, this article obtains from the concept of big data and expounds the definition, characteristics, sources and applications. It also analyzes the security challenges. At the same time, combined with the security test of big data, it has carried on the exploration to the key technologies of privacy protection. Finally, it summarizes the significance of privacy protection in the era of big data.
Key words: big data; privacy protection; key technologies
当今,随着云计算、移动互联网等技术的迅猛发展,以Web 2.0技术为基础的博客、社交网络等新兴服务产生了种类繁多的数据,而云计算为存储数据提供了平台,这一切造就了大数据时代的正式到来。大数据吸引了越来越多的关注,成为了学术界和产业界的热点研究问题。大数据中蕴藏着巨大的价值,成为了信息社会的重要财富,但同时也面临着前所未有的挑战,大数据的安全与隐私问题就是其中之一。如何在大数据时代对企业和个人隐私进行保护,这是人们应该思考的问题。
1 大数据概述
1.1 大数据的概念
维基百科对大数据进行了定义:大数据是指使用常用工具对数据进行捕抓、存储、管理和分析所耗费的时间已远远超过可承受时间的数据集合。也就是说大数据是规模庞大,数据类别繁多的复杂数据集,因此,使用现有软件工具对其内容进行捕获、管理和处理难度较大[1]。
1.2 大数据的特点
大数据从3V、4V到现在的5V特点(IBM提出),其归纳为Volume(大量),Velocity(高速),Variety(多样),Veracity(真实),Value(价值)。
(1)数据量(Volume)庞大
数据量庞大,包括捕抓、存储、管理和分析的数据量都非常大,计量单位已经提升到TB、PB、EB甚至ZB级别。
(2)数据处理速度(Velocity)快
数据的创建、处理和分析速度持续加快。该特点与传统的数据挖掘特征有着显著的区别。
(3)数据类型(Variety)多
过去的数据种类较为单一,通常多以结构化数据为主。现在,大数据中的数据类型繁多,不仅存在结构化数据,如文本类型数据,而且越来越多的数据类型以半结构化和非结构化数据为主,包括视频、地理位置等信息。
(4)数据真实性(Veracity)
大数据是从庞大的数据中提取出的,因此,大数据必然具有真实性,只有真实的数据才有参考价值和应用价值。在信息化进程飞速发展的今天,任何不合理、不真实的数据都将导致决策或是方案的错误,影响社会、经济和生活发展。
(5)价值密度低(Value)
价值密度低,商业价值高。通过分析数据得出如何抓住机遇及收获价值成为目前大数据背景下最需要解决的问题。
1.3 大数据的来源
根据不同的数据来源,将大数据分为以下三类[2,3]:
(1)来自于人
人类使用互联网所产生的种类繁多的数据,包括文本、图形等信息。
(2)来自于计算机
由各类计算机软件工具所产生的数据,主要以文件、多媒体等形式存在的信息。
(3)来自于物理世界
通过各类仪器、设备或科学实验所获取和采集的数据。如摄像头产生的图像信息和天文望远镜所产生的大量数据等。
1.4 大数据的应用目标
大数据被广泛应用于多个领域中,其应用目标主要包括以下三点:
(1)通过分析现有数据、挖掘事物规律,可以更及时地获取有价值的信息以及更准确地推测事物发展的趋势。
(2)通过长期的、多维度数据的分析、积累和对比,可以获得用户个性化的特征,因此,可以为用户提供更优质的、种类更多的个性化服务等等。
(3)通过分析数据,及时辨别出数据的真伪性。
2 大数据带来的挑战
大数据为信息社会带来了重要财富,同时也存在让人担忧的安全性问题。在大数据时代,安全性挑战主要有以下两方面:
2.1 企业和用户的隐私保护
主要表现在以下三个方面:
(1)对用户而言,安全性问题不仅仅局限于用户个体的隐私泄露,还在于对个体状态、行为进行分析和预测。通过对用户的历史记录等分析,可以发现用户的政治倾向、消费习惯及爱好等。
(2)企业认为对数据进行了匿名处理,信息就可以公开发布了,但事实证明,匿名保护这种方法并不能达到对隐私保护的理想效果。
(3)对用户数据进行收集、存储、管理和使用都缺乏规范和监管,主要依靠企业的自律。此外,隐私信息被用于何处,用户不会被告知。
2.2 大数据的可信程度
数据就是事实,可以说明一切。但若不认真仔细地甄别数据,很容易被数据所骗。在大数据中,欺骗性表现在以下两点:
(1)伪造的数据。由于伪造数据隐藏于大量信息中,同时数据的多样性和规模性,使得人们无法鉴别真伪,从而可能会误导人们得出错误结论和做出错误判断。
(2)失真的数据。数据在收集和传播过程中出现的误差,使得真假信息很难辨别,从而失真的信息可能影响人们对于信息的判断。
3 隐私保护关键技术
3.1 数据溯源技术
数据溯源技术早在在大数据概念形成之前已被广泛研究,其出发点是有助于使用者确定各项数据的来源。数据溯源技术的基本方法是标记法,并且逐渐细化为Why 和 Where 两类[4],侧重点分别为计算的方法和数据的出处。该技术也可用于文件的溯源和恢复,并且可被运用于云存储中。数据溯源技术被列为未来确保国家关键基础设施安全的重要技术之一,其在未来信息安全领域中仍面临着很多挑战。
3.2 角色挖掘技术
基于角色的访问控制是当前使用较为广泛的一种访问控制模型。在早期基于角色的访问控制的管理模式是“自顶向下”,而后期研究者则采用的管理模式为“自底向上”,即角色挖掘[5],通俗来讲,就是如何对角色的合理设置。通常情况下,使用角色挖掘技术可以根据用户的访问记录自动生成角色,这不仅为用户提供高效及时地个性化服务,同时还可以分析异常行为发现用户潜在的危险。
3.3 数据水印技术
数据水印是指将标识信息以难以察觉的方式嵌入在数据载体内部且不影响其使用的方法[2]。根据数据的特点决定了在数据库、文本中添加水印的多种方法。将数据库指纹信息嵌入到水印中[6],这样便于识别出信息的拥有者及被分发的对象,有助于追踪泄密者。若嵌入脆弱性水印到数据库表中,有助于及时发现数据项的变化。文本水印生成方法较多,可分为基于文档结构微调的水印、基于文本内容的水印和基于自然语言的水印。其中一些水印方法可用于验证部分的数据,基于该特性的数据水印技术在大数据应用背景下具有广阔的发展和应用前景。
3.4 数据发布匿名保护技术
对于大数据中的关系数据而言,该技术是实现隐私保护的基本手段和核心关键技术,最典型的例子是k匿名方案,该模型主要研究的对象是静态的、一次性发布的情况,而现实中数据发布常常出现数据连续、多次发布的情况,这就需要防止攻击者对多次发布的数据联合进行分析,从而破坏了数据原有的匿名特性。在大数据中,攻击者从多种渠道获得数据,而数据不仅是同一发布源,因此,对于数据发布匿名保护这类复杂问题有待更深入的研究。
4 大数据时代隐私保护的意义
在大数据时代,深入探究隐私保护所涉及的重要理论问题,对相关技术进行梳理和体系化,构建科学合理的隐私保护体系,为隐私权法提供理论支持和学术建议,保障公民个人信息不会受到他人非法侵扰、搜集、利用等的人格权。
在现实生活中,隐私保护技术的应用越来越重要,所以越来越引起人们的重视。目前,回应社会的现实需求,因应国家隐私保护的立法契机,对目前隐私保护方面存在的问题提出具体的应对技术措施,推动实现从宏观政策的提倡到具体技术和配套措施的跟进,促进企业和个人隐私的有效保护。
5 小结
在大数据时代,不仅为信息社会带来了重要财富,同时也给数据的处理和管理带来了巨大挑战。若要实现大数据安全与隐私的保护,就应运用各种隐私保护技术,同时仍需要建立相关的政策法规,只有通过技术手段与相关政策法规等相结合,才能更好地对大数据安全与隐私进行保护。
参考文献:
[1] 方巍,郑玉,徐江. 大数据:概念、技术及应用研究综述[J].南京信息工程大学学报,2014,6(5):405-419.
[2] 冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014(1):246-258.
[3] 李国杰,程学旗.大数据研究: 未来科技及经济社会发展的重大战略领域[J]. 中国科学院院刊,2012,27( 6) : 647-657.
[4] Buneman P, Khanna S, Wang-Chiew T. Why and where: A characterization of data provenance[C].Proceedings of the 8th International Conference on Database Theory (ICDT2001). London, UK, 2001:316-330.
[5] Ene A, Horne W, Milosavljevic N, etal. Fast exact and heuristic methods for role minimization problems[C].Proceedings of the 13th ACM Symposium on Access Control Models and Technologies. Estes Park, USA, 2008:1-10.
[6] Guo Fei, Wang Jian-Min, Li De-Yi. Fingerprinting relational databases[C].Proceedings of the 2006 ACM Symposium on Applied Computing (SAC06). Dijon, France, 2006:487-492.