APP下载

大数据环境下的隐私保护问题评估分析

2017-11-20白萍夏辉杜庆东

电脑知识与技术 2017年27期
关键词:隐私保护大数据评估

白萍+夏辉+杜庆东

摘要:人类已步入大数据时代,大数据时代下的商业价值较高,通过实现对大数据的挖掘及分析,能够得到具有较高经济利益及价值的数据。在大数据技术不断进步的过程中,企业能够在个人不知情或者无法控制的情况下对个人数据进行收集及分析并且使用。在没有通过用户允许的情况下获得个人数据的行为对个人隐私进行了侵犯,所以目前人们在大数据环境下对于个人的隐私保护问题越来越担心,隐私问题也得到了人们的广泛关注,国内外的企业及政府在隐私保护方面也进行了全新的研究及尝试。在此背景下,该文就对大数据中的隐私保护问题进行全面的研究。

关键词:大数据;隐私保护;评估

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)27-0001-02

在网络技术和通信技术不断成熟,并且网络通信带宽不断增加的过程中,大量的客户信息、医疗信息、交易信息等和个人隐私相关的信息都通过电子化的方式进行存储及管理,以此成为了大数据系统,现代相应学术界对于大数据的分析使用及深入挖掘的研究,并且得到了一定的研究成果。但是因为大数据分析及整合使用的研究使大数据问题被人们所重视,尤其是个人数据隐私保护问题,其是大数据研究过程中的重点内容。比如数据库服务层的安全隐私保护与数据完整性、机密性方面问题,隐私保护查询和访问控制问题等。在此背景下,隐私保护数据挖掘也成了全新的研究方向,人们也逐渐提出了全新的隐私保护数据挖掘的方法。现代大部分的隐私保护数据挖掘都是在分布式环境中使用,但是还是存在保护程度较低、计算量较大及通信造价较高的问题。那么本文就面向分布式情况下,研究隐私数据的挖掘及保护。

1 隐私保护数据挖掘的方法

在数据挖掘技术不断发展的过程中,其中的隐私问题也备受人们的关注,隐私泄露会导致个人人身及财产安全出现威胁,那么如何保证数据挖掘的精准度,并且对数据敏感信息进行有效保护是现代研究人员需要考虑的问题,其主要目的是使用某项技术对原始数据进行修改和加密,导致数据在通过挖掘之后不会被泄露[1],其主要方式包括:

其一,数据分布。根据数据分布的方式将隐私数据保护技术分为集中式及分布式两种,集中式数据是指所有的数据都在一个站点中集中。分布式又分为水平及垂直两种划分方式,水平划分指的是数据在多站点中,不同站点包括部分属性的记录。垂直划分指的是数据在多站点中,不同站点记录所有属性。

其二,数据修改。数据修改指的是将原来的原始数据的值进行修改,主要包括扰动、取样、阻塞、聚合及交换。

其三,数据挖掘算法。主要包括分类、聚类、关联规则挖掘及决策树,是通过不同数据挖掘算法进行分类。

其四,隐私保护。主要包括基于重建、基于加密及基于启发式三种技术。

其五,隐私保护对象。即对敏感的规则及数据进行隐藏[2]。

图1为敏感数据的隐藏模型。目前使用较多的技术为敏感数据隐藏、数据扰动技术和安全计算等,数据扰动技术是在数据公布之前对其进行改变,从而使其伪装成敏感数据,并且将其中的属性进行部分保留,其主要目的是攻击人员无法得到敏感信息,从而有效提高数据挖掘结果和原始数据结果的精准度[3]。

2 分布式数据挖掘

在计算技术及通信技术不断发展及进步的过程中,数据的数量也在不断地增长,但是大部分数据都是在不同场所进行存储,以此提高了分布式存储数据对数据模型寻找的需求,分布式数据挖掘指的是对不同场所的数据进行挖掘。在分布式数据挖掘中,各方都贡献自己的数据,从而能够通过合并数据对模型进行完善。为了能够得到全面的数据模型,那么要求分布式数据挖掘对不同区域中的问题进行解决[4]。

在数据挖掘中,能够根据数据分布将其分为集中式和分布式,分布式数据挖掘就是在分布式数据环境中使用的技术,是数据挖掘方面的主要内容,分为水平及垂直两种分布方式,其中的数据表集合为全局数据表。参与方在分布式数据挖掘中要求自身数据不被共享,因为暴露数据就表示隐私被暴露,自身利益会受到威胁。所以传统集中式的隐私保护挖掘在分布式环境中已经不使用,被现代面向分布式的数据挖掘隐私保护替代,其主要优点为:其数据拥有者较多,能够通过消息实現信息传递;站点资源受到限制;数据存在敏感信息。在分布式数据挖掘中的衡量指标为通信量,部分面向分布式的隐私保护都要降低通信次数,在分布式环境中将站点信息传送到其他站点,比如直接传输、网络传输等[5]。

3 面向Hadoop的数据挖掘平台

3.1 数据挖掘的步骤

数据挖掘会在不同领域中展现出不同的流程,不同数据挖掘技术的特性及使用步骤都各不相同,从而导致数据挖掘存在一定的差异。所以,数据挖掘过程中的形式化、标准化及系统化具有重要的作用,图2为一般数据挖掘步骤。

3.2 数据挖掘模型

面向Hadoop数据挖掘平台是在传统数据挖掘基础上使用云计算平台实现算法,以此进行并行化的数据挖掘算法,其主要优点为提高了数据处理的规模;具有良好的扩展性;具有较强的容错计算性等[6]。

3.2.1 平台结构

平台是以Hadoop为基础,使用自顶向下的方式实现,顶层是业务应用平台,其主要目的为用户和系统的相互交互,中间层是数据挖掘平台,包括数据挖掘及预处理模块。图3为基于Hadoop的数据平台。

3.2.2 平台模块

底层:分布式计算层,主要包括并行编程环境、HDFS及分布式系统管理。并行编程环境中包括编程环境,其能够根据需求实现程序的开发,并且还具有任务执行及调试的功能;HDFS可存储分布式文件,并且具有较高的可靠性及稳定性;分布式管理系统能够对平台的系统进行管理。

中间层:数据挖掘平台层,主要对数据挖掘的进度进行调度;处理源数据,对噪声进行清除,从而得到合法的挖掘数据;在对平台提交任务之后就能够进行计算,然后得到结果,并且对计算结果进行反馈。endprint

顶层:业务应用层,其主要目的就是实现应用程序的编写。

3.3 数据项访问控制模型

3.3.1 大数据中的数据访问控制

在实际应用过程中,系统访问控制主要包括业务逻辑层和功能性的访问控制,如果业务系统中的用户具备查询的权限,就能够通过功能访问控制实现授权,但是只是能够对管理用户信息进行查询,此种访问控制通过业务逻辑实现。如果业务允许用户能够从管理用户信息进行权限的修改,那么就能够通过数据项访问控制模型进行实现。数据项的操作属性为:读取权限,也就是用户是否具有数据项的读取权限;修改权限,对记录中的数据项是否存在权限修改,比如数据值及数据项;输入约束,在用户有权修改的时候,其范围级别要受到政府的约束,但是对于特殊人员并没有此突破,也是需要特殊权限人员进行操作;修改实效,也就是数据项记录修改需要满足某时间需求,比如社保中业务需要变更的时候要在固定时间段实现,其他时间不能够进行修改[7]。

3.3.2 访问控制模型

访问控制模型主要包括数据项、权限、角色及用户四种模型,详见图4。

4 大数据信息系统数据的挖掘保护应用

以社保数据为例,社保系统是我国政府中最主要的大数据业务之一,其具有大数据的特点,并且涉及的范围较广,具有较为复杂的业务逻辑,并且其中的数据量也较多,根据法律法规数据保存的周期较长。社保业务涉及个人及企业的收入和支出等一系列的生产活动数据,不管是对于个人还是企业,都具有隐私保护及机密的职责,要在业务管理及操作过程中进行严格保护及控制。比如某社保系统具有三千多张基表、上百个存储过程、三年数据量超过5TB,每分钟业务交易量为两万。在大数据环境中是否增加业务系统功能需要全面考虑性能及工作量维护方面的问题。数据挖掘平台在对系统效率不影响的基础上对数据项保护有了全新的方法,比如在权限模型中,如果为小型约束控制,将date类型修改成char,从而能够有效提高系统的性能。在某业务逻辑根据功能空间角色得到数据之后,再通过此用户数据访问控制内容过滤服务器数据之后,應用界面功能根据返回值控制界面。在此系统中使用统一类调用的方法控制数据项访问[8],图5为数据处理流程。

5 结束语

本文提出的大数据环境下隐私保护平台能够实现业务操作的精细管理,保证数据访问的安全性,使信息复杂度有了进一步的降低。在某社保系统中使用表示,其不会影响系统性能,并且具有较高的维护性。但是因为数据较多,用户复杂,此种系统在使用平台过程中的过滤效率及认证权限是接下来研究的重点内容 。

参考文献:

[1] 赵慧琼, 姜强, 赵蔚. 大数据学习分析的安全与隐私保护研究[J]. 现代教育技术, 2016, 26(3):5-11.

[2] 王冬, 李文, 徐高升等. 一种大数据环境下的数据隐私保护策略及其实践[J]. 微型电脑应用, 2013, 30(6):6-8.

[3] 柯臻轩, 余露芸, 郭志勇. 大数据时代下个人隐私保护的调研分析[J]. 经济研究导刊, 2015(2):299-301.

[4] 陈鹤群. 大数据环境下医疗数据隐私保护面临的挑战及相关技术梳理[J]. 电子技术与软件工程, 2014(16):51-53.

[5] 廖辰刚, 张莉娜, LiaoChengang,等. 大数据条件下图书馆用户情景敏感服务隐私保护问题探析[J]. 图书馆工作与研究, 2016, 1(2):41-43.

[6] 刘洪伟, 刘智慧, 朱慧,等. 大数据环境下跨组织间协同优化决策的隐私保护算法[J]. 广东工业大学学报, 2014(3):21-26.

[7] 黄尤江, 贺莲,苏焕群,等. 医疗大数据的应用及其隐私保护[J]. 中华医学图书情报杂志, 2015, 24(9):43-45.

[8] 仝伟,毛云龙,陈庆军,等. 抗大数据分析的隐私保护:研究现状与进展[J]. 网络与信息安全学报, 2016, 2(4):44-55.endprint

猜你喜欢

隐私保护大数据评估
评估依据
最终评估
EMA完成对尼美舒利的评估