基于数据挖掘的隐私保护平台开发设计
2014-02-12
(天津滨海职业学院,天津 300451)
在每个行业都一样,每个企业都想通过数据挖掘获取有用的数据,但又不想私有的信息被别人获取,所以,在数据挖掘过程中隐私保护平台的开发设计显得尤为重要。
一、数据挖掘
对数据挖掘的定义非常的多,表达的方式也是不一样的。单单从技术的角度来看的话,数据挖掘主要从大量的、不完全的、模糊的、随机的数据中获取隐藏在其中的、不被人们掌握的、但是又非常重要的信息和知识的过程;换商业的角度来看的话,数据挖掘就是一种非常新颖的商业信息处理技术。主要是对商业数据库进行处理,从这些繁琐的数据中进行抽取、转化、分析及处理,进而获取能够辅助商业决策的重要信息,也就是从一个庞大的数据库中自动获取相应的商业模式。
二、数据挖掘中的隐私
隐私在不同的环境中的定义也是不一样的。在数据挖掘过程中涉及到的隐私主要有两点,分别为:一是个人隐私。其主要指的是能够对用户的身份标识进行确认的数据,比如:姓名、性别、年龄、电话号码等,或者是由于用户的某些习惯产生的一些个人信息,例如:购物信息、保险信息等;二是公共隐私。这一方面主要指的是两个或者更多的机构为了共同的利益,联合在一起进行数据挖掘,并且在挖掘过程中并不希望自己的信息被对方获取。隐私保护的主要目的是通过使用合理的方法对初始数据进行处理,将私有的信息数据进行加密,在挖掘之后这些数据依旧是私有的。在进行隐私保护的过程中不断要对初始的私人信息进行保护,还要对在挖掘过程中出现的敏感信息进行保护,最后还要对数据挖掘过程中出现的结果进行考虑,防止出现一些重要的隐私信息。
三、保护平台的开发设计
再进行保护平台设计过程中一定要对数据挖掘的隐私保护分类进行探讨,其中包含:数据的分布方式、算法评估,并通过对这些方面的充分考虑进行数据挖掘的隐私保护平台的开发与设计。
1.数据的分布方式
依据数据的分布情况,可以将数据具体的隐私保护技术可以划分为:集中数据和分布式数据两种。其中分布式数据的隐私保护技术还可以继续分类,划分成垂直分割和水平分割的隐私保护技术。垂直分割主要指的是数据按照属性分赛在不同的机构和组织中,水平分割则是数据依照记录分布在不同的机构和组织中。
2.数据修改
在数据挖掘的隐私保护平台开发设计过程中一定要重视隐私数据,确保其不会被泄露出去,所以在进行保护的时候,原始数据在进行公布之前一定先要对其进行更改、伪装,并且修改的方式一定要和隐私保护策略进行结合。经常使用的修改方法有以下四种:(1)值替代方法。此方法主要是将初始数据的属性更改成其它的值,或者使用一个符号替换存在的值,进而来确保隐私信息和敏感数据;(2)聚集方法。这种方法主要是将大量的原始数据进行合并或将其抽象为其它层次的数据;(3)取样方法。也就是我们经常说的抽样,在大量的数据中抽取一些样本数据;(4)交换方法。对记录数据进行交换。
3.数据的挖掘方法
现在的数据隐藏技术大多数是在不同算法中进行的,在数据挖掘过程中,采用的算法不同,则使用的技术就不一样。例如:决策树、聚类分析等方法。
4.被保护的隐私对象
数据挖掘这一过程主要是对初始数据的隐藏或者采用隐含规则进行隐藏。一般情况下的隐藏规则要比伪装方法复杂的多,很多情况下对敏感数据进行隐藏还具有对其他重要数据进行保护的作用。
5.隐私保护技术
此技术主要是用来对数据进行修改,分成以下三种:(1)将启发式的隐私保护技术作为基础,对初始数据的一些特定值进行修改,并不是全部,降低数据挖掘过程中偏差出险率;(2)以密码为基础的保护技术。利用数据密码的方式来对数据进行加密,最为常用的方法是多方安全计算方法,参与计算的单位机构只能得到自己应得的数据,而其他参与者是不能获取的;(3)重构技术方式来进行加密。此方法主要通过将数据进行转化后,通过对初始数据的从新编排进而实现重构。
四、数据设计
1.集中式数据分布设计
此分部主要包含:聚类的隐私保护、分类的隐私保护、重构技术。聚类的隐私保护主要通过对初始数据进行几何变换,比如:平移、缩放、旋转等方法进行的。这种方法主要是将旋转变换作为基础的,所以在变化前后对数据挖掘的结果是一样的。但是由于旋转角度和旋转的范围要依据数据隐私要求的最低限度来确定,所以,在数据挖掘过程中如果对隐私保护的要求非常高的时候,这种算法就有可能出现旋转角度不适合的情况。分类的隐私保护算法主要通过使用参变量的方法将数据进行降级。与此同时,还应该对降级前和降级后的数据值的熵来进行数据的计算,通过两者的差值与数据库挖掘数据前后的置信度的降低速度比较快,进而来判断数据库的修改是否合理。重构技术主要氛围两方面,其一为:数值型数据的重构技术;另一个为:二进制数据及分类数据的重构技术。
2.分布式数据分布设计
此方法主要分为垂直分布和水平分布。垂直分布数据主要是根据属性分布情况,再根据发现项集的支持技术进行数据挖掘的。所以,挖掘的数据中能够安全的将某个项集的支持技术计算出来,那么此数据的检察技术及预先设定的阈值进行比较,进而来判断该项集的频繁性。水平分布主要是根据数据的记录点进行对隐私的保护。主要实在数据挖掘过程中,各个站点不用知道其它站点的工作情况就能进行数据关联。参与者不想泄露自己的信息,进而出现了第三方,要求各方都要按照预定协议进行,合作方只需要向第三方发送数据,通过第三方对数据的处理,来确保各方的隐私。
五、结论
通过本文对基于数据挖掘的隐私保护平台开发设计的介绍与分析,对数据挖掘隐私保护平台开发设计提供了几种安全算法,每一种隐私保护技术都拥有各自的特点,在需求不同的情况下,对技术的要求也是不相同的,并且在数据挖掘过程中是不存在通用算法的,算法本身的扩展性比较弱,不同算法的各项性能也都存在着缺陷,所以在日后的工作中应该大力寻找新的计算方法,进而将隐私保护平台建立的更加完善,进而提升数据挖掘工作中的隐私保密性。
参考文献:
[1]王滟方,谢文阁.数据挖掘的隐私保护研究[J].大众科技,2010,(10).
[2]贾哲.分布式环境中信息挖掘与隐私保护相关技术研究[D].信息安全,北京邮电大学,2012.