基于隐私保护的数据挖掘技术研究
2014-07-09杨铭李春光
杨铭 李春光
摘 要:随着信息技术的不断发展,人们对潜在知识的需求愈发强烈,数据挖掘技术的出现顺应了社会的发展。但是每样新事物都有利有弊,目前人们在进行知识挖掘过程中,隐私保护问题就变得日益突出。调查显示,目前个人隐私信息被泄露甚至被盗用现象严重,因此在数据挖掘领域,对基于隐私保护技术的研究显得尤为重要。本文介绍了数据挖掘的基本概念和常用的算法,详细说明了基于隐私保护的数据挖掘技术中的概化 / 隐匿技术。
关键词:隐私保护;算法;数据挖掘
1 数据挖掘简介
数据挖掘(Data Mining,DM)一般是指通过算法搜索从大量的数据中查找隐藏于其中信息的过程,也可以称为在数据库中进行知识发现的过程(Knowledge Discovery in Database, KDD)。数据挖掘可以理解为从海量、趋势不明显、繁杂的数据中经过一系列的归纳提炼后,提取或“挖掘”知识的过程,其流程如图所示。目前,数据挖掘已经被广泛应用于社会各个领域,如股票分析、医学研究、工程设计、生产控制、金融管理、科学探索等。
目前常用的数据挖掘算法有决策树、关联规则、聚类分析、统计分析、粗糙集等。
1.1 决策树
决策树它是一种典型的分类方法 它主要应用于分类挖掘。该算法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后对决策树进行剪技,使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
1.2 粗糙集
粗糙集近年来越来越受到重视 ,该算法适合处理数据量大、不完备、不一致的数据,它是一种处理不确定性的数学工具,有着广阔的发展空间和应用前景。
1.3 聚类分析
聚类是将数据分为多个数据集合,每个数据集合中的数据具有较高的相似度,不同的数据集合间则差别甚远。该算法是利用相似度的差别最大限度的发现某种存在的潜在规则。聚类分析是数据挖掘中的一个很活跃的研究领域,它综合了机器学习、数据挖掘、模式识别、物理等领域的研究成果。
1.4 关联规则
对于一个给定的事物数据库,发现某种事物和另一种事物之间未知的联系或者规则,例如著名的“啤酒”和“纸尿裤”这 2 种风马牛不相及的事物之间的之间的联系,找出所有的类似这样的潜在规则,对于市场策略、商业决断是很有价值的。
1.5 统计分析
统计分析是运用定量和定性分析的方法,结合数据统计的方法和分析对象的知识,对数据进行研究的方法。
2 隐私保护实现技术
在数据挖掘的过程中,隐私保护已经成为重要的研究课题之一。其主要研究的内容为:将一些个人的原始数据资料即隐私资料由受信赖的数据发布者采集,然后将数据匿名保护,最后发布给第三方,进行数据挖掘分析。在此过程中,将数据匿名化处理,保护相关个人隐私是研究的重点,同时还需确保匿名处理后的数据的准确性及有效性,即从中能够挖掘出有用的知识和规则。
近年来,基于隐私保护的匿名化操作的概化 / 隐匿技术取得一定成绩,它是隐私保护数据发布方法中使用较多的一种。其优点在于匿名化数据中数据的准确性高,以数据的细粒度值取代粗粒度值,用更加抽象、概括的值替代准标识符。概化有以下几种模式:
2.1 全局概化
采用全局概化技术又叫做全子树概化技术,此种技术是将数据表中的某个属性的所有值都概化到分类层次树的同一层上。与其他模式的搜索空间相比,全局概化的搜素空间最小。但是,这种技术容易受非正常项目的影响从而过度概化,因此信息损失过高,数据失真最大。
2.2 子树概化
此种模式下,所有的孩子节点采取统一模式,即如果概化,则所有非叶子节点的全部孩子节点全部概化,否则都不概化。它的本质是将分类系统层次树剪枝。
2.3 局部概化
又称为单元概化,此种模式中一个值的某些实例可以根据概化的需要选择概化或保持不变,而不影响其他实例的概化。与全局概化相比,这种模式相对灵活,而且数据失真性降低。
2.4 兄弟概化
此种模式与子树该模式相近,区别是某些兄弟节点可以不被概化,且如有缺失孩子节点的值用父亲节点值代替。此种模式比子树概化模式的数据失真较小。
2.5 多维概化
此种模式可以让两个准标识符组灵活独立的概化到不同的父亲节点组上。因为这种模式仅需要概化违反指定值的准标识符组,所以它比全局概化和子树概化产生的失真都要小。
3 结语
直接发布原始数据表会导致个人隐私信息泄露,存在巨大信息安全隐患,对原始表进行匿名化操作可以保护用户的隐私安全。除本文介绍的概化/隐匿技术外,还有多种隐私保护技术,如数据表分解、聚类和凝聚、排序、扰动等技术。
在隐私保护的数据库技术方面,设计或开发一种隐私保护的数据发布工具尤为重要。这个任务称之为隐私保护的数据发布(PPDP)。近年来,基于隐私保护的数据挖掘技术受到越来越多的专家学者关注,此领域也正在快速的发展中。
参考文献:
[1]葛伟平,汪卫,周皓峰,施伯乐.基于隐私保护的分类挖掘[J]. 计算机研究与发展,2006(01).
[2]马廷淮,唐美丽.基于隐私保护的数据挖掘[J].计算机工程,2008(09).
[3]华蓓,钟诚.数据挖掘中的隐私保护技术进展分析[J].微电子学与计算机,2009(08).
[4]李锋.面向数据挖掘的隐私保护方法研究[D].上海交通大学,2008
[5]汪晓刚,惠蕙,孙志挥.基于共享的隐私保护关联规则挖掘[J]. 软件导刊,2009(09).
作者简介:杨铭(1982—),女,吉林长春人,讲师,研究方向:计算机科学与技术。