数据挖掘中敏感信息安全问题的探讨
2016-12-15陈丽珊
陈丽珊
(福建广播电视大学莆田分校,福建莆田,351100)
数据挖掘中敏感信息安全问题的探讨
陈丽珊
(福建广播电视大学莆田分校,福建莆田,351100)
本文主要介绍在数据挖掘中敏感信息的安全防护,给出了几种敏感信息安全的解决方案,提出对建立数据挖掘系统信息安全防护系统的几点看法。
数据挖掘;敏感数据;敏感知识;安全防护
移动通信、计算机、泛在网络等技术的迅猛发展,使得数据呈现爆炸式增长、位置随机分布等特点,为使得这些数据能够被有效利用,数据挖掘技术应运而生。当前数据挖掘中广泛采用的方法有关联规则挖掘、聚类挖掘、分类预测等,这些方法主要是对隐藏在海量数据中的知识进行挖掘,同时也需要有效避免敏感信息泄露。如何在数据发布过程中防止敏感知识、敏感数据泄露已成为信息安全领域和数据挖掘领域的重要课题,以敏感信息安全防护技术为前提的数据挖掘技术是实现互联网+时代发展的重要影响因素。针对敏感知识和敏感数据这两类敏感信息安全问题,本文主要对聚类挖掘和关联规则挖掘技术及实现算法进行介绍,对常用的隐私保护技术进行了介绍,最后建立了敏感信息安全防护技术的评价指标体系。
一、数据挖掘相关技术概述
(一)数据挖掘技术的发展现状
信息爆炸与知识匮乏是人类社会进入信息时代的特有矛盾,如何有效实现在海量信息中抽取有用的知识,是当下信息科学的热点研究领域之一。数据挖掘技术就是要从海量的、模糊的、有偏差的、随机的、不完全的数据中提取隐含其中的潜在有用数据,实现潜在有用信息和知识的发现。数据挖掘技术的应用在单一数据库时代就已开始,到现如今泛在信息的数据挖掘,数据挖掘技术正在不断发展与成熟,同时企业、组织机构对数据分析的迫切需求,使得数据挖掘技术正在不断的应用中发挥其独特魅力。以数据挖掘技术为核心的商业智能技术为例,已广泛应用于军队管理、教育预测、公共环境监测和防护等诸多方面,通过商业智能技术将获得的数据以分析结果的形式展现在决策人员面前,大大提高了社会运行效率。
1.数据挖掘相关技术原理
在介绍数据挖掘技术的基本发展现状的基础上,着重介绍当前比较流行的聚类挖掘和关联规则挖掘两种数据挖掘技术的基本原理及相应的算法。
(1)聚类挖掘的原理及算法
聚类挖掘技术是指通过一定的分类原则,将物理抽象对象根据原则分为不同的组,组内的物理抽象对象是高度相似的,并能够通过原则进行描述,而不同组之间的物理抽象对象关联度较低。根据不同的聚类原则,可将聚类挖掘技术分为划分聚类分析方法、分层聚类分析方法、基于密度的聚类分析方法等,在实际使用中即可作为数据挖掘的工具使用,也可作为数据准备的预处理工具。典型应用场景为对企业的客户群进行归类分析,划定客户等级或类型,并分析不同等级或类型客户的行为。
(2)关联规则挖掘的原理及算法
关联规则挖掘技术则是通过数据发现两个研究对象之间的关联,根据关联度实现从已知事务去推断另一事务出现的可信概率。关联规则挖掘技术的典型算法为Apriori算法,通过两阶段分析形成事务间关联规则:第一步寻找频繁项集,第二步对频繁项集分析,推导出关联规则,通过关联规则就可以分析事务之间的关联度,从而为用户提供有用的信息。典型应用场景为商场/超市的购物篮分析,可通过Apriori算法分析客户的购买习惯,即购买一件货物后最有可能购买的另一件货物,从而优化商场/超市的货品摆放位置,提升销售额。
(3)数据挖掘的基本流程
①数据准备:要达到数据挖掘的目的,在开始之前的数据准备是必不可少的,也是非常重要的环节,直接影响数据挖掘最终结果的可信度。数据准备通常包括数据收集、数据选取、数据预处理三个基本步骤,对数据集的规模、质量等进行预先处理。②数据收集:根据数据挖掘的具体要求,收集相关数据,形成数据集。在收集过程中可能需要对多个数据源的某些数据进行读取,也可能是结构化/非结构化数据混合,也有可能需要在互联网上抓取目标数据,这就需要采用不同的数据收集工具,完成目标数据仓库的建立。③数据选取:在数据收集过程中,可能会将无关数据也采集到了数据仓库中,这就需要根据数据挖掘的任务需求,对数据仓库中的数据进行筛选。④数据预处理:在数据收集过程中,数据源的数据可能是异构的、不完整的并且地理上是散布的,存在大量的冗余大数据及无用数据,为避免数据挖掘算法陷入无效的海量数据处理过程,这就需要对数据进行预处理,如缺失数据合理填补、数据噪声滤波等等。
(二)模式发现及评估
该步骤主要目的是通过分析数据仓库中预处理完毕的数据文件,发现其中的规律,从而选择较为合适的数据挖掘技术,并采用高效的算法实现数据采集、分析,挖掘潜在有用知识。
(三)结果的表示及评估
通过模式发现及评估之后,得到了海量数据的挖掘结果,获取了数据仓库中数据的潜在有用信息,包括规则、规律、模式等等。在结果表示及评估阶段,则是需要利用数据可视化工具,将这些有用信息进行表示,结合具体的业务背景,对获取的信息进行评估。数据挖掘结果评估是一个反复过程,通过挖掘结果与预期结果的比对,需要适时对数据挖掘流程进行调整,以获得数据挖掘预期结果。
二、敏感信息安全问题
在数字化时代以前,个人及企业等实体的数据信息流通性较差,且大都保存在可信的政府结构内部。随着移动互联网时代的来临,个人及企业等实体的数据信息流动性增强,大量的企业为获取市场信息,也能够获取并掌握海量的个人及企业等实体数据,即便是个人也可能掌握有海量的数据信息,在某些方面数据掌握的完整性甚至超过政府机构。这些海量数据在移动互联网时代能够为企业及个人创造价值。与此同时,这些海量数据的快速流动,也为个人及企业敏感数据信息带来了危害,数据一旦泄露将造成个人隐私侵犯及企业机密暴露。近年来,移动互联网企业数据泄露事件已经表明,敏感信息安全问题必须引起足够重视。
(一)敏感知识安全问题
通过数据挖掘工具的敏感知识包括范围性、大概值、存在性等方面知识。范围性敏感知识则是指对原始数据的概括性描述,虽然从数据挖掘结果中无法得到敏感原始数据的精确值,但通过对结果的合理推断,可以反推敏感核心数据的大概范围,这也会造成敏感信息泄露。大概性敏感知识则是指通过查询、分析数据挖掘结果从而确定某个敏感数据的出现概率。如通过对个人信息关系表的查询,可通过多次查询,成功推测出某个个人的隐私数据。存在性敏感知识则是指数据本身是否包含某个敏感数据,数据值本身并不影响该知识的表达,通过查询数据挖掘结果,判断该敏感数据是否为空,能够查询则可能导致敏感信息泄露。否定结果的敏感知识则是指通过对数据挖掘结果进行否定结果查询,从而得知某些敏感数据是否存在于数据挖掘的数据集中,从而导致敏感信息泄露。
(二)敏感数据安全问题
敏感数据一般是指个人或企业的原始隐私数据,原始隐私数据以结构化数据或非结构化的描述性语言出现。结构化数据主要存在于公司或个人的业务应用程序、企业数据库、企业信息管理系统、个人或企业存储设备/备份存储设备以及第三方服务提供商的存储设备中。非结构化描述性语言则散布于个人或企业的整个终端设备中,包括PC机、移动智能终端、可移动存储设备等网络终端上。原始的数据挖掘技术就是基于这些敏感数据进行的,因此原始的结构化、非结构化数据交给数据挖掘技术,一旦泄露,将对个人或企业造成极大影响。
(三)数据挖掘中敏感信息安全保护技术
现有的数据挖掘中敏感信息安全防护技术根据数据分布不同、数据处理算法不同、数据挖掘算法不同、敏感信息的保护对象不同可以进行不同分类。根据敏感信息安全问题的分类,这里主要介绍敏感知识安全防护技术和敏感数据安全防护技术两类。
对敏感知识安全防护技术主要是将数据挖掘中所发现的敏感知识或全部知识作为防护对象。根据知识的表达方式,可将其分为基于频繁模式、基于关联规则、基于统计学原理等多种不同敏感知识保护模式,这里主要对基于知识匿名化的敏感知识保护技术。
对敏感数据安全防护技术主要是将原始敏感数据或全部原始数据作为防护对象。根据采用的安全防护技术原理的差异,可将其实现分为基于数据干扰的安全防护技术、基于安全多方计算的安全防护技术、基于数据匿名化的安全防护技术等不同模式,这里主要介绍基于数据干扰和知识匿名化的敏感数据安全防护模式。
1.基于数据干扰的模式
从数据挖掘的应用背景来看,通常是对海量数据进行处理,以发现海量数据中隐藏的统计规律,因此数据本身的精确性通常不影响海量数据挖掘的结果。因此,对于需要保护原始数据精确值的统计项,在不影响数据分布特性的前提下,可通过模糊化处理,以实现敏感数据的安全防护。基于此,原始数据拥有者在提供数据的过程中,可通过数据干扰算法实现数据原始值的隐藏,而数据挖掘算法基于隐藏原始数据的模糊数据进行知识挖掘。当然,在进行数据干扰的过程中,不能影响数据分布特性。假如模糊处理后的数据改变了分布特性,此时,就需要提供数据干扰算法的基本参数,已达到知识发现与敏感数据安全防护的目的。
2.基于知识匿名化的模式
由于知识与数据、知识与知识、数据与数据之间存在关联性,数据挖掘结果的直接表示可能会给攻击者推理出原始敏感信息的机会,从而造成敏感数据泄露。因此,在完成数据挖掘后,对挖掘结果的表示进行处理。以现有研究成果来看,主要是将数据共享匿名化的安全防护模式引入到海量数据挖掘过程中,从而实现敏感信息安全防护。虽然在知识表示的过程实现了匿名化,但这一处理的结果也会造成信息损失,从而使得最终展示结果的可信度降低。
3.敏感信息安全防护技术评估准则
通过上述典型的数据挖掘中敏感信息安全防护技术的介绍分析,可以看出在特定背景下对敏感信息安全防护及数据挖据效率进行合理评价是十分有必要的。总的看来,数据挖掘中敏感信息安全防护技术综合评价指标包括以下几个方面:
(1)有效性
有效性指数据挖掘有效性和敏感数据保护的有效性,既要能够有效保护敏感数据安全,也要能够准确处理海量数据,在算法的设计过程中必须兼顾这两方面需求。在对敏感信息安全防护技术进行评估时,通常会根据数据敏感信息的含量对这两个方面进行加权分析。
(2)复杂性
复杂性是指算法的时间和空间的复杂度,复杂度的高低直接决定了算法的计算效率。当然,在现在云计算环境下,通信的复杂度逐渐成为算法复杂度的主要影响因素。
(3)可扩展性
无论何种数据挖掘算法,在数据量增加时,处理效率必然会降低。可扩展性则是评估算法在数据量增加时,处理效率的下降水平。通常来说,越复杂的处理算法,可扩展性越低。
三、结束语
基于敏感信息安全防护需求,以数据挖掘过程中存在的敏感信息泄露为研究对象,介绍了数据挖掘技术的发展现状、流行技术及算法,并针对数据挖掘中比较容易导致敏感信息泄露的敏感知识和敏感数据两个方面,对敏感信息安全问题进行详细分析,最后介绍了数据挖掘中基于数据垂直分布和基于密码学技术的敏感信息安全防护技术,并对敏感信息安全防护技术评估进行简单分析。当然,从技术上能够一定程度上的防范敏感数据的泄露,但从制度上也应该进行杜绝。因此从法律法规方面加强敏感数据安全保护也是十分必要的。这也是下一步研究的重点,即如何从法规制度上来确保敏感数据保存在合适安全的范围内,如确保数据获取的合法性和公正性、数据使用销毁的及时性等等。
[1]陈晓明,李军怀,彭军等.隐私保护数据挖掘算法综述[J].计算机科学,2007,34(6):183-186.
[2]胡水晶.大数据挖掘的隐私风险及应对策略[J].科技管理研究,2015(9):154-160.
[3]顾铖,朱保平,张金康.一种改进的隐私保护关联规则挖掘算法[J].南京航空航天大学学报,2015,47(1):119-124.
[4]吴伟民,黄焕坤.基于差分隐私保护的DP—DBScan聚类算法研究[J].计算机工程与科学,2015,37(4):830-834.
[5]李光,惠萌.改进的使用非负矩阵分解的隐私保护分类方法[J].计算机工程与应用,2015,(21):1-5.
[6]Kisilevich S,Rokach L,Elovici Y,et al.Efficient Multidimensional Suppression for K-Anonymity[J].IEEE Transactions on Knowledge&Data Engineering,2010,22(3):334-347.
[7]李洪成,吴晓平,陈燕.MapReduce框架下支持差分隐私保护的k-means聚类方法[J].通信学报,2016,37(2):124-130.
[责任编辑:钟 晴]
TP309.2
A
1008-7346(2016)05-0019-04
2016-08-10
陈丽珊,女,福建莆田人,福建广播电视大学莆田分校讲师。