APP下载

隐私保护数据挖掘技术研究综述

2020-09-02杨洋陈红军

微型电脑应用 2020年8期
关键词:聚类数据挖掘算法

杨洋 陈红军

摘要:

随着云计算、物联网和社交媒体技术的快速发展,大数据挖掘和分析成为未来知识发现的重要手段,数据隐私泄露问题日趋严重,如何保护用户隐私和防止敏感信息泄露成为面临的最大挑战。由于大数据具有规模大、多样性、动态更新速度快等特点,许多传统的隐私保护技术不再适用。文章从知识发现的视角,总结了隐私保护数据挖掘的生命周期模型;从输入隐私和输出隐私方面对隐私保护数据挖掘的相关技术研究进行了分类评述;最后,对隐私保护数据挖掘的研究挑战和未来展望进行了阐述。

关键词:

大数据分析; 隐私保护; 数据挖掘; 知识发现

中图分类号: TP 309

文献标志码: A

A Review of Research on Privacy Preserving Data Mining Technology

YANG Yang, CHEN Hongjun

(School of Management, Beijing Institute of Economics and Management, Beijing 100102, China)

Abstract:

With the rapid development of cloud computing, Internet of Things and social media technologies, big data mining and analysis have become an important means of knowledge discovery in the future. The content of information with personal privacy is becoming more and more diverse, and the problem of data privacy leakage is becoming increasingly serious. How to protect user privacy and prevent sensitive information leakage has become the biggest challenge. Because of the large scale, diversity, and fast dynamic update of big data, many traditional privacy preserving technologies are no longer applicable. This article summarizes the life cycle model of privacy preserving data mining from the perspective of knowledge discovery. The related research on privacy preserving data mining is classified and reviewed in terms of input privacy and output privacy. The research challenges and future prospects of privacy preserving data mining are described.

Key words:

big data analysis; privacy preserving; data mining; knowledge discovery

0引言

隐私保护通常与安全性混淆,隱私保护主要是指个人信息,安全性主要是指数据处理的完整性、可用性和机密性。数据挖掘(data mining)是指从大量数据中获取有价值信息,并采用数据挖掘技术来揭示隐藏在大数据中的有用业务模型和知识,这可能对个人隐私构成威胁。数据挖掘中的隐私保护主要是利用算法来改变数据,并确保数据挖掘过程之后的敏感数据和知识仍然是私有的。在数据收集和数据转换期间保护数据称为输入隐私,在挖掘状态期间的保护称为输出隐私。 隐私保护数据挖掘将是未来知识发现(Knowledge Discovery in Database,KDD)数据挖掘领域研究的重点问题之一。目前,隐私保护的数据挖掘已经取得了丰硕的研究成果,大数据研究领域的一个关键问题是在保证用户隐私的前提下,如何提高大数据的利用率和挖掘大数据的价值,这将直接影响公众对大数据的接受程度和未来大数据的发展趋势。由于数据发布者有时会恶意利用大数据中的私人信息,因此在这种情况下,更有必要加强数据发布过程中的隐私保护,实现数据利用与隐私保护的折衷[1]。

随着云计算、互联网技术的发展,由Web应用程序和物联网设备(包括医学图像)生成的大量数据、基因组和社交媒体数据每天都在增加[2]。这种数据泛滥使得用户淹没在数据中,但却渴望获得有效使用数据挖掘技术的知识。在数据上执行的这些挖掘任务会询问用户的隐私。本文从知识发现的视角,首先,介绍了隐私保护数据挖掘的生命周期模型;其次,从输入和输出隐私保护方对相关研究进行了分类评述;最后,对隐私保护数据挖掘的研究挑战和未来发展趋势提出了展望。

1隐私保护数据挖掘生命周期模型

在隐私数据整个生命周期过程中,主要涉及数据收集、数据转换、数据挖掘分析和模式评估四个阶段,包括隐私保护数据属性、各种参与者角色和各种数据化操作,它们之间的关系[3]如图1所示。

大数据下的隐私保护数据挖掘技术主要关注以下两个方面:一是如何对原始数据集进行加密和匿名化操作,实现敏感数据的保护;二是探究新的数据知识产权保护模式,限制对敏感知识的挖掘。数据挖掘的隐私保护技术主要包括输入隐私和输出隐私[4],如图2所示。

3.2数据查询审计技术

在云存储环境中,用户将失去对存储在云服务器上的数据的控制。如果云服务提供商不受信任,则它可能会篡改并丢弃数据,但会向用户声明数据是完整的。数据查询常采用云存储审计技术,即数据所有者或第三方组织对云中的数据完整性进行审核,从而确保数据不会被云服务提供商篡改和丢弃,并且在审核期间不会泄露用户的隐私。

现有云存储审计的研究主要关注静态数据的审计和动态数据的审计研究。Ateniese [20]等人最早给出了可证明的数据持有(Provable Data Possession,PDP)模型,该模型可以对服务器上的数据进行完整性验证,但没有考虑数据在传输过程中的安全性。Juels等人[21]提出了数据可恢复证明(Proof of Retrievability,POR)模型,该模型主要使用纠错码技术和消息认证机制,确保远程数据文件的完整性和可恢复性。Ateniese [22]等人基于对称密钥加密算法改进了PDP模型,该模型支持数据的动态删除和修改。Wang Q等人[23]改进了前人的POR 模型,通过引入散列树来对文件块标签进行认证。同时,他们的方法也支持对数据的动态操作,但是此方案无法对用户的隐私进行有效的保护。

3.3分类结果的隐私保护

分类方法会降低敏感信息的分类准确性,并且通常不会影响其他应用程序的性能。分类结果可以帮助发现数据集中的隐私敏感信息,因此敏感的分类结果信息需要受到保护。

决策树分类是建立分类系统的重要数据挖掘方法。在保护隐私的数据挖掘中,挑战是从被扰动的数据中开发出决策树,该决策树提供了一种非常接近原始分布的新颖重构过程。Agrawal [24]提出了基于贝叶斯过程的分类和定位两种算法,使用随机扰动对原始数据进行加密,以达到有效保护分类结果隐私的目的。Ge[25]查出了标记、布尔和分类属性扰动的缺陷和重构精度较差的不足,提出了基于转移概率矩阵的隐私保护分类回归决策数(Classification and Regression Trees,CART)算法。Moskowitz L M等人[26]設计的“Rational Downgrader”的隐私保护系统着力于降低信息公开过程中隐私泄露的程度,使得普通用户无法通过已经或将要公开的信息推测出应被保护的隐私信息。贾春福[27]等人基于同态加密数据集,应用机器学习分类算法来进行云端数据的存储和计算,以确保服务器端的任何敏感信息不会泄露。这些研究主要集中于消除信息拥有者在信息共享时的顾虑,在隐私保护过程中减少信息损失,保证信息在数据挖掘领域的可用性防止隐私信息的泄露提供有利的技术保障,在隐私保护和数据可用性之间达到一个较好的平衡。

3.4聚类结果的隐私保护

与分类结果的隐私保护类似,保护聚类的隐私敏感结果也是当前研究的重要内容之一。黄海平等人[28]对发布的数据采用平移、翻转等几何变换的方法进行变换,确保实现保护聚类结果的隐私内容。

Vaidya [29]等人提出了一种分布式Kmeans聚类方法,该方法专门面向不同站点上存有同一实体集合的不同属性的情况。使用此聚类方法,每个站点可以学习对每个实体进行聚类,但在学习过程中并不会获知其他站点上所存属性的相关信息,从而在信息处理的过程中保障了数据隐私。

4隐私保护数据挖掘研究的挑战与展望

随着知识挖掘,机器学习,人工智能等技术的研究与应用的不断深入,大数据分析的能力越来越强,这对保护个人隐私也提出了更为严峻的挑战。

1. 隐私度量问题。隐私有不同的定义,是一个主观概念,它受不同地域文化、传统、习俗的影响,根据不同的人、时间的变化而变化,难以对其定义和度量。隐私保护具有一定的相对性,不同的行业对隐私保护程度定义的标准不同,统一隐私保护的度量标准是最终实现数据安全共享、保护数据隐私的基础,这是最基础也是最难衡量的指标。

2. 隐私保护的理论框架问题。当前,数据保护技术有数据聚类、差分隐私和匿名化等技术方法,但在实际应用中存在一定的局限性。能否研究出大数据环境下的具有开创性的隐私研究理论,这是一个基础性挑战,需要计算机科学技术、管理科学、社会学和心理学等多方面的知识研究。

3. 隐私保护算法的可扩展性。隐私保护技术往往针对不同的数据挖掘算法采用分治的机制和策略,适用于关联规则、分类、回归、聚类等多种数据挖掘模型。但是针对大数据的规模运算,需要形成适应多种数据集的通用方法,设计可扩展性强、效率高的算法来实现隐私保护也是一个挑战。

4. 数据源的异构性。随着移动通信、嵌入式、定位等技术的发展,人们获取数据的能力得到了极大的提高,数据量以及维数都大大增加,当前可用的隐私保护算法主要用于同构数据,但实际上大部分是异构数据,因此,如何以有效方式处理异构大数据将是未来研究的新挑战。

5总结

随着人工智能和深度学习的兴起,大数据时代数据挖掘与隐私保护之间的技术博弈将成为常态,保护用户隐私将成为人工智能发展的关键。人们需要改进数据挖掘的隐私保护方法,并建立新的隐私保护框架和机制。本文认为,以下研究方向值得隐私保护研究人员做进一步研究。

1. 建立完善的数据隐私保护评估机制与法律手段。数据隐私的保护效果可以通过攻击者披露隐私的多少来侧面反映,因此,有必要建立一套统一的隐私泄露安全评估标准和衡量标准,完善相关法律,从源头上制止企业和组织非法泄露用户信息。

2. 开发新的隐私保护理论框架。本文探讨了K匿名、L多样性、T闭合和差分隐私等隐私保护技术,尽管它们具有一定的实用性,但它们容易受到各种类型的攻击。虽然不同的隐私保护方法具有严格的要求,但是它们计算复杂、运行时间长,并且缺乏灵活性和可行性。因此,需要结合计算机技术、计算心理生理学、博弈论、模糊逻辑、社会学、管理学等一系列不同学科理论知识,开发统一的隐私保护理论框架。

3. 高效的加密算法。当前大约80%的数据是非结构化的,需要有效的信息存储和收集以及解决时空和维数问题。现有的基于随机化的加密技术和算法都是为较小的数据集设计的。同态加密技术运算开销过大,并且需要消耗大量计算资源的深度学习算法,这将大大降低算法性能。因此,开发和研究适用于大数据的高效且可扩展的算法,以满足数据处理、数据转换、数据挖掘、模式评估分析、审计跟踪和隐私保证的需求是未来研究的重要方向。

参考文献

[1]

胡昌平,仇蓉蓉,王丽丽.学术社交网络用户的隐私保护研究——以科学网博客为例[J].情报学报,2019,38(7):667674.

[2]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246258..

[3]方贤进, 肖亚飞, 杨高明. 大数据及其隐私保护[J]. 大数据, 2017, 3(5): 4556.

[4]Sangeetha S, Sadasivam G S. Privacy of Big Data: A Review [M].Handbook of Big Data and IoT Security. Springer, Cham., 2019: 523.

[5]Kantarcioglu M. A survey of privacypreserving methods across horizontally partitioned data [M].Privacypreserving data mining. Springer, Boston, MA, 2008: 313335.

[6]Pfitzmann A, Khntopp M. Anonymity, unobservability, and pseudonymity—a proposal for terminology[C].Designing privacy enhancing technologies. Springer, Berlin, Heidelberg, 2001: 19.

[7]Sweeney L. kanonymity: A model for protecting privacy [J]. International Journal of Uncertainty, Fuzziness and KnowledgeBased Systems, 2002, 10(05): 557570.

[8]Homayoun S, Ahmadzadeh M, Hashemi S, et al. BoTShark: A deep learning approach for botnet traffic detection [M].Cyber Threat Intelligence. Springer, Cham, 2018: 137153.

[9]Agrawal D, Aggarwal C C. On the design and quantification of privacy preserving data mining algorithms[C].Proceedings of the twentieth ACM SIGMODSIGACTSIGART symposium on Principles of database systems. ACM, 2001: 247255.

[10]Li N, Li T, Venkatasubramanian S. tcloseness: Privacy beyond kanonymity and ldiversity[C].2007 IEEE 23rd International Conference on Data Engineering. IEEE, 2007: 106115.

[11]Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensitivity in private data analysis[C].Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006: 265284.

[12]Dwork C. Differential privacy [J]. Encyclopedia of Cryptography and Security, 2011: 338340.

[13]方濱兴,贾焰,李爱平,等.大数据隐私保护技术综述[J].大数据,2016,2(1):118.

[14]Privacypreserving data mining: models and algorithms [M]. Springer Science & Business Media, 2008.

[15]许重建,李险峰.区块链交易数据隐私保护方法[J].计算机科学,2020,47(3):281286.

[16]Aggarwal Charu C, S Yu Philip. Privacypreserving data mining: models and algorithms[M]. Springer Science & Business Media, 2008.

[17]Atallah M, Bertino E, Elmagarmid A, et al. Disclosure limitation of sensitive rules[C].Proceedings 1999 Workshop on Knowledge and Data Engineering Exchange (KDEX'99)(Cat. No. PR00453). IEEE, 1999: 4552.

[18]Chang L W, Moskowitz I S. An integrated framework for database privacy protection [M].Data and Application Security. Springer, Boston, MA, 2002: 161172.

[19]Tapan Sirole, Jaytrilok Choudhary, Tapan Sirole, et al. A Survey of Various Methodologies for Hiding Sensitive Association Rules [J]. International Journal of Computer Applications, 2014, 51(96):1215.

[20]Ateniese G, Burns R, Curtmola R, et al. Provable data possession at untrusted stores[C].Proceedings of the 14th ACM conference on Computer and communications security. Acm, 2007: 598609.

[21]Juels A, Kaliski Jr B S. PORs: Proofs of retrievability for large files[C].Proceedings of the 14th ACM conference on Computer and communications security. Acm, 2007: 584597.

[22]Ateniese G, Di Pietro R, Mancini L V, et al. Scalable and efficient provable data possession[C].Proceedings of the 4th international conference on Security and privacy in communication netowrks. ACM, 2008: 9.

[23]Wang Q, Wang C, Li J, et al. Enabling public verifiability and data dynamics for storage security in cloud computing[C].European symposium on research in computer security. Springer, Berlin, Heidelberg, 2009: 355370.

[24]Agrawal R, Srikant R. Privacypreserving data mining[C].ACM Sigmod Record.ACM, 2000, 29(2): 439450.

[25]Ge W, Wang W, Li X, et al. A privacypreserving classification mining algorithm[C].PacificAsia Conference on Knowledge Discovery and Data Mining. Springer, Berlin, Heidelberg, 2005: 256261.

[26]Moskowitz L W, Chang I S. A decision theoretical based system for information downgrading[R]. NAVAL RESEARCH LAB WASHINGTON DC CENTER FOR HIGH ASSURANCE COMPUTING SYSTEMS (CHACS), 2000.

[27]賈春福,王雅飞,陈阳,等.机器学习算法在同态加密数据集上的应用[J].清华大学学报(自然科学版),2020,60(6):456463.

[28]Oliveira S R M, Zaiane O R. Privacy preserving clustering by data transformation [J]. Journal of Information and Data Management, 2010, 1(1): 3737.

[29]VAIDYA J, CLIFTON C. Privacy preserving kmeans clustering over vertically partitioned data[C].Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, August 2427, 2003, Washington DC, USA. New York: ACM Press, 2003: 206215.

(收稿日期: 2020.01.20)

基金项目:

北京市教育委员会社科计划一般项目(SQSM201714073001)

作者简介:

杨洋(1980),女,硕士,讲师,研究方向:信息管理、电子商务。

通讯作者:陈红军(1972),男,博士,教授,研究方向:信息管理、电子商务。

文章编号:1007757X(2020)08004104

猜你喜欢

聚类数据挖掘算法
基于模糊聚类和支持向量回归的成绩预测
Travellng thg World Full—time for Rree
基于流形学习的自适应反馈聚类中心确定方法
数据挖掘综述
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点
基于密度的自适应搜索增量聚类法
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究