个人数据共享中的匿名化技术现状与建议
2023-11-03周娜刘刚
周娜 刘刚
摘要:作为有效促进个人数据有序流动、合规共享的技术手段,匿名化在个人信息保护和个人数据共享方面发挥着至关重要的作用。本文介绍了匿名化技术领域的最新发展,对常见的匿名化隐私保护方法进行了对比与分析,并总结了匿名化技术的度量方法和存在的问题。最后,提出了关于个人数据共享中匿名化技术进一步发展的建议。
關键词:匿名化;个人信息保护;个人数据共享
随着移动互联网、物联网、5G、大数据等技术的普及应用,新一代信息技术正在促进和深化电子商务、医疗保险、交通出行、智能家居和在线教育等各行业的融合、创新和发展。各行各业都在收集和共享大量的个人数据[1],数据共享不仅可以打破信息壁垒,促进产业的创新与发展。同时,行业间的数据共享也可以使用户获得更加个性化、便利化、高品质的服务。很多数据中存在着用户的敏感信息,可能危及用户的隐私。个人信息处理者在向其他组织、机构共享个人数据或发布用户数据之前应确保用户的敏感信息和隐私数据受到保护。这些可以通过数据匿名化技术实现。匿名化是隐私保护领域的重要技术手段之一。在法律规制层面上,我国也逐步确立了匿名化处理的法律标准。例如,新实施的《个人信息保护法》第七十二条中规定了匿名化的定义:“个人信息经过处理无法识别特定自然人且不能复原的过程”。从法律及现行标准来看,我国已确立的匿名化处理的法律标准是数据处理后“无法识别特定自然人且不能复原”。
一、常见的匿名化技术
为实现匿名化,专家学者提出了很多匿名化模型和实现匿名化的技术手段。1998年,Sweeney等人[2]首次提出了K-匿名模型。此后,学者们在此基础上相继提出了更有效的匿名化模型,如L-多样性[3]、T-接近[4]和差分隐私[5]等匿名化模型。还有学者在这些模型基础上提出了很多改进的匿名化模型,这些模型通过引入更多的约束条件以达到更高的隐私保护强度,例如(α,k)-匿名模型[6]、(C,l)-多样性[7]等。接下来我们将介绍一些常用的匿名化模型和实现匿名化的技术手段等。
(一)匿名化模型
1.K-匿名化。K-匿名化算法最初由Sweeney提出。该算法的主要目的是通过将至少K个用户置于具有相同准标识符的等价类中来保护用户隐私。在K-匿名模型中,如果发布的数据集中的每个信息都不能与发布数据集中至少出现K-1次的元组区分开,则该数据集为K-匿名的。该算法的缺点是易受链路攻击,无法抵御属性泄漏的风险。攻击者可以通过背景知识和同质属性等攻击方法攻击K-匿名数据集中的用户属性信息。
2. L-多样性。L-多样性模型是为了解决K-匿名模型的局限性而提出的。L-多样性要求任意一个匿名后的等价类至少包含L个不同的敏感属性值。通过对敏感属性进行约束,保证每个等价类中敏感值的多元化,可以有效抵御同质性攻击的威胁。与K-匿名算法相比,符合L-多样性算法的数据集显著降低了数据泄露的风险,但会受到倾斜攻击和相似攻击的影响。此外,L-多样性隐私模型由于在匿名化过程中不考虑准标识符的分布和相似性,降低了匿名数据的可用性。
3. T-接近。T-接近的提出解决了K-匿名和L-多样性模型在隐私保护方面的局限性。T-接近要求每个等价类中敏感属性取值分布与该属性在整个数据集中的总体分布之间的距离不超过阈值T。T-接近度通过将所有敏感属性保持在一个特定的范围内,解决了针对敏感属性值的偏斜性攻击和相似性攻击。入侵者重新识别信息的概率降低了,但数据的可用性也更低。
4.差分隐私。差分隐私由Dwork提出,通过向数据集添加噪声使用户数据匿名化,从而使攻击者无法确定是否包含特定的用户数据。数据处理者在向第三方提供子数据集时使用差分隐私的方法生成匿名化视图。差分隐私算法的优势在于直接将特定查询的结果提供给第三方,而不需要将整个数据集转交给第三方。然而,攻击者可以通过多次查询来不断缩小样本范围,从而可能获取到个别或一组数据主体的特征。差分隐私被认为是一种非常有效的隐私保护技术,因为其定义的隐私不依赖于攻击者的背景知识,并广泛应用于数据挖掘、机器学习等领域[8]。
(二)实现匿名化的技术
1.泛化。对数据进行归纳总结,将具体的值替换为更一般化的值。对于类别属性,可以使用通用的类别值替换特定的值;对于数值属性,可以用区间代替精确值,以减少个体被识别的可能性。泛化技术简单易行,但过度泛化会损失数据的可用性。
2.抑制。隐藏或删除直接标识符,以防止数据与个人信息直接关联。抑制技术包括屏蔽、局部抑制和记录抑制等方法。抑制技术可以与泛化技术结合使用,特别是用于去除异常值,避免过度泛化。
3.扰动。使用合成的数据值替换原始数据,使得从扰动数据计算的统计信息与从原始数据计算的统计信息没有显著差异。扰动数据与真实数据不对应,因此攻击者无法从已发布的数据中推断出敏感信息。扰动技术的局限性在于数据是合成的,只能保留发布者选择的统计属性。
4.置换。根据特定规则重新排列原始数据。通过对敏感属性值的重排置换,解除准标识符和敏感属性之间的关联,从而达到数据去标识化的目的。对称密钥的数据重排置换算法具有加解密速度快、软硬件标准化等优点,但密钥生成和操作对算法的安全性有重要影响。
5.微聚集。根据相似程度将数据分组,每个组至少包含k个记录,然后使用质心替代该组内所有记录的值。微聚集可以减少敏感属性的泄露风险,并保持数据的可用性。
二、匿名化技术度量方法
第一节介绍了一些匿名化隐私模型,但总体而言,匿名化的主要目标是保护数据的隐私性和可用性。本节分别从这两个方面介绍匿名化算法的度量方法。
(一)数据隐私性度量方法
在基于泛化的匿名化技术中,K-匿名,L-多样性和T-接近等算法被用作衡量匿名数据隐私程度的指标。
在基于随机化的匿名化技术中,贝叶斯后验置信概率被广泛应用于量化匿名级别。该方法基于攻击者的背景知识和匿名数据构造了一个二叉树,并利用贝叶斯推断的信息关联构造了另一个二叉树。它主要考虑了局部变化的影响。基于熵的度量方法可以用来量化随机扰动机制可能达到的匿名级别[9]。Díaz等人[10]是最早提出使用信息熵来测量匿名通信系统的匿名性的研究者之一。Ma等人[11]通过量化位置信息和特定个人联系人的不确定性,利用信息论量化每个用户的位置隐私水平。在基于差分隐私匿名化技术中,还有一些度量方法,如基于多数据集关联的差分隐私测量度量[12]和基于互信息的差分隐私测量度量[13]。
(二)数据可用性度量方法
有多种方法可以量化匿名化算法对数据保护的可用性。本文根据数据发布时是否已知数据处理的目的将衡量匿名数据可用性的指标分为两类:专用指标和通用指标。专用指标是指在数据发布时已知数据的处理的目的。通用指标是指数据发布者不知道接收者将如何分析处理发布的数據。专用指标使用机器学习方法来衡量匿名数据质量。最广泛使用的专用指标是准确率或错误率、F值、精度和召回率。通用指标衡量的是修改原始数据造成的信息损失。目前比较流行的通用效用评估方法是加权确定性惩罚、广义信息损失(GenILoss)、可辨别性度量、最小失真、平均等价类大小(CAVG)、Kullback-Leible散度、粒度、查询准确度、全局损失惩罚(GLP)、归一化互信息(NMI)、相对误差(RE)和信息神权度量(ITM)。一些研究对这些可用性指标进行了详细分析介绍。
三、目前存在的问题
匿名化技术在数据共享的过程中要发挥着重要作用,但仍存在一些问题。在法律和监管方面,我国目前对匿名化的法律标准“无法识别特定自然人且不能复原的过程”并没有明确的判定标准;行业监管也没有制定明确的匿名化处理效果的监管方案。在技术方面存在以下问题。
(一)匿名化再识别风险
个人信息匿名化处理再识别风险是指在使用技术手段对个人信息进行匿名化处理后,仍然存在通过技术手段重新识别出被隐匿的个人身份的风险。Narayanan 等人[14]在研究中发现,利用外部数据源的辅助信息可以成功对被匿名化的数据进行去匿名化处理[15]。在大数据时代,随着数据发布规模的增加以及数据挖掘和分析技术的提升,通过组合多个数据来源的数据集,重新识别匿名化后的个人信息的可能性会大大增加。因此,如何最大程度地避免匿名化数据再识别问题,把握匿名化再识别风险成为匿名化技术进一步发展的重要研究内容。
(二)匿名化数据隐私性和可用性的平衡问题
目前在数据匿名化中,现有技术的主要问题是要么泛化数据超过所需,降低了数据的可用性,要么没有充分保护个人隐私数据。个人信息的价值主要在于其识别性的特征,若匿名化后的个人信息毫不具备识别性,那么其利用价值也大打折扣。这是匿名化技术领域长期面临的挑战。
(三)匿名化技术暂无统一度量标准
如引言所述,目前存在一些问题需要解决。首先,匿名化的定义仅仅表明个人无法被识别且无法复原,但并没有明确界定“无法识别”的具体范围,也没有明确“无法复原”是相对还是绝对的标准,这给信息处理者和法院带来了合规成本和界定的困扰。因此,研究匿名化技术的统一度量和评价标准是迫切需要解决的问题。
此外,还有其他一些问题需要进一步研究,如动态数据发布和动态社会网络的匿名化问题,异构数据类型的适用性问题,高维数据的匿名化以及如何实现个性化匿名等。对这些问题的深入研究可以提供更全面和有效的解决方案。
四、个人数据共享中匿名化技术的发展建议
本文对匿名化技术在个人数据共享中的问题提出了一些解决方案和发展建议。对于法律规制方面,我国未来应制定个人信息匿名化处理统一标准和匿名化处理再识别风险防范规则。其中,立法可规定个人信息共享中不得从事对接收到的数据进行再识别的法律义务,并规定违反法律负有的法律责任。同时,可详细规定数据处理者对数据共享后续的保护义务,解决目前数据处理者背负过重责任的问题。这样,在进一步保护个人数据的同时,最大程度减小匿名化数据再识别风险,促进数据的有序流动和合规共享。
对于行业监管部门,可从以下四个方面考虑对企业数据共享和匿名化技术进行监管和评估:①进行数据保护影响评估,验证匿名化与最初收集数据的目的的兼容性。这个评估可以确保匿名化处理后的数据仍然符合原始收集数据的目的,并且不会对个人隐私造成不良影响。②确定可用于共享的数据,以及其匿名化和聚合的程度,进行技术评测和合规评估。通过技术评测可以确保匿名化技术的有效性和可行性,合规评估则可以验证企业是否按照相关法规和标准进行匿名化处理。③通过考虑第三方接收方的技术、经济和组织能力,评估匿名化数据再识别的风险。这个评估可以帮助监管部门了解匿名化数据可能被再识别的风险,并采取相应的监管措施,确保个人数据的安全性和隐私保护。④建立评估有效性长效机制,对匿名化数据阶段性进行评估,降低匿名化数据再识别风险。这个长效机制可以对企业的匿名化处理和数据共享进行定期地监督和评估,以确保匿名化数据始终保持高度的安全性和隐私保护。
在技术层面,本文提出了两种解决匿名化技术中的问题和未来发展方向的方法:去中心化的匿名化方法和个性化匿名化方法。去中心化的匿名化方法[16]基于区块链,通过智能合约进行信息交互,保证了数据共享的可靠性和安全性。这种方法不依赖数据处理者和第三方的信任,解决了传统匿名化技术中数据共享双方的信任问题。不仅可以让企业从数据共享中受益,而且能够有效保护用户的隐私。
个性化匿名方法[17]允许个人数据主体定义自己隐私数据的用途,既尊重个人隐私偏好,又最大程度地保持了数据的可用性。有研究表明,每一项属性对数据的隐私性和可用性都有不同的影响[18]。该方法通过只选择那些隐私比值大于某一阈值的数据属性进行匿名化,从而最小化个人数据的损失。未来的研究方向可以通过自然启发算法等优化方法来优化数据属性的选择过程,以达到最大隐私保护和最小可用性降低的平衡,从而提高匿名数据库的隐私保护水平和数据效用。
通过引入这两种方法,可以在保护数据隐私性的同时增加数据的可用性,并且为未来匿名化技术的发展提供了方向和思路。
五、结束语
信息共享已成为许多个人、公司、组织和政府机构日常活动的一部分。匿名化技术可以有效保护个人隐私和敏感信息,是一种非常有前景的信息共享方法。然而,除了匿名化技术本身需要进一步提升外,还需要帮助个人信息处理者解决使用匿名化技术时面临的非技术性困难,如匿名化技术的复杂度越来越高和数据的可用性降低,导致企业合规成本提高和服务质量降低等问题。本文认为跨学科研究是解决这些问题的关键,不同领域的专家学者从不同角度更好地理解隐私问题,有助于匿名化技术未来在数据共享过程中发挥更大的价值。
作者單位:周娜 博鼎实华(北京)技术有限公司
刘刚 中国信息通信研究院
参 考 文 献
[1] Yao X, Farha F, Li R, et al. Security and privacy issues of physical objects in the IoT: Challenges and opportunities[J]. Digital Communications and Networks, 2021,7(3):373-384.
[2] Sweeney L. k-anonymity: A model for protecting privacy[J]. International journal of uncertainty, fuzziness and knowledge-based systems, 2002, 10(05): 557-570.
[3] Machanavajjhala A, Kifer D, Gehrke J, et al. l-diversity: Privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007,1(1):3-es.
[4] Li N, Li T, Venkatasubramanian S. t-closeness: Privacy beyond k-anonymity and l-diversity[C]//2007 IEEE 23rd international conference on data engineering. IEEE, 2006:106-115.
[5] Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensitivity in private data analysis[C]//Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006: 265-284.
[6] Wong R C-W, Li J, Fu A W-C, et al. (α, k)-Anonymity: An Enhanced k-Anonymity Model for Privacy Preserving Data Publishing[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2006: 754–759.
[7] 韩建民, 于娟, 虞慧群等. 面向数值型敏感属性的分级 L-多样性模型[J]. 计算机研究与发展, 2011,48(1):147-158.
[8] Jayaraman B, Evans D. Evaluating differentially private machine learning in practice[C]//28th USENIX Security Symposium (USENIX Security 19). 2019:1895-1912
[9] Nguyen H H, Imine A, Rusinowitch M. Anonymizing social graphs via uncertainty semantics[C]//Proceedings of the 10th ACM symposium on information, computer and communications security. 2015: 495-506.
[10] Diaz C, Seys S, Claessens J, et al. Towards measuring anonymity[C]//Privacy Enhancing Technologies: Second International Workshop, PET 2002 San Francisco, CA, USA, April 14–15, 2002 Revised Papers. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003: 54-68.
[11] Ma Z, Kargl F, Weber M. A location privacy metric for v2x communication systems[C]//2009 IEEE Sarn off Symposium. IEEE, 2009:1-6.
[12] Wu X, Dou W, Ni Q. Game theory based privacy preserving analysis in correlated data publication[C]//Proceedings of the Australasian Computer Science Week Multiconference. 2017:1-10.
[13] Cuff P, Yu L. Differential privacy as a mutual information constraint[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. 2016:43-54.
[14] Narayanan A, Shi E, Rubinstein B I P. Link prediction by de-anonymization: How we won the kaggle social network challenge[C]//The 2011 International Joint Conference on Neural Networks. IEEE, 2011: 1825-1834.
[15] Narayanan A, Shmatikov V. De-anonymizing social networks[C]//2009 30th IEEE symposium on security and privacy. IEEE, 2009: 173-187.
[16] Talat R, Obaidat M S, Muzammal M, et al. A decentralised approach to privacy preserving trajectory mining[J]. Future generation computer systems, 2020,102:382-392.
[17] Can O. Personalised anonymity for microdata release[J]. IET Information Security, 2018, 12(4): 341-347.
[18] A. Majeed and S. Lee, “Attribute susceptibility and entropy based data anonymization to improve users community privacy and utility in publishing data,” Appl. Intell., vol. 50, no. 8, pp. 2555–2574, Aug. 2020.
通訊作者:周娜(1995-),女,汉族,山西长治,研究生,研究方向:数据通信技术、信息安全、网络安全;
刘刚(1974-),男,汉族,北京,研究生,高级工程师,研究方向:数据通信技术、信息安全、标准研究与制定、新技术演进发展等。