APP下载

面向机器学习的隐私保护关键技术研究

2022-12-19曾青云

科学与信息化 2022年21期
关键词:敏感数据差分扰动

曾青云

湖南云麓高新材料有限公司 湖南 长沙 410000

引言

数据爆炸的时代下,个人隐私的保护成为社会热点问题。但同时由于隐私的定义和设计的领域较为广泛,在数据成为社会运转核心的过程中,如何合理的定义个人隐私,并对其进行有效的保护,成为当前技术以及社会发展面临的主要问题。在机器学习导致隐私风险的问题产生的原因较为复杂,包括在训练过程中数据采集时的数据泄露、在预测阶段的数据模型反向推测攻击、来自外部黑盒/白盒的模型攻击等各方面原因都是导致隐私保护问题的重要原因。

1 机器学习隐私保护的方式

在机器学习隐私保护的过程中,主要采用三种保护形式:法律法规的社会保护机制;加密的技术保护机制;主动防御的技术保护机制。法律法规的监督与监管是隐私保护的重要基础。一方面机器学习的过程中数据采集完成后,数据的使用、分析和共享过程是极不透明的,只有数据的拥有者才能够决定该数据的用途[1];另一方面,作为行业、市场、社会的监督管理者,完善的法律监督管理制度有利于规范机器学习行业的各种行为。近年来随着人工智能技术大数据技术的快速发展,世界各国普遍将隐私保护作为国家法律制定的主要参考依据,我国在2016年颁布了网络安全法,2017年进一步完善了关于隐私保护的条例,而在2020年进一步对个人信息的保护进行了全面的要求。而欧盟在2018年强制执行了通用数据的保护条例,对于数据采集和运行过程中个人的数据管理权利进行有效的明确,并使企业需要采用匿名化的方式来保护个人敏感数据。

关于个人隐私保护的立法,可以从国家社会层面上加强对机器学习行业的有效规制,使其能够明确自身的隐私保护行为,并依据法律来制定机器学习的隐私保护标准。加密保护是传统最常用的隐私保护方式,通过限制隐私数据的发布、加密敏感数据、添加扰动等方式对数据进行有效的处理,使其的数据保密性能更高,保护效果更好。在这过程中常用的有差分保护形式、数据加密方式、同态加密等技术。主动防护机制则是在加密隐私数据的基础上,通过限制数据访问权限、建立访问安全规则等形式对隐私信息进行有效的保护[2]。

2 机器学习隐私保护技术

2.1 原数据的隐私保护技术

对原数据进行隐私保护的技术,应用的历史较久,同时也具有较为成熟的应用经验。首先则是针对数据进行加密,从而限制数据的发布,使数据信息得到有效的保护;其次则是对数据添加扰动使其失真,使相关人员无法获得数据的真实信息,从而达到数据保护的目的。

2.1.1 基于数据的限制发布技术。该技术通俗上来讲是采用加密的方式,对标准化的数据、识别方式进行泛化、抑制和隐匿,只有在掌握对应的解密方式的前提下,才能正确识别数据信息,从而达到对各种数据信息的有效保护。例如当前面向机器学习的隐私保护技术中,采用的k-anonymity加密以及其延伸的l-diversity和t-closeness技术。通过在对应的标识符属性中进行多条记录的比对,例如k-anonymity技术采用k-1条记录对加密的数据进行标识符属性的识别,并将数据信息联系到独立的个体当中,在丰富敏感数据多样化的过程中,确保敏感数据的属性值、标识符不会暴露。t-closeness技术则采用等价类的敏感属性值分布,使其数据的属性值分布满足t-closeness计算标准,从而对数据进行加密并确保敏感隐私信息的安全性。但这种加密形式主要采用泛化的形式对隐私数据和信息进行有效的保护,无法逐条对隐私数据进行全面的保护,其分布的范围和保护的效果会根据对应的计算方式发生较大的变化,从而无法确保该技术应用的可靠性。

2.1.2 基于数据失真的限制发布技术。该技术主要对原始数据进行随机化或者添加扰动的方式,使最终呈现的数据与原始数据具有较大的差异,从而对各种敏感数据进行有效的保护。该技术的应用时间较长,同时现阶段机器学习过程中最常用的失真保护方式是差分保护。差分保护是在数据中添加噪声,并根据对应的噪声指数,使原始数据与查询数据存在较大的差别[3]。例如采用拉普拉斯机制的差分保护中,对于多条数据集合添加对应的差分扰动,从而限定隐私攻击者在推测计算时能够获得的敏感数据泄漏。

在理论的原则中,添加噪声扰动的方式可以有效实现对隐私数据的差分保护。同时在机器学习过程中的应用,还可以针对其不同的学习模型、梯度来随机引入噪声,以确保隐私的保护效果。同时,差分隐私的保护效果可以满足隐私叠加以及数据整体隐私等优点,因此在小型的机器学习模型中获得了广泛的应用。这种对多个数据源进行融合保护的过程中,可以实现数据集在多次访问后依然具有良好的差分隐私特性。在现阶段该技术的应用过程中,主要应用拉普拉斯噪声机制来对扰动权重进行计算。但在实际应用的过程中,由于深度学习神经网络会不断计算最优的参数,在展开差分隐私保护的过程中,每一次参数的更新都会导致差分隐私的计算和保护过程,进而导致机器学习的成本直线上升。因此在差分扰动技术应用的过程中,应当考虑数据训练量的大小以及机器学习模型的规模。

2.2 不分享数据的隐私保护技术

在无数个节点参与到机器学习的过程中,彼此之间的隐私保护会成为阻碍机器学习展开的原因。在面对这种情况时,需要采用不分享数据隐私保护技术,通过同态加密、联邦学习的方式,对不同节点的原始数据进行有效的保护。

2.2.1 同态加密。该技术的最大优势在于不需要对原数据进行访问,就可以直接展开数据的运算和处理,在密文进行直接运算后,其计算的结果与解密后的计算结果完全一致。将这种技术与联邦学习进行相互结合的过程中,可以有效确保各个节点共同展开模型训练的隐私安全。同时,传统的同态加密方式仅支持在加法与乘法的运算过程中,但机器学习的计算方式更加复杂,同时对数据处理量具有较高的要求。在采用同态加密技术的过程中,很容易导致机器训练的效率变慢,同时也会引起加密数据总量的增长,在选择的过程中需要根据具体的机器学习项目需求来进行合理的选择[4]。

2.2.2 联邦学习。联邦学习是分布式的机器学习模式,允许用户在多个节点采用本地数据展开同步的机器学习,由于数据不会离开节点本地,因此该数据的隐私性可以得到有效的保护。但在实际的应用过程中,联邦学习技术依然存在较多的隐私保护问题。因此相关研究人员在联邦学习展开的过程中,也充分利用了差分隐私、同态加密等多项技术对训练过程进行全面的隐私保护,但同时也会带来时间、成本、计算量等方面的问题。因此在选择该技术的过程中,需要有效平衡机器学习速度与隐私保护之间的关系。

3 机器学习隐私保护技术评估指标

3.1 原数据隐私保护的性能评估

原数据隐私保护的性能评估需要对其隐私的质量进行全面的评估,一方面需要对信息在加密和扰动处理后,对信息的不确定性和不可区分度进行有效的掌握。另一方面还需要对数据的质量进行有效的评估。

3.1.1 隐私质量。信息的不确定性是指在数据经过处理后信息的模糊程度,该模糊程度的指标主要依赖于隐私商值的取值,在该值计算和取值的过程中,需要对其的绝对值进行有效的计算,从而确保隐私质量之间的差值可以量化为信息不确定性的评估标准。不可区分度则在原有数据集以及可观测对比数据集之间的信息差进行评价,通常采用归一化方差和条件隐私熵值的评估来确定对应的指标,通过对其的有效计算,以确保最终隐私评估值的效果。

3.1.2 数据质量。在隐私保护技术的过程中,会对数据的应用效果造成影响。无论是在经过加密还是扰动处理后的数据,都会进一步增加机器学习的计算负担,并对学习的精准度造成影响。因此机器学习的隐私保护效果不应当仅仅评价其隐私的保护质量,还需要对数据质量进行有效的评估。而对数据的质量评估过程中需要围绕数据的准确性、一致性、完整性展开:①准确性。对原始的数据集以及处理后的数据集进行相似程度的比较。例如使用度量区分,对泛化或者加密后的数据集进行度量比对,区分度量值越大,信息数据的失真率就越高,但其损失率和准确度得不到有效的保障[5];②完整性。对原始数据在经过处理后各个数据的失真情况进行掌握。在机器学习的过程中,除去扰动加密的数据之外,还需要对其进行脱敏处理,也就是对敏感数据进行有效的处理,对其的完整性需要根据脱敏处理后的数据集与原数据集进行计算和比较,以确定最终的完整性和数据丢失程度;③一致性。用来评估处理后的数据集两者之间的相关性,在该值的确定过程中,通常采用条件隐私商来进行计算,当相互信息值越小的情况下,隐私级别越高,但同时两者相关的信息量也就越少。

3.1.3 复杂度。复杂度主要对机器学习所采用的算法以及可扩展性进行有效的评估,通常情况下这些算法是相互共有的,为了提升算法的效率则需要对信息的复杂程度进行有效的计算,使处理后的信息与原本信息在计算过程中CPU占用时间、计算成本的差值得到有效控制,从而评估该隐私算法对机器学习适应性、可扩展性所造成的影响。

3.2 不分享原数据的隐私保护性能评估

①对于机器学习过程中采用隐私保护技术后,该隐私技术的应用效果应当从训练损失上入手,对训练后的模型数据与训练数据进行相互比较,使两者的匹配程度得到量化,从而在不分享原始数据的情况下,对隐私保护技术带来的学习训练精度影响进行控制。②需要对模型收敛度进行有效的控制,模型收敛度是指在多个数据进行分布训练的过程中,模型是否能够在学习训练后收敛至统一的全局模型中,同时收敛的速度、效率对于机器学习的数据分布会造成直接的影响。③还需要考虑到隐私保护过程中的资源消耗,隐私保护过程中不可避免的增加了系统的计算量和通讯量,为了确保隐私保护技术能够为机器学习的发展和应用提供支持,需要对隐私保护过程中需求的内存量、数据传输量、带宽吞吐量等数据进行合理的计算。④通信开支。在联邦学习框架中需要进行大量的本地数据与中心数据之间的信息传递,而在添加隐私保护的过程中,会增加两者之间的数据传输迭代总量,从而会造成通信开支的变化。⑤时延。该指标会对隐私保护技术的应用效果以及机器学习的效率造成直接影响。通常情况下需要对引用隐私保护技术后,机器学习系统的训练实验、数据传输实验和推理实验进行有效的计算和统计,从而确保机器学习的性能,并提升模型的有效程度。

5 结束语

综上所述,机器学习技术发展的过程中,最大的阻碍是基于隐私保护的社会关注,而通常情况下对机器学习隐私保护的方式主要有法律、技术、主动防御3个方面。而从技术的角度上来讲,机器学习的隐私保护需要从原数据的隐私保护以及不分享原数据的隐私保护两个方面展开。同时隐私保护与数据的计算量、学习效率、时效性有相互制约的作用,在完成隐私保护的过程中,还需要重视隐私保护技术的可行性,从而实现按需分配的隐私保护过程,使机器学习的应用更加可靠,满足社会发展的实际需求。

猜你喜欢

敏感数据差分扰动
干扰条件下可检索数字版权管理环境敏感数据的加密方法
Bernoulli泛函上典则酉对合的扰动
数列与差分
实现虚拟机敏感数据识别
基于透明加密的水下通信网络敏感数据防泄露方法
(h)性质及其扰动
基于4A平台的数据安全管控体系的设计与实现
小噪声扰动的二维扩散的极大似然估计
用于光伏MPPT中的模糊控制占空比扰动法
基于差分隐私的大数据隐私保护