差分隐私用于个人信息保护的实践难点及化解方案

2024-04-02朱悦

信息通信技术与政策 2024年1期

朱悦

(1.同济大学法学院,上海 200092;2.上海市人工智能社会治理协同创新中心,上海 200092)

0 引言

差分隐私为个人信息的受保护程度提供了一种形式化的定义。具体来说,给定一个数据库x,对于任何一个只在一个数据元素上与其存在差别的数据库y,如果对于机制M,记其值域为S,M(x)和M(y)在S的任意子集上都满足Pr[M(x)]<=eεPr[M(y)],则称M(x)满足“ε-差分隐私”[1]。M(x)满足差分隐私,意味着攻击者难以分辨x在单个数据元素上的变化,难以分辨的程度由参数ε衡量,参数ε也被称为隐私预算。ε越小,分辨单个数据的变化就越困难;ε越大,分辨就越简单。单个数据元素对应一条个人信息时,攻击者难以分辨这条个人信息的具体内容。因为,无论这条个人信息的内容原本是什么,经过机制M的处理之后,最终都会给出难以分辨的输出。相应地,ε越小,个人信息的受保护程度就越高;ε越大,受保护程度就越低。鉴于差分隐私能够为个人信息提供形式化、经过证明、强度足够的保护,多个监管机关和多种学术观点认可差分隐私具备显著加强,甚至在很大程度上解决个人信息保护问题的潜力[2-4]。

差分隐私还具备两项优异的性质。一是后处理无关性,指在M之后发生的处理活动不会影响差分隐私的保护程度,即无需担心后续处理削弱个人信息的受保护程度。这不仅意味着差分隐私提供的保护足够稳健,还意味着基于差分隐私的个人信息保护可以和其他处理活动彻底解耦,在实践中是非常理想的性质。二是可组合性,如果经过M1和M2两个机制处理的x分别满足ε1和ε2差分隐私,则M1M2(x)满足ε1+ε2差分隐私。可组合性意味着个人信息的受保护程度能够通过机制的设计和参数的取值来定量加总、拆分和记账,从而可以定量地管理、分配和审计[5]。对于参与数据要素市场的个人信息来说,受保护程度可以定量地管理、分配、审计,是十分理想的性质。

差分隐私定义简明、潜力突出、性质优异,因此已在世界各地用于重要的个人信息保护项目。与此同时,在实践中也暴露了一些难点。如果不能化解这些难点,差分隐私解决个人信息保护、促进数据流通利用的潜力就无法充分实现。当前,探索比较深入、影响力比较大、难点暴露也比较充分的项目主要有3个。一是美国人口普查通过采用差分隐私,探索在公开利用普查信息的同时,保护个人信息免受不当披露;二是谷歌在数字广告领域推行“隐私沙盒”,探索充分保护个人信息保护的数字广告归因;三是在大型语言模型的训练过程中实施差分隐私,缓解训练数据泄露个人信息的风险。这些项目不仅暴露了差分隐私在实践应用中有待解决的7个难点,也为化解这些难点提出了思路。

1 实践案例

无论是人口普查和数字广告,还是大型语言模型,差分隐私的实践案例都可以按照统一的格式加以梳理,主要包含5个部分。一是对场景的整体介绍。二是法律对个人信息保护的要求。三是介绍所采用的差分隐私的定义。除了“ε-差分隐私”之外,差分隐私后续也出现了一些扩展的变体。四是介绍所采用的差分隐私的技术参数。五是采用差分隐私所引起的主要争议。

首先是人口普查。美国1954年修正的联邦《人口普查法》规定,不得披露任何能够识别到特定个人的普查信息。然而,由于美国人口普查数据公布到基层的行政区划,公布的数据类型也比较多样,从基层行政区划的多种统计数据中重建出特定个人的信息,理论上有可行性,实践也已经发生[6]。发生个人信息的重建攻击,意味着人口普查数据的公布导致了个人信息的披露,涉嫌违反美国的《人口普查法》。实施差分隐私能够在很大程度上解决这一问题。因为,如果普查信息实施了适当的差分隐私,无论特定的个人信息如何取值,都无法从最终的统计当中区分出来。为了实现这一点,通过分层添加服从狄利克雷分布的噪声,美国人口普查局实施了“集中差分隐私——差分隐私”的一种变体。经换算,其ε取值约等于4.5和12.2[7]。这一举措在保护个人信息免受披露的同时,也引起了3点争议。一是差分隐私的技术性比较强,对于绝大部分人来说不易理解,在公开透明方面有欠缺;二是普查数据的准确性下降,影响多个学科的研究质量;三是规模较小的群体其统计数据准确性下降幅度更大,造成不公平问题[8]。如果统计数据的准确性下降导致小群体的合法权益受到严重损害,甚至可能引起法律诉讼[9]。

其次是数字广告。如何在这一场景中妥善平衡个人信息的保护和数字广告的效果,近年来在世界范围内引起了很多争议,甚至是行政调查和法律诉讼[10]。对数字广告而言,归因是核心的环节。为了知晓个人究竟是否因为浏览了一则特定的广告才点击或者购买,从而能够根据广告效果来结算费用,需要收集、关联和分析个人的众多浏览和行为信息。这些个人信息处理活动侵害个人信息权益的风险很大。作为世界范围内数字广告的“守门人”,谷歌引入了归因报告这一降低侵权风险的方案。大体来说,归因报告就是通过实施差分隐私,对广告商能够获得的信息量作总量上的控制。归因报告的实施方式也是添加服从狄利克雷分布的噪声。默认的隐私预算值固定为10,广告商可以在这个范围内灵活决定如何分配固定的隐私预算[11]。这一举措同样引起了3点争议。一是技术性太强的问题,对很多广告商来说,这让广告投放的成本和收益之间的关系成为了“黑箱”;二是对于谷歌和广告商之间的地位变得更加不平等的担忧;三是对不同广告商之间地位因此更加不平等的担忧。这些问题甚至招致英国竞争和数据保护的主管机关联合对其发起调查[12]。

最后是以ChatGPT为代表的大型语言模型。自2022年12月开放使用以来,ChatGPT在全球范围内迅速吸引了超过1亿的用户[13]。与此同时,信息安全领域的研究者发现大型语言模型普遍存在成员推断和数据攫取的安全风险。两种安全风险的根源都是大型语言模型过拟合(或者说过度记忆)了训练数据。成员推断是指用户能够推断特定的单个数据是否曾用于模型训练[14]。数据攫取是指用户可以通过特定的模型提示将训练数据原样提取出来[15]。如果训练数据包括个人信息,成员推断和数据攫取意味着这些信息有可能被用户收集和处理,也就意味着个人信息泄露和个人信息权益受到侵害。在训练大型语言模型时实施差分隐私,能在很大程度上解决这两种风险。因为根据差分隐私的定义,用户不能分辨单个数据元素上的差异,也就意味着无法推断特定数据是否曾用于训练,不必再说原样加以提取。差分隐私的这一效果得到了试验的初步验证。通过梯度裁剪和噪声添加,可以在大型语言模型中实现ε在3～8之间的差分隐私[16]。尽管如此,也存在4点争议。一是大型语言模型的训练数据是非结构化的,很难准确定义数据的单元;二是在大型语言模型中加入差分隐私,所需的计算量很大;三是参数ε的取值不容易优化;四是与人口普查和数字广告不同,差分隐私的这一应用接受现实工程的考验尚不充分[17]。

2 实践难点

根据当前探索较深入、影响力较大、问题暴露较充分的3个差分隐私项目,可以总结差分隐私在实践中需要注意的7个共性难点。只有化解了这些难点,差分隐私才能够比较彻底地解决个人信息保护问题,以及服务于数据要素市场建设。

2.1 概念定义不一

差分隐私的常见定义不仅包括经典的“ε-差分隐私”,也包括人口普查案例使用的聚集差分隐私,还包括本地差分隐私和瑞丽差分隐私[18-19]。从技术的角度看,这些定义大同小异,主要是通过不同的方式来反映单个元素变化的难以分辨程度。尽管如此,从保护个人信息的角度来说,技术上的大同小异有可能是法律上的实质差别。虽然不同的差分隐私定义都包含ε这个核心参数,但其内涵有着细微的差别,需要非常小心地转换才能确保一致。这样的转换有时会非常困难[5]。如果不对这样的差别加以注意,或者无法实现ε的等价转换,差分隐私不再能够保证个人信息得到充分的保护,也就更加谈不上个人信息保护的定量管理。

2.2 隐私单元不明

差分隐私只是保证单个数据元素难以分辨。由此,什么构成单个元素,或者说实施差分隐私的数据元素的颗粒度,决定了差分隐私所保护的究竟是什么[20]。最为理想的情况是:实施差分隐私的数据元素的颗粒度是特定个人的所有信息。于是,无论特定个人的任何信息发生何种变化,差分隐私都能保证其难以分辨。这是完全不打折扣的个人信息保护。然而,如果实施差分隐私的数据元素不是这个颗粒度,例如颗粒度只是特定个人的部分信息,个人信息的保护程度就会大打折扣。这一问题在非结构性的数据中更加严重。对于大型语言模型训练所用的海量文本数据来说,很难清楚地定义哪些文本构成特定个人的所有信息,更不要说不打折扣地实施差分隐私。

2.3 参数难以选定

隐私预算ε的取值不同,个人信息保护的效果也有不同。取值更小的ε提供更强的个人信息保护,对数据可用性和公平性的潜在影响也更加突出;取值更大的ε弱化了保护的程度,但也更好地顾及了数据在其他维度上的价值。实践中的价值取舍总是复杂的,故而参数的选择问题同样总是复杂的。或者说,参数的选定总是一个“社会性的问题”[21]。即使参数的选定不能脱离现实的价值判断,在行业层面建立作为参照标准的ε取值仍然很有帮助。参照取值可以分档设置,对应不同的参照性保护强度。然而,目前还缺乏可资参照的,特别是在进行法律分析时可资参照的参数取值。

2.4 隐私记账困难

个人信息的受保护程度可以定量管理、分配、审计无疑是个十分理想的性质。虽然理论上已经有不少强有力的定理,要在实践中让理想的性质充分落地,依然需要克服3个方面的困难。一是面临理论上的空白。特别是在采用“ε-差分隐私”的变体而非其经典版本时,有可能面临可组合性尚未证明、差分隐私无法保证的困境。二是在实施差分隐私的个人信息处理活动特别复杂时,账不容易记清楚。能够准确记账的前提是对个人信息处理活动有完整的治理体系,并且对每一个处理活动如何消耗隐私预算有形式化、可证明、可审计的理解。三是如果进而追求实时、动态、自适应的隐私预算优化配置,则其理论证明和实践治理都会更加困难[5]。

2.5 缺乏简明解释

从技术角度看,核心只是一条不等式的差分隐私并不是那么困难——至少初看之下不是那么困难。对实践中更多个人信息保护关系其切身利益的人来说,差分隐私很可能太过于技术。无论是在人口普查还是数字广告中,这一难点都十分明显。或者说,无论是对于广大的接受普查的个体,还是对于相关的政策制定者和中小广告商,理解差分隐私依然十分困难[22-23]。如果个人信息主体、数据交易商和政策制定者都不能充分理解差分隐私,不认为这是一种足够透明、可信的技术,这一技术再发达,也很难起到加强保护的同时促进利用的效果。就此,至少需要对技术原理和核心参数作出足够通俗(包含文字和可视化等友好形式)的解释。

2.6 造成不公平问题

如果差分隐私在加强个人信息保护的同时又造成新的不公平问题,甚至产生违反法律的风险,显然是得不偿失的。对规模较大的群体,差分隐私对其统计数据造成的扭曲通常可以忽略。对规模较小群体的统计数据,实施差分隐私造成的扭曲更严重,对和相应统计数据相联系的权益保障有更大的负面影响。小规模群体可以多样,小城镇居民、少数族裔和疾病患者都是在人口普查案例中受到影响的群体;小规模群体受损的可以是十分重要的权益,财政拨款、政治代表和医疗资源配置都是相应群体在人口普查中受到损害的重要权益[24-26]。为了个人信息保护而放弃这些权益并不合理。

2.7 法律效果不确定

差分隐私解决个人信息保护问题、助推数据要素市场发育,最终要通过满足个人信息保护和数据保护法律的规定来实现。既要将其所保证的难以分辨的效果论证转化为法律上实现去标识化、匿名化和履行安全义务的效果,同时也要阐明差分隐私的实施不会违反其他法律规定,包括公平和反歧视的规定[2-4,27]。否则,差分隐私的潜力始终只能停滞在愿望阶段,而不能转化为实际的效果。除了少数域外的探索,差分隐私的技术效果在中国法下向法律效果的论证转化几乎仍是空白。需要指出的是,这一难点既有技术的一面,也有法律的一面。难点的化解同时包含技术的精细分析、法律体系的完善和有效联结技术和法律的论证。

3 化解实践难点

差分隐私的实践难点需要针对性地加以化解,才能充分发挥其在个人信息保护和数据流通利用方面的潜力。其中,概念定义不一、隐私单元不明和参数难以选定这3个难点的化解思路相对直接、明确;隐私记账困难、缺乏简明解释和造成不公平问题这3个难点的工程色彩更强,需要结合实际灵活应对。差分隐私法律效果的确定则需要技术和法律的双向发力。

3.1 选择经典定义

无论是经典的“ε-差分隐私”定义,还是之后发展的各类变体,都有各自适用的现实场景,彼此无法完全相互替代。为了避免造成额外的理解和沟通成本,以及准确利用既有的差分隐私理论成果和开发工具,应当尽可能坚守经典的定义。若使用经典定义,只需要得知隐私预算的参数信息,就可以对个人信息受保护程度形成直观的理解,后续开发和维护也有较多的现成工具可以使用。如果使用差分隐私的变体,一方面理解和沟通成本提高,另一方面参数的转换和比较横生枝节,后续开发和维护环节,特别是记账和审计环节也将面临更大的困难[28]。特别是,如果在数据要素流通利用中使用差分隐私,经典定义可能是众多相关方之间唯一可行的“最小公约数”。

3.2 选定隐私单元

在技术可行的前提下,尽可能将特定个人的所有信息作为隐私单元。此处权衡在于:选择最理想的隐私单元,不仅考验差分隐私本身的理解与实现,也考验个人信息处理者的治理体系是否完备。如果个人信息的盘存清点、分类分级和权利行使体系尚未完成,选择最优的隐私单元过分苛求,涉及非结构性的数据时,尤其困难[29]。因此,隐私单元通常还是落在单个数据元素的层面。在完善个人信息治理体系的基础上拓宽和对齐隐私单元,适合作为愿景性的目标。当然,也要意识到隐私单元的妥协对个人信息受保护程度造成的打折。此时,余量的个人信息权益风险主要来自多个属于同一个人的数据元素之间的关联。就此可以采取三方面的补救措施,即在法律分析中反映数据关联造成的余量风险,在合规策略上针对关联活动加以补强,以及通过技术和法律手段防范不合规的关联活动。

3.3 选定预算阈值

根据个人信息受保护程度的要求,将1或10作为有参照意义的ε阈值。阈值不能随意选取,而是需要综合5个方面的准则。一是考虑余量风险,特别是最坏情形下个人信息权益的余量风险的大小。二是对准确性、公平性、实施成本和实践中需要考量的其他价值的权衡把握。三是监管机关是否给出了具有参考意义的值。截至当前,除新加坡等少数法域的监管机关指南之外,极少会有这样的参考值[30]。四是行业层面的最佳实践或者普遍实践,特别是谷歌、微软、苹果等相关理论与实践能力均突出的“行业守门人”的实践。五是尽可能选取整数值,降低额外的理解和沟通成本。综合而论,在监管机关给出任何明确结论之前,对需要较高保护程度和只需一般保护程度(例如涉及敏感个人信息和一般个人信息时)的情形分别设定1和10,是较为合理的阈值。两个阈值在保护效果和其他考量之间取得了较好的平衡,也是目前“行业守门人”所建议的取值[20]。

3.4 正确实施记账

隐私记账是指基于经过严格证明的差分隐私组合定理,定量地管理和分配隐私预算[5,31]。在涉及的数据量比较大、数据分布比较复杂或者处理活动比较复杂时,组合定理通常需要附加额外的技术性假设才能成立[5]。此时,需要注意考察定理成立的前提条件,否则很可能无法再保证差分隐私带来的个人信息保护,差分隐私的实施也就打了折扣,甚至失去意义。隐私预算是否准确地取值和记账可以通过技术手段加以审计。目前而言,最为可行、已有实践的审计方法包括两种。一是黑盒审计,主要是从实施了差分隐私的输出数据出发,在估计ε取值的基础上开展统计检验,即用统计学的方法检查预先制定的隐私预算和记账方案是否得到了准确实施[32]。二是白盒审计,特别是对代码实现和理论证明的对应关系、工程环境是否准确符合理论证明的前提假设和工程环境中的数据单元展开审计[33]。保证隐私记账的准确实施需要结合两种审计方法。

3.5 提供简明解释

综合数学变换、可视化和人机交互的方法解释ε的含义,降低差分隐私的理解门槛,增强政策制定者、相关企业和相关个体对差分隐私的信任。ε的解释已经形成了比较成熟的流程。首先,基于差分隐私领域的经典研究,将ε换算为个人信息在最坏情况下的泄漏概率[34]。相比于分辨数据变化的难易程度,泄漏概率的大小更加直观、更加容易理解。其次,将泄露概率可视化。特别是从频率视角出发,将泄露解释为100次处理活动中发生泄露的平均频率,能够作出非常直观的解释。最后,通过人机交互的方法进一步增强解释的效果[35]。谷歌归因沙盒中引入的噪声实验室就是一个很好的例子。通过自由地添加、编辑和管理数据字段,拨动滑块选择每个字段分配的隐私预算,并观察相应字段的平均值、方差和偏度等统计特征因预算分配而发生的变化,广告商等相关方可以直观地了解其有关隐私预算的决策将会如何影响数据质量和广告收益[36]。

3.6 化解不公平问题

单独考虑规模较小群体的统计数据。规模较小的群体,实施差分隐私对其统计数据的扭曲更加严重。因此,实施差分隐私时,需要综合考虑群体规模大小、统计数据类型和权益重要程度,判断是否需要对规模较小群体做特殊的处理。从差分隐私的主要案例出发,差分隐私的实施主要还是通过添加噪声。群体规模较小,噪声的“音量”大;群体规模较大,噪声可以抵消。为充分保障公平性,如果已经实施差分隐私,对1 000人或者规模更小的群体,通常应避免将其统计数据用于显著影响重要权益的场景;对规模1 000～5 000人的群体,在将统计数据用于显著影响重要权益的场景时也应保持审慎;对于规模更大的群体,统计数据加噪所引入的扭曲一般可以忽略[37]。

3.7 做实法律确定性

结合更加精细的技术分析和日益完善的法律分析,推动差分隐私取得确定性的法律效果。目前来看,在个人信息保护法律下,差分隐私可能取得的法律效果主要有3种:一是构成个人信息保护安全措施;二是构成个人信息保护去标识化;三是构成个人信息保护匿名化。其中,最关键的是匿名化。差分隐私加强个人信息安全保护程度、降低泄露概率和风险的效果是明确的,构成的个人信息保护安全措施是比较确定的。差分隐私实现个人信息去标识化的效果也是比较确定的。因为,无论个人标识符的内容是什么,从数据输出上都无法分辨出来。虽然差分隐私构成的安全措施和去标识化的效果比较确定,但安全措施和去标识化在实践中的效果相对有限,更多只是锦上添花。差分隐私能否显著加强个人信息受保护的效果,进而促进数据流通利用,主要依赖于其是否能够实现匿名化。如果认可差分隐私足以实现匿名化,由于差分隐私的后处理无关性,数据的后续流通利用无须再过多关注个人信息保护。根据《信息安全技术—个人信息安全影响评估指南》[38],实现个人信息的匿名化,需要充分消除通过筛选、关联和推断来重识别个人的风险。差分隐私通过保证不可分辨充分消除了筛选风险,较强的不可分辨性亦可一定程度上消除关联和推断风险[2]。如果能够通过理论证明、审计验证和补强措施进而消除关联和推断风险,可以很有信心地断言差分隐私实现了匿名化。如果未来个人信息保护的法律体系进一步完善,匿名化的界定和展开更加充分,差分隐私的法律效果也将相应地增强。

4 结束语

通过梳理差分隐私的重要案例,总结了实践中仍然存在的概念定义不一、隐私单元不明、参数难以选定、隐私记账困难、缺乏简明解释、造成不公平问题和法律效果不确定7个难点,并针对各个难点探讨了化解方法。正确实施差分隐私可以充分消除筛选、关联、推断等个人信息的重识别风险,实现很高的个人信息保护程度,甚至实现个人信息的匿名化。差分隐私的技术特性和法律效果不仅有益于加强个人信息保护,对促进数据要素流通和建设数据要素市场也有重要意义。匿名化从源头保障了数据上的个人信息权益,差分隐私的后处理无关性进一步消除了个人信息权益保护的合规隐忧,差分隐私的预算可加性使得个人信息保护可以定量分配、记账和管理,天然符合市场交易的要求。尽管差分隐私已经用于人口普查、数字广告和大型语言模型等重要场景,其潜力还远未充分展示,还有待更充分的发挥。