基于人工智能的消费者隐私数据保护刍议*
2023-04-06张权
张权
(天津交通职业学院,天津 300380)
人工智能(AI)是第四次工业革命的关键驱动力,人工智能技术的高速发展,依托于“算法、算力和数据”三要素的快速发展。在2020 年,每个人每秒都会创建1.7 MB 的新数据,这些数据需要通过设备收集、处理和共享数据。计算、数据和物理实体网络实现了新型的用户服务。具体而言,服务可以将其操作基于AI 模型,以便更好地为用户提供个性化支持,需要广泛而持续的个人数据流,即有关个人的数据。个性化AI 服务可以解决各种与用户相关的问题,为个人带来巨大利益。同时,这些人工智能服务需要这些个体的相应个人数据(例如位置、麦克风或摄像头数据),并且可以找到有关他们的新的(部分高度敏感的)数据(例如抑郁状态、饮食习惯)。这使得数据保护以及防止侵犯隐私变得越来越具有挑战性。
保护用户隐私的方法是多方面的,然而,这些方法通常没有得到充分的讨论,并且在社区中也存在很大差异:有些假设是受信任的底层系统或设备,其他人假设可信的AI 服务或提供商,其他人甚至假设两者兼而有之。可以说,对于数据保护方法的鲜明特征缺乏共识,特别是在AI 服务中,因此很难比较和理解它们各自的优势[1]。许多数据保护方法还只考虑一方的利益,而忽略了另一方的利益,这使得他们无法开展业务。
1 消费者数据隐私保护的需求
1.1 数据的完整性和私密性
保护机制应该能够确保(共享)数据在其生命周期内的准确性和一致性,即未经授权或不受信任的实体不应能够修改或篡改AI 服务中使用的(共享)个人数据。保护机制应保护个人数据以及元数据,防止泄露、盗窃以及无意、非法或未经授权的访问。我们认为,当个人数据未经适当修改离开用户时,它不能可靠地保密。重要的是要注意,我们没有明确考虑通信元数据,此类数据的匿名化在在线社交网络中更为相关。
1.2 数据的有效性和效率
消费者隐私数据保护应当保证数据的有效性和数据效率,具体要求包括:①性能。保护机制不应对AI服务的最终性能产生负面影响,例如在准确性方面。②个性化能力。保护机制应继续为AI 服务提供对充足和准确的个人数据的访问权限,使其能够适应用户。③个人数据参与度低。数据保护AI 服务应该需要更少的个人数据,从而最大限度地降低泄露敏感数据的风险和固有的冷启动问题。④低标签工作量。数据保护AI 服务应要求用户标记较少的个人数据,从而减轻用户的负担并改善用户体验。⑤本地资源使用率低。数据保护AI 服务应尽可能节省本地资源,从而减轻个人设备的负担并改善用户体验。前2 个是指个性化的有效性,后3 个是指个性化的效率。
1.3 数据的适用性
数据适用性的具体要求包括以下几个方面:①支持任何数据类型。保护机制应设计为支持所有类型的数据,以便提供商在其AI 服务中不受限制。②支持任何AI 算法。保护机制应设计为支持所有底层AI 算法,以便提供商可以轻松部署其未修改的AI 服务。③算法特定依赖性低。保护机制的设计应使AI 服务不需要集成特定算法。④适用性的复杂性低。保护机制应易于被提供者部署,即架构和基础设施的复杂性应较低。⑤GM 学习/改进能力。应设计保护机制,以支持学习和改进通用模型,从而缓解冷启动问题。
2 消费者隐私数据的保护方法
我们根据以下4 种增强用户隐私的特定数据处理技术,在AI 级别对不同的数据保护方法进行了分类。
2.1 数据修改方法
此类别中的方法修改或清理用户数据,使其无法链接到特定个人,从而导致隐私和有效性这两个目标之间的固有冲突。一个早期的关键概念是k-anonymity,它解决了数据集中个人重新识别的风险,例如,通过删除或隐藏个人身份信息。k-anonymity 也可以用于隐私保证的质量衡量标准:数据集中包含的个人数据无法与其他数据区分开来。例如,GEDIK 等使用k-anonymity 在2007 年提出了一种仅保护位置隐私的方法,允许用户根据其个人隐私偏好指定。然而,这种匿名技术已经证明容易受到组合攻击。差分隐私在数学上保证查询的输出对数据集中是否存在个人数据不敏感。
数据集中差异变化时的隐私损失可以通过隐私参数来衡量,值越小,隐私保护越好,但扰动噪声越大。Google 的RAPPOR 就是一个例子,它支持在实际设置中的差异隐私,允许使用随机响应从具有强大隐私保护的最终用户收集统计数据,从而消除了对受信任的第三方的需求。所有这些数据修改方法都适合以或多或少的隐私友好方式学习一般模型。然而,这些方法在学习个性化AI 模型时在有效性方面表现不佳(因为它们需要修改个人数据,例如添加噪声)。
2.2 数据加密方法
此类别包括适用于加密用户数据的保护方法,可确保共享数据时的完整性和机密性。特别是,两种互补的加密技术塑造了这一类别,即同态加密(HE)和安全多方计算(MPC)。前者使得在不泄露数据的情况下分析或操作加密数据成为可能,但计算效率低下和操作有限限制了其适用性。后者是一种加密协议,可以对分布式数据进行安全和私有的计算,而不会将其泄露或移动到相关方的领域之外,但MPC 需要很高的通信和计算开销。
现在我们简要调查了AI 服务的相关方法,其中许多都是基于上述两种加密技术。例如,BARNI 等提出了一种基于HE 和乱码电路组合的混合协议,以对来自用户的加密心电图(ECG)信号进行分类。另一种方法CryptoImg,依赖于HE,允许对加密图像进行处理(例如图像调整、空间过滤、边缘锐化)。但是,这两种方法都仅限于特定的数据类型和AI 算法。ML Confidential 和CryptoNets 更通用,使用不同的数据类型,但仅适用于特定的AI 算法。前者为AI 任务提出了一种基于HE 的机密协议,并根据其多项式近似值开发了适当的机密AI 算法进行二元分类。后者进一步证明了HE 在训练有素的神经网络中的应用,但效率对两者来说仍然是一个挑战。
2.3 数据最小化方法
此类别中的方法旨在通过最大限度地减少所需的个人数据量来提高效率。根据设置的不同,当前通用模型(GM) 训练的实践在训练期间不需要个人的数据。如果需要,则仅在推理阶段。虽然这种做法实现了高效率,并且适用性的复杂性很低,因为它通常依赖于自愿数据并在云中执行,生成的一般模型可能具有较低的有效性,因此它虽然适用于许多用户,但并非适用于所有人——我们使用此做法作为此类别的基线(BL)。
为了解决效率问题,基于此类别中的第一种方法提出了AI 算法的分区。例如,Neurosurgeon 是一种将神经网络训练拆分为云和具有层粒度的用户的方法,它进一步确定了这种分裂的最佳点,同时考虑到个人设备的延迟和能耗。类似的,OSIA 等提出了混合深度学习,其中层分离的、预先训练的暹罗神经网络的第一层在本地训练,输出(中间层)被发送到云共享以补充其余层。但是,这两种方法仍然需要标记数据,这会导致新用户出现冷启动问题。
为了克服通用模型的低效性和针对新用户的个性化模型的冷启动问题,基于社区的方法形成了适当的权衡。例如,CSN 将3 种人际相似性测量(即身体、生活方式和传感器数据相似性)纳入基于云的训练过程。特别是,CSN 通过集成来自其他“类似”用户的标记数据,为用户构建个性化模型,从而实现高效率。但是,CSN 无法保证完整性和机密性,因为个人数据会离开用户的领地,并孤立在云中。
2.4 数据限制方法
此类别包括不需要在用户区域之外共享个人数据的AI 方法。通过这种方式,这些方法确保了数据的完整性和机密性;由于可以在本地完全访问个人数据,因此它们在个性化方面也是最有效的。不利的一面是,由于用户及其个人设备的负担很高,因此此类方法的效率较低;它们也不有助于改进一般模型,也不能将个人数据用于商业目的(例如广告),从而减少提供商的利益。粗略地说,可以通过本地运行的标准AI 算法,使用很少的个人数据进行管理,并且在新数据可用时需要重新训练个人模型(PM),这些属性或多或少具有共同点——我们将基于此类算法的方法包含在代表基线(BL)的术语重新训练。
这一类别中的其他办法主要旨在以相同或相似的效力提高效率。特别是,迁移和增量学习算法是一个有希望的方向。前者是指使用过去获得的知识来学习新任务(使用较少的个人数据)的能力,减轻用户的负担(例如降低标签工作量)。后者是指仅根据新可用的数据逐步训练现有AI 模型的能力,从而减轻个人设备的负担(例如降低资源使用率)。两者也可以结合起来,正如以下两种示例性方法所证明的那样:SERⅤIA 等提出了一种神经网络架构,该架构在云中经过训练,并通过重新调整模型参数和权重在随后的本地个性化步骤中逐渐适应用户。虽然这种方法支持具有较少个人数据的深度神经网络,但它仅限于这些AI算法[2]。相比之下,修补的想法更为普遍,因此也广泛适用:一个通用的(基于云的)“黑匣子”模型(可能是不可变的和难以理解的)通过观察性的推断和修复这个新实例空间的错误区域(模型容易出错)来适应新的用户数据(本地)。通过这种方式,Patching(一种元算法)需要更少的个人数据,并且适用于任意AI模型,甚至对于神经网络也是如此。
总而言之,通过多个步骤和不同方法的结合来实现隐私和个性化(效率和有效性)之间新的平衡是可以实现的。例如,谷歌通过安全聚合的联合学习用于训练和改进通用模型,有效地实现了隐私和个性化之间的有效平衡。还可以使用诸如Patching(一种数据限制方法)之类的迁移学习算法,从而将一般模型适应本地用户。
研究界现在应该继续致力于研究减少人工智能算法中实现相同或更高的个性化所需的个人数据量,以及降低这些保护机制的复杂性,以便提供商更容易应用它们。
3 消费者隐私数据保护方法的挑战
可以看到,上述提到的方法都难以满足消费者对隐私保护的特定需求。需要指出的是,虽然数据修改方法的花费越来越低,但它们在有效性和隐私之间存在固有的冲突仍未得到解决[3]。数据加密方法非常适合确保数据的机密性和完整性,但它们的适用性有限,因为它们仅支持对加密数据进行有限的操作集,从而支持AI 算法。由于使用加密数据高效训练复杂AI 算法的开放挑战是革命性的一步,并且在可预见的未来将无法实现,因此与数据最小化方法相结合是目前更有希望的方向。例如,可以安全地聚合本地训练模型的共享模型参数/权重,以改进基于云的通用模型。然而,为了在保护用户隐私的同时实现高个性化准确性,本地方法是最合适的,因为它们可以完全访问永远不会离开用户领土的个人数据,但效率低下仍然是一个公开的挑战。
4 结语
可以说,没有一种万能的解决方案可以完全满足AI 服务的所有要求。事实上,许多挑战要么单独研究,只是优化某些方面,要么由不同的社区零碎地研究,其中大多数尚未相互关联。换句话说,只有将不同方法组合在不同级别,才能实现全面保护。这反过来又要求进行更多的跨学科研究。此外,今天的数据保护方法大多非常局限于一种特定的数据类型或AI 算法,或者过于通用,这反过来又会导致性能问题。无论哪种方式,未来的数据保护方法都需要在人工智能服务方面进行进一步的专业化。
总而言之,数据去中心化已被证明是一个有希望的未来方向,可以保留“真正的”数据所有权,它将个性化、隐私悖论转变为纯粹的个性化挑战(当数据受到限制时),旨在实现有效性和效率之间的最佳权衡。分散式计算可以进一步解决数据保护AI 服务被忽视的系统属性“可用性”。最后但并非最不重要的一点是,提供商需要采用适当的激励措施来推广这种保护方法,尽管其复杂性高于集中式架构,而集中式架构也必须有利可图。例如,对提供商的激励可以是更高的个性化广告(因为本地代码可以自由访问个人数据)或更低的云资源消耗(因为至少部分AI 服务是在本地执行的),这允许具有成本效益的扩展。无论哪种方式,克服在本地保护专有AI 算法/模型这一普遍被忽视的挑战是让提供商参与进来的必要条件。总体而言,本文为个性化AI 服务中的数据保护开辟了新的视角,突出了已确定的开放挑战,并为未来的研究提供了合适的起点。