个性化跨域推荐系统中的用户隐私保护研究综述

2023-09-17苏畅李佳庆谢显中

中国新通信 2023年13期

苏畅　李佳庆　谢显中

关键词：个性化；跨域；推荐系统；用户隐私保护

一、引言

随着社会信息产业的发展，电影、音乐、网购等行业的交易量不断增长。相比之下，个人很难体验到一个又一个庞大的产品和服务。为了实现产品的精准销售，提高个人服务质量，需要有一个好的算法来给出个人推荐。推荐方法的准确性不仅决定了个人的生活体验，也决定了商业效益。但同时，在个性化的推荐中，重点做好用户隐私的保护工作，就成为个性化推荐系统研发和升级中必须考量的问题。结合既有的推荐系统用户隐私保护现状来看，仍旧存在一些漏洞，导致用户隐私安全受到威胁，亟待做出改进。鉴于此，本文的研究内容具有一定现实意义。

二、个性化跨域推荐系统中用户隐私保护工作开展的意义

个性化跨域推荐系统的研发，可以很好地缓解普适性推荐系统中存在的冷启动以及数据稀疏问题，同时个性化跨域推荐系统的构建，可以更好地完成用户特征提取，对于用户隐私数据安全保护也可发挥作用[1]。其中，特征提取关系到个性化跨域推荐系统的推荐准确性，数据安全更是关系到用户的隐私以及用户的信任度。本文采用异构信息网络通过多类型的节点和边的关系来进行特征提取，采用联邦学习来保护用户隐私，联邦学习并不要求用户上传数据，只需在本地训练，可以有效地保护用户的隐私。

随着推进系统的发展，推荐影响准确度的因素越来越多，因为用户需求是由用户兴趣偏好与实时需求共同决定的，本文在此基础上重点研究了实时性的因素，实时性可以代表用户当前的状态，在考虑用户偏好的同時加入实时性的因素，能够进一步优化个性化推荐系统的推荐准确度以及用户隐私保护质量。

三、个性化跨域推荐系统中的用户隐私保护国内外研究现状

（一）个性化跨域推荐系统研究现状

在当前的网络生态系统中，一些网站在功能和提供信息方面具有一定程度的同质性是很常见的。从构建推荐服务的角度来看，这意味着这两个同质域的模型正在处理许多相同的项[2]。这为通过丰富数据提高推荐质量提供了机会。例如，如果域对象没有关于某些项（即稀疏项或冷启动项）的足够数据，而其他域对象有，利用其他域的辅助数据来提高目标域的推荐质量的任务称为个性化跨域推荐。

1. 个性化跨域推荐通过知识迁移可以有效地缓解推荐系统的数据稀疏问题和冷启动问题

有学者提出了一个称为信任感知跨域深层神经矩阵分解（TCrossDNMF）的模型，该模型预测活动用户的项目评级，并解决了电子商务系统中“用户重叠”跨域场景中的用户冷启动问题。TCrossDNMF 模型分为四个主要步骤：①特征学习，即使用潜在因素模型学习用户的特征，然后发现源域和目标域用户之间的相似性。当用户在两个域之间共享时，该模型学习公共信息并将知识从源域转移到目标域。②排序，找到一组相似的用户（邻居），然后根据相似度阈值θ 过滤出不同的用户，然后从这些减少的用户集生成二分信任图，并执行蚁群优化，为活动用户找到可信的邻居。③加权计算活动用户与其前k 个邻居之间的信任度。④使用多层感知器（MLP）和广义矩阵分解（GMF）通过在更高维度上表示用户项交互来训练TCrossDNMF 模型的预测，并将GMF 和MLP 与用于评级预测的信任信息集成在一起。通过在两个域的用户之间转移知识和合并信任，解决了用户冷启动问题。有学者提出了一个DAAN 框架，该框架考虑了跨领域的领域共享和领域特定知识。通过注意网络将基于矩阵分解的协同过滤与深度对抗域自适应紧密耦合。在该框架中，首先从源和目标用户项交互矩阵中学习每个用户和每个项特定域的表示。然后，框架捕获了两个域之间的域共享特性，并将公共用户（或项目）嵌入到域对抗范式中。利用相对密集的源用户项交互矩阵中的知识迁移，重构了稀疏的目标用户项交互矩阵，缓解了数据稀疏性问题。

2. 个性化跨域推荐系统的迁移学习可以更准确地识别用户的特征，提高推荐系统的性能

有学者提出了一个新的基于跨域个性的推荐系统框架，两个主要方法为跨域人格分类方法和人格增强概率矩阵分解（P2MF）。它通过预测文本嵌入（PTE），将人格分类模型在一个共享的潜在特征空间上进行训练，该空间由来自源域的有监督数据和来自目标域的无监督数据解释。将个性标签作为先验信息集成到经典推荐方法概率矩阵分解（PMF）中。真实数据集上证实了该方法在各种目标域上的优越性。有学者通过结合不同域用户评论中隐含的情感信息，提出一种基于情感分析和潜在特征映射的跨域推荐算法（CDR-SAFM）。通过对用户评论信息进行情感分析，基于三项决策思想将情感分为三类，即积极、消极和中性。通过潜在狄利克雷分配（LDA）用于对用户的语义方向进行建模以生成潜在情感评论特征。并在此基础上使用多层感知器（MLP）获得跨域非线性映射函数来传递用户的情感评论特征，通过实验证明了框架的有效性。

（二）隐私保护推荐算法研究现状

随着推荐系统的发展，一些问题也暴露了出来，其中用户最关心的就是隐私保护问题，也是推荐系统发展的一个重要因素。有学者提出了一种基于可逆数据变换（RDT）算法的隐私保护数据采集协议。该协议允许针对超出范围的处理实现隐私保护，不需要私有通道或依赖第三方身份验证。协议不仅可以保障内部和外部身份泄露的安全，还可以为超出处理范围的隐私提供保护。有学者提出了一种基于多探测局部敏感哈希（LSH）的隐私保护兴趣点推荐算法。通过改进的LSH 选择相似的用户集，可以大大减少计算量，满足用户快速响应的需求。通过引入多重探索来缓解内存中多个哈希表的压力，并快速获取目标用户的最近邻集合，从而对LSH 进行了改进。在计算过程中采用了改进的LSH 和派利尔同态加密技术来保护数据隐私。有学者提出了岭回归，岭回归是一种统计方法，用于模拟独立变量和一些解释值之间的线性关系。在该协议中，每个用户以加密的形式将其数据提交给评估者，评估者计算所有用户数据的线性模型，而无需了解他们的内容[3]。核心加密方法配有同态属性，使评估者能够对加密数据执行岭回归。研究中发现协议适用于处理分布在数百万用户中的高危数据。有学者提出了一种基于局部差分隐私保护方案的动态隐私预算分配方法。有学者提出了一种改进的基于用户的协同过滤算法，该算法在计算用户相似度时采用了基于矩阵的相似度计算方法。在推荐过程中保护用户的隐私，同时保证推荐性能不会受到太大的损失。

本文提出的方案首先对本地敏感数据动态添加噪声，以保证用户的隐私，然后将添加噪声的数据发送到服务器进行相似度计算，最后通过基于用户的协同过滤算法给出推荐。有学者提出了一种基于差分隐私保护和时间因子的高效隐私保护协同过滤算法。这种方法可以有效地降低泄露私人数据的风险，同时获得所需的隐私保护服务。有学者提出了一种基于位置敏感度的位置推荐隐私保护方法。该方法使用位置轨迹和值机频率来设置阈值，从而对位置敏感度级别进行分类。然后根据灵敏度分配相应的隐私预算，以添加满足差异隐私的拉普拉斯噪声。

四、个性化跨域推荐系统中的用户隐私保护研究中存在的问题

（一）用户数据安全性和特征提取问题

推荐系统是基于用户所提供的一些隐私数据进行推荐的，而这些数据包含一定的敏感性信息。个性化跨域推荐系统更是如此，至少结合两个领域的数据，如果将所有的数据都上传到一个服务器上来进行训练，稍有不慎就会发生数据泄露，产生数据安全问题。出于对用户隐私数据的保护，跨域推荐系统在训练时应在用户或运营商服务器本地进行训练，以知识迁移的方式将加密后的特征上传到中央服务器，生成对用户的推荐。如何在本地进行用户特征的提取和如何加密特征保护用户隐私不受侵犯是一个值得研究的问题。

（二）用户数据隐私保护问题

用户的数据隐私问题也是跨域推荐中广泛研究的问题。在POI 跨域推荐系统可以根据用户的位置信息来推断用户的兴趣偏好。例如，一個用户若经常在某商场签到，可以推荐出该用户是商场的工作人员或有较强的消费能力。再比如，若一个用户经常在旅游点打卡签到，可以推断出该用户经常出去旅游或出差等等。个性化跨域推荐系统可以有效地缓解冷启动问题，但是如果这些数据使用不当，被窃取或盗用，会产生用户数据的隐私安全问题。因此保护用户的数据安全是跨域推荐系统的主要研究方向。传统的推荐系统都是采用集中式的训练模型，即所有领域的数据都存储在一个中央服务器中，在这种情况下，用户的数据很容易发生泄露，因为现实生活中我们很难找到一个值得信任的服务器。若采用分布式的训练模型，可以有效地解决服务器不可信和数据存储问题，但是由于各个平台之间存在商业利益，往往不愿意将自己收集的数据分享出来，就会出现“数据孤岛”现象，使得跨域协同变得非常困难。因此如何在解决“数据孤岛”问题的同时保护数据隐私，是个性化跨域推荐系统亟待解决的问题。

五、个性化跨域推荐系统中的用户隐私保护研究策略提出

为了更好地在跨域推荐系统提取特征、保护用户的隐私数据以及提升跨域推荐系统的推荐准确性，本文设计了基于隐私保护的跨域推荐系统。本文拟采用个性化异构信息网络来提取用户的特征，异构信息网络具有很强的灵活性，可以充分提取用户的特征。使用联邦学习结合同态加密技术算法来保护用户的隐私数据，联邦学习在用户本地训练数据后再使用同态加密技术将潜在特征分布加密后用作知识迁移，以保护用户的隐私信息。为进一步提升推荐系统的推荐准确性，本文考虑加入实时性的因素，以应对用户不断实时变化的需求，提升用户的使用体验。

（一）基于异构信息网络的隐私保护个性化跨域推荐

由于个性化跨域推荐系统需要在多领域中提取用户的特征，因此数据在用户与用户、用户与项目、项目与项目之间存在相关的特征交互，导致特征提取和数据转移相对复杂。为解决这一问题，本文提出使用异构信息网络提取不同领域之间的关联特征，该网络在结构上含有多种类型的节点和边，蕴含着丰富的关联信息。同时为确保数据安全性和用户隐私，需要对特征提取和数据转移进行隐私保护。为此，采用联邦学习和同态加密算法结合的方法，让用户在本地训练数据，将潜在特征分布加密后进行知识迁移，保证用户的隐私数据不被泄露。此外，为提升推荐系统的准确性，本文考虑加入实时性因素，以满足用户不断变化的需求，提高用户的使用体验。由于用户的选择决策取决于实时需求和偏好喜好，因此增加实时因素对于增强个性化跨域推荐系统的准确性至关重要。在保障用户隐私保护的同时，加入实时因素可促进用户体验的提升。

（二）具有隐私保护的跨域实时推荐推荐

系统是根据用户的历史性行为给用户来生成推荐的，但是由于用户的需求是不断地实时变化的，且用户的选择是实时需求和用户偏好加权求和的结果，若一味地根据用户的历史偏好来生成推荐的话，可能会导致推荐系统的准确性下降，用户满意度不高等结果。因此实时性成为提升推荐系统准确性的一个重要因素，比如用户所处的地点位置、绝对时间等实时因素，均会影响用户的选择。本文在跨域隐私保护推荐系统基础上，考虑融合绝对时间等实时性因素，训练推荐系统，提升系统的准确性。其间，利用联邦学习训练框架为：首先自服务端下发模型参数，用于完成本地模型的初始化训练。其次，由客户端将数据发送中间梯度，再到服务器端，利用服务器端去将用户端的参数做聚合处理，实现全局模型的更新，最后将最新参数下发至本地，用于更新本地模型。具体的联邦学习训练框架如图1 所。

另外，由于数据在用户与用户、用户与项目、项目与项目间均存在关联特征，特征交互复杂，本文拟采用异构信息网络来提取不同领域数据的特征，异构信息网络对数据处理具有很强的灵活性，可以提取丰富的特征信息。进一步，采用联邦学习结合同态加密技术的方法来保护用户的隐私数据，联邦学习不需要数据集中地进行训练，可在用户本地进行训练，将训练后特征加密进行上传，可以有效保护用户的隐私数据。

六、结束语

综上所述，在用户隐私保护研究中，想要全面提升保护质量，就需要着重围绕个性化跨域推荐系统展开问题，在了解推荐原理的基础之上，才能摸索出更具可行性的保护方案，以此为用户在互联网中的隐私安全提供保障。此外，在具有隐私特性的用户安全个性化跨域推荐系统研究方面，充分将联邦学习结合同态加密技术算法应用于用户隐私数据保护中，能够有效将潜在的用户数据特征所分布加密处理，以此搭建知识迁移体系，为用户的隐私保护提供支持，最终强化用户体验。

作者单位：苏畅李佳庆谢显中重庆邮电大学