基于组合差分隐私的社会化推荐算法研究
2023-06-25王居正张雪萍杨俊翔杨卫东
王居正 张雪萍 杨俊翔 杨卫东
摘要:随着在线商品、服务以及信息的爆炸式增长,推荐系统正逐渐成为互联网应用当中一个不可或缺的部分。然而,推荐系统在给人们带来便利的同时,也存在很多潜在风险,其中之一便是隐私泄露问题。文章依托现有传统推荐算法,通过融入用户之间的信任关系,形成社会化推荐算法,提高了推荐效果。另外,在原有选定4种主要的差分隐私保护技术的基础上,结合联邦学习和安全多方计算等技术,寻求最优的组合差分隐私保护技术,增强了隐私保护的能力。
关键词:社会化推荐;差分隐私;联邦学习;安全多方计算
中图分类号:TP391.3文献标志码:A文献标志码0引言随着国家经济建设蓬勃发展,信息技术随之高速发展,各类社交、音视频、游戏等软件应运而生,极大地丰富了人们的物质生活,也满足了人们日益升高的精神生活需要。截至2023年1月,全球网民数量达到10.93亿。网民的广泛运用推动了互联网信息爆炸式增长,网上现有的目标信息被海量的数据淹没。可用信息少、冗余信息多,真实信息少、虚假信息多等问题普遍存在,而推荐系统能够有效地解决此类问题,帮助网友从浩瀚的信息中找到需要的信息,在日常工作生活中起到了不可替代的作用。对于信息消费者而言,推荐系统能帮助他们提高工作效率,快速找到所需的信息,避免时间浪费;对于信息提供者而言,推荐系统能吸引消费者、区别消费者、引导消费者,实现利益最大化。
1社会化推荐算法推荐系统是由信息过载产生,但经过多年的发展,特别是电子商务的繁荣,其作用也在不断扩展。例如推荐系统从“商品长尾”中挖掘那些受关注较少的商品推荐给用户,帮助用户准确找到长尾中符合用户个性化需求的商品。
1.1推薦算法的分类推荐系统产生于20世纪90年代,最初的数据集MovieLens[1]由美国Minnesota大学计算机科学与工程学院的GroupLens项目组收集整理。推荐算法主要可以分为基于内容的推荐算法[2]、基于人口统计特征的推荐算法[3]、基于协同过滤的推荐算法[4]、基于聚类的推荐算法和混合推荐算法[5]。
1.2主流的推荐算法近十年主流推荐算法一般分为两大类,即基于内容的推荐算法和基于协同过滤的推荐算法。其中,基于内容的推荐算法的思想是通过匹配与物品相关的关键字和用户设定的关键字,算法相对简单,因此会较为广泛地应用于推荐文本领域;而基于协同过滤的推荐算法的思想则是使用用户群体曾经的行为来预测各个用户可能喜欢的物品,适用于推荐各种种类的物品。
基于协同过滤的推荐算法主要分为基于模型的协同过滤算法和基于邻域的协同过滤算法。基于模型的协同过滤算法主要运用矩阵分解算法,通过使用用户-物品矩阵,构建一个预测模型,其大致的思想是通过用户-物品矩阵获得各个用户和物品的潜在特征向量,达到预测用户对物品评分的目的。而基于邻域的协同过滤算法则直接使用已有用户对物品的评分数据来预测用户对新物品的评分,又依据目标相似原理将用户或物品区分为基于邻域用户的方法和基于邻域物品的方法,并计算对应的相似度。主流推荐算法如图1所示。
1.3社会化推荐算法当前对推荐系统造成较大影响的主要有数据稀疏性、冷启动以及系统本身性能等方面的问题,这些问题影响了推荐效果,降低了推荐精度和准度。为解决这方面的问题,本文依托传统推荐系统,通过将用户之间信任关系融入,形成社会化推荐算法,较好地提高了推荐效果。社会化推荐算法主要的思想是使用目标用户在社会网络中相关联的用户代替或补充传统推荐系统中匿名的相似用户。
社会化推荐算法能够对用户行为进行更真实的模拟,并且有利于缓解用户冷启动和评分数据稀疏问题。社会化推荐算法主要有两个方面的优势:一方面是信息技术高速发展,信息获取渠道增多,尤其是社交媒体发展,用户的社会属性信息获取更加简单易行;另一方面是人们在生活中,除了自己做决定外,更多地会借鉴他人的意见,尤其是自己信任的亲朋好友,往往他们的意见能够影响甚至主导自己的决定,也就意味着用户的社交网络关系可以帮助他们过滤信息。
因此,使用用户之间信任关系的社会化推荐算法中主要的两大类分别为:基于矩阵分解的社会化推荐算法和基于邻域的社会化推荐算法。
2推荐系统隐私保护主要技术推荐系统在给人们带来便利的同时,也存在很多潜在风险,其中之一便是隐私泄露问题。
2.1推荐系统隐私保护主要技术类别当前推荐系统主要的隐私保护技术如表1所示。
2.2差分隐私保护技术差分隐私保护技术[6]是Dwork等人在2006年提出的隐私保护技术。差分隐私保护技术通过对查询结果添加噪声,确保在数据集中增减一条记录对最终的查询结果不会产生影响,达到隐私保护的目的。
2.3差分隐私保护技术的分类差分隐私保护技术主要分为本地化差分隐私、中心化差分隐私、分布式差分隐私和混合差分隐私4种。各类差分隐私保护技术的优点和不足如表2所示。
2.4组合差分隐私保护技术基于社会化推荐算法,融入联邦学习思想和现有4种差分隐私保护技术,结合用来去除参数服务器以提高系统整体安全性的多方安全计算的技术,并用联邦学习中本地更新的优化方式,研究和设计了组合差分隐私保护技术,如图2所示。
组合差分隐私保护技术通过使用随机梯度下降的求解方法,在梯度上加入高斯噪声,这样既避免了攻击者通过观察评分预测结果来推断用户评分数据,类比在训练数据上和在求解特征矩阵的过程中添加噪声更为有利。
在社会化推荐算法中,用户矩阵和物品矩阵的梯度可以根据用户数据类别分解为两部分:一是来自评分数据对梯度的更新,二是来自信任关系对梯度的更新。先通过评分预测差值更新用户矩阵和物品矩阵,再通过用户信任关系对用户矩阵进行再次更新。每个数据方依托现有数据,通过梯度计算并经过参数服务器聚合,得到全局用户矩阵。
在联邦学习中,通过引入同态加密的公钥的参数服务器,避免因梯度暴露导致训练数据曝光,实现了既在加密的情况下更新物品特征向量,也避免了通过参数服务器解密梯度的隐患。同时,在现有基础上,通过引入一个半诚实且独立的参数服务器,就能进一步加强推荐算法整体的安全性。
多方安全计算[7]可以使得参与计算的各方在不公开各自输入值的情况下得到最终的计算结果。各个数据方可以通过多方安全计算求出所有数据方对用户矩阵梯度的平均值,取代原有参数服务器进行梯度聚合的工作,从而增加联邦推荐算法整体的安全性。因此,多方安全计算可以被用在不另外引入服务器的情况下,解决联邦学习中梯度聚合这一问题,如图3所示。
3结语本文在传统推荐算法的基础上,融入用户信任关系构建社会化推荐算法,充分利用联邦学习和多方安全计算的技术优势,研究和设计了组合差分隐私的社会化推荐算法,通过实验论证,达到了预期效果。但在现实生活中的应用差距比较大,下一步计划从两个方面入手:一方面是对推荐算法中信任关系的隐私保护。当前的组合差分隐私的社会化推荐算法没有对用户的信任关系进行隐私保护,下一步将用户评分和用户之间的信任关系都纳入隐私保护范围;另一方面是实现跨平台推荐。现有推荐系统适用平台较为单一,往往是一个推荐系统只适用一个推荐平台,各平台的数据也没有实现流通,下一步考虑从强化学习和边缘计算的角度出发,研究实现跨平台推荐。
参考文献
[1]范虎.基于云计算的协同过滤推荐系统的研究与应用[D].淮南:安徽理工大学,2013.
[2]李忠俊,周启海,帅青红.一种基于内容和协同过滤同构化整合的推荐系统模型[J].计算机科学,2009(12):142-145.
[3]PAZZANI M.A framework for collaborative, content-based,and demographic filtering[J].Artificial Intelligence Review-Special Issue on Data Mining on the Internet 1999(5-6):393-408.
[4]HERLOCKER J,KONSTAN J,TERVEEN L.Evaluating collaborative filtering recommender system-s [J].ACM Transactions on Information Systems,2004(1):5-53.
[5]張腾季.个性化混合推荐算法的研究[D].杭州:浙江大学,2013.
[6]王烁.基于组合差分隐私的社会网络数据发布研究[D].保定:河北大学,2020.
[7]周雪翎.基于差分隐私的社会化推荐系统研究[D].合肥:中国科学技术大学,2020.
(编辑 王雪芬)
Research on social recommendation algorithm based on combinatorial difference privacyWang Juzheng, Zhang Xueping, Yang Junxiang, Yang Weidong
(School of Information Science and Engineering, Henan University of Technology, Zhengzhou 450001, China)Abstract: With the explosion of goods, services and information online, recommendation systems are becoming an integral part of Internet applications. However, while the recommendation system brings convenience to people, it also has many potential risks, one of which is privacy disclosure. Based on the existing traditional recommendation algorithm, this paper forms a socialized recommendation algorithm by integrating the trust relationship between users, and improves the recommendation effect. In addition, on the basis of the four main differential privacy protection technologies selected previously, combined with federated learning and secure multi-party computing technologies, seeking the best combined differential privacy protection technology, enhancing the ability of privacy protection.
Key words: social recommendation; differential privacy; federal study; security multi-party calculation