APP下载

基于差分隐私的广告推荐算法

2023-11-29田蕾葛丽娜

计算机应用 2023年11期
关键词:差分扰动梯度

田蕾,葛丽娜

基于差分隐私的广告推荐算法

田蕾1,2,葛丽娜2,3,4*

(1.广西民族大学 电子信息学院,南宁 530006; 2.广西民族大学 网络通信工程重点实验室,南宁 530006; 3.广西民族大学 人工智能学院,南宁 530006; 4.广西混杂计算与集成电路设计分析重点实验室(广西民族大学),南宁 530006)( ∗ 通信作者电子邮箱66436539@qq.com)

随着移动互联网行业进入快速发展阶段,用户数据以及浏览数据大幅增加,所以准确把握用户潜在需求和提高广告推荐效果显得极其重要。DeepFM模型作为目前较为先进的推荐方法,可以从原始特征中抽取到各种复杂度特征,但模型没有对数据进行防护。为了在DeepFM模型中实现隐私保护,提出一种基于差分隐私的DeepFM模型——DP-DeepFM,在模型训练过程中将高斯噪声加入Adam优化算法中,并进行梯度裁剪,防止加入噪声过大引发模型性能下降。在广告Criteo数据集上的实验结果表明,与DeepFM相比,DP-DeepFM的准确率仅下降了0.44个百分点,但它能提供差分隐私保护,更具安全性。

差分隐私;推荐算法;梯度下降;深度学习;Adam优化算法

0 引言

随着5G时代的到来与发展,以及各种手机终端应用的出现,互联网中积攒了大量用户,给互联网广告带来了巨大商机,其中腾讯、阿里、字节跳动等互联网公司提供了巨大的互联网广告平台,吸引了越来越多的广告商进入互联网市场。根据用户的基本信息与交互记录挖掘用户的潜在需求,并依此进行个性化广告推荐变得至关重要[1]。影响推荐算法性能的一个关键因素是用户的数据量是否足够,然而当用户数据量庞大时,更容易造成隐私泄露。因此,如何更好地利用用户可使用浏览数据,并防止用户隐私数据的泄漏是目前需要解决的问题。

早年的推荐算法主要是一些单一的模型,如逻辑回归(Logistic Regression, LR)[2]、协同过滤(Collaborative Filtering, CF)[3]、矩阵分解(Matrix Factorization, MF)[4]等。后来,推荐算法演变成混合模型,如梯度提升决策树(Gradient Boosting Decision Tree, GBDT)+LR[5]、GBDT+因子分解机(Factorization Machine, FM)[6]等。然而,这些模型是简单的机器学习模型,在拟合非线性数据时存在分类能力不足的问题。近年来,研究人员开始将深层神经网络应用于推荐算法[7],并考虑了神经网络的非线性表达能力,以捕捉高阶特征的相互作用。Wide&Deep模型[8]同时考虑了高阶特征和低阶特征,但是低阶特征需要手动交叉生成。DeepFM算法[9]兼顾了低阶和高阶特征,具有较好的覆盖性;但对于包含用户隐私的数据,给攻击者提供了更多的背景知识,用户将面临隐私安全问题。包含用户隐私的历史行为数据一旦被攻击者获取,将对用户以及预估模型造成不可预估的后果。

然而,高效发展的推荐模型技术存在数据隐私泄漏问题,因为推荐技术的精确度往往需要庞大数量的用户数据作为支撑,而用户的个人信息以及使用记录具有隐私敏感性,攻击者能够利用算法的过拟合缺陷,通过随机梯度下降(Stochastic Gradient Descent, SGD)技术和置信度来重现模型训练的数据,从而呈现严重的隐私问题[10]。2018年美国的剑桥分析(Cambridge Analytica)数据分析公司发生了隐私泄漏事件,该公司私自泄漏了将近5 000万Facebook用户的个人隐私信息,引发了用户的强烈谴责[11]。Google Prediction API和Amazon Machine Learning等机器学习服务可以从购买记录中泄漏会员信息[12]。因此,用户的数据隐私研究是CTR(Click-Through Rate)预估模型发展过程中不容回避的一个重要问题。

目前,差分隐私(Differential Privacy, DP)技术[13]在隐私保护领域被广泛应用,能在保护敏感数据的同时,尽量提高数据的可用性[14],极为契合推荐系统隐私保护的需求。自从McSherry等[15]首次将DP引入到推荐系统并证明了它的有效性后,众多学者提出了各自的基于DP的推荐算法。如Ren等[16]提出了一种基于自动编码器和DP的推荐模型,设计了两种将DP应用于自编码的方法:输入扰动和目标函数扰动,在保证推荐精准度的同时能有效保护用户数据的隐私。Zhu等[17]指出,向数据集中添加噪声是最直接有效的方法,但是这种方法会影响学习模型的效用,因为它严重依赖于训练数据集中的属性值。Abadi等[18]提出了基于DP的梯度下降(Differentially-Private Stochastic Gradient Descent, DP‑SGD)算法,在随机梯度下降过程中加入了噪声,但是添加的噪声过大会严重影响模型精度。

DeepFM模型[9]是目前比较有效的研究成果之一,它能够同时学习低阶和高阶的组合特征,但该模型存在对于潜在特征挖掘不充分的问题,也忽视了对于用户个人隐私的保护;并且,基于深度学习的DP技术还尚未成熟,因为梯度扰动在每次迭代训练过程中都对梯度添加噪声,导致噪声不断地累加,可能会影响模型的最终效用。因此,本文提出一种基于DP的广告推荐算法DP-DeepFM,在模型训练过程中将高斯噪声加入到Adam优化算法中,并进行梯度裁剪以防止加入噪声过大引发的模型性能下降。

本文工作如下:

1)提出一种基于DP的Adam优化算法DP-DeepFM,通过在梯度优化过程中加入高斯噪声并设置梯度阈值的方式来保证模型准确度。

2)将基于DP的Adam优化算法应用于DeepFM模型中进行广告推荐,并在真实数据集上进行实验验证,结果表明该算法能在隐私保护下获得更好的准确度。

1 相关工作

1.1 差分隐私

差分隐私(DP)具有严格的数学框架,用于评估和保护数据隐私。该模型主要通过向查询或者分析的结果中添加适当的噪声以达到隐私保护的目的。本文涉及的DP的基本定义和性质如下:

参数敏感度用于确定机制中的特定查询所需要的噪声,它仅与查询类型相关。对于不同的算法,DP具有不同的实现机制,其中拉普拉斯机制和高斯机制通常用于数值结果的保护,而指数机制适用于非数值结果。

这两种性质在证明相关算法是否满足DP的过程中起着重要作用。

1.2 DeepFM模型

DeepFM模型[9]是一种可以从原始特征中抽取到各种复杂度特征的端到端模型,模型框图如图1所示。

图1 DeepFM模型框图

FM部分实现了对于一阶和二阶组合特征的建模,模型表达式如式(4):

FM部分的输出结果如式(5)所示,由两部分组成:“+”的前部分反映的是一阶特征,“+”的后部分反映的是二阶的组合特征对于预测结果的影响。

2 基于差分隐私的DeepFM模型

DP提供了可衡量的隐私保证,有助于降低在机器学习中暴露敏感训练数据的风险。基于深度学习的DP技术可分为三种:输入扰动、梯度扰动和输出扰动。与输入扰动和输出扰动相比,梯度扰动方法更适用于深度学习算法,这是因为梯度扰动不需要对目标进行强假设,它只需要限制每次梯度更新的敏感性,而不是整个学习过程。梯度扰动流程如图2所示。其次,梯度扰动可以在每次迭代时释放噪声梯度,而不会破坏隐私保证,因为DP不受后处理的影响。Adam优化算法[22]是梯度下降优化算法的扩展,具有以下几种优势:1)适合处理涉及大量数据或大量参数;2)只需极少量超参数,调参容易;3)计算高效,占用内存少。

图2 梯度扰动流程

因此,本文根据文献[23]的思路,在DeepFM模型进行梯度优化时,采用基于DP的Adam优化算法,通过梯度裁剪的方法,将梯度的变化设置在可控范围内。梯度裁剪是DP训练的一个重要操作,基于DP的Adam优化算法能够自适应地控制梯度裁剪的比例在给定的范围波动,控制迭代训练过程中梯度裁剪的粒度。并且随机噪声被采样并添加到裁剪的梯度中,通过比较在训练数据集中使用或不使用该特定数据点时的更新,从统计学上无法知道特定数据点是否包含在训练数据集中。算法伪代码如算法1所示。

算法1 基于DP的Adam优化算法

10) End for

11) End for

12) End

定理1 DP-DeepFM模型满足差分隐私。

3 实验与结果分析

本章将主要介绍DP-DeepFM模型的实验评估,实验结果表明,与其他三种先进的模型相比,本文算法具有较高的性能,在隐私保护下能够获得更好的准确性。

3.1 实验装置

1)数据集:本文采用Criteo数据集(https://www.kaggle.com/c/criteo-display-ad-challenge/data),该数据集包含4 500万用户的广告点击记录,且记录按时间排序;数据中的标签属性代表广告是否被点击。本文将数据集随机分为两部分:80%用于训练,其余20%用于测试。

2)评价指标:本文使用受试者工作特征曲线下面积(Area Under the receiver operating characteristic Curve, AUC)和Logloss(Logistic regression loss,称为逻辑回归损失或交叉熵损失)两种指标对模型进行评估。AUC可以评价模型的排序能力,综合表现模型的性能,它的值越大,表示分类结果越准确;Logloss常用于评估推荐系统的排名情况,值越小,模型效果越好。

3)实验环境:本文使用Python语言和Tensorflow-gpu框架实现了所有模型,通过GPU Quadro P4000加速,并调整参数以记录各个模型的训练效果。

3.2 实验对比方法

为了体现DP-DeepFM模型能够实现对数据隐私保护以及准确率保障,将本文算法和其他经典推荐模型进行对比。

1)EDIF(Exploring Different Interaction among Features)模型[25]将特征的聚合向量作为输入,并行引入压缩激励网络层和显式高阶交互层两层,提高了特征交互的能力。

2)FM模型[24]使用特征隐向量的内积作为交叉特征的权重,可以将一阶特征和高阶特征共同融入模型,提高模型的表达能力。

3.3 实验结果分析

本节将从两个方面验证算法的有效性与可行性。

3.3.1模型性能比较

表1是在Criteo数据集下,DP-DeepFM模型与FM模型[24]、EDIF模型[25]以及DeepFM模型的对比情况,以验证本文提出的基于差分隐私推荐算法优于其他经典推荐模型。

表1 模型性能比较

由表1可知,本文提出的DP-DeepFM模型相较于FM模型在Criteo数据集上的AUC提高了0.71个百分点,Logloss降低了0.29个百分点,因为FM模型主要用于稀疏特征的处理,但不能进行高阶特征交互,而DP-DeepFM模型通过端到端的方式同时获得了浅层特征交互表示与深层特征交互表示,使模型性能提高。虽然DP-DeepFM模型相较于DeepFM模型以及EDIF模型在准确率上有所降低,仅分别降低了0.44和0.39个百分点,但是EDIF模型仅仅考虑了特征之间的高阶交互,没有考虑到模型有数据泄漏的风险,DP‑DeepFM模型在略失精度的同时,提高了模型的安全性。

3.3.2不同差分隐私方案对DeepFM模型性能影响比较

本部分将主要考察DP-DeepFM模型在不同的差分隐私优化算法中的性能比较,以验证本文提出的DP-DeepFM模型优于其他经典推荐模型。图3是在Criteo数据集下,DeepFM模型在DP-SGD算法和基于差分隐私的Adam优化算法(DP-Adam)中的表现情况。

图3 不同差分隐私方案对模型准确率和Logloss的影响

如图3所示,随着隐私预算的增大,梯度扰动过程中注入的噪声减少,隐私保护的级别逐渐降低,准确率逐渐提高,损失率逐渐降低。这表明本文方法在保护用户隐私的同时能够有效保证模型的性能。DeepFM模型在DP-SGD算法中的表现比在DP-Adam算法中差,这是因为DP-SGD算法对噪声的添加量极其敏感,即添加的噪声对模型精度影响较大。但DP的实现方式是将随机噪声加入梯度优化算法,在相同的隐私预算下,本文向模型里注入较小的噪声,保证了模型的准确度,因此本文的基于差分隐私的Adam优化算法要优于DP-SGD算法。

4 结语

目前,DeepFM模型在工业界和学术界得到了广泛的研究,由于现有的推荐模型在推荐过程中难免会出现隐私泄漏问题,因此本文提出了一种基于差分隐私技术的DeepFM模型,有效地保护用户的隐私数据。在广告Criteo数据集进行多次对比实验的结果表明,相较于其他广告推荐模型,本文DP‑DeepFM模型在保护数据隐私性的同时能保证推荐结果的有效性。下一步工作需要进一步考虑如何在提高隐私保护的前提下优化广告推荐模型,提高算法准确率,从而实现推荐精度、算法性能和隐私保护之间的平衡。

[1] 陈检. 基于神经网络与因子分解机的点击率预估应用研究[J]. 信息技术与信息化, 2018(8): 204-207.(CHEN J. Application research of click rate estimation based on neural network and factor decomposition machine[J]. Information Technology and Informatization, 2018(8): 204-207.)

[2] WANG Y, BI X, QU A. A logistic factorization model for recommender systems with multinomial responses[J]. Journal of Computational and Graphical Statistics, 2020, 29(2): 396-404.

[3] 孙晓寒,张莉. 基于评分区域子空间的协同过滤推荐算法[J]. 计算机科学, 2022, 49(7): 50-56.(SUN X H, ZHANG L. Collaborative filtering recommendation algorithm based on rating region subspace[J]. Computer Science, 2022, 49(7): 50-56.)

[4] 田震,潘腊梅,尹朴,等. 深度矩阵分解推荐算法[J]. 软件学报, 2021, 32(12): 3917-3928.(TIAN Z, PAN L M, YIN P, et al. Deep matrix factorization recommendation algorithm[J]. Journal of Software, 2021, 32(12):3917-3928.)

[5] ZHANG H, ZHONG H, BAI W, et al. Cross-platform rating prediction method based on review topic[J]. Future Generation Computer Systems, 2019, 101: 236-245.

[6] SHAO Y, WANG C. HIBoosting: a recommender system based on a gradient boosting machine[J]. IEEE Access, 2019, 7: 171013-171022.

[7] XU J, HE X, LI H. Deep learning for matching in search and recommendation[J]. Foundations and Trends® in Information Retrieval, 2020, 14(2/3): 102-288.

[8] WILSON C M, FRIDLEY B L, CONEJO-GARCIA J R, et al. Wide and deep learning for automatic cell type identification[J]. Computational and Structural Biotechnology Journal, 2021, 19: 1052-1062.

[9] GUO H, TANG R, YE Y, et al. DeepFM: a factorization-machine based neural network for CTR prediction[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2017: 1725-1731.

[10] FREDRIKSON M, JHA S, RISTENPART T. Model inversion attacks that exploit confidence information and basic countermeasures[C]// Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2015: 1322-1333.

[11] HINDS J, WILLIAMS E J, JOINSON A N. “It wouldn’t happen to me”: privacy concerns and perspectives following the Cambridge Analytica scandal[J]. International Journal of Human-Computer Studies, 2020, 143: No.102498.

[12] SHOKRI R, STRONATI M, SONG C, et al. Membership inference attacks against machine learning models[C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 3-18.

[13] 熊平,朱天清,王晓峰. 差分隐私保护及其应用[J]. 计算机学报, 2014, 37(1): 101-122.(XIONG P, ZHU T Q, WANG X F. A survey on differential privacy and applications[J]. Chinese Journal of Computers, 2014, 37(1): 101-122.)

[14] 胡雨谷,葛丽娜. 一种改进的差分隐私参数设置及数据优化算法[J]. 计算机工程与科学, 2021, 43(10): 1758-1765.(HU Y G, GE L N. An improved differential privacy parameter setting and data optimization algorithm[J]. Computer Engineering and Science, 2021, 43(10): 1758-1765.)

[15] McSHERRY F, MIRONOV I. Differentially private recommender systems: building privacy into the Netflix Prize contenders[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2009: 627-636.

[16] REN J, XU X, YAO Z, et al. Recommender systems based on autoencoder and differential privacy[C]// Proceedings of the IEEE 43rd Annual Computer Software and Applications Conference. Piscataway: IEEE, 2019: 358-363.

[17] ZHU T, YE D, WANG W, et al. More than privacy: applying differential privacy in key areas of artificial intelligence[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(6): 2824-2843.

[18] ABADI M, CHU A, GOODFELLOW I, et al. Deep learning with differential privacy[C]// Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2016: 308-318.

[19] 张啸剑,孟小峰. 面向数据发布和分析的差分隐私保护[J]. 计算机学报, 2014, 37(4): 927-949.(ZHANG X J, MENG X F. Differential privacy in data publishing and analysis[J]. Chinese Journal of Computers, 2014, 37(4): 927-949.)

[20] BU Z, DONG J, LONG Q, et al. Deep learning with Gaussian differential privacy[J]. Harvard Data Science Review, 2020, 2(3): No.cfc5dd25.

[21] 李杨,温雯,谢光强. 差分隐私保护研究综述[J]. 计算机应用研究, 2012, 29(9): 3201-3205, 3211.(LI Y, WEN W, XIE G Q. Survey of research on differential privacy[J]. Application Research of Computers, 2012, 29(9): 3201-3205, 3211.)

[22] KINGMA D P, BA J L. Adam: a method for stochastic optimization[EB/OL]. (2017-01-30) [2023-08-03].https://arxiv.org/pdf/1412.6980.pdf.

[23] 李敏,李红娇,陈杰. 差分隐私保护下的Adam优化算法研究[J]. 计算机应用与软件, 2020, 37(6): 253-258, 296.(LI M, LI H J, CHEN J. Adam optimization algorithm based on differential privacy protection[J]. Computer Applications and Software, 2020, 37(6): 253-258, 296.)

[24] RENDLE S. Factorization machines[C]// Proceedings of the 2010 IEEE International Conference on Data Mining. Piscataway: IEEE, 2010, 995-1000

[25] YANG L, ZHENG W, XIAO Y. Exploring different interaction among features for CTR prediction[J]. Soft Computing, 2022, 26(13): 6233-6243.

Advertising recommendation algorithm based on differential privacy

TIAN Lei1,2, GE Lina2,3,4*

(1,,530006,;2,,530006,;3,,530006,;4(),530006,)

With the rapid development of the mobile Internet industry, user data and browsing data have increased significantly, so it is extremely important to accurately grasp the potential needs of users and improve the effect of advertisement recommendation. As a relatively advanced recommendation method at present, DeepFM model can extract various complexity features from the original features, but the model does not protect the data. In order to realize the privacy protection in DeepFM model, a new DeepFM model based on Differential Privacy (DP) was proposed, namely DP-DeepFM. The Gaussian noise was added to Adam optimization algorithm in the training process of DP-DeepFM and the gradient clipping was performed to prevent the addition of excessive noise causing poor model performance. Experimental results on advertising dataset Criteo show that compared with DeepFM, DP-DeepFM only has the accuracy decreased by 0.44 percentage points, but it provides differential privacy protection and is more secure.

Differential Privacy (DP); recommendation algorithm; gradient descent; deep learning; Adam optimization algorithm

1001-9081(2023)11-3346-05

10.11772/j.issn.1001-9081.2023010106

2023⁃02⁃10;

2023⁃04⁃10;

国家自然科学基金资助项目(61862007)。

田蕾(1998—),女,山东邹城人,硕士研究生,CCF会员,主要研究方向:差分隐私、推荐算法; 葛丽娜(1969—),女,广西环江人,教授,博士,CCF高级会员,主要研究方向:信息安全、机器学习。

TP302.1

A

2023⁃04⁃11。

This work is partially supported by National Natural Science Foundation of China (61862007).

TIAN Lei, born in 1998, M. S. candidate. Her research interests include differential privacy, recommendation algorithm.

GE Lina, born in 1969, Ph. D., professor. Her research interests include information security, machine learning.

猜你喜欢

差分扰动梯度
Bernoulli泛函上典则酉对合的扰动
一个改进的WYL型三项共轭梯度法
数列与差分
一种自适应Dai-Liao共轭梯度法
(h)性质及其扰动
一类扭积形式的梯度近Ricci孤立子
小噪声扰动的二维扩散的极大似然估计
用于光伏MPPT中的模糊控制占空比扰动法
基于差分隐私的大数据隐私保护
相对差分单项测距△DOR