APP下载

融合知识图谱和差分隐私的新闻推荐方法

2022-06-21王利娥李小聪刘红翼

计算机应用 2022年5期
关键词:特征向量差分图谱

王利娥,李小聪,刘红翼

(1.广西师范大学 计算机科学与工程学院,广西 桂林 541004;2.广西多源信息挖掘与安全重点实验室(广西师范大学),广西 桂林 541004)(∗通信作者电子邮箱redwing33@sohu.com)

融合知识图谱和差分隐私的新闻推荐方法

王利娥1,2,李小聪1,刘红翼2*

(1.广西师范大学 计算机科学与工程学院,广西 桂林 541004;2.广西多源信息挖掘与安全重点实验室(广西师范大学),广西 桂林 541004)(∗通信作者电子邮箱redwing33@sohu.com)

针对现有融合知识图谱和隐私保护的推荐方法不能有效平衡差分隐私(DP)噪声与推荐系统性能的问题,提出了一种融合知识图谱和隐私保护的新闻推荐方法(KGPNRec)。首先,采用多通道知识感知的卷积神经网络(KCNN)模型融合新闻标题、知识图谱中实体和实体上下文等多维度的特征向量,以提高推荐的准确度;其次,利用注意力机制为不同敏感程度的特征向量添加不同程度的噪声,从而降低噪声对数据分析的影响;然后,对加权的用户特征向量添加统一的拉普拉斯噪声,以保证用户数据的安全性;最后,在真实的新闻数据集上进行实验分析。实验结果表明,与隐私保护的多任务推荐方法(PPMTF)和基于深度知识感知网络(DKN)的推荐方法等相比,所提KGPNRec在保护用户隐私的同时能保证方法的预测性能。在Bing News数据集上,所提方法的曲线下面积(AUC)值、准确率和F1分数与PPMTF相比分别提高了0.019、0.034和0.034。

知识图谱;差分隐私;推荐系统;新闻;卷积神经网络

0 引言

随着互联网和智能终端技术的发展,在线新闻网站和移动应用如必应新闻、今日头条受到了广泛的欢迎。由于网络上每天需要发布大量的新闻文章,使得在线新闻平台上的用户面临着严重的信息过载问题。由于不同的用户会偏好于不同的新闻信息,因此,个性化新闻推荐已作为一种提高用户体验度的有效工具,受到了学术界和工业界的高度关注。

在新闻推荐系统的相关研究中,许多方法都是基于深度学习(Deep Learning, DL)技术来实现对用户和新闻信息的建模[1-5]。其中,大部分工作都是将新闻内容或者标题表征为新闻向量,将用户的历史行为数据表征为兴趣向量,然后根据这两个特征向量来预测用户对某个新闻的点击概率。然而,由于新闻是高度浓缩的,其中包含大量的知识实体,如果仅仅从语义层面来对新闻信息进行建模,不能充分挖掘出新闻之间潜在的知识层面的关联[6]。而知识图谱(Knowledge Graph, KG)作为一种有效的辅助工具,能够准确地描述实体之间的复杂关联。近年来,已有研究者将知识图谱作为信息描述工具引入到推荐系统中,以便更深层次地发现用户的兴趣,提高推荐精准性和多样性[7-9]。然而,融合知识图谱的推荐系统通过更多辅助信息的关联,虽然能有效提高推荐结果的精度,但引入的关联也给攻击者提供了更多的背景知识,面临着更为严重的隐私安全问题。这是因为在推荐系统中为用户进行个性化推荐时,用于分析的用户历史行为数据可以体现用户的兴趣爱好,包含大量的敏感信息,一旦这些数据被攻击者获取,将对用户造成不可预估的后果。

差分隐私(Differential Privacy, DP)作为一种有效的隐私保护方法,在攻击者有很强的背景知识的情况下,仍然可以有效抵御各种攻击。很多研究提出将差分隐私应用到协同过滤推荐算法中进行隐私保护,如Boutet等[10]提出了一种基于差分隐私的矩阵分解算法,该算法通过在用户评级数据和随机梯度下降过程中增加满足不同隐私预算的噪声来保护隐私;但是,该方法仅适用于单一的矩阵分解推荐场景中。Yu等[11]提出了一种隐私保护的多任务推荐方法(Privacy-Preserving Multi-Task recommendation Framework, PPMTF),该方法将噪声添加到梯度下降过程和多任务模型的相关性参数中,提高推荐系统的效率和安全性;但是,该方法需要将知识图谱特征学习模块和推荐模块交替地进行学习,会增加大量的时间开销。另外,由于该方法在每次迭代训练过程中都对梯度添加拉普拉斯噪声,会导致噪声不断地累加,影响最终模型的准确率,并不适用于单任务新闻推荐过程。

因此,针对现有的方法不能有效均衡拉普拉斯噪声与推荐系统效率的问题,本文提出了一种融合知识图谱和隐私保护的新闻推荐方法(News Recommendation method with Knowledge Graph and Privacy protection, KGPNRec),将一种二阶段隐私保护方法应用于单任务新闻推荐场景中,能在保证推荐准确性的同时有效保护用户的隐私安全。在该方法中,为了保证推荐系统的预测精度,在前期的知识图谱表示学习过程中并未添加噪声,所以学习得到的实体向量和关系向量更加准确;在后期的推荐任务中,差分隐私机制被添加到与大量个人隐私数据相关联的特征向量中,并且为了减少噪声的添加,利用注意力机制为特征向量添加不同程度的噪声。

本文的主要工作如下:

1)提出了一种差分隐私保护方法,能适用于融合知识图谱的新闻推荐系统。该方法不仅融合新闻标题和用户实体特征向量,还能有效融合实体上下文的特征向量,提高了推荐结果的准确率。

2)基于差分隐私,设计了一种二阶段隐私保护机制,能同时兼顾推荐的精确度和隐私的安全性。具体来说,在第一阶段中考虑用户特征的重要性,提出将拉普拉斯噪声添加到与用户历史敏感数据高度相关的特征向量中,并根据不同的敏感程度分配不同的隐私预算;在第二阶段基于差分隐私模型添加相应噪声以保证数据的安全性。该机制不仅能保证重要的用户特征添加的噪声更少,确保了推荐结果的准确性,还能保护用户的隐私安全。

1 相关工作

推荐系统的隐私保护要求推荐系统不向推荐服务提供商或攻击者暴露用户相关的隐私信息,包括用户历史数据训练集的隐私、预测模型的隐私和推荐结果的隐私。目前推荐系统中的隐私保护技术可分为基于数据扰动[10,12-14]的方法和基于全同态加密的方法[15]两类。其中,基于全同态加密的方法主要思想是利用公钥全同态加密使用户的历史数据不可见,将密文上传到推荐服务器上,并基于其全同态性质在密文域上训练出一个模型并计算预测结果。这类方法虽然能在一定程度上解决推荐系统可用性与隐私性的统一问题,但存在密文上的模型训练问题和计算复杂度问题。而基于数据扰动的技术则主要是利用各类加法扰动或乘法扰动方法对其拥有的数据集实现隐私保护,其中最具有代表性的方法是差分隐私。

差分隐私具有严格的数学定义和最强的背景知识假设,已成为目前推荐系统中主流的隐私保护方法。Berlioz等[12]提出了三种将差分隐私应用到矩阵分解的技术,并且评估了每种方法对隐私保护和推荐结果精确度的权衡效果。Wang等[14]通过向预测模型训练过程中添加拉普拉斯噪声,提出了基于近邻关系的隐私保护推荐系统,与Berlioz等[12]提出的方法相比,具有更高的推荐精确性。Meng等[16]提出了一种隐私保护的社交推荐方法,通过对用户的评分数据和社交关系进行隐私保护建模,将不同强度的噪声添加到敏感和非敏感的训练数据集中,能够有效地抵御不可信的推荐服务器与恶意用户发起的攻击。

将知识图谱融合到推荐系统中,能有效地提高推荐精度,已成为了学术界的研究热点。但是,推荐系统作为一种机器学习模型,在模型训练过程中仍然会有隐私泄露的风险,因为攻击者可以通过各种攻击手段对学习模型进行攻击,如成员推理攻击[17]、模型提取攻击[18],从而窃取隐私。Yu等[11]提出了将差分隐私用于知识图谱增强的多任务推荐模型中,通过在梯度下降过程和模型训练的相关参数添加拉普拉斯噪声达到保护隐私的目的。但是,该方法的缺点是在每次迭代训练过程中,都需要优化两个子任务,即知识图谱表示学习和推荐,而且该方法在每次迭代过程中都对梯度添加拉普拉斯噪声,会导致噪声不断地累加,影响最终模型的准确率。因此,本文面向融合知识图谱的新闻推荐系统提出一种新的隐私保护方法。不同于已有的方法,本文方法通过在包含敏感数据的特征向量中添加噪声,来取代在迭代训练的梯度中加入噪声,以避免在模型训练过程中梯度噪声的累加效应,能有效提高数据的效用性。

2 预备知识和问题定义

2.1 差分隐私

差分隐私是一种隐私保护方法。差分隐私的思想是:对于只相差一条记录的两个相邻数据集,查询它们获得相同值的概率非常接近。这样,恶意攻击者就不能推算出某条目标记录是否存在于数据集中,其形式化定义如下。

定义2 全局敏感度[19]。对于查询函数,对于任意的相邻数据集和,的全局敏感度为:

定义3 拉普拉斯机制[19]。给定任意查询函数,其全局敏感度为,如果算法的输出结果满足式(3),则称算法满足差分隐私。

定义4 序列组合性质[19]。给定一个数据集,假设有一组算法,如果算法满足差分隐私,则这些算法的组合满足差分隐私。

2.2 知识图谱

知识图谱本质是一种异构信息网络,常用于表示实体之间的复杂关系,网络中的节点表示实体,节点间的边表示实体间的关系。知识图谱可以形式化表示为三元组,其中,表示头实体,表示尾实体,代表实体间的关系。

3 融合知识图谱和隐私保护的新闻推荐

3.1 系统框架

KGPNRec在保护系统数据隐私性的同时,还能保证推荐结果的预测准确性。KGPNRec的框架如图1所示,该框架可分为两个模块:推荐模块和隐私保护模块。

图1 KGPNRec框架Fig. 1 Framework of KGPNRec

在融合知识图谱的推荐模块,为了融入更多的辅助信息到新闻推荐任务中,本文借助知识图谱表示学习方法,不仅能够得到实体的嵌入信息,还能获得完整的与实体相关的上下文信息。然后,将这两个特征向量与候选新闻的词向量输入到多通道卷积神经网络(Convolutional Neural Network, CNN)中,得到每条新闻的表征向量,再利用注意力机制对用户的点击历史在候选新闻上的兴趣进行加噪建模,并得到加噪的用户潜在特征向量。最后,根据用户特征向量和候选新闻特征向量预测用户的点击概率。

在隐私保护模块,为了保护用户的隐私,本文添加服从拉普拉斯分布的随机噪声到用户特征向量中。首先,为了提高数据的效用性,本文根据不同的权重对用户所有点击新闻的特征向量添加不同维度的噪声。因为用户所有点击新闻的特征向量反映了用户不同的偏好特征,而基于注意力机制得到的权重反映了用户对于不同新闻的兴趣程度,权重越大表示用户的点击新闻对候选新闻的影响程度越大,即用户对当前新闻的偏好程度越大。然后,对累加求和得到的用户特征向量中添加统一的噪声,进一步确保推荐过程中不会泄露用户隐私。在整个过程中,添加的噪声满足差分隐私。

3.2 融合知识图谱的推荐模块

知识图谱通常是由知识图谱表示学习方法进行预处理的,本文采用经典的知识图谱表示学习方法TransD[20]来学习实体和关系的特征向量。现如今大多数知识图谱表示学习方法都能很好地学出知识图谱中的结构信息,改善推荐的效果,但本文考虑到在新闻推荐这个特殊的场景中,新闻标题中可能会包含多个实体,不同新闻标题中的多个实体间存在关联性,用户在点击某条新闻后也可能对其他包含相关实体的新闻产生兴趣。所以,为了融合更多辅助信息,本文除了融合知识图谱的结构信息外,还从知识图谱中提取出每个实体的上下文信息,即知识图谱中每个实体的一跳邻居节点的信息。实体的上下文信息形式化表达为:

对于三种表征信息,即新闻标题的表示向量、实体的表示向量、实体上下文的表示向量,为了将它们结合,通常的做法是采用拼接策略。然而,这种方式存在一定的缺点:首先,直接拼接会打破新闻标题的词语与知识图谱中实体的关联;另外,单词的表示向量和对应实体的特征向量由不同的方式得到,所以在单一的特征空间中对它们进行卷积并不适合;其次,直接对表征向量进行拼接的前提是它们具有相同的维度,但实际上单词和实体的特征向量的最佳维度并不相同。所以,本文利用多通道知识感知的卷积神经网络(multi-channel Knowledge-aware Convolutional Neural Network, KCNN)模型[8]来融合词的知识信息和语义信息。

每个新闻标题转换后的实体特征向量和上下文特征向量分别表示为和,是连续的转换函数。将三个特征向量联合起来作为KCNN的输入,表示为:

对以上卷积层的输出,采用最大池化提取特征中最重要的信息:

最后,将所有的特征进行拼接作为KCNN模型的输出,即输入的新闻标题的特征表示为:

为了得到用户的潜在特征向量,本文利用注意力网络[5,8]预测用户的兴趣。因为用户在阅读新闻时带有明显的倾向性,即一个用户阅读过的文章会属于某些特定的主题,所以本文利用用户点击过的新闻记录预测其对于候选文章的兴趣。本文使用一个神经网络模型和softmax激活函数来计算用户的历史阅读记录对当前候选新闻的影响权重:

得到用户的潜在特征向量和候选新闻的潜在特征向量后,将它们进行拼接并输入到另一个神经网络中,得到点击概率:

3.3 隐私保护模块

如图1所示,灰色填充表示本文的隐私保护部分。本文将隐私保护机制分为两个阶段,总的噪声不超过隐私预算。首先,对经过注意力模型得到的特征向量添加拉普拉斯噪声。现有的研究一般做法是对这些特征向量添加相同维度的噪声,但本文考虑了用户特征的重要程度,基于注意力权重对这些特征向量分配不同的隐私预算,因为这些用户的偏好向量中,注意力权重更高的特征对用户的影响更大,因此基于注意力机制来添加不同程度的噪声能有效地提高数据的效用性,保证最终模型的推荐效果。算法设计如算法1所示,其中特征向量的全局敏感度计算如下:

然后根据注意力权重对这些特征向量分配不同的隐私预算,对于那些权重大的特征向量,分配更大的隐私预算,添加更少的噪声。因此,每个特征向量对应的隐私预算可计算如下:

根据定义3,每个特征向量经过扰动后得到的结果如下:

此外,为了确保推荐过程中不会泄露用户隐私,在第二阶段,进一步对累加求和得到的用户特征向量添加噪声。结合式(11)可得扰动后的用户特征向量如下所示:

算法1 KGPNRec。

1)初始化超参数;

2)对知识图谱进行特征学习得到实体的嵌入和关系的嵌入,对新闻标题进行表示学习得到对应的词向量;

3)根据式(4)~(5)计算实体的上下文特征向量;

11)根据式(9)、(12)、(16)计算用户对候选新闻的点击概率。

4 实验与结果分析

本文基于真实的数据集进行实验来验证本文方法的有效性。实验操作系统为Ubuntu18.04 LTS,CPU为Intel Xeon Gold 6230 CPU@2.10 GHz,显卡型号为Tesla V100-FHHL,采用Tensorflow深度学习框架。

4.1 数据集

本文在公开的新闻数据集Bing News[8]和MIND(MIcrosoft News Dataset)上进行模拟实验。其中Bing News数据采集自Bing News在线网站, MIND(https://msnews.github.io)来自Microsoft News用户的行为日志,知识图谱通过Bing知识库构建。Bing News中每条阅读记录主要包括时间戳、新闻url、用户id和点击数量(1表示点击过、0表示未点击),MIND数据集包含2019年10月12日到11月22日之间由用户产生的阅读数据,每条日志包含用户的id、时间戳、用户的点击历史和交互行为标签。数据集和提取出的知识图谱的基本信息如表1所示。

表1 数据集和知识图谱的统计信息Tab. 1 Statistics of datasets and knowledge graphs

4.2 对比方法

为了更好地验证本文方法的性能与效果,将本文提出的KGPNRec和与本文方法相近的研究成果[8,11,21]进行对比。本文选择TransD[20]作为知识图谱表示学习方法来学习实体和上下文的表示向量,使用Adam优化器来优化目标损失函数,设置词向量的维度和实体表征的维度为128,新闻标题最大长度为10,卷积核的数量为128,学习率为0.01,为了避免过拟合,设置正则化项权重为0.01。

1)深度知识感知网络(Deep Knowledge-aware Network, DKN)[8]是一种用于新闻推荐的网络模型,将它作为本文推荐精确度的基线。与该方法进行比较,以验证本文方法在进行隐私保护后是否仍能保证推荐的准确率。在该方法的实验设置中,词向量的维度和实体向量的维度为128,卷积核的数量为128。

2)KPCNN(Knowledge Powered Convolutional Neural Network)[21]是一种基于卷积神经网络的文本分类方法,它将单词对应的实体表示为潜在向量,将实体向量与新闻标题的词向量进行拼接作为新闻的向量表示。用多层感知机模型来对用户特征和候选新闻特征进行训练,得到用户的点击概率,将该方法作为本文推荐精准度的基线,词向量和实体向量的维度为128。

3)PPMTF[11]是一种隐私保护的多任务框架,被应用于知识图谱增强的推荐系统中,将它作为验证本文隐私安全程度的基线。在该方法的实验设置中,将词向量的维度和实体向量的维度设置为128。

4.3 评价指标

1)AUC。

ROC(Receiver Operating Characteristic)的曲线下面积(Area Under Curve, AUC)是分类模型的常用评估指标,它的值为ROC曲线覆盖的区域面积,通常介于0.5~1.0,反映了分类器分类结果的准确性。AUC越接近1.0,表明模型分类的真实性越高。由于本文方法主要应用于点击率预测场景,因此使用AUC评估算法的性能。

2)Accuracy。

Accuracy是分类模型中广泛使用的评估指标,它反映的是模型分类的准确率,表示的是预测正确的样本数占总预测样本数的比值。Accuracy值越大,表明模型预测的结果越准确。

3)F1-score。

F1分数(F1-score)是一种分类模型中常用的评估指标,它是精确率(Precision)和召回率(Recall)的调和平均数,它的值介于0~1,反映了分类器的分类结果的准确性。F1-score越接近1.0,表明模型分类的精确度越高。由于本文方法主要应用于点击率预测场景,因此使用F1-score评估推荐算法的性能。

4.4 结果分析

1)不同方法在推荐性能方面的对比。

该部分主要考察不同方法在不同数据集上的推荐性能,以验证本文方法在进行隐私保护后仍能保证推荐的准确率。图2给出的是使用Bing News数据集时,本文方法KGPNRec与DKN、KPCNN、PPMTF在为1.0、不同epoch时的对比结果。

从图2中可以看出,在训练到第8个epoch时,模型逐渐拟合,本文方法与没有进行隐私保护的融合知识图谱的推荐方法DKN相比,预测准确率、精准度和AUC三项指标的差值都不超过0.01,所以二者的性能总体上不相上下,虽然偶尔DKN的精度更高,不过这是由于本文方法中添加的噪声对结果造成的数据损失所导致的。尽管本文方法对数据的扰动造成了一定的信息损失,但从结果可以看出,与没有进行隐私保护的KPCNN方法相比,KGPNRec的预测准确率仍然较优,这是因为KGPNRec融合了知识图谱中实体上下文的特征信息,而且在使用新闻和实体的特征向量进行训练时,不是简单地对向量进行拼接,这也表明了本文方法中使用的KCNN模型要优于KPCNN模型。另外,与隐私保护的多任务推荐方法相比,在10个训练epoch中,KGPNRec的预测准确率有7次提高超过0.02,当模型收敛后,KGPNRec的预测准确率相较PPMTF提高了0.034。

图2 Bing News数据集上不同方法的性能对比Fig. 2 Performance comparison of different methods on Bing News dataset

另外,根据图2(b)、(c)可以看出,KGPNRec的预测精确度和AUC值相较PPMTF分别提高0.034和0.019,表明本文方法能够较好地改善数据的效用性,提供精确的推荐服务。

图3给出了在MIND数据集上,本文方法与DKN、KPCNN、PPMTF在为1.0、不同epoch时的实验结果。从图3中可以看出,这四种方法在该数据集上的性能总体趋势和在数据集Bing News上大体相似,这也说明了本文方法的性能在不同数据集上都有优势。

图3 MIND数据集上不同方法的性能对比Fig. 3 Performance comparison of different methods on MIND dataset

2)隐私预算对推荐结果的影响。

由图4可以看出,当隐私预算为0.5时,意味着模型中注入了最大的噪声,这时本文方法在测试集上的预测准确率仍然比隐私保护的多任务方法的准确率高,并且随着隐私预算的增大,模型中注入的噪声减少,准确率逐渐提高,当隐私预算大于2.0时,模型的预测精度基本不再上升,并且与未实现隐私保护的DKN相比,KGPNRec所能达到的最大预测准确率与DKN相差无几,这表明本文方法在保护隐私的同时能有效地保证模型的预测性能。从图4(b)可以看出,当隐私预算大于1.5时,KGPNRec的预测准确率已经明显高于KPCNN,表明当模型中添加较少的噪声时,本文方法的性能要优于KPCNN。

图4 不同隐私预算下不同方法的性能对比Fig. 4 Performance comparison of different methods under different privacy budgets

3)模型中变量对推荐结果的影响。

为了进一步验证模型中变量对推荐结果的影响,本文针对KGPNRec的各种变体在隐私预算为1.0时进行实验对比。其中,KGPNRec-attention表示没有使用注意力机制来动态地分配隐私预算的方法,TransE[22]+KGPNRec、TransH[23]+KGPNRec和TransR[24]+KGPNRec分别表示在KGPNRec中使用不同的知识图谱表示学习方法来得到实体向量,结果如表2所示。

从表2的结果可以看出,通过注意力机制的权重来动态地为特征向量分配隐私预算,可以提高数据的效用性,使推荐系统的性能得到较大的提升。另外,在使用不同的知识图谱表示学习方法得到特征向量时,基于TransD方法的推荐效果比其他的方法更好,这可能是因为TransD方法比另外三种知识图谱表示学习方法更加复杂,在用于新闻推荐的场景下能学习到更好的非线性关系。

综上可知,相较于PPMTF、KPCNN等现有方法,本文所提推荐方法的预测结果更加安全可靠,分析其原因在于:一方面,本文方法基于多通道卷积神经网络融合多维度的特征向量,有效地提高了推荐的准确度;另一方面,本文设计的两阶段隐私保护机制能够在保护隐私安全的同时降低对数据的影响。

表2 KGPNRec中采用不同变体时的性能对比Tab. 2 Performance comparison among KGPNRec with different variants

5 结语

本文以融合知识图谱的新闻推荐系统为研究基础,针对用户关注的数据泄露和隐私保护问题,将差分隐私应用到知识图谱增强的新闻推荐方法中,从而提出了一种融合差分隐私和知识增强的新闻推荐方法。该方法适用于新闻推荐场景,并通过实验验证了其在保护数据隐私安全性的同时能保证推荐结果的效用性。未来的工作将进一步考虑如何在提供隐私保护的前提下优化推荐算法以降低计算开销,从而实现推荐精度、算法性能和隐私保护之间的平衡。

[1] OKURA S, TAGAMI Y, ONO S, et al. Embedding-based news recommendation for millions of users [C]// Proceedings of the 2017 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017: 1933-1942.

[2] DE SOUZA PEREIRA MOREIRA G. CHAMELEON: a deep learning meta-architecture for news recommender systems [C]// Proceedings of the 2018 12th ACM Conference on Recommender Systems. New York: ACM, 2018: 578-583.

[3] WU C H, WU F Z, AN M X, et al. NPA:neural news recommendation with personalized attention [C]// Proceedings of the 2019 25th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2019: 2576-2584.

[4] ZHANG L M, LIU P, GULLA J A. Dynamic attention-integrated neural network for session-based news recommendation [J]. Machine Learning, 2019, 108(10): 1851-1875.

[5] WANG X J, YU L T, REN K, et al. Dynamic attention deep model for article recommendation by learning human editors’demonstration [C]// Proceedings of the 2017 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017:2051-2059.

[6] 田萱,丁琪,廖子慧,等.基于深度学习的新闻推荐算法研究综述[J].计算机科学与探索,2021,15(6):971-998.(TIAN X, DING Q, LIAO Z H, et al. Survey on deep learning based news recommendation algorithm [J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(6): 971-998.)

[7] MA W Z, ZHANG M, CAO Y, et al. Jointly learning explainable rules for recommendation with knowledge graph [C]// Proceedings of the 2019 World Wide Web Conference. New York: ACM, 2019:1210-1221.

[8] WANG H W, ZHANG F Z, XIE X, et al. DKN:deep knowledge-aware network for news recommendation [C]// Proceedings of the 2018 World Wide Web Conference. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2018: 1835-1844.

[9] SHI C, HU B B, ZHAO W X, et al. Heterogeneous information network embedding for recommendation [J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(2): 357-370.

[10] BOUTET A, FREY D, GUERRAOUI R, et al. Privacy-preserving distributed collaborative filtering [J]. Computing, 2016, 98(8):827-846.

[11] YU B, ZHOU C Y, ZHANG C, et al. A privacy-preserving multi-task framework for knowledge graph enhanced recommendation [J]. IEEE Access,2020, 8:115717-115727.

[12] BERLIOZ A, FRIEDMAN A, KAAFAR M A, et al. Applying differential privacy to matrix factorization [C]// Proceedings of the 2015 9th ACM Conference on Recommender Systems. New York: ACM, 2015: 107-114.

[13] LIU Z Q, WANG Y X, SMOLA A. Fast differentially private matrix factorization [C]// Proceedings of the 2015 9th ACM Conference on Recommender Systems. New York: ACM, 2015: 171-178.

[14] WANG J, TANG Q. Differentially private neighborhood-based recommender systems [C]// Proceedings of the 2017 IFIP International Conference on ICT Systems Security and Privacy Protection, IFIPAICT 502. Cham: Springer, 2017: 459-473.

[15] RAMAKRISHNAN N, KELLER B J, MIRZA B J, et al. Privacy risks in recommender systems [J]. IEEE Internet Computing, 2001, 5(6): 54-63.

[16] MENG X Y, WANG S H, SHU K, et al. Personalized privacy-preserving social recommendation [C]// Proceedings of the 2018 32nd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018: 3796-3803.

[17] SHOKRI R, STRONATI M, SONG C Z, et al. Membership inference attacks against machine learning models [C]// Proceedings of the 2017 IEEE Symposium on Security and Privacy. Piscataway: IEEE, 2017: 3-18.

[18] TRAMÈR F, ZHANG F, JUELS A, et al. Stealing machines learning models via prediction APIs [C]// Proceedings of the 2016 25th USENIX Security Symposium. Berkeley: USENIX Association, 2016: 601-618.

[19] DWORK C. A firm foundation for private data analysis [J]. Communications of the ACM, 2011, 54(1): 86-95.

[20] JI G L, HE S Z, XU L H, et al. Knowledge graph embedding via dynamic mapping matrix [C]// Proceedings of the 2015 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1:Long Papers). Stroudsburg: ACL, 2015: 687-696.

[21] WANG J, WANG Z Y, ZHANG D W, et al. Combining knowledge with deep convolutional neural networks for short text classification [C]// Proceedings of the 2017 26th International Joint Conference on Artificial Intelligence. California: IJCAI Organization, 2017: 2915-2921.

[22] BORDES A, USUNIER N, GARCIA-DURÁN A, et al. Translating embeddings for modeling multi-relational data [C]// Proceedings of the 2013 26th International Conference on Neural Information Processing Systems. Red Hook: Curran Associates Inc., 2013: 2787-2795.

[23] WANG Z, ZHANG J W, FENG J L, et al. Knowledge graph embedding by translating on hyperplanes [C]// Proceedings of the 2014 28th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2014: 1112-1119.

[24] LIN Y K, LIU Z Y, SUN M S, et al. Learning entity and relation embeddings for knowledge graph completion [C]// Proceedings of the 2015 29th AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2015: 2181-2187.

News recommendation method with knowledge graph and differential privacy

WANG Li’e1,2, LI Xiaocong1, LIU Hongyi2*

(1.School of Computer Science and Engineering,Guangxi Normal University,Guilin Guangxi541004,China;2.Guangxi Key Laboratory of Multi‑Source Information Mining and Security(Guangxi Normal University),Guilin Guangxi541004,China)

The existing recommendation method with knowledge graph and privacy protection cannot effectively balance the noise of Differential Privacy (DP) and the performance of recommender system. In order to solve the problem, a News Recommendation method with Knowledge Graph and Privacy protection (KGPNRec) was proposed. Firstly, the multi-channel Knowledge-aware Convolutional Neural Network (KCNN) model was adopted to merge the multi-dimensional feature vectors of news title, entities and entity contexts of knowledge graph to improve the accuracy of recommendation. Secondly, based on the attention mechanism, the noise with different magnitudes was added in the feature vectors according to different sensitivities to reduce the impact of noise on data analysis. Then, the uniform Laplace noise was added to weighted user feature vectors to ensure the security of user data. Finally,the experimental analysis was conducted on real news datasets. Experimental results show that, compared with the baseline methods such as Privacy-Preserving Multi-Task recommendation Framework (PPMTF) and recommendation method based on Deep Knowledge-aware Network (DKN), the proposed KGPNRec can protect user privacy and ensure the prediction performance of method. For example, on the Bing News dataset, the Area Under Curve (AUC) value, accuracy and F1-score of the proposed method are improved by 0.019, 0.034 and 0.034 respectively compared with those of PPMTF.

knowledge graph; Differential Privacy (DP); recommender system; news; Convolutional Neural Network (CNN)

TP309

A

1001-9081(2022)05-1339-08

10.11772/j.issn.1001-9081.2021030527

2021⁃04⁃08;

2021⁃07⁃07;

2021⁃07⁃07。

广西自然科学基金资助项目(2020GXNSFAA297075);广西多源信息挖掘与安全重点实验室系统性研究课题基金资助项目(19⁃A⁃02⁃02);广西师范大学院级研究生创新项目(JXXYYJSCXXM⁃006)。

王利娥(1981—),女,湖南邵阳人,教授,硕士,CCF会员,主要研究方向:分布式系统、网络安全、隐私保护、推荐系统; 李小聪(1996—),男,湖北黄冈人,硕士研究生,主要研究方向:数据隐私、推荐系统; 刘红翼(1969—),女,广西桂林人,副教授,硕士,主要研究方向:数据隐私、教育信息、数据库。

This work is partially supported by Guangxi Natural Science Foundation (2020GXNSFAA297075), Systematic Research Project Fund of Guangxi Key Laboratory of Multi-Source Information Mining and Security (19-A-02-02), School-Level Post Graduate Innovation Project of Guangxi Normal University (JXXYYJSCXXM-006).

WANG Li’e, born in 1981, M. S., professor. Her research interests include distributed system, network security, privacy protection, recommender system.

LI Xiaocong, born in 1996, M. S. candidate. His research interests include data privacy,recommender system.

LIU Hongyi, born in 1969, M. S., associate professor. Her research interests include data privacy, education information, database.

猜你喜欢

特征向量差分图谱
“植物界大熊猫”完整基因组图谱首次发布
基于伪谱法的水下航行体快速操舵变深图谱研究
一类分数阶q-差分方程正解的存在性与不存在性(英文)
高中数学特征值和特征向量解题策略
一个求非线性差分方程所有多项式解的算法(英)
三个高阶微分方程的解法研究
图表
一类caputo分数阶差分方程依赖于参数的正解存在和不存在性
基于差分隐私的数据匿名化隐私保护方法
氨基酸序列特征向量提取方法的探讨