基于图神经网络的视频推荐系统

2021-11-28高宸李勇金德鹏

中兴通讯技术 2021年1期

高宸李勇金德鹏

摘要：提出了一种基于图神经网络的视频推荐模型，将用户的视频观看序列型行为建模为图结构，用结点代表用户与视频，用边代表行为，引入两种类型的向量传播方法分别对用户的长期兴趣与短时兴趣进行建模。其中，通过用户结点与视频结点的双向传播刻画长期兴趣，借助视频结点切换关系的单向传播刻画短时兴趣，并通过多层向量传播实现对图上高阶邻接信息的捕捉。在一个真实世界的视频网站观看数据集上的实验表明，提出的方法与现有最佳方法相比，其推荐精准度得到了有效提升。进一步的实验表明，该方法能够有效缓解数据稀疏性的问题。

关键词：视频推荐系统；用户兴趣建模；图神经网络；深度学习

Abstract： A novel recommendation model with graph neural networks is proposed. Userssequential video-watching behaviors are first constructed as a graph， which represents users and videos as nodes， and behaviors as edges. Then two kinds of embedding propagation methods are introduced for capturing userslong-term and short-term preferences， respectively. Specifically， a user-item bi-directional embedding propagation layer is used for capturing long-term preferences while an item-item embedding propagation layer for capturing short-term preferences. Moreover， the multi-layer propagation is proposed to extract high-order connectivity. Experiments on a real-world video-watching dataset verify that the proposed method can outperform the state-of-the-art methods. Further experiments demonstrate that the proposed method can effectively alleviate the data sparsity issue.

Keywords： video recommender system； user preference modeling； graph neural network； deep learning

在信息超载时代，个性化推荐系统[1-2]成为用户获取信息的主要方式。推荐系统通过收集用户的历史行为来推断用户兴趣，进而生成推荐列表。与常见的电商网站推荐系统[3]不同，视频网站上的用户行为具有两个重要特性。首先，用户的视频观看行为呈现出高度的序列性。一段时间内浏览的视频表现出极高的相关性，且浏览的前后顺序十分重要，因此需要对用户行为进行序列化建模。其次，用户可能存在短期观看某一类/系列多个视频的“短时”兴趣，呈现出突发、多样的特点。因此，我们需要从长期兴趣与短时兴趣两方面对用户的兴趣进行细粒度化的建模。

针对序列化行为的推荐问题，现有的方法[4-6]仍然存在两部分缺陷。首先，仅仅使用权重或者卷积/循环神经网络对不同历史行为进行隐式建模的方法，缺乏对序列化行为中视频切换关系的显式建模；其次，目前的推荐方法没有考虑针对用户长期与短时兴趣的细粒度建模。本文中，我们设计了一种基于图神经网络的推荐模型，通过两种向量传播方式来分别对用户的长期兴趣和短时兴趣进行建模。此外，我们还引入了多层向量传播以捕捉图上高阶邻接信息。

1问题定义

视频推荐系统的目标是尽可能地满足用户的需求，即为用户推荐最符合其兴趣的视频。在视频推荐系统中，相关输入数据为用户历史视频观看的行为序列，其中，序列中的前后关系代表用户观看视频的先后顺序关系。输出数据则为可计算给定用户下一次观看给定视频的概率模型。在得到该模型后，我们可对所有候选视频进行概率计算，并按照概率预估值从大到小排序，得到推荐列表。

2方法设计

這里我们提出一种基于图卷积网络的视频（VGCN）推荐模型，具体如图1所示。该推荐模型主要由4个流程部分构成：构建包含用户视频结点与行为边的异构图、构建嵌入层以得到用户与视频的表征向量、设计向量以刻画用户的长期兴趣与短时兴趣、引入预测层得到用户观看视频的概率。

2.1异构图构建

图是一种具备强大数据表示能力的结构。在视频推荐系统中，一种直观并且有效的做法是，把用户与视频分别表示为图中两种类型的结点，并将用户的观看行为建模为图上的边。具体而言，我们构建异构图G=，其中，V表示所有结点的集合，E表示所有边的集合。同时集合V中有两类结点：用户结点u∈U与视频结点i∈I。集合E中有两类边：一类是用户与视频的交互边r∈R，其中rui代表用户u与视频i存在交互行为（观看）；另一类是视频切换边r∈T，其中tij代表视频i到视频j的切换行为，并且该边的权重由数据集中所有用户的切换次数决定。如果该权重为0，即边不存在，则代表没有用户产生从观看i切换到观看j的行为。总的来说，我们得到了包含两类结点与两类边的异构图。

2.2嵌入层

针对图的表征学习可定义为：通过机器学习的方法，为点、边或图学习其在低维空间的表征。该方法可以将高维的图数据转换为低维特征向量，实现预测、分类等任务[7]。在通用视频推荐任务中，由于用户画像、视频属性等数据较难收集，用户与视频一般而言仅有身份标识（ID）特征，即仅有用户与视频的原始编号。因此，我们针对ID特征设计适用于独热编码的嵌入层，为用户与视频分别建立嵌入矩阵P 与Q 。P 的维度为N乘以D，Q 的维度为M乘以D。其中，N为用户的数目，M为视频的数目。D为低维空间的维度，是一个可以调整的超参数，其过大的维度会带来过拟合问题，而过小的维度则存在欠拟合问题。

独热编码是一种仅有一个位置为1且其余位置为0的高维向量（值为1的位置即为原始编号）。用户独热编码的长度为N，视频独热编码的长度为M。在嵌入矩阵完成随机初始化后，模型的后续部分将从嵌入矩阵得到最终的预测结果。当基于预测损失的随机梯度下降时，嵌入矩阵即可从初始化的随机向量逐渐调整至可刻画用户与视频特征的高质量表征向量。

2.3向量传播层

我们首先建立了上述用户与视频的嵌入矩阵。该嵌入矩阵可以被视为第0层用户/视频向量。接着，我们设计向量传播层以利用图上的高阶邻接关系，以捕捉用户的长期与短时兴趣。图卷积网络是一类最典型的图神经网络[8]。向量传播是图卷积网络的核心模块，其核心思想是将向量传播给图上的邻居结点，以实现图结构邻接性到向量相似性的转化，并可通过多层向量传播实现对高阶邻接关系的建模。借助向量传播方法，图卷积网络在诸多任务上取得了当前最佳性能[8-9]。

在视频推荐系统中，需要对用户进行两方面的兴趣建模：长期兴趣与短时兴趣。其中长期兴趣侧重于用户较为固定的、不随时间变化的兴趣，短时兴趣则与之相反。具体而言，我们通过用户结点的表征向量對其长期兴趣进行建模，通过用户上一时刻交互的结点的表征向量对其短期兴趣进行建模。这种做法与用户长期兴趣与短时兴趣的物理意义相契合。

2.3.1长期兴趣向量传播层

总的来说，前文所述的向量操作实现了长时兴趣侧从低层向量到高层向量的计算方式。随着层数的逐渐提升，更高阶的邻接关系将会被提取至表征向量中。但值得一提的是，层数不能过高，这是因为向量传播可以被理解为一种局部图的近邻平滑作用，如果层数过深，则相当于实现了全局平滑，反而会使学习到的表征向量无效。

2.3.2短时兴趣向量传播层

上述长期兴趣向量传播层通过忽略序列关系的历史行为边传播，来刻画用户的长期兴趣。接着，我们进一步设计用于对用户的短时兴趣进行建模的向量传播方法。考虑到用户的短时兴趣与视频观看的切换行为需要相契合，我们采用基于视频切换行为的有向边来设计向量传播方法。换而言之，向量传播的路径就是上一个视频到下一个视频的有向边。由于此处不涉及用户结点的表征向量，因此，我们可以实现长期兴趣与短时兴趣的解耦建模。

2.4预测层

2.5训练方法

在获得对于任意给定用户与视频的观看概率预估后，我们基于对数损失函数进行优化。由于数据中仅记录了用户观看过的视频，即正样本，我们需要从未观看的视频中随机采集一些样本作为负样本。对于正样本而言，模型的预测结果要尽可能接近1；对于负样本，模型的预测结果要尽可能接近0。损失函数具体计算方式如公式（8）所示：

3实验验证

为了验证提出的VGCN方法的有效性，我们对真实视频观看数据集进行了推荐性能的验证。

3.1实验设置

3.1.1数据集

我们在一个视频网站上收集了2020年10月的用户视频观看行为数据。由于完整数据规模过大，我们随机选取了一部分用户。经过预处理后的数据，包括了60 813个用户与292 286个视频产生的14 952 659条观看记录。对于每一个用户而言，其观看记录为一条包含了若干个视频的序列。

3.1.2性能指标

视频推荐乃至通用推荐系统最常使用的指标为排序指标，其中最具代表意义的指标为特征曲线下方的面积（AUC）、平均倒数排名值（MRR）与归一化折损累计增益（NDCG）[10]。AUC可衡量模型对于所有正样本与负样本相对关系的区分能力，MRR衡量模型将正样本排在列表靠前位置的能力，NDCG则衡量模型排序结果与理想排序结果的距离。

3.1.3基线模型

我们选取两个极具竞争力的模型作为基线模型：卷积序列嵌入推荐模型（CASER）[5]与深度兴趣网络（DIN）[6]。其中，CASER通过卷积网络建模用户的行为序列，DIN通过注意力网络建模用户行为序列。

3.2推荐性能比较

我们首先对整体的推荐结果进行比较，如表1所示。

由表1可知，与现有模型相比，我们提出的VGCN模型在AUC、MRR、NDCG@1、NDCG@2等指标上，可以有效且稳定地提升推荐性能，且平均相对提升值约为1.7%。对于推荐系统模型而言，该提升值是显著的。

图2则展示了不同方法训练时的模型损失曲线。由图2可以看出，我们的VGCN方法可以取得更小的训练损失。

3.3稀疏度影响研究

在推荐系統尤其是视频推荐系统中，数据稀疏十分重要。具体而言，对于不同稀疏性的用户，能否均取得较好的效果，是衡量一个推荐模型好坏的重要指标。因此，我们将用户的历史交互行为数目分3组进行研究：0～50、50～200、200以上。每组均有足够的用户数目，以消除随机性。对于每组的用户，为计算其平均推荐精准度，我们选取了AUC与NDCG@2两个排序指标，具体结果如图3所示。

由图3可知，我们提出的VGCN方法在不同稀疏度的用户组里，均可取得有效且稳定的性能提升。这一结果进一步验证了VGCN方法的有效性。

3.4超参数影响研究

在模型训练的过程中，L2正则系数是一项重要的超参数，图4展示了不同L2正则系数对视频推荐性能的影响。根据图4可以看出，不论选择何种L2正则系数，我们提出的VGCN方法均可以取得最佳推的荐性能。此外，L2正则系数对于模型视频推荐精准度性能的影响较小，即模型对于该超参数的敏感度较低，这意味着模型不需要花费太多的调参时间与算力。

4结束语

视频推荐系统是提升用户视频观看体验的重要技术。本文设计了一种基于图神经网络的推荐模型，并通过两种向量传播方式对用户长期兴趣与短时兴趣建模。基于真实数据集的实验有效验证了整体推荐精准度与不同稀疏度用户推荐精准度的性能提升。同时，超参数影响的实验进一步验证了推荐精准度性能提升的稳定性。

致谢

本研究得到清华大学常健新同学的帮助，谨致谢意！

参考文献

[1]许海玲，吴潇，李晓东，等.互联网推荐系统比较研究[J].软件学报， 2009， 20（2）： 350-362. DOI： 10.3724/SP.J.1001.2009.03388

[2] LU J， WU D S， MAO M S， et al. Recommender system application developments： a survey [J]. Decision support systems， 2015， 74： 12-32. DOI： 10.1016/j.dss.2015.03.008

[3]朱岩，林泽楠.电子商务中的个性化推荐方法评述[J].中国软科学， 2009（2）： 183-192. DOI： 10.3969/j.issn.1002-9753.2009.02.022

[4] RENDLE S， FREUDENTHALER C， SCHMIDT- THIEME L. Factorizing personalized Markov chains for next-basket recommendation [C]// Proceedings of the 19th International Conference on World Wide Web. North CA， USA： ACMPress，2010.DOI：10.1145/ 1772690.1772773

[5] TANG J X， WANG K. Personalized top-N sequential recommendation via convolutional sequence embedding [C]//Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. Los Angeles， CA，USA：ACM，2018.DOI：10.1145/ 3159652.3159656

[6] ZHOU G R， ZHU X Q， SONG C R， et al. Deep interest network for click-through rate prediction [C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. NY， USA： ACM， 2018. DOI： 10.1145/3219819.3219823

[7] GOYAL P， FERRARA E. Graph embedding techniques， applications， and performance： a survey [J]. Knowledge-based systems， 2018， 151：78-94.DOI：10.1016/j.knosys.2018.03.022

[8]徐冰冰，岑科廷，黄俊杰，等.图卷积神经网络综述[J].计算机学报， 2020， 43（5）： 755-780. DOI： 10.11897/SP.J.1016.2020.00755

[9] KIPF T N， WELLING M. Semi-supervised classification with graph convolutional networks [C]//Proceedings of International Conference on Learning Representations. Toulon， France： University of Montreal， 2017

[10] MANNING D C， SCHüTZE H， RAGHAVAN P. Introduction to information retrieval [M]. Cambridge：CambridgeUniversityPress， 2008

作者简介

高宸，清华大学电子工程系在读博士研究生；主要研究领域为用户行为建模与挖掘。

李勇，清华大学电子工程系副教授；主要研究领域为网络科学、城市计算、用户行为建模与挖掘。

金德鹏，清华大学电子工程系教授；主要研究领域为网络科学、城市计算、用户行为建模与挖掘。