异质信息融合网络嵌入的注意力偏好推荐方法

2021-11-12张月琴张泽华刘志鑫

计算机工程与应用 2021年21期

张杰，张月琴，张泽华，刘志鑫，雷祥

1.太原理工大学信息与计算机学院，山西晋中030600

2.太原清众鑫科技有限公司，太原020300

网络信息日益复杂，数据海量增长。如何迅速而准确地从冗杂数据中获取有效信息已成为当前的热点[1]。个性化推荐技术就是一种可用于解决海量数据信息过载问题的有效途径[2-3]。协同过滤[4-5]可通过对用户历史行为数据进行挖掘，来发现用户的喜好偏向，并对用户倾向的产品进行筛选与预测。然而，面对数据规模快速增长，以及日益复杂的推荐问题，传统协同过滤算法存在一些无法回避的问题：仅考虑用户和项目间的交互矩阵。同时，对于用户数据稀疏以及冷启动推荐问题[6]也缺少有效的解决策略。

因此，国内外诸多学者开始结合异质信息网络（Heterogeneous Information Network，HIN）进行融合推荐。Gao等人[7]结合HIN提出充分挖掘网络中隐藏的上下文信息来提高推荐性能。吴宾等人[8]通过融合多关系数据和视觉信息的多源异构信息来最大化提升推荐性能。Hu等人[9]则考虑多种类型的外部关系提出了在HIN上基于语义偏好的个性化推荐。Gao等人[10]考虑引入特征向量和时间权重函数的多信息源融合的推荐算法来提高Top-N推荐的准确度。Zhao等人[11]则考虑HIN中用户行为和商品信息中复杂关联提出利用不同关系的重要性来提升推荐性能。

此外，由于元路径（Meta path）可以有效刻画对象间的语义关系，并抽取对象间的特征信息。如图1所示，从图中网络模式（Network schema）可抽取该异质网络中两元路径，其中U、M、A分别表示用户、电影和演员。显然基于不同的元路径，对象之间的语义不同。Sun等[12]最早提出使用元路径来针对异质网络信息中的相似性搜索进行Top-N推荐。Shi等人[13]提出了通过基于元路径的随机游走网络嵌入方法学习HIN中用户和项目的潜在表示用于推荐。Yin等人[14]通过在源域和目标域中建立基于元路径的HIN嵌入实现跨域推荐。Philip SYu课题组[15]结合异质信息网络提出异构神经注意因子分解机模型用于从元路径中提取特征来提升推荐性能。Hu等人[16]使用异构信息网络中基于上下文的元路径和共同关注机制的神经网络模型建立推荐系统。

图1 网络模式与元路径Fig.1 Network schema and Meta path

以上方法多致力于利用辅助信息将异质网络融入推荐过程。但当前也存在一些挑战：首先，基于HIN的主流推荐算法中，大多基于元路径的相似度刻画HIN中的语义关联，往往不能直接用到推荐中，之前的方法利用线性加权的方法将该相似度与矩阵分解相结合，不能很好地利用语义关联中的复杂关系，导致可解释性缺失（Lack of interpretability）；其次，针对信息有缺失，利用异质信息，但局部推理可能会有冲突，导致稀疏不一致性（Sparse inconsistency）；进而无法充分挖掘用户潜在的偏好特征，且有效地进行特征融合。

针对上述这些问题，本文提出了一种在异质信息网络中融合网络嵌入的注意力偏好推荐方法（Attention preference recommendation methods with fusing heterogeneous information network embedding，MFFHINE）。首先，在对称元路径上使用随机游走策略生成节点序列，利用Skip-Gram模型学习用户的偏好表示；其次，通过基于注意力的偏好权重融合技术将各条Meta-path生成的偏好特征有机融合；最后，将融合的用户偏好因子集成到矩阵分解模型中，用于最终的评分预测任务。

本文的主要工作概括如下：

（1）针对传统矩阵分解的可扩展性问题，提出了一种异质信息融合网络嵌入的注意力偏好推荐方法，通过联合优化矩阵分解模型和融合函数，可有效利用属性信息。

（2）针对可解释性缺失问题，采用了一种以对称元路径为指导的随机游走策略，充分挖掘异质信息网络中语义关联所隐藏的复杂关系。

（3）针对异质信息中局部存在稀疏不一致性问题，给出了一种基于注意力机制的融合策略，将不同权重元路径产生的偏好特征有机融合。

1 相关概念

1.1 异质信息网络

高维、稀疏和多种类型是异质信息网络的数据特征，这使得必须提供元级别（例如模式级别）的描述，才能更好地了解HIN中的对象类型和链接类型。因此，研究人员提出了网络模式的概念来描述网络的元结构。

定义1异质信息网络及网络模式（Network schema）[17]。HIN是一个有向图G={V,E}以及一个对象类型映射函数φ:V→A和一个链接类型映射函数ψ:E→ℕ，其中V和E分别表示节点集和边集，A和ℕ表示预定义对象和链接的集合类型网络模式表示为S=(A,ℕ)。它是信息网络G={V,E}的元模板，是一个以对象类型A为节点，关系ℕ为边的有向图。

在HIN中，通过不同的语义连接两个或多个对象的路径称为元路径。

定义2元路径（Meta path）[12]。元路径ρ定义在网络模式S=(A,ℕ)上，并表示为在形式上的一条路径（缩写为它描述对象之间的复合关系ℕ=ℕ1∘ℕ2∘…∘ℕl，其中∘表示对象关系运算符。

其中，图1中的{UMDMU}、{UMAMU}这些具有相同开始和结束的对象类型元路径称为对称元路径。

1.2 网络嵌入

定义3网络嵌入[18]。给定一个网络G={V,E}，网络嵌入的目标是学习到一个映射函数f:V→Rd将网络中的每个节点ν∈V映射到低维空间Rd中，其中

网络嵌入[19]作为网络表征学习的方法旨在将网络中的每个节点映射为低维空间上的特征向量，并保持节点之间的连接关系（即保存结构信息）。对于异质信息网络而言，除了结构信息，捕获丰富的语义信息对基于异质网络的推荐系统也至关重要。

1.3 矩阵分解

矩阵分解（Matrix Factorization，MF）其基本思想是，从评分矩阵R中学习用户和项目在低维隐空间上U和V对应的优化模型为公式（1）：

2 异质信息网络嵌入与推荐模型MFFHINE

本章将分别介绍异质信息网络嵌入过程和在异质信息网络中如何融合网络嵌入进行矩阵分解推荐。异质信息网络嵌入过程如图2所示。

图2 MFFHINE模型中的异质信息网络嵌入Fig.2 Heterogeneous information network embedding in MFFHINE model

2.1 异质信息网络嵌入

受网络嵌入的最新进展启发[19]，本文采用表征学习方法来提取和表示异质信息网络中蕴含的属性信息以供推荐。给定一个异质信息网络G={V,E}，其目标是学习每个节点ν∈V的低维表示δν∈Rd（也称为网络嵌入）。其中，δν是节点ν的低维表示，d为异质信息网络嵌入的维度。学习到的低维表示可以高度概括HIN的结构信息和语义信息，有助于在异质信息上进行推荐。

但是，其中部分网络嵌入方法主要关注在同质网络上，导致无法有效地对异质网络进行建模来挖掘语义关联中的复杂关系。另外，一些异质信息网络嵌入方法没有考虑各条元路径对用户的潜在影响，即如何融合各条

元路径所产生的用户偏好特征。

2.1.1 基于对称元路径的随机游走

在异质信息网络的文献中，元路径[12，20]是描述其语义模式的重要概念。而对称元路径[9]所表示的语义信息可以很好地刻画对象间的语义关系。因此，使用基于对称元路径的随机游走方法生成节点序列。给定一个异质信息网络G={V,E}和一条元路径ρ:A1→ℕ1A2→ℕ2…→ℕl Al+1，游走路径是根据公式（2）分布生成的，游走概率为：

其中，νi是游走中的第i个节点，Ai+1表示节点νi+1的对象类型集合，ΦAi+1(νi)表示节点νi的一阶邻居集，其类型为Ai+1。游走将重复遵循元路径的模式直到达到预定步长，这样一来就可以产生一条在不同类型的节点之间且能同时捕捉到网络结构信息以及语义的路径。

使用上面的方法，路径很可能包含不同对象类型的节点，需要进一步过滤对象类型不同于起始对象类型的节点，这样，最终节点序列将仅包含起始对象类型的节点数。接下来，本文将学习同构序列的有效表示。

2.1.2 优化目标

给定一条元路径，可以基于固定长度窗口中的共现为节点νi构造邻域Φ(νi)。遵循node2vec[21]，本文通过采用Skip-Gram来学习节点表示形式，不同于原本每个训练样本更新所有的权重，负采样每次让一个训练样本仅仅更新一部分的权重，这样就可以降低梯度下降过程中的计算量。使用负采样的方式，以优化以下目标：

其中，f:ν→Rd是一个函数（旨在学习），将每个节点映射到d维特征空间，Φ′(νi)为节点νi的负样本。本文通过应用随机梯度下降（SGD）来优化此目标，从而学习嵌入映射函数f。

2.1.3 特征融合

本文所提出的模型中，给定一个节点ν∈V，就可以获得一组特征表示，其中N表示元路径集合，表示第τ条元路径上节点ν的特征表示。如何将学习到偏好特征进行融合对提高推荐性能至关重要。现有研究大多没有考虑各条元路径对用户的潜在影响，导致无法模拟用户对元路径的个性化偏好，进而无法获得有效的用户偏好因子以进行推荐。注意力机制[22]学习基于不同元路径的权重，聚合来自基于各条元路径的邻居节点的特征来生成节点嵌入。因此，本文提出了一种偏好权重融合技术。

给定第τ条元路径上用户u潜在因子f(τ)u，通过使用公式（4）计算第τ条元路径上用户u的注意力得分其中，M(U)∈RF×d和b(U)∈RF分别表示用户潜在因子的权重矩阵和偏置向量，F为偏好因子维度，d为网络嵌入维度。

通过使用等式（5）给出的Softmax函数对上述注意力得分进行归一化，可以得出用户潜在因子在对称元路径上的最终注意力权重。

其中，N表示元路径集合表示用户u在第τ个元路径上的偏好权重。

最终，用户的融合函数分别如公式（6）所示：

2.2 推荐模型MFFHINE

根据上一节，已经学习到了如何从HIN中提取和表示用户的偏好特征和进行特征融合。接下来本文研究如何利用融合的用户偏好因子进行推荐。

2.2.1 评分预测

在推荐系统中，一种有效的方法是分解用户-项目评分矩阵。其基本公式假设采用以下模型来预测用户u对项目i的偏好：

其中，m是全局偏置，bu和bi分别为用户和项目的偏差项，gu∈RD和gi∈RD分别表示用户u和项目i的特征潜在因子，D为潜在因子维度。

HIN中包含丰富的语义信息，通过异质信息网络嵌入方法，最终获得用户的偏好因子(f(U)u)，将其融入到评分预测中，本文的扩展预测模型采用以下形式：

其中，m，bu，bi，gu和gi与公式（7）相同来自于公式（6），表示用户u的偏好因子，fi是对应的项目特定潜在因子。接下来，可以引入一个偏置项b′，其与的内积模拟项目的整体属性，朝着给定用户的兴趣偏好发展。综上所述，最终的预测公式为：

整个模型框架的具体步骤如以下算法所示：

算法：模型MFFHINE

输入：评分矩阵R；

元路径集合N；

在步骤1~7中，通过执行异质信息网络嵌入来获得融合用户因子。在步骤8~14中，通过联合优化融合用户因子和矩阵分解模型，得到预测评分值。

2.2.2 模型学习

将融合的用户因子集成到矩阵分解框架中，以学习模型的参数。本文采用SGD来优化以下目标：其中，x̂u,i是公式（9）预测的评分值，上式中的第1项(x̂u,i-xu,i)表示预测评分值与真实评分值的误差，第2、3、4和5项用于控制模型的复杂度以避免模型过拟合，l、αw、bf、bb分别为矩阵分解、用户偏好因子、项目偏好因子以及偏置项的正则化参数，用于平衡上述公式的贡献度。

2.2.3 模型复杂度分析

模型MFFHINE包括两个主要的组成部分：

（1）异质信息网络嵌入。DeepWalk的复杂度为Ο(d⋅|V|)，其中d是网络嵌入维度，|V|是网络中的节点数。因此，单个元路径下用户的嵌入复杂度分别为Ο(d⋅|U|)，其中，|U|是网络中用户的节点数。由于选择元路径个数为|N|，所以异质信息网络嵌入的总复杂度为Ο(|N|⋅d⋅|U|)。

（2）矩阵分解。对于每个三元组，更新γu、γi、fi和b′需要Ο(D)的时间复杂度，其中D为潜在因子维度。更新的时间复杂度为在推荐模型中，||N通常较小，并且d和D最多为几百，这使得该方法在大型数据集上有效。特别地，SGD具有非常好的实践表现，它在本文数据集上具有很快的收敛速度。

3 实验及结果分析

为验证本文所提算法的有效性，在三个真实大规模数据集上进行实验，与其他推荐算法进行横向比较分析，在本文所提算法的参数上进行纵向分析来验证模型MFFHINE性能。

3.1 数据集

本文使用三个数据集来验证模型的有效性。表1列出了这三个数据集的详细说明。此外，这些数据集都包括用户和项目的社会关系及属性信息。同时还具有不同的评分稀疏度：Yelp数据集非常稀疏，而Douban Movie数据集则更密集。

表1 实验数据集统计Table 1 Statistical analysis on experimental datasets

3.2 评价指标

本文在衡量推荐性能时，为体现预测评分的准确度使用两个通用指标来评估不同方法的性能，即均值绝对误差（MAE）和均方根误差（RMSE）。MAE和RMSE定义分别如公式（11）和（12）所示：

其中，xu,i是用户u对项目i的实际评分，x̂u,i是模型的预测评分，Htest表示表示测试集评分记录。从定义中可以看到MAE或RMSE值越小，表示性能越好。

3.3 实验设置

为了验证本文所提出模型的性能，在MAE和RMSE两个指标上，同以下算法进行了比较：

（1）PMF[23]：经典的概率矩阵分解模型，通过将用户-项目评分矩阵显式分解为两个低维矩阵。

（2）SoMF[24]：将社交网络信息融入推荐过程，社会关系以正则化项形式集成到基本矩阵分解模型。

（3）HERec[13]：基于HIN嵌入提出的推荐模型，它利用基于元路径的算法来获取异质信息丰富的语义信息。

（4）HecRec[14]：通过在源域和目标域中建立基于元路径的HIN嵌入实现跨域推荐。

（5）HetNERec[25]：通过从面向推荐的HIN中提取多个共现关系来构造共现网络，将多个网络嵌入式表示形式集成到单个表示形式中，以增强推荐性能。

本文选择的元路径包含用户、项目及相关实体的属性信息，对于实验的三个数据集，表2中详细列出了选定的元路径。

表2 对称元路径例子Table 2 Symmetric Meta path examples

通过比较MFFHINE与各基准算法的不同变化来验证其有效性。为了对各基准算法进行公平地比较，本文中所有实验均使用相同参数设置。潜在因子维度均固定为D=10。对本文提出的MFFHINE模型方法，设置异质信息网络的嵌入维度d=64，用户偏好因子F=10，正则化系数l、αw、bf、bb值分别为0.02、0.001、0.002和0.1。本实验中，选择在基于对称元路径的基础上使用随机游走策略作为异质信息网络嵌入方法，因此固定窗口大小为5和步行长度为10以强调局部结构。

对于每个数据集，需要将整个评分记录分为一个训练集和测试集。针对Douban Movie和Book数据集，设置四个训练比例，如{80%，60%，40%，20%}；而对于Yelp数据集，考虑数据较稀疏，则设置了四个较大的训练比例，如{90%，80%，70%，60%}。训练集数据80%意味着需要从用户-项目评分矩阵中选择80%的评分作为训练数据，以预测剩余20%评分。对于每个比例，随机生成十个评估集。在三个真实数据集上验证本文提出的模型。

3.4 实验结果

实验结果和实验性能比较分别在图3和图4中所示。具体分析如下：

图4 在三个数据集上评分预测的性能改进比较（以PMF模型为基线）Fig.4 Comparison of performance for rating predictions on three data sets（The PMF model is regarded as baseline of test）

基准评测比较。基于异质信息网络的推荐方法（HERec、HecRec和HetNERec）性能要明显优于传统基于MF的方法（PMF和SoMF）。特别是在Yelp数据集上表现地更为明显，如图3（c）中所示，在所有的训练集比例数据中，基于MF方法其MAE和RMSE的值大于所有基于HIN的方法（值越大表示性能越差），这表明融合异质信息网络对提升推荐质量有促进作用，更深层次的原因是异质信息网络中大多数原始特征是用户或项目的属性信息，它们可能包含有用的证据以改善推荐性能。

图3 在三个数据集上的有效性实验结果Fig.3 Effectiveness experimental results on three datasets

算法性能提升。如图4所示，以PMF模型为基线，提出的模型算法MFFHINE在各项测试上始终优于对照的其他方法。与其他基于HIN的方法相比，MFFHINE采用基于注意力机制的偏好权重融合策略将学习到的各个偏好特征有效融合，并将其集成到矩阵分解模型中，通过联合优化矩阵分解模型和融合函数，以改进推荐系统性能。MFFHINE的优势在训练数据较少的情况下改善效果更优。例如在Yelp数据集上使用60%训练集数据，就性能指标MAE和RMSE而言，MFFHINE对PMF的提升率分别高达32%和37%，相对于HetNERec也分别提高了4%和3%。

通过比较本文实验使用的三个不同数据稀度的数据集发现，数据越稀疏，模型MFFHINE的性能越好，原因是由于在异质信息网络中，数据集越稠密，局部推理越可能发生冲突，导致稀疏不一致性，进而无法充分挖掘用户潜在的偏好特征，影响推荐性能。与最新的算法Het-NERec比较，如图3（a）、（b）所示，MFFHINE性能不差于HetNERec。而在图3（c）上，MFFHINE性能要优于HetNERec。

3.5 元路径设置对模型性能的影响

为了进一步分析不同元路径对推荐系统模型性能的影响，需要将这些元路径逐渐纳入到所提出的模型中，并检查性能变化。

如图5所示，通常情况下，在选定的元路径集合中，每条元路径包含的用户和项目属性信息不同，通过合并更多的元路径，增加模型的信息增益，进而提高系统性能（MAE和RMSE值越小，性能越高）。但是，Douban Movie数据集在纳入{UMTMU}元路径时性能略有波动，原因是某些元路径可能包含噪声或与现有路径信息冲突。

图5 逐渐合并元路径时模型的性能变化Fig.5 Effect of merging meta-paths on algorithm performance

3.6 重要参数对模型性能的影响

基于矩阵分解的推荐系统方法，潜在因子维度是要调整的重要参数，本文模型也包含这样的参数。设置将其从5改变到50，以5为步长，并检查性能如何随潜在因子维度而变化。潜在因子维度在80%训练集数据上对性能的影响如图6所示，对于Douban Movie和Douban Book数据集而言，潜在因子维度为10会达到最佳性能，而Yelp数据集潜在因子维度为15会达到最佳性能。

图6 潜在因子维度的性能变化Fig.6 Impact of latent factors’dimensions on recommendation performance

最后，本文研究迭代次数对于性能变化的影响。迭代次数在80%训练集数据上对性能影响的结果图7所示，MFFHINE模型的收敛速度较快，并且密集数据集（Douban Movie和Douban Book）大约需要30次迭代，而稀疏数据集（Yelp）只需要约15次迭代即可。

图7 迭代次数的性能变化Fig.7 Impact of iterations of MFFHINE on recommendation performance

4 结束语

本文提出了一种在异质信息网络中融合网络嵌入的注意力偏好推荐新方法。通过选择对称元路径进行网络嵌入来有效刻画对象间的语义关系，是对可解释性缺失的一种有益补充；给出的偏好权重融合策略，可将基于不同元路径所产生的用户潜在的偏好特征融合到统一的框架中，是对稀疏不一致性问题的有效缓解。在大规模真实数据集上与各基准算法比较，实验结果表明：MFFHINE算法能准确地预测不同类型物品的实际评分；同时，模型在训练集比例、元路径设置、潜在因子维度和迭代影响等方面的实验结果也表明其有效性。

此外，现实存在的复杂问题如：网络链路含有属性值的加权异质信息网络、元路径选择和受限等，给异质信息网络建模与分析提出了更多的挑战。未来的工作将进一步考虑扩展元路径的语义抽取能力，及利用神经网络图模型等来构造异质网络的表征学习方法来面向网络复杂异构，探讨如何深度融合结构信息与其他模态信息进行特征抽取。