融合邻域结构信息的概率矩阵分解算法

2022-08-23张洪为

通化师范学院学报 2022年8期

张洪为

随着Web2.0 技术的迅速发展，在线信息呈爆炸式增长，推荐系统已成为帮助用户有效找到所需信息的重要工具［1］. 推荐系统旨在为用户提供符合他们偏好的物品，如产品或服务. 协同过滤是推荐系统中最流行的技术［2］，它利用收集到的具有相似行为的其他用户的历史评分记录为目标用户生成推荐［3］.早期的协同过滤方法主要是基于邻域的方法［4］，其更关注物品之间或用户之间的关系，现在已逐渐演化为基于模型的方法，涉及机器学习技术，如矩阵分解［5-7］，概率模型［8］和深度神经网络［9］等. 概率矩阵分解（Probabilis‐tic Matrix Factorization，PMF）［6］是一种最具代表性的矩阵分解方法，它假设观测到的评分服从高斯分布，然后通过最大化用户和物品特征的对数后验，来学习用户和物品特征.PMF 方法的实质是将用户/物品评分矩阵分解为两个低秩矩阵，然后利用它们的乘积来对用户/物品评分矩阵进行重构，进而实施推荐.然而，PMF 方法仅利用了用户与物品的交互信息，没有利用用户/物品的邻域结构信息，即用户与用户以及物品与物品的相似性关系，限制了模型的推荐性能.

为解决上述问题，本文提出一种融合邻域结构信息的概率矩阵分解算法（简称GPMF），该算法将PMF 模型与包含用户和物品邻域结构信息的图正则化项整合到一个统一的优化问题中. 然后利用一种迭代优化算法对该优化问题进行求解. 在两个真实数据集上的实验结果验证了该方法的有效性.

1 概率矩阵分解

给定一个用户-物品评分矩阵R∈ℝM×N，其中Rij表示第i个用户对第j个物品的评分，推荐系统的任务是对R中的缺失评分进行预测，然后将预测评分高的物品推荐给相应的用户. 概率矩阵分解算法是一种有效的协同过滤算法，其目标是将R分解为两个低秩矩阵U∈ℝM×k和V∈ℝN×k，分别称为用户的潜在偏好矩阵和物品的潜在特征矩阵，其中k表示用户的潜在偏好个数或物品的潜在特征个数. 求解U和V等价于求解如下优化问题

其中：I是指示矩阵，表示用户是否对物品进行了评分，如果第i个用户对第j个物品进行了评分，则Iij= 1，否则Iij= 0.⊙表示矩阵按元素相乘.‖ ⋅‖F为Frobenius 范数.λ为控制约束对模型复杂度影响的正则化参数.

通过对U和V进行梯度下降，能够找到式（1）的局部最小值. 然后，推荐可由下式给出

2 融合邻域结构信息的概率矩阵分解

概率矩阵分解方法的本质是利用用户的潜在偏好向量Ui·（U的第i行）与物品的潜在特征向量Vj·的内积来对R中的未知评分进行建模，它仅利用了用户与物品的交互信息，而没有使用用户与用户，以及物品与物品的相似性关系，限制了模型的推荐性能. 本文将用户图和物品图的图正则化整合到概率矩阵分解模型中，以进一步提升模型的推荐性能.

2.1 图正则化

图正则化［10-11］已被广泛应用于降维、聚类和半监督学习中，融合邻域结构信息的用户图和物品图的图正则化可分别定义为：

式中：Ri·和R·j分别表示用户-物品评分矩阵R的第i行和第j列.

2.2 图正则化概率矩阵分解

将包含用户和物品邻域结构信息的图正则化项引入到概率矩阵分解模型中，能使模型在学习的过程中保持用户之间和物品之间固有的相似性信息，进而提升推荐的性能. 为此，将图正则化项整合到概率矩阵分解模型中，得如下优化问题其中：α为控制图正则化对概率矩阵分解影响的图正则化参数.

利用梯度下降法可得学习模型的迭代算法如下：

其中：η为学习率.

3 实验

3.1 数据集

本文采用两个真实的数据集Netflix 和MovieLens20M 来评价所提出的基于图正则化的概率矩阵分解算法.Netflix 数据集包含了100 480 507 个评分，由480 189 名用户对17 770部电影上给出，其值包含在集合{1，2，3，4，5}中.MovieLens20M 数据集包含20 000 263 个评分，由138 493 名用户在26 744 部电影上给出，其值包含在集合{0.5，1，1.5，…5}中，本文将其规范化到{1，2，3，4，5}. 随机提取Netflix或MovieLens20M 数据集上5 000 名用户对5 000部电影的密集评分矩阵R，然后将R随机划分为训练集Rta和测试集Rte，分别包含50% 的评分. 让Rte保持不变，分别从Rta中随机提取1%，1.5% 和2% 的评分用于训练.

3.2 评价标准

本文采用广泛使用的平均绝对误差（MAE）和均方根误差（RMSE）作为评价标准，分别定义为

3.3 实验结果与分析

本文使用AG 方法（即利用观测评分的平均值来预测未知评分）及PMF 方法与所提出的GPMF 方法进行对比，三种方法在Netflix 子集和MovieLens20M 子集上的对比结果如表1和表2 所示. 从中可以看到，相比于对比方法，所提出的GPMF 方法在两个真实数据集的三个不同密集度上，实现了最好的推荐性能.验证了将包含用户/物品邻域结构信息的图正则化项整合到概率矩阵分解模型中，能够进一步提炼用户和物品的潜在因子，实现推荐性能的提升.

表1 三种方法在Netflix 子集上的性能比较

表2 三种方法在MovieLens20M 子集上的性能比较

4 结语

本文针对概率矩阵分解算法未利用用户/物品邻域结构信息影响推荐性能的问题，提出一种融合邻域结构信息的概率矩阵分解算法，该算法将概率矩阵分解模型与包含用户和物品邻域结构信息的图正则化项整合到一个统一的优化问题中，以对用户和物品潜在因子作进一步提炼，实现推荐性能的提升. 在两个真实数据集上的实验结果验证了所提算法的有效性和稳定性.