协同过滤推荐算法研究进展

2023-02-01凌婷

信息记录材料 2023年11期

凌婷

（广东交通职业技术学院广东广州 510800）

0 引言

随着时代的高速发展，大数据时代已经来临，信息呈几何级数爆炸性地增长，海量数据的出现造成了信息超载的现象。如果能对这些来源复杂、数量巨大的数据加以分析利用，肯定能够给人们的工作和生活带来诸多便利［1］。个性化推荐系统是解决信息超载现象的有力工具，通过对用户或项目的历史数据信息进行研究分析，统计各种用户的偏好，计算用户或项目之间的相似性，实现个性化推荐的目标。个性化推荐系统的核心是推荐算法，其中协同过滤推荐算法是应用最广泛的一种推荐算法［2］，因其不需要太多特定领域的知识和工程上容易实现等优点受到大量关注，成为国内外顶级期刊或会议近年来的热门话题之一。

面对海量数据的稀疏性、冷启动和可扩展性问题以及用户或项目之间相似性度量方法，许多国内外研究学者提出了一些处理方法对协同过滤算法进行了改进，本研究将通过对协同过滤算法的研究现状进行分析和比较，总结该研究领域的最新成果，并对该领域未来研究方向进行预测。

1 数据稀疏性问题

随着系统规模的扩充，系统中用户数和项目数快速上升，用户不可能对所有项目进行评分，从而导致用户项目评分矩阵容易产生高度的稀疏性，而协同过滤推荐算法依赖的正是不同用户项目评分矩阵来判断其相似性，稀疏的评分矩阵使得寻找用户或项目最近邻的准确度降低，从而导致推荐系统的推荐效果大打折扣。

过金超等［3］利用改进的奇异值分解（singular value decomposition，SVD）算法对用户评分矩阵进行降维，从而解决传统的协同过滤算法稀疏性较大的问题。韩亚楠等［4］结合用户评分均值，通过用户对项目的属性偏好和项目本身的流行程度计算用户对项目的偏好程度，填补评分矩阵中未评分项目。在相似度的计算和推荐过程中考虑用户兴趣随时间变化的影响，采用时间函数作为权重因子，引入偏好度，有效地缓解了数据稀疏性问题，同时提高了推荐的准确性。郁雪等［5］先对用户项目评分矩阵进行缺失值补充，然后使用主成分分析方法进行降维，再与K-means 聚类方法相结合，寻找目标用户的最近邻，最后对目标用户没有进行评分的项目加以预测，这种结合主成分降维和K-means 聚类的混合协同过滤推荐算法在一定程度上缓解稀疏性问题，提升了推荐精度。 Li 等［6］使用斜率-矩阵填充模型填充原始用户项目评分矩阵，然后使用主成分分析技术（principal components analysis，PCA）降低填充矩阵的维数，保留重要信息，并去除噪声信息。最后，运用二进制K-means 聚类算法模型对降维数据进行聚类处理，可以快速获得目标用户的最近邻，改善数据稀疏问题。李博［7］利用多层感知肌网络提取用户项目的属性特征与潜在特征相互间的高阶交叉特征，将用户和项目的偏差项引入神经网络推荐模型中，并结合二阶多项式回归分析方法建模，有效地缓解了数据稀疏性问题。

2 冷启动问题

当启动推荐系统不能获得充分数据时，推荐系统需要增加新物品而缺乏初始的评分数据信息、新用户缺少历史评分信息，协同过滤推荐算法都无能为力，系统不能做出准确的推荐，都属于冷启动问题。钟俊伟［1］采用跨域协同过滤推荐方式，建立基于谱聚类的跨域推荐算法模型，提取辅助域的有效信息，扩充目标域数据，从而改善系统冷启动问题，达到提升推荐效果的目标。 Chae 等［8］提出了一种通过冷启动用户或项目生成虚拟可信的邻居，并将其作为紧凑框架（compact framework，CF）模型的附加信息扩展到用户评分矩阵来解决冷启动问题。赵鲁涛等［9］针对新注册用户，采用K-means 聚类算法利用用户类别以及用户自然属性来构建用户画像，依据用户自然属性信息为新用户寻找最近邻居，新用户的初始信息用最新邻居的相关信息代替，能够有效解决冷启动问题。刘伟友等［10］先利用预处理后的用户评分矩阵及项目特征矩阵构建用户项目偏好矩阵，再将三者相结合作为算法输入，建立基于多源数据聚类与奇异值分解的混合推荐算法模型，改善了用户冷启动问题。周峰［11］针对推荐系统存在的冷启动问题，建立基于交替最小二乘（alternating least squares，ALS）与优化后的基于标签的推荐算法进行动态加权混合模型，从而估计用户对未知音乐的喜好程度，经过实验证明这种动态加权混合算法能够较好地解决用户冷启动问题。邹志琴［12］为了弥补新用户没有历史评分数据的问题，通过研究用户画像，将具有相似兴趣的用户利用邓氏灰色关联分析和最小距离聚类方法聚集到同一类中，再在小类中获取用户画像相似性，以解决新用户推荐问题。

3 可扩展性问题

随着系统中巨量数据呈指数级增长，数据存储日益困难，时间复杂程度也逐步提高，协同过滤推荐算法处理信息的计算资源消耗也逐渐增加，可扩展性问题也凸显出来，导致推荐的质量大打折扣。

Li 等［6］使用二进制K-means 聚类算法对降维数据进行聚类分析，只需要计算同一聚类用户之间的相似度，减少了用户之间相似度的计算，提升了算法的可扩展性。马鑫等［13］采用类目偏好和数据场聚类相融合的办法，建立协同过滤推荐算法模型，用户聚类的前端算法使用数据场，K-means 聚类算法的输入采用数据场的输出，从而提高了算法的稳定性和实时性，改善了算法的可扩展性问题。崔东方［14］通过对用户项目评分矩阵的非负矩阵分解，获得项目和用户的特征表示，再采用密度峰值聚类算法划分不同类型的用户，建立基于非负矩阵分解和密度峰值聚类的推荐算法模型，该模型可以缩短寻找最近邻的范围，提高算法的效率。武建新［15］提出一种融合LANDMARKS 和K-Means 聚类的可扩展方法，该方法可以减少用户相似度的计算次数，且不会产生额外的数据构建时间，在Movie Lens 数据集上的实验结果表明，能够有效提高算法的可扩展性。王娜［2］70采用基于Spark 大数据处理技术的协同过滤推荐算法，使得推荐算法的迭代过程效率提高，实现大规模数据集的存储和处理时能够更加高效可靠。

4 相似性度量方法的改进

传统的相似度计算方法有余弦相似度、皮尔逊（Pearson）相似度、杰尔德（Jaccard）相似度等［16］。这些传统的相似性度量方法都是在原始用户项目评分矩阵上计算的，因此计算的准确性取决于原始评分矩阵的准确性。如果原始的用户评分矩阵过于稀疏，数据的稀疏性会导致相似度计算得不准确，从而导致推荐质量下降。近年来，国内外学者提出了很多改进方法。王余斌等［17］将相似度分解为用户偏好和用户信任两方面，再利用参数α来均衡两者之间的重要程度，改进用户相似度的计算。因其引入了用户信任度，对用户相互间的相似度评价更多层次，从而能够得到更加精准的用户偏好模型。赵鲁涛等［9］为提升相似度的准确性，削弱稀疏数据对推荐精度的影响，提出了基于惩罚系数的相似度计算方法。赵永生［16］等为了解决用户评分差距过大对相似度计算带来的影响问题，采用平均评分修正因子衡量用户评分之间的差异；对热门商品利用热门商品惩罚因子降低其对相似度计算的影响，实验结果表明推荐准确性得到了提升。张瑞典等［18］等为修正出现不合理因素造成的不合理评分带来的偏差，提出基于评分矩阵多种维度的余弦相似度比较方法，结果表明推荐精度得到了显著提高，推荐评分的平均绝对偏差明显降低。

5 总结与展望

综上所述，在协同过滤推荐算法的研究中，人们试图通过改进各种机制、机制和算法来提高协同过滤算法的推荐质量。相比较而言，数据稀疏问题和相似度改进方法一直以来是协同过滤推荐算法研究的热点。针对数据稀疏的问题，使用K-means 降维、斜率矩阵填充、概率矩阵分解和时间衰减函数加权来提高协同过滤推荐算法的性能，但目前这些方法对于处理数据稀疏性问题存在一定局限性，且存在难以复现性，今后的研究方向可以考虑优化和改进各种算法对缺失数据进行填充，改进相似度的计算方法。

（1）在冷启动问题上，普遍采用提取辅助域、扩充目标域、引入惩罚系数、构建用户画像和动态加权混合等提高推荐结果的准确性。如何从多源异构数据中深入挖掘用户或项目间的隐含的复杂关系，构建用户画像，改进和优化算法，将是缓解冷启动问题下一步的研究方向。

（2）在可扩展性问题上，一类方法是采用并行计算，以提高算法的运行效率。另一类是采用离线方式，运用降维、分类等手段构建推荐模型，但存在一定的局限性。随着用户项目数的持续增加，亟待解决推荐系统中的可扩展性问题，使推荐效率更加高效可靠。基于机器学习算法和数据挖掘模型，结合大数据处理技术，为用户提供实时推荐，是今后处理可扩展性问题的研究方向。

（3）在相似度计算方面，引入了最近邻相似度、用户信任度、个人偏好和时间维度，以提高相似度计算的准确性，但依然存在一定的缺陷。在今后的研究中，可以考虑采取新相似性度量方法，在用户相似性计算公式中引入时间因子反映用户兴趣变化，结合用户信任度，并引入惩罚因子来降低共同评分项目很少的两个用户之间的相似度。

（4）在推荐算法方面，基于机器学习算法和数据挖掘模型的协同过滤推荐算法一定程度上能够解决数据稀疏性和可扩展性问题，能够提高推荐的精度，且机器学习与数据挖掘相融合的混合推荐算法相比单一推荐算法具有复杂性较低、精度较高的优点。但是大多数模型的可解释性较差，训练时间过长，可移植性差，有的模型只适用于特殊应用场景，大部分缺少对用户-项目间的交互信息方面学习的研究，这些都将成为下一步的研究方向。

在今后的研究中，应充分利用辅助信息，综合考虑用户间的信任度等因素，充分挖掘多源异构数据背后深层次的偏好特征，运用机器学习和数据挖掘相结合协同过滤推荐算法，建立更精准的用户偏好模型，提高模型的可解释性，从而进一步提高推荐系统的推荐效果和推荐精度。