融合跨平台用户偏好与异质信息网络的推荐算法研究
2024-12-31张雪毕达天陈功坤等
关键词: 推荐算法; 跨平台; 异质信息网络; 用户偏好; 深度学习
DOI:10.3969 / j.issn.1008-0821.2024.09.003
〔中图分类号〕G252.0 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 09-0031-11
随着社交网络用户规模的急剧扩张和数据资源的爆炸性增长, 推荐系统被广泛地应用在各大社交网络平台, 成为解决信息过载问题的有效途径。同时, 用户不再局限于利用单个社交平台的信息, 而是在不同社交平台间进行切换和转移以满足不同的服务需求[1] , 形成相应的跨平台行为。用户跨平台数据的迁移共享为个性化推荐服务带来了崭新的机遇与挑战, 跨平台推荐系统以同一用户作为连接源平台与目标平台的桥梁, 使用用户在源平台中的信息丰富目标平台的数据, 辅助模型在目标平台的精准推荐[2-3] 。但是, 跨平台多源信息间存在交叉关联、重复错节的关系, 对用户模糊性和多样化的信息偏好进行准确识别和融合的难度较大[4-5] 。面向跨平台异质环境的用户偏好融合与信息推荐研究仍然有大量的理论和关键技术亟待解决。
跨域推荐融合多个辅助领域的信息, 通过知识迁移解决目标领域的数据稀疏问题, 可以提供更加合理和个性化的推荐服务[3] 。在跨域推荐的相关研究中, 学者通常平行地在每个领域场景训练模型,或者通过联合协同过滤矩阵、共享参数或共享数据等方法训练一个多领域共享模型来实现信息的跨域流动[5] 。前者忽略了用户、项目和内容层面的跨域关联, 后者对于不同场景下大规模特征的共性和差异性解读与探索存在明显不足[6] 。多数研究基于用户与推荐项目之间的历史交互数据来建模用户兴趣,对跨平台多源异构的辅助信息的利用尚不充分[7] ,针对异质性、大规模和分布不均的跨平台用户数据缺少通用的特征提取和迁移融合方法[8] 。
跨平台数据对于推荐系统具有重要意义, 然而现有关于融合跨平台异构数据的信息推荐框架仍不够完善。鉴于此, 本文将跨平台的多领域异质信息引入推荐系统, 提出融合跨平台用户偏好与异质信息网络的推荐算法(CPHAR), 旨在全面挖掘跨平台数据要素价值, 缓解由数据分布不均产生的稀疏性和用户冷启动问题。本文顺应情报学领域的研究发展趋势, 强调多源异构信息的集成整合与融合统一[9] 。研究成果将为应对推荐系统实际应用中面临的跨平台数据的复杂特点和解决跨平台信息推荐的瓶颈问题提供新的思路, 为实现深度挖掘跨平台数据内的巨大价值提供新的解决途径, 进一步提升推荐的效率和准确度。本文的主要贡献如下:
1) 本文考虑到不同平台知识独立性和服务差异性的存在, 在跨平台用户异质信息融合的基础上开展推荐研究, 通过构建用户跨平台的核心兴趣朋友圈, 结合卷积神经网络和注意力机制建模用户跨平台的信息偏好, 实现了对目标平台冷启动用户进行特征增强的目的, 为跨平台多源异构数据的融合和迁移提供了新的解决方案。
2) 本文通过提出合理的关系剪枝和补全策略,使用异质图注意力网络(Heterogeneous Graph Atten⁃tion Network, HAN)提升对异质节点特征的聚合能力。跨平台用户核心兴趣朋友圈有效地降低了网络的噪声与差异, 从语义层面和用户行为的角度建立项目的隐式关联, 为模型提供了更为全面和深入的推荐依据。
3) 优化了矩阵分解模型。经典的矩阵分解模型仅使用用户和项目之间的交互信息来学习对应的潜在因子, 对于冷启动用户和未知项目的特征提取能力较弱。本文利用神经网络模型将跨平台用户偏好和异质信息网络中的高阶特征纳入模型之中进行联合矩阵分解, 增强模型的预测能力。
1相关研究
经典的推荐模型包括基于内容的过滤、协同过滤和混合推荐[10] , 通常依赖于用户与推荐项目丰富的历史交互进行推荐。大数据环境下稀疏的高维数据以及不断涌入系统的新用户和新项目使传统模型的局限性逐渐突出[11] 。学者们通过引入文本、图像、标签、知识图谱等辅助信息, 来解决推荐系统存在的上述问题[12-13] 。李丹阳等[4] 通过神经网络融合多源信息构建项目特征体系, 结合加权矩阵分解的潜在因子向量预测用户对项目的偏好。丁浩等[14] 使用漂移矩阵捕获用户兴趣随时间的动态变化, 提出一种基于时序漂移的潜在因子分解模型。钱聪等[15] 考虑到用户兴趣的遗忘, 在丁浩等[14] 的基础上结合用户多重偏好特征时间权重对模型进行改进。Yang M 等[16] 提出, MMDIN 使用多模态模块提取图像特征, 利用多头注意力机制从不同维度提取特征, 增强了模型的交叉组合和预测能力。为提升推荐算法的时间效率和可扩展性, Das J 等[17]在Voronoi 图的基础上提出了一种基于分区的推荐方法, 在每个分区中单独执行协同过滤算法, 将基准协同过滤算法的运行时间缩短了至少65%, 而且保证了较好的推荐质量。
跨域推荐将用户兴趣和项目特征在不同领域之间进行融合, 通过用户偏好的跨域转移解决单域推荐的数据稀疏和冷启动问题[18-19] 。Zhang Q 等[20-21]认为, 直接将源领域的评分模式转移到无重叠的目标领域可能会导致负迁移, 采用领域自适应函数确保转移知识的一致性, 并使用内核诱导的知识转移方式来对具有部分用户重叠的目标领域进行推荐。Zhao C 等[19] 提出一种基于方面级转移网络的跨领域推荐框架, 从评论文档中提取用户和项目抽象的方面级特征, 利用重叠用户的方面特征来识别全局跨域方面相关性, 以更细的粒度揭示跨领域用户的方面级联系。Xu Z 等[5] 提出一种基于层次超图网络的相关偏好转移框架, 包括动态项目转移和自适应用户聚合两个核心模块, 模型将多域用户项目交互表示为一个统一的超图, 利用超边来建立跨领域关系和获取相关知识。
异质信息网络在网络拓扑层面对系统中包含的异质辅助信息进行整合和利用, 为推荐算法的进一步优化创造了新的可能性[7,22] 。异质信息网络中不同类型的节点和链接代表了不同类型的对象和关系,集成了更为丰富的语义信息, 可以通过挖掘高阶关系特征进行充分的语义关联和知识融合[11,23] 。Shi C等[24] 将异质信息表示学习的特征向量嵌入矩阵分解模型, 相较于传统矩阵分解模型, 推荐性能得到有效提升。Li L 等[25] 在异质网络中通过提取用户和项目相邻节点来补充元路径的缺失信息, 根据卷积层和注意力机制得到的节点和元路径的嵌入进行推荐。熊回香等[26] 对异质网络中的关系进行加权, 通过对加权异质网络的表示学习进行学术信息的推荐研究。近年来, 异质信息网络开始逐渐应用于跨域推荐。易明等[3] 在源领域和目标领域分别建立异质信息网络, 通过元路径、DeepWalk 算法获取网络中的特征信息, 采用扩展的联合矩阵分解模型进行推荐预测。HCDIR 在源领域采用门控递归单元建模用户兴趣,在目标域构建异质信息网络, 通过注意力机制和多层感知机学习跨域的特征映射[27] 。
综上, 推荐系统的研究取得了一定的进展, 但仍存在一些不足。首先, 跨域推荐对辅助域的信息挖掘不够充分, 对于用户跨域多源异构数据的融合和交互缺乏深入研究, 在用户偏好迁移的有效性和准确性方面还有较大的改进空间; 其次, 基于异质信息网络的推荐主要以浅层模型为基础, 无法有效捕获大规模、复杂异质网络的语义信息; 此外, 异质信息网络中的高阶信息聚合方案大多是基于节点的神经网络模型, 未能考虑到不同元路径的重要性及其对推荐结果的影响; 最后, 异质信息网络中普遍存在的噪声和差异问题也没有得到较好的解决,聚合与推荐无关的信息会干扰模型性能[28] 。为弥补以上不足, 本文一方面通过对用户跨平台产生的属性信息、兴趣知识、社交网络等异质信息进行融合和迁移利用, 以全面识别用户的核心兴趣和建模用户偏好; 另一方面, 使用包含双重注意力的HAN聚合复杂的多类型特征和高阶交互信息, 识别不同元路径下对推荐有用的异质信息, 以共同提升模型的整体性能。
2 模型构建
本文提出的融合跨平台用户偏好与异质信息网络的推荐模型主要包括3 部分内容: ①基于跨平台异质信息融合的用户偏好特征建模: 使用用户在不同平台中的属性、内容和社交关系数据构建用户跨平台的核心兴趣朋友圈, 利用卷积神经网络模型捕捉用户在源平台和目标平台发布内容中所体现的信息偏好特征, 通过注意力机制进行加权融合, 得到跨平台迁移后的用户偏好特征; ②基于HAN 的高阶特征聚合: 根据用户核心兴趣朋友圈以及用户和推荐项目相关的实体关系构建异质信息网络, 使用TransE 算法学习节点的初始嵌入向量, 分别提取异质信息网络中用户和项目相关的元路径, 使用HAN 模型得到多跳路径下的高阶聚合特征; ③基于改进矩阵分解模型的推荐预测: 将跨平台用户偏好和实体的高阶特征纳入矩阵分解模型中, 计算用户与项目之间的推荐概率得分, 模型最终为每个用户生成对应的推荐列表。本文所提模型的框架结构如图1所示。
2.1 跨平台用户偏好特征建模
跨平台用户偏好特征建模部分通过对用户跨平台的异质信息进行处理, 提取具有相同兴趣的跨平台核心兴趣朋友圈, 以及获取完整的跨平台用户信息偏好特征。
Nie Y 等[29] 提出, 用户关注有相似兴趣的朋友,如果两个用户属于同一个体, 那么他们在不同平台中将具有部分相似的核心兴趣, 并且用户的核心兴趣在不同平台中将会同步改变。用户核心兴趣朋友圈的这种群组思想在社交媒体中的社群发现、用户身份识别、用户推荐和异常用户行为检测等方面得到广泛应用[30-31] 。结合已有研究, 本研究将同一用户所关注的具有相似跨平台信息和兴趣的朋友认定为该用户的跨平台核心兴趣朋友圈, 综合考虑用户跨平台的属性信息、发布内容和社交网络关系构建用户跨平台的核心兴趣朋友圈。构建跨平台核心兴趣朋友圈的流程如下。
3实验分析
3.1数据集
由于目前尚未有公开的与推荐算法相关的跨平台数据集, 本研究选取知乎和微博平台分别作为目标平台和源平台, 以推荐知乎用户所关注的问题为实验目标, 自主构建所需数据集。本文通过网络爬虫技术在知乎中随机爬取生活、娱乐、学习和时政4个领域的问题及关注该问题的知乎用户数据。知乎为用户提供了公开其他社交媒体账号的功能, 通过解析知乎用户的JSON 数据可以得到部分用户的微博ID,以匹配的同一用户作为实验的用户集来源。进一步地, 爬取匹配用户在知乎以及微博中的属性和发布内容, 由于微博的系统限制, 无法获取全部的微博用户关注信息, 本文仅爬取知乎用户的关注列表以提取匹配用户之间的社交结构信息。
在获取数据集之后, 为降低冗余数据对模型效果的潜在负面影响, 在4个领域的数据集中分别删除关注量少于20的问题和关注问题数量不足10的用户。数据集最终的基本统计信息如表1 所示, 本文构造的跨平台信息推荐的数据集规模较大, 且信息种类多样, 不仅弥补了推荐领域中跨平台多属性和细粒度数据集的空缺, 也对实验模型的潜在稳健性提出了较高要求。各数据集中的用户—问题交互关系的稀疏程度均在99%以上, 稀疏的交互数据对模型性能提出了更高要求。重叠用户的微博内容数据量显著高于知乎内容量, 为使用源平台的密集数据解决目标平台推荐的冷启动问题提供契机。本文构造的大规模跨平台数据集不仅体现了研究的广度和深度, 也为评估模型在不同数据稠密度下的适应性和稳健性提供了实验基础。
3.2实验设置
本文根据问题、用户、问题作者、问题标签和问题分词5 种类型的节点及其之间的关系构建异质信息网络, 使用TransE 模型训练各个节点的初始向量。提取异质网络中以用户和问题分别作为开头和结尾的元路径, 不同的元路径代表不同的语义或相互关系, 各元路径的语义含义及其对应的关系数量如表2 所示。HAN 可以捕获异质图中复杂的关系结构、聚合多层次信息以及动态调整关系权重。表2 中的数据展示出用户间、问题间的多维度关系具有异质性和不均匀性等特点, 符合HAN 能够发挥最大效果的应用场景, 模型可以最大化地利用具有丰富多样性和复杂性的数据。
使用Stanford CoreNLP 对用户的内容文本进行命名实体识别, 保留与用户行为密切相关的组织、人员和地点类型的命名实体[1] , 将命名实体映射到腾讯AI 大型中文词向量数据集中进行向量化表示。本模型基于Pytorch框架实现。在参数设置方面, 经过多轮实验, 最终确认参数为: HAN 和一维卷积网络的输出节点特征维度均为64 维, HAN的多头注意力数量为4, 隐层单元大小为4, 卷积核大小为3; 使用Xavier 初始化模型参数, 学习率0.01,批量为128,迭代训练30 次。在数据集处理方面, 将用户集合划分为90%的训练集与10%的测试集。随机生成负样本, 保证训练集的正负样本比例1∶1,以达到提高训练稳定性和防止模型过拟合的目的。
3.3对比模型和评估指标
为验证本文所提模型的有效性, 将本模型与以下模型进行对比。
1) MF: 经典的矩阵分解模型, 将用户—项目交互矩阵分解为低维度的潜在特征向量的乘积。该模型依赖用户—项目交互信息进行因子分解, 通过学习用户和项目在潜在空间上的表示, 进而预测用户对未知项目的偏好程度。
2) RippleNet: 一种基于知识图谱的推荐算法[38] 。旨在通过模拟用户兴趣在知识图谱中的“涟漪” 传播来提高推荐质量, 核心思想是通过图谱传播用户兴趣点, 以捕获用户多样化的潜在兴趣, 使推荐算法有效地利用图中的结构化信息。
3) PGPR: 一种基于强化知识图谱推理的推荐算法[39] 。将推荐问题转化为知识图谱上的一个确定性马尔可夫决策过程, 提出了一种策略性路径推理的方法, 将知识图谱路径推理的思想应用于推荐系统, 采用强化学习的方法使智能体学习如何导航到用户潜在感兴趣的项目。
模型将为每个用户生成一个推荐列表, 本文采用平均倒数排名(Mean Reciprocal Rank, MRR)和前K 位命中率Hits@ K 作为评估模型性能的指标。
1) MRR: 用于衡量推荐结果排序质量的指标,它通过计算用户实际互动项在推荐列表中排名倒数的平均值来评估推荐系统的效果。具体计算过程如式(16) 所示:
2) Hits@ K: 测量前K 个推荐结果的命中率指标, 表示推荐列表的前K 项中有正确推荐的概率。具体计算过程如式(17) 所示:
其中, I 是指示函数, 如果ranku≤K, 则I 为1, 否则为0。
3.4实验结果
为更好地体现模型效果, 选择在两个平台均有发布内容的用户进行实验, 表3 列出了4 种模型在不同数据集下得到的MRR、Hits@ 1、Hits@ 3 和Hits@ 10 指标。总体来看, MF 模型取得的推荐效果较差, 没有在特定指标上表现出突出的优势, MF主要依赖于用户—项目交互数据, 无法充分获取用户偏好和领域知识, 限制了其在处理复杂推荐场景时的性能。RippleNet 和PGPR 都能够利用异质信息网络为推荐提供额外的语义信息, 因此在推荐效果上优于MF。RippleNet 在MRR 和Hits@ 1 指标上表现较好, 用户兴趣点在网络中的传播增强了Rip⁃pleNet 的推荐的精确度和相关性, 但是由于其特征融合和信息利用的效率较低, 模型在Hits@ 3 和Hits@10的表现不佳。PGPR 在Hits@ 3 和Hits@ 10的表现较好, PGPR 通过强化学习路径搜寻的方式,在为用户提供多样化推荐方面有一定的优势, 但是在精准匹配用户核心需求方面的能力有限。通过高效地融合用户跨平台信息偏好, 同时结合HAN 增强用户和项目特征的表示能力, 本文提出的CPHAR模型推荐效果均优于以上对比模型, 能够有效地解决用户冷启动和项目数据稀疏性的问题, 提升推荐结果的准确性、多样性和覆盖度。
3.5跨平台用户偏好建模效果分析
为探究模型中跨平台用户偏好建模的效果, 使用本模型对仅在源平台和仅在目标平台有内容信息的用户进行推荐, 在保证用户数量一致的情况下与具有跨平台内容信息用户的推荐结果进行比较, 实验结果如图2、图3 所示。总体来看, 相较于仅在单平台中具有内容信息的用户, 模型对于具有跨平台内容的用户推荐效果更好, 说明本模型能够有效地融合和利用跨平台内容中的关键信息, 实现更优的推荐效果。同时, 模型对于仅在源平台有数据的用户也实现了较好的推荐效果, 这一意外的实验发现不仅说明引入用户在其他平台的内容信息对目标平台用户数据进行补充具有一定的合理性, 验证了Nie Y 等[29] 提出的用户在不同平台中具有相似兴趣偏好的论点, 也进一步证明了本模型对于目标平台中完全冷启动的用户同样具有较好的推荐性能, 模型具有一定的普适性。
3.6消融实验
消融实验进一步探究模型构建的用户跨平台核心兴趣朋友圈以及HAN 高阶特征聚合模块对模型结果的影响。具体来讲, CPHAR_DU 模型将CPHAR模型中的核心兴趣朋友圈替换为用户关注朋友列表,CPHAR_DH 模型移除了CPHAR 模型中的HAN 模块, 直接使用TransE 得到的用户和项目向量进行实验, 各数据集的消融实验结果如图4 所示。整体来看, CPHAR 模型的性能要显著优于两个消融模型, 证明了CPHAR 在进行用户核心兴趣挖掘和高阶特征聚合方面的有效性和优越性。CPHAR_DU使用用户全部的社交结构关系, 未考虑到不同朋友的差异性特征以及关键用户产生的重要影响, 融合所有具有社交关系的用户在一定程度上干扰了对用户自身特征的识别, 且大大降低了模型的运行效率。CPHAR_DH 使用TransE进行节点和关系的向量化,只关注了异质实体之间的直接关系, 而无法有效应用异质信息网络中复杂的多跳路径关系, 对实体在不同元路径下的特征表达能力有限。CPHAR_DH 模型的推荐性能相对较差, 证明了HAN 高阶特征聚合对提升模型预测能力发挥重要贡献。
4结论
针对当前信息推荐领域存在的数据稀疏和用户冷启动的问题, 本文提出一种融合跨平台用户偏好与异质信息网络的推荐模型。该模型整合跨平台多源异构数据识别用户核心兴趣朋友圈, 通过卷积神经网络和注意力机制挖掘用户跨平台的信息偏好特征, 结合项目语义相似度和PMI 数值挖掘推荐项目的隐形关联。不仅完成了对跨平台大规模异质信息网络拓扑关系的降噪和完善, 也进一步实现了对用户模糊性和多样化偏好的准确识别和迁移融合的优化目标。此外, 优化了传统矩阵分解模型, 利用神经网络模型将用户跨平台信息偏好和使用HAN 聚合后的用户和项目高阶特征纳入推荐模型中, 较全面地融合了不同元路径上的语义信息, 达到了有效利用平台间丰富特征信息以提升模型预测能力的目的。在真实数据集中的实验结果表明, 本文模型在各项评估指标上均表现出了显著的优势, 对于目标平台中完全冷启动的用户同样具有较好的推荐表现,说明模型在提高推荐效果和优化用户冷启动方面更具优越性和稳定性。消融实验进一步证明了模型构建的跨平台核心兴趣朋友圈和HAN 高阶特征聚合模块对模型性能的提升发挥重要作用。
在实现上述技术创新的同时, 本研究还具有广阔的延伸应用价值。本文所提模型将为多领域多情景下的用户偏好特征建模及推荐应用提供借鉴, 为基于场景精细化和跨域关联式的信息资源推荐提供范式拓新。本文模型的普适性和可扩展性较强, 可以基于用户在不同场景下的不对称、不均匀的异构数据实现全方位的用户偏好建模, 通过充分挖掘和融合多场景下用户和项目的复杂关联, 突破单场景下推荐算法的认知局限与偏差, 实现跨平台或者跨领域的精准推荐。具体来讲, 本文模型可从跨平台的信息推荐应用扩展至图书、专利、科技文献、在线出版物等信息资源的推荐, 全面激活与整合数据的价值要素, 进一步提升信息资源的利用效率, 助力算法技术的革新与信息资源管理的高质量发展。
本文模型也存在一些不足, 对于用户跨平台的属性和发布内容数据, 模型仅提取了其中的文本特征, 忽略了其他相关的多模态数据特征。在后续研究中, 将考虑结合图片、视频以及用户的地理位置等信息, 更全面地解读用户跨平台信息偏好特征,进一步拓展本研究的内容。此外, 未来研究可以进一步结合用户在更多平台和领域中的异质特征信息,在复杂推荐场景下对模型进行进一步优化。