一种基于标题与摘要语义的学术论文推荐方法
2021-06-29胡蝶邓璇
胡蝶 邓璇
(湖北大学,湖北武汉 430062)
0 引言
在互联网时代飞速发展的今天,伴随着日益高涨的科研热度,学术论文数量呈现爆炸性增长趋势,导致信息过载的问题。推荐系统能帮助科研人员更快了解其领域的最新前沿。因此,向研究人员有效地推荐感兴趣的论文已经越来越受关注。现有的论文推荐方法主要可以分为基于内容的推荐方法协同过滤的推荐方法和混合推荐方法三类[1-4]。虽然以上方法已得到广泛应用,它们也存在着一些缺陷。首先,这些方法都存在冷启动问题。其次,基于协同过滤的系统在面向海量论文时,由于数据稀疏性会产生较差性能。
为了解决这些问题,本文提出了一个标题-摘要注意力机制语义网络来捕捉标题与摘要之间的语义关系,从而获取用户潜在兴趣进行论文推荐。它由两个基于注意力机制的子网络组成,即词级和句级子网络。具体来说,在词级子网络中,我们提出了一个基于注意力机制的长短时记忆网络[5],通过考虑摘要中的词相对于标题中词的重要性来学习句级表示。在句级子网络中,将门控递归单元网络与记忆网络进行集成[6],以挖掘摘要与标题和每个句子之间的关系,从而构建用户偏好。
1 融合网络的构建
1.1 问题形式化定义
假设存在N位科研人员、M篇论文。用来表示科研人员集合;表示论文集合。mi表示用户偏好向量;cj是文本向量。基于Chen等[7]人对推荐系统中融合组合特征的研究,定义了用户和物品的特征表示:
其中:pi为第i位用户的特征表示,qj为第j个物品的特征表示;α,β∈[0,1],代表语义嵌入向量的重要程度。对于用户i,我们计算出物品j的排序得分:
采用pair-wise[8]作为目标函数来对用户进行偏好的偏序建模,得到Top-N论文推荐列表。
1.2 整体网络框架
基于上文提到的词级和句级的子网络结构,构建出基于注意力机制的融合网络模型。模型整体框架如图1所示。
图1 融合网络推荐算法的整体框架Fig.1 The overall framework of recommendation algorithm in converged networks
图1展示了整个融合网络模型算法的流程,其中主要包括LSTM 网络构成的基于注意力机制的词级子网络、GRU网络与键值对记忆网络构成的基于注意力机制的句级子网络,以及通过pair-wise算法学习得到最后的推荐列表。
2 基于标题与摘要语义的论文推荐
2.1 基于注意力机制的词级子网络
考虑到句子中的有序词语序列是学习其特征的重要依据,采用LSTM对词序列进行建模。用表示标题中词的集合;Wy={wy,1,wy,2,…,wy,m}表示摘要中词的集合。这些词嵌入向量作为LSTM网络的输入,并且赋予相同权重θ,迭代更新公式为:
为了更进一步探索标题和摘要的词相关性,基于注意力机制[9-10],提出了一种衡量句子中词语相对重要性的方法:
式中:m是摘要中句子的长度,为累计相似性评分。最后,将标题t与摘要句子A作为句级子网络的输入。
2.2 基于注意力机制的句级子网络
本文认为论文摘要能详细解释标题的含义。我们首先引入了GRU来捕获标题和摘要的语义关系,用标题特征t初始化整个网络:
3 实验结果与分析
3.1 实验设置
(1)数据集:基于论文资源共享平台的CiteULike-a数据集进行实验。(2)评价指标:采用P@N、MRR和NDCG衡量推荐质量。
3.2 结果分析
考虑到语义权重参数α、β的选取也对模型的结果具有一定的影响。经过反复测试,选取了具有代表性的结果,如图2所示。
图2 语义参数对模型的影响结果Fig.2 The effect of semantic parameters on the model
从图2中可得出,在α=0.4、β=0.6时模型的性能最佳,即内在嵌入和语义嵌入的适当组合能更好地获取偏好,完成推荐。
表1所示,基于对最优参数的选取,我们还从四个评价指标的角度,比较了3种基准方法与本文的融合网络模型的推荐性能,验证本模型是否相对于其他推荐模型效果更优。
表1 基于citeulike-a 数据集的比较结果Tab.1 Comparison results based on citeulike-a dataset
结果表明:我们的融合网络模型在所有评价指标中都优于其他模型。并且,由于数据的高度稀疏性,BPR算法性能最差。
4 总结
在本文中提出了一个基于注意力机制的融合网络来捕捉标题和摘要之间的语义相关性,并应用于论文推荐系统。在真实数据集上的实验结果证实其达到了较好的性能。在今后的研究中,将进一步探索论文中的图表标题、结语等其他信息,研究其对提升推荐系统性能的重要性。