新闻推荐系统中的边信息融合Transformer

2023-05-30贺隽文邵伟卫刚

电脑知识与技术 2023年1期

贺隽文　邵伟　卫刚

摘要：推荐系统中对多模态的数据处理方式是业界长期关注的重点，基于各类数据的特点设计模型，可以有效利用信息，从而提升推荐效率。文章针对新闻推荐系统提出SIA-Transformer结构，在传统Transformer的基础上结合了新闻的边信息。通过多组内积的形式，将单词特征与边信息特征在多头注意力层中进行交叉，提高了边信息利用率的同时，也丰富了文本特征提取的语义，使得基于SIA-Transformer的新闻文本特征提取方法获取到更多信息，从而提高了推荐的效果。文章基于微软MSN开放的大型新闻数据集MIND进行了实验，验证了模型的效果。

关键词：新闻推荐系统；边信息；多模态；深度学习

中图分类号：TP311 文献标识码：A

文章编号：1009-3044（2023）01-0004-03

1 概述

随着消费互联网的快速发展，互联网的马太效应带来了严重的信息过载问题，推荐系统在互联网平台解决信息过载问题的过程中发挥了巨大作用。以新闻推荐系统为例，通常需要基于新闻内容、用户信息以及用户的历史行为等特征，使用自然语言处理、统计机器学习、计算机视觉等技术，精准地将新闻推送给用户。面对多模态的数据，如离散型和连续型数据、文本和图像数据、图数据等，业界的常用做法是针对不同类型的数据，分别独立地提取数据特征。当独立处理各模态数据时，缺乏各模态数据之间的交互与监督，因此难以提取到各模态数据之间的关联，导致信息的损耗。

个性化新闻推荐系统中通常包含新闻模型与用户模型两大模块，前者是基于内容理解技术提取新闻的内容和特点，后者则是基于用户信息与历史点击行为来建模用户的兴趣爱好。基于协同过滤的推荐算法主要是根据用户与商品交互记录来进行推荐，本质上是基于用户/商品相似度的统计方法。在新闻推荐系统中，由于新闻商品往往具有较强的时效性，因此会面临严重的商品冷启动问题。对标题、摘要等文本信息和主题、类别等边信息的利用则是缓解商品冷启动问题的主要办法，也是新闻推荐系统中优化文本特征提取的动机。

1.1 相关工作

现有主流的基于深度学习的新闻推荐系统通常使用自动编码器、CNN[1]（卷积神经网络）、RNN（循环神经网络）、Transformer来进行文本特征的提取。

Okura[2]等引入带有弱监督的自动编码器实现文本特征提取，Zhang等[3]进一步使用改进的自动编码器SDAE（stacked denoising auto-encoder）作为文本特征提取器。An等[4]提出使用CNN网络来提取新闻标题及类别中的文本特征，并在用户兴趣建模中使用GRU（Gated Recurrent Unit）處理用户历史点击的新闻稿件特征，从而实现对用户的长短期兴趣的建模。Lee[5]等则使用BIGRU（Bi-directional Gated Recurrent Unit）来进行文本特征提取。Wu等[6]在用户兴趣建模中引入注意力机制，从而更好地聚合用户的历史点击新闻特征。Wu等[8]则使用Transformer作为文本的特征提取器。

部分模型将边信息引入了新闻商品的文本特征提取流程中，取得了更好的效果，如Wang等[7]在文本提取过程中引入边信息，将新闻的类别特征也视作文本与标题中的文本拼接后再输入3D卷积网络。但此方法融合边信息的方式过于简单，且仅利用了文本类的边信息。因此，面对不同类型的边信息，对现有文本提取网络进行优化改进，从而在文本特征提取过程中最大程度地发挥边信息的约束与监督作用，是本文的改进重点。

2 模型结构

2.1 SIA-Transformer框架

如图1所示，SIA-Transformer基于传统Transformer网络的编码层，在其基础上将边信息引入到最核心的多头注意力层中，边信息类型可以包括文本信息（如用户评论、新闻类别），图片信息（如新闻封面、知识图谱等），统一以embedding的形式输入到多头注意力层中。

2.2 边信息融合

2.3 边信息注意力权重

传统Transformer认为，每个单词的特征表示由其他单词的V向量根据注意力权重聚合而成，注意力权重则通过由目标单词的Q向量点乘其他单词的K向量，再通过softmax归一化后得到。

考虑到在不同类别的新闻文本当中，对相同单词的关注程度是不相同的，因此本文将边信息引入到多头注意力层中注意力权重的计算过程中，改良后的注意力权重计算方式如图2所示。

2.4 边信息融合特征

3 实验结果与分析

本文选用微软MSN大规模数据集MIND，通过对比不同模型中分别使用传统Transformer与SIA-Transformer作为文本特征提取器的效果，验证本文中方法的有效性。实验中使用新闻的一级与二级类别作为边信息，选用AUC作为模型效果指标，以经典新闻推荐模型NPA和LSTUR作为基线模型的对比结果，如表1所示。

通过实验结果可以看到，在NPA及LSTUR中，相较于Transformer，以SIA-Transformer作为文本特征提取器，使得auc指标在验证集上均取得了正向收益，说明了模型的有效性。

4 结束语

本文中提出的SIA-Transformer作为新闻推荐系统中的文本特征提取器，通过引入边信息到多头注意力层中，使得边信息能够更充分地约束与指引文本特征的提取，使得提取的单词特征向量具有更准确与丰富的语义，在实验中取得了较好的效果。

同时，本文中的方法也存在一些问题与待改进的方向。首先，本文中只使用了新闻的一级与二级类别边信息，还有待于扩展到其他模态的边信息，从而获取到更多的信息增益，如图像信息、知识图谱实体映射关系等。另外，本文中边信息作用于注意力权重及特征融合的方式较为简单，更复杂与精巧的设计可以在将来的研究中再进一步探索。最后，提取文本特征的方法除了在Transformer的基础上进行改进以外，还可以考虑自然语言处理领域的其他最新成果，如Bert模型，如何将其他自然语言处理领域的最新成果与新闻推荐的任务结合起来优化模型，从而获取到更好的推荐效果，也是未来的研究方向之一。

参考文献：

[1] Zhang Y， Wallace B C. A sensitivity analysis of （and practitioners guide to） convolutional neural networks for sentence classification[C]//Proceedings of the Eighth International Joint Conference on Natural Language Processing.Taipei：Asian Federation of Natural Language Processing，2017：253-263.

[2] Okura S，Tagami Y，Ono S，et al.Embedding-based news recommendation for millions of users[C]// Halifax，NS，Canada：Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，2017. New York：ACM，2017：1933-1942.

[3] Zhang F Z，Yuan N J，Lian D F，et al.Collaborative knowledge base embedding for recommender systems[C]// San Francisco，California，USA：Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining，2016. New York：ACM，2016：353-362.

[4] An Mingxiao，Wu Fangzhao，Wu Chuhan，et al.Neural News Recommendation with Long- and Short-term User Representations[J].ACL，2019（1）：336-345.

[5] Lee D，Oh B，Seo S，et al.News recommendation with topic-enriched knowledge graphs[C]// Virtual Event，Ireland：Proceedings of the 29th ACM International Conference on Information & Knowledge Management，2020. New York：ACM，2020：695-704.

[6] Wu C H，Wu F Z，An M X，et al.Neural news recommendation with attentive multi-view learning[J].CoRR，2019，abs/1907.05576：3863-3869.

[7] Wang H Y，Wu F Z，Liu Z，et al.Fine-grained interest matching for neural news recommendation[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.Online.Stroudsburg，PA，USA：Association for Computational Linguistics，2020：836-845.

[8] Wu C H，Wu F Z，Huang Y F，et al.Neural news recommendation with negative feedback[J].CCF Transactions on Pervasive Computing and Interaction，2020，2（3）：178-188.

【通聯编辑：唐一东】