基于对比学习的多模态序列推荐算法
2022-07-05韩滕跃牛少彰张文
韩滕跃,牛少彰*,张文
基于对比学习的多模态序列推荐算法
韩滕跃1,牛少彰1*,张文2
(1.北京邮电大学 计算机学院,北京 100876; 2.东南数字经济发展研究院,浙江 衢州 324000)(*通信作者电子邮箱szniu@bupt.edu.cn)
针对如何利用商品的多模态信息提高序列推荐算法准确性的问题,提出一种基于对比学习技术的多模态序列推荐算法。该算法首先通过改变商品颜色和截取商品图片中心区域等手段进行数据增强,并把增强后的数据与原数据进行对比学习,以提取到商品的颜色和形状等视觉模态信息;其次对商品的文本模态信息进行低维空间嵌入,从而得到商品多模态信息的完整表达;最后根据商品的时序性,采用循环神经网络(RNN)建模多模态信息的序列交互特征,得到用户的偏好表达,从而进行商品推荐。在两个公开的数据集上进行实验测试的结果表明,与现有的序列推荐算法LESSR相比,所提算法排序性能有所提升,且该算法在特征维度值到达50后,推荐性能基本保持不变。
对比学习;多模态;神经网络;序列推荐;特征交互
0 引言
近年来,电子商业发展迅猛并取得了巨大的成功。在线上购物平台中,用户可以自由选择自己需要的商品。但线上购物平台中包含数以百万计的商品,用户需要从海量的商品中挑选出满足自己喜好的商品,这无疑会增加人们寻求目标商品的难度。应运而生的推荐算法[1-2]主要根据用户的历史购买记录推测用户的偏好,为每个用户进行商品推荐,从而提供更加智能化的服务。在推荐算法中融合社交信息[3]、序列信息[4]、多模态信息[5]等都有助于提升推荐性能。序列推荐是一类考虑用户购买行为时序性特征的推荐算法[6]。序列推荐中建模商品的序列交互特征对提高推荐结果准确性具有非常重要的意义[7-8]。
在序列推荐中,引入商品的多模态信息可以丰富商品的表达,提高深度神经网络算法建模能力,提升推荐性能。目前,国内外众多学者将商品的视觉模态信息或文本模态信息引入到推荐算法中,其工作主要可以分为三个大类:基于视觉模态的推荐算法、基于文本模态的推荐算法和基于多模态的推荐算法。
文献[9-12]将商品的图片信息整合到推荐算法中,提高了深度神经网络的建模能力。文献[9]中建模用户对商品视觉关系的概念,并根据商品的视觉关系(匹配或者不匹配)进行商品的组合推荐;文献[10]在传统的基于矩阵分解的推荐算法基础上,引入视觉偏好的矩阵分解,利用用户视觉偏好表达与商品图片特征表达的内积即可建模视觉模态,反映用户对商品的喜爱程度,扩展了传统的基于矩阵分解的推荐算法;文献[11]中采用循环神经网络(Recurrent Neural Network, RNN)学习商品间的视觉语义嵌入以及适配性关系,该算法采用端到端的训练方式训练一个双向的RNN,预测下一个商品是否能与已有商品组成套装,从而进行套装推荐;文献[12]将注意力机制引入到传统的协同过滤算法中,建模用户对商品图片不同区域的不同注意力分数,以便捕捉到用户最感兴趣的商品图片区域,更加细粒度地捕捉用户的视觉偏好。
文献[13-16]将文本模态的信息融入到推荐算法中,旨在挖掘文本中对推荐算法有帮助的信息。文献[13]从文本评论中提取商品的特定属性,将用户与商品二元关系丰富为用户与商品与属性的三元关系,并将三元关系建模为异构三方图,将推荐任务作为顶点排序任务;文献[14]中建模用户对商品的评分,同时将预测用户对商品的评论作为辅助任务训练算法,以丰富用户和商品的表达;文献[15]中通过有效地结合评论和评分,提出了一种用于评分预测的方面感知算法;文献[16]中提出了一种以商品评论信息作为商品表达的神经网络算法,用丰富的语义信息增强商品的表达而进行序列推荐。
文献[17-19]将多模态的信息引入到推荐算法中,旨在利用多种模态信息的丰富性和互补性提升推荐算法的准确度。文献[17]中利用注意力机制建模用户视觉模态的偏好,同时将文本模态的评论预测作为辅助任务联合训练算法,以提升算法预测的准确度;文献[18]中提出了一个多模态图卷积神经网络,该算法学习用户与商品在视觉、文本和听觉三个模态下的表达,最终利用这些表达进行推荐;文献[19]中用商品多模态的表达增强商品的表达,利用RNN做下一次行为推荐,采用多任务训练的方式提升算法的泛化能力。
上述研究在利用商品单模态或多模态的信息提升推荐算法的准确性方面做了大量的工作,但存在两点不足:1)现有工作在提取视觉模态信息时,都采用预训练的卷积神经网络(Convolutional Neural Network, CNN),如Visual Geometry Group (VGG)等,但是这些预训练算法是针对图片分类任务而设计的,并不完全适用于提取推荐系统中的视觉模态特征,例如商品视觉模态的细粒度特征、形状和颜色等;2)现有工作大多着重研究单个商品的多模态特征交互,忽略了时序上多模态特征的交互,建模序列数据上的多模态特征交互对提升推荐性能亦有助益。本文主要考虑如何利用多模态的细粒度信息提升推荐性能,例如在视觉模态中,如何提取商品的颜色和形状的特征表达,在文本模态如何利用品牌和类别等特征表达,以及如何建模序列上这些多模态特征之间的交互。故面临的挑战主要分为两部分:1)如何从商品的多种模态中准确提取出商品的细粒度特征,如商品的颜色、形状等;2)如何在序列数据上建模多模态特征之间的交互,形成用户偏好的表达。
为了解决以上问题,本文提出了一种基于对比学习技术的多模态序列推荐算法。该算法采用对比学习的框架处理视觉模态特征,通过改变商品颜色和裁剪图片中心区域等方式做数据增强,增强后的数据与原数据进行对比学习,提取商品中颜色和形状的特征表达;采用低维向量嵌入的方式处理文本模态的信息,用低维向量表示商品类别和品牌信息,最后将商品的多模态特征输入到RNN中,建模多种模态间的序列交互,生成用户偏好的表达,从而进行下一次购买行为预测。该算法的创新之处在于对任何无标签的商品图片数据,都可以提取出图片数据中的多模态信息,包括形状和颜色特征,并且能够建模序列数据上的多模态特征之间的交互,提升推荐系统的准确性。实验结果表明,本文算法可以有效提升推荐结果的准确性。
1 预备知识
2 本文算法
本文提出的基于对比学习的多模态序列推荐算法主要由视觉模态处理、文本模态处理、序列交互和算法训练及预测四个模块组成,如图1所示。
图1 本文算法的整体框架
2.1 视觉模态处理模块
针对视觉模态,本文算法需要从每个商品图片中提取出形状和颜色的特征表达,主要通过对比学习的方式学习这两种特征。首先,对图片做一些预处理工作,从而达到丰富图片数据集的目的,即数据增强。第一种图片增强方式是采用预训练的Mask-RCNN对每张图片商品区域用不同颜色的掩模覆盖,这样就实现了在保持图片背景不变的前提下,改变商品的颜色,每个商品的形状信息并没有更改,每个商品图片与其改变颜色的商品图片的形状特征表达是一致的,利用对比学习的技术,缩小这两张图片形状表达的差异,训练网络,从而达到提取商品形状特征表达的目的。第二种图片增强的方式是截取每张图片的中心区域,中心区域的颜色基本可以代表该商品所属的色系,故每张图片与其截取后的图片颜色特征的表达是一致的,利用对比学习的技术,缩小这两张图片颜色表达的差异,从而达到提取出商品颜色特征表达的目的。视觉模态处理流程如图2所示。
图2 视觉模态处理流程
2.2 文本模态处理模块
图3 文本模态处理流程
2.3 序列交互模块
序列交互模块即建模序列数据上这些特征间的交互作用。该模块采用RNN[21-22]建模多模态特征间的序列交互。RNN是为建模序列数据的交互而设计的,长短期记忆(Long Short-Term Memory, LSTM)网络是RNN中经典的一种,主要分为遗忘门、输入门和输出门三个部分:遗忘门控制传递到下一时刻的信息;输入门控制每个时刻的输入信息;输出门控制每个时刻输出的信息。具体操作过程如下:
2.4 训练和预测模块
3 实验与结果分析
3.1 实验数据
本文实验使用公开的亚马逊数据集[23],选用其中两个广泛被使用的领域:手机和衣物。每个商品都有图片、类别以及品牌信息。每个用户购买商品都含有时间戳信息,本文按照时间戳将每个用户购买过的商品做成序列,作为一条训练数据。需要注意的是,本文将每个用户购买的倒数第二个商品作为验证集,倒数第一个商品作为测试集。实验中,删除了图片缺失或者没有类别品牌信息的商品,并且删除购买次数小于5的用户。两个数据集的统计情况如表1所示。
表1 实验数据集的统计情况
3.2 实验环境
文本实验环境采用Windows 10系统(64位),CPU配置为Intel Core i7-9700K CPU @3.60 GHz,GPU配置为GTX 2080Ti,内存容量为11 GB。本文中所有涉及到的实验代码采用Python编写,所用版本为3.6.9,实验框架采用Pytorch,所用版本为1.4.0。
3.3 实验参数
本文采用ResNet18作为视觉模态处理模块基础的卷积神经网络结构,用到的其他参数配置如表2所示。
3.4 评价指标
采用推荐算法中最常用的两个评价指标来衡量本文算法的性能,即召回率(Hit-Ratio)和归一化累积折扣信息增益(Normalized Discounted Cumulative Gain, NDCG)[23-24]。在测试时,考虑到算法时间复杂度等问题,算法随机负采样100个商品,对推荐的商品进行排序,选取排名前十(Top-10)的商品进行推荐。
1)Hit-Ratio是常用的衡量召回率的指标,计算方式如下:
表2 实验参数设置
2)NDCG是一种衡量推荐商品顺序的指标,折损累计增益(Discounted Cumulative Gain, DCG)以及NDCG计算方式如下:
3.5 实验结果
3.5.1 主实验结果
本文在两个数据集上进行实验,并将实验结果与经典的序列推荐算法进行比较。进行对比的经典序列推荐算法包括VBPR[10]、MV-RNN[19]、GRU4Rec[6]、Caser[25]、SASRec[26]、BERT4Rec[27]和LESSR[28]。其中:VBPR采用预训练的视觉特征提取器提取视觉模态信息;MV-RNN采用预训练的视觉和文本特征提取器提取多模态特征。选取这两个算法作为对比算法主要是为了验证本文提出的视觉特征模块的有效性。GRU4Rec、Caser、SASRec、BERT4Rec和LESSR属于序列推荐算法,选取它们做对比实验主要是为了验证多模态特征序列交互的有效性。实验结果如表3所示。
从表3可以看出,本文算法的性能优于对比的经典算法。算法VBPR只采用了视觉模态的信息,而MV-RNN采用了视觉模态和文本模态的信息,MV-RNN优于VBPR,这说明多模态的推荐算法优于单一模态的推荐算法。MV-RNN将视觉模态和文本模态的信息作为直接输入,而本文算法将视觉模态和文本模态的信息分别进行细粒度的提取和处理,因此性能更优,由此可见,本文算法能够更好地建模多模态的序列交互特征。GRU4Rec用RNN建模商品标号之间的序列交互,Caser用卷积神经网络建模商品标号之间的序列特征,SASRec用自注意力机制建模商品标号之间的序列交互,BERT4Rec在自注意力机制的基础上改变了算法的训练方式,LESSR用图神经网络建模序列商品标号之间的交互特征,而本文算法则是将多模态的特征融入到序列数据中,建模多模态数据的特征交互。从实验结果可以看出,本文算法优于经典的序列推荐算法GRU4Rec、Caser、SASRec、BERT4Rec和LESSR,这说明在序列推荐场景中,融合商品的多模态特征对于提高推荐性能很有帮助。
从表3可以看出,本文算法的性能在衣物类数据集上提升较为明显,这更加符合实际购物场景,因为人们在购物时,衣物类的商品多模态信息所占比重比手机等电子产品类更高。
表3 与经典序列推荐算法的对比
3.5.2 特征维度实验分析
在神经网络算法中,特征的维度会影响算法的表达能力,因此本节研究了不同的特征维度对本文算法推荐性能的影响。在实验中,保持其他参数不变,分别将特征维度设置为10、20、30、40、50、60,与BERT4Rec算法进行比较,结果如图4所示。
图4 特征维度大小对推荐性能的影响
从图4可以看出,随着特征维度的增加,算法的推荐性能也越来越好,但是特征维度值到达50之后,推荐性能基本保持不变。当推荐性能稳定之后,如果再增加特征维度,会使得算法计算复杂度增加而性能提升很小,因此本文算法选取特征维度的值为50。
与BERT4Rec算法相比,在相同的特征维度下,本文算法性能优于BERT4Rec,这是因为本文算法融合了商品多模态的信息,从而可以学习到更加丰富的多模态特征之间的交互,算法的表达能力得到了提升。
4 结语
本文主要研究了多模态信息在序列推荐中的应用,提出了一种基于对比学习技术的多模态序列推荐算法。本文算法分别对视觉模态信息、文本模态信息进行细粒度的提取,利用对比学习从视觉模态中提取商品颜色和形状特征,利用低维嵌入的方式从文本模态中提取类别和品牌信息,得到多模态的特征表达之后,用RNN建模多模态特征间的序列交互,生成用户偏好的表达,从而对该用户下一次购买行为进行预测。实验结果表明,本文所提取的多模态细粒度特征有助于推荐性能的提升。本文主要建模了购物场景下,商品视觉和文本两个模态的特征交互,但随着移动互联网技术的迅速发展,许多商品在购物平台上都有短视频的介绍和讲解,即商品新添加了听觉模态的信息,故融合商品三个模态信息的特征的推荐算法将会是本工作的延伸。
)
[1] 邓凯,黄佳进,秦进. 基于物品的统一推荐模型[J]. 计算机应用, 2020, 40(2):530-534.(DENG K, HUNAG J J, QIN J. Item-based unified recommendation model[J]. Journal of Computer Applications, 2020, 40(2): 530-534.)
[2] 张文龙,钱付兰,陈洁,等. 基于双重最相关注意力网络的协同过滤推荐算法[J]. 计算机应用, 2020, 40(12):3445-3450.(ZHANG W L, QIAN F L, CHEN J, et al. Collaborative filtering recommendation algorithm based on dual most relevant attention network[J]. Journal of Computer Applications, 2020, 40(12): 3445-3450.)
[3] 郭宁宁,王宝亮,侯永宏,等. 融合社交网络特征的协同过滤推荐算法[J]. 计算机科学与探索, 2018, 12(2):208-217.(GUO N N, WANG B L, HOU Y H, et al. Collaborative filtering recommendation algorithm based on characteristics of social network[J]. Journal of Frontiers of Computer Science and Technology, 2018, 12(2): 208-217.)
[4] 孙金杨,刘柏嵩,任豪,等. NHRec:一种基于长短期兴趣的神经混合推荐模型[J]. 小型微型计算机系统, 2020, 41(11): 2298-2302.(SUN J Y, LIU B S, REN H, et al. Neural hybrid recommendation model based on long-term and short-term interests[J]. Journal of Chinese Computer Systems, 2020, 41(11): 2298-2302.)
[5] 欧辉思,曹健. 面向跨领域的推荐系统研究现状与趋势[J]. 小型微型计算机系统, 2016, 37(7):1411-1416.(OU H S, CAO J. Survey on research and progress of cross-domain recommendation[J]. Journal of Chinese Computer Systems, 2016, 37(7): 1411-1416.)
[6] HIDASI B, KARATZOGLOU A, BALTRUNAS L, et al. Session-based recommendations with recurrent neural networks[EB/OL]. (2016-03-29)[2021-06-30].https://arxiv.org/pdf/1511.06939.pdf.
[7] YU F, LIU Q, WU S, et al. A dynamic recurrent model for next basket recommendation[C]// Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 729-732.
[8] 黄立威,江碧涛,吕守业,等. 基于深度学习的推荐系统研究综述[J]. 计算机学报, 2018, 41(7):1619-1647.(HUANG L W, JIANG B T, LYU S Y, et al. Survey on deep learning based recommender systems[J]. Chinese Journal of Computers, 2018, 41(7): 1619-1647.)
[9] McAULEY J, TARGETT C, SHI Q F, et al. Image-based recommendations on styles and substitutes[C]// Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2015: 43-52.
[10] HE R N, McAULEY J. VBPR: visual Bayesian personalized ranking from implicit feedback[C]// Proceedings of the 30th Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2016: 144-150.
[11] HAN X T, WU Z X, JIANG Y G, et al. Learning fashion compatibility with bidirectional LSTMs[C]// Proceedings of the 25th ACM International Conference on Multimedia. New York: ACM, 2017: 1078-1086.
[12] CHEN J Y, ZHANG H W, HE X N, et al. Attentive collaborative filtering: multimedia recommendation with item- and component-level attention[C]// Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2017: 335-344.
[13] HE X N, CHEN T, KAN M Y, et al. TriRank:review-aware explainable recommendation by modeling aspects[C]// Proceedings of the 24th ACM International Conference on Information and Knowledge Management. New York: ACM, 2015: 1661-1670.
[14] ZHANG Y F, AI Q Y, CHEN X, et al. Joint representation learning for top-N recommendation with heterogeneous information sources[C]// Proceedings of the 2017 ACM Conference on Information and Knowledge Management. New York: ACM, 2017: 1449-1458.
[15] CHENG Z Y, DING Y, ZHU L, et al. Aspect-aware latent factor model: rating prediction with ratings and reviews[C]// Proceedings of the 2018 World Wide Web Conference. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2018: 639-648.
[16] LI C L, NIU X C, LUO X Y, et al. A review-driven neural model for sequential recommendation[C]// Proceedings of the 28th International Joint Conference on Artificial Intelligence. California: ijcai.org, 2019: 2866-2872.
[17] CHEN X, CHEN H X, XU H T, et al. Personalized fashion recommendation with visual explanations based on multimodal attention network: towards visually explainable recommendation[C]// Proceedings of the 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2019: 765-774.
[18] WEI Y W, WANG X, NIE L Q, et al. MMGCN: multi-modal graph convolution network for personalized recommendation of micro-video[C]// Proceedings of the 27th ACM International Conference on Multimedia. New York: ACM, 2019: 1437-1445.
[19] CUI Q, WU S, LIU Q, et al. MV-RNN: a multi-view recurrent neural network for sequential recommendation[J]. IEEE Transactions on Knowledge and Data Engineering, 2020, 32(2): 317-331.
[20] CHEN T, KORNBLITH S, NOROUZI M, et al. A simple framework for contrastive learning of visual representations[C]// Proceedings of the 37th International Conference on Machine Learning. New York: JMLR.org, 2020: 1597-1607.
[21] LIPTON Z C, BERKOWITZ J, ELKAN C. A critical review of recurrent neural networks for sequence learning[EB/OL]. (2015-10-17)[2021-06-30]. https://arxiv.org/pdf/1506.00019.pdf.
[22] GERS F A, SCHMIDHUBER J. Recurrent nets that time and count[C]// Proceedings of the 2000 IEEE-INNS-ENNS International Joint Conference on Neural Networks. Piscataway: IEEE, 2000: 189-194.
[23] HE R N, KANG W C, McAULEY J. Translation-based recommendation[C]// Proceedings of the 11th ACM Conference on Recommender Systems. New York: ACM, 2017: 161-169.
[24] HE X N, LIAO L Z, ZHANG H W, et al. Neural collaborative filtering[C]// Proceedings of the 26th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2017: 173-182.
[25] TANG J X, WANG K. Personalized top-sequential recommendation via convolutional sequence embedding[C]// Proceedings of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM, 2018: 565-573.
[26] KANG W C, McAULEY J J. Self-attentive sequential recommendation[C]// Proceedings of the 2018 IEEE International Conference on Data Mining. Piscataway: IEEE, 2018: 197-206.
[27] SUN F, LIU J, WU J, et al. BERT4Rec: sequential recommendation with bidirectional encoder representations from transformer[C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 1441-1450.
[28] CHEN T W, WONG R C W. Handling information loss of graph neural networks for session-based recommendation[C]// Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2020: 1172-1180.
Multimodal sequential recommendation algorithm based on contrastive learning
HAN Tengyue1, NIU Shaozhang1*, ZHANG Wen2
(1,,100876,;2,324000,)
A multimodal sequential recommendation algorithm based on contrastive learning technology was proposed to improve the accuracy of sequential recommendation algorithm by using multimodal information of commodities. Firstly, to obtain the visual representations such as the color and shape of the product, the visual modal information of the product was extracted by utilizing the contrastive learning framework, where the data enhancement was performed by changing the color and intercepting the center area of the product. Secondly, the textual information of each commodity was embedded into a low-dimensional space, so that the complete multimodal representation of each commodity could be obtained. Finally, a Recurrent Neural Network (RNN) was used for modeling the sequential interactions of multimodal information according to the time sequence of the product, then the preference representation of user was obtained and used for commodity recommendation. The proposed algorithm was tested on two public datasets and compared with the existing sequential recommendation algorithm LESSR. Experimental results prove that the ranking performance of the proposed algorithm is improved, and the recommendation performance remains basically unchanged after the feature dimension value reaches 50.
contrastive learning; multimodal; neural network; sequential recommendation; feature interaction
This work is partially supported by National Natural Science Foundation of China (U1536121, 61370195).
HAN Tengyue, born in 1990, Ph. D. candidate. Her research interests include recommendation algorithm, data mining.
NIU Shaozhang, born in 1963, Ph. D., professor. His research interests include intelligent big data analysis, network information security, digital image processing.
ZHANG Wen, born in 1981, Ph. D. His research interests include intelligent big data analysis, mobile Internet security.
TP181
A
1001-9081(2022)06-1683-06
10.11772/j.issn.1001-9081.2021081417
2021⁃08⁃06;
2021⁃10⁃15;录用日期:2021⁃10⁃29。
国家自然科学基金资助项目(U1536121, 61370195)。
韩滕跃(1990—),女,河北衡水人,博士研究生,主要研究方向:推荐算法、数据挖掘;牛少彰(1963—),男,北京海淀人,教授,博士,主要研究方向:大数据智能分析、网络信息安全、数字图像处理;张文(1981—),四川内江人,博士,主要研究方向:大数据智能分析、移动互联网安全。