基于时尚图谱增强的个性化互补服装推荐

2021-11-10史金婉宋雪萌刘子鑫聂礼强

信息安全学报 2021年5期

史金婉, 宋雪萌, 刘子鑫, 聂礼强

山东大学计算机科学与技术学院青岛中国 266237

1 引言

近年来, 随着时尚电商平台的繁荣发展, 越来越多的用户选择在线购买服装。然而, 享受在线购物便利的同时, 用户常常会面临无法在海量服装市场中找到心仪单品的难题。由于人们常常需要为已购买的单品(如, 上衣)挑选与之相搭配的互补单品(如,下衣)。因此, 个性化互补服装推荐, 即为用户推荐与他/她已购买服装相匹配的互补服装, 逐渐吸引了诸多学者的关注。然而, 对于同一件时尚单品, 不同的人可能会给其搭配不同的互补单品。如图1 所示, 对于同一件黄色无袖衬衫来说, 第一个用户将它与一条白色阔腿五分裤, 一对绿色宝石耳环和一双红色高跟鞋进行搭配; 而第二个用户将其与一条黄灰色碎花短裙, 一对珍珠耳环和一双绿色凉鞋搭配在一起。这其实反映了一个服装搭配领域中的个性化偏好问题。因此, 为了促进电商平台的潜在订单交易,和用户的在线购物体验, 亟需开展有关个性化互补服装推荐的研究(personalized complementary clothing recommendation)。该任务的根本问题在于实现个性化的互补服装兼容性建模, 即对于给定的用户和上衣, 评价下衣的兼容性(匹配程度)。

图1 IQON 社区平台中用户的套装搭配实例图Figure 1 Examples of users’ outfit compositions on IQON

目前, 关于互补服装兼容性建模的研究工作主要围绕一般性的兼容性建模, 而忽略了用户的个性化偏好问题。尽管少数围绕个性化互补服装兼容性建模的研究[1-2]已经展开, 这些研究工作主要是聚焦于建模一阶的单品-单品兼容性交互以及一阶的用户-单品偏好交互来预测个性化服装的兼容性评分。具体来说, 宋等人[2]提出了一个新颖的个性化兼容建模框架(GP-BPR)。该框架从视觉和文本两个方面将用户-单品偏好建模整合在一般的单品-单品兼容性建模中。董等人[1]通过对单品和用户建模引入了一个新颖的个性化胶囊衣橱创建的方法, 来给特定用户进行服装搭配。虽然他们在个性化互补服装推荐中取得了令人钦佩的进步, 然而, 时尚领域中的实体(如,用户、单品和属性)之间的高阶交互关系(highorder interaction relation)却被他们所忽略。比如, 与同一个上衣(top)搭配的下衣(bottom)之间可能共享一些相同的属性(attribute); 有着近似品味的用户也可能倾向于选择有相同属性的单品。

事实上, 在相关领域中, 最近的研究者们已经开始探索时尚实体之间的高阶关系, 并提出了DREP[3]和HFGN[4]。具体来说, DREP[3]将单品之间的额外连接关系注入到成对的兼容性建模中, 进一步增强了对单品的表示学习。值得注意的是, 单品之间的这种额外连接关系信息的应用是有限的, 只能够被用来建模单品-单品之间的兼容性, 无法促进对用户偏好的学习。类似于HFGN[4], DREP[3]在其构建的关系型时尚图谱中忽略了单品丰富的属性知识。而单品的属性知识在个性化互补服装推荐中起着至关重要的作用。在一定程度上来说, 时尚单品之间的兼容性取决于其属性之间的和谐性, 用户对于单品的偏爱程度也依赖于用户对单品属性的喜爱程度。比如, 在图1 中, 对于第一个用户所搭配的第四套服装,其上衣和下衣之所以能够搭配兼容主要取决于黑白颜色之间的兼容性。同时, 该用户在不同套装中均选择了高跟鞋, 这极大可能是因为该用户喜欢高跟这个单品属性。总而言之, 虽然时尚实体之间的高阶关系已经被相关工作所探索, 但是其在个性化互补服装推荐中的潜在价值还没有被充分挖掘。

然而, 联合探索一阶交互和高阶交互关系来进行个性化互补服装推荐极具挑战性。主要挑战如下:1)缺少统一的时尚图谱。在时尚领域的个性化互补服装推荐中, 没有一个统一可用的时尚图谱来表示用户、单品和属性之间的复杂高阶关系。因此, 如何去构建一个时尚图谱来表示时尚实体之间的高阶交互关系对我们来说是一个主要的挑战。2)高阶关系的利用。事实上, 关键的时尚实体, 即用户、单品和属性之间, 不仅有用户-单品(user-item)偏好交互关系以及单品-单品(item-item)搭配交互关系, 而且还有单品-属性(item-attribute)之间的从属交互关系。因此,如何有效地利用它们之间的高阶交互信息, 从而促进对用户和单品的表示学习也是一个至关重要的挑战。3)交互模块的融合。如何将独立的一阶交互建模和协同的高阶交互建模进行有机融合, 进而共同促进个性化互补服装推荐的效果构成了另一个艰难的挑战。

图2 协同时尚图谱的模拟样例图Figure 2 A toy example of the collaborative fashion graph

据此, 我们提出了一个新颖的基于时尚图谱增强的个性化互补服装推荐模型(Fashion Graph- enhanced Personalized Complementary Clothing Recommendation), 简称为FG-PCCR。FG-PCCR 由两个关键的部分组成: 独立的一阶交互建模(Independent One-order Interaction Modeling)和协同的高阶交互建模(Collaborative High-order Interaction Modeling)。其中, 一方面, 独立的一阶交互建模模块致力于通过神经网络和矩阵分解方法分别对单品-单品搭配交互和用户-单品偏好交互进行建模。同时, 为了增强模型效果, 我们将时尚单品的视觉和文本模态均整合进去, 以综合地实现多模态建模。另一方面, 协同的高阶交互模块聚焦于基于协同时尚图谱的高阶交互建模。具体地, 利用图神经网络(Graph Neural Networks, GNNs)的信息传播机制来提取高阶的协同信号, 进一步丰富用户和单品的向量表示。最后, FGPCCR 基于贝叶斯个性化排序框架(Bayesian Personalized Ranking, BPR)[5]将独立的一阶交互建模和协同的高阶交互建模有机统一在一个端到端的模型中。

总体而言, 本文的主要贡献概括为如下三方面:

1) 提出了一个基于时尚图谱增强的个性化互补服装推荐模型FG-PCCR。FG-PCCR 能够将独立的一阶交互建模和协同的高阶交互建模有效地整合在一个端到端的模型中。该工作的关键创新性在于整合了时尚实体(如, 用户、单品和属性)之间的高阶交互关系, 进而有效地促进时尚领域的个性化互补服装推荐的效果。

2) 设计了一个协同的高阶交互建模模块。基于图神经网络, 该模块能够编译时尚实体之间的复杂高阶关系信息并聚合于用户和单品(如, 上衣和下衣),进而促进用户和单品的表示学习, 得到其更丰富的向量表示。

3) 在公开的数据集IQON3000 上进行了全面的实验, 评估所提出模型的有效性。大量实验验证了所提模型相对于基准方法的优越性。同时, 公布了代码、数据和参数设置, 以方便同领域研究人员的对我们工作的复现和拓展。

文章结构安排如下: 第2 章简单回顾了相关工作; 第3 章详细介绍了本文所提出的FG-PCCR 模型;第4 部分阐明了实验的实施细节以及实验结果并进行了综合性分析; 第5 部分对本工作进行了总结, 并针对本文的不足提出了未来改进的方向。

2 相关工作

2.1 时尚分析

近年来, 随着人们对穿着打扮有了更高的美学追求, 时尚领域中的服装兼容性建模问题[6-8]逐渐引发了越来越多科研人员的关注。

目前, 一些工作着力于评估时尚单品对之间的兼容性。McAuley 等人[9]提出, 将时尚单品映射到一个潜在的风格空间, 使可替换或互补单品之间的距离尽可能地近。之后, 研究者们开始利用视觉模态进行兼容性建模。比如, Veit 等人[10]将一对时尚单品的图片输入一个端对端的暹罗网络中, 通过学习视觉上的语义信息, 进而生成服装套装。He 等人[11]提出了Monomer 模型, 通过建模单品视觉上的相似性,来探索单品之间的关系。除了视觉特征, 最近的很多工作也在时尚兼容建模相关的任务中强调了探索多模态特征的重要性。例如, 李等人[12]基于时尚单品的多模态多实例的深度学习, 提出了一个套装质量预测器。另外, 宋等人[8]从时尚社区平台Polyvore 收集并创建了一个套装数据集, 同时设计了一个基于自动编码器的多模态互补单品兼容性建模框架。之后,杨等人[13]提出了一个新颖的神经时尚兼容建模模型TransNFCM, 该框架引入了一个多模态的单品编码器, 能够有效探索不同模态的互补特征。除此之外,研究人员也探索并采用了一些辅助性信息来促进兼容性建模的效果, 比如: 单品种类[14]和域知识[8,15]。具体来说, 宋等人[7]注意到时尚领域积累的丰富的搭配知识, 进而提出了一个基于知识蒸馏的服装兼容性建模模型。该工作清楚地阐释了整合丰富的时尚领域知识来助力数据驱动的时尚兼容性建模的重要性。

另外, 时尚领域的个性化推荐也获得了很多研究者的关注[16-18]。已有时尚领域中的个性化推荐工作主要采用矩阵分解(Matrix Factorization, MF)[19]来建模用户的偏好。MF 能够将每一个用户和单品看作一个有ID 信息的向量, 然后通过内积来建模用户-单品交互。例如, Hu 等人[20]提出了一个函数张量分解模型以解决个性化套装推荐问题。尽管该方法在整套服装推荐中取得了不错的效果, 但是冷启动仍是一个有待探索的问题。为此, He 等人[21]引入了一个可扩展的矩阵分解模型, 将时尚单品的视觉信号整合于用户偏好预测器中, 进而实现推荐任务。

为提高服装兼容性建模的实际应用性, 个性化互补服装推荐已成为当今的研究热点[1-2,20]。例如,宋等人[2]提出了一个关于服装搭配的个性化兼容建模的模型。该模型在一般的兼容性建模中整合了用户的偏好, 同时为了获得用户更精准的偏好, 考虑了视觉和文本两个方面的偏好。另外, 董等人[1]设计了一个个性化胶囊衣橱创建的方法。该方法在考虑用户身材的基础上, 通过对用户和衣服建模, 获得用户的个性化胶囊衣橱进而给用户推荐搭配好的服装。整体而言, 对于个性化互补服装推荐任务来说,尽管这些工作已经取得巨大成功, 然而他们忽略了一个至关重要的因素: 实体(如, 用户、单品和属性)之间的高阶交互关系。这种高阶关系能够传递重要的协同信息来丰富实体的表示向量, 进而提高个性化互补服装推荐的效果, 这也是本工作的研究重点。

2.2 知识图谱

知识图谱(Knowledge Graph)作为一种结构化的语义知识库, 在挖掘实体之间潜在的复杂关系中有着杰出的能力, 被广泛应用于各种研究领域, 例如智能语义搜索[22], 推荐系统[23-25]和智能问答[26-27]。在推荐领域, 研究人员利用知识图谱已经做了大量相关的工作[28-31], 大体上可以分为两类: 以路径为基础的方法和以校正为基础的方法。

以路径为基础的方法旨在提取大量携带高阶关系的路径, 然后将其输入推荐模型中, 对目标用户进行偏好预测。为了处理大量的两个节点之间的路径,研究者一般采用路径选择算法选择最优路径[32-33]或定义元路径模式来限制[34-35]。以路径为基础的方法存在的主要问题是路径选择对于最后的推荐效果有巨大影响, 而且路径不会被优化。另外, 定义有效的元路径需要域知识, 这对于拥有多样化实体和关系的复杂知识图谱来说, 是相当耗费人力的。

以校正为基础的方法旨在联合训练推荐任务和知识图谱构建任务, 通过设计构建知识图谱结构的额外损失来校正整体推荐模型的损失, 比如,CFKG[36]和KTUP[37]。由于该方法并不是直接将高阶关系放入到推荐模型中, 只是以一种隐含的方式进行编码, 所以知识图谱中的高阶关系并不能保证被获取到。之后, 为解决以上问题, 王等人[23]提出了一个知识图谱注意力网络, 能够明确有效地利用知识图谱中的高阶关系进行推荐。尽管知识图谱已经被成功地应用在各种任务中, 但是在时尚领域个性化互补服装推荐任务中的研究还是十分有限的。

现有时尚领域中涉及的图谱[3-4]含有的实体一般只包括用户和单品, 忽略了时尚单品的客观属性知识。事实上, 这些属性知识对于单品兼容建模和用户偏好建模能够传递更多隐含的协同信号, 进而促进个性化互补服装推荐的效果。因此, 本工作在一般的时尚图谱基础上引入了单品的知识图谱(即, 单品-属性从属关系), 构建了一个协同的时尚图谱, 利用用户、单品及属性之间的复杂关系来提高个性化互补服装推荐的效果。

2.3 图神经网络

图神经网络(GNNs)在近年来获得了越来越多学者的注意[23,38]。GNNs 已经变成了一种强有力的建模结构化数据的工具, 通过图进行信息传递, 进而将更丰富细致的信息聚焦于节点, 得到更优的向量表示。

图神经网络的概念首次被Scarselli 等人[39]提出。GNNs 将已有的神经网络拓展并应用于图领域表示的数据中, 能够直接处理图结构数据。虽然GNNs可以被应用于大部分类型的图中, 比如循环图, 非循环图, 有向图以及无向图, 但是最初的GNNs 对于固定点的训练是有一定难度的。之后, 图卷积神经网络(Graph Convolutional Network ,GCN)[40]被提出, 该网络提出了适用于图域的卷积操作, 并通过聚合来自所有邻居节点的信息来实现节点向量表示的更新。由于GCN 需要捕捉图的全局信息来更新节点,Hamilton 等人[41]提出了GraphSAGE, 该模型通过统一抽样和聚合局部邻居的特征来更新节点表示,节省了计算开销。尽管图神经网络能够通过传递任意深度的邻居信息, 但是长期的信息传播可能产生梯度消失问题。为了纠正这个问题, 最近的先进工作[42]尝试在传播过程中引入了门控循环单元(Gate Recurrent Units, GRU)。

由于GNNs 所拥有的杰出的表达能力和模型灵活性, 它已经成功地被应用于各种关于复杂关系的任务中, 包括检索[46-47]和视觉理解[48]等。然而, 在时尚领域的个性化互补服装推荐任务中, 探索GNNs 应用潜力的研究还相对较少。事实上, GNNs 已经被证明在处理复杂图数据方面, 比如社交网络[41,43], 物理系统[44-45], 对于高阶交互关系, 有着强有力的建模能力。据此, 在本工作中, 我们提出的FG-PCCR 模型将以GNNs 为基础, 进而实现协同的高阶交互建模。

3 基于时尚图谱增强的个性化互补服装推荐模型

在本章中, 我们首先将研究的问题公式化, 然后详细地介绍了本文提出的基于时尚图谱增强的个性化互补服装推荐模型FG-PCCR, 模型结构如图3所示, 其中包括两个关键组件: 独立的一阶交互建模模块和协同的高阶交互建模模块。最后介绍了整体模型的目标与优化。

图3 本文提出的FG-PCCR 模型结构, 由两个关键组件组成: 1)独立的一阶交互建模和2)协同的高阶交互建模Figure 3 Illustration of the proposed FG-PCCR, comprising two key components: 1) the independent one-order interaction modeling and 2) the collaborative high-order interaction modeling

3.1 问题定义

3.2 独立的一阶交互建模模块

由于目标下衣不仅要和上衣能够搭配和谐, 还要满足用户的个人偏好, 我们将独立的一阶交互建模进一步分成了两部分: 客观的单品-单品搭配交互建模和主观的用户-单品偏好交互建模。前者旨在挖掘单品之间的一阶交互, 而后者旨在探索用户与单品之间的一阶交互。由于时尚单品通常都会存在视觉模态(即, 图片)和文本模态(即, 类别元数据和简单的描述), 因此, 在本工作中, 我们同时探索这两种模态来综合衡量时尚单品对(上衣-下衣)的兼容性以及用户的个人偏好。

类似于已有工作[8], 我们认为存在一个潜在的、非线性的兼容空间, 能够连接来自互补类别的时尚单品, 使得我们可以建模互补单品之间的兼容性。由于多层感知机(Multi-Layer Perception, MLP)在各种表示学习任务中取得了引人注目的成功, 我们在客观的单品-单品交互建模中采用了多层感知机, 来学习时尚单品的向量表示。假设我们采用的多层感知机一共有K 个隐藏层。令 xiy, x ∊{v , c} , y∊{ t , b}表示时尚单品视觉(文本)模态的嵌入向量表示, 其中v表示视觉模态, c 表示文本模态, t 表示上衣, b 表示下衣。将单品各模态的嵌入向量表示 xiy输入多层感知机, 我们有如下公式:

公式中, α 表示非负的平衡参数, 用来校正不同模态在兼容性建模中的贡献。

考虑到不同用户对于下衣的偏好有所不同。比如, 有的用户喜欢穿牛仔裤, 而有的用户更偏爱裙子。因此, 除了客观的单品-单品兼容性建模, 我们也整合了主观的用户-单品偏好交互建模。鉴于矩阵分解[19]已经在大量的个性化推荐任务[2,20-21,49]中展示出了优越的效果, 在本工作中, 我们也选用了矩阵分解来对用户-单品的偏好交互进行建模。具体地,我们将用户 um对于下衣 bj的偏好分数定义为如下数学表达式:

最后, 根据独立的一阶交互建模, 对于给定的用户 um, 我们根据如下公式得到上衣 ti和下衣 bj的个性化兼容分数:

公式中, λ 是非负的平衡参数。oij指的是上衣 ti和下衣 bj之间的客观兼容性得分, 而 pmj指的是用户 um对下衣 bj的主观偏好得分。

3.3 协同的高阶交互建模模块

如前所述, 大部分已有的个性化互补服装推荐研究[1-2]致力于利用时尚单品(比如, 上衣或下衣)的多模态数据(比如, 视觉和文本模态)来建模独立的单品-单品交互和用户-单品交互, 而忽略了实体之间的协同高阶关系。事实上, 与一个给定的上衣相搭配的下衣可能共享某些特定的属性模式(如, 颜色、种类、样式等)。同时, 有着相似穿搭品味的用户们也可能偏好具有类似属性特征的时尚单品。据此, 本工作在一般的时尚图谱中又整合了时尚单品的属性知识,打开了探索类似的用户以及类似的时尚单品之间的高阶交互关系的大门。作为本工作的一个主要新颖性贡献, 我们充分利用时尚实体(即, 用户, 单品和属性)之间复杂的高阶交互关系来增强用户和时尚单品的向量表示, 这种做法能够使我们对于单品对之间的兼容性建模以及用户对单品的偏好建模, 挖掘更深层次的协同信息, 进而促进整体的个性化互补服装推荐的效果。

在一定程度上来说, 受文献[23]的启发, 我们首次基于公开可用的数据集创建了一个大规模的双向的协同时尚图谱G , 该时尚图谱可以表示为{( h, r , t )| h, t∊E, r∊R} ,其中, 符号E 表示一个包含用户, 时尚单品(即, 上衣和下衣)以及单品属性的实体集合; 符号R 表示头实体和尾实体之间的关系集合, 包括用户-单品偏好交互, 单品-单品搭配交互和单品-属性从属交互。此外, 在本工作中, 我们采用了图卷积神经网络GCNs, 其最初被设计是用于半监督的节点分类任务, 而我们用其循环获取并聚合来自更高跳的邻居节点的信息, 进而促进用户、上衣和下衣的表示学习。特别地, 我们首先利用高斯分布来初始化协同时尚图谱G 中的每一个节点, 并且将初始化后的节点向量表示为0vh 。然后, 每个节点v∊E 的传播机制可以用如下所示的数学表达描述:

3.4 整体模型的目标与优化

鉴于贝叶斯个性化排序框架已经在许多成对的隐含偏好建模工作[2,53-54]中取得了杰出效果, 在本工作中, 我们同样采用了BPR 框架进行目标优化。根据文献[21], 我们所提出的FG-PCCR 模型的最后的目标函数, 可以被定义为如下的数学表达式:

公式中 , Strain={( m, i , j , k )|um∊ u ^ ( ti, bj)∊^ bk∊B bj}表示训练数据集。每个四元组( m, i , j , k )表示针对上衣 ti, 用户 um更加偏好于下衣bj,而不是下衣 bk。符号 σ (∙)指的是sigmoid 函数。符号Θ 指的是所提模型FG-PCCR 的模型参数集, 即H ,W(l-1)}其中,符号H 是由时尚图谱G 中所有实体的向量表示构成的矩阵。为了防止模型过拟合, 本工作采用了通过参数ρ 校正的L2 范数 || Θ ||。整个模型的优化算法被简明地总结在算法1 中, 以及图4 详细描述了我们所提模型FG-PCCR 的工作流程。

图4 基于时尚图谱增强的个性化互补服装推荐模型的工作流程图Figure 4 The workflow of fashion graph-enhanced personalized complementary clothing recommendation model

4 实验

为了评估本文提出的基于时尚图谱增强的个性化互补服装推荐模型FG-PCCR, 我们在真实的数据集IQON3000 上做了大量实验。整个实验的开展旨在回答以下四个研究问题:

问题一: 我们提出的FG-PCCR 模型是否能超越最新的基准方法？

问题二: FG -PCCR 中协同的高阶交互建模模块是如何影响整体模型效果的？

问题三: 不同的模态信息对于模型效果的贡献是怎样的？

问题四: FG-PCCR 在互补时尚单品检索应用中的效果是怎样的？

算法1. FG-PCCR 模型的训练过程算法.

4.1 数据集

为了验证本工作提出的FG-PCCR 模型的有效性,我们采用了时尚领域中公开可用的基准数据集IQON3000[2]。此数据集由3568 个用户创建的3087套时尚套装组成, 一共包含了672335 个时尚单品(比如, 上衣、下衣、外套、鞋子等)。每个时尚单品都具有一个视觉图片, 一条标题描述, 和相应的类别元数据。表1 汇总了IQON3000 数据集的详细统计数据。

表1 基准数据集IQON3000 的数据统计Table 1 Data statistics of the benchmark data set IQON3000

本工作以上衣和下衣之间的互补推荐举例, 因此只保留了该数据集中各套装的上衣和下衣数据。最后一共获得由3236 个用户搭配而成的2116791 套仅由上衣和下衣组成的套装。对于用户 um的每一个上衣-下衣对( ti, bj), 我们随机从整个下衣的数据集中获取一个负例, 即下衣 bk,进而构成四元组( m, i , j , k ), 其中 m, i , j ,k 分别表示的是用户, 上衣,正例下衣, 负例下衣。据此, 我们获得了一个四元组数据集S, 该数据集被随机分成三部分: 80%作为训练集 Strain, 10%作为验证集 Svalidate, 10%作为测试集Stest。

4.2 实验设置

4.2.1 评估指标

为了对本工作所提出的FG-PCCR 模型效果进行全面彻底的评估, 本文采用广泛使用的ROC 曲线面积(Area Under Curve, AUC)[53]以及平均倒数排序(Mean Reciprocal Rank, MRR)[54]作为衡量个性化互补服装推荐效果的评估指标。首先, 我们定义的AUC 数学表达公式如下所示:

公式中 , E( m) := {(i , j , k )|( m, i , j ) ∊ Stest^( m, i, k ) ∉ S}。 f ( a )是一个指示函数。若参数a 大于0, 返回1; 否则, 返回0。其次, MRR 评估指标的数学表达公式如下所示:

4.2.2 实施细节

时尚图谱。区别于文献[22],在本文中,我们引入了三种实体(即, 用户、单品和属性)作为协同时尚图谱的节点。特别地, 在本文的个性化互补服装推荐的场景中, 单品指的是一个上衣或者下衣。在协同时尚图谱中, 实体之间的关系包括用户-单品偏好交互关系,单品-单品搭配交互关系以及单品-属性从属交互关系。值得注意的是, 在我们的工作中首次在时尚图谱中引入单品-属性从属交互关系。根据属性的类型,本工作做了以下预处理: 我们手动将一些属性(比如,印花、袖长和衣长等)统一成一种类型, 即样式; 同时,通过删除一些冗余的属性(比如, category*color),我们将时尚单品的所有属性汇总成五种类型, 即颜色(color), 材质(material), 品牌(brand), 种类(category)和样式(pattern)。值得注意的是, 不同于研究工作[4],在构建的协同时尚图谱中, 我们引入了互补的时尚单品之间的搭配关系, 同时将时尚单品的属性看作图谱中节点, 进而促进实体的表示学习。

同样值得一提的是, 在我们的个性化互补服装推荐工作中, 我们采用了直推式策略来构建协同时尚图谱。其中, 我们将整个数据集S 中所有的用户、单品以及属性都看作实体节点。与此同时, 整个数据集S 中所有的单品-属性从属交互都看作图谱中的关系。至于用户-单品交互关系和单品-单品搭配关系的数据则只取自于训练集 Strain。在表2 和图5 中, 我们分别展示了构建的协同时尚图谱的数据统计以及部分可视化图。

表2 协同时尚图谱的数据统计表Table 2 Data statistics of the collaborative fashion graph

图5 协同时尚图谱的部分可视化图Figure 5 Visualization of partial collaborative fashion graph

文本表示。在个性化互补服装推荐工作中, 我们将每个时尚单品的标题和类别元数据均看作文本信息。由于数据集是从日本的电商网站所爬取, 其文本信息是日语, 本文并利用日本的形态学分析器Kuromoji①http://www.atilika.org/.进行分词处理。本文没有采用传统的语言特征[55-56], 而是鉴于卷积神经网络结构(Convolutional Neural Network, CNN)在各种自然语言处理任务[57-58]中已取得令人瞩目的成就, 采用CNN 来提取单品的文本特征。特别地, 我们首先将单品的文本模态信息表示成一个矩阵。矩阵的每一行是一个300 维的词向量表示, 对应相应的单词。这个300 维的词向量是通过NINJAL Web 日本语料库[61]提供的word2vec Nwjc2vec 工具获取的。之后, 我们设置了单通道的CNN,它由一个卷积层和一个最大池化层组成。特别地, 我们采用了四种卷积核, 大小分别为2, 3, 4, 5。每一个卷积核都对应100 个特征图。另外, 我们选用的激活函数是Rectified Linear Unit(ReLU)。最终, 我们通过处理每个时尚单品的文本模态, 得到了一个400 维的表示向量。

视觉表示。由于深度卷积神经网络在各种图片表示学习任务[60-62]中已经取得了非常出色的效果,因此, 本工作采用高级的深度卷积神经网络来获得时尚单品的视觉表示。特别值得注意的是, 本文采用的是50 层的残差网络(ResNet50)[63]。将每一个时尚单品的图片输入网络中, 然后将网络中平均池化层的输出作为视觉模态的表示向量。因此, 我们将时尚单品的视觉模态表示为一个2048 维的向量。

参数设置。适应性估计方法(Adam)[64]在非凸优化问题中含有诸多优势: 计算高效, 占用内存较少,调参方便, 适用于大规模数据问题, 能解决高噪音等问题。因此本工作采用Adam 算法进行模型优化,最小化之前提到的损失函数来学习所有参数。而且,我们采用网格搜索策略来决定校正参数ρ 以及平衡参数(α , β , γ ,ζ ,τ )在本模型中的最优值。另外, 批处理大小、独立交互建模中的隐藏单元的大小以及学习率η 分别在[256, 512, 1024], [256, 512, 1024]和[0.05, 0.01, 0.005, 0.001]中搜索。在协同的高阶交互建模部分, 协同时尚图谱中所有实体节点的初始化的表示向量大小设置为64。同时, 我们不仅调整协同的高阶交互建模模块的深度L在[1, 2, 3, 4, 5, 6] 范围内,即GCNs 的传播层数。我们根据经验将独立的一阶交互建模中的隐藏层的大小设置为K=1。与此同时, 我们提出的FG-PCCR 模型通过60 个epoch 进行了微调, 并且在测试集上的效果都被一一展示出来。值得注意的是, 本工作提出的FG-PCCR 模型在Pytorch 工具上实现。

类似于其他深度学习方法[7,8,65]中所描述的收敛性, 本文也首先验证了所提模型FG-PCCR 的收敛性。具体来说, 我们在图6 中展示了所有实例在训练过程中的平均损失(Loss)以及FG-PCCR 训练一轮的AUC 变化过程。正如我们从图中看到的, 在前几个epoch 内, Loss 和AUC 这两个值急剧下降, 然后倾向于稳定, 这表明我们提出的FG-PCCR 模型具有良好的收敛性。

图6 FG-PCCR 模型中训练损失和准确度收敛性的描述图Figure 6 Illustration of training loss and accuracy convergence of the proposed FG-PCCR

4.3 模型比较

为了验证我们所提出的基于时尚图谱增强的个性化互补服装推荐模型的有效性, 我们选择了如下所述的前沿基准方法:

POP: 为了衡量上衣和下衣之间的兼容性, 我们采用“popularity”这个术语来表示某个下衣的受欢迎程度。“popularity”被定义为, 在训练集中与这个下衣搭配的所有上衣的数量。

Bi-LSTM: 根据文献[6],我们采用了一个双向的LSTM 来发现套装兼容性序列, 根据上一个单品预测下一个单品。其中, 我们将双向的LSTM 的损失看作一个套装兼容性的指示器。值得注意的是, 在我们研究个性化互补服装推荐的背景下, 其中的每个套装只有两个时尚单品组成: 一个上衣和一个下衣。

BPR-DAE: 我们采用了文献[8]中引入的内容为基础的神经模型, 它通过一个双向的自动编码器能够联合建模时尚单品的不同模态之间的一致关系,以及单品对之间的隐藏偏好。然而, 值得注意的是,BPR-DAE 在互补服装推荐中忽略了用户因子。

BPR-MF: 我们使用了研究文献[63]中引入的成对排序方法。其中, 用户和时尚单品之间潜在的偏好关系通过矩阵分解的方式来获取。

KGAT: KGAT[23]作为一个个性化推荐的方法,它仅仅使用到了实体之间的偏好关系以及属性知识,却忽略了单品之间内部的兼容性关系以及其他模态信息, 比如, 视觉和文本模态。在我们的工作中, 为了公平起见, 我们意在对给定的用户和时尚单品(比如, 上衣)来推荐另一个时尚单品(比如, 下衣)。

HFGN:HFGN[4]是一种关于个性化套装推荐的方法。在本工作中, 我们通过构建一个分层的图神经网络来获得用户和套装的表示, 然后进行个性化推荐。然而, 该模型没有利用时尚单品的多模态信息(如, 文本信息)。

VTBPR: 我们将文献[21]中引入的VBPR 方法扩展到了VTBPR。该模型不仅利用了时尚单品的视觉模态, 还将其文本模态也考虑进去, 通过视觉和文本模态综合地对用户的偏好进行建模。

GP-BPR: 该方法[2]是近年来服装领域中一个杰出的个性化兼容建模的模型, 该模型将一般的兼容性建模和个人偏好建模有机地整合在了一起。特别值得注意的是, GP-BPR 忽略了实体之间的高阶关系,然而这些高阶关系却能够挖掘在单品兼容性和用户偏好上的协同信息。

表3 中详细地展示了不同方法的实验比较结果。为了验证模型的效果改进是显著性的, 我们在所提出模型FG-PCCR 和基准方法之间做了统计显著性检验。从表3 中, 我们可以得到如下的观察结果:

表3 不同方法在AUC 上的效果比较表。符号*表示我们的模型和所有基线方法相比, 效果改进是统计显著性的(p ＜ 0.01)Table 3 Performance comparison among different approaches in terms of AUC. The symbol * denotes that the performance improvement of our model is statistically significant with p ＜ 0.01 compared against all the baselines

第一, 和朴素的方法(即, POP 和RAND)相比较,Bi-LSTM 通过充分探索多模态的数据提高了实验效果, 这表明在时尚单品之间的兼容性建模中, 多模态数据确实起到了至关重要的作用。

第二, BPR-DAE 的效果优于Bi-LSTM。一个可能的原因是对于一般的只有两个时尚单品的套装的兼容性建模来说, 独立的一阶交互建模比起序列建模来说, 起到的建模效果是更显著的。

第三, GP-BPR 相对于BPR-MF 和VTBPR 来说,其实验结果展示了巨大的优越性, 这证实了在个性化互补服装推荐中, 联合建模时尚单品之间的兼容性以及用户对单品的偏好是很有必要的。

第四, 对于GP-BPR 和VTBPR 方法来说, 其实验效果均优于KGAT 和HFGN, 这在一定程度上表明, 在个性化服装推荐中, 考虑单品的文本和视觉特征比起只考虑用户单品之间的高阶关系来说, 获得的实验效果更好。

第五, 整体而言, FG-PCCR 和以上提到的所有基准方法相比较, 它取得了最好的实验效果。特别值得注意的是, FG-PCCR 和结果最好的基准方法GP-BPR 相比, 它的评估指标AUC 相比于GP-BPR提高了2.39%, 这表明在个性化互补服装推荐任务中,整合协同时尚图谱来探索时尚实体之间的高阶交互关系是十分有必要的。这背后的原因在于基于时尚图谱的高阶交互建模能够在单品兼容性和用户偏好上传播协同信号, 进而促进用户和时尚单品的表示学习。

4.4 高阶交互建模对模型的影响

为了对本工作提出的FG-PCCR 中协同的高阶交互建模模块有更深的理解, 本文做了以下两部分实验。一方面, 我们探索了GCNs 的深度在协同的高阶交互建模部分的影响。另一方面, 我们也做了消融实验来验证其在整个模型中的影响。

4.4.1 GCNs 深度在高阶交互建模中的影响

由于GCNs 的深度可能会影响协同的高阶交互建模并进而影响个性化互补服装推荐的效果, 所以,我们做了对应的敏感性分析。对于模型来说, 本文设置了不同的传播层个数, 范围是从1～6。相应地, 我们得到了6 个衍生模型, 分别表示为FG-PCCR-1、FG-PCCR-2、FG-PCCR-3、FG-PCCR-4、FG-PCCR-5、FG-PCCR-6。

如图7 所示, 我们观察到了模型采用不同GCNs深度时, 在ACU 评估指标上的实验效果。从图中我们可以看到, 随着协同的高阶交互建模模块中GCNs深度从1 到5 的不断增加, 评估指标AUC 的大小也在明显增大。这说明GCNs 深度的增加在一定程度上能够逐渐增强个性化互补服装推荐的效果。然而,继续增加GCNs 深度, 即, L=6 的时候, 模型效果却降低了。显而易见, FG-PCCR-5,即L=5 时, 本文所提模型取得了最好的实验效果。这表明通过五阶的交互建模来捕获有关单品兼容性和用户偏好上的协同信号是足够充分的。另一个可能的解释是, 当使用的GCNs 有着更多传播层数的时候(比如, L=6), 有关单品兼容性和用户偏好的传播信息会得到累积, 这可能会导致过平滑, 因此进一步恶化实验的效果[66-67]。

图7 不同深度GCNs 对模型FG-PCCR 的效果比较图Figure 7 Performance comparison of FG-PCCR with different depth of GCNs

4.4.2 消融实验

为了验证协同时尚图谱在个性化互补服装推荐任务中的影响, 我们将本工作所提出的FG-PCCR 模型与其两个变体进行了实验比较: FG-PCCR-woI 和FG-PCCR-woH。具体来说, FG-PCCR-woI 表示通过设置平衡参数τ=1 , 将独立的一阶交互建模模块从整个的 FG-PCCR 模型中删除之后得到的模型;FG-PCCR-woH 指的是通过设置平衡参数τ=0 , 将协同的高阶交互建模模块从整个的FG-PCCR 模型中删除之后得到的模型。由于FG-PCCR-5 在以上4.4.1的实验中已经展示出了最好的效果, 因此这部分的实验我们是在FG-PCCR-5 模型基础上进行的。

表4 展示了消融实验在AUC 评估指标上的效果比较。从表4 中, 我们可以清晰地观察到, FG-PCCRwoH 方法的效果很大程度上超越了FG-PCCR-woI 方法。这样的实验结果表明, 独立的一阶交互建模在个性化互补服装推荐中起到了主导的作用。然而, 缺少协同的高阶交互建模模块的FG-PCCR-woH 方法的实验效果劣于我们提出的FG-PCCR 模型。这说明协同时尚图谱可以看作时尚领域中个性化互补服装推荐任务的一种强有力的辅助信息, 它能够有效地建模用户, 单品和属性之间的高阶交互关系, 进而捕捉隐含的兼容信号和偏好信号, 从而提高个性化互补服装推荐的效果。

表4 消融实验在AUC 上的效果比较表Table 4 Performance comparison on ablation study in terms of AUC

为了直观地展示协同时尚图谱在我们所提出的FG-PCCR 模型中起到的重要作用, 我们在图8 中可视化了一些实例。具体地, 为了客观的分析, 我们将FG-PCCR 模型与FG-PCCR-woH 模型的实际效果在测试四元组中进行了比较。由于展示清晰, 本文中只展示了部分时尚图谱来进行分析。其中所有的四元组满足条件: {um, ti}:bj＞ bk, 即, 对于给定的用户um和上衣 ti, 正例下衣 bj比负例下衣 bk搭配的效果更好。同时, 我们只是在时尚图谱中可视化了一些关键的高阶交互关系, 直观地强调彩色线标识的高阶交互关系的影响。正如我们从图8 中所观察到的,FG-PCCR 模型在前两个例子中给出了正确的评估结果, 同时在第3 个例子中得到了错误的评估结果, 然而, FG-PCCR-woH 模型却在这3 个例子中均得到了与FG-PCCR 相反的结果。通过观察图8 中所展示的部分协同时尚图谱, 我们注意到, 关于用户user1,FG-PCCR 模型获得正确的评估结果的原因, 可以从以下两个角度进行总结。一方面, 对于用户user1 所在的部分时尚图谱来说, 其中红色线标识的高阶关系表明, 用户user1 曾经对于给定的上衣 ti搭配的下衣与本工作给定的正例下衣 bj共享属性“chiffon”(雪纺), 这可能促进了单品对的兼容性建模。另一方面,图中绿色的交互表明, 正例下衣 bj被另一个用户所偏爱, 这个用户和用户user1 因为都喜欢裙子所以有着类似的时尚品味, 故正例下衣 bj也很可能被用户user1 所偏爱, 所以, 这可能促进了用户偏好建模。因此, 总体而言, 对于用户user1 来说, 为搭配上衣it ,相比下衣kb 来说, FG-PCCR 模型给下衣 bj分配了更高的个性化互补服装兼容性评分。同理, 第二个例子也可以得到类似的观察结果。

然而, 除了成功的评估结果, 协同的时尚图谱对于整个FG-PCCR 模型来说, 也可能导致失败的评估结果。正如图8 中第3 个样例所示, 下衣 bj和kb , 均与用户user3 所购买的上衣搭配过的下衣共享类似的属性(如红色和黄色线标注的关系)。而负例kb 另外通过绿色线标注的关系来促进用户的偏好建模, 导致负例kb 的个性化兼容性评分高于正例 bj, 得到了失败的评估结果。可能的原因是基于协同时尚图谱的用户偏好预测只是基于单品的种类信息进行的, 对于我们的个性化互补服装推荐任务会产生一定程度上的影响。

图8 协同的高阶交互建模的影响描述图。所有的四元组都满足条件 { um ,t i }: b j ＞ bk我们只是在协同时尚图谱中可视化了一些关键的高阶关系并用线的颜色来直观地展示Figure 8 Illustration of the effect of the collaborative high-order interaction modeling. All the quadruplets satisfy the condition that { um ,t i }: b j ＞ bk. We only visualize some key higher-order relations in the collaborative fashion graph and intuitively highlight their effects with line colors

4.5 模态比较

为了表明在时尚领域的个性化互补服装推荐中,充分利用多模态数据的优势, 我们设计了模型FG-PCCR的3个变体: FG-PCCR-V, FG-PCCR-C以及FG-PCCR-G。上述这 3 个变体是在我们的模型FG-PCCR 的基础上, 分别只考虑视觉模态, 文本模态和图的结构化模态所得到的模型。类似于4.4.2 小节中的消融实验, 这部分的实验我们也是基于FG-PCCR-5 所做, 因为它在前面部分的实验中展示出了最优的实验结果。

表5 展示了不同的模态在AUC 评估指标上的比较结果。从此表中, 我们可以获得以下观察结果: 1)本文提出的FG-PCCR 模型, 利用多模态数据信息的基础上, 在个性化互补服装推荐中实现了最好的实验效果。具体来说, 从AUC 评估指标来看, 我们的方法得到的实验效果比FG-PCCR-V, FG-PCCR-C 以及FG-PCCR-G 的效果分别提高了3.85%、3.48%及12.16%。这充分表明视觉信息、文本信息和图结构信息之间相互互补, 并联合促进个性化互补服装推荐的效果。2)只考虑文本模态的FG-PCCR-C 比其他两种分别只考虑视觉模态和图模态的模型, 即FG-PCCR-V 和FG-PCCR-G, 取得的效果更优。这说明在时尚领域的个性化互补服装推荐任务中, 文本模态的贡献更多。一个可能的解释是因为单品的文本信息通常更加具体, 能够清晰明了地传递出时尚单品的关键特征, 从而提升个性化互补服装推荐性能。

表5 不同模态在AUC 上的效果比较表Table 5 Performance comparison on different modality

4.6 互补时尚单品检索应用

为了有效地评估我们所做工作的实际应用性,我们通过互补的时尚单品检索任务来评估提出的FG-PCCR 模型。类似于文献[68], 我们将每一个用户-上衣对( um, ti)都被看作为一个查询。然后, 为每一个查询, 我们随机地选取T 个下衣作为候选下衣集合。该集合包含一个正例下衣和T-1 个通过随机选取的负例下衣。之后, 我们将这些候选下衣输入经过训练的模型之中, 然后计算得到其与给定的查询( um, ti)的个性化互补服装兼容性评分 si(jm)。最后, 根据该分数可以获得一个关于候选下衣的排序列表。在本工作的设置中, 我们聚焦于真实结果(即, 正例下衣)在所有候选下衣排序列表中的平均位置, 因此采用了MRR 评估指标。

图9 展示了不同方法在时尚单品检索中的MRR效果。整体而言, 在不同的下衣候选数目实验中, 本文提出的FG-PCCR 模型相比较于其他的基准方法,展示出了杰出的优越性。这样的结果再次证明我们提出的FG-PCCR 方法在互补的时尚单品检索任务中的鲁棒性和有效性。

图9 不同方法关于不同的下衣候选数量的MRR 效果比较图Figure 9 Performance of different methods in regard to MRR at different numbers of the bottom candidates.

另外, 协同的高阶交互建模模块对独立的一阶交互建模模块起到了强大的辅助作用, 为了对其有更深和更直观的理解, 本文可视化了互补的时尚单品检索中的部分实例的排序结果, 如图10 所示。正如我们从图中所观察到的, 与忽略高阶交互建模的FG-PCCR-woH 模型相比, 本文提出的FG-PCCR 模型拥有巨大的优势, 它能够将互补的正例单品尽可能地排在前列。这再次验证了在时尚领域的个性化互补服装推荐中, 时尚图谱中的高阶交互关系起到了举足轻重的作用。

图10 排序结果描述。绿色框中标出的下衣为正例Figure 10 Illustration of the ranking results. The bottoms highlighted in the green boxes are the ground truth

5 总结与展望

5.1 总结

在本工作中, 我们提出了一个新颖的基于时尚图谱增强的个性化互补服装推荐模型FG-PCCR, 该模型能够通过联合独立的一阶交互建模和协同的高阶交互建模促进个性化互补服装推荐效果。在我们研究任务中, 目标是对给定的用户和目标上衣, 搭配一件下衣。搭配的目标下衣不仅要和上衣搭配和谐, 而且还要满足用户的偏好。

首先, 独立的一阶交互建模涉及了用户-单品交互或者单品-单品交互这样的一阶关系, 它包括主观的用户-单品偏好交互建模以及客观的单品-单品搭配交互建模。同时。时尚单品一般都有多种模态的信息, 在本工作中, 为了提高个性化服装搭配效果,我们通过神经网络和矩阵分解的方法对两种模态信息(即, 视觉模态和文本模态)进行一阶交互建模。

其次, 我们基于公开可用的数据集IQON3000构建了一个协同的时尚图谱并将其引入协同的高阶交互建模模块中。这是本文提出的一个主要创新点。该协同时尚图谱的实体节点包括用户、时尚单品以及单品的属性, 关系边包括用户-单品偏好交互关系,单品-单品搭配交互关系以及单品-属性从属交互关系。整体而言, 构建的时尚图谱是一个协同图谱, 既包括客观的知识(如, 单品的属性), 又包括变化的交互(如单品-单品交互关系)。基于此协同时尚图谱, 我们可以得到用户、单品及属性之间的高阶交互关系,同时, 结合卷积神经网络GCNs 进行了协同的高阶交互建模, 进一步挖掘潜在的用户隐藏偏好及单品兼容性。

最后, 我们在真实的数据集上做了大量的实验,对比了本工作所提出的FG-PCCR 模型与最新的基准方法的效果, 探究了协同的高阶交互建模模块对整个个性化互补服装推荐模型的影响, 研究了不同模态对整个模型的作用, 探索了FG-PCCR 在时尚互补单品检索中的实际应用价值。总体而言, 实验表明了个性化互补服装推荐中考虑时尚图谱的必要性以及验证了FG-PCCR 模型的有效性。

5.2 展望

本文设计的基于时尚图谱增强的个性化互补服装推荐模型取得初步成效, 但是仍然有诸多问题和挑战有待解决和探索, 我们将持续跟进以下相关研究:

(1) 在本工作中, 构建的协同时尚图谱只考虑了单品的属性信息, 而忽略了用户的属性信息, 比如用户的身高、体重、年龄、肤色、身材等信息。其实, 用户属性也可以看作图谱中的实体节点, 使得构建的协同时尚图谱中的知识更丰富, 有助于模型学到更精准的用户偏好关系以及单品之间的兼容性关系。本工作未涉及的根本原因是已有的服装领域中可用于个性化互补服装推荐的相关数据集均没有用户的属性信息。在未来工作中, 我们打算进一步融入用户属性信息, 构建一个包括用户和时尚单品的属性信息的完整大规模数据集, 基于此数据集构建关系更丰富的协同时尚图谱, 从而提高个性化互补服装推荐的效果。

(2) 在本工作中, 我们将协同的高阶交互建模中的实体节点的所有邻居节点均平等对待, 从不同邻居获取的信息重要性都看作是一样的。然而实际上,不同的邻居对于实体节点的贡献应该是不同的, 这样才能准确了解个性化服装搭配的本质原因。因此,在未来的工作中, 可以增加注意力机制来区分不同邻居的贡献大小, 为协同时尚图谱中不同的交互关系分配重要权重, 可以确定最相关的方面, 从而解释个性化互补服装推荐的根本原因。故可解释性的基于时尚图谱增强的个性化互补服装推荐是本工作的另一个非常值得研究的方向。