APP下载

知识图谱在互联网电商平台商品个性化推荐中的应用探索

2023-07-17杨少秋

计算机应用文摘 2023年13期
关键词:质量评估个性化推荐知识图谱

摘要:为更好地提升商品、用户及购物场景之间的匹配效率,挖掘用户的潜在需求,利用电商平台的商品数据及外网数据,基于专家知识辅助,构建了以《商品属性属性值)为主的电商域商品知识图谱,并提出了构建电商常识属性知识三元组(头实体属性尾实体)的新思路,开发了图谱质量众包评估系统。将商品知识图谱创新性地应用于个性化商品新品推荐改善及兴趣知识导购卡片等场景中,通过50%流量对照的AB实验表明,应用场景的点击率分别有11.5%和8.6%的提升,点击转化率分别有23.2%和15.4%的提升.表明电商知识图谱可以有效应用于电商平台个性化及智能化的场景中。

关键词:电商域;知识图谱;常识属性;质量评估;个性化推荐

中图法分类号:TP391 文献标识码:A

1 概述

在互联网时代,人们的购物习惯逐渐从传统的搜索式购物向个性化推荐式购物方式转变,这也是互联网电商平台争相发力的突破口,即通过挖掘用户潜在的喜好或隐性需求,推动业绩进一步提升。通常的个性化推荐系统是采用机器学习的方式,利用用户的正负行为样本(如浏览或购买行为)来训练推荐算法模型,最终得到某一用户推荐商品的序列。这种方式对用户潜在喜好或隐性需求的挖掘效果不佳。而知识图谱中蕴含商品属性与属性之间,实体与实体之间丰富的关系,因而可以更好地挖掘用户的潜在偏好,并且具有更好的可解释性。

2012 年,人们开始广泛研究知识图谱并将其应用于产业领域[1] 。知识图谱用于描述和分析真实环境中各种类型的实体、概念以及它们之间的联系,通常由三元组来表示:〈实体⁃关系⁃实体〉,〈实体⁃属性⁃属性值〉[2] 。而在电商知识图谱中专家知识很多,核心是品类和概念。目前,市面上只有通用的公共百科类图谱,没有公开的电商领域的商品知识图谱,所以电商平台需要立足于自身能力和知识数据沉淀,构建属于自己的電商知识图谱。

本文阐述了项目是如何利用商品底层数据及外网数据,并在构建常规商品图谱的基础上,提出并构建常识属性知识三元组〈头实体⁃属性⁃尾实体〉。然后,将其创新性地应用于商品个性化新品推荐改善及兴趣知识导购卡片等场景中,并为后期其他的智能应用提供经验和基础。

2 构建和完善商品知识图谱

互联网电商平台的核心要素是商品,项目通过顶层定义和底层抽取的综合方式,采用自顶而下和自底而上的混合模式来构建商品图谱[3] ,如图1 所示。

2.1 知识建模

该模块核心任务主要是在多源数据中构建商品领域知识体系。商品领域知识体系的构建是对领域分类(如品类分类)、属性以及分类之间关系的定义,具有较强的抽象性和概括性[4] 。在公司商品类目属性体系的基础上,项目邀请了商品及运营专家共同参与构建。

同时,项目又通过爬虫及第三方获取的方式补充了大量外网数据,以丰富领域知识信息。以美妆商品为例,通过领域建模,明确了美妆分类、属性和分类之间关系(如大类和小类关系等)的定义。

2.2 知识图谱构建

在2.1 节的基础上,图谱构建的流程是:知识获取→知识抽取→知识融合→图谱评估[5] ,中间还穿插着常识属性知识三元组的抽取过程。项目应用多项技术栈,包括命名实体识别、关系抽取、槽填充、事件抽取等,以获取知识和抽取关系[6] ,构建图谱。

2.2.1 知识获取

图谱知识由2 部分组成,一部分是平台沉淀的商品数据(主要基于结构化数据的类目属性体系),另一部分是外网数据(“爬虫+第三方”方式获取),而这部分数据在初始阶段需要对商品ID 进行去重处理。

2.2.2 知识抽取

在2.2.1 节的基础上,针对商品标题等非结构性文本数据(如法国原装进口娇韵诗V 脸精华纤妍/ 纤颜紧致兰花面部护理精油30 ml)等,需要通过命名实体识别(如“bert+CRF 算法”[7] )等技术手段,识别出命名实体,并将其归类为商品名称、场景名称、人物姓名等事先定义好的类别。

NER 过程后,再通过关系抽取、槽填充等方式进行关系抽取,利用TextRunner 等算法,获得实体与实体间的语义关系并填充明确定义的属性值。形成〈美妆,属性,属性值〉为主的图谱结构。

2.2.3 知识融合

知识融合的方法主要有实体对齐、实体解析、实体消歧、实体链接等[8] ,其主要目的是获得更完整的知识描述和知识之间的关联关系,实现知识的互联、互补和融合。以领域知识体系为基础,通过本体对齐的基础步骤,对类、属性项和属性值进行对齐,以解决异构问题。以美妆为例,防晒乳、防晒霜、防晒露等都属于“防晒霜”,提亮、增亮、亮肤、透亮等都属于“美白”。因此,需要将这些实体进行融合。

此类融合方式在个性化推荐过程中还可以提升图谱召回的丰富性和合理性。比如,当用户要购买美白的护肤品时,其他提亮功能的护肤品也可以被推荐给用户,以提升推荐结果的命中率。其具体如图2所示。

2.2.4 构建电商常识知识三元组

上文构建的知识图谱里的商品属性是多年沉淀下来的客观属性值。但在实际使用过程中发现,常识属性标签在电商业态下的各个场景都有着广泛的需求,如“老人出行需要防滑的鞋子”等。因为它反映了购物行为的内在原因,这些常识知识能够明确地指出行为背后可能的动机,对用户体验和购物效率有着重要的意义。而现有的知识图谱对常识知识合理性及显著性的表示有所欠缺。

为解决此类问题,项目组决定提出沉淀电商常识属性知识三元组的创新性思路,建立电商常识知识三元组(即头实体、头属性、尾实体)。其中,头实体为商品,如防晒霜;头属性为商品属性,如SPF50;尾实体为常识属性,如防晒。对常识属性进行挂载,从而补全商品的常识属性。

为提升模型的准确性,项目未采用生成式关系抽取,而是通过识别头尾实体及属性词,利用bert 技术,将关系抽取转化为二分问题。同时,为了提升模型的泛化性以及准确性,采用pairwise 方式,对实体及context 分别建模,最终关系抽取模型架构图如图3 所示。

相关实验结果如表1 所列(bert+[entity]_fc 表示采用robert 方式,bert+[CLS]_fc 表示bert 文本分类,double⁃tower pairwise 进行分类结果)。

关系抽取实例如下。

(1)头实体:冻干粉。头属性:玻尿酸。尾实体:妇女。关系:品类_适合_人群。

(2)头实体:上衣。头属性:羊毛。尾实体:秋冬季。关系:品类_适合_时令。

(3)头实体:马丁鞋。头属性:牛皮。尾实体:户外。关系:品类_适合_场景。

目前,项目还处于初期尝试阶段,后续方向是通过技术及算法手段来解决人工审核的问题,并开展知识显著性校验/ 打分等工作。

2.3 图谱质量评估

商品图谱建立好后,为维持和提升图谱质量,项目组依托公司的大数据平台,开发了供公司内部使用的图谱质量众包评估系统。整体评估系统的流程设计如下。

(1)图谱数据上传至评估系统。

(2)自定义抽样比例,默认20%。

(3)系统自动拆分子包任务。

(4)人员进行在线评估工作。

(5)系统自动输出本次任务的图谱质量数据。

(6)项目技术人员进行相关问题的修复及算法迭代工作。

项目组对美妆、家居、食品、服饰等图谱进行了多次质量评估,有效提升了整体图谱数据质量水平,使得图谱挂载准确率从85%左右提升到了95%以上,而召回率也有了18%左右的提升。

至此,图谱构建的基础工作及流程结束,1 年多的时间里,项目的整体图谱数据累积有节点十数亿级别。

3 知识图谱在商品个性化推荐中的应用及效果

在构建完商品图谱后,图谱在商品的个性化推荐中有着多种应用。

项目利用知识表示学习(KRL)模型,通过TransE等模型将图谱中的语义关系embedding 向量化,并根据欧几里得公式和KNN 算法等计算商品之间的相似度[9] 。参照公式如下:假设目标商品和已购商品的语义向量分别为Ci = {E1i ,E2i ,…,Edi } 和Cj = {E1j ,E2j ,…,Edj },其中Edi ,Edj 为语义向量第d 维上的值,则二者之间的距离为:

再通过TOPN 排序便可得到评分最高的推荐商品列表。项目已采用该方式增加I2I 的商品召回数量,以提升商品推荐的可解释性。同时,项目尝试了如下2 个创新场景。

3.1 个性化新品推荐改善

在电商平台中,新品上架数量多、频次高,基于这些有偏差的数据训练的模型容易进一步歧视“长尾”商品。此问题已成为平台业务痛点之一。平台希望能够提升新上架商品/ 新品流量分发效率,以促进平台整体收入的提升。

因此,项目基于商品知识图谱尝试提升item/ 用户表征能力,以更好地解决新品冷启动的问题。主要方法是通过graph 建模的方式扩充用户商品行为序列间商品的关联,并通过图谱来增进热门商品和冷门/新上架商品的表征相似度。

在用户侧:项目基于用户点击、购物等行为历史构建user⁃〉item⁃entity 图。

在商品侧:项目基于item⁃entity⁃〉item⁃entity 构建I⁃I 图,从而通过在item 的子图中引入与其相关的其

他item/ entity 的方式增强item 的图表征。

最后,通过GNN 网络学习用户和新品/ 冷门之间的潜在关系,将新品/ 冷门更有效率地推荐给用户,以解决新品的推荐问题。

经过50%流量分流的AB 实验后,平台大盘新品的点击率有11.5%的提升,点击转化率有23.2%的提升,数据效果较明显。

3.2 兴趣知识导购卡片

项目基于构建好的电商知识图谱,尤其是依托电商常识属性知识三元组,通过清单聚合相同兴趣知识点下商品,基于用户的个性化兴趣及知识偏好,提升推荐的场景氛围感及命中率。卡片举例如下:(1)“轻熟龄女神大牌抗皱面霜”;(2)“小仙女熬夜专属修复神器”;(3)“增高爱好者福音! 必备松糕鞋”。

知识导购卡片的位置穿插于购物APP 中的订单列表页推荐、购物车推荐、种草好货推荐等多个平台推荐feed 流场景中。经过一段时间的50%流量AB测试,项目累计上线兴趣卡片1.1 K,整体推荐场景点击率提升8.6%,点击转化率提升15.4%,数据效果较明显。

4 结束语

项目组利用公司数据及外网数据,构建了以商品属性项属性值为基础的知识图谱,并创新性地提出了以常识属性为基础的知识三元组图谱构建,在此基础上,将其应用于2 个创新场景———个性化新品推荐改善及兴趣知识导购卡片,均取得了较好的数据提升效果。事实证明,电商知识图谱构建可以有效应用于电商平台的个性化及智能化场景中。项目组希望后续可以沉淀更多准确的知识性三元组,并希望通过提升模型的准确度及增加显著性校验等流程,以减少知识性三元组的审核人力成本。同时,项目组也会进一步研究其他智能化应用场景,如搜索、智能导购问答等。

参考文献:

[1] 刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582⁃600.

[2] 徐增林,盛泳潘,贺丽荣,等.知识图谱技术综述[J].电子科技大学学报,2016,45(4):589⁃606.

[3] 李鑫柏,吴鑫然,岳昆.基于贝叶斯网的开放世界知识图谱补全[J].计算机工程,2021,47(6):104⁃114.

[4] 郭剑毅,李真,余正涛,等.领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报(自然科学版),2012,48(4):383⁃389.

[5] 俞伟,徐德华.推荐算法概述与展望[J].科技与创新,2019(4):50⁃52.

[6] 常亮,张伟涛,古天龙,等. 知识图谱的推荐系统综述[J].智能系统学报,2019,14(2):207⁃216.

[7] 王义,马尚才.基于用户行为的个性化推荐系统的设计与应用[J].计算机系统应用,2010,19(8):29⁃33.

[8] 王光,张杰民,董帅含,等.基于内容的加权粒度序列推荐算法[J].计算机工程与科学,2018,40(3):564?570.

[9] 王根生,潘方正.融合语义相似度的协同过滤推荐算法[J].中国科学技术大学学报,2019,49(10):835⁃841.

作者简介:杨少秋(1989—),硕士,工程师,研究方向:智能搜索/ 推荐、知识图谱、智能座舱等AI 类应用。

猜你喜欢

质量评估个性化推荐知识图谱
基于组合分类算法的源代码注释质量评估方法
基于链式存储结构的协同过滤推荐算法设计与实现
个性化推荐系统关键算法探讨
基于协同过滤算法的个性化图书推荐系统研究
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
中国上市公司会计信息质量研究
澳大利亚研究生课程的外部质量评估