APP下载

大数据环境下基于知识图谱的用户兴趣扩展模型研究

2021-08-06张彬徐建民吴姣

现代情报 2021年8期
关键词:知识图谱大数据用户

张彬 徐建民 吴姣

摘 要:[目的/意義]针对大数据环境下用户兴趣数据稀疏、缺乏关联和描绘不准确等问题,利用知识图谱融合多源兴趣知识,以提高用户兴趣的全面性和准确性。[方法/过程]从兴趣之间的关联视角出发,进行兴趣建模、知识获取和知识融合,整合兴趣间的语义关联和社交网络关联,构建兴趣知识图谱;挖掘兴趣标签节点与上位词节点、百科标签节点、社交网络用户节点的关系,计算兴趣标签的语义关联度和社交网络关联度,生成复合关联权重,重构兴趣之间的衍生关系以实现用户的兴趣扩展。[结果/结论]该模型能够有效融合扩展不同类型的兴趣关联知识,相对于单一来源数据在用户兴趣的覆盖率和查准率方面均有所提升,提高了用户兴趣描绘的全面性和准确性。

关键词:大数据;知识图谱;用户;兴趣扩展;模型

DOI:10.3969/j.issn.1008-0821.2021.08.004

〔中图分类号〕G254 〔文献标识码〕A 〔文章编号〕1008-0821(2021)08-0036-09

Research on User Interest Expansion Model Based on

Knowledge Graph in Big Data Environment

Zhang Bin1 Xu Jianmin1* Wu Jiao2

(1.School of Management,Hebei University,Baoding 071002,China;

2.Magazine House,Hebei University,Baoding 071002,China)

Abstract:[Purpose/Significance]Interest data in big data environment is sparse,and there is no effective correlation in user interests.In response to these problems,a User Interest Expansion Model based on Knowledge Graph is proposed.[Method/Process]Starting from the perspective of the association relationship between interests,the model integrated the semantic associations and social network associations in interests through the process of interest modeling,knowledge acquisition and fusion utilization,and constructed an interest knowledge graph.The relationship among Interest Tag Nodes,Hyper Nodes,Encyclopedia Tag Nodes,and Social Network User Nodes was calculated,and the semantic relevance of interest tags and social network relevance were calculated to generate composite relevance weights.And the derivative relationships between interests were reconstructed to achieve user interest expansion.[Result/Conclusion]Experiments show that this model could effectively integrate different types of interest-related knowledge,and greatly improve the coverage and accuracy of user interest.It could improves the comprehensiveness and accuracy of user interest description.

Key words:big data;knowledge graph;user;interest expansion;model

用户兴趣挖掘是个性化推荐的关键,兴趣特征描绘的全面性和准确性直接影响推荐系统的性能,兴趣扩展是提高兴趣描绘效果的有效方法之一。大数据时代的数据规模大、来源丰富、类型多样,用户兴趣数据具有多噪声、高维度、稀疏性和多源异构等特点,传统的兴趣挖掘模型在处理大数据时存在的问题限制了其性能的发挥[1]。如何有效融合多源兴趣数据知识并挖掘兴趣之间的隐含关联,是用户兴趣扩展研究的难点问题。

用户兴趣扩展研究借鉴信息检索技术中查询扩展方法的思想,通过增加用户兴趣的关联词来提高用户兴趣特征的描绘效果[2-3]。根据知识来源的不同,现有研究主要分为利用内部兴趣知识和利用社交网络知识的兴趣扩展。传统的兴趣扩展方法利用推荐系统的内部知识来挖掘用户兴趣。Liu Q等[4]认为,在传统的兴趣挖掘模型中,潜在的用户兴趣信息并未得到充分开发,提出了一种基于协同过滤的iExpand兴趣扩展模型,把用户潜在兴趣作为用户层和项目层之间的中间层,用以提高兴趣描绘和推荐效果。Bedi P等[5]提出了一种结合上下文因素和领域本体的兴趣扩展方法,利用内容的上下文数据结合领域本体中的概念,通过扩展激活来扩展用户的兴趣。由于推荐系统内部知识资源单一,效果较为有限,部分学者开始利用社交网络知识扩展用户兴趣。Mezghani M等[6]认为,丰富的社交媒体数据使社交网络成为用户兴趣的重要数据源,提出了以用户为中心的方法将用户、标签和资源进行了关联,以检测用户的扩展兴趣。Zhang Z等[7]认为,传统推荐算法对推荐的准确性更为关注,提出了基于用户兴趣扩展的多样化推荐框架,采用基于社会标签信息的用户兴趣扩展策略来增强用户偏好的多样性。徐建民等[8]为解决微博用户兴趣提取不准确的问题,把用户个体兴趣和从社交网络挖掘的关联兴趣相结合,作为用户的扩展兴趣,提高了推荐的有效性和准确性。随着数据规模的增长,传统的兴趣扩展方法难以全面覆盖用户兴趣,社交标签存在的歧义性、多义性、攻击性以及噪声等问题也更加突出,对于兴趣扩展影响较为关键的语义关联、社交网络关联等问题尚缺乏深入的研究。

近年来,知识图谱技术的出现为大数据环境下的兴趣扩展研究提供了新的思路。知识图谱是一种有向异构信息网络,提供了一种更好地组织、管理和理解大数据中兴趣关联信息的能力[9],具有知识结构化、语义关联化、推理智能化等优势[10],在兴趣挖掘中引入知识图谱能够把推荐系统的用户、用户兴趣、项目及其属性之间的关系进行语义关联和知识融合[11]。基于知识图谱的兴趣模型主要关注知识图谱中项目之间的各种关联路径,通過节点路径的特征来挖掘知识图谱,捕获项目之间的复杂且有意义的关系,较为直观准确地为推荐提供辅助信息。Guo Q等[12]提出了一个端到端的波纹网络(RippleNet)知识图谱推荐框架,通过知识图谱中的链接自动迭代扩展用户的潜在兴趣,并证明了在各个场景下的显著效果。Noia T D等[13]提出了SPrank混合推荐算法,利用DBpedia链接开放数据提取基于语义路径的特征,通过Web数据中的开放知识计算前N个推荐。Gupta M等[14]提出了一种基于元路径的非聚类推荐模型HeteroPRS,该模型融合了异构信息网络中与项目相关的元信息,在不进行用户聚类的情况下,通过考虑网络中任意的元路径来发现用户的内在兴趣。具有异构信息融合能力的知识图谱,在解决推荐的稀疏性和冷启动问题方面取得了较好的效果,为用户兴趣扩展的性能提升奠定了基础。现有基于知识图谱的推荐研究尚不够深入,大多利用开放知识图谱建立用户与项目间的路径联系,丰富的多源异构数据对于兴趣关联的影响尚未得到足够的关注和重视。

本文利用知识图谱在用户兴趣挖掘方面的优势,从兴趣之间的关联视角出发,引入用户、兴趣标签、语义关系以及社交网络数据等多源兴趣知识,构建融合语义关系和社交网络数据的兴趣知识图谱;通过计算兴趣标签节点间的上位词关联度和百科标签关联度挖掘兴趣间的语义关联,利用社交网络知识计算用户自标签共现度、用户自标签关联度和用户自标签热度,生成兴趣标签间的复合权重,重构兴趣之间的衍生关系,对用户的原始兴趣进行扩展。

1 基于知识图谱的用户兴趣扩展模型框架

为了解决兴趣扩展研究中兴趣数据稀疏、缺乏语义关联和准确度不高等问题,本文设计了基于知识图谱的用户兴趣扩展模型(Knowledge Graph-based User Interest Expansion Model,KG-UIEM),构建融合多源知识的兴趣知识图谱,试图通过挖掘用户标签之间的语义关联和社交网络关联进行用户兴趣扩展。模型框架如图1所示。

图1 基于知识图谱的用户兴趣扩展模型框架

根据用户兴趣扩展的知识结构特征,模型分为兴趣知识图谱构建和用户兴趣扩展两个部分,兴趣知识图谱构建主要包括兴趣知识建模、兴趣知识获取和兴趣知识融合3个环节[11],在此基础上利用兴趣间的语义关联和社交网络关联建立衍生关系,对外输出用户的扩展兴趣。

2 兴趣知识图谱构建

2.1 兴趣知识建模

在用户兴趣挖掘的场景中,知识图谱能够把涵盖丰富用户兴趣的知识进行融合与有效利用,发现和计算用户与兴趣、兴趣与兴趣的知识关联,进而挖掘用户的潜在兴趣和扩展兴趣。

标签是用户兴趣的一种有效表示方式,在兴趣知识图谱中将兴趣标签作为用户兴趣表达与存储的主要形式。基于标签的推荐研究中,既有用户—标签—项目、用户—项目—标签等3部图的推荐方法,也有用户—兴趣—标签—项目的4部图推荐方法[15]。由于标签具有噪声、歧义、冗余和不够规范等问题,导致标签在用户兴趣描绘中的应用范围和效果较为有限。把用户兴趣以标签的形式引入知识图谱,利用语义和社交网络等信息对兴趣进行优化计算和扩展,可以弥补标签的劣势,取得更佳的兴趣描绘效果。

根据用户兴趣扩展的知识需求和数据类型,兴趣知识图谱中的实体主要分为3种类型:①用户本体,用来存储和描述用户基本信息及属性特征;②兴趣词本体,用来存储和更新兴趣词概念和实体,兴趣词实体包括来源于上下位知识[16]和百科知识的静态兴趣词数据,以及用户兴趣计算过程中生成的动态更新兴趣词;③社交网络用户本体,用来存储和关联用户相关的社交网络信息,主要包括用户信息、自定义兴趣标签、用户间的关注关系等。

根据兴趣挖掘模型中实体关系的不同创建方式,实体关系分为原生关系和衍生关系两类。原生关系,即利用原始数据直接产生的实体关系,这些关系作为用户兴趣挖掘的基础,包括兴趣词—概念之间的上位词关系、兴趣词—百科标签之间的百科标签关系、社交网络用户—用户标签的自标签关系、社交网络用户之间的关注关系等。衍生关系,即利用知识图谱资源和原生关系等计算出的复合关联关系。

2.2 兴趣知识获取

兴趣词的语义知识。对用户的兴趣进行标签化

处理和表示之后,利用兴趣词之间的上下位知识和百科标签知识构建语义知识网络,能够建立兴趣词之间的语义关联。上下位关系又称等级关系或层级关系,表示概念或术语之间的“is-a”关联[17]。上下位知识对实体进行了结构化的组织,具有较权威上下位关系的中文知识库有大词林(Bigcilin)、CN-Probase、HowNet、同义词林等。在线百科是语义知识的另一重要来源,百科词条通常对应于一定的实体或概念,是由网络用户协同编辑形成的在线知识库[18]。百科词条知识相对于传统的中文知识库,在开放性、时效性和词条的丰富程度上具有较大优势。在线百科的词条标签信息能够作为兴趣词的分类依据,建立兴趣词之间的语义连接。

社交网络知识。在线社交网络提供了信息交流环境,依靠社交网络用户发布的内容以及用户间关系构成的社交网络知识库,是涵盖真实世界用户兴趣的重要数据源。目前关于社交网络兴趣的研究,较多关注以用户为中心的兴趣挖掘,而忽视了社交网络本身也建立了兴趣之间的关联;可以从兴趣共现、用户关注关系中挖掘出兴趣词之间的社交关联,为兴趣挖掘提供真实、丰富的社交网络兴趣知识库。

2.3 兴趣知识融合

大数据环境下,用户的兴趣偏好具有多元化特征,兴趣知识需要具有一定的广度、深度和动态性,仅依靠单一类型的知识来源,难以达到理想效果。构建融合多源数据的兴趣知识图谱,能够把具有相对权威的兴趣词上下位知识、开放多元的百科标签知识以及与用户相关的社交网络知识进行重新组织,利用原生图数据库进行数据存储和对外查询,为用户扩展兴趣的挖掘提供有力的平臺和数据支撑。

本文对用户的属性特征和兴趣特征等进行标签化处理,在用户兴趣知识图谱中采用〈实体,关系,实体〉和〈实体,属性,属性值〉的三元组形式进行描述和表示。将属性特征进行标签化处理,建立用户与属性标签节点之间的关联关系;将用户的兴趣特征转化为兴趣标签词实体,建立用户实体与兴趣特征之间的关联,从不同角度为用户兴趣分析提供数据支撑。

3 基于知识图谱的用户兴趣扩展

兴趣知识图谱把用户、兴趣标签、上位词、百科标签和社交网络等多源数据进行了数据整合和知识关联,构成了融合多源信息的兴趣知识库。兴趣知识图谱是一个有向图KGInterest=(E,R),其中E={e1,e2,e3,…,en}表示图中各类实体(节点)的集合,共包含E种不同的实体;R={r1,r2,r3,…,rn}表示图中各类关系(有向边)的集合,共包含R种不同的关系。

3.1 语义关联兴趣扩展

兴趣标签之间存在着语义关联,利用多标签间的语义关系能够更加精确地表征兴趣特征,缓解原始用户—标签矩阵高维稀疏的问题[19]。在兴趣知识图谱中,兴趣标签节点与上位词节点和百科标签节点的关系体现了标签之间的语义关系,本文用这些关联生成兴趣标签的语义关联度。

定义1:上位词关联度。对于给定的兴趣标签节点Ewj和Ewk,上位词关联度Rdh指两个节点与其上位词节点关联强度的一种度量。

对于具有共同上位词关联的两个兴趣标签节点Ewj和Ewk,存在经过上位词节点Eho的关联路径PH=EwjHyperEhoHyperEwk,上位词关联度Rdh的计算公式为:

Rdh(Ewj,Ewk)=OH(Ewj)∩OH(Ewk)OH(Ewj)∪OH(Ewk)(1)

其中OH(Ewj)表示与兴趣标签节点Ewj关联的上位词节点集合,OH(Ewk)表示与兴趣标签节点Ewk关联的上位词节点集合。OH(Ewj)∩OH(Ewk)表示与两个节点共同关联的上位词节点数量,OH(Ewj)∪OH(Ewk)表示与两个节点关联的上位词节点的总数。

定义2:百科标签关联度。对于给定的兴趣标签节点Ewj和Ewk,百科标签关联度Rdw指两个节点与百科标签节点关联强度的一种度量。

对于具有百科标签关联的两个兴趣节点Ewj和Ewk,存在经过百科标签节点Ebw的关联路径PW=EwjWikiTagEbwWikiTagEwk,百科标签关联度Rdw的计算公式为:

Rdw(Ewj,Ewk)=OW(Ewj)∩OW(Ewk)OW(Ewj)∪OW(Ewk)(2)

其中OW(Ewj)表示与兴趣标签节点Ewj关联的百科标签节点集合,OW(Ewk)表示与兴趣标签节点Ewk关联的百科标签节点集合。OW(Ewj)∩OW(Ewk)表示与两个节点共同关联的百科标签节点数量,OW(Ewj)∪OW(Ewk)表示与两个节点关联的百科标签节点的总数。

定义3:语义关联度。对于给定的兴趣标签节点Ewj和Ewk,语义关联度指两个节点通过语义知识建立关联强度的一种度量。

兴趣标签节点Ewj和Ewk的语义关联度Rds,由两个节点的上位词关联度和百科标签关联度进行加权和计算得出,计算公式为:

Rds(Ewj,Ewk)=ω·Rdh(Ewj,Ewk)+φ·Rdw(Ewj,Ewk)(3)

在上位词和百科标签关系中,一个兴趣标签节点可能与多个上位词节点或百科标签节点具有关联,两个节点具有的共同节点越多,它们的语义关联度越大。由于不同的外部语义知识库在覆盖度、准确度、更新周期方面存在较大差异,节点间的语义关联计算可以引入多個外部知识库进行计算,根据知识库的权威度、数据量等特点评估设定权重系数,弥补单一知识库存在的语义关系稀疏和不准确问题。

3.2 社交网络关联兴趣扩展

通过语义关联能够得到兴趣标签的语义扩展词,但扩展词往往不能契合真实用户的实际偏好。Web2.0时代,社交网络提供了丰富的用户兴趣和社交关系数据资源,Mezghani M等研究者已经证明社交网络用户的标签可以有效地检测用户的兴趣,邻居用户的兴趣或行为也提供了相关的兴趣信息[6]。部分研究者尝试利用社交网络构建兴趣图谱,建立用户与兴趣之间的联系[21],但现有研究尚处于起步阶段,应用效果不够理想且适用范围较窄。本文尝试利用社交网络丰富的兴趣数据和社交关系,挖掘兴趣标签之间的社交关联。

定义4:用户自标签共现度。对于来源于社交网络用户自标签的兴趣标签节点Ewj和Ewk,用户对两个标签的共同使用行为建立了节点间的共现关联,用户自标签共现度UCD是对其关联强度的一种度量。

对于具有自标签关联的两个兴趣节点Ewj和Ewk,存在经过社交网络用户节点Ess的关联路径PW=EwjUserLabelEssUserLabelEwk,兴趣标签节点Ewj和Ewk的用户自标签共现度UCD计算公式为:

UCD(Ewj,Ewk)=μ·OU(Ewj)∩OU(Ewk)OU(Ewj)∪OU(Ewk)(4)

其中OU(Ewj)表示使用兴趣词Ewj作为个人兴趣标签的社交网络账号节点集合,OU(Ewk)表示使用兴趣词Ewk作为个人兴趣标签的社交网络账号节点集合。OU(Ewj)∩OU(Ewk)表示与两个节点共同关联的社交网络账号节点数量,OU(Ewj)∪OU(Ewk)表示两个节点关联的社交网络账号节点并集的数量,μ为调节系数。

定义5:用户关注关联度。对于来源于社交网络用户标签的兴趣标签节点Ewj和Ewk,两个节点通过用户的关注关系建立了关联,用户关注关联度UFD是对其关联强度的一种度量。

对于具有用户自标签关联的两个兴趣节点Ewj和Ewk,经过两个(或以上)社交网络用户节点Ess、Est的关注关系构成了组合路径PW=EwjUserLabelEssFollowedEstUserLabelEwk,称为用户自标签关注路径。兴趣标签节点Ewj和Ewk的用户关注关联度UFD计算公式为:

UFD(Ewj,Ewk)=·PWW(Ewj,Ewk)OU(Ewj)×OU(Ewk)(5)

其中分子PWW(Ewj,Ewk)表示两个兴趣标签节点间的关注路径集合的路径个数,分母为分别与两个节点关联的社交网络账号数量的乘积,即组合路径的理论最大值,为调节系数。

用户关注关联度使用社交网络用户节点之间的双向关注关系产生的组合路径作为计算依据,随着关注关系跳数的增加,用户兴趣的传递会产生衰减[12],考虑到多跳关注的计算复杂度会大幅增加而对兴趣扩展产生的效果有限,本文仅使用社交网络用户之间的直接关注关联,暂不考虑用户节点间的多跳关注关系。

由于输入的用户初始兴趣可能存在空或与现有兴趣不匹配的情况,在兴趣知识图谱中建立特殊的零兴趣节点,并通过计算用户自标签热度建立零兴趣节点与热兴趣词间的关联,用来解决零兴趣输入的需求。

定义6:用户自标签热度。对于兴趣标签节点Ewh,与社交网络用户节点的连接数越多,它的自标签热度越高,用户自标签热度UHD是对其受欢迎程度的一种度量。

兴趣标签节点Ewh的用户自标签热度UHD计算公式为:

UHD(Ewh)=λ·PUW(Ewh)∑h∈IPUW(Ewh)(6)

其中分子PUW(Ewh)表示兴趣标签节点Ewh与社交网络用户的关联路径个数,分母为兴趣标签节点与社交网络用户的关联路径之和,λ作为调节系数。

3.3 兴趣标签的衍生关联扩展

相对于传统的推荐场景,大数据环境下的推荐系统具有输入数据规模更大,稀疏性、冗余度和噪声更大的特点[1],知识图谱技术降低了利用多源异构数据的门槛,如何对各类知识数据进行有效的整合利用变得尤为关键。

兴趣扩展模型分别从语义、兴趣共现和社交关系多个角度分析,获得了兴趣标签节点之间的语义关联度、用户自标签共现度和用户自标签关联度等关联权重。通过对各个关联权重进行权重归一和加权处理,能够生成兴趣标签节点间的复合关联权重。

兴趣标签节点Ewj和Ewk的复合关联权重CRD计算公式为:

CRD(Ewj,Ewk)=α·Rds(Ewj,Ewk)+β·UCD(Ewj,Ewk)+γ·UFD(Ewj,Ewk)(7)

其中权重系数根据语义关联度、用户自标签共现度和用户自标签关联度的数据源质量、数据丰富程度、权重分布等进行评估设定。

为了保证兴趣之间的复合关联能够得到高效利用,本文在兴趣知识图谱中重建了兴趣标签节点之间的衍生关系,将复合关联权重分级转化为3种新类型的关系——强关联、中关联、弱关联,并将复合关联权重作为边的权重属性存储于图数据库。衍生关系把兴趣扩展的离线计算和在线查询进行有效分离,为后续的二次兴趣挖掘、兴趣扩展查询等提供了数据基础。

兴趣知识图谱构建及扩展更新完成后,即可利用兴趣标签节点间的衍生关系提供兴趣扩展查询。对于原始兴趣为单兴趣词的查询,模型输出与该兴趣标签节点具有衍生关系的兴趣标签节点集合;对于原始兴趣为多兴趣词的查询,模型输出与多个输入节点具有衍生关系的兴趣标签节点集合。对于原始兴趣为空的查询,模型输出与零兴趣节点关联的热兴趣标签节点集合。扩展兴趣输出的排序依据为输入相关节点和输出节点的边权重倒序。

4 实验结果与分析

4.1 实验数据及預处理

由于目前没有统一、权威的数据集可供使用,实验采用开放链接知识和爬虫工具抽取采集的数据,使用河北大学高性能计算平台的胖节点集群进行分析计算。

兴趣知识图谱基本构建采用的数据集包括上下位关系数据集、百科标签数据集和社交网络数据集。其中上下位关系选用哈尔滨工业大学社会计算与信息检索研究中心研制的大词林作为实体基础知识库,包括75万核心实体、1.8万细粒度概念词表以及上下位关系318万个[16]。百科标签数据选用复旦大学知识工场实验室研发维护的CN-DBpedia中文通用百科知识图谱数据包,该数据集系从中文百科类网站的纯文本页面中提取,经过滤、融合、推断等操作形成的结构化数据[22]。本文从中筛选了百科标签类型的三元组关系132万条,涉及实体词47万个,百科标签词0.36万个,作为兴趣知识图谱中百科标签的知识来源。在社交网络数据方面,本文以前期研究采集筛选的0.78万个真实用户关联的微博账号为种子节点,使用分布式网络爬虫抓取了2~3层关注关系以及相关的微博账号信息,获取到社交网络用户信息1 022万条、关注关系6 600万条;其中具有自定义兴趣标签的用户334万个,从中提取用户兴趣标签词45万个,生成微博账号和兴趣标签的三元组关联767万条,补全用户节点3 159万个,用作兴趣知识图谱的社交网络知识库。

在知识图谱构建过程中,使用本体构建工具Protégé规划和构建本体结构;利用关系数据库对多个来源的数据进行清洗整理、关系抽取、实体补全和规范化处理,生成实体节点和原生关系;使用Neo4j-admin工具批量导入至Neo4j图数据库,共包括各类节点3 889万个,三元组关系7 400万个,用于兴趣知识数据的持久化存储和图查询分析。

4.2 兴趣标签的关联分析

由原生关系组成的基础知识图谱和图数据库构建完成后,通过多级视图和Cypher查询相结合的方法进行联合查询计算,获取与指定兴趣标签相关的兴趣节点列表,使用前述公式计算生成兴趣节点之间的衍生关联。

图2 兴趣标签节点的语义关系

兴趣标签节点“轮滑”和“足球”之间的语义关系如图2所示,两个节点与4个共同上位词节点存在路径关系,分别是“物”“抽象事物”“体育项目”和“亚运会比赛项目”;与3个共同百科标签节点存在路径联系,分别是“体育”“体育人物”和“体育项目”。根据式(1)、(2)分别求得这两个兴趣标签之间的上位词关联度为0.235和0.500。由于实验选取的上位词知识和百科标签知识数据规模相近,知识关联质量相对较高,且经过一系列的筛选及数据处理,因此在式(3)中的权重系数均取0.5,计算两个兴趣标签的语义关联度结果为0.368。在兴趣标签的语义分析过程中发现,开放知识库的关联数据可能存在不准确或部分缺失的现象,引入多个开放知识库可以减少单一来源知识不准确造成的影响。

兴趣标签节点“轮滑”和“足球”之间的用户自标签共现关系中,两个节点与8个社交网络用户节点存在自标签关系,与两个节点存在自标签联系的节点总数为179,调节系数μ取值为50,使用式(4)计算可得,两个节点的用户自标签关联度为2.23。兴趣共现相当于用户兴趣的协同过滤,具有较大的数据价值;而社交网络中存在自标签共现的用户比例较小,在实验数据集中占比约为22%,因此设定了系数进行调节放大。

兴趣标签节点通过社交网络用户之间的关注关系,建立了节点距离为5跳的关联路径,如图3所示。与图中心兴趣标签节点“轮滑”具有多条关注路径的节点包括“美食”(42条)、“旅游”(26条)、“名人明星”(20条)、“校园生活”(12条)等,这些多路径节点体现了与兴趣词关联的社交网络群体兴趣。如表1所示,通过自标签热度式(6)计算得出热兴趣词排名,热度较高的兴趣词包括“旅游”“美食”“名人明星”“搞笑幽默”“娱乐”等,用做零输入节点的关联兴趣。丰富的社交网络知识为兴趣标签节点之间的关联有效地拓展了兴趣知识资源。

4.3 结果分析

用户兴趣扩展模型的最主要目的是为兴趣稀疏用户扩充兴趣,为了验证模型中不同兴趣知识来源对用户兴趣扩展的效果,本文参照跨域兴趣融合的评价方法[23]计算不同来源的兴趣知识叠加对输入兴趣的覆盖度和对输出兴趣的受欢迎程度的影响。把各兴趣知识来源设为4个数据域,其中D1域为上位词知识,D2域为百科标签知识,D3域为自标签共现知识,D4域为衍生关联知识。

在实验过程中,采用覆盖率和查准率指标对用户兴趣扩展效果进行评价。覆盖率指标用来衡量知识库对输入兴趣的覆盖程度,即输入用户中可被兴趣标签节点覆盖的用户占比;查准率指标用来衡量输出扩展兴趣的受欢迎程度,即输出的扩展兴趣属于热兴趣词库的用户占比。为了便于对比效果,随机抽取兴趣用户5 000个,把用户的首选兴趣词作为用户的兴趣输入,兴趣标签按权重排名的前5个作为输出兴趣;把社交网络的自标签词按热度降序排列,从37万自标签词中筛选出热兴趣词库。由于D3域和热兴趣词库关联程度较高,为了规避由此带来的验证倾向,输入用户兴趣源使用与社交网络无关的图书领域,热兴趣词中只选取了使用频次大于8次的前5%作为热兴趣词库,热兴趣词数量为1.85万。实验结果如表2所示。

对实验结果进行分析,如图4所示,外部语义知识库的D1域和D2域对输入兴趣的覆盖比例均超过了60%,但查准率较低。经分析发现,语义知识库中单个上位词或百科标签关联的实体词数量极不均衡,数量范围从1个到28万个,这也是相关知识权威度较高而效果不佳的症结所在。D3域自标签共现知识在数据规模较大情况下,兴趣词库数量适中且高频词较为集中,覆盖率略高于语义知识库,其输出结果的查准率提升较为明显。D4域的衍生关联知识,将多源知识进行了叠加,并通过零兴趣节点为匹配失败节点输出了高频热兴趣词,所以覆盖率和查准率均有大幅提升,具有较高的兴趣扩展性能。

图4 用户兴趣扩展实验结果

5 结 论

本文针对大数据环境下用户兴趣知识的特点,建立了基于知识图谱的用户兴趣扩展模型,通过挖掘用户兴趣之间的关系扩展用户的关联兴趣。相对于关注用户与项目、用户与兴趣关联的兴趣挖掘模型,该模型有机地融合了大数据环境下的各种兴趣知识,为跨领域、跨平台的推荐建立了兴趣关联知识库。兴趣知识图谱通过引入开放的语义知识库,增强了兴趣标签之间的语义关联,弥补了传统兴趣标签的劣势。社交网络中的真实用户兴趣行为能够提取出较为精准的热兴趣词集,把用户相关的群体兴趣知识关联转化为个体兴趣,结合语义知识为用户提供了更加全面和准确的兴趣扩展。研究的不足之处在于,由于数据规模相对较大,受平台架构、计算节点数量和系统开销等因素影响,使用图数据库平台进行的复杂关系分析和衍生关联的计算效率不高,在图挖掘、兴趣推理及大数据分析方面的研究尚不够深入,需要继续完善和优化。此外,用户兴趣在小世界与大世界、全面性与精准性、多样性与新颖性等方面的指标尚需要进一步评估和权衡。

参考文献

[1]孟祥武,纪威宇,张玉洁.大数据环境下的推荐系统[J].北京邮电大学学报,2015,38(2):1-15.

[2]余传明,蔡林,胡莎莎,等.基于深度学习的查询扩展研究[J].情报学报,2019,38(10):1066-1077.

[3]王鑫,陆静雅,王英.面向推荐的用户兴趣扩展方法[J].山东大学学报:工学版,2017,47(2):71-79,93.

[4]Liu Q,Chen E,Xiong H,et al.Enhancing Collaborative Filtering By User Interest Expansion Via Personalized Ranking[J].IEEE Transactions on Systems Man & Cybernetics Part B Cybernetics A Publication of the IEEE Systems Man & Cybernetics Society,2012,42(1):218-233.

[5]Bedi P,Richa.User Interest Expansion Using Spreading Activation for Generating Recommendations[C]//International Conference on Advances in Computing,Communications and Informatics.IEEE,2015:766-771.

[6]Mezghani M,Péninou A,Zayani C A,et al.Producing Relevant Interests from Social Networks By Mining Users Tagging Behaviour:A First Step Towards Adapting Social Information[J].Data & Knowledge Engineering,2017,108:15-29.

[7]Zhang Z,Zheng X,Zeng D D.A Framework for Diversifying Recommendation Lists By User Interest Expansion[J].Knowledge-based Systems,2016,105:83-95.

[8]徐建民,劉明艳,王苗.基于用户扩展兴趣的微博推荐方法[J].计算机应用研究,2019,36(6):1652-1655.

[9]沈志宏,姚畅,侯艳飞,等.关联大数据管理技术:挑战、对策与实践[J].数据分析与知识发现,2018,2(1):9-20.

[10]孙雨生,祝博,朱礼军.国内基于知识图谱的信息推荐研究进展[J].情报理论与实践,2019,42(12):163-169,149.

[11]陈涛,刘炜,单蓉蓉,等.知识图谱在数字人文中的应用研究[J].中国图书馆学报,2019,45(6):34-49.

[12]Guo Q,Zhuang F,Qin C,et al.A Survey on Knowledge Graph-Based Recommender Systems[J].Scientia Sinica Informationis,2020,50(7):937.

[13]Noia T D,Ostuni V C,Tomeo P,et al.SPrank:Semantic Path-Based Ranking for Top-N Recommendations Using Linked Open Data[J].ACM Transactions on Intelligent Systems and Technology,2016,8(1):9.

[14]Gupta M,Kumar P.Recommendation Generation Using Personalized Weight of Meta-paths in Heterogeneous Information Networks[J].European Journal of Operational Research,2020,284(2):660-674.

[15]李兴华,陈冬林,杨爱民,等.基于用户兴趣-标签的混合推荐方法研究[J].情报学报,2015,34(5):466-470.

[16]Feng X,Guo J,Qin B,et al.Effective Deep Memory Networks for Distant Supervised Relation Extraction[C]//Twenty-Sixth International Joint Conference on Artificial Intelligence,2017.

[17]蒋婷,孙建军.领域学术本体概念等级关系抽取研究[J].情报学报,2017,36(10):1080-1092.

[18]何振宇,董祥祥,朱庆华.多维度视角下百度百科词条评价指标构建[J].图书情报工作,2019,63(12):114-120.

[19]王艳茹,马慧芳,刘海姣,等.基于多标签语义关联关系的微博用户兴趣建模方法[J].计算机工程与科学,2018,40(11):165-171.

[20]Kim H N,Alkhaldi A,Saddik A E,et al.Collaborative User Modeling with User-Generated Tags for Social Recommender Systems[J].Expert Systems with Applications,2011,38(7):8488-8496.

[21]孫雨生,张恒,朱礼军.国内兴趣图谱研究进展[J].情报理论与实践,2017,40(1):132-138.

[22]Xu B,Xu Y,Liang J,et al.CN-DBpedia:A Never-Ending Chinese Knowledge Extraction System[C]//International Conference on Industrial,Engineering and Other Applications of Applied Intelligent Systems,2017.

[23]张彬,徐建民,吴树芳.基于多源用户标签的跨域兴趣融合模型研究[J].情报科学,2020,38(4):147-152,162.

(责任编辑:孙国雷)

猜你喜欢

知识图谱大数据用户
关注用户
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
基于大数据背景下的智慧城市建设研究
关注用户
关注用户
如何获取一亿海外用户