电子文献资源的推荐方法研究
2020-01-16李阔
文/李阔
1 引言
互联网技术的飞速普及和发展给用户带来了海量的信息,在满足用户对于信息需求的同时,数据的爆炸式增长也将那些对于用户真正有用的信息淹没其中,面对信息超载问题,现阶段解决信息超载的主要方式是推荐系统。在全民阅读时代的背景下,文献、书籍、期刊、报纸等资源由纸质保存的形式经过采集、处理、存储与整合转换为通过计算机进行存储通过互联网进行展示的电子资源。文献资源作为目前电子资源的重要类型之一,同样面临着信息超载的问题,目前常用的电子文献推荐算法可分为基于网络的推荐、基于内容的推荐、协同过滤推荐。协同过滤推荐是最传统的推荐技术,但协同过滤推荐是基于用户-物品评分做推荐并没有用到物品本身的信息,因而单纯的协同过滤推荐算法应用于电子文献的推荐是不合适的。目前应用于电子文献的协同过滤推荐大多都是与基于内容相似性进行混合做推荐。而多数的电子文献、电子图书资源的推荐都是基于内容的推荐,基于内容的推荐利用电子资源本身带有的信息挖掘出特征,找寻内容和内容之间的相似性做推荐,为用户推荐与其偏好内容上相近的电子资源。目前电子文献的特征提取用到的是文本数据挖掘领域的Word2Vec 技术和TF-IDF 技术,进而通过度量文本之间的相似性进行推荐,本文将阐述目前已有的基于Word2Vec 和TF-IDF 文本嵌入的推荐方法。截至目前大多数的电子文献推荐都是对于纯文本类型的数据进行推荐,但现实中的电子文献资源系统中通常保存了多种数据资源,书籍、报纸、期刊,一些是以文本类型进行存储,一些是以PDF(即图片)类型进行存储,如何解决对于不同书类型的推荐成为推荐系统可研究的一个方向。本文结合异质信息网络领域最新的研究成果,介绍基于异质图神经网络推荐算法。
2 基于内容的电子文献推荐
基于内容的电子文献推荐算法思想是根据用户过去喜欢的内容,为用户推荐和他过去喜欢内容相似的内容,基于内容的电子文献推荐过程包含三个步骤,分别是物品表示、特征学习、生成推荐列表。第一步从电子文献资源的内容中抽取出代表它的属性,常用的方法是通过一系列电子文献资源中的词组来表示这篇文献,词组的权重通过TF-IDF(词频-逆文档频率)来计算,或者通过Word2Vec 技术,都可以将一篇文本类型的电子资源转换为向量进行计算;第二步根据用户过去喜欢的电子文献资源向量的平均值来刻画;第三步将刻画的用户喜好向量与文献资源向量做相似度比较,为用户推荐相似度较高的前几项电子文献资源,从而生成推荐列表。
2.1 基于TF-IDF的电子文献推荐
通过TF-IDF(词频-逆文档频率)做文本的嵌入思想是尽量凸显只在本文献中出现的词组而在别的文献上很少出现的词组,这样的词组在逻辑上也最有可能代表一篇文献的特征。TF-IDF 首先需要做分词,然后将每一篇文献看作一系列词组的集合,为每一篇文献生成一个向量,向量的每一维代表一个对应词组在这篇文本中的值,这个值是通过下面这种方式计算的:TF 的代表某个词在某篇文本中出现的频率,用于度量这个词在这篇本文中的重要程度,出现次数越多越重要。TF 词频计算公式如下,其中tk 是指第k 个词组,dj 是指第j 篇文档。
TF(tk,dj)=||tk∈dj||/||dj||
IDF 代表某个词在这些文本资源中的区分度,逻辑上如果一个词只在少量的几篇文本中出现,说明他的价值量是巨大的。如果一个词在多篇文本中出现,说明这个词没有很好的区分度,不能有效地对文本进行区分。IDF 的计算公式如下。
IDF(tk)=log(N/nk)
某篇文本中某个词的TF-IDF 值就是通过TF*IDF 计算的,TF-IDF 计算公式如下,由此可以得到一篇文本的向量表示。
TF-IDF(tk,dj)=TF(tk,dj)*IDF(tk)
第一部分文本的表示已经完成,第二部分是学习用户的特征,可以通过对用户过去喜欢或浏览的文本向量累加求和取平均值作为这个用户的偏好向量,形成用户画像,再把用户偏好向量放到文本向量化后的向量空间中,通过余弦相似度或者欧式距离作为相似度度量,取与用户向量最相近的且用户没看过的文本向量对应的文本作为待推荐的电子文献。或者在用户画像刻画好之后对于所有用户向量进行聚类,为该用户推荐一个类中其他用户喜欢的文本内容。总之,特征学习和生成推荐列表阶段的方式也有很多种,常用的有聚类、分类、决策树等机器学习算法。
2.2 基于Word2Vec的电子文献推荐
图1:异质图神经网络框架
Word2Vec 是文本数据挖掘中常用的词嵌入模型,具体分为两种语言模型,如果是用一个词组作为输入,来预测他周围的上下文,则称为Skip-gram 模型。如果是哪一个词组的上下文作为输入,来预测这个词组本身,则是CBOW 模型。本文采用Skip-gram 模型,Skipgram 模型本质上也是BP 神经网络,首先需要将文本进行分词处理,然后对每一个分词后的词组x 进行one-hot 编码,以编码后的向量作为Skip-gram 模型神经网络的输入,基于反向传播算法对神经网络进行训练,当模型训练完之后,最后得到输入层到隐含层的权重,将这些权重组成一个向量vx 来表示词组x,因为one-hot 编码里的1 的位置不同,所以向量vx能唯一表示词组x。Word2Vec 的本质是得到最后训练好的神经网络的输入层到隐含层的权重组成的向量来表示词组。
由此我们可以得到每一个词组的向量表示,将一篇文本中的所有词组向量进行累加运算可以得到一篇文本的向量表示,将一个用户喜欢过的所有文本向量取平均值可以得到用户偏好向量,在向量空间中可以通过余弦相似度、欧式距离做度量找到离用户偏好向量最近的n个文本内容作为待推荐的电子文献资源。基于Word2Vec 进行扩展,得到Doc2Vec(Par2Vec)模型,即考虑这个词组的上下文信息加上段落信息作为输入来预测下一个词组,Doc2Vec 模型在异质图神经网络的框架中用来处理文本信息。
3 基于异质图神经网络(HetGNN)的电子文献推荐
一般的基于网络结构的推荐算法不关注用户和物品的内容特征,而仅仅把他们看作抽象的节点,所有算法利用的信息都隐藏在用户和物品的选择关系之中。周涛等利用用户-物品用二部图(bipartite)建立用户-物品关联关系,并据此提出了基于二部图结构的推荐算法。在这种二部图的网络结构中,节点和节点之间的关系只是用户-物品的选择关系,并未考虑物品-物品之间的内容相似性,针对电子文献资源而言,电子文献资源之间的内容相似性是我们首要考虑的推荐依据。其次,这样的网络结构中所有节点的类型相同,属于基于同质信息网络的推荐,但在电子文献资源中存在多种数据,包括文献、书籍、报刊,这些资源的存储形式可以是文本或者扫描后得到的图片,如何针对于多种不同数据类型的电子资源进行推荐将是我们接下来关注的问题。
3.1 异质信息网络
异质信息网络是由YiZhou Su 首先提出的,异质信息网络与同质信息网络不同的是网络中的节点类型和边的类型存在多种。异质信息网络在被提出之后广泛应用于图表示学习、链路预测、分类、推荐。针对电子文献资源存在多种数据类型的情况,在用户-文献网络中生成多种类型的节点,建立用户-文献关系和文献-文献内在联系,为用户推荐其感兴趣的文献资料。
3.2 图表示学习
基于异质信息网络建立的图存在多种不同类型的节点,在对异质图进行数据挖掘工作之前首先需要做数据预处理工作,称为异质图嵌入或异质图表示学习,把图中的每一个节点都转换为向量从而进行之后的聚类、分类。异质图的表示学习方法可以为每个节点获得有意义的向量表示,可以为下游的任务(链路预测、分类、聚类、推荐等)提供研究基础。图嵌入与传统的数据结构中的图存储不同,传统的数据结构中图的存储是以邻接矩阵的形式,在图的节点数目非常多的情况下,矩阵的维数将非常多不利于计算。异质图嵌入的方法有随机游走、因子分解、深度学习等,图嵌入的主要优点有两点:第一点是将高维图结构用低维向量表示,第二点是图嵌入之前两个相邻节点在嵌入之后,两个向量在图嵌入的向量空间中也是相邻的。
3.3 异质图神经网络(HetGNN)
异质图的表示学习面临两个挑战,挑战一是如何融合异质信息网络中的结构信息,挑战二是如何融合异质信息网络中的内容信息。由Chuxu Zhang 等在2019年KDD 会议上提出的异质图神经网络(HetGNN)图嵌入框架[13]很好地解决了这两个挑战,也为多数据类型的电子文献资源推荐提供了图嵌入框架。
异质图神经网络在异质图表示学习中,采用图神经网络思想和Bi-LSTM神经网络技术,融合异质图的异质结构信息和异质内容进行图的嵌入。
HetGNN 框架的目的是将图中的每个节点都嵌入成向量,其中每个节点都包含自身的属性和内容信息。嵌入过程如图1所示,取图1中一节点a,找到它附近的所有节点,将这些节点输入至NN-1 这个网络中,NN-1 这个网络将对节点自身所带有的信息进行融合处理,若一个节点带有文本和图片信息,则文本信息将通过par2vec 框架进行嵌入,图片信息将通过CNN 框架进行嵌入,然后在通过Bi-LSTM双向长短期记忆网络进行处理,将处理后的结果进行融合得到这个节点的一个中间向量。将这些向量根据自身带有的内容信息类型进行分类,将属于一类的节点向量作为NN-2 的输入,通过NN-2 框架将一类节点向量融合为一个向量作为类向量,最后将节点a 自身经过NN-1处理后的向量与a 附近节点经过内容融合和再分类之后嵌入得到的分类向量作为NN-3 框架的输入,NN-3 框架引入注意力机制,最后输出就是节点a 嵌入后的向量表示,可以发现HetGNN 框架融合了节点的内容信息和图中节点的结构信息进行嵌入,此方法在下游任务(链路预测、分类、聚类等)上优于目前最先进的算法。
3.4 推荐方法
第一步构建异质信息网络,将用户和不同类型的电子文献资源作为节点,将用户浏览(喜欢)内容关系作为节点之间的边,将内容和内容之间的已知相关关系作为节点之间的边,由节点和边共同构成异质信息网络。第二步节点表示,根据HetGNN 框架将异质信息网络中的所有节点嵌入得到节点的向量化表示。第三步特征学习,节点嵌入过程包含了用户节点的嵌入,由此可以得到用户偏好向量。第四步生成推荐列表,根据HetGNN 嵌入后得到的用户偏好向量和电子文献资源向量在向量空间中做相似性度量,相似性度量方法可以是向量的余弦相似度、向量之间的欧式距离、向量之间的马氏距离,根据相似性度量方法找到离用户向量最近的N 个内容节点向量,将这N 个节点向量代表的电子文献添加到该用户的推荐列表中。
3.5 评价
根据HetGNN 的实验数据,异质图神经网络在多源异构数据推荐系统领域表现优于目前的其他算法。但该方法依然存在一开始缺少用户内容选择关系的冷启动问题,冷启动问题一直是推荐系统中的一个难题,也将是该方法未来可以优化和研究的一个方向。
4 结束语
电子文献资源的推荐一直是推荐系统领域一个研究的应用场景,基于电子文献资源自身带有内容的重要性,目前电子文献资源推荐很少采用推荐系统中广泛使用的协同过滤推荐,而是大多采用基于内容的推荐方式,本文阐述了三种不同的基于内容的推荐方法,首先基于单纯的文本类型阐述了基于TF-IDF 的推荐算法和基于Word2Vec 的推荐算法原理,这两种方法只是在文本嵌入的方式上不同,目前也有将两种嵌入方式做融合的研究,也有基于Word2Vec 衍生出的Doc2vec 模型做文本嵌入的研究。最后根据多种数据类型的电子文献资源,结合目前最新的多源异构数据嵌入框架HetGNN 提出了对多种数据类型电子文献资源进行推荐的方法,该方法在多源异构数据上进行推荐优于目前的其他方法。