基于属性网络嵌入的社会网络意见领袖发现算法
2020-02-25
(西华大学计算机与软件工程学院 四川 成都 610039)
一、引言
随着社交媒体平台的出现和扩展,人们相互交流的方式发生了巨大的变化。通过社交网站、意见分享网站、微博等,人们可以自由地相互交流,表达自己的个人经验、对某一产品的感受,甚至对政治、经济问题的看法。能够影响和改变他人观点的人被称为意见领袖。识别这些异常和有影响力的个体的任务被定义为意见领袖检测[2]。
不同领域的学者试图利用不同领域的技术来解决这个问题。例如,赵等人[3]提出了一种结合影响力最大化算法和标签传播的方法来识别具有社区结构的社交网络中的意见领袖。段[4]将聚类算法与情绪分析相结合,寻找意见领袖。李等人[5]提出了在线学习社区中意见领袖识别的混合框架。使用随即游走框架[6]最典型的方法是PageRank算法[7],它根据节点接收到的链接计算任意节点(如网页)的重要性。PageRank设置在随机游走中每个邻居节点具有相同的转移概率,每个节点在重新启动随机游走时被选择为开始节点的概率相等。这些假设不符合社交网络平台中用户交互的特点,因此开发了一系列改进算法,利用主题模型、意见挖掘、情绪分析、社区发现、用户关系强度分析等技术来解决这些不足。其他技术的引进为改进随机游走模型提供了独特的视角。
近年来,网络表示学习(network representation learning)引起了人们的广泛关注。网络嵌入是利用低维、实值、稠密的向量形式来表示网络中的节点。网络嵌入的目的是利用低维、实值、稠密的向量形式来表示网络中的节点,使得到的向量在向量空间中具有表示和推理的能力。网络嵌入不仅可以将网络结构信息嵌入到向量空间中,而且可以自发地学习节点间的潜在相似性。在真实的社交平台中,丰富的文本内容除了提供网络结构信息外,还能提供有价值的信息,因此在网络嵌入模型中也考虑了自然语言处理技术。
本文从网络嵌入的角度出发,讨论了如何寻找意见领袖。由于社交平台中包含的网络结构和文本内容的不可忽视的作用,我们选择SNE(social network embedded)[9]作为网络嵌入模型,它可以利用深度学习技术来捕捉属性如何反映节点的相似性。我们的方法类似于TIURank[5],它依赖于机器学习模型来分析用户之间的连接强度,但是我们使用的是网络嵌入模型。
二、带有属性的社交网络嵌入
SNE[9]模型是一种神经网络模型,主要由两部分组成,第一部分是网络结构的嵌入,第二部分是属性的编码。
输入层:模型的输入由用户ID向量和用户属性向量组成。M是社交网络的用户总数。输入是一个m维向量,相应的位置标记为1,其他的都是0。许多现实世界的社交网络包含丰富的属性或文本内容信息,属性向量可以被设计为相应的表示。对于离散属性,比如性别属性有两个值{男性,女性},可以表示为{0,1}。对于连续属性,比如文档建模,通常将其转换为实值TF-IDF。本文中的属性编码方法采用TF-IDF编码文本数据。
嵌入层:嵌入层由两个完全连接的部分组成。一个部分将一个的用户的表示向量映射到一个密集的向量捕捉结构信息。另一部分编码通用的属性特征向量并生成一个紧凑的向量来聚合属性信息。
隐藏层:在通过嵌入层后,and会被送入一个多层感知机网络,每一层的隐层表示为
输出层:最后,将最后一个隐含层的输出向量转化为概率向量,其中包含对网络中所有节点的预测链接概率
三、意见领袖挖掘算法
在PageRank[7]和LeaderRank[5]的假设中,一个漫游到相邻节点的概率是相等的。这一假设没有考虑到用户为邻居节点付出的注意力是不同的这一现象。有的研究[3,8,10]通过主题模型计算文本的主题相似度,或者通过意见挖掘模型对比意见差异来衡量差异。但是我们通过将节点映射到向量空间来测量,差值是由节点在向量空间中的距离来计算的。我们用上一章节所描述的模型进行网络与属性嵌入后得到了,权重矩阵W。
因此,我们的随即游走迭代公式考虑了网络结构和文本内容的相似性。随机游走算法迭代的计算公式如下:
四、总结与展望
在本文中,我们尝试探讨网络嵌入方法是否可以为意见领袖挖掘任务提供帮助。我们利用SNE模型对文本内容和网络结构的数据拟合能力。利用网络节点在向量空间中的距离来度量转移概率。实验表明,该方法不仅考虑了网络结构中影响者的中心性,还考虑了文本内容与网络中其他节点的相似性。在未来的研究中,我们将考虑如何同时嵌入网络和挖掘意见领袖。