APP下载

基于用户兴趣及迁移的话题模型分析

2018-09-04蓝友枢张章学

软件导刊 2018年6期

蓝友枢 张章学

摘 要:社交网络中各种推广应用都依赖于用户兴趣的获取。用户兴趣获取方法多种多样,但大多集中于用户关注信息、用户浏览网页的分析,用户发表的语义信息与兴趣的潜在联系很少被深度发掘。提出基于标签的话题分割模型,将所有文本转化为带标签的文本以便聚类。通过分析话题变化状态推测用户兴趣迁移状况,注重社交网络用户兴趣及迁移状况与话题动态变化过程的潜在关联,利用Word2vec对话题进行相似度分析,充分利用词的上下文信息表征丰富的语义信息,通过分析社交网络平台数据,得到用户兴趣分布、兴趣动态变化过程以及话题迁移状况。将结果进行拟合后发现,用户的兴趣及变化状况很大程度上取决于用户发表的话题。

关键词:社交网络;用户兴趣;话题模型

DOI:10.11907/rjdk.172859

中图分类号:TP302

文献标识码:A 文章编号:1672-7800(2018)006-0049-04

Abstract:A variety of applications in social network are dependent on user interest. To obtain user interest diversity, a large number of methods are focused on those information that users pay attention or the semantic information is ignored. In this paper, we focus on the social network interest of user and migration status about topics.We obtain the migration status of interest by analyzing the changes of the topics. By Word2vec model similarity of the topic is analysed. This model makes full use of the word context information to characterize semantic information. Then we put forward the model of partition based on topics that convert all texts into tagged texts. Finally, We observe the changes of the topics when interests change. By analyzing the data obtained from the social networking ,we get the distribution of user interest, the dynamic process of interest change and the migration of topics. It is found that topics largely depend on the user's interests.

Key Words:social network; interest; topic model

0 引言

社交網络与现实生活越来越重合,而社交网络平台的大量推广使人们在虚拟网络中得到的信息越来越贴合现实需求,主题探测及追踪技术旨在找到并追踪人们感兴趣的话题[1],让人们了解这些信息或事件的后续发展,以便用户能更全面地分析事件[2]。社交网络中用户兴趣极为重要,大部分研究都涉及到用户兴趣,例如社交网络推荐服务就是与用户兴趣息息相关的[3]。对信息传播而言,若用户对该信息有兴趣,那么传播率就会很高[4]。因此,用户兴趣获取是社交网络中一切应用的基石。

本文采用经典的Word2vec话题模型对话题进行相似度分析。话题模型最早产生于1996年,由当时美国国防高级研究计划署(简称DARPA)提出,用于判断在没有人工干预的情况下新闻的主题趋势[5]。随着技术的不断进步,许多研究将概率主题模型用来识别大规模文档集或主题信息[6-7]。由于社交网络用户发表文档的局限性(简短且包含许多表情符号),导致传统的VSM(Vector Space Model,简称向量空间模型)无法处理含有该类特性的微博文本[8]。相对于经典的潜在语义分析(Latent Semantic Index,简称 LSI)[9]、潜在狄立克雷分配(Latent Dirichlet Allocation,简称LDA)[10]过程而言,本文采用的模型充分利用词的上下文信息,能更加丰富地表征语义信息。本文提出了基于标签的话题分割模型,利用标签文本对所有文本进行聚类划分。在以下两方面进行研究:①利用话题模型将用户信息标签化,从而达到简化信息聚类文本的效果;②采用Word2vec话题模型对话题进行相似度分析,以了解用户的话题迁移状况。

1 模型建立

1.1 模型架构

为得到用户话题与兴趣的联系,需要对用户发表的文本信息进行处理,本文采用Word2vec话题模型对用户发表的信息进行语义处理。社交网络用户发表微博的文本存在分类标签,为便于话题聚类,本文建立一个半监督话题模型,将所有文本都生成带标签文本。模型基本原理如图1所示。从这些话题得到用户的兴趣并根据话题变化分析用户的兴趣迁移现象。

根据图1的基本原理作出以下假设:①任意用户发表的文本可存在多个标签,但标签间概率相等;②兴趣分为6大类:美食、休闲、时尚、购物、文化、旅游;③聚类允许存在重叠部分。

1.2 Word2vec话题模型建立

Distributed representation 是Word2vec 使用的词向量表示方式,最早由 Hinton在 1986 年提出[11],目的是通过训练将每个词映射成K维实数向量,通过词与词之间的关系判断它们之间的语义相似度。本文采用连续词袋模型(Continuous Bag-of-Word Model, 簡称CBOW),将每个词映射成K维实数向量。

Hierarchical Softmax本质是优化CBOW的输出层。传统的CBOW输出层利用softmax计算概率值,而Hierarchical Softmax利用Huffman树计算概率值。Hierarchical Softmax将词表中的全部词看成叶子节点,词频作为节点的权重,构建一棵Huffman树。Huffman树是二叉树,如图2所示。直观上可以看出,叶子节点的权重越大,该叶子节点离根节点越近。因此,对于模型来说,若一个词的词频越高,它距离根节点就越近。从图中能发现它的最优路径是唯一的,Hierarchical Softmax利用最优路径计算指定词概率。

1.3 聚类分析

社交网络中存在带标签文本,建立一个半监督的话题模型是为了将所有文本都生成带标签文本,以便进行话题聚类,从这些话题中得到用户兴趣,并根据话题变化分析用户的兴趣迁移现象。

根据话题间相似度实验,本文设置一个初始阈值δ,当未标签文本D-i与标签文本D-j之间的相似度大于等于初始阈值δ,就可将未标签文本同化为D-j的同一类标签文本。一直重复该步骤直到所有文本皆被标记,再进行文本间的聚类分析。最后将标签进行大类划分为美食、休闲、时尚、购物、文化、旅游。

1.4 兴趣及话题动态状况

社交网络用户的兴趣会随着时间的改变而发生变化,本文利用用户关注信息监测用户兴趣状况,根据用户不同时间关注的用户列表变化状况分析用户兴趣变化状况。用户兴趣变化是一个缓慢的过程,用户兴趣很少会突然发生改变,因此,本文设置一个兴趣状态量表示这个动态变化过程。设F-t、L-t、S-t、P-t、C-t、T-t分别是t时刻用户关注美食相关、休闲相关、时尚相关、购物相关、文化相关、旅游相关的博主数量,定义对任意用户i在t时刻都存在一个兴趣状态量S-it,如下式:

设置一个兴趣状态量表示兴趣变化的动态过程,对于话题同样设置一个话题状态量表示话题的动态迁移过程。在上述的聚类过程中将用户话题进行聚类,设DF-t、DL-t、DS-t、DP-t、DC-t、DT-t分别是t时刻用户发表的美食相关、休闲相关、时尚相关、购物相关、文化相关、旅游相关的文本数量。

2 实验验证与结果分析

以用户发表的微博信息以及用户关注的内容进行实验。生活中存在一些用户基本不发微博也不关注其他用户情况,在数据处理时过滤掉这部分数据。首先随机抽取1 000个微博,去除两周内发表微博数少于3条的用户,分别采集他们两周内的微博数据。对话题进行聚类之后发现微博中兴趣的分布情况如图3所示。由图(3)可知用户兴趣主要集中在名人明星、生活娱乐以及时事新闻3方面。

本文目的是得到用户间的兴趣变化状况与话题变化状况之间的关联,任意选择微博中的一个用户,根据模型定义得到兴趣变化状况及话题变化状况。

用户的实际兴趣获取来自于微博用户关注情况分析,根据分析提取出用户的真实兴趣状况。将用户间的兴趣变化状况和话题变化状况(见图4、图5)进行拟合,如图6所示。由于初始阈值的不确定性,因此对不同阈值状态下的结果都进行分析。实际操作中初始阈值高于0.8的基本没有,因此将其分成6段:[0,0.2),[0.2,0.4),[0.4,0.5),[0.5,0.6),[0.6,0.7),[0.7,0.8)。从图6可发现初始阈值越大,兴趣与话题的拟合度就越高。但当到达一定值之后,变化却不明显。

3 结语

本文对社交网络中用户兴趣及迁移状况对话题的影响进行了研究。针对话题间的相似度进行分析,采用传统的Word2vec模型,充分利用词的上下文信息及该模型丰富的表征语义信息,提出基于标签的话题分割模型。通过话题改变过程中兴趣的动态变化过程,分析兴趣及迁移状况对话题的影响。实验数据表明,用户发表的话题很大程度上取决于用户的兴趣变化状况。

参考文献:

[1] ZHANG X, GUO Z, LI B. An effective algorithm of news topic tracking[C].Intelligent Systems, 2009. GCIS '09. WRI Global Congress on. IEEE, 2009:510-513.

[2] PON R K, CARDENAS A F, CRITCHLOW T, et al. Tracking multiple topics for finding interesting articles[C].ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2007:560-569.

[3] 张晓婕.基于微博用户兴趣模型的个性化广告推荐研究[D].上海:华东师范大学,2014.

[4] ZHAO N, CUI X, DAWSON K A, et al. Impact of individual interest shift on information dissemination in modular networks[J]. Physica A Statistical Mechanics & Its Applications, 2017(466):232-242.

[5] 李树平,张伟,杨柳,等.话题跟踪技术的研究综述[J].赤子,2014(21):130-131.

[6] 陈文涛,张小明,李舟军.构建微博用户兴趣模型的主题模型的分析[J].计算机科学,2013,40(4):127-130.

[7] BERRY, MICHAEL W, KOGAN, et al. Text Mining: applications and theory[J]. John Wiley & Sons, 2010(1):29-33.

[8] MELUCCI M. Vector-Space Model[M]. Springer US, 2009.

[9] HEISTERKAMP D R. Building a latent semantic index of an image database from patterns of relevance feedback[C].16 Th International Conference on Pattern Recognition. IEEE Computer Society, 2002:40134.

[10] BLEI D M, NG A Y, JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.

[11] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J]. Computer Science, 2013(6):1257-1262.

(责任编辑:杜能钢)