APP下载

基于LDA 的主题发现及演化规律的可视化研究

2017-04-22龚磊

现代计算机 2017年7期
关键词:主题词文档可视化

龚磊

(四川大学计算机学院,成都 610065)

基于LDA 的主题发现及演化规律的可视化研究

龚磊

(四川大学计算机学院,成都 610065)

近年来随着互联网的迅猛发展,社交网络已经成为越来越多的民众表达想法和观点的主要平台。网络中的舆论对现实社会的影响也越来越明显,因此及时追踪和发现网络热点主题及主题的变化规律也变得越来越重要。为了从通过大量的网络文本中分析出主题及其演化趋势,需要进行主题发现,主题跟踪,可视化分析。在主题发现中,LDA拥有强大的数学概率基础,已经成为比较流行的一种重要的技术手段。采用LDA技术进行主题发现,在主题模型LDA挖掘的基础之上,利用可视化技术发现主题演化规律。

主题发现;LDA;演化规律;可视化

0 引言

随着互联网的迅猛发展,网络已经成为越来越多的民众表达想法和观点的平台。网络舆论是网民们通过网络这个信息媒介来表达政治看法、思想意识、个人观点等方面的综合表现。网络所具有的开发性和虚拟性使得民意表达得更加顺畅,同时也可能在一个热点事件上添加一些情绪,造成舆论的广泛传播。由于网络上的信息量十分巨大,仅仅利用人工收集和处理数据是难以应对网络上的信息的。所以我们需要利用多种信息分析处理技术,来分析网络上的舆情动态,对于网络上的热点主题做出及时反应。网络舆论对现实社会的影响也越来越明显,因此及时发现网络热点主题[1]及主题的变化规律也越来越重要。近年来,对社交网络中的数据进行主题挖掘[3]方面受到了许多研究者的关注,许多关于主题发现的算法被提出。研究者在文本挖掘领域提出了很多的分析技术,但由于主题挖掘的结果通常是一堆词簇,结果复杂,因而越来越多的研究者将主题挖掘和可视化技术[4]结合在一起。

本文对微博数据进行了去噪和分组,做为LDA模型的输入,输出各个时间片的主题词簇。对于LDA挖掘技术中主题词簇中的词语排列顺序只是按词语隶属该主题的概率大小评估的,在实际实验过程中发现往往排在前面的都是一些常见词,例如北京、中国、世界,等等,但是这些词语并不能很好代表该主题的意思,至少也不应该排在主题词簇的前面。已有的结论:如果某一个词语比较不常见,但是它在这个文档中出现了较多次数的话,那么这些词语是最能反映该文档的中心思想的,也是我们想要发现的主题词簇。所以在LDA计算主题词簇的同时,也需要计算词语在文档集中的逆文档概率,综合逆文档概率和词语隶属主题的概率来挑选出该主题的主题词簇。在LDA挖掘出不同时间片的主题词簇的基础上,计算相邻时间片的主题相似度和主题强度,分析主题演化的连续性和停断性。最后利用上述计算结果,用主题流展示主题演化规律,文字云展示时间片内的主题词簇。

1 构建主题模型算法

D.M Blei等三人在2003年提出了LDA[2]模型让主题模型火了起来,现在LDA已经成为了主题建模中的一个重要标准。LDA是一个三层的贝叶斯模型,通过对两个参数的估计,从而知道主题的词簇。

Documents类:为了存储文档集、词语集、词语索引等数据,设Documents类来这些数据结构在内存中的存储形式。Document类是Documents类的内部类,Document是存储一条微博的信息,Documents是存储某一时间片内(本文的时间片长度设置为七天)的所有微博数据,Documents是包含多个Document的一个集合。Doucments属性中:docs就是用来存储某一时间片内的所有document;termToIndexMap用来存储某个词语在该时间片内的词语库中的索引;indexToTermMap用来存储时间片内的词语库;termCountMap用来存储时间片内的词语与出现次数之间的对应关系;termIDF用来存储时间片内所有词语的逆文档频率。Documents方法中的readDocs()是针对数据是一次性读完的情况设计的,因为有时候不需要涉及到时间片的概率,只要一次LDA挖掘即可,但本实验需要多次循环LDA算法,为此设计了另外两个函数readAll()和readTXT(),分别针对从数据库中传出的数据和本地TXT数据文件。

主题模型的构建过程描述:

输入:微博文本数据,主题个数

输出:文本在主题上的分本,主题在单词上的分布。

算法伪代码:

2 可视化设计

2.1 设计文字云

文字云的设计主要是空间展示区域的布局和关键字展示的设计。首先展示文字云的空间大小要确定,这会影响到关键字的布局的边界问题。在选定文字云的空间时大小也要合适,当空间区域太大时,那么整个关键词的文字云就会显得不分散;当空间区域太小时,那么整个关键词的文字云就会显得太集中,而且关键词可能会出现跑出限定的空间区域或者关键词部分重叠的情况。然后是关键词的颜色和字体,选择合适的字体和颜色能在视觉上有好的效果。

设定放置文字云的空间区域后,就需要将关键词放入该区域中,产生文字云的效果。每次产生一个展示区域中中心附近的一个坐标,如果该坐标不在其他关键词所占的区域内时,那么将关键字放入展示区域,同时该关键字区域被该关键字占用,否则随机产生一个以上次冲突区域中心在以其半径附近的一个坐标,再次判断坐标是否冲突即可。

2.2 设计主题流

主题流图设计包括同一时间内各个主题的高度和颜色的设置,主题强度映射成为主题的高度,颜色区分是否为同一主题流,不同时间片内主题的连续性设置,主要是通过主题相似度来判别是否是上一主题流的延续,如果属于上一主题流的延续,那么保持上一主题流的颜色,如果是产生新的主题流,那么产生一种的新颜色的主题流,同样主题流的高度由主题强度确定,然后用曲线拟合形成主题流图。

绘制主题流的数据文件:相似度数据和强度数据。通过相似度控制主题流的连续性,通过强度来控制主题流的粗细,这样主题流的大致形状可以呈现成来。

可视化效果如图1所示。

3 结语

本文针对新浪微博数据为研究对象,对微博数据在主题维度进行分析,采用文字云和主题流的可视化方法对其随时间演过进行研究。采用LDA发现主题信息,利用文字云表达主题内容,利用主题流表达主题演化情况,实现对微博数据的主题进行分析的原型系统。

图1 可视化效果图

[1]Cui W W,Liu S X,Tan L,et al.TextFlow:Towards Better Understanding of Evolving Topics in Text.In:IEEE Transactions on Visualization and Computer Graphics,2011

[2]Blei D M,Lafferty J D.Dynamic Topic Models[C].Proceedings of the 23rd International Conference on Machine Learning.Acm,2006: 113:120

[3]Whitelaw C,Garg N,Argamon S.Using Appraisal Groups for Sentiment Analysis[C].Proceedings of the 14th ACM International Conference on Information and Knowledge Management.ACM,2005:625-631.

[4]Viégas F B,Wattenberg M.Timelines Tag Clouds and the Case for Vernacular Visualization[J].Interactions,2008,15(4):49-52.

Visualization of Topic Discovery and Evolution Based on LDA

GONG Lei
(College of Computer Science,Sichuan University,Chengdu 610065)

With the rapid development of the Internet in recent years,social network has become a major platform for people to express more ideas and perspectives.The impact of public opinion on the reality of the network society has become increasingly evident,therefore tracing timely changes of social network and discovering hot topics are becoming increasingly important.In order to analyze topics and its evolution trend from a lot of text information on the Internet,we need to do topic discovery,analyze topic evolution,and visualize them.Uses LDA model which is popular to discover topics,based on result of LDA,uses visualization techniques to find topic evolution.

Topic Discovery;LDA;Topic Evolution;Visualization

1007-1423(2017)07-0042-03

10.3969/j.issn.1007-1423.2017.07.011

龚磊(1990-),男,湖北宜昌人,研究方向为智能信息处理

2017-01-17

2017-03-01

猜你喜欢

主题词文档可视化
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
浅谈Matlab与Word文档的应用接口
思维可视化
自然资源可视化决策系统
有人一声不吭向你扔了个文档
智能传感器的智慧战略,新技术创造新价值
Word文档 高效分合有高招
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
取消公文主题词的真正原因是什么?