APP下载

基于动态主题模型的大数据网络舆情热点抽取

2019-05-23万红新

电脑知识与技术 2019年8期
关键词:大数据

万红新

摘要:随着互联网的发展和普及,在网络上产生了大量的评论数据,形成舆情热点话题。舆情热点是一个动态的变化过程。提出的动态主题模型可以从舆情文本中发现动态变化的热点词,通过词语间的主题聚类来提取舆情热点词语,实现从海里文本数据中提取网络舆情热点。

关键词:主题模型;动态主题;舆情热点;大数据

中图分类号:TP393 文献标识码:A

文章编号:1009-3044(2019)08-0159-02

1引言

人工方式及一些常规方法已不能满足对大数据舆情文本进行分析和处理的要求,舆情热点的挖掘需要利用具有大规模数据处理能力的自动化相关技术来实现。动态化的主题模型适于处理海量的时变性文本数据,可以有效发现和提取热点。将时间戳固定划分的动态主题模型不能根据时间的动态变化调整主题-时间分布,在主题模型内部没有实现动态的主题分配,时间分配对于主题词的概率分布影响有限,使得主题词语的分配难以符合实际舆情词语的动态变化特点。本文提出了一种动态的主题模型D-LDA(Dynamic LDA),将时间因子作为时间层嵌入到主题模型中,从结构上对词语的分布产生影响,并设计符合舆情文本分布特点的时间-主题-词语分配算法,提升主题模型的时间敏感度,提取的主题词语更能反映舆情热点的变化规律。

2主要问题

LDA主题模型是一种概率模型,能够从大文本数据集中提取潜在的主题词语,而舆情热点的挖掘契合了主题模型挖掘特点,利用主题模型能够抽取隐藏的舆情热点词语。但主题模型对于时间变化不够敏感,提取的主题词语往往是高频词语,但一些与时间密切相关的热点词语提取率不高,容易忽略一些低频的热点词语。具体问题包括:

① 大数据环境下的舆情文本热点主题抽取。克服已有主题模型的不足,提出能够发现更多动态主题词语的LDA主题模型,实现主题词和舆情热点的关系映射。

② 动态主题模型的分布参数设计研究。加入时间约束后的LDA增加了文档-时间和时间-主题分布,需要设计符合舆情热点分布特点的算法来计算它们之间的分配关系。

③ 动态主题模型D-LDA(Dynamic LDA)的构建研究。如何在LDA的基础上增加时间层,将三层结构的LDA转换为四层结构,以适应时变性热点主题词的有效发现。

3相关研究

网络上评论文本日益增加,已有的一些模型和算法难以处理如此大规模的文本数据, 主题模型的方法收到了关注。主题模型是无监督的学习方法,不需要进行大量的数据标注和训练,主题模型同时可以对文本进行降维,适合对海量文本数据进行关键词语抽取。LDA主题模型的这些特点对于舆情热点的挖掘来说,提供了很好的基础模型和算法。很多研究在标准LDA模型的基础上,进行了模型改进和算法重设。标准LDA(Latent Dirichlet Allocation)[1]主题模型包括三层结构:文档层、主题层和词语层。要实现动态主题词的提取,可以增加时间层。Blei(2006)将时间层加入LDA主题模型,提出的DTM(Dynamic Topic Model)主题模型可以提取动态的主题词语,层级分配考虑了离散时间的影响,文档分布按照时间片的不同而生成不同的主题词语结构,获取的主题词语和时间变化保持同步[2];曹丽娜(2014)提出的主题模型重点关注随时间变化的主题词语链的提取,在词语提取后,设计热点权重进行主题排序,获取更受关注的舆情话题 [3] ;陈晓美(2015)对于主题模型提取热点的特点和优点进行了分析,提出了优化的基于主题模型的舆情热点挖掘策略和提取路径[4]。

4模型设计

提出的D-LDA主题模型保留了主题模型的主题提取功能的基础上,将动态时间引入到标准LDA主题模型中,实现从三层结构到四层结构的转变,包括的层级为:时间层、文档层、主题层和词语层,在提取热点主题词的同时,发现主题之间的动态变化和关联性,实现文本热点抽取。

D-LDA模型的参数估计采用吉布斯抽样计算,分配参数包括文档-时间分配、时间-主题分配、主题-词语分配和时间介入的主题-词语配,分别用符号[φtkw]、θdt、[θttk]和φkw表示,计算公式如(1)、(2)、(3)和(4)所示。公式中,k-1是除主题k以外的主题集合中的其他主题,w-1是除词语w之外词语集合中的其他词语,[CKWkw]表示在主题k中词语w出现的次数,[CDTdt]表示在时间点t文档d的出现次数, t-1是除时间点t以外的时间点集合中的其他时间点,[CTKtk]表示在时间点t中主题k的分配次数,qk(w)是时间戳对词语w属于相关主题的权重分配因子,N是文本数据源中的非重复词语个数。

[θdt=CDTdt+αt-1CDTdt+Tα] (1)

[θttk=CTKtk+αtk-1CTKtk+Kαt] (2)

[φkw=CKWkw+βw-1CKWkw+Nβ] (3)

[φtkw=qk(w)CKWkw+βw-1CKWkw+Nβ] (4)

5 实验分析

对3个典型的主题模型进行了比较,LDA、DTM和D-LDA模型的热点抽取的准确率和召回率如图1、2所示,其中纵坐标表示准确率,横坐标表示主题数。

从图1进行分析,发现准确率随着主题个数的增加都呈下降趋势,这符合主题词提取的一般规律。D-LDA模型相对于其他2个模型具有较明显的优势,说明时间的引入可以有效提升主题-词语的分布动态性,提取更精确的舆情热点词语。DTM相对于LDA具有更好的准确率,表明LDA没有时间层的介入,降低了词语分布的变化性,影响了舆情主题词语的提取。

从图2可以看出,当主题数较少时,提取的主题词语相对有限,所以3个模型的舆情热点词语的提取率不高。随着主题数的增加,主题词语提取相应增加,主题词语的召回率业逐渐增加。D-LDA相对于其他2个模型召回率优势较明显,说明了动态时间层的加入,使得时间-主题、主题-词语的结构更加清晰,改善了LDA模型对舆情热点词的识别率,提高了热点词的提取率。

6结论

提出了D-LDA模型基于大数据环境下的动态舆情热点挖掘,重点在于构建符合舆情热点动态分布特征的主题模型,实现热点词的提取及主题聚类。首先实现了LDA主题模型的时间层的嵌入,构造了四层LDA主题模型。标准LDA模型擅长抽取髙词频、高文档频率的主题词语,没有关注舆情文本词语的动态变化特征,提取的主题词语很难反映热点的变化情况。D-LDA在保留LDA主题模型從大数据文本提取主题词功能的同时,将时间戳因子引入主题模型,并且时间片的分配是随机分布式的,可以动态影响文档-时间、时间-主题的分布,从而抽取动态的而不是固化的热度词语及词语关系,进而实现舆情热点的有效提取。

参考文献:

[1] Blei D, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.

[2] Blei D, Lafferty J D. Dynamic Topic Models[C]. Proceedings of the 23rd International Conference on Machine Learning (ICML). New York, USA: ACM, 2006: 113-120.

[3] 曹丽娜, 唐锡晋. 基于主题模型的BBS话题演化趋势分析[J]. 管理科学学报, 2014, 17(11): 109-121.

[4] 陈晓美, 高铖, 关心惠. 网络舆情观点提取的LDA主题模型方法[J]. 图书情报工作, 2015, 59(21): 21-26.

【通联编辑:光文玲】

猜你喜欢

大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路