基于LDA的长短文本分类比较
2017-04-01王海林张雅君
王海林++张雅君
摘要:LDA作为一种常用的主题模型,在文本挖掘中作为特征选择的方法被广泛应用。但随着互联网中短文本信息的逐渐增多,短文本代表性词少的特点使得LDA对于短文本的主题挖掘不一定能够达到理想效果,这给LDA的应用带来了巨大挑战。为了探究LDA主题模型对短文本的分类效果,基于LDA,对长文本和短文本进行分类,对比分类效果,判断LDA对于短文本的适用性。
关键词:LDA 主题模型 文本分类 短文本
中图分类号:TP181 文献标识码:A 文章编号:1007-9416(2016)10-0230-01
Abstract:As a common method of topic mining, LDA is used as a method of feature selection in text mining widely. But with the increase in the number of short text, the result of LDA for the topic mining of short text may be not good. It is a challenge for LDA to deal with the few words .This paper classified the short text and long text based on LDA, respectively, compared the result, and estimated whether LDA is suitable for short text.
Key Words:LDA; topic model; text classification; short text
文本數据作为非结构化数据的一种,如何从中进行信息的提取,得到了高度的关注。微博、商品评论等信息都表现为短小、代表性词少等特征,LDA对于短文本的主题挖掘并不一定能够达到理想效果。因此,基于LDA对长、短文本进行分类,探究LDA主题模型对于短文本挖掘是否适用。
1 LDA主题模型概述
1.1 LDA基本思想
LDA主题模型[1]认为文档集合中所有的文档按照一定的概率共享某些潜在主题,而这些潜在的主题又可以由文档中的一些特征词来表示[2]。因此,就可以用一个三层贝叶斯模型来表示 “文档”、“主题”和“特征词”之间的关系,如图1所示。LDA模型可以表示为。
1.2 参数估计
LDA主题模型使用Gibbs抽样[3]对未知参数φ和θ进行估计,吉布斯更新规则为:参数估计。
2 实验数据及结果
2.1 实验数据集及预处理
长文本实验数据来源于微信公众号抓取的新闻数据,共社会、教育、健康等7个类别。短文本实验数据集来源于SODA上海开放数据创新应用大赛网格化管理数据,共有暴露垃圾、跨门营业和占道无证经营3个小类。长文本平均每条新闻在180字以上,共741条;短文本中每条数据平均字数在100字以下,共998条。
2.2 实验环境
分词处理:R
主题挖掘:JGibbs
文本分类:libsvm[4]
2.3 实验结果
选择精确度、召回率和F值作为评价指标[5]比较分类准确性,结果评价如表1所示。表1中显示长文本的各指标均高于短文本的各个指标,面对短文本,LDA效果较差。
3 结语
使用LDA对不同长度的文本集进行主题挖掘,利用libsvm进行分类,根据分类结果各评价指标可以看出长文本分类效果明显高于短文本分类效果,LDA并不适用于短文本。数据集的选取、文本分词的效果和数据集中类别的数量会对分类结果造成一定的影响,因此,可以进一步研究如何消除这些外在条件的影响从而更加严谨的对比LDA对于长、短文本的主题挖掘效果。
参考文献
[1]Blei D, Ng A ,Jordan M. Latent Dirichlet Allocation [J].Journal of Machine Learning Research,2003(3):993-1022.
[2]王鹏,高铖,陈晓美.基于LDA模型的文本聚类研究[J].情报科学,2015,1(33):63-68.
[3]Thomas L. Grimths, Mark Steyvers. Finding scientific topics[J]. PNAS,2004:52.
[4]董露露.基于特征选择及LDA模型的中文文本分类研究与实现[D].安徽大学硕士学位论文,2014(4).
[5]Xiaojun Wu, Liying Fang, Pu Wang, et al. Performance of Using LDA for Chinese News Text Classification [C]. Proceeding of the IEEE 28th Canadian Conference on Electrical and Computer Engineering,2015:1260-1264.
收稿日期:2016-08-26
作者简介:王海林(1962—),男,汉族,山西大同人,副教授,硕士研究生导师,主要研究领域为:数据建模、大数据、分布式系统;张雅君(1992
—),女,汉族,山西大同人,硕士研究生,主要研究领域为:数据挖掘、数据建模。