基于LDA特征扩展的短文本分类方法研究
2018-03-26胡朝举徐永峰
胡朝举 徐永峰
摘要:
针对短文本信息篇幅短、信息量少、特征稀疏的特點,提出一种基于LDA(Laten Dirichlet Allocation)主题模型特征扩展的短文本分类方法。该方法利用LDA模型得到文档的主题分布,然后将对应主题下的词扩充到原来短文本的特征中,作为新的部分特征词,最后利用SVM分类方法进行分类。实验结果表明,相比于传统的基于VSM模型的分类方法,基于LDA特征扩展的短文本分类方法克服了特征稀疏的问题,在各个类别上的查准率、查全率和F1值都有所提高,充分验证了该方法对短文本分类的可行性。
关键词:
短文本分类;隐含狄利克雷分布(LDA);特征扩展;SVM
DOIDOI:10.11907/rjdk.172295
中图分类号:TP301
文献标识码:A文章编号文章编号:16727800(2018)003006304
英文摘要Abstract:This paper presented a short text classification method based on LDA (Laten Dirichlet Allocation) theme model for short text information, short message, and sparse features. This method used the LDA model to obtain the subject distribution of the document, and then extended the word under the corresponding topic into the characteristics of the original short text as a new part of the feature word. Finally, SVM classification method was used to classify. The experimental results show that the short text classification method based on the LDA feature extension overcomes the problem of sparseness of features, and the precision, recall and F1 values are improved in all categories compared with the traditional classification method based on VSM model. It is proved that the method is feasible for short text classification.
英文关键词Key Words:short text classification; Laten Dirichlet Allocation (LDA); feature expansion; SVM
0引言
随着互联网的快速发展,手机、平板电脑等移动终端的普及,手机短信息、微博、网络评论、论坛发帖回帖等短文本形式的信息不断涌入人们的生活中。面对大量短文本信息,如何快速而准确地从中获取所需的关键信息,成为众多研究者关注的热点问题。近年来,短文本处理技术也应用于舆情分析[1]和搜索引擎[2]等领域。
目前对于文本信息的处理,如文本分类,已经有了可用性比较高的技术,然而对于篇幅较短的文本,还没有比较成熟的方法。当前常用的文本分类方法主要有朴素贝叶斯算法、K近邻算法、支持向量机算法等,这些方法要求足够的词频共现信息,适用于长文本分类。但是短文本具有篇幅短、信息量少、特征稀疏等特点,相关方法直接应用于短文本分类并不能取得良好效果,其主要困难在于短文本的特征稀疏问题[3]。
对于短文本分类方法的研究,近年来主要有基于语义和基于规则两种方法。基于语义的方法主要是借助外部知识库获取短文本中的语义信息,该方法可以发现大部分词之间存在的语义关系,但是对库中不存在的词则不起作用;基于规则的方法是利用各类词语之间相关联的规则进行分类,比如基于搜索引擎的方法,利用搜索引擎的查询结果对短文本进行扩展,该方法对搜索质量要求较高,且比较耗时,影响短文本分类的实时性。针对短文本的分类问题,Quan[4]、宋志理[5]、王细薇等[6]都从不同方面对短文本分类方法进行了研究。经过对已有各种方法的研究比较,本文使用LDA模型对短文本特征进行扩展,以克服其特征稀疏的缺点,具有良好的分类效果。
1相关技术
1.1向量空间模型
向量空间模型(Vector Space Model,VSM)[7]由Saltor等提出,是当前最常用的文本表示模型。该模型将文档d看作向量空间中的一个n维向量,形如:
d=((t1,w1),(t2,w2),…,(tn,wn))
其中t1,t2,…,tn表示文本的n个特征项;w1,w2,…,wn表示这n个特征项的权重值,一般使用词频-逆文档频率(TF-IDF)进行计算:
wn=tf×lnMdf(1)
其中tf表示某个特征在一篇文本中出现的次数,M表示文档总数,df表示包含该特征词的文档总数。
1.2信息增益
信息增益[8]主要是衡量某个特征为分类系统带来的信息量,信息越多,该特征越重要。信息增益采用信息熵作为衡量信息量的准则,对于某个特征,系统包含它和不包含它时的信息量差就是它带给系统的价值,也即增益,计算公式如下:
IG(t)=Entropy(S)-Expected.Entropy(st)=-∑mi=1p(ci)logp(ci)+p(t)∑mi=1P(ci|t)logp(ci|t)+
p(t-)∑mi=1p(ci|t-)logp(ci|t-)(2)
其中,m代表文檔类别数,p(ci)代表ci类中包含的文档数占总文档数的概率,p(t)代表包含特征t的文档数占总文档数的概率,p(ci|t)代表文档中出现特征t时属于ci类的概率,t-代表t不出现。
1.3LDA主题模型
隐含狄利克雷分布(Laten Dirichlet Allocation,LDA)[9]由Blei等于2003年提出,是一种主题生成模型,也是一个三层Bayes概率模型。LDA模型如图1所示。该模型引入两个超参数α、β,使“文档—主题”和“主题—词”分别服从θ和φ的多项分布,而θ和φ又是由α和β两个参数从Dirichlet先验分布中采样得到的。模型各参数符号含义如表1所示。
成过程如下:
(1)输入一个文档集W。
(2)对于文档m,首先选择 Nm,Nm服从Poisson(ζ)分布。
(3)对文档集中的每个文档按概率生成“文档—主题”分布θ。
(4)对每个主题按概率生成“主题—词”分布φ。
(5)对某文档m中词项w的生成过程为:①从文档m的θ分布中选择一个主题z;②从主题z的φ分布中选择一个词项w。
不断重复上述过程完成M篇文档的生成。该过程的图形描述如图1所示,根据LDA的图模型,可以写出所有变量的联合分布:
P(wm→,zm→,m→,Φ|α→,β→)=∏Nmn=1p(wm,n|φ→zm,n)p(zm,n|→m)·p(→m|α→)·p(Φ|β→)(3)
通过对→m和Φ积分以及zm,n求和,可以求得wm,n→的分布:
P(wm→|α→,β→)=p(→m|α→)·p(Φ|β→)·∏Nmn=1∑zm,np(wm,n|φ→zm,n)p(zm,n|→m)dΦd→m=
p(→m|α→)·p(Φ|β→)·∏Nmn=1p(wm,n|→m,Φ)dΦd→m(4)
整个文档集W的分布为:
p(W|α→,β→)=∏Mm=1p(wm→|α→,β→)(5)
1.4Gibbs抽样
直接估计LDA的参数十分困难,为此,解决方案是使用近似估计方法,如最大期望算法(EM)和Gibbs抽样。Gibbs抽样[10]是MCMC算法的一种,由于其运行速度快、容易理解且易于实现,本文用它对LDA主题进行估计。其推断主题概率公式如下:
p(zi=k|zi→,wi→)=n(t)k,i+βt∑Vt=1n(t)k,i+βt·n(t)k,i+αk∑Kk=1n(k)m+αk-1(6)
其中n(t)k,i表示第k个词被归结到第t个主题的次数。∑Vt=1n(t)k,i表示第k个主题中包含的词语个数,∑Kk=1n(k)m表示第m个文档中的词语个数,以上参数均是除了zi=k的这次迭代。
Gibbs抽样算法的过程如下:①初始时为每个文档的每个词项随机选择一个主题zi;②统计每个主题zi下每个词wi的主题概率p(zi|zi→,wi→);③循环迭代第二步,直到发现“文档—主题”分布θ和“主题—词”分布φ收敛时,停止迭代,得到待估计的参数θ和φ,同时也得到每个词对应的主题zmn。
θ和φ的推导公式如下:
φk,t=n(t)k+βt∑Vt=1n(t)k+βt(7)
m,k=n(k)m+αk∑Kk=1n(k)m+αk(8)
2基于LDA特征扩展的短文本分类
2.1分类框架
由于短文本长度短,包含信息量少,过滤掉停用词后剩下的信息更加稀少,使用VSM模型表示文本会使文档矩阵特别稀疏。基于此,本文提出基于LDA模型的特征扩展的短文本分类方法,具体分类框架如图2所示。
2.2文本预处理
文本预处理是文本分类的基础,包括中文分词和去停用词,本文选用结巴分词工具进行分词,分词完毕后去停用词,包括语气词、连接词、副词、介词和大量重复出现的词等,根据文档集文本的特点生成一个停用词表。最终每个短文本都是由两个字或两个字以上的词组成。
2.3特征选择
在进行文本表示之前,首先进行特征选择。将预处理后的文本构建一个词典,词典信息包括词的信息、词出现的总次数、每一类中出现的次数。再利用公式(2)计算出每个词的增益,然后降序排列,选择前k个词作为该类的特征词。对训练集里的每个类都作同样处理,最后把这8个类的特征词进行合并,形成一个特征词典并且进行唯一编号。对于测试集的数据处理方法相同,只是依然将训练集得到的特征词典中的词作为测试集特征。
2.4文本表示
文本表示是指将短文本信息表示成计算机可以识别的形式,使用VSM将训练集数据向量化。最后使用LIBSVM工具进行文本分类,文档转换的数据格式为(lable 1:value 2:value…),lable为类别标识,1、2为特征词序号即特征词典编号,value为特征词的特征值即tfidf值,利用公式(1)进行计算。对于测试集数据,经过文本预处理后,对比短文本中是否包含特征词典中的词,若包含,则计算该特征的特征值。介于短文本的特征稀疏性,特征向量矩阵特别稀疏,无法直接利用SVM进行分类,所以进行特征扩展。
2.5特征扩展
由于短文本的特征稀疏性,本文基于LDA主题模型进行短文本特征扩展。具体过程为:首先使用训练集数据训练LDA模型,得到“主题—词”分布矩阵;然后用训练好的LDA模型预测测试集文档的主题,得到“文档—主题”分布矩阵;将概率最大主题下的词语扩展到短文本初始特征中,并把该主题中词的概率值设为特征值,从而形成新的特征向量。因为LDA生成一篇文档的过程中,文档以一定概率选择某一主题,并且从选择的主题中以一定概率选择某个词语,所以这些词及其概率可以很好地表示文档特征。LDA特征扩展具体步骤如下:①输入训练集语料库;②得到“文档—主题”分布矩阵;③预测测试集文档主题,选择文档对应概率最大的主题;④查询主题下所对应的词;⑤比较需要添加的词和原始特征词,若存在,则无需添加,否则将相应的词和概率值扩充到原始特征向量右边。
3实验结果与分析
3.1實验环境与语料库
实验环境操作系统为Windows 8.1,开发工具为MyEclipse,使用JGibbLDA开发包,进行LDA模型的训练和预测。本文数据来源于搜狗实验室提供的新闻数据,共分为8类,包括财经、军事、科技、旅游、体育、医疗、招聘、教育。从各类中选取1 000个文本,共8 000个文本作为训练集数据;筛选了各类500个短文本,共4 000个短文本作为测试集数据。
3.2分类器
构造分类器使用的算法是支持向量机,SVM在文本分类中表现出良好的分类效果。开发包选用台湾林智仁教授开发的LIBSVM工具包。 LIBSVM是一套基于支持向量机的库,该工具包运算速度快,并且是开源的,易于扩展,适用于模式识别和回归分析。
3.3实验评估
本文采用传统的文本分类评估方法,利用查准率Pr和查全率Re以及两者的综合评价指标F1值:
F1=2×Pr×RePr+Re(9)
3.4实验结果
经过文本预处理后,使用信息增益计算出每类词语的增益值,选择每一类的前500个词作为特征,然后合并为特征词典,并且把训练集和测试集的短文本转换为向量空间模型。为了确定LDA主题数,采用Gibbs抽样算法进行主题抽取。将LDA的主题数设置在10~100之间(间隔为10),通过实验发现,随着主题数增加,效果越来越好,但在主题数50之后效果提升不是很明显。所以最终选取主题数T=50。根据经验值设定超参数α=50/T,β=0.01。设置每个主题下的主题词为100个,循环迭代次数为1 000次。实验结果如表2所示。
从表2的实验结果可以看出,本文所采用的VSM+LDA+SVM分类方法优于直接采用VSM+SVM方法,在各个类上无论是查准率还是查全率都有很大提高。由于体育类、军事类的特征词比较明显,所以分类准确率较高。实验结果F1值对比如图3所示。
如图3所示,VSM+LDA+SVM方法的F1值也高于VSM+SVM方法,充分验证了本文利用LDA模型进行特征扩展的短文本分类方法是有效、可行的。
4结语
短文本分类是文本分类中的重要研究方向之一,应用领域也比较广泛,尤其在舆情分析、搜索引擎领域发挥着重要作用。针对短文本数据的特点,本文从短文本分类的文本表示方面着手,基于LDA主题模型对原始短文本进行特征扩展,丰富了短文本的语义信息,解决了短文本数据长度短、信息弱的问题,从而克服了采用传统向量空间模型(VSM)表示短文本特征稀疏的问题。通过对实验结果的分析,在各个类别上的查准率Pr、查全率Re和F1值都有所提高,验证了本文方法在短文本分类中是有效可行的。
参考文献参考文献:
[1]李太白.短文本分类中特征选择算法的研究[D].重庆:重庆师范大学,2013.
[2]PARK E K, RA D Y, JANG M G. Techniques for improving web retrieval effectiveness[J]. Information Processing & Management, 2005,41(5):12071223.
[3]张虹.短文本分类技术研究[D].大连:辽宁师范大学,2015.
[4]QUAN X,LIU G,LU Z,et al.Short text similarity based on probabilistic topics[J].Knowledge and Information Systems,2010,25(3):473491.
[5]姚全珠,宋志理,彭程.基于LDA模型的文本分类研究[J].计算机工程与应用,2011(13):150153.
[6]王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009(3):843845.
[7]SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613620.
[8]徐燕,李锦涛,王斌,等.文本分类中特征选择的约束研究[J].计算机研究与发展,2008(4):596602.
[9]BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(3):9931022.
[10]QIU Z, WU B, WANG B, et al.Collapsed Gibbs sampling for latent dirichlet allocation on spark [J] . Journal Machine Learning Research, 2014,36:1728.
责任编辑(责任编辑:黄健)