APP下载

潜在狄利克雷分布模型研究综述

2018-02-22何伟林谢红玲奉国和

信息资源管理学报 2018年1期
关键词:文档标签文本

何伟林 谢红玲 奉国和

(华南师范大学经济与管理学院信息管理系,广州,510006)

1 引言

随着信息科学技术的不断发展,文本信息呈爆炸式增长,从海量非结构化文本信息中挖掘其主题结构成为文本信息分析的主要模式,而以潜在狄利克雷分布(LatentDirichletAllocation,LDA)模型[1]为代表的主题模型是一种非监督的机器学习方法,它能有效地提取大规模文档集和语料库中的隐含主题,其良好的降维能力、建模能力及扩展性,使其成为近年来主题挖掘领域中热门研究方向之一。文献成果表明,LDA模型及其扩展模型已在相关领域得到广泛的应用。本文以CNKI和万方为中文文献的数据源,采用主题=“LDA”OR“狄利克雷分布”OR“概率主题模型”为检索式进行检索,检索时间段为2012年1月1日—2016年12月1日,经过筛选处理得到相关研究文献202篇;英文文献则选择WoS,SpringerLink,IEEE等数据库,采用主题=“LatentDirichletAllocation”OR“topicmodel”进行检索,时间范围为2012年1月1日—2016年12月1日,经过筛选得到220篇文献。以下将从LDA模型的扩展研究、应用研究及存在问题与展望三个方面对该领域近五年研究成果进行综述。

2 潜在狄利克雷分布模型扩展研究

LDA模型为文档主题生成模型,也称为三层贝叶斯概率模型,三层是指:文档,主题,词[2]。该模型可以从大量的文档集中挖掘出潜在的主题信息,而且具有良好的扩展性,学者利用该特性做了大量的扩展研究,以解决和弥补原模型存在的问题及不足。以下将从词汇、主题演化、层次关系、情感分析、短文本、标签和比较性文本挖掘七方面对原模型扩展研究进行分析。

2.1 基于词汇的扩展模型

词袋(bagofwords)模型是LDA模型支撑理论之一,该理论将文档看作是词的集合,忽略词语的顺序关系和语句的语法问题[3],只能使用一些无序的词来表达从文档中抽取出来的主题,导致主题词可读性差以及不具有代表性等问题。目前针对此问题改进模型有特征词主题模型(Character-wordTopicModel,CWTM)[4]、狄利克雷分布-词激活力(LDA-WAF)组合模型[5]和基于LDACOL的文本语义压缩模型(SemanticCompressionBasedonPhraseTopicModeling,SCPTM)模型[6]。

CWTM模型[4]引入了特征词关系,在LDA建模的基础上放置一个先验词,将主题词关系结合到主题模型中去,提高了生成主题的合理性。LDA-WAF模型将文本主题与文档集相关联,从中提取出关联程度高于一定阈值的文档生成新的文档,接着通过词激活力模型来计算新文档中词与词之间的词激活力,从而得到一个词激活力矩阵,再根据词激活力矩阵来生成有序的主题词[5],该模型在抽取文档摘要的应用方面取得了较好的效果,但它忽略了部分有用信息。SCPTM模型主要通过将具有代表性的语义词汇以词组的形式抽取出来,方便用户对文档知识理解,再利用词组挖掘模型LDACOL来实现对文档词组的主题建模[6],该模型改进了传统模型中词组主题分配不稳定的问题,使抽取出的主题词更加符合人们的认知心理。

文本中词语顺序会影响主题模型训练效果,因此CWTM模型、LDA-WAF模型和SCPTM模型在建模过程中考虑了更多的信息,融入了词语的上下文关系,进而提高了模型结果的可读性。

2.2 基于时间演化的扩展模型

主题演化是指某个领域的主题内容与强度在某个时间段的研究过程中变化的现象,它能够帮助研究者深入了解主题产生和发展的过程。许多学者通过改进LDA模型来研究相关领域的主题演化,如基于主题关联(TopicAssociation)过滤的LDA模型[7]可以根据文献发表时间来划分时间窗口,通过主题关联过滤规则来识别时间窗口的主题及其演化关系,形成主题在其生命周期内的演化轨迹。顺序LDA(SequentialLDA)[8]考虑了主题的顺序结构,通过使用分层双参数过程(Poisson-DirichletProcess)来捕获这种顺序依赖性,实现了在文档结构演变过程中的主题探测。还有一种面向词汇突发的狄利克雷组合多项式(DCM)连续时间主题模型[9],它利用Beta分布刻画文本集中的时间特征,通过吉布斯采样和不动点迭代法实现模型参数的估计,具有优秀的泛化能力,能够有效揭示文本集中潜在的主题演化趋势,有效地解决现有主题模型未能综合考虑文本集中普遍存在的词汇突发现象和时间信息等问题。CLDA(ClusteredLatentDirichletAllocation)[10]模型是一种可以从文件集中提取动态潜在话题的模型,它将文本数据离散为不同的时间窗口,在各个时间窗口用高度并行化的LDA模型处理数据,最后由K-means聚类得出全局主题,由于该模型每个步骤都采用并行化处理,因此它在处理大规模数据集方面具有高度扩展性和高效性。CDLDA(ConceptualDynamicLatentDirichletAllocation)模型[11]引用动态概念模型来考虑时间特征,以捕捉对话式文本内容中相邻两个主题的顺序,并应用动词和名词的比例来分析话语之间的相似性,有效地实现了对话式文本主题的检测和追踪。

OLDA(OnlineLDA)模型[12]与上述模型不同,它具备在线处理新文本的能力。该模型将文本集离散到不同的时间窗口并对每个时间窗口的文本集进行主题建模,利用主题的历史分布作为当前时间窗口进行主题挖掘的先验知识。但OLDA模型没有把不同演化能力的主题考虑进去,为解决此问题,一种改进的在线LDA模型(ImprovedOnlineLDA,IOLDA)[13]被提出。它根据主题强度为每个主题设置不同的遗传度,改善了模型识别混合主题和新主题的能力,根据文档-主题分布的集中程度为文档设置不同的权值,有效降低了宽泛主题的强度得分,方便在线分析主题的强度演化和内容演化。

主题的内容和强度会随着时间的推移而不断发生变化,这对有效把握某个领域的发展状况以及发展趋势具有重要意义。上述模型从离线和线上两个角度提出了相关的改进方法,提高了模型识别主题演化关系的准确率。

2.3 基于层次关系的扩展模型

LDA模型需要给定主题的数量,即对于一个文档集,确定待抽取主题的数量,需要不断进行尝试才能寻找最佳主题数量,存在较大的偶然性。而分层狄利克雷过程(HierarchicalDirichletProcess,HDP)模型[14]是传统主题模型在无参方面中衍生出来的,是解决主题数量问题的有效方法之一。HDP模型可通过结合吉布斯采样算法与消息传递算法来实现对模型动态聚类的优化以及提高模型的精度[15]。非参数监督HDP模型(sHDP)[16]是基于HDP模型的扩展,该模型具有无限数量的主题,可以实现分组数据的处理,它克服了选择固定数量主题的不足并减少了过拟合的问题。近年来,研究者逐渐意识到时间信息的重要性而对HDP进行改进,如根据微博潜在主题的自动挖掘问题提出的非参数贝叶斯模型MB-HDP[17],它有效地结合了时间信息、用户兴趣和话题标签,实现了主题聚合,有效克服数据稀疏,取得了良好的主题挖掘效果。NCTM(NovelContextualTopicModel)[18]模型将n-gram概念与主题层次结合,以捕捉词在词境中的依赖性,显著提高了摘要生成的精确度。

基于层次关系的主题模型通过分组处理文本数据,不仅可以实现主题的细化,还能有效识别动态主题,提高主题识别的精度。

2.4 基于情感分析的扩展模型

情感分析,即识别和提取给定文本语义取向。从大量信息资源中挖掘出有效的情感信息,对企业或政府的决策制定具有重要意义。传统的监督学习模型在语料库的获取以及跨领域的情感分析方面存在一定的缺陷,因此,学者通过扩展LDA模型来实现更有效的情感分析。情感-主题联合(JointSentiment-TopicModel,JST)模型[19]通过在文档和主题层之间构建额外的情绪层来实现主题和主题相关情感信息的联合发现,通过并入少量的先验知识,JST模型在无监督数据集中的情感分类精度要优于半监督模型。而主题情感统一模型(AspectandSentimentUnificationModel,ASUM)以文本句子作为情感分析的最小单位,进一步细化了情感信息的表达粒度[20]。鉴于目前为止尚未有相关文献考虑利用领域知识,一种基于主题种子词的情感分析模型[21]被提出用来提高主题情感模型的精度,该模型自动构建了领域主题的种子词,在主题种子词监督的基础上利用情感分析模型(SAA_SSW)来识别文本主题及其关联情感,从而有效地抽取出相同的词在不同主题下具有的情感标签,相比于JST模型和ASUM模型,该模型挖掘的情感词与主题具有较高的契合度。

近年来有一种主题情感联合最大熵的LDA模型[22]可以用来进行细粒度观点挖掘,该模型利用最大熵组件对文本中的背景词、特征词和观点词进行局部和全局划分,接着在主题层和词层之间构建了情感层并引入情感转移变量来处理情感从属关系,有效地实现了对主题词的细粒度情感分析,同时获取整篇评论和每个主题的情感极性,提高了观点挖掘的精确度,为用户提供了具有实用价值的反馈信息。另外,通过在LDA模型中融入情感模型,可以有效解决有监督、半监督的文本情感分析中存在的标注样本不容易获取的问题,这种无监督的主题情感混合(UTSU)模型[20],可以采集到每个句子的情感标签以及每个词的主题标签,克服了JST模型和ASUM模型主题标签和情感标签在同一层的缺陷,具有很好的分类效果。

上述基于情感分析的主题模型主要从情感信息的抽取以及分类这两个方面来进行改进,从而提高情感识别的精度。

2.5 基于短文本的扩展模型

根据文本长度不同可分为长文本和短文本,手机短信、微博、即时聊天信息、以及用户评论等以短文本形式表示的信息呈爆炸式增长,同时,短文本在搜索引擎、自动问答和主题跟踪等领域中发挥着重要作用,因此,挖掘短文本的主题结构成为研究者的关注重点之一。由于短文本具有信息量少、特征稀疏、依赖上下文等特点,LDA模型并未在该方面获得预期效果。有学者提出基于LDA分类特征扩展的广告过滤方法[23],该模型将微博进行分类并抽取出不同类别微博对应的主题分布,通过结合文本类别信息提取微博文本中的背景领域特征,减少这些特征对文本分类的影响,弥补了传统模型在短文本语义分析、数据稀疏、背景领域特征影响等方面的不足,有效地实现了特征扩展,同时该模型在处理大数据量的短文本中具有明显的优势。另外,为了解决微博字数受限的问题,一种面向微博的主题挖掘模型RT-LDA[24]通过增加作者的主题分布以及对用户转发微博行为的处理,改善了原模型的不足,在短文本分析的应用中取得不错的效果。BTM(BitermTopicModel)[25-26]是一种生成性的词汇主题模型,它明确地模拟了词共现模式,通过使用语料库中的聚合词共现模式进行主题发现,避免了文档级别的稀疏性问题,从而使得结果更加精确。

传统的LDA模型通常由于短文本的高稀疏性导致主题挖掘效果不理想,而扩展模型则结合文本属性信息以及关联词,较好地解决了稀疏性以及上下文依赖的问题。

2.6 基于标签的扩展模型

互联网中存储的文档数据中除了基本的文本内容以外,还包含有大量的人工标记信息,LDA模型仅是一个数据降维和文本聚类算法,无法对此类信息进行有效判定。因此,如何改进传统模型,使其由无监督模型转化为监督或半监督模型是模型扩展研究热点之一。改进的LabeledLDA模型[27]适用于文档多标签判定,该模型定义了标记与主题间的映射关系,即文档标记信息既包含了公共主题,也包含了独有的主题,在判别文档类别的过程中通过联合公共主题和独有的主题来对类别进行预测,有效地分析了类别标记之间的公共主题,具有良好的多标签判定能力。还有一种新的LabeledLDA模型(SharedBackgroundTopicsLabeledLDA,SBTL-LDA)[28]可以有效反映文档标记与LDA模型中主题的映射关系,在该模型里每个文档标记不仅存在着共有的背景主题,还存在着独有的局部主题,通过分析不同标记存在的主题之间的依赖关系,SBTL-LDA模型可以有效提升判定文档标记的精度,具有优秀的多标签判定能力和文本聚类能力。此外,有学者提出了标签模型EM-LDA[29],该模型包含了IT-LDA和ET-LDA两个子模型,根据是否含有哈希标签对文本进行分类,IT-LDA模型对无标签文本进行主题挖掘,ET-LDA模型对有标签的文本进行主题挖掘,该模型的主题挖掘结果在精确性、有效性以及可解释性方面要优于传统的LDA模型。同样的标签模型还有Hashtag-LDA[30]和HashtagGraph-BasedTopicModel[31],上述模型具有很强的文本稀疏性和噪声问题的处理能力,不仅可以找到有意义的潜在主题,还可以找到全局主题标签以及主题和主题标签之间的关系。选择性监督潜在狄利克雷分配(SelectiveSupervisedLatentDirichletAllocation,SSLDA)[32]针对单标签文档分类的选词机制,运用变分推理逼近难处理的后验概率,推导了SSLDA中参数的最大似然估计,该模型不仅在分类性能上具有竞争力,还能够发现主题中指定词语歧义的能力。Supervisedlabeled-LDA模型[33]是一种用于单标签和多标签文档分类的监督模型,它定义了标签和主题之间的对应关系,扩展了主题的概念,将每个文档约束到其预先分配的标签集并用一个标签阈值来显示其预分配的标签,该模型在文本分类方面取得了不错的效果,优于传统的分类模型。除了多标签,质心先验主题模型(CentroidPriorTopicModel,CPTM)[34]还关注词的标签频率,该模型引入了区分性词向量——类特征质心(ClassFeatureCentroid,CFV)向量,有效地提高了标签分类算法的精度。正则化主题模型(RegularizedLatentDirichletAllocation,RLDA)[35]以迭代的方式联合估计标签相似性和标签相关性并探索了语料库中图像的标签统计和视觉亲和性,有效地提高了图像检索的效率。但是,面对不断更新变化的文本流,传统的标签主题模型在处理效率上存在一定的不足,并且它不适用于处理大规模的文本数据,因此有学者提出了在线标签的LDA模型(OnlineLabeledLDA)[36],它采取粒子滤波器的抽样框架,使算法能够在在线模式下运行,该模型会随着文档的变化逐步更新模型参数,因此它不需要访问先前已处理的文档,从而节省了内存,提高了处理效率。

适当地利用标签资源,有利于改善模型的主题识别能力。上述基于标签的主题模型通过改进标签与主题之间的映射关系来提高模型与文本数据的拟合能力以及泛化能力,从而更加切合真实文档主题的生成过程。

2.7 基于比较性文本挖掘的扩展模型

比较性文本挖掘(ComparativeTextMining,CTM)是用于对不同时空、不同文化等方面的文本的主题结构进行挖掘的一种方法,该方法从具有可比较性的文本集中发现不同文本集隐含语义结构的差异性。由于传统的CTM模型只能对公共话题进行分析,有学者提出了部分比较性跨文本集LDA模型(PartialComparativeCrossCollectionLDAModel,PCCLDA)[37],该模型通过HDP模型把文本主题划分为公共主题和文本集特有主题,使模型能更加精确地对文本进行建模,除了可以有效地分析公共主题在不同文本集中的差异,还能提取出各文本集特有的主题,实现跨文本集的主题分析。此外,还有一种可实现跨文本集的主题分析的模型——CDCMLDA主题生成模型[38],该模型引入狄利克雷组合多项式(DirichletCompoundMultinomial,DCM)模型来对各个文本集中词的涌现现象进行主题建模,通过结合LDA模型和DCM模型来分析不同文本集之间主题的差异,能有效地发现同一主题间的差异并且抽取出的主题结果具有较好的可解释性。

信息在当今时代呈现出复杂性与多样性等特点,这无疑提高了主题挖掘研究的难度。而比较性文本挖掘模型不仅能区分不同结构文本数据的差异,还能有效地识别相同结构文本的主题。

3 潜在狄利克雷分布模型的应用研究

LDA模型是主题挖掘的主要方法之一。迄今为止,该模型已经广泛应用于主题探索、推荐系统、预测系统、过滤系统和图像处理等方面,解决了很多实际问题。

3.1 主题探索应用研究

挖掘数据集中隐含的语义信息,是了解事物本质有效途径之一,而高效地从大量信息资源里获取有效主题并掌握其发展动态,是主题探索要解决的核心问题。目前,LDA模型已在主题发现和演化等领域得到广泛应用。

3.1.1主题发现

LDA模型良好的降维能力和建模能力让它成为一个优秀的主题探索工具。在应用于主题发现的模型中,有对文本关键词进行提取的,如基于文档主题的关键词抽取模型TF-IDF,该模型在LDA提取文档主题基础上根据词的有效性以及信息丰富度来选取候选关键词,并通过主题词间的相似性来消除冗余短语[39];有对文档摘要进行提取的,如回帖传播模型(PostPropagationModel,PPM)[40]和政务系统模型[41],在LDA建模基础上通过引入文本集间的回复关系或评论关系来实现对各主题概率分布的动态调整,解决主题依赖和偏移问题,然后通过模型中主题的概率分布得出文本中句子的权重数值,进一步生成文档的摘要;有对舆情观点进行提取的,如在LDA提取的主题词基础上,对主题词情感倾向强度进行计算并按值大小进行排序,从而得出具有深度的舆论观点[42];有基于LDA模型对微博用户兴趣[43]和医学临床报告文档进行主题挖掘的[44]。除此之外,还有对音频数据进行识别的,如Gaussian-LDA[45]和LMLDA[46],前者结合高斯混合模型(GaussianMixtureModel,GMM)与LDA模型对每个音频片段进行数据建模,得到音频数据的高斯分布,避免了音频特征的离散化,提高了模型对短音频识别的精确度;后者利用语句模型(LanguageModel,LM)精确估计音频数据的相关权重,结合LDA建模得到音频主题分布,有效识别连续的音频数据。

3.1.2主题演化

基于LDA的主题演化主要集中于对在线时效性强的文本处理,如基于LDA的双通道在线主题演化模型[47]和基于在线消息传递的主题追踪方法[48]。

LDA模型较好地解决了主题探索中遇到的困难,能较好地提取文本信息的主题及反映主题演化关系。

3.2 推荐系统应用研究

推荐系统是指能够根据用户信息需求,准确地向用户提供所需信息资源的算法或模型。在信息爆炸时代,推荐系统能够有效地解决信息过载给人们日常生活带来的困扰,帮助人们低成本地获取感兴趣的信息,近年来推荐系统得到了学界和业界广泛关注。协同过滤[49]为推荐系统主要方法之一,它是指利用用户以前的行为或意见来预测他们最可能喜欢的东西或兴趣。实际应用中,数据的稀疏问题使得推荐系统并没有产生满意的效果,而LDA模型优秀的降维能力能有效地解决此问题,该模型广泛应用于各个领域,如,音乐推荐[50]、微博推荐服务[51-53]、Twitter好友推荐[54]、新闻推荐[55]、科研合作推荐[56]、商品推荐[57]、图书推荐[58]、个性化标签推荐[59]等。此外,分类也是实现信息推荐的基础之一,如酒店评论模型[60]在LDA主题建模的基础上将有效主题分为若干类别,将用户特征与类别进行匹配以实现精准推荐。

LDA作为一个主题生成模型,它能够有效地识别实时性强、更新快的文本信息,比如微博,同时它还具有识别精准度高和运行效率高等特点,能够高效地满足用户的信息需求。因此,该模型能较好地适用于推荐系统的应用中。

3.3 预测应用研究

预测是指在现有信息基础上,根据有效的工具或方法对未来事物的状态或行为进行分析,以了解事物的发展趋势和最终结果。近年来LDA模型在预测方面的应用体现在广告点击率预测[61]和微博转发行为预测[62]两方面,其中点击率预测是广告领域中的研究热点之一,它能为广告的投放提供数据上的支撑。基于LDA模型的点击率预测算法[61],利用广告属于不同主题的概率,给每个预测模型的预测结果赋予不同权重,进而计算广告的点击率,提高预测结果的精确度。而微博用户转发行为的预测,是通过在原模型的基础上引入主题特征、微博特征及用户特征,结合支持向量机(SVM)实现对特征模型的分类,进而分析和预测该用户是否会转发微博[62]。这项应用有助于研究微博信息传播的特点及模拟网络中信息扩散速率与扩散范围等问题[63],为舆情的分析与监控打下基础。

LDA模型能够发现文本中的低维特征,较好地解决了数据稀疏性问题,从而有效地提高预测能力,在预测系统的应用中取得了不错的效果。

3.4 过滤应用研究

当前信息资源在社会生活中扮演着越来越重要的角色,并呈现出增长速度快、形式多样、结构复杂等特点。如何在海量的信息中找到有价值的信息,过滤掉无意义的信息,是亟待解决的问题之一。基于LDA分类特征扩展的微博广告过滤方法[23],将微博分为普通微博和广告微博这两种类型,并根据不同类型分别构建LDA主题模型预测文本对应的主题分布,通过结合文本类别信息提取出背景领域的特征,实现了特征扩展,最后通过分类器来实现广告过滤。

LDA模型能够较好地解决文本过滤中同义词影响分类效果和文本数据稀疏等方面的问题,并且可以高效地处理大规模数据,在过滤系统的应用中具有良好的前景。

3.5 图像处理应用研究

图像是一种直观、生动地描述客观事物的信息形式,它具有良好的信息表达能力,已被广泛地应用在各个领域。图像分类、对象识别、图像语义识别一直是计算机视觉中的重要问题[64],对图像理解起着至关重要的作用,而描述对象的特征直接决定着图像分类和对象识别的准确率。目前LDA模型在图像处理领域中主要应用在场景分类和目标检测方面。

3.5.1场景分类

场景分类是一个能够有效识别图像语义结构的工具,它可以模拟人类视觉的生成过程[65]。场景分类相关模型的研究[66-68]有很多,其中改进的LDA模型DI-LDA(DoubleInferenceLatentDirichletAllocation),可以在同一主题空间中表示各场景类自有语义主题的分布,兼顾图像特征表示过程的共性与个性统一,实现图像自然场景的分类[68];此外,基于图像语义信息的场景分类方法通过引入马尔科夫随机场模型(MRF)来提高识别图像上下文语义信息的精度,利用LDA提取场景主题的概率分布,最后通过支持向量机(SVM)来实现场景分类[69],解决了传统模型忽略空间域中上下文语义信息的问题;局部空间约束LDA(Local-Space-ConstraintLDA)通过分割图像并将潜在变量分配给图像的各个子区域来整合空间信息,有效地提高了场景分类的显著性与效率[70]。

3.5.2目标检测

它是计算机视觉、模式识别和人工智能的研究热点之一,其目标是对图像中的各物体进行识别。概率结构主题模型STM(StructureTopicModel)是一种铁路紧固件检测模型,它融合了紧固件内部结构的特征信息,改进了图像主题的分布,提高了紧固件的建模精度,更加精确地实现了目标检测[71];LDA-CRF模型在LDA模型提取图像各区域主题信息的基础上,利用条件随机场(CRF)对图像主题信息和视觉特征进行结合,进而实现对目标的检测和识别[72];LatentDirichletClassification(LDC),将LDA模型生成的主题信息作为权重赋予样本,生成多份样本,然后利用多份样本训练多个分类器并进行集成分类,结合图像连续值局部特征和共生关系来进行目标检测[73]。人的行为识别是目标检测的重要任务之一,Multi-featureHierarchicalTopicModel[74]将动态和静态视觉特征与低级视觉特征、特征主题和行为主题三个层次进行有效融合,提取出大量的噪音数据,提高了识别运动对象的性能;LocallyConsistentLDA模型[75]在局部流形上对轨迹施加相邻约束,提高了无监督推理能力和学习集体运动模式的紧凑性,有效地识别了对象的运动轨迹;Type-2FuzzyTopicModel[76]利用主隶属函数(membershipfunction)和次隶属函数来评估特定行为主题的概率分布,有效地提高了模型识别人类动作的性能。

3.5.3语义识别

多种异构信息模式之间存在语义鸿沟,因此图像的语义识别是研究人员面对的挑战之一。其中涉及到的应用有图像注释和图像分割,高斯多项式主题模型(Class-specificGaussian-multinomiallatentDirichletallocation,CSGM-LDA)[77]将主题监督的标注强度与主题发现的灵活性相结合,明确地利用高阶图像空间中的流形结构,有效地实现了对图像语义的注释;PartialMembershipLDA[78]模型为了能产生清晰且柔和的语义图像分割,将视觉单词用多个主题的部分成员来表示,实现了图像表示形式的简化,使图像更容易理解和分析。

LDA模型利用了文本中词汇间的共生关系,能够有效地解决图像处理研究中遇到的同义性或多义性问题,因此它被广泛应用于图像检测和图像分类方面并取得了较好的效果。

4 总结与展望

LDA模型作为一种对文本信息进行语义抽取的主题模型,为科研人员进行文本主题挖掘提供了一种新方法。该模型本身存在一定的不足,因此,学术界从词汇、主题演化、主题层次、情感分析、短文本、标签、比较性文本挖掘等方面对元模型进行扩展。本文系统地梳理了近五年学界提出的改进模型并总结了该模型在主题探索、推荐系统、预测系统,文本过滤和图像处理等方面的应用研究,系统地把握了LDA及其改进模型发展现状。但是在梳理过程中发现,现有的主题建模研究依然存在一些不足。狄利克雷过程混合模型及其扩展模型存在收敛速度慢、计算效率低,难以应用于海量数据处理的缺点。模型在社会媒体文本的应用中集中于内容分类、推荐系统等方面,缺乏网络舆情监测相关研究;主题模型及其扩展模型虽然解决了微博等短文本的稀疏性问题,但是并不具有普适性,只限于某个特定领域;同时,LDA模型在处理在线文本数据方面的应用研究仍较少涉及。主题模型应用于文本信息分析中已然成为一种趋势,但是缺乏关于模型效果的评价研究,系统的评价方法也并未提出。

因此,笔者认为未来对LDA模型研究可从如下几方面开展:优化算法,提高模型对大规模数据的处理效率,例如可以通过改进期望最大化(EM)算法来提高数据处理效率,或者提出并行算法用于多线程处理数据,加快模型运行速度等;探索文本特征信息与主题的关系并进行有效融合,以此提高模型的主题挖掘精度;对主题模型的情感层进行更细致地划分,实现对文本情感分类的细化,提高模型情感分析的精确度;挖掘音频和视频资料潜在主题将具有良好的应用前景,可以通过引入听觉特征词和视觉特征词,实现模型对音频数据以及视频数据的识别;同时,对在线实时更新的信息进行检测与跟踪也将是主题模型重要的发展方向之一;建立一个系统有效的评价体系,实现对模型实验效果的有效评估,例如可以采用定量(F值、信息熵等)和定性(主题内容分析)相互结合的评价方法;将主题模型和主题展示技术结合起来,从展示基本主题内容层面提升到展示更深层次的主题理解、主题关系层面,实现直观、准确、友好的结果展示。

[1]BleiDM.Probabilistictopicmodels[J].CommunicationsoftheACM,2012,55(4):77-84.

[2] 李保利,杨星.基于LDA模型和话题过滤的研究主题演化分析[J].小型微型计算机系统,2012,33(12):2738-2743.

[3] 唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119.

[4] 戴天,吴渝,雷大江.利用组合模型生成微博热点话题事件摘要[J].计算机应用研究,2016,33(7):2026-2029.

[5]QinZB,CongYH,WanT.TopicmodelingofChineselanguagebeyondabag-of-words[J].ComputerSpeechandLanguage,2016,40:60-78.

[6] 王李冬,张引,吕明琪.基于词组主题建模的文本语义压缩算法[J].西南交通大学学报,2015,50(4):755-763.

[7] 秦晓慧,乐小虬.基于LDA主题关联过滤的领域主题演化研究[J].现代图书情报技术,2015,3(10):18-25.

[8]LanD,WrayB,HuidongJ,etal.Sequentiallatentdirichletallocation[J].KnowledgeandInformationSystems,2012,31(3):475-503.

[9] 刘良选,黄梦醒.一种面向词汇突发的连续时间主题模型[J].计算机工程,2016,42(11):195-201.

[10]ChrisG,AlexanderH,IlyaS,etal.Scalabledynamictopicmodelingwithclusteredlatentdirichletallocation(CLDA)[J].Statistics,2016,77(3):1-17.

[11]YehJF,TanYS,LeeCH.Topicdetectionandtrackingforconversationalcontentbyusingconceptualdynamiclatentdirichletallocation[J].Neurocomputing,2016,216:310-318.

[12] 胡艳丽,白亮,张维明.网络舆情中一种基于OLDA的在线话题演化方法[J].国防科技大学学报,2012,34(1):150-154.

[13] 何建云,陈兴蜀,杜敏,等.基于改进的在线LDA模型的主题演化分析[J].中南大学学报,2015,46(2):547-553.

[14] 颜端武,陶志恒,李兰彬.一种基于HDP模型的主题文献自动推荐方法及应用研究[J].情报理论与实践,2016,39(1):128-132.

[15] 王杰,严建峰,刘晓升,等.HDP采样消息传递算法[J].计算机应用研究,2016,33(7):1994-1998.

[16]AndrewMD,AmosJS.Thesupervisedhierarchicaldirichletprocess[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2015,37(2):243-255.

[17] 刘少鹏,印鉴,欧阳佳,等.基于MB-HDP模型的微博主题挖掘[J].计算机学报,2015,38(7):1408-1419.

[18]YangGB,WenDW,KinshukB,etal.Anovelcontextualtopicmodelformulti-documentsummarization[J].ExpertSystemswithApplications,2015,42(3):1340-1352.

[19]LinC,HeY,EversonR,etal.Weaklysupervisedjointsentiment-topicdetectionfromtext[J].IEEETransactionsonKnowledgeandDataEngineering,2012,24(6):1134-1145.

[20] 孙艳,周学广,付伟.基于主题情感混合模型的无监督文本情感分析[J].北京大学学报,2013,49(1):102-108.

[21] 陈永恒,左万利,林耀进.基于主题种子词的情感分析方法[J].计算机应用,2015,35(9):2560-2564.

[22] 马长林,谢罗迪,司琪,等.基于情感从属和最大熵模型的细粒度观点挖掘[J].计算机工程与科学,2015,37(10):1952-1958.

[23] 邢金彪,崔超远,孙丙宇,等.基于隐含狄列克雷分配分类特征扩展的微博广告过滤方法[J].计算机应用,2016,36(8):2257-2261.

[24] 谢昊,江红.一种面向微博主题挖掘的改进LDA模型[J].华东师范大学学报,2013,6(11):93-101.

[25]ChengX,YanX,LanY,etal.BTM:Topicmodelingovershorttexts[J].IEEETransactionsonKnowledgeandDataEngineering,2014,26(12):2928-2941.

[26]LiW,FengY,LiD,etal.Micro-blogtopicdetectionmethodbasedonBTMtopicmodelandK-meansclusteringalgorithm[J].AutomaticControlandComputerSciences,2016,50(4):271-277.

[27] 江雨燕,李平,王清.用于多标签分类的改进LabeledLDA模型[J].南京大学学报,2013,49(4):425-432.

[28] 江雨燕,李平,王清.基于共享背景主题的LabeledLDA模型[J].电子学报,2013,41(9):1794-1799.

[29] 伍万坤,吴清烈,顾锦江.基于EM-LDA综合模型的电商微博热点话题发现[J].现代图书情报技术,2015,46(11):33-40.

[30]ZhaoF,ZhuYJ,JinH,etal.ApersonalizedhashtagrecommendationapproachusingLDA-basedtopicmodelinmicroblogenvironment[J].FutureGenerationComputerSystems,2016,65(11):196-206.

[31]WangY,LiuJ,HuangYL,etal.Usinghashtaggraph-basedtopicmodeltoconnectsemantically-relatedwordswithoutco-occurrenceinmicroblogs[J].IEEETransactionsonKnowledge&DataEngineering,2016,28(7):1919-1933.

[32]ZhuangY,GaoH,WuF,etal.Probabilisticwordselectionviatopicmodeling[J].IEEETransactionsonKnowledge&DataEngineering,2015,27(6):1643-1655.

[33]LiX,OuyangJ,ZhouX,etal.Supervisedlabeledlatentdirichletallocationfordocumentcategorization[J].AppliedIntelligence,2015,42(3):581-593.

[34]LiX,OuyangJ,ZhouX.Centroidpriortopicmodelformulti-labelclassification[J].PatternRecognitionLetters,2015,62:8-13.

[35]WangJD,ZhouJZ,XuH,etal.Imagetagrefinementbyregularizedlatentdirichletallocation[J].ComputerVisionandImageUnderstand,2014,124:61-70.

[36]ZhouQ,HuangH,MaoX.Anonlineinferencealgorithmforlabeledlatentdirichletallocation[C]//Proceedingsofthe17thAsia-PacificWebConference.Basel:SpringerInternationalPublishingAG,2015:17-28.

[37] 谭文堂,王桢文,殷风景,等.一种面向多文本集的部分比较性LDA模型[J].计算机研究与发展,2013,50(9):1943-1953.

[38] 谭文堂,王桢文,殷风景,等.一种面向涌现的比较性话题模型[J].国防科技大学学报,2013,35(4):146-155.

[39] 朱泽德,李淼,张健,等.一种基于LDA模型的关键词抽取方法[J].中南大学学报,2015,46(6):2142-2148.

[40] 任昭春,马军,陈竹敏.基于动态主题建模的Web论坛文档摘要[J].计算机研究与发展,2012,49(11):2359-2367.

[41]MaBJ,ZhangN,LiuGN,etal.Semanticsearchforpublicopinionsonurbanaffairs:Aprobabilistictopicmodeling-basedapproach[J].InformationProcessingandManagement,2016,52(3):430-445.

[42] 陈晓美,高铖,关心惠.网络舆情观点提取的LDA主题模型方法[J].图书情报工作,2015,59(21):21-26.

[43]ZhouT,ZhangHY.AtextminingresearchbasedonLDAtopicmodeling[J].ComputerScience&InformationTechnology,2016,6(6):201-210.

[44]ArnoldCW,OhA,ChenS,etal.Evaluatingtopicmodelinterpretabilityfromaprimarycarephysicianperspective[J].ComputerMethodsandProgramsinBiomedicine,2016,124:67-75.

[45]HuPF,LiuWJ,JiangW,etal.Latenttopicmodelforaudioretrieval[J].PatternRecognition,2014,47(3):1138-1143.

[46]HyungBJ,LeeSY.Languagemodeladaptationbasedontopicprobabilityoflatentdirichletallocation[J].ETRIJournal,2016,38(3):487-493.

[47] 曹建平,王晖,夏友清,等.基于LDA的双通道在线主题演化模型[J].自动化学报,2014,40(12):2877-2886.

[48] 龚声蓉,叶芸,刘纯平,等.基于在线消息传递的主题追踪方法[J].计算机学报,2015,38(2):249-260.

[49] 奉国和,黄家兴.基于Hadoop与Mahout的协同过滤图书推荐研究[J].图书情报工作,2013,57(18):116-121.

[50] 李博,陈志刚,黄瑞,等.基于LDA模型的音乐推荐算法[J].计算机工程,2016,42(6):175-180.

[51] 唐晓波,祝黎,谢力.基于主题的微博二级好友推荐模型研究[J].图书情报工作,2014,58(9):105-113.

[52] 陈杰,刘学军,李斌.一种基于用户长短期兴趣的微博推荐方法[J].小型微型计算机系统,2016,37(5):952-956.

[53] 高明,金澈清,钱卫宁,等.面向微博系统的实时个性化推荐[J].计算机学报,2014,37(4):963-975.

[54]KimY,ShimK.TWILITE:ArecommendationsystemforTwitterusingaprobabilisticmodelbasedonlatentdirichletallocation[J].InformationSystems,2014,42:59-77.

[55] 陶永才,李俊艳,石磊,等.基于地理位置的个性化新闻混合推荐研究[J].小型微型计算机系统,2016,37(5):943-947.

[56] 刘萍,郑凯伦,邹德安.基于LDA模型的科研合作推荐研究[J].情报理论与实践,2015,38(9):79-85.

[57] 郑祥云,陈志刚,黄瑞,等.基于SP_LDA模型的商品推荐算法[J].小型微型计算机系统,2016,37(3):454-458.

[58] 郑祥云,陈志刚,黄瑞,等.基于主题模型的个性化图书推荐算法[J].计算机应用,2015,35(9):2569-2573.

[59]RalfK,PeterF.Personalizedtopic-basedtagrecommendation[J].Neurocomputing,2012,76(1):61-70.

[60]MaJ,LuoS,YaoJ,etal.Efficientopinionsummarizationoncommentswithonline-LDA[J].InternationalJournalofComputersCommunication&Control,2016,11(3):414-427.

[61] 朱志北,李斌,刘学军,等.基于LDA的互联网广告点击率预测研究[J].计算机应用研究,2016,33(4):979-982.

[62] 李志清.基于LDA主题特征的微博转发预测[J].情报杂志,2015,34(9):158-162.

[63] 吴 凯,季新生,刘彩霞.基于行为预测的微博网络信息传播建模[J].计算机应用研究,2013,30(6):1809-1812.

[64] 潘智勇,刘扬,刘国军,等.MTRF:融合空间信息的主题模型[J].计算机应用,2015,35(10):2715-2720.

[65] 唐颖军.基于LDA图像场景分类方法的增量学习研究[J].小型微型计算机系统,2013,34(5):1194-1197.

[66]YangJ,ZhangS,WangG,etal.Sceneandplacerecognitionusingahierarchicallatenttopicmodel[J].Neurocomputing,2015,148:578-586.

[67]ZhangYN,WeiW.Ajointlydistributedsemi-supervisedtopicmodel[J].Neurocomputing,2014,134:38-45.

[68] 唐颖军.基于二次推导狄里克雷分布的图像场景分类模型[J].小型微型计算机系统,2015,36(11):2578-2582.

[69] 温光玉,唐雁,吴梦蝶,等.基于图像上下文语义信息的场景分类方法[J].四川大学学报,2013,50(6):1223-1229.

[70]ChaoH,WangL.Sceneclassificationusingclass-supervisedlocal-space-constraintlatentdirichletallocation[J].MultimediaToolsandApplications,2016,75(17):10227-10240.

[71]FengH,JiangZ,XieF,etal.Automaticfastenerclassificationanddefectdetectioninvision-basedrailway[J].IEEETransactionsonInstrumentationandMeasurementInspectionSystems,2014,63(4):877-888.

[72] 郭乔进,李宁,杨育彬,等.LDA-CRF:一种基于概率图模型的目标检测方法[J].计算机研究与发展,2012,49(11):2296-2304.

[73] 丁轶,郭乔进,李宁.一种新的目标检测方法:LatentDirichletClassification[J].南京大学学报,2012,48(2):214-220.

[74]CiH,ZhangF,ZhangS.Multi-featurehierarchicaltopicmodelsforhumanbehaviorrecognition[J].InformationSciences,2014,57(9):1-15.

[75]ZouJL,YeQX,CuiYT,etal.Collectivemotionpatterninferencevialocallyconsistentlatentdirichletallocation[J].Neurocomputing.2016,184(11):221-231.

[76]CaoX,LiuZ.Type-2Fuzzytopicmodelsforhumanactionrecognition[J].IEEETransactionsonFuzzySystems,2015,23(5):1581-1593.

[77]QianZ,ZhongP,WangR.Class-specificgaussian-multinomiallatentdirichletallocationforimageannotation[J].EURASIPJournalonAdvancesinSignalProcessing,2015,40(1):1-13.

[78]ChenC,ZareA,CobbJT.Partialmembershiplatentdirichletallocation[J].IEEETransactionsonImageProcessing,2015, (99):1-14.

猜你喜欢

文档标签文本
有人一声不吭向你扔了个文档
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
基于RI码计算的Word复制文档鉴别
标签化伤害了谁
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于多进制查询树的多标签识别方法