APP下载

时间加权的TF-LDA学术文献摘要主题分析

2020-01-10哲,杨

计算机技术与发展 2020年1期

伍 哲,杨 芳

(西安邮电大学 计算机学院,陕西 西安 710121)

0 引 言

学术文献是一种特殊的记录,或者可以称之为科学的总结,记录一种学术课题的新的科研成果,也总结一些创新性的见解。思路是应用某种已知的原理,对实际问题进行解决的进程叙述,可用来与其他人进行交流,多在学术性的会议上进行宣读,进行讨论,多数发表于相应领域的刊物上,其他则作为别的用途的书面文件[1]。文献是一种载体,用来传播学术性知识,人们通常阅读文献来获取知识,其可以反映人们在一定社会历史阶段的知识水平,其更是科学研究的基础[2]。随着社会的发展,文献的种类和数量越来越多,相关的研究人员在从事一项科研之前,需要进行准备工作,包括获得这项科研的相关知识,进行人员分配,设计科研的实施方法,以及定期目标等,在积累基础的阶段,目前仍然还得阅读大量的学术文献,了解这项科研的全面知识,并且得到这项研究所属学术领域的最新研究热点。数量如此庞大的学术文献,人工进行分析显然速度很慢,无法达到目前社会的效率要求。搜索引擎是处理这一问题的工具之一,但其只能帮助科研人员筛选出符合检索条件的文章列表,这些列表对于科学研究需要的主题没有什么实用性价值,科研人员仍然需要通过大量阅读来熟知这些列表的内容,这需要付出很多时间和精力。如何更加有效地快速得到海量专业学术文献主题信息,更加直观地得到学术文献主题的结果信息,使科研人员迅速了解学术文献的热点和发展,判断该学术领域的发展方向,从而快速进行下一项任务。显然,减少人工査看分析时间,节省科研人员的精力,是一个急需解决的现实问题。

因此,为了能够高效、准确地提取学术文献的主题,提出一种TF-IDF[3]结合LDA的学术文献主题分析方法。该方法采用分词和停用词词典对文献集进行预处理,使用TF-IDF对其进行特征提取,降低维度,使用特征词构建主题引导特征词词库引导主题的生成,并加入时间因素,提出时间权重,综合特征词权重和时间权重计算总的影响权重,引导主题的概率分布,最后采用LDA主题模型得到主题分布情况。

1 相关介绍

1.1 TF-IDF

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术[4]。TF意思是词频,指的是某一个给定的词语在该文件中出现的频率。IDF意思是逆文本频率,在IDF中,词的集合中的一个词,有这样的特点,相对于其他的词,这个词在文档集中很少出现,但这个词在某一篇文档中却经常出现。显然这个词对于整个文档集而言没有任何意义,不是整个文档集的关键词,但对于这篇文章来说很重要,这个词就是这篇文章的关键词。那么怎样用一个指标来表示这种特性,如何去衡量这个词,怎么给它一个相对这篇文章较高的,而相对总体文档集没有作用的权重呢,这是一个问题。通常,这个特性是一个具有调整功能的变量,则需要定义一个重要性的调整系数来解决这个问题,用统计学语言表达就是在词频统计的基础上,对每个词项分配一个“重要性”的调整系数,这个词的出现次数和它的权重呈反比,出现的多反而权重小,出现的少反而权重大,具有重要作用,这就是通常所说的逆文档频率。综上,TF-IDF的主要思想如下:对于某个属于词集合的词,如果在一篇文章中出现的频率(TF)高,并且在其他文章中很少出现(IDF),则认为此词是这篇文章的关键词,即特征词,与其他词相比,具有代表性,有很好的类别区分能力,能代表这篇文章。这个算法的细节如下:

词频(TF)=词在文档中的出现次数/该文档中所有字词的出现次数之和

逆向文件频率(IDF)=log(文档总数/包含该词语的文档数目)

TF-IDT=TF*IDF

1.2 LDA

LDA(隐含狄利克雷分布)是目前一种比较主流的主题模型,也是一种典型的词袋模型[5]。它是一种非监督机器学习技术,可以展现离散型数据集的概率增长,具有三层,分别为文档集层、主题层及特征词层,每层均由相应的随机变量或参数控制。它可以将文档集合中的每篇文档的主体以概率分布的形式给出,从而分析一些文档抽取出它们的主题分布,然后可以根据主题进行文本分类或者是主题聚类。LDA采用贝叶斯估计的方法,假设文档的主题分布和主题的特征词分布的先验分布都是Dirichlet分布(狄利克雷分布),认为所有的文档存在K个隐含主题,要生成一篇文档,首先生成该文档的一个主题分布,然后再生成词的集合;要生成一个词,需要根据文档的主题分布随机选择一个主题,然后根据主题中词的分布随机选择一个词,重复这个过程直至生成文档。

LDA是一种使用联合分布计算在给定观测变量下隐藏变量的条件分布(后验分布)的概率模型,观测变量为词的集合,隐含变量为主题[6]。LDA的生成过程对应的观测变量和隐藏变量的联合分布如式1所示:

p(β1:K,θ1:D,Z1:D,W1:D)=G*H*J

(1)

其中,β表示主题,θ表示主题的概率,Z表示特定文档或词语的主题,W为词语。β1:K为全体主题集合,其中βk是第k个主题的词的分布。第d个文档中该主题所占的比例为θd,其中θd,k表示第k个主题在第d个文档中的比例。第d个文档的主题全体为Zd,其中Zd,n是第d个文档中第n个词的主题。第d个文档中所有词记为Wd,其中Wd,n是第d个文档中第n个词,每个词都是固定的词汇表中的元素。p(β)表示从主题集合中选取了一个特定主题,p(θd)表示该主题在特定文档中的概率,大括号的前半部分是该主题确定时该文档第n个词的主题,后半部分是该文档第n个词的主题与该词的联合分布。连乘符号描述了随机变量的依赖性,用概率图模型表述如图1所示。

图1 LDA的文档生成

图中,每个圆圈表示一个随机变量,矩形表示变量的重复,同时参照其在生成过程中所扮演的角色进行标注。白色圆圈表示隐含变量,观测变量Wd,n则用灰色的圆圈表示;D表示文档的集合;K表示设置的主题数目;a表示每篇文档的主题分布的先验分布-Dirichlet分布的超参数;η'表示每个主题的词分布的先验分布-Dirichlet分布的超参数;W表示建模过程中可以观测的词语。具体的过程如下:

(1)从Dirichlet分布a中取样生成文档d的主题分布θd。

(2)从主题的多项式分布θd取样生成文档d第n个词的主题Zd,n。

(3)从Dirichlet分布η'中取样生成主题Zd,n对应的词语分布βk。

(4)从词语的多项式分布βk中采样最终生成词语Wd,n。

用吉布斯采样法(Gibbs sampling)[7]对LDA模型的文档-主题分布和主题-词语分布进行推断,吉布斯采样的算法流程描述如下:

(1)初始化,对第i个词Wi随机分配某个主题。

(2)状态更新,对每个单词W,计算除i以外的其他全部词语的主题z-i(-i是i的补集)已知的情况下,Wi属于每一个主题j的后验概率p(zj=j|z-I,w),将当前词语安排给概率值最高的主题。

(3)将第2步进行多次迭代,直到每个词语的主题收敛到稳定的状态。

1.3 时间因子

学术文献的一个重要属性是发表时间,发表时间越久,被引的数量越多,而发表时间越久,反而造成其热度下降,其时效性的特点不同于其他一些属性的文本,忽略时间容易造成主题挖掘不准确,即主题聚类的结果不正确。现有的主题分析模型[8-9]没有对学术文献的发表时间进行分析,而学术文献热点主题是具有时效性的,它随着时间的变化而变化,如果忽略这个特点,会导致主题分析的不准确性;每个学术文献都有自己的发表时间,如果学术文献的发表时间与当前时间的间隔越小,越能反映这一时间段内的学术热点主题,因此时间因素在考虑学术文献的主题上是不可忽视的因素[10]。针对这种缺陷,引入时间因子,根据德国心理学家艾宾浩斯提出的艾宾浩斯遗忘曲线来得到学术文献摘要的时间权重大小。将每个学术文献摘要的特征词根据发表时间权重分别相加,并按照权重和进行排序,然后用来训练时间窗口的大小,得出的时间窗口对学术文献主题分析的时间做出限定,发表时间位于在时间范围内的学术文献,对其摘要进行主题分析。

(1)构造学术文献的发表时间因子函数(如式2),计算学术文献发表时间和当前时间的间隔,及其对学术文献主题的影响:

(2)

其中,TimeWeigh表示发表论文的时间和当前时间的时间差,以及时间差所反映的主题变化的权重;Tnow表示当前时间;Tpub表示学术文献的发表时间;EWeigh表示学术文献根据发表时间这一特点,得出的时间内主题的衰减因子,主题的衰减因子是由艾宾浩斯曲线拟合出的函数决定的。

(2)艾宾浩斯曲线是以一位心理学家的名字命名的。德国心理学家艾宾浩斯,通过研究人脑,发现人脑对于新事物的遗忘总是遵循着一种规律,这种规律可以由一种曲线所反映。在人们接触一种新鲜事物时,经过一阶段对于这种新鲜事物产生认识后,遗忘立刻开始,最初遗忘的速度很快,并且遗忘的数量很大,随着时间的变化,遗忘速度会变慢,遗忘的内容会减少,最终到达一定的程度,总结下来就是速度由快变慢,内容由多变少,这些都是德国心理学家艾宾浩斯的理念。这一过程的发现对于人类的记忆力研究有很大帮助,还能适用于多个领域[11]。文中将学术文献的特征词当作准备被新认知的事物,即是对应于人脑即将会产生记忆的材料,而计算机对应于人脑,会对这些特征词产生记忆,这个记忆的遗忘过程遵循艾宾浩斯遗忘曲线,对于特征词的遗忘情况进行记录,将结果拟合成函数,如式3。

EWeigh=97.53(Tpub)-0.446+17.68

(3)

(3)对学术文献摘要的发表时间进行分析,判断其是否在时间范围内,对于窗口范围内出现的学术文献摘要计算发表时间权重,依据式3将计算出来的发表时间权重进行求和运算,都是以特征词为单位而进行的,得出学术文献摘要的某一个特征词的总的发表时间权重,如式4:

(4)

其中,Tre表示特征词离现在时间最近,出现的时间;TFir表示特征词第一次在文档集中出现的时间;SumWeigh表示各特征词的发表时间的权重和。

(4)学术文献的另一个属性是其拥有发表的作者,有如下情况,作者相同的学术文献,方向不同;作者相同的学术文献,方向相同;作者不同的学术文献,方向相同;作者相同的学术文献,方向不同。综合上述因素考虑,将学术文献的摘要以作者为区分变量进行分类,并且建立目标文档集,建立文档集后,对文档集内的每一篇学术文献摘要进行预处理,处理主要有分词和去除停用词,并且统计每一篇学术文献摘要的发表时间,以便计算发表时间的权重。这样的学术文献摘要内容才能更加适用于特征提取算法,将分词和去除停用词的学术论文摘要内容使用TTF-IDF进行特征提取,提取出可以代表学术文献摘要内容的特征词,对内容的数量进行简化,同时对学术文献摘要的发表时间进行转化,将其表示成二元组的形式,使其序列化。二元组中,word表示学术文献摘要中的某个特征词,time表示该特征词所在的学术文献的发表时间。

设置学术文献的发表时间窗口分为以下几步:

(1)根据式3,可得出每一篇学术文献摘要的发表时间权重大小,对应于一个一个的点,这些点的斜率值就是学术文学摘要的发表时间权重。在三角符号93天处,发现斜率的变化小于0.02,此时对于特征词的记忆程度的遗忘是一个很重要的时间点。人脑对于学术文献特征词的遗忘趋于平稳,遗忘的速度和量将不会发生大的改变,因此将学术文献摘要所对应的时间窗口初始化为93天,如图2所示。

图2 时间窗口

(2)将学术文献的发表时间数据以月为单位进行转化,转化后进行抽取,抽出40%,将这40%的学术文献摘要作为训练集,训练叙述学术文献发表时间所对应的时间窗口大小。

(3)对训练集进行计算,得出训练集的每一篇学术文献摘要所对应的每一个特征词的发表时间权重,并对这些特征词的总的发表时间权重进行计算,即SumWeigh。将各个特征词按得出的SumWeigh值进行降序排列,取SumWeigh值大的前100个特征词进行记录,记为T1,并且定义一个变量j,用来对学术文献摘要发表时间所对应的时间窗口进行操作,初始化j=0。

(4)学术文献的发表时间所对应的时间窗口的大小减少Δt(Δt=2j),对训练集进行计算,将各个特征词按得出的SumWeigh值进行降序排列,取值为前100个特征词记为T2,j++。

(5)按照T1和T2中的相同特征词数目计算T1和T2的匹配度,记为M。

(6)若M<0.8(特征词的相同量小于80%),认为收敛,确定时间窗口大小为93-Δt,否则,将T2集合覆盖为空(NULL),返回步骤4。

2 基于学术文献的TF-LDA主题模型

学术文献文本具有时效性的特点,在分析其主题时需要考虑各文本的发表时间,而LDA模型的本质是显示出主题的概率,其是一种主题概率模型,忽略词序、语法等,认为每个词与每个词之间是独立的,没有联系,可以独立出现,在任意位置选择一个词都不会受到前面选择的影响。词知识跟该词所处的主题有关,在建模的过程中,以词频作为基础[12-13],词频高的词就有优势,对主题进行选择时,会偏向高概率词。而在学术文献的摘要中并不是出现次数多的词就一定是学术文献摘要的特征词,能代表学术文献的摘要内容,显然这种主题选择方式对于学术文献的摘要并不适合,不符合学术文献摘要的主题分布,并且LDA模型提取主题时,没有将学术文献摘要的重要因素—发表时间考虑在内,使效果不佳,挖掘出来的学术文献摘要的主题不符合学术文献摘要的内容。

综上所述,在进行学术文献摘要的主题分析时应加入学术文学摘要的发表时间,并且对LDA建模过程中的采样策略进行改进,然后进行学术文献摘要的主题挖掘。具体如下:使用TF-IDF提取特征词,进行初步采样,形成一个主题引导特征词词库,对主题引导特征词词库进行计算,得到特征词的权重,使用主题引导特征词词库进行引导,从而促使主题的提取更加准确,达到增加主题引导特征词词库对主题建模产生作用的状态。并提出发表时间因子,将每个学术文献的发表时间作为其时间标签,在特征词分配给主题的过程中,利用时间因子产生的时间窗口进行时间限制,优化主题的选取,增加发表时间影响权重的大小,距离当前时间越近的特征词,所对应的时间权重就应该越大,从而符合学术文献摘要的发表时间特点。改进后的总体步骤如下:

(1)输入文档集合,进行分词和去除停用词等预处理;

(2)根据TF-IDF提取特征词;

(3)初步采样;

(4)特征词标注;

(5)构建主题引导特征词词库;

(6)综合步骤3、5,计算特征词引导权重;

(7)利用艾宾浩斯遗忘曲线进行时间权重的计算;

(8)综合步骤6、7,计算总的影响权重;.

(9)利用吉布斯采样算法对分词后的文本数据进行迭代采样;

(10)迭代完成,输出主题模型的结果。

将学术文献的发表时间融合到LDA模型中,对TTF-LDA模型中的词条进行表示,对于学术文献摘要的特征词的发表时间,以及词条的表示形式如图3所示。

图3 融合发表时间的TTF-LDA模型

在模型中融合发表时间因子后,学术文献文本中各特征词的概率分布可以展现出来,如式5所示:

(5)

用吉布斯采样进行推理,推理结果的特征词和主题服从的分布如式6所示:

(6)

(7)

(8)

则第一项因子的最后结果为:

(9)

(10)

(11)

学术文献摘要的超参数为αk和βt,后期期望如式12和式13所示:

(12)

(13)

依靠联合分布以及后验期望,对隐含变量也就是需要的学术文献摘要的主题Z,可以在考虑发表时间因素下,挖掘出学术文献摘要中隐藏的主题,得到主题的分布。

3 实 验

3.1 实验数据及预处理

实验数据采用爬虫爬取的知网上的论文摘要共46 312条,在数据预处理阶段首先对摘要的标点符号进行去除,将纯文本数据使用python的jieba库进行分词,并去除停用词,将分词和去除停用词后的文本数据整合成文档。

3.2 实验结果与分析

文中提出的TTF-LDA主题模型的参数设置为主题数K=20,超参数α=1,β=0.02,δ=0.02,吉布斯采样的迭代次数一般设置为2 000。在初始时间窗为93天的情况下计算学术文献的发表时间权重,图2中正方形处得出时间窗口大小为86天。TTF-LDA模型的6个主题结果如图4所示。

图4 部分主题结果

6个主题分别是有关人工智能、机器人、计算机视觉、机器视觉、深度学习和机器学习,在TTF-LDA的权重值中人工智能这一特征词的权重最高,是在2017-10-1至2017-12-31期间发生的最热门的主题,也符合趋势。目前人工智能的发展最为普遍,人工智能类的论文也最多,机器人相关的论文数量也很多,而深度学习和机器学习为人工智能领域下的两大热点话题,概率也高于其他话题,主要是相同的特征词在时间权重的影响下权重更高,反映出文中模型能准确挖掘出相关主题。在主题模型中,主题与主题之间的相似性越低则效果越好,图5为TTF-LDA和LDA模型的主题之间的相似度的对比情况。结果表明,在文档集增加的情况下,主题之间的相似度在降低,但TTF-LDA的主题之间的差异大,效果优于LDA,主要是对主题引导词的加权,提高主题引导词在文档中的重要性,特征词引导主题的贡献也越大,使得结果更加符合文档集自身的分布特点,主题提取更准确。

图5 主题之间的相似度

对TTF-LDA模型、LDA模型和WMC-LDA模型进行对比分析,使用评价指标混乱程度,用Perplexity值来代表主题分析后的情况,对主题分析后的情况进行混乱程度对比和分析。混乱程度是主题模型研究中常用的对比指标[14]。在混乱程度的理念里,如果Perplexity越大,则表示这个主题模型的混乱程度越混乱,效果越差,与之相反,如果Perplexity值越小,则表示这个主题模型的混乱程度越小,即主题很清晰,效果越好。Perplexity的定义如式14所示。

(14)

其中,W为测试集,由学术论文摘要组成;Wm为测试集中抽取到的特征词,对应于学术文献摘要内容由TF-IDF提取出的,能表示学术文献摘要的特征词;Nm为特征词的总数,统计所有的特征词总数得来。

TTF-LDA、LDA和WMC-LDA[15]的Perplexity与迭代次数的关系如图6所示,实验的条件都设置一样,其中纵坐标为Perplexity/100。

图6 Perplexity值

由图6可以看出,在其他情况都相同的条件下,随着迭代次数的增加,三种模型的Perplexity值都一直下降,而TTF-LDA模型的Perplexity值一直都最小,表明其运算速度更快、效率更高,内部的主题提取情况更加明确,证明提出的采样的策略和增加的学术文献的发表时间权重是有效的。

4 结束语

文中提出一种学术文献摘要的主题分析方法,针对现有的主题分析中的主题模型未考虑论文发表时间的缺点,提出将学术文献的发表时间适用于人脑的记忆遗忘规律,使遗忘曲线计算出学术文献特征词的遗忘曲线,设置学术论文摘要的发表时间对应的时间窗口,对主题的时间范围进行缩短,并利用特征词处理后得到的主题引导特征词词库,共同引导主题分布。通过实验证明了该方法的可行性,能准确地挖掘出当前学术文献摘要的主题。