基于LDA模型的统计学热门主题挖掘及知识图谱分析
2022-10-20商慧语廖莉莉
肖 明,商慧语,肖 毅,廖莉莉
(1.华中师范大学信息化办公室, 武汉 430079; 2.华中师范大学语言与语言教育研究中心, 武汉 430079;3.中原银行数智金融创新实验室, 郑州 450046; 4.华中师范大学信息管理学院, 武汉 430079)
科学引文索引文献作为科学技术研究成果的载体,是科研发展水平的重要体现,又是把握学科领域研究现状、认识热门话题以及了解主流研究方法的重要途径.2016年党中央、国务院印发《国家创新驱动发展战略纲要》强调科技创新在国家发展全局的核心位置[1].近年来,文献数量呈指数规模增长,使得通过人工阅读方式来获取研究领域的相关信息变得愈加低效和困难.科研人员如何从海量文献中把握学科领域的前沿热点主题,预测其演化趋势,进而辅助科研选题与决策,找到创新突破口,推动科技创新,成为统计学界关注的一个重要研究方向.本文利用统计学与NLP方法对统计学领域CSSCI期刊上的文献进行主题模型分析,通过信息抽取和整理归纳,得到统计学领域相关知识网络图谱,助力科研人员迅速了解统计学科的研究状况,提高研究效率.
关于主题模型的方法,国内外已有一些研究基础.国外主题模型的研究起源于Papadimitriou等[2]提出的隐性语义索引(LSI).隐性语义索引的基本思想是通过奇异值分解(SVD)构造一个维度比原空间低的全新的隐性语义空间,从而找到文本更简单的表达方式;Hofmann[3]在LSI的基础上进一步提出了概率隐性语义索引(pLSI),不同于LSI以最优低秩逼近作为优化目标,pLSI将观测值的似然值作为优化目标并使其最大化;2003年,Blei等[4]基于贝叶斯思想提出了隐含狄利克雷分布(LDA),将pLSI中待估参数视为随机变量,对其施加Dirichlet先验分布,并通过最大后验估计进行推断;AlSumait等[5]提出在线LDA(online latent Dirichlet allocation, OLDA)模型,通过演化矩阵记录已有主题,检测新主题,根据到达的文本在线更新模型,用来表示主题内容和强度的演化,但是忽略了文本量对主题数量的影响.因此,LDA在主题内容分析上比pLSI更加合理有效.
对于各学科进行文献计量分析的研究,已经取得了非常丰富的成果.针对期刊的个案研究有,仇一微等[6]和汪琛等[7]对期刊《统计与决策》的历年文献进行了计量分析,发现领域内合作研究不断交叉和演化.在统计学领域的文献计量分析方面.2012年,杨国立[8]考察了1998—2010年统计学研究机构、被引频次、高产作者、高产机构的分布情况;2019年,韩兆洲等[9]利用编程语言R分析了统计学核心期刊的分布情况和研究现状.在图书情报学领域的文献计量分析方面,2018年,朱茂然等[10]通过相似主题下的词汇概率分布得到主题内容的变化,运用在中文情报学领域,发现“语义分析”等主题的关注度持续上升;2021年,谭春辉等[11]采用近20年来CKNI及Web of Science收录的数据挖掘领域核心期刊论文,通过LDA主题模型分析国内外该领域热点主题演化的区别与联系;2021年,张金年等[12]以2017—2019年图书馆学领域7本CSSCI来源期刊论文为研究对象,发现有72位潜在合作者,8个潜在合作团队,1个整体合作中心和多个区域合作中心,而潜在合作主题为7大类.此外,在其他学科领域有,吕拉昌等[13]借助文献计量工具,发现区域创新系统与大数据等前沿技术融合的趋势较为明显,未来区域创新系统的研究将趋向于多视角、多尺度、多学科,注重创新主体及创新行为、创新主体与创新环境的耦合研究;邱均平等[14]分析CNKI收录的近10年关于大数据的论文,通过LDA主题模型能够较为准确地提取大数据领域文献的研究主题,有利于研究人员把握研究方向,探寻新兴主题;周健等[15]通过LDA主题模型对不同时间窗口下的区块链文献进行挖掘,引入新颖度指标和热度指标来识别热点主题,挖掘出区块链研究主题及热点分布.还有部分学者在研究如何提高分类准确率,代表性的成果有,郭剑飞[16]采用多个LDA模型来增强主题完备性,提升了分类准确率与稳定性;李湘东等[17]考察基于加权的LDA方法,结合k近邻和支持向量机等算法,提高主题获取的准确率;张金柱等[18]探讨依存句法抽取短语构建短语序列,并结合向量聚类方法分析研究相似度与潜在合作网络,结果可读性和解释性更强;朱光等[19]利用LDA模型和长短期记忆模型的关联预测方法,可以更准确挖掘研究主题,分析主题关联关系;关鹏等[20]等发现摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果;阮光册等[21]发现结合词权重的LDA模型,具有更好的模型拟合度和主题的语义区分度;李贺等[22]利用LDA模型与Kano模型设置用户需求调查问卷,结合用户满意指数分析各项需求对用户满意度的影响,更有效克服传统用户需求调查方法中存在的需求来源滞后及可靠性不足等问题.
综上,上述文章对研究热点进行分析多采用文献计量方法,而运用LDA主题模型和“摘要+关键词”分析统计学文献的热门主题的文章极少.为适应当前文献数量大幅度增加的现状,本文试图基于LDA模型,以统计学CSSCI期刊为数据来源分析统计学学科热门主题、演化趋势及主流研究方法.
1 研究方法
LDA在主题模型中占有非常重要的地位,常用来对文本进行分类.以下基于LDA模型来阐述本文的具体研究方法.
1.1 LDA主题模型
LDA作为主题生成模型的一种,意味着文章中的每一个词的生成过程相同,均是文档先以一定的概率分布挑选一个主题,接着,该主题又以一定的概率分布生成某一个词语,如此循环往复.文档生成主题属于多项式分布,主题生成词语也属于多项式分布.隐含狄利克雷分布模型的终极目标就是找到主题集合,接着把词-文档概率分布变成主题-文档概率分布和词-主题概率分布.
1.2 Collapsed Gibbs Sampling参数估计
关于隐含狄利克雷分布模型的参数估计方式,本文综合考虑其复杂性、准确性及可操作性,采用Collapsed Gibbs Sampling算法,即主题-文档概率分布和词-主题概率分布.利用积分避开待估计的主题-文档概率分布θ和词-主题概率分布φ.一旦知道了每个词所属的主题,就可以通过统计频数的方式计算待估计的主题-文档概率分布θ和词-主题概率分布φ.本文采用马氏链蒙特卡罗方法(MCMC)分解问题,一次只采样一个因变量,采样公式的最终形式可推导为式(1):
(1)
其中,假设wi=t,zi表示第i个单词所归属的主题类别;i表示提取第i项;表示k主题中词项v的出现频次;βv表示词项v的Dirichlet先验;表示文档m中主题z的出现频次;αz表示主题z的Dirichlet先验.
当得知每个单词w的主题z的编号,则可按下式计算相关参数:
(2)
(3)
其中,φk,t表示主题k中出现词语t的概率;θm, k表示文献m中主题k所占的比重,若每个单词的主题标签明确,代入公式(2)、公式(3)即可完成参数估计.
1.3 确定主题个数
LDA主题数的确定依据困惑度理论.可用困惑度衡量隐含狄利克雷分布模型拟合的好坏,困惑度越小,拟合度越高.文档生成模型视为词在句子中某个位置的概率分布,表示每一个词在此位置出现的概率.
(4)
2 数据来源与处理
2.1 数据来源
实验数据通过Python 3.6爬取自中国知网中的统计学类CSSCI期刊《统计研究》《统计与信息论坛》《数理统计与管理》《统计与决策》创办至今发布过的全部文章,共获取文献43 001篇.去除与统计学专业知识无关的刊文后保留文献41 495篇,保留率约96.5%.其中,取自《统计研究》(5 709篇)占比约13.76%;《统计与决策》(27 780篇)占比约66.95%;《数理统计与管理》(3 771篇)占比约9.09%;《统计与信息论坛》(4 235篇)占比约10.21%.相关字段为九个,分别是标题、关键字、摘要、作者、作者机构、引用数、下载数、出版年月、所属期刊.
2.2 数据处理
本研究使用摘要作为语料进行实验.从实验的可操作性及期刊的主题可比较性出发,选取2007年1月至2020年12月发布的文章,删除期刊导读、书评、投稿须知、启事、公告、编读往来、简讯、答疑、选题方向等无摘要的文献后保留文献26 397篇(其中《统计研究》2 830篇,《统计与决策》18 838篇,《数理统计与管理》1 759篇,《统计与信息论坛》2 970篇).
首先对原始语料库进行预处理.用jieba分词库把一句话切分成若干个词语,采用停用词及自定义字典两种方式进行文本整体去噪和分词去噪,然后统一转换为易于理解的向量空间模型.
2.3 主题数目确定和主题标签标注
借助math库的自定义函数计算困惑度[23],获取“文档摘要-表征词”的稀疏表征、主题数量以及模型拟合结果.经过多次实验发现主题数量为20时最符合“统计学”的实验模型,每个主题由高比率表征词按比率从大到小依次排列组成,它们共同代表了这一主题的主旨含义.邀请两位同行专家在多次协商后分别对每个主题用统计学领域代表性术语对各个主题进行标签标注.并将抽取出的20个研究主题分为13个内容型主题(topic-1到 topic-13)和7个方法型主题(topic-14到 topic-20),如表1所示.
表1 主题属性分类与主题表征词展示Tab.1 Topic attribute classification and topic epithet display
续表1
2.4 主题模型评价
从表征词覆盖率(即每个表征词的概率和)对各个主题进行评价,以了解模型的优劣.高质量主题的表征词词频概率分布一般表现为严重的偏斜状态,较少的核心词以高概率出现,其他绝大多数词语出现的概率很小.而低质量主题的表征词一般由若干随机单词构成,且每个词的出现概率较小,很难找到核心表征词主题.所以,可以根据表征词的覆盖率对主题的质量进行筛选.设Pij是第i个主题的第j个表征词出现的概率,可将第i个topic的前m个词的概率和Coverage(i,m)定义为:
(5)
本文选取m=20时的表征词覆盖率.在爬取的字段中,“引用数”与“下载数”为数值型数据,可以直接分析使用;“关键词”与“作者机构”存储在列表中,为半结构化数据,通过切分计数可衍生数值型特征(如关键词出现频次,关键词-作者机构共现频次);“标题”与“摘要”属于非结构化文本数据.本研究基于以上三类数据,对统计学期刊的关键词分布进行对比分析.
3 统计学知识网络分析
3.1 统计学关键词分布
从关键词维度看,四大期刊创办至今涉及关键词3.4万个,其中2007—2013年统计学的热门关键词如图1所示,2014—2020年统计学的热门关键词分布如图2所示.两张图中均出现经济增长、面板数据、货币政策、聚类分析、指标体系等词,表明这些词是统计学领域持续的热门话题和主流方法.根据2007—2013年的关键词,前7年统计学的研究热点集中在国内生产总值、时间序列预测及金融产品的组合投资方面;最常使用的方法是GM(灰色模型法)、VaR(风险价值模型)和连接函数.而2014—2020年的统计学研究热点不只是集中在国内生产总值的预测,更重要的是注重宏观货币调控、产业结构优化及产业附加值提高.在研究方法上则大量采用结构方程模型或分位数回归法.此外,大数据成为近年来新增的高频词,表明大数据成为了统计学领域的新型热点话题,揭示了统计学学科未来的研究走向.
图1 2007—2013年统计学热门关键词分布Fig.1 Distribution of popular keywords in statistics from 2007 to 2013
图2 2014—2020年统计学热门关键词分布Fig.2 Distribution of popular keywords in statistics from 2014 to 2020
3.2 “内容-方法”多重共现网络
利用LDA潜在主题模型对预处理后的语料库进行聚类,经过Python编程共提炼出20个主题集群(topic-m),将这些主题集群进一步拆分为13个研究内容主题(subject-p)和7个研究方法主题(method-q).将基于subject-p与method-q在每篇文献中的共现关系,建立“subject-method”邻接矩阵,并进行“subject-method”二模网络的可视化分析.
3.2.1 “内容-方法”二模网络 二模网络是描述两种异质数据之间关系的网络.设S=(s1,s2,…,sp)表示统计学领域的“研究内容”数据集,p=13;M=(m1,m2,…,mq)表示统计学领域的“研究方法”数据集,q=7;G=(g1,g2,…,gp),其中gp=(g1n,g2n,…,gqp)表示各研究方法和研究内容共现的文献集合数.
图3中共有节点20个,边31条.其中,红色圆点表示研究方法(method),灰色圆点表示研究内容(subject).与此节点相连的边的数目称为“度”,“度”越大,圆点越大,表示该研究方法更具普适性或者该研究内容为热门问题.边的粗细与该研究方法和研究内容的共现次数呈正比关系,观察粗边,可挖掘统计学最热门的研究方法及应用最广泛的领域.统计学领域学者的热门研究话题及典型研究方法的“内容-方法”二模网络如图3所示.
图3 “内容-方法”二模网络Fig.3 “Content-method” 2-mode network
3.2.2 一种研究方法对应多项研究内容 由图3可知,较大的method节点包括method-1评价体系、method-2抽样调查,并且,这两个节点与周边研究内容连线最多,表明其是统计学研究领域中最常被采用的研究方法.
method-1评价体系被用于10项研究内容,其中,subject-9经济增长与subject-6企业管理与该方法连线较粗,表明method-1评价体系在统计学77%以上的领域均具有适用性,这与统计目标多为评估某一政策或某一行为紧密相关.
method-2抽样调查被用于8项研究内容.由于总体样本太大或者实验破坏性强,普查不太现实,所以抽样调查一直受到传统统计学的青睐,并借助低成本、高成效的优势成为统计学领域主流的研究方法.
3.2.3 一项研究内容对应多种研究方法 图3中,各主题节点(subject)的大小相似,即与各研究内容耦合的研究方法数目相近,每个研究主题对应的研究方法约为2~3个.subject-7大数据与周围method的连线最多,包括机器学习、模型改进、聚类分析、求最优解4种方法.对大数据相关问题的大量研究与近年来海量数据的出现有关,不只是结构化数据,更多的是半结构和非结构化数据.近年来各类深度学习算法、遗传算法及传统因子分析、主成分分析的应用实践是当代科研人员急于体现大数据价值的表现.
从图3还可看出, subject-1生产效率对应研究方法有评价体系、模型改进、最优解3种;subject-2金融风险对应的研究方法有评价体系、抽样调查、最优解3种;subject-3货币政策对应的研究方法有评价体系、模型改进2种;subject-4居民消费、subject-6企业管理、subject-9经济增长对应的研究方法都有评价体系、抽样调查2种.
3.3 “作者-内容-方法”多重共现网络构建与分析
“作者-内容-方法”共现是指不同作者的论文其内容和方法高度一致.在一个数据集合内,不同的作者使用的相同主题(topic)越多,则表明他们的研究内容越相似;反之,如果某个主题仅个别作者讨论,则表明其研究内容较为独特.
本次实验共涉及1.5万人次作者,依据普赖斯公式确定候选核心作者.来自暨南大学的韩兆洲教授发表CSSCI论文最多,累计发文59篇,即nmax=59.通过普莱斯公式可得最低发文量为M=5.75,表明发表文献6篇及以上的作者为候选核心作者,总计540位.考虑到候选作者数目较多,为使结果展示更加清晰明确,本次实验限制发文数在20篇以上,满足该条件的作者有35人,涉及文献1 031篇.构建的“作者-内容-方法”多重共现网络如图4所示.
图4 “作者-方法-内容”多重共现网络Fig.4 “Author-methodology-content” co-occurrence network
图4中共有节点55个(包括35个作者节点、13个研究内容节点、7个研究方法节点),边143条.红色圆点表示作者节点,灰色圆点表示主题节点.度表示与此节点相连边的数目,度越大,则圆点面积越大,表明该作者涉猎的研究面越广.边的粗细与该作者在该研究主题下发表过的文献数目成正比,边越粗,也表示该作者越擅长此领域的研究内容或研究方法.由于图4中的节点较多,不易观察,剔除“作者-内容-方法”共现频次≤5次的节点及边,并将研究内容全部置于左边,研究方法置于右边,作者节点置于中间,精炼版的“作者-方法-内容”共现网络如图5所示.
图5 “作者-方法-内容”共现网络(精炼版)Fig.5 “Author-methodology-content” co-occurrence network(optimized version)
依据圆点大小,涉及研究范围较广的学者有暨南大学韩兆洲和刘建平、厦门大学朱建平、中国人民大学金勇进、中国人民大学孟生旺.从研究内容来看,subject-7大数据和subject-8时间序列领域的引领研究学者为朱建平,subject-3货币政策的引领学者为许涤龙,且其惯用研究方法为method-1评价体系法;subject-6企业管理领域的代表研究者为孟生旺,subject-9经济增长领域的代表科研人员为刘建平.从研究方法来看,method-1评价体系法及method-2抽样调查法仍是Top热门作者最惯用的研究手段,与上节“内容-方法”二模共现网络分析结论呈现一致性.
从作者角度出发,依据边的粗细,可以揭示“作者-内容-方法”隐性关联组.比如关联组“许涤龙-subject-3货币政策-method-1评价体系”“朱建平-subject-7大数据-method-6机器学习”等.据此关联组可得到,许涤龙常用评价体系法研究货币政策相关问题,朱建平常用机器学习相关方法研究大数据领域问题.由此可方便研究人员了解统计学各领域的热门研究方法及领军学者,节省研究前人成果的时间.
3.4 “时间-内容-方法”多重共现网络构建与分析
统计学的四大CSSCI期刊自创刊以来,其研究范畴及应用领域随着时代的发展呈现出不同的特点.本节将15年的刊文分为两个时间段(2007—2013年和2014—2020年),采用与上节相同的方式构建“时间-内容-方法”多重共现网络,以此反映统计学领域各主题强度的变化趋势.
依据LDA潜在主题模型可确定每篇文献的出版时间与其所属研究内容类别、研究方法类别的对应关系.统计“时间-内容”“时间-方法”的共现频次后,可得“时间-内容”共现矩阵及“时间-方法”共现矩阵.构建的“时间-内容-方法”三模共现网络如图6所示.
从研究内容角度看,每项研究内容在两个时间段内均有出现,只是强度不同,呈现出稳中有变趋势.subject-9经济增长历年来都是热门话题,subject-7大数据近5年上升态势最为明显.在13个研究内容中,明显呈现强度上升态势的主题有subject-7大数据、subject-13生态协调;呈现明显强度减弱态势的是subject-8时间序列、subject-9经济增长;其余9个研究内容的主题变化趋势不明显.subject-7大数据强度趋势呈上升态势.这是随着2015年我国提出“国家大数据战略”,学界对大数据研究越来越重视的一个积极响应.2017年,习近平总书记在十九大报告中明确提出绿水青山就是金山银山、人和自然和谐并存的发展理念.在这种背景下,subject-13生态协调主题强度趋势也呈上升态势.
图6 “时间-内容-方法”共现网络Fig.6 “Time-content-methodology” co-occurrence network
从研究方法视角看,有的研究方法在两个时间段内均出现,特别是评价体系和参数估计,在两个时间段内都是主流研究方法.近年来,随着云存储、分布式计算的出现,大数据记录与处理技术快速发展,数据使用者可以使用hive、spark、flink对数据总体分布进行统计,因此,抽样调查主题强度明显下降.
另外,机器学习主题强度呈现上升态势.机器学习作为人工智能的重要分支,是大数据领域最常用的研究方法.随着数据生成速度的不断加快,数据量空前增加,与之相对应,各种新型数据分析方法和技术应运而生,包括深度学习、强化学习、迁移学习等,这些新技术为海量文本和图像的处理提供支持.
4 结论
本文以1985—2020年CNKI数据库收录的统计学CSSCI期刊41 495篇文献为研究对象,运用LDA主题模型及共现网络模型对热门主题、演化趋势及主流研究方法等指标进行分析,并绘制相关知识网络图谱.研究表明,统计学领域持续关注的热门主题和研究方法是经济增长、面板数据、货币政策、聚类分析、指标体系等词.近5年来研究方法上则大量采用结构方程模型和分位数回归法,大数据成为近年来新增的高频词,表明大数据成为统计学领域的新型热点话题.构建的统计学领域知识网络显示近十年的研究主题可概括为13个内容型主题,7个方法型主题.在主题强度变化维度上,近5年来大数据和生态协调两项研究主题强度上升态势非常明显;在方法主题维度上,抽样调查法主题强度明显下降,机器学习相关方法主题强度明显上升.本文一方面是对统计学学科近年来的整体回顾,另一方面也是希望帮助学者把握发展趋势,进而辅助科研选题与决策,找到创新突破口,为推动科技创新提供参考.