基于LDA的ESI研究前沿主题发现研究
2021-04-01袁润刘邦国潘颖
袁润 刘邦国 潘颖
摘要:文章利用LDA主题模型对ESI研究前沿进行主题发现研究,将每1期的ESI分类的22个学科领域的研究前沿视为1个文档,1年6期数据共计合成132个文档,再将这些文档构成文档集,利用R语言贡献包中的LDA函数进行主题建模,得到“文档-主题-术语”矩阵,在此基础上可视化表征学科领域的主题及其演变、交叉融合。
关键词:研究前沿;主题发现;主题建模;ESI;LDA
一、引言
科学文献主题发现是科技情报分析的基础。LDA主题模型因其具有对海量异构文本数据建模的优势,在科学文献知识挖掘、科学研究热点发现与新兴主题探测、科学研究主题演化、学术评价等研究方向得到了广泛的应用。关鹏、王曰芬等研究了最优LDA主题数确定方法,分析了主题抽取的效果;张勇开展了基于词性与LDA主题模型的文本分类技术研究,实验证明了词性特征提取方法是有效的,具有普适性;李湘东等研究了基于LDA主题模型的图书网页书目信息提取方法。
目前,基于ESI研究前沿的研究主要集中在三个方面。一是关于研究前沿的探测,二是关于研究前沿的解读,三是关于研究前沿的学科分析与服务。这些研究为我国高校图书馆开展学科知识服务提供了强大的理论支撑,特别是在“双一流”建设大背景下,ESI备受关注,深入研究它对学科知识服务的价值具有很强的现实意义。
每期发布的ESI研究前沿都会有较大的变化,本文以1年6期ESI研究前沿为研究对象,对其开展了基于文本挖掘的探索性研究,旨在发现科学研究主题,为解析学科结构、掌握学科发展脉络、预测技术发展趋势等学术情报分析奠定基础。
二、ESI研究前沿的主题模型分析
主题模型是一种以非监督学习的方式对文本集的隐含语义结构进行聚类的统计模型,广泛应用在语义分析和文本挖掘等研究领域。本文将每1期的每1个学科领域的研究前沿视为一个文档,利用LDA算法生成“文档-主題”“主题-术语”和“文档-主题-术语”三种矩阵形式的结果,在此基础上抽取领域学科主题。LDA主题建模需要预先给定主题的数量,需要不断进行尝试才能寻找到最佳主题数量,存在一定的偶然性,因为ESI设置了22个学科领域,所以有理由相信每个学科领域至少包含1个主题。利用R语言中topicmodels工具包中的LDA函数创建22个主题模型后首先得到主题-词频矩阵,如图1所示。
接着,将每个主题与22个学科相对应,结果如表1所示。
从表1可见,有20个主题与学科领域一一对应,所以表明LDA对于ESI研究前沿的分类效果较好。而未能对应学科的主题有2个, 其中,9号主题是未能对应到学科,而11号主题对应到生物学和多学科2个领域。
以术语cancer为例,发现至少有107个文档中包含了该术语,涉及到14个主题和多个学科,该术语主要分布于临床医学和化学两个学科领域。如此可以探索术语(term)在文档(document)、主题(topic)、学科(field)中的分布情况,并从中发现有价值的学术信息。另外,2019年5月的数据出现了突变,从20号主题变成5号主题,这些信息值得深入研究,也需要得到领域专家的解读。
三、ESI研究前沿的主题发现
(一)稳定的学科及主题的发现
1. 农业科学领域稳定的研究对象发现
以农业科学为例,图2展示了农业科学领域的主题术语演变级及出现频次,明显可以看出“水”、“土壤”、“小麦”、“大米”是农业科学学科稳定的研究对象,体现了作为人类赖以生存基础的农作物、农作物的生长环境在农业科学领域的重要位置。并且,很直观地看出,“土壤”(soil)“食物”(food)两个术语的词频远远大于其它术语,是该学科领域的核心主题。
2. 稳定学科中的新增主题
稳定的学科也会存在一丝波澜,这些波澜就是每一期涌现出的新的研究主题,比如2019年第3期、第5期相继出现研究土壤微生物在生态化学计量、植物群落、土壤性质变化等方面的文章。2019年第5期、第7期研究前沿新增了电化学法、电化学传感器用于铅、镉等重金属的测定研究。
3.社会因素对稳定学科的影响
结合实际情况,可以推断出部分稳定学科中新增的主题与当社会出现新问题有很大的相关性。比如2018年2月5日,伊朗吉兰省发生H5N6亚型高致病性禽流感,在2019年第3期、第5期的研究前沿中就出现对特定地区食品健康风险评估研究热点,比如伊朗市场食品样品中苯的风险评价,伊朗水稻砷铅含量的系统评价及致癌风险评价。这种影响存在一定的滞后性。
实际研究中发现,研究前沿中存在稳定研究主题的学科不在少数,包括计算机科学、数学、微生物科学、植物科学等,这种稳定学科的存在和发现,有助于学者、机构对研究前沿的发展进行梳理、解读和预测,存在进一步深入研究的价值。
(二)学科主题变化及交叉融合的发现
如果某术语(term)在多个学科领域出现,本文认为这些术语为交叉学科主题。根据本次研究得出的交叉主题术语结合文献的阅读,分析出了如下交叉融合的实例:食品学科与光学学科的交叉产生了高光谱成像在食品质量分析、分类、鉴别等方面的研究主题;计算科学的参与,产生了模型在智能预测、估算方面的研究,比如混合进化模糊智能模型在悬沙浓度预测的应用、非调谐数据模型在土壤温度智能估算的应用。按照这一思路提取的临床医学与生物学的交叉主题词云如图3所示。
四、结论与不足
本文使用了统计分析和主题模型的方法对ESI研究前沿进行了探索性研究,对研究前沿的探测、解读和服务具有一定意义,包括:第一,社会新问题或重要事件的出现以及持续的时间,会对新主题的诞生产生一定程度的影响。第二,学科之间目前已经形成了交叉融合的研究模式,包含交叉主题、交叉学科等,这种交叉融合的模式对学术、学科、机构等的管理有借鉴和参考作用。第三,基于本文的假设,每一个学科至少存在一个最具代表性的主题,实际利用LDA主题模型进行主题发现也的确验证了这一假设,代表着不同主题虽然存在融合、交叉,但也有自己核心的研究主题。第四,相较于其他文章将着眼点放在主题的突变,本文以农业科学为例,发现该学科研究主题术语极具稳定性,作者称之为稳定的学科,稳定的学科交易于进行前沿的探索、解读和预测,这种稳定的学科也通常具有研究环境相对稳定、试验周期长等特征。
本文尚存在以下局限。首先,主题模型的方法有很多,包括LSA(又称LSI)、pLSA(又称pLSI)、LDA、NMF等,由于本文主要目的是对ESI研究前沿进行探索性研究,仅使用了LDA一种主题模型,并未对不同主题模型之间的特点和不足进行对比分析。其次,本文是一种对ESI研究前沿较为粗粒度的研究,描述了一种或多种学科的外貌特征,包括学科交叉程度、学科发展稳定性、学科主题演变情况、主题发现相关影响因素等,想要获取更加纵向的深入的主题分析,需要在本文基础上进一步缩小范围,缩小范围进行细粒度的研究分析。
参考文献:
[1]关鹏,王曰芬,傅柱.不同语料下基于IDA主题模型的科学文献主题抽取效果分析[J].图书情报工作,2016(02):112-121.
[2]关鹏,王日芬.科技情报分析中LDA主题模型最优主题数确定方法研究[J].现代图书情报技术,2016,32(09):42-50.
[3]张勇.基于词性与LDA主题模型的文本分类技术研究[D].合肥:安徽大学,2016.
[4]李湘东,霍亚勇,张娇.基于LDA主题模型的图书网页书目信息提取研究[J].情报科学,2016,34(01):34-37.
[5]李牧南.基于关联规则挖掘竞争情报研究前沿分析[J].情报杂志,2016,35(03):54-60.
[6]李小涛,金心怡,李艳.基于ESI高被引论文的医学信息学研究前沿可视化分析[J].现代情报,2018,38(12):122-127.
[7]孙震,冷伏海.一种基于知识元共现的ESI研究前沿 知识演进分析方法[J].情报学报,2018,37(11):23-41.
[8]王小梅,邓启平,李国鹏,等.ESI研究前沿的科学图谱及在纳米领域的应用[J].图书情报工作,2017,61(12):106-112.
[9]钱万强,张峰,江海燕,等.世界前沿科学发展趋势研究:基于ESI数据库和十大突破分析[J].中国科学基金,2017(01):66-71.
[10]边文越,王海名,邢颖,等.基于ESI研究前沿的納米领域研究分析[J].中国科学院院刊,2017,32(10):1150-1158.
[11]周群,韩涛,左文革,等.基于学科前沿性视角的科研机构评测研究与实证[J].现代情报,2018,38(04):65-70+76.
[12]董彦邦,刘莉.全球学科排名与ESI研究前沿的相关性研究——以计算机学科为例[J].情报杂志,2019,38(05):81-86.
[13]周丽英,冷伏海,左文革.引文耦合增强的共词分析方法改进研究——以ESI农业科学研究主题划分为例[J].情报理论与实践,2015,38(11):120-125.
*本文系国家社会科学基金项目“图书馆知识发现服务的功能定位和建设策略研究”(项目编号:14BTQ018)研究成果之一。项目负责人:袁润。
(作者单位:袁润、潘颖,江苏大学图书馆;刘邦国,江苏大学科技信息研究所)