APP下载

关键词频度演化视角下的研究热点挖掘方法研究

2020-12-15高劲松彭博

图书与情报 2020年3期
关键词:情报学词频热点

高劲松 彭博

摘   要:研究学科发展趋势一直都是科研工作者关注的重要课题,然而现有的分析方法无法在挖掘学科热点的同时探究热点其类团的变化情况。文章构建了词频分析和共词分析融合的关键词频度演化模型,以揭示学科热点及其类团结构的变化情况。以图书馆学、情报学影响因子靠前的3种期刊以及国家社会科学基金为研究对象,借助所构建的频度演化网络模型,比较了基金主题与期刊研究热点关联关系,揭示了研究热点和主题结构变化情况。研究发现,通过设定词频增长阈值对关键词进行筛选,不仅可以有效挖掘研究发展趋势,还可对比不同分类条件下研究热点的异同;在与g指数方法的比较中能有效提前挖掘学科热点的出现时间,为科研人员的研究提供重要参考。

关键词:词频分析;共词分析;数据挖掘;频度演化

中图分类号:G250.2   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2020044

Abstract The development trend of research discipline has always been an important topic of concern to researchers, but the existing analysis methods cannot explore the changes of hotspots while excavating the hotspots of discipline. Therefore, by building a model of keyword frequency evolution based on word frequency analysis and Co-word Analysis fusion can reveal the changes of hot topics and their class structure in a panoramic way. Based on the three journals of library science and information science and the national social science fund, the frequency evolution network model based on word frequency change is constructed to reveal the research hotspots and the theme structure changes. By setting the threshold of word frequency growth to screen keywords, not only the development trend of research is effectively excavated, but also the similarities and differences of research hotspots under different classification conditions are compared. Compared with the g-index method, it can effectively excavate the emergence time of subject hotspots in advance, which provides an important reference for the research of scientific researchers.

Key words word frequency analysis; co-word analysis; data mining; frequency evolution

1   引言

共词分析是对研究文献主题内容的关键词进行统计分析,通过构建文献中两两关键词共现关系网络对文献所在学科的研究热点变化、组成与范式进行研究[1],从横向和纵向两方面分析学科领域的动态和静态结构[2]。目前该方法已被广泛用于信息检索及科学计量等领域,普遍的研究方法是从被研究领域文献的集合中按照一定阈值提取作者关键词,而后根据关键词的共现特征构建矩阵进行有关分析[3],通过对作者关键词中高频关键词的数量进行统计并构建关系矩阵,进而对学科研究热点的迁移变化进行分析。然而关键词的分布存在幂律分布特征,如果选择过少,不能准确探究被研究领域研究热点的构成及发展情况,无从分析研究热点之间的关联关系[4];如果选取全部数量的关键词,不仅会增加数据处理的成本,同时还会降低关键词共现网络的网络密度和聚类系数,无法有效概括被研究领域的知识全貌[5]。

面对以上问题,本文提出从关键词词频的变化角度构建关键词词频演化网络,在提取研究文献全部关键词的基础上将关键词按时序方式进行统计,选取目标时间段内连续增长的关键词并构建关联关系矩阵形成词对网络。以文献全部关键词为分析对象的优势在于能够涵盖研究对象知识结构的全貌,而引入增长率为筛选条件并构建关联关系网络能够提高词对网络的密度,从而更加有效地探究学科组织结构和发展脉络。同时由于研究领域的研究前沿具有新颖性、时效性、集中性特征[6],词频演化网络能够减少高频关键词对低频关键词在统计学上干扰的同时,通过关键词频率变化态势和关键词关联关系挖掘潜在研究前沿。

2   相关研究

目前国内外对于关键词的研究主要可以分为两大类:一类是对从不同类型分析单元提取的关键詞进行数量的统计,依据关键词词频数量的变化及趋势进行分析,这种方法通常被称为词频分析法。由于关键词的数量变化与情报现象之间具有内在联系,情报现象的变化必然引发词频数量的波动[7],词频分析法克服了文献综述定性总结描述中个人主观性取舍对分析的影响,具有客观性、准确性、系统性、实用性等特点,被广泛用于揭示被研究领域的发展现状及潜在研究热点,并取得了大量的研究成果[8];另一类则是通过对被分析文献的词源进行筛选,提取关键词在同一文献中的共现关系构建关联关系矩阵进行多元统计分析,利用社会网络分析方法挖掘关键词共现关系网络的内在联系,分析被研究领域学科结构演化过程、组成与范式。共词分析法具有操作灵活、分析直观等特点,已成为分析学科发展的重要工具,在各学科领域中得到了广泛使用。

2.1    词频分析法的研究现状

词频分析法通过研究关键词或主题词在某一研究领域文献中出现的频次高低,提炼出该研究领域的研究热点及潜在研究方向,目前主要以实证研究为主。如马费成和张勤[9]确定国内外知识管理领域的关键词后,以高频关键词为线索,对比分析了知识管理研究领域、研究方法和研究热点;Vincent Ribie`re和Walter[10]对《Knowledge Management Research & Practice》期刊2003-2012年间刊载文献进行词频统计分析,分析了知识管理研究领域十年间研究热点及研究主题演化;Guo Chen和Xiao[11]将活动指数计算引入词频分析法,以中国数字图书馆研究领域的3560篇文献为对象进行了分析,通过关键词的统计探究研究领域的宏观发展情况与知识结构;周鑫等[12]以JCR影响因子排名前九的美国图书情报学期刊2000-2014年间刊载文献为对象,使用词频分析法分析了美国图书情报学的发展动向及研究热点;王克平等[13]对我国高校数字图书馆近十五年间的研究论文高频关键词分布进行了研究,从时序角度分析了研究热点的变迁,挖掘该领域的核心带头人。词频分析的相关研究在学科发展和主题研究上应用广泛,具有客观、准确、定性定量相结合等特点,同时也存在关键词不规范、分析要素单一等问题[14],词频分析因为是对关键词出现次数的动态统计,能够反映其在一段时间内的变化情况却由于方法本身的限制无法就这些变化情况的关联关系进行深入发掘,不能进行较深入的社群探测研究。随着学术研究融合性、跨学科的发展特点越来越突出,仅仅使用词频分析法无法完整地揭示其发展趋势和内在规律[15]。

2.2    共词分析法的研究现状

共词分析主要是统计一组词在同一篇文献中的两两出现次数, 由此构建它们的关联关系,从而分析这些词所代表的学科主题的结构变化。唐果媛和张薇[16]研究表明共词分析的应用主要基于词、主题、时间、拓展研究这四个层次。如张勤和马费成[17]以知识管理领域的861篇文献为研究对象,构建关键词共现矩阵进行多维尺度分析,讨论了知识管理研究领域的学术流派和研究范式;陈淋和屈文建[18]利用共词分析法从三个时间段分析了我国图书情报学主题动态演化的过程并得出研究领域的研究热点及研究前沿;牟冬梅等[19]从时间-关键词共现分析入手,构建图书情报学特征因子前十七位期刊2006-2015年刊载文献关键词的词篇矩阵,研究了领域研究热点变迁情况和领域知识结构变化情况;Zhao Wanying等[20]等对比分析了图书馆学、社会学、物理学三个研究领域共词网络指标的不同,探讨了不同学科共词网络之间可能存在的共性,证实了共词分析法在识别研究领域热门主题的有效性。共词分析方法具有应用灵活和分析结果直观的特点,通过反映关键词间关联强度来确定被研究领域的发展过程和结构演化。然而,受制于共词网络的构建流程,关键词在连续时间段内的变化情况无法通过简单的方式反映,若要分析共词网络的变化情况则需要按照不同阶段多次构建共词网络,造成分析不连续、不完整、数据量陡增等问题。

针对词频分析法无法进行关键词关联关系分析以及共词分析法较难进行网络演化分析的问题。文章提出在统计关键词词频变化的基础上构建关键词频度演化网络,从时序角度对词频变化情况进行分析。在研究词频变化的同时探究其具有的关联关系,这样可以挖掘被分析领域潜在研究热点的变迁、探测知识结构变化、揭示发展趋势和内在规律。

3   关键词频度演化网络模型的构建

3.1    统计词频变化率

关键词在所在领域文献中出现频次的高低代表了其对应内容的研究热度,而研究热度是一个逐步上升的过程,关键词词频总体来说会呈现出一种增长的态势,当其增长到峰值后会成为研究热点,而后增长态势会趋于平缓[21]。因此,识别处于数量增长阶段的主题关键词,能够为研究热点的出现提供一定的参考,为科研人员在研究方向的选择上提供前瞻预测。

Ft表示關键词词频的变化率,Ft的大小会随时间的变化而变化,Ft大于1说明该关键词的出现频率较上个统计时间段增加,小于1则说明频率减少,等于0意味着关键词在当前统计时间段内没有出现。因此Ft的大小表示关键词词频的变化率,能够直观的衡量关键词及关键词所代表研究领域的发展变化情况。

3.2    构建关键词频度演化关系网络

共词网络可以被描述为图模型G=(V,E),在此基础上文章提出基于时序的图模型Ti来表示使用关键词变化情况计数的共词网络,即Ti=(Vk(Ft),Ek)。其中Vk(Ft) ={ak·k(Ft)},k(Ft)表示指定时间段内关键词k的词频的变化情况,ak是关键词节点在可视化时的控制系数,取值为关键词在开始时间段频率的值,用来表示关键词节点的初始大小,m表示关键词的种类个数,Vk(Ft)是在时间段内词频持续增长关键词的集合。关键词词频变量关联关系的集合是Ek={Vk(Ft)×Vl(Ft)},由于词频随时间段不同而变化,Ek表示关键词k与其在同一篇文献中出现的关键词l的关联关系,是这些关键词的共现关系矩阵。

Ti的网络规模可以根据关键词词频Ft阈值的设定而变化,在提取研究热点时Ft值越大表明筛选出的关键词增长率越高,发展情况也越迅速。Ft阈值的选取对研究结果有着重要影响,阈值偏低会造成可视化结果的节点和连线数过多,影响数据挖掘效果,阈值偏高会过滤掉大量信息,使新兴研究热点的出现时间延长,影响数据挖掘效率。文章根据词频与时间的比例设定阈值,以一种关键词在单位时间段内最少出现1次为依据,利用这样的关键词在所有关键词中的比例决定阈值,即Threshold(Ft)=100·。而要对多个数据源进行分类研究则需要对多个T网络进行分别计算,即Ti={∪……},对于不同数据源中相同的关键词k及l也分别标注为ko及lo。

4.3    基金高频主题演化分析

本研究同样从基金关键词变化的角度对基金数据进行演化分析,选取阈值为2对基金主题词网络进行可视化分析。基金关键词较期刊更为集中,主题热点的变化幅度没有期刊关键词网络大(见图2),这与基金主题的高度概括性特点有关。一直持续出现的高频主题有社会科学中的人文应用、政府开放与公开、评价的指标体系与质量、互联网风险、数字图书馆的发展、企业竞争情报、数字档案馆与少数民族档案文献遗产、个性化知识服务等。而近年来出现的高频主题有数据环境对评价的影响、数字档案馆的需求融合、大众创业万众创新等。同时也能发现Web2.0、典籍的整理开发等成为已经消亡的主题。

4.4    分類研究热点演化情况分析

同一级学科下不同期刊的研究热点存在差异,研究热点会分布于不同的主题[26]。而不同的主题分布会对期刊的引用以及不同学者的关注度造成影响,这样科研人员在研究不同主题时会选择相对应的期刊作为研究重点[27]。因此,研究不同期刊研究主题的变化与分布,可以为研究人员提供更多关于研究主题选择上的参考。

将各期刊刊载文献研究热点的变化情况中进行演化分析(见图3),该图通过分类标示各期刊刊载文献关键词变化情况及其词对变化关系,来反映不同期刊研究热点及关键词类团的变化情况,以此研究不同分类下的期刊研究热点的发展情况与变化趋势。

如GROUP A与GROUP B所示,在图书馆学情报学两栖期刊中,“开放获取”和“高校图书馆”是两个重要的研究热点,而且两个研究热点分别形成了规模较大的两个类团。开放获取的相关研究经历了机构知识库到开放出版到开放数据的研究热点变化,而高校图书馆的研究侧重点则从学科服务逐渐转变到阅读推广。

GROUP C、D、E反映的是图书馆学期刊近十一年研究热点的变化情况,从这三个类团的变化情况可以发现:“图书馆学研究”“公共图书馆”“图书情报学”是该期刊研究文献长期以来关注的热点。其中公共图书馆的相关研究由标准建设和立法逐渐转变成战略规划和评价体系,从这种变化可以探究公共图书馆法与2010年左右由正式形成规范性的研究体系,而后经历将近8年时间的持续发展研究,最终于2018年生效。同时从图中的时序变化可以发现,图书情报学发展相关的研究热点经历了“Web2.0”“信息行为”和“数字人文”的发展变化,数字人文的相关研究成为了近两年该刊研究文献的热门研究方向。

相较于以上两种期刊刊载文献的新兴研究热点多是围绕着某一研究方向主线的演变与发展而展开的情况。情报学期刊刊载文献研究热点变化则是围绕着类团进行,如GROUP F、G、H所示,2007-2010年的研究热点集中在“竞争情报”“知识管理”和“数据挖掘”上,2011-2014年的研究热点集中在“社会网络分析”“微博”“科技报告”上,近年间“大数据”“网络舆情”“知识发现”成为当前快速增长的研究热点。这些数据说明该期刊研究热点可以被分为热点主题和热点方法,一个主题可以对应多种方法,而一种方法可以随着科学研究的发展与演化在不同时段应用于多个主题。如社会网络分析的相关研究就经历了数据挖掘、微博和网络舆情的研究热点变化,而共词分析研究方法则分别被用于知识管理、数字图书馆、文献计量的相关研究。

总体来说,虽然研究对象中的三种期刊属于图书馆、情报与文献学大类,然而各期刊刊载文献关注点和研究方法却不同。图书馆学、情报学两栖期刊同时着眼图书馆与情报学研究,一直以来重点关注高校图书馆相关和开放获取相关研究;图书馆学期刊主要关注公共图书馆相关工作和图书情报学有关研究前沿;情报学期刊则侧重情报学研究前沿和研究方法的应用,研究重点较以上两刊分散,但研究类团紧密程度较高,这说明情报学相关研究方法之间有着紧密的关联和复用关系。

4.5    关联关系涌现与高频热点对比分析

关键词频度演化的过程实质上是研究热点产生的过程[28],对于科研人员而言较早的获取研究热点的发展方向,比研究已经成为热点的研究领域更有前瞻性和参考性。

文章将期刊关键词数据同基金主题数据进行对比(见图4),由于合并后词频超过11的关键词占比超过全部关键词的3%,故对比图中阈值为3,浅色代表基金主题、深色代表期刊关键词。通过对比发现基金关注主题更具有连续性,关注重点有信息资源、档案、企业知识的管理模式与机制,图书馆的文化创新策略,数据环境下情报学与互联网的特点,网络信息用户的分析。期刊研究热点可以视为是基金主题的具体化体现,如基金中图书馆创新的主题在期刊中早期体现为服务模式的研究,而后发展为学科服务,最近的研究重点变为全民阅读和阅读推广,还有如网络信息用户的相关研究主题由期刊热点中的Web2.0逐渐转换到了语义网与知识组织,基金主题中最新出现的数据环境与情报学相关研究在期刊热点中可体现为大数据与智慧城市。基金主题词较期刊关键词变化速度及变化率都较慢,但基金主题词更为集中,同时也出现基金主题不变而期刊研究热点逐渐发生转变的情况。这说明基金主题是期刊文献研究热点的方向指导,但在具体研究分支及技术的应用中,由于新理论和新技术的出现,解决同样问题出现了更好和更有效率的解决方法,因此期刊研究热点自发的产生了变化,而基金主题未变的情况。

为了对比分析频度演化方法判断热点出现时间与传统方法的不同,本研究在高频关键词的选择上文章选用现阶段被广泛采用的词频g指数[29]对高频关键词进行界定,词频g指数的定义是:一个关键词的频率统计量为g,在当前选取的关键词总数N中, 存在g个关键词的词频统计量大于g2,同时g+1小于(g+1)2。通过计算,本次实验中期刊高频关键词的选择数量g=21,即频率排名前21位的关键词可作为高频关键词选取。

本研究以时间t为单位,提取出这21个关键词出现频率最高的年度tn与关键词频度演化过程中该关键词的峰值年度进行对比得出结果(见表1)。

在选取的21个高频关键词中,“图书馆”“图书馆学”由于词义本身代表意义的广泛性,使得与之具有关联关系的关键词词对数量没有达到阈值,“竞争情报”“情报学”“信息检索”关键词在样本初始计时年度就已经达到峰值,故不存在频度演化峰值。在剩余的16个高频关键词的对比中,频度演化关键词峰值出现的时间较g频度选取的高频关键词提高了1年,占统计总时间段的9%。在基金主题的词中,频度演化关键词峰值出现时间较g频度选取的高频关键词提高了2.1年,占统计总时间段的20%。通过期刊关键词与基金主题词的对比,关键词频度演化方法在主题较为集中的关键词数据中更能够提前揭示关键词峰值出现时间,这使得研究人员能结合关键词间关联关系数量与频率的变化情况,能够更早的发现潜在研究热点的出现,为科学研究提供參考。

4.6    结论

学科热点的出现、发展和消失是科学研究的循环形态[30]。从关键词词频演化角度来看,不同期刊关键词演化数据的聚合可以挖掘学科重要热点,多种期刊关键词合并统计后能够更明显的挖掘领域研究热点及其所构成类团的变化情况,研究热点的增长及收缩期明显延长,更有利于研究热点类团的挖掘与分析。然而由于各期刊刊载文献量的不同,刊载文章数较多、发行频率较频繁的期刊在领域研究热点分布的研究中占有更大的比重,一定程度上会对整体研究结果产生影响,部分载文较少期刊研究热点的分布情况被忽略。因此,本研究从领域整体和各期刊以及基金主题词多种角度进行分析,在研究领域整体研究热点变化情况的同时,兼顾各期刊研究热点发展变化趋势,将基金主题变化与期刊研究热点变化进行了对比,从多个角度分析了研究热点的发展趋势。同时与g指数高频关键词选择方法的对比,关键词频度演化方法的统计峰值比常用的高频关键词统计峰值提前了1年,在基金主题词中更是提前了2.1年,能够更有效的在热点发展初期对其进行挖掘和分析。

5   结语

关键词是文献作者对文章内容的高度凝练与概括的结果,是文献基本内容的反映,但由于其标引具有主观性和非统一性,即不依赖受控词表,由文献作者进行自由标引,因此关键词标引中存在的不一致问题成为关键词相关分析的干扰因素。由于研究领域成为热点的关键词会被科研人员在后续研究中发现并采用,本文从关键词变化角度出发,研究关键词词频的演化情况,利用关键词重复出现统计数据剔除不标准的标引的关键词,同时通过关键词的共现关系研究主题及其类团的发展情况。以图书情报学三种影响因子排名靠前期刊与基金主题词变化的对比实验验证了关键词频度演化研究方法在挖掘领域学科热点变化和动态知识结构研究中整体的适用性及进行分类研究的可扩展性。在与主流高频关键词进行研究热点挖掘方法的对比中,关键词频度演化方法能有效提前研究热点的出现时间,为科研人员研究方向的选择提供更具时效性的参考。

文章构建的词频演化网络没有过多讨论所挖掘增长状态中的学科研究热点与已有学科热点中存在的关联关系,也未检验不同阈值对挖掘结果的影响。下一步的研究需要就以上问题进行深入探索,同时进一步扩大实验数据选取的范围和数量,以期从更大的范围和更长的时间段选取研究对象,分析研究热点的增长及分布情况。

参考文献:

[1]  李纲,巴志超.共词分析过程中的若干问题研究[J].中国图书馆学报,2017,43(4):93-113.

[2]  冯璐,冷伏海.共词分析方法理论进展[J].中国图书馆学报,2006,32(2):88-92.

[3]  巴志超,李纲,朱世伟.共现分析中的关键词选择与语义度量方法研究[J].情报学报,2016,35(2):197-207.

[4]  Serrano M ?魣,Bogu?觡á M,Vespignani A.Extracting the multiscale backbone of complex weighted networks[J].Proceedings of the National Academy of Sciences of the United States of America,2009,106(16):6483-6488.

[5]  杨建林.关键词选择策略及其对共词分析的影响[J].情报学报,2014(10):1083-1090.

[6]  郑彦宁,许晓阳,刘志辉.基于关键词共现的研究前沿识别方法研究[J].图书情报工作,2016,60(4):85-92.

[7]  邓珞华.词频分析——一种新的情报分析研究方法[J].大学图书馆学报,1988,6(2):18-25.

[8]  Ding Y,Chowdhury G G,Foo S.Bibliometric Cartography of Information Retrieval Research by Using Co-Word Analysis[J].Information Processing & Management,2001,37(6):817-842.

[9]  马费成,张勤.国内外知识管理研究热点——基于词频的统计分析[J].情报学报,2006,25(2):163-171.

[10]  Ribière V,Walter C.10 years of KM theory and practices[J].Knowledge Management Research & Practice,2013,11(1):4-9.

[11]  Chen G,Xiao L.Selecting publication keywords for domain analysis in bibliometrics: A comparison of three methods[J].Journal of Informetrics,2016,10(1):212-223.

[12]  周鑫,蒋勋,陈媛媛.词频变化率模型视域下美国情报学研究发展动向分析[J].情报科学,2017(4):166-172.

[13]  王克平,陈辰,车尧.基于CSSCI我国高校数字图书馆研究论文的统计分析[J].情报科学,2017(10):63-67.

[14]  安兴茹.我国词频分析法的方法论研究(I)——统计分析要素的界定、分类及问题[J].情报杂志,2016,35(2):75-80.

[15]  张勤.词频分析法在学科发展动态研究中的应用综述[J].图书情报知识,2011(2):95-98.

[16]  唐果媛,张薇.国内外共词分析法研究的发展与分析[J].图书情报工作,2014,58(22):138-145.

[17]  张勤,马费成.国外知识管理研究范式——以共词分析为方法[J].管理科学学报,2007,10(6):65-75.

[18]  陈淋,屈文建.基于共词分析的我国图书情报学研究主题演化分析[J].新世纪图书馆,2017(12):13-18.

[19]  牟冬梅,琚沅红,郑晓月,等.基于时间-关键词共现分析的学科动态知识结构研究——以国外图书情报学为例[J].图书情报工作,2017,61(12):21-31.

[20]  Zhao W,Mao J,Lu K.Ranking themes on co-word networks: Exploring the relationships among different metrics[J].Information Processing & Management,2018,54(2):203-218.

[21]  齐亚双,祝娜,翟羽佳.基于DTM的国内外情报学研究主题热度演化对比研究[J].图书情报工作,2016,60(16):99-109.

[22]  邱均平,胡小洋,《中国学术期刊评价研究报告》项目组.RCCSE中国学术期刊评价研究报告(2017-2018)评价结果[J].评价与管理,2016,14(4):36.

[23]  Palla G,Barabási A L,Vicsek T.Quantifying social group evolution[J].Nature,2007,446(7136):664.

[24]  Krstajic M,Bertini E,Keim D.CloudLines:Compact Display of Event Episodes in Multiple Time-Series[J].IEEE Transactions on Visualization & Computer Graphics,2011,17(12):2432.

[25]  Mcgee F,Dingliana J.An empirical study on the impact of edge bundling on user comprehension of graphs[C].International Working Conference on Advanced Visual Interfaces,2012:620-627.

[26]  Tsay M Y.A bibliometric analysis and comparison on three information science journals: JASIST,IPM,JOD,1998-2008[J].Scientometrics,2011,89(2):591-606.

[27]  Nisonger T E.Use of "Journal of Citation Reports" for Serials Management in Research Libraries: An Investigation of the Effect of Self-Citation on Journal Rankings in Library and Information Science and Genetics[J].College & Research Libraries,2000,61(2).

[28]  滕广青.基于频度演化的领域知识关联关系涌现[J].中国图书馆学报,2018,44(3):79-95.

[29]  Egghe L.Theory and practise of theg-index[J].Scientometrics,2006,69(1):131-152.

[30]  Hsieh H F.Three Approaches to Qualitative Content Analysis[J].Qualitative Health Research,2005,15(9):1277-1288.

作者簡介:高劲松,女,华中师范大学信息管理学院教授,博士生导师;彭博,男,华中师范大学信息管理学院博士研究生。

猜你喜欢

情报学词频热点
专题导语:创新情报学探索
图书情报与图书馆的关系探索
大数据时代下的情报学思考
4月高考热点关注
卷首语
毛泽东话语的词语特征
词频,一部隐秘的历史