基于年度高频关键词的研究热点提取与可视化研究
2020-12-17高劲松黄梅付家炜
高劲松 黄梅 付家炜
收稿日期:2020-06-03
基金項目:中央高校基本科研业务费自由探索项目“面向用户的文物信息资源知识服务研究”(项目编号:CCNU20A06025);华中师范大学信息管理学院研究生自主科研项目“电子商务相似用户评论推荐研究”。
作者简介:高劲松(1966-),女,教授,博士生导师,研究方向:情报学、图书馆学。黄梅(1992-),女,硕士研究生,研究方向:可视化。付家炜(1994-),男,博士研究生,研究方向:知识管理与知识服务。
摘 要:[目的/意义]能以简洁的可视化来追踪某学科研究热点随时间的变化趋势,对于掌握学科研究热点的动向具有重要意义。词频分析法是学科研究热点分析方法之一,目前存在众多的基于词频分析的可视化工具,但是这些可视化工具能够以简洁的可视化形式清晰地展现年度热点关键词存在局限性。[方法/过程]因此本文提出通过学科领域年度发文量与学科全部发文量的比值来衡量年度热点关键词对总年度热点关键词贡献率的可视化方法:基于年度贡献率与二八定律设定并调整阈值参数来控制年度高频关键词的呈现数量,将选取的年度高频关键词按照词频大小与年份依次排序以实现研究热点可视化。[结果/结论]以“关联数据”领域为例进行实证研究,通过分析本文方法提取的高频关键词与现有高频词阈值算法的匹配情况,对比本文方法与Citespace共现图谱的可视化呈现效果,对本文方法的可行性进行检验与评价。
关键词:可视化;高频关键词;词频分析;研究热点;趋势分析
DOI:10.3969/j.issn.1008-0821.2020.12.013
〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2020)12-0130-10
Research on Hot Spot Extraction and Visualization
Based on Annual High-frequency Keywords
Gao Jinsong Huang Mei Fu Jiawei
(School of Information Management,Central China Normal University,Wuhan 430079,China)
Abstract:[Purpose/Significance]It is of great significance to follow the trend of research hotspots in a subject with simple visualization in order to grasp the trend of research hotspots in a subject.Word frequency analysis is one of the hotspot analysis methods of subject research.Currently,there are many visualization tools based on word frequency analysis,but there are limitations that these visualization tools can clearly display the annual hot keywords in a concise visual form.[Method/Process]Therefore,this paper proposed a visualization method to measure the contribution rate of annual hot keywords to the total annual hot keywords by the ratio of the annual amount of articles in the subject area to the total amount of articles in the subject:based on the annual contribution rate and the 80/20 law,the threshold parameters were set and adjusted to control the number of annual high-frequency keywords presented,and the selected annual high-frequency keywords were sorted in order of word frequency and year to achieve visualization of research hotspots.[Result/Conclusion]Taking the field of“linked data”as an example to conduct empirical research,by analyzing the matching of the extracted high-frequency keywords with the existing high-frequency keyword extraction methods and comparing the visualization method presented in this paper with Citespaces co-occurrence knowledge map,Test and evaluate the feasibility of this method was.
Key words:visualization;high frequency keywords;word frequency analysis;research hotspots;trend analysis
信息可视化通过可视化图形的表现形式揭示数据中隐含的信息和规律以增强人的认知能力[1]。随着各个学科研究的不断深入,科技研究文献不断增多,在浩如烟海的科技文献资源中用可视化的形式展现研究热点与发展趋势,为科研人员进行研究决策提供了便利。文献关键词是文献核心内容的高度概括,浓缩并提炼了文献的主题、内容与研究方法。研究人员的研究多数需要参考前人的研究成果,通常某学科关键词在短时间内不会凭空产生与消失,而是处于动态变化的过程,词频的波动与社会现象和情报现象之间存在着内在的联系,一定的社会现象和情报现象要引起一定的词频波动现象[2-3]。如果某一关键词或主题词在其所在领域的文献中反复出现,则可反映出该关键词或主题词所表现的研究主题是该领域的研究热点[4]。通过统计关键词、主题词、篇名词等核心词汇在某一类学术文献中所出现的频次,可以判别该学术领域的研究热点、知识结构和发展趋势[5]。因此一般认为,某时段学术论文的高频关键词即是该时段的研究热点[6,13]。
目前已经有很多可视化工具以关键词为基础来分析学科领域研究热点与发展趋势,如Citespace、Ucinet、SciMAT、NEViewer等,对学科领域研究热点与发展趋势分析有重要的帮助,并取得了优秀成果。虽然这些工具在文献计量学的词频分析与可视化方面较为完善,但是仍然存在可视化呈现的不足之处,如可视化显示信息过多且复杂,用户感知存在困难等。
因此本文用每年发文量与全部发文量比值来权衡年度高频关键词对研究热点的贡献,统计年度文献的关键词词频并排序,然后截取一定量的高频关键词,按照频次的高低依次从上往下排序并嵌入时间进行可视化呈现来分析学科研究热点与发展趋势。
1 相关研究
1.1 词频分析
词频分析法是利用能够解释或表达文献核心内容的关键词或主题词,在某一研究领域文献中出现的频次高低来确定该领域研究热点和发展动向的文献计量方法[4]。词频分析法是情报分析方法之一,已经在文献计量学相关研究上得到了广泛的应用。傅柱等[7]使用词频分析法分析国内外知识研究热点。欧阳博等[8]使用关键词词频分析综述国外信息系统持续使用模型应用现状。邱均平等[9]与巩永强等[10]尝试使用词频率,即年度关键词词频与年度总文献数量之比来分析热点关键词的变化趋势。奉国和等[11]对关键词赋予时间权值来研究学科热点关键词与变化趨势。
基于词频分析法衍生出来的共词分析、聚类分析等研究热点的方法受到了众多学者的关注。共现分析的研究主要包括:陈勇跃等[12]划分各时间段分别提取临床医学高频关键词,使用Ucinet 6.0工具分别对各时间段进行共现网络可视化追踪临床医学研究热点与趋势的变化;卢新元等[13]使用Citespace将国内知识转移的高频关键词进行共现网络图与时区网络图来分析研究热点;刘自强等[14]基于关键词的时间标签分层构建共词网络图谱,实现时序共词网络的动态可视化,并以国内图情领域“数据挖掘”为例进行实证研究。聚类分析的研究主要包括:高劲松等[15]使用SPSS对高频关键词进行聚类来分析国内外关联数据的研究主题;刘自强等[2]通过关键词群总频次与年度发文量的比重情况构建时间序列,然后以可视化形式追踪关键词群的发展趋势,并以“竞争情报”领域为例进行实证研究;施萧萧等[16]使用SPSS、Ucinet工具分别进行共现与主题聚类来分析国外颠覆性创新研究热点。
近年来,多数学者集中于对高频关键词的共现网络与主题聚类的相关研究,而对单个关键词的变化趋势与可视化的相关研究相对较少。聚类分析是在高频关键词共现关系的基础上进行的聚类,关键词共现关系体现了研究内容的耦合,即两两关键词同时出现在同一篇文献,各种聚类算法在不同程度上存在一定的不足导致聚类结果存在偏差、信息过度拟合等问题,而研究学科领域的研究热点与变化趋势仅以研究热点的共现与主题分析有些不合理,单个关键词的变化也应当被考虑,从而更加充分地分析学科研究热点与变化趋势。
1.2 文本可视化
文本可视化旨在将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式表达出来,通过与视觉信息的交互,使人们能够快速地获取文本可视图中所隐含的关键信息[17]。现有的文本词频可视化技术已经相当成熟,其中以标签云为代表的词频可视化已经得到了较好的应用。标签云[18]图采用TF-IDF来计算词频的重要性,文字的大小表示词语的重要性,然后按照一定的规律排列,如关键词的频度递减来进行布局。另一种常用的文本可视化即树图(TreeMap)[19],使用嵌套的长方形来表示不同层次,以长方形的方向表示不同层次的变换,并以长方形的大小来表示节点的重要性,例如在Web of Science数据库中对选中的文献采用了TreeMap可视化展现的形式。
为了体现文本的变化趋势,有学者结合时间与词频可视化方式来呈现热点词随时间变化的情况。将标签云与时间相结合形成可视化的主要有:Text Flow标签云时间轴模型图、主题河流图、SparkClouds图等[17,20]。Text Flow标签云时间轴模型图与主题河流图[21]是将主题标签云与时间模型相结合,是文本流系统(Text Flow)中的其中两种词频可视化形式。SparkClouds图[22]即在标签云的每个词语下方引入折线图以表示每个词语随着时间的使用频度而变化。
综上所述,词频分析法在研究热点与发展趋势方面的应用非常普遍,但是词频演变可视化的相关研究相对较少。为了弥补基于高频关键词分析研究热点与趋势变化可视化的不足,本文将时间年度与现有词频文本可视化方式相结合来探讨热点关键词的发展态势,期望能够丰富基于时间的词频可视化呈现形式,为研究学科热点与趋势提供一定的参考。
2 基于年度高频关键词的研究热点提取与可视化方法
本文结合时间年度与词频可视化来追踪学科领域研究热点关键词的变化,采用研究热点关键词所在时间节点的词频高低与位次来展现学科领域的研究热点的发展动态。文本词频可视化一般经过信息收集、数据预处理、知识表示、视觉呈现、用户与信息图的交互等过程[17,23]。本文提出的年度高频关键词可视化方法也遵循这样的过程,其主要包括3个部分:高频关键词提取、可视化呈现、可视化分析。本文提出的可视化方法过程如图1所示。
2.1 高频关键词提取
学科领域文献的关键词频次越高则说明学者对该关键词研究方向关注度就越高,通过获得高频关键词的发展趋势可以掌握学科领域文献研究热点的变化。界定高频关键词的数量来判断研究热点的方法有很多,如自定义选取、齐普夫第二定律、普赖斯公式等,自定义选取的方法虽然存在主观性,但是使用较多,而齐普夫第二定律与普赖斯公式较为客观,但是也存在不适用的情况[24]。有学者发现关键词每年的累积频次都达到或超过当年关键词总频次的20%,符合集中分散的二八定律[25]。杨爱青等[26]尝试使用g指数来截取研究热点高频关键词的数量并用二八定律与齐普夫第二定律对截取的高频关键词进行验证。刘奕杉等[24]通过对个人知识管理领域的研究热点高频关键词阀值选取进行实证分析发现,二八定律相对于其他方法截取高频关键词更合适。多数研究者采用传统热点关键词界定的方式提取总文献高频关键词进行热点研究,而关键词具有继承性,传统研究热点界定方式很少考虑每年文献数量对热点关键词的影响。在不同年份学科领域的文献数量存在变动的情况下,随着文献数量的变动,高频关键词的频次会发生相应的改变,高频关键词的数量也会有所不同。通过收集与归纳文献的关键词发现:一般情况下,学科领域在年度发文数量与对应的年度高频关键词数量存在正向关系。因此本文将时间年度与研究热点相结合,将每年文献数量与总文献数量比值作为每年高频关键词对研究热点的贡献值,但是可视化关键词数量有限,还需要设定参数阈值α使其能够按照年度贡献值的比例来计算年度高频关键词的选取数量,在此基础上根据总年度高频关键词的二八定律来调整阈值α的取值,使得提取的所有年度高频关键词能与总年度高频关键词词频总和占全部关键词的词频总和约为20%的高频关键词匹配。年度高频关键词的热点关键词数量选取表达式为:
x=αniN(100≤α≤N)
其中,ni表示收集文献第i年度的发文数量,N表示收集文献的总数量,α为参数,x为第i年可视化关键词个数。
2.2 可视化呈现
人类从外界获得的信息大约有80%以上来自于视觉系统[27-28]。在大数据环境下,可视化表达对情报产品的数据表达的便利性、易读性、生动性和可传播性方面具有很大的应用潜力[29]。在浩如烟海的文献资料中,一张图胜千言、一张图读懂系列等可视化案例对于科学人员对学科领域追踪研究热点与发展趋势具有重要作用。文本可视化呈现重要的任务就是将处理过后的文本数据采用合适的视觉编码来呈现文本信息的特征,文本内容的视觉编码主要包括尺寸、颜色、形状、方位等[17]。在文本可视化中词语的频度通常用字体大小来表示,不同的文本使用不同的颜色加以区分。本文在提取年度高频关键词并按照频次大小依次排序,然后分别根据每年高频关键词的贡献值选取适合的α参数阈值并计算呈现的关键词数量,将选取的年度高频关键词按照词频大小与对应字体大小进行展现,频次越高则对应的字体就越大,相同的关键词采用相同的颜色,不同关键词使用不同的顏色加以区分,最后在时间轴上分别将年度高频关键词按照词频大小依次进行排列展现。
2.3 可视化分析
由于科学人员的研究需要参考前人的研究成果,而关键词是文献核心内容的高度概括,一般情况下短时间内某学科领域研究热点关键词不会凭空产生与消失,而是随着时间呈现动态的变化,因此学科领域研究热点关键词具有继承性,所以能通过学科领域研究热点关键词的变化来预测研究热点的发展趋势[2]。本文提出基于时间的高频关键词可视化方法是按年度提取高频关键词,而年度高频关键词的年度分布、频次大小与排序的位次的变化则反应了研究热点关键词的变化,因此对学科领域年度高频关键词可视化分析内容主要包括高频关键词分类分析、高频关键词的年度分布分析、高频关键词的热度分析等,进而掌握学科领域研究热点与发展趋势。
3 实证研究
3.1 数据收集与预处理
为了对本文提出的基于年度高频关键词的研究热点可视化方法进行验证,以近10年来国内关联数据领域的研究热点发展趋势为例进行可视化展示。在CNKI数据库中以“关联数据”进行关键词检索,文献类型选择期刊、学位和会议论文,时间跨度为2010—2019年。通过对初始收集的文献进行清洗,共收集了899篇文献,图2为“关联数据”的年度发文量与文献分布情况。由图2所示,互联网与信息技术的快速发展,推动了关联数据领域的相关研究,2010—2013年关联数据的相关研究文献快速逐年增长,到2013之后增长速度有所放慢,2016年达到了顶峰。2017年关联数据的相关研究开始出现下降的趋势,说明科研人员对关联数据的研究关注度有所减弱。因此追踪关联数据研究热点的变化趋势,科学合理地分析研究热点的变化对于今后的研究具有重要的意义。
将收集的文献根据年份划分,使用Bicomb2分别对每年的文献进行关键词提取、清洗并统计排序,依据本文提出选取关键词的公式分别计算每年显示关键词个数,再根据总年度高频关键词频次总和前20%的关键词可得α=120。由于使用“关联数据”进行关键词检索,因此本次呈现的可视化去除了“关联数据”,则每年显示关键词的词频与数量如表1所示。
3.2 关联数据领域年度高频关键词可视化
本文使用Python中的Matplotlib包将经过处理之后的年度热点关键词数据,按照关键词频次高低依次在时间轴上排列,即关键词频次较高的在上方,关键词频次较低的在下方。关键词词频的高低与显示的关键词字体大小相对应,即关键词频次高显示的字体就大,而关键词频次低则显示的字体就小,不同关键词使用不同的颜色,呈现结果如图3所示。
由图3可知,关联数据研究领域每年关键词的排列长短反应了这段时间内每年发文量的一个变化趋势,2016年的发文总量在这10年中是最多的,2010年发文量最少。2010—2016年关联数据研究领域逐年增长,到2016年达到了顶峰,之后发文量开始下降。关联数据领域的发文趋势反应了科研人员对这个领域关注的变化,而关键词的频次与位次的变化,则反应具体研究方向的变化。根据图3对关联数据领域进行如下分析。
3.2.1 关联数据领域高频关键词的分类分析
图3中的高频关键词具有明显的类别特征,这些关键词大致可分为应用领域与研究方向两大类。从表征应用领域的关键词:图书馆、数字图书馆、机构知识库、数字人文、非物质文化遗产等可以看出关联数据主要应用在这些领域。表征研究方向又可分为两大类,一类是关联数据基础理论与技术,如语义网的相关技术、RDF等。另一类是具有目标性的关键词,如资源整合、知识组织、知识服务、发现知识、关联数据发布等,这些目标性关键词主要是使用关联数据的技术和思想开展相关的研究。
3.2.2 关联数据领域高频关键词的分布分析
在关联数据研究领域中语义网始终贯穿于近10年间,在2014年语义网的字体最大说明频次最高,在2010—2017年语义网是每年出现频次最高的关键词,直到2018年被知识图谱取代,2019年被本体取代,但是相对其他关键词频次还是比较高。本体在2012年开始出现,在后来的相关研究中出现频次相对其他关键词都比较高。由此得出语义网、本体等热点关键词与关联数据关系密切,这些关键词是关联数据领域研究的基础。图书馆、数字图书馆等关键词相对其他应用领域关键词年度分布较为均匀且频次都比较高,由此说明了基于关联数据的相关研究很大程度上应用于图书馆、数字图书馆领域。表征研究方向的关键词如知识组织、知识服务、知识发现、资源整合等关键词频次与分布较为均匀,但是知识组织、资源整合相对于知识服务、知识发现出现频次较高,由此得出基于关联数据的相关研究方向主要为知识组织、资源整合等。分析高频关键词的年度分布与频次,可以得出关联数据领域相关研究的侧重点,期望给今后从事关联数据研究人员提供参考。
3.2.3 关联数据领域高频关键词的热度分析
通过年度高频关键词基于时间的排序与词频变化来揭示关键词的热度。根据文献关键词具有继承性,本文将关键词热度主要划分为新兴型、稳定型、衰退型3大类。
1)新兴型关键词。新兴状态的关键词表现为近一段时间突然出现的关键词或是这段时间持续出现。在本文关联数据可视化图中发展状态较好的关键词主要包括BTBFRME(The Bibliographic Framework Initiative)、大数据、数字人文、知识图谱、非物质文化遗产等,其中BTBFRME、数字人文、知识图谱这些关键词在近几年出现并且频次相对较高或排序相对靠前则表现明显的新兴型特征。BTBFRME是国际上新的编目规则,在近年来受到学者的关注。基于关联数据对图书馆资源的组织和整合体现了优势,因此更多学者借鉴关联数据在图书馆的应用将关联数据应用于数字人文,组织、整合数字人文的相关数据。近年来随着知识图谱的不断应用与发展,学者注重将关联数据组织、整合的信息或知识通过知识图谱来呈现,便于用户理解、发现和快速吸收信息或知识。
2)稳定型关键词。稳定状态的关键词表现为在整个分析时间段关键词的频次与排序相对稳定。在本文关联数据可视化图中有代表稳定狀态的关键词主要有语义网、本体、图书馆、数字图书馆、知识组织等,而语义网、本体、图书馆呈现稳定状态较为明显。虽然众多学者致力于将关联数据与语义网、本体相结合来组织和整合图书馆资源,但是由于图书馆资源庞大且复杂,而用户不断追求图书馆服务、服务的质量与水平等,因此在相关研究中关联数据与语义网、本体、图书馆的关系相对稳定。
3)衰退型关键词。衰退状态的关键词表现为在开始前几年出现或是在前几年持续出现一段时间而后几年就消失了,呈现衰退状态的关键词主要有网络数据、科学数据等。近年来随着计算机的快速发展,网络数据呈现爆炸式增长,网络数据已经成为常态化,而研究者更多关注于对网络大数据的分析。而科学数据是一门新兴学科,但是由于相关的理论、技术基础还比较薄弱,因此较少受到学者的关注。
由以上可视化与分析可知关联数据在10年内研究热点关键词处于动态变化的过程,年度高频关键词的频次与排序呈现上下波动的形式,通过本文提出可视化方法来追踪学科领域热点关键词的发展态势,希望能为科学人员的选题提供一定的参考意义。但是本文提出的可视化方法仅是基于统计方式并在此基础上进行的分析,由于篇幅有限未能对本文可视化方法与内容分析法相结合进行全面的论述。
3.3 本文方法可行性分析
1)高频关键词提取方法的可行性
为了验证本文提取高频关键词方法的可行性,对本文提取高频关键词的方法与现有其他方法进行分析。将收集的关联数据领域的全部文献,使用Bicomb2工具进行关键词的提取,对初始提取的关键词进行清洗。由于本实验是以“关联数据”为检索词进行的检索,因此高频关键词选取过程中不考虑该词词频。高频关键词选取的方法主要包括齐普夫第二定律、普赖斯公式、二八定律、g指数等[21,23]。使用齐普夫第二定律获取的高频关键词数量为5,使用普赖斯公式获取的高频关键词数量为94,使用g指数获得的高频关键词数量为25,根据二八定律获取的高频关键词数量为32,由此可知本次实验根据齐普夫第二定律获取的高频关键词数量偏少,根据普赖斯公式获得的高频关键词数量过多,而g指数与二八定律获取的高频关键词数量较为合适,但相对于g指数、二八定律获取的高频关键词相对较多、涵盖的范围比较广,因此本文选取二八定律来分析本文提出年度高频关键词的研究热点方法的可行性。选取高频关键词的词频之和占所有关键词总词频的20.05%可得32个高频关键词,即关键词词频大于等于10,词频总和为743,截取的高频关键词如表2所示。
通过对图3与表2的热点关键词对照发现:表2中语义网、本体、图书馆、RDF、数字图书馆、书目数据、知识组织等频次都比较高,在图3中这些关键词分布的年份较为均匀,但是频次与位次会发生不同程度的变动。本文可视化方法中展现的高频关键词都能与表2中统计的高频关键词与之匹配,即本文提出的可视化方法设定参数阈值α控制高频关键词与二八定律获取的高频关键词能匹配,如果出现两者间有少量不匹配的关键词则可通过再次合并相似关键词或者适当调整阈值α来提高匹配度,由此可以得出本文提出的年度高频关键词方法具有一定的可行性。
2)研究热点可视化方法的可行性
为了检验本文可视化的可行性,将本文可视化与Citespace工具绘制的共现知识图谱中的高频关键词的研究热点进行对比分析。对收集的文献数据使用Citespace工具对关键词基于词频的共现展示,词频阈值选择2,得到关键词共现知识图谱如图4所示。在关键词共现知识图谱中,节点与标签字体大小代表关键词共现频次大小,节点间连线的粗细代表关键词之间共现关系的强弱,节点间连线的颜色代表关键词之间建立共现的年份,由共现知识图谱(图4)可以看出在关联数据领域高频关键词主要有语义网、图书馆、本体、RDF、数字图书馆、知识组织、资源聚合、知识服务、知识发现、BIBFRAME、书目数据等,与网络数据共现的关键词连线颜色较深则表明了网络数据共现年份出现较早,与数字人文、非物质文化遗产共现的关键词连线顏色比较浅则表明了数字人文、非物质文化遗产等关键词是近年来新出现的研究热点,语义网、数字图书馆、图书馆、知识组织、知识服务、知识发现等关键词共现连线颜色有深有浅则代表了这些关键词在前后年份都有分布,这与本文可视化研究热点结果基本一致,这表明了本文可视化方法具有一定的可行性。虽然本文可视化方法不仅能追踪年度高频关键词研究热点的变化,还能展示学科领域文献数量的分布,但是本文可视化方法未能充分体现关键词之间的共现关系。
4 结 语
本文以基于年度高频关键词的研究热点提取与可视化方法为主要研究内容,在对近年来词频分析与文本可视化领域研究现状进行深入探析的基础上,发现相关领域对于词频演变趋势和研究热点变迁可视化的研究有所不足。因而本文提出了将时间要素与频度要素相结合的研究热点分析策略,首先构建基于年度高频关键词进行领域研究热点分析的过程模型,在计算关键词高频阈值的基础上,通过尺寸、颜色、形状、方位等要素对年度高频关键词进行视觉编码,并通过年度高频词在时间轴下的视觉呈现实现研究热点的提取与可视化。在过程模型构建的基础上,本文以近10年来国内“关联数据”领域的研究热点演变趋势为例,对提出的研究热点提取与可视化方法进行验证。实验结果表明,本文提出的基于年度高频关键词的研究热点可视化方法与以Citespace为代表的词频可视化工具相比,在关键词高频阈值计算和年度热点词的视觉呈现等方面均体现一定的优势和较强的可行性。但是,本文提出的研究热点可视化方法对于高频关键词之间的共现关系未能进行全面充分挖掘地,因此在未来的研究中,还需对本方法进行进一步优化与完善。
参考文献
[1]任磊,杜一,马帅,等.大数据可视分析综述[J].软件学报,2014,25(9):1909-1936.
[2]刘自强,王效岳,白如江.基于时间序列模型的研究热点分析预测方法研究[J].情报理论与实践,2016,39(5):27-33.
[3]邓珞华.词频分析——一种新的情报分析研究方法[J].大学图书馆通讯,1988,(2):18-25.
[4]邱均平,温芳芳.近五年来图书情报学研究热点与前沿的可视化分析——基于13种高影响力外文源刊的计量研究[J].中国图书馆学报,2011,37(2):51-60.
[5]张勤.词频分析法在学科发展动态研究中的应用综述[J].图书情报知识,2011,(2):95-98,128.
[6]余丰民,林彦汝.基于关键词词频统计的学科研究热点漂移程度模型构建及实证分析[J].情报理论与实践,2020,43(2):100-105.
[7]傅柱,王曰芬,陈必坤.国内外知识流研究热点:基于词频的统计分析[J].图书馆学研究,2016,(14):2-12,21.
[8]欧阳博,刘坤锋,杨海娟.国外信息系统持续使用模型应用研究综述[J].现代情报,2017,37(8):171-177.
[9]邱均平,丁敬达.1999—2008年我国图书馆学研究的实证分析(下)[J].中国图书馆学报,2009,35(6):79-87,118.
[10]巩永强,刘莉.基于词频分析法的情报学研究热点透析[J].图书馆学研究,2011,(13):9-13.
[11]奉国和,孔泳欣.基于时间加权关键词词频分析的学科热点研究[J].情报学报,2020,39(1):100-110.
[12]陈勇跃,田文芳,吴金红.主题领域研究热点跟踪及趋势预测的可视化分析方法研究[J].情报理论与实践,2017,40(6):117-121.
[13]卢新元,张恒,王馨悦,等.基于科学计量学的国内企业知识转移研究热点和前沿分析[J].情报科学,2019,37(3):169-176.
[14]刘自强,岳丽欣,许海云,等.时序共词网络构建及其动态可视化研究[J].情报学报,2020,39(2):186-198.
[15]高劲松,刘洪秋.基于知识图谱的国内外关联数据研究分析[J].情报科学,2018,36(3):117-124.
[16]施萧萧,张庆普.基于共词分析的国外颠覆性创新研究现状及发展趋势[J].情报学报,2017,36(7):748-759.
[17]唐家渝,刘知远,孙茂松.文本可视化研究综述[J].计算机辅助设计与图形学学报,2013,25(3):273-285.
[18]Viégas F B,Wattenberg M.Timelines Tag Clouds and the Case for Vernacular Visualization[J].interactions,2008,15(4):49-52.
[19]Johnson B,Shneiderman B.Tree-maps:A Space-filling Approach to the Visualization of Hierarchical Information Structures[M].IEEE,1991.
[20]汤斯亮,程璐,邵健,等.基于概率主题建模的新聞文本可视化综述[J].计算机辅助设计与图形学学报,2015,27(5):771-782.
[21]Cui W,Liu S,Tan L,et al.Textflow:Towards Better Understanding of Evolving Topics in Text[J].IEEE Transactions on Visualization and Computer Graphics,2011,17(12):2412-2421.
[22]Lee B,Riche N H,Karlson A K,et al.Sparkclouds:Visualizing Trends in Tag Clouds[J].IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182-1189.
[23]马创新,陈小荷.文本的可视化知识表示[J].情报科学,2017,35(3):122-127.
[24]刘奕杉,王玉琳,李明鑫.词频分析法中高频词阈值界定方法适用性的实证分析[J].数字图书馆论坛,2017,(9):42-49.
[25]邱均平,丁敬达,周春雷.1999—2008年我国图书馆学研究的实证分析(上)[J].中国图书馆学报,2009,35(5):72-79.
[26]杨爱青,马秀峰,张风燕,等.g指数在共词分析主题词选取中的应用研究[J].情报杂志,2012,31(2):52-55,74.
[27]Ren L.Research on Interaction Techniques in Information Visualization[Ph.D.Thesis].Beijing:The Chinese Academy of Sciences,2009(in Chinese with English Abstract).
[28]Card S K,Mackinlay J D,Shneiderman B.Readings in Information Visualization:Using Vision To Think[J].San Francisco:Morgan-Kaufmann Publishers,1999:1-712.
[29]张迪,赵亚娟,赵慧敏,等.情报产品可视化展示模式和方法研究[J].情报理论与实践,2020,43(2):66-71.
(责任编辑:陈 媛)