我国情报学硕博学位论文研究主题演化分析
2019-06-19李昌吴红周锦锦
李昌 吴红 周锦锦
摘 要 论文以CNKI中2001—2017年的情报学硕博学位论文作为研究数据,绘制了情报学2001—2007年、2008—2011年、2012—2017年三个子时期的主题演化脉络,并从主题演化强度、主题演化关系以及主题演化内容三个方面展示主题演化状况。研究认为:我国情报学硕博学位论文研究目前正处于有序、快速成长的发展状态;研究主题内容不断拓展,呈现由集中到分化的发展脉络;未来研究会围绕在数字图书馆,舆情监管,用户信息行为的影响因素,网络分析与复杂网络信息生态链等方面。
关键词 情报学 主题演化 演化路径
分类号 G350
DOI 10.16810/j.cnki.1672-514X.2019.05.018
Abstract This paper takes CNKIs 2001-2017 information science dissertation as the research data, and draws the theme evolution of three sub-periods of information science in 2001-2007, 2008-2011 and 2012-2017. It shows the evolution of the theme from three aspects: the intensity of the theme evolution, the relationship evolution of the theme, and the evolution of the theme. The research believes that the research on Chinas information science and masters degree thesis is currently in an orderly and rapid growth state; the research theme is expanding and shows the development from concentration to differentiation; future research will focus on digital libraries, public opinion supervision, influencing factors of user information behavior, network analysis and complex network information ecological chain.
Keywords Information science. Topic evolution. Evolution path.
碩博学位论文大都是作者在其导师的悉心指导下,历经1年甚至更久才完成的,是作者整个研究生期间的精华所在,且内容丰富,研究层次深,专业性强,往往具有深刻的理论基础和前沿观点[1]。目前已有学者对情报学硕博学位论文进行研究:李长玲等通过对2002—2006年的硕士学位论文的共词聚类,探索情报学硕士论文的研究热点[2]。刘非凡等利用TF*IDF方法识别2003—2012年情报学硕士学位论文的经典和代表不同阶段特点的特征关键词,利用Linkcomm边聚类算法进行聚类,分析了情报学学科主题层次性和层叠性结构[3]。李欠欠通过对2004—2014年我国情报学硕博学位论文进行聚类分析,构建战略坐标图,研究我国情报学研究热点[1]。现有研究多从热点角度进行分析,虽然从不同维度深入研究了情报学的发展现状,给人们一些启发,但难以形成学科发展的网状结构,研究人员难以从整体上判断与把握情报学领域的研究。
本文以中国知网为数据源,抽取2001—2017年CNKI中优秀硕博学位论文中的关键词,进行聚类分析,构造词频强度比指标,利用相似度公式,构建我国情报学主题演化图。
1 数据来源
在CNKI的博硕士论文文库中,最早的情报学硕博学位论文文献在2001年,故以学科专业名“情报学”,检索时间2017年12月28日,共检索出3919篇文献。本文利用固定时间窗的方法结合文献量,将2001—2017年划分为3个子时期:2001—2007年;2008—2011年;2012—2017年。利用书目共现分析系统Bicomb抽取关键词,去除出现频率高但对结果没有意义的词语(如情报学等)之后,根据词频的高低,利用Donohue提出的高、低频关键词届分公式,辅助确定61、67、74个核心关键词,见图1。高、低频关键词届分公式:
2 数据分析
2.1 共现矩阵与相异矩阵
根据提取的高频词,利用书目共现分析系统Bicomb生成共现矩阵,因篇幅限制,这里仅展示第一阶段部分共现矩阵,如表2所示。
为了消除共词频次差异形成的影响[4],本文引入等价系数来表示共现的相对强度,形成相关矩阵。等价系数计算公式如下:
Cij代表i、j两词同时出现的频次,Ci代表i词出现总频次,Cj代表j词出现总频次。用数值“1”分别减去相关矩阵中的各个数据,最终得到相异矩阵(介于0与1之间,值越大,词的相似度越差)。部分相异矩阵如表2所示。
2.2 系统聚类分析
依据关键词之间的共现强度值,挖掘关联强度大的主要词群,揭示阶段研究的热门领域[5]。把上述相异矩阵导入到SPSS19.0中,进行层次聚类分析(聚类标准:Square Euclidean Distance,标准化处理:z得数,输出:树状图)。分别得到三个阶段的聚类结果,由于篇幅限制,这里展示第一阶段的聚类结果,如表3所示。
2.3 主题名称确定
本文引入粘合力指标,测度主题中的关键词对主题的贡献程度[6]。粘合力越大,其贡献程度越高,越能够代表该主题的核心概念。本文用粘合力最大的主题词代表主题名称,但该主题词也只是在一定程度上表征主题含义,并不能完全代表主题。其计算公式为:
其中,N(Ai )表示关键词Ai的粘合度,F(Ai→Bi)表示关键词Ai与同一主题当中其余关键词的共现频次,n表示主题中关键词的个数。用粘合度值最大的关键词来表征主题的名称,如表4所示。
从表4可以看出随着时间的推移,情报学领域呈现出不断发展的趋势,核心主题数量快速增长:2001—2007年有10个核心主题,2012—2017年核心主题数量已经发展到了20个。情报学硕博学位论文研究的主题数量呈现稳步上升趋势,情报学学科的关注程度逐渐变高,在研究深度和广度上都有所推进。
2.4 主题相似度计算
采用点积余弦相似度公式计算主题相似度(Topic Similarity Index, )。每个学科有若干主题(Topic)构成,每个主题词都有若干关键词(Keyword),首先将主题表示为Topic={k1,k2,k3…kn},则主题的词频向量(Word FrequencyVector)可以表示为:{weight 1,weight2,weight 3,…,weight n},最后计算相邻子时期两两主题之间的余弦相值(值范围:0-1,值越大表示两个主题越相似)[7]。主题相似度指标计算公式为:
式中,分子表示两个主题向量的点乘积,分母表示两个主题向量的模的积。
设定阈值a识别不同子时期主题的关系,当时,判定两个主题具有演化关系,当时,表明两者没有演化关系,以此识别主题演化脉络,形成主题演化路径[8],主题路径将各个主题的演化状态进行了定量描述,较为直观的展示不同子时期内各个主题的整体变化。本文经过分析研究发现,当a=0.41时,主题网络清晰,可以直观、准确地展示演化关系。故本文判定当相似度大于0.41时,两者存在演化关系。
2.5 主题强度度量
现有的主题强度指标要么从词频数量增减变化角度展开,要么从后验概率定义主题强度,要么把主题映射于文档,用其数量或者被引量等指標表示主题强度(热度)[7-9],少有从主题发育状态变化的角度去展示其演化过程。本文结合时间序列,构建词频强度比指标来表征主题强度(Topic Intensity,TI),分析主题随时间的演化趋势,动态展现主题热度变化情况,计算公式为:
阶段内词频平均强度(Word Frequency Average Intensity, )是所计算子时期内全部共现关键词的平均共现频次;主题内词频平均强度(Thematic Average Intensity, )是子时期内t主题中全部共现关键词的平均共现频次。是第i年主题t的主题强度,通过趋势的变化可以颗粒化的观察主题在一定阶段的热度变化情况:把与1进行比较,当的值≥1时,说明这个主题在第i年高于或等于热点主题的平均水平,可以判定是高热门主题类型,当<1时,说明是潜在热门主题或者是潜在消亡热门主题类型。计算结果如表5所示,因篇幅限制,仅展示第一阶段主题强度。
3 主题演化及其分析
根据点积余弦相似度值和主题强度值绘制主题演化路径,从左往右表示时间轴,分别为2001—2007年,2008—2011年,2012—2017年3个子时期。黑色文字表示主题名称,独立的方块表示主题,主题内折线图中直线表示主题强度为1,用来判断主题的类型,另外一条线代表主题在子时期内强度的变化。相邻子时期主题之间的连线表示演化关系,实线表示继承,虚线表示分化、分裂[8]。t时刻主题T与t-1时刻无连线,表明其属于新生主题,与t+1时刻无连线,表名其属于消亡主题[8]。图2为2001-2017年情报学硕博学位论文主题演化图。
图2 2001—2017年情报学硕博学位论文主题演化图
从图2可知,我国情报学硕博学位论文研究随着时间的推移,主题数量呈快速增长态势,相邻子时期主题的演化关系越来越密切、复杂,表明其研究受到越来越多学者的关注。为更好地阐述情报学学科的发展,揭示其流动规律和发展态势,本文从主题演化强度、主题演化关系以及主题演化内容三个方面对其主题演化情况进行分析。
3.1 注题演化强度分析
第一阶段,各主题的强度值波动较大,此时间段各主题无序发育,说明发育不成熟,正处于探索阶段;第二阶段,除个别主题强度变化幅度较大以外,大部分主题强度变化趋稳,说明发展渐趋明朗、研究开始回归理性;第三阶段,大部分主题强度呈上升态势或者平稳变化,说明该领域研究力度稳中有升,多数主题处在成长状态,少数主题强度快速回落,正逐渐远离人们的视野,表明研究方向越来越明确,研究人员在对各个主题的把握和研究上更加成熟。
以“知识管理”主题为例:2001—2007年间,其强度于2004年突破1,表明其由潜在热门话题成为高热门话题,且一直处于增长状态,说明其研究的力度在加大。2008—2011年,主题强度一直在“1”上下徘徊,说明其在此期间一直属于高热门话题,且主题强度波动幅度变化很小,表明该主题可能趋于成熟。2012—2017年,该主题强度在不断下降,表明主题热度在下降,这可能与该主题开始分化有关,也说明主题开始由内部发展转向外部发展,研究范围由本领域向其他领域拓展。
3.2 主题演化关系分析
2001—2007年和2008—2011年两个相邻子时期主题之间的连线较少,演化关系较少,2008—2011年和2012—2017年2个子时期的主题之间连线快速增加,主题之间的关系更加紧密,主题发展呈现明显的协同特征,主题分化、融合现象不断发生。如2001—2007年子时期“本体”分化出“信息组织”主题,“电子政务”主题中的一部分融入到“电子商务”之中;2008—2011年子时期“本体”“电子商务”“电子政务”“知识管理”“实证研究”都出现分化的现象,“本体”与“实证研究”“知识管理”中各有一部分融合成“影响因素”,“数据挖掘”中的一部分融入到“电子政务”之中等。另外,新兴主题不断产生,例如:2008—2011年子时期中的“信息行为”“舆情管理对策”“实证研究”等,2012—2017年子时期中的“信息生态链”“微博”“关联数据等”;一定数量主题(例如2008—2011年子时期中的信息组织)也在不断消亡。
以“知識管理”主题为例,从演化轨迹来看,2001—2007年子时期与2008—2011子时期只有继承关系;2008—2011年子时期与2012—2017年子时期之间除了继承关系之外,还出现分化与融合关系,分裂成“知识共享”与“社会网络分析”两个新主题,并与“舆情管理与对策”主题融合成为“舆情管理模式与对策”。
3.3 主题演化内容分析
2001—2007年的研究主要集中于图书馆信息与知识服务方面,具体侧重于图书馆数字参考咨询、知识管理以及个性化服务的信息服务与信息系统;2008—2011年子时期侧重于方法对策与评价研究,由之前的信息服务等研究转向图书馆服务绩效评价、评价体系的构建,同时随着Web2.0的发展,电子商务与政务也成为现阶段热点;2012—2017年子时期,开始探讨数字图书馆,关注舆情监管,探讨用户信息行为的影响因素,注重网络分析与复杂网络信息生态链研究。
以“知识管理”主题内部关键词变化这一微观视角为例来看:2001—2007年子时期,由表6内主题的关键词可以看出这个时期的研究主要集中于某一点,例如知识共享、知识创新等,说明还处于内部发展阶段,主题发育还不成熟;2008—2011年子时期,内部主题词有了较大的增长,主题内容与含义迅速扩充,同时和网络分析进行结合,开始由之前的点向线(网络) 发展,表明“知识管理”的相关研究进入了快速增长的阶段;2012—2017年子时期该主题开始与知识地图、知识网络、可视化等主题结合,动态显示知识之间的联系,研究由线向面发展。
表6 知识管理主题各子时期内主题词
阶段 主题词(粘合力)
2001—2007 年 知识管理(0.562)知识需求(0.131)知识共享(0.109)知识(0.099)知识创新(0.099)
2008—2011 年 知识管理(0.328)模式(0.131)社会网络分析(0.127)知识共享(0.117)发展策略(0.085)社会网络 (0.075)产业集群(0.071)引文分析(0.066)
2012—2017 年 知识管理(0.344)知识地图(0.197)知识图谱(0.180)可视化(0.148)可视化分析(0.131)
4 结语
本文从主题演化强度、演化关系与演化内容三个方面分析我国情报学硕博学位论文主题演化状况,可以发现,随着信息技术的不断进步,有关情报学的演化主题越来越多,多数主题处在成长、成熟状态,少数传统的主题远离人们的视野。目前情报学的整体研究呈现由集中到分化的发展脉络,未来研究将围绕数字图书馆、舆情监管、用户信息行为的影响因素,对网络分析与复杂网络信息生态链等方面研究展开。
参考文献:
李欠欠.2004—2014我国情报学热点研究主题分析:基于战略坐标图[J].图书馆杂志,2017,37(2):29-34.
李长玲,翟雪梅.我国情报学硕士学位论文的共词聚类分析[J].情报科学,2008(1):73-76.
刘非凡,李长玲,魏绪秋.我国情报学学科主题结构分析[J].情报理论与实践,2015,38(2):121-126.
董坤,吴红.基于论文-专利整合的3D打印技术研究热点分析[J].情报杂志,2014,33(11):73-76,61.
唐果媛,张薇.基于共词分析法的学科主题演化研究进展与分析[J].图书情报工作,2015,59(5):128-136.
钟伟金,李佳,杨兴菊.共词分析法研究(三):共词聚类分析法的原理与特点[J].情报杂志,2008(7):118-120.
刘自强,王效岳,白如江.多维主题演化分析模型构建与实证研究[J].情报理论与实践,2017,40(3):92-98.
刘自强,岳丽欣,王效岳,等.主题演化视角下的国际情报学研究热点与前沿分析[J].图书馆,2017(3):14-22.
HALL D, JYRAFSKY D, MANNING C D. Studying the history of ideas using topic models[C]//Conference on Empirical Methods in Natural Language Processing,2008:363-371.