国内主题词表研究的热点与趋势:基于词频统计与知识图谱方法
2012-12-24余丰民
余丰民
摘 要:通过1980年~2003年和2004年~2011年两个时间段的词频统计与可视化知识图谱等方法的比较分析与研究,展现了国内主题词表研究领域的热点和趋势,认为:国内对主题词表的研究内容在时间上有明显的分界线、研究趋势展现了知识组织的演化过程、主题词表基于语义描述语言的本体转换是目前学界研究的热点和未来研究的趋势。
关键词:主题词表;词频统计;知识图谱;研究热点;研究趋势
Abstract:Based on word frequency statistics and visualization of knowledge mapping and other methods of comparative analysis and research in two periods of 1980—2003 and 2004—2011, the article shows the areas of research focus and trends of Thesaurus in China. That is: there is a clear dividing line in two periods, and trends show that the evolution process of knowledge organization system, Thesaurus based on semantic description language ontology conversion is currently a focus of academic research and future research trends.
Keywords:Thesaurus; Word Frequency Statistics;Knowledge Mapping;Research Focus;Research Trends
1引言
主题词表(叙词表)是一种情报检索语言,它在早期情报检索和知识组织中发挥着非常重要的作用。早在1876年,美国图书馆学家卡特发表了他的《字典式目录条例》 [1]。而随着计算机技术的发展,主题词表的功能也发生了相应的变化。另外,不断更新的网络技术,以及语义网等概念的技术实现,也为主题词表的发展注入了活力。
国内主题词表研究虽然起步较晚,但从《汉语主题词表》的问世,到《中国分类主题词表》的出版,均取得了卓越的成就。国内的研究主要集中在主题词表的介绍、评价、编制、修订、标引方法、应用及分类主题一体化等领域[2][3][4],另外,随着计算机网络技术的发展,各类词表被大量应用到了信息检索技术、知识组织与管理等领域之中[5][6]。
那么,这些年来国内对主题词表的研究都触及了哪些主题?其研究的趋势和热点又在哪里?本文试图通过对发表在期刊上的学术论文进行研究,旨在为该领域同行了解和掌握研究方向提供些许帮助。
2样本获取与研究方法
2.1样本获取方法。本文获取数据样本的方法是:在 “中国学术期刊网络出版总库”中,用关键词“主题词表 OR 叙词表”,检索出1980年~2011年间发表在“核心期刊”上的论文,因为《中文核心期刊要目总览》第一版在1992年才出版,上述检索结果仅命中了1992年~2011年数据;因此,作者又补充了1980年~1991年的相关主题数据。经过人工筛选,最后,获得样本数为480篇(检索日期:2012年2月12日)。
2.2研究方法。本文主要应用文献计量学领域的词频统计方法和基于共词的可视化知识图谱方法。
通过关键词词频的动态统计与分析,可以反映出某时间段内研究主题的动态变化过程,如高频关键词的发展期、高峰期及衰退期等。词共现(共词)分析方法最早是在1986年由法国文献计量学家M.Callon等学者提出的[7]。在词共现分析方法的基础之上,我们可以运用社会网络分析方法及软件(如Pajek),绘制出各主题之间的相互联系的学科知识图谱。
3 研究结果
3.1历年论文发表情况
对480篇论文进行按年度统计,见图1。由图1可以发现,论文数量基本上呈上升趋势:1980年~2003年为缓慢上升阶段,但1994年和1999年均有突出表现;2003年以后,呈现出了快速发展的态势。究其原因,一方面,随着计算机技术的发展,出现了诸如本体等语义网概念的应用研究,使得主题词表研究重新得到了重视;另一方面,有关主题词表的研究得到了更多的基金资助,2004年以前,仅有8篇资助论文,而2004年及以后,资助论文达113篇,尤其是近两年,基金资助论文比例均达50%以上。
3.2基于关键词词频统计。根据上述480篇论文的研究主题(关键词),我们可以通过关键词词频统计及共现计算来分析国内主题词表研究的热点与趋势。由于有些论文发表年代尚早,作者没有给出关键词,因此笔者对这一部分关键词进行了人工补充;同时,为了集中主题,对一些一义多词的主要关键词进行了修正,如将“《中国图书馆图书分类法》”统一简称为“《中图法》”,将“语义WEB”统一改为“语义网”,将“叙词表”统称为“主题词表”,等。这样,我们一共可以获得893个(1827个次)关键词,篇均关键词约3.8个。
为了便于比较,本文拟把1980年~2011年划分为两个时段:1980年~2003年和2004年~2011年。之所以这么划分,一方面,是因为从图1中可以发现,2003年以后,研究“主题词表”的论文数量增速较快;另一方面,“本体”、“语义网”、“知识组织系统”等新词汇在样本数据中均在2004年才出现;另外,两时段的论文数量也大致相当(分别是220篇和260篇),更具有可比性。表1列出了1980年~2011年高频关键词;表2列出了2004年~2011年新出现的关键词;表3列出了2004年~2011年消失最快的关键词。
在表1中,可以发现,除“主题词表”本身外,“本体”、“《中国分类主题词表》”、“《汉语主题词表》”、“主题标引”等关键词是总频次最多的,表明了国内对“主题词表”研究的热点所在。从关键词数量上统计,1980年~2003年频次在3次及以上的关键词有41个,2004年~2011年有64个,增幅达56.1%,而两时段论文数量增长仅为18%,这从某种意义上说明了后一时段比前一时段研究范围的扩大和研究内容的深入。
表2中的新词基本上属于“语义网”的范畴:本体是语义网的核心概念[8];SKOS(简约知识组织系统)、OWL、主题图等都是语义描述语言;Protégé是用于构建本体的软件工具;与“本体”直接相关的关键词有4个(领域本体、本体构建、分布式本体、中文叙词表本体)。
在表3中,还可以发现,某些主题的研究正在逐渐缩减,有的甚至已经消失了。如,“自动标引”、“主题法”、“文献标引”、“检索语言”、“情报检索系统”、“情报检索”、“信息检索系统”等关键词词频均出现了不同程度的下降。而像“分类主题一体化”研究,在后一时段内已经完全消失了。
3.3基于关键词共现的可视化知识图谱分析。为了与关键词词频统计相一致,我们在这里也对两个时间段进行对比分析,利用Pajek软件分别绘制出了两个时段的知识图谱,见图2、图3。在图中,顶点大小表示关键词词频的高低,连线粗细表示两个关键词同时出现在一篇论文中(共现)次数的多少。
从图2中可以看出,围绕主题词表的“词表编制”是1998年~2003年研究的焦点(连线最粗);“分类主题一体化”研究及其成果《中国分类主题词表》的修订与主题标引,也是该段时间研究的热点所在。在图3中主题词表转换成本体的研究无疑是2004年~2011年研究的焦点(连线最粗);以本体为核心的语义网环境下的知识组织系统研究,特别是用语义描述语言SKOS(简约知识组织系统)的应用研究,在图中非常抢眼;尽管,在这个时段,“分类主题一体化”这个关键词消失了,但有关分类法与主题法及《中国分类主题词表》的研究还是吸引了不少学者。
除了有更多的热点显现外,图3与图2相比,各关键词之间的关系更加紧密了,知识图谱的网络显得更加复杂了。另外,从图谱的结构上看,图2仅有一个中心,而图3已经形成了“双轮驱动”模式[9]。
4结论
从上世纪七八十年代开始,国内图书情报界及相关研究领域学者就进行了主题词表的研制工作,从研究主题的知识图谱来看,其研究热点主要涉及“汉语主题词表”、“分类主题一体化研究”、“中国分类主题词表”、“分类叙词表”、“语义描述语言”、“语义网”、“本体”等重要事物和概念。这些事物和概念把国内有关主题词表研究的过程串联在了一起。经过以上分析与研究,我们可以大致得出以下结论:在整个时间段上,其研究热点有着明显的分界线(2003年~2004年);其研究趋势基本展现了知识组织由手工阶段向自动化、网络化阶段的演化过程;主题词表基于语义描述语言的本体转换是未来研究的发展趋势。
参考文献:
[1] 戴淑娟.艺术科学领域的新型标识系统——《艺术科学叙词表》[J].图书馆论坛,1993(6):56~68.
[2] 黎盛荣.《汉语主题词表》评介[J]. 图书馆工作与研究,1981(1):17~21.
[3] 王源,陈长旭.《汉语主题词表》简评[J]. 情报学刊,1983(1):86~91.
[4] 王金夫.《汉语主题词表》概说[J]. 图书馆杂志,1986(2):32~34.
[5] 刘春艳,曾锦丹,李佳军.语义WEB环境下知识组织体系SKOS应用研究[J].图书情报工作,2006,50(6):23~27.
[6] 段荣婷.基于简约知识组织系统的主题词表语义网络化研究——以《中国档案主题词表》为例[J].中国图书馆学报,2011,37(3):54~65.
[7] Callon M, Law J, Rip A. Mapping the Dynamics of Science and Technology: Sociology of Science in the Real World [M]. London: Macmillan, 1986: 225~226.
[8] 唐静.叙词表转换为ontology的研究[J]信息系统,2004(6):642~645.
[9] 汤建民. 学术研究团队的可视化识别及评估方法研究:以科学学研究领域为例[J].情报学报, 2010(2):323—330.
(作者单位:浙江树人大学科学计量学研究中心来稿日期:2012—08—20)