图书情报学知识图谱的构建与解读
2012-05-14金叶
摘要:当今社会信息技术发展日新月异,互联网技术、数据库技术、人工智能技术等在各个领域的应用日臻成熟;信息化数字化时代的到来,信息的获取和利用日益方便和快捷,为科学研究提供了不可或缺的分析基础,这些都为科学计量学的研究奠定了发展基础。
关键词:图书情报学知识图谱聚类分析
1. 绪论
知识图谱(Mapping Knowledge Domains)是显示科学知识的发展进程与结构关系的一种图形,它以科学知识为计量研究对象,属于科学计量学范畴[1]。它是基于内容分析、引文网络分析和信息可视化的一种可视化显示知识以及相互关系的一种图形,已经成为当前科学计量学中比较热门的研究方法。知识图谱在图书情报学领域也称为知识域可视化或知识领域映射地图,是现实知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系[2]。
2. 图书情报学知识图谱的构建
2.1 数据获取和处理
对于高频主题词的提取,目前国内外还未形成统一权威的标准。大多数学者在选择小样本主题词时都是按照词频大于某个特定值的方法,认为大于这个特定值即可认定该主题词是高频主题词。此外还需要考虑提取的高频主题词占所有主题词词频的比重,根据主题词累积词频的变化截取高频主题词。
2.2 共词分析
共词分析是一种内容分析技术,它通过分析在同一个文本主题中的款目对共同出现的形式,确认文本所代表的学科领域中相关主题的关系,进而探索学科的发展。共词分析的主要作用是通过对高频主题词的聚类,发现研究对象的分析热点和主要内容,深入揭示相对应的研究结构,进而系统探讨其研究维度、学科背景和理论基础,以期进一步把握其研究现状、学术热点及发展趋势。
2.3 相关分析
相关分析是研究现象之间是否存在某种依存关系,是以分析变量间的线性关系为主,是研究它们之间线性相关密切程度的一种统计分析方法[3]。通过相关分析,界定任意两个主题词之间的距离,以及这种距离所代表的关系,从而进一步确定主题与主题直接或正或负的联系。
相关分析是整个数据处理过程中比较简单的一步,却至关重要。SPSS的统计分析是建立在相关系数的基础上,需要基于相关矩阵表进行。因此,须将以上共词矩阵经过特定的相关性转化为相关矩阵,以便SPSS统计分析。共词矩阵转化为相关矩阵通过Excel来完成,具体步骤是:在Excel中加载宏,导入分析工具库-VBA函数,使用Excel中自带的数据分析模块进行相关系数的计算,通过“工具”-“数据分析”-“相关系数”,对共词表中的每一列进行相关系数的运算,由此可以得到完整的100*100的相关矩阵表。得到100*100主题词相关矩阵后,就可以通过SPSS统计分析工具进行因子分析,聚类分析以及多维尺度分析,并构建图书情报学知识图谱。然后通过SPSS对主题词进行了一系列的因子分析、聚类分析和多维尺度分析,在此基础上得到图书情报学研究的各个大类,
3. 图书情报学知识图谱的解读
3.1 基于主题词的总体分析
对主题词的总体分析主要是对研究范围内选取的样本进行SPSS分析后获取的前100位的主题词上,在图谱构建中主题词对应的百分比就表示在这一年该主题词出现的次数占该年所有提取的主题词总词频数的比重。“平均比重”则表示该主题词在研究年限范围内的平均值;“变化状态”表示研究年限范围内的变化情况,会有“持续上升”和“持续下降”两种情况;“无显著规律”则表示该主题词在研究年限内变化比较反复;研究年限中的“末年比初年增长幅度”表示末年比初年的增长比例,用以衡量该主题词在末年的关注度和热度相较初年的情况,比例越高,增速越大,发展越快。
3.2 学科发展的现状与热点
通过前文的统计分析和当前科学研究趋势可以将图书情报学研究的结果进行具体分类,当前对于图书情报学研究的文献显示,通过对2005-2011年的主要样本进行分析后能够将图书情报学图谱分为11个大类,从而得出当前图书情报学的科学发展现状与热点分别是:医学信息学、信息计量学与出版、图书馆系统、计算机技术与管理、网络信息资源、信息管理与信息系统理论、电子资源、网络资源与医学图书馆、数字图书馆、教育与信息素养、信息行为与信息共享。
3.3 科学发展态势
综合以上对图书情报学11大类研究主题的内容剖析和现状分析,可以看出,现阶段的学科发展主要集中在图书馆实体研究、资源对象以及学科基本信息理论三个方面[4]。而在每个方面下,又有不同的发展侧重点,如在实体研究中,主要是根据系统的观点,将图书馆划分为结构、职能、作用、类型、表现形式各不同的子元素,研究多集中在学术图书馆、图书馆人员和图书馆的地域研究上;在资源对象方面,主要是将图书情报学的研究对象——信息资源作为研究主导,尤其是针对目前网络信息资源迅猛发展的情况,因此研究多集中在网络资源的检索与评价方面;在学科基本信息理论方面,研究则多集中在管理和技术两大方面,其中管理侧重于对信息资源管理和知识管理的研究,而技术更多的是面向检索技术和存储技术的研究[5]。
4. 结论
在知识经济发展的大环境下,知识图谱的应用受到了越来越多的关注,而关注的增多必将会带来更深入的研究。如今对知识图谱的研究多数还只是局限在对某个特定主题的分析之上,对学科和领域的研究不是很多。因此,各个学科在审视自身发展的同时,可以借助知识图谱的分析,可视化地显示学科发展的态势和走向,为研究方向提供参考。
参考文献
[1] 肖明李国俊杨楠. 基于词频分析的国内情报学研究热点(1998~2007)[J]. 情报杂志,2009(28): 21-25.
[2] 陈兰杰. 国内情报学理论2008年研究热点及发展趋势[J]. 情报杂志, 2009(28(8)): 55-58.
[3] 严怡民. 现代情报学理论[M]. 武汉: 武汉大学出版社,1996.
[4] 梁战平. 开创情报学的未来——争论的焦点问题研究[J]. 情报学报, 2007(26(1)): 14-19.
[5] 周承聪. 信息生态链中的信息流转[J]. 情报理论与实践,2007(30(6)): 725-727.
作者简介:
金叶(1982-),女,山西长治人,学历:中南大学医药信息系2009 级硕士研究生在读,职务:长治医学院信息管理系教师。