基于共词分析的国内知识组织现状研究
2013-08-29李迎迎郑春厚
李迎迎 郑春厚
(曲阜师范大学信息技术与传播学院,山东日照276826)
1 引言
随着现代信息技术的发展,人类已经步入知识型社会,而这种知识型社会是直接建立在知识资源的开发、获取和利用的基础上的,因此知识资源的开发利用越来越受到社会和广大学者的关注。Web2.0环境下,各种网络技术、通信技术以及存储技术的迅速发展,使得信息和知识急剧膨胀,造成了信息泛滥、知识无序。而泛滥无序的知识不仅不利于知识资源的利用,反而增加了知识利用的难度,加大了知识增长与利用的矛盾[1]。基于此,有必要对知识进行有效组织,以促进知识资源地充分挖掘与合理利用。与此相关的“知识组织”已日益成为学者关注的热点话题。
“知识组织”的概念早在1929年美国图书馆学家布里斯(H.E.Bliss)就已经提出了,是指为促进或实现主观知识客观化和客观知识主观化而对知识客体所进行的诸如加工、整理、引导、揭示、控制等一系列组织化过程及其方法。目前国内有几种比较典型的观点:蒋永福认为,知识组织是以知识为对象的诸如整理、加工、表示、控制等一系列组织化过程及其方法[2]。王知津认为,知识组织的任务是寻求抑制信息污染知识存贮无序化恶性循环的措施,其主要目标是对知识进行整序和提供知识,既要处理大量的现有知识,又要减少知识的增长[3]。国外匈牙利赛格德大学的研究人员认为,知识组织的理论和实践同人类知觉有着密不可分的关系,应寻找契合用户直觉的最佳的知识组织系统设计方案,提出可视化是将用户直觉融入知识组织系统设计的有效方式[4]。Birger HjØrland认为知识组织是利用不同的方法和研究习惯的图书信息科学(LIS)的子类[5]。本文认为高效的知识组织可以促进知识的挖掘与利用,减小知识增长与利用之间的矛盾,了解知识组织领域的研究热点便于知识组织的发展与改进。
近年来,关于知识组织的综述性研究主要是针对知识组织领域的文献进行理论层次的分析,如宋朋和张秀兰是对知识组织的研究范围、知识组织的原理和原则、知识组织的方法、知识组织的本体论、元数据、知识组织技术的研究、语义Web等方面进行了综述[6],观点过于主观,缺乏使用客观的、定量分析方法对知识组织研究内容进行概述和分析。张文亮和郭金婷的研究亦是通过主观的理论分析,总结出目前知识组织的研究热点,缺乏客观定量的分析[7]。
基于上述问题,本文采用共词分析方法,利用SPSS统计分析软件,以CNKI全文数据库作为数据来源,对国内知识组织领域文献进行客观定量分析。以期从文献计量学角度对国内知识组织领域研究进行概述,进而揭示国内知识组织领域的研究热点和发展趋势。
2 研究方法与数据
2.1 研究方法
共词分析法是利用文献集中词汇对或名词短语共同出现的情况,确定该文献集中各主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,通过主题词两两之间在同一篇文献出现的频率,即主题词之间的共现关系,便可形成由这些词对关联所组成的共词网络。根据网络内节点之间的亲疏关系,反映词对之间的联系,在此基础之上,进行聚类分析,得到不同的类团,进而分析该领域下的结构变化[8]。
共词分析法主要有以下几个步骤:第一,确定高频关键词;第二,构建关键词共词矩阵;第三,转化为关键词相关矩阵和相异矩阵;第四,运用统计分析软件进行多元统计分析,如因子分析、聚类分析以及多维尺度分析等;第五,对结果进行深入分析。本文按照上述五个步骤,对国内知识组织领域文献进行统计分析,并对最终的分析结果进行理论阐述。
2.2 数据来源
关键词是共词分析研究方法的基本单元,本研究所使用的关键词来源于CNKI中国知网数据库中的中国学术期刊网络出版总库,检索“主题”为“知识组织”的期刊论文,时间限定在2001至2011年,选择“精确”匹配,检索结果显示共有1718篇文献,剔除无关键词文献、非学术论文以及不相关论文,得到有效篇数1535篇,总体产出情况如图1所示。
图1 2001-2011年国内知识组织论文产出情况图
从图1可以看出,有关知识组织的发文数量呈每年递增趋势,在2005和2007年有所下降,在2008到2011年形成了研究的高峰期,说明知识组织越来越受到学者们的关注和重视。
2.3 数据处理
2.3.1 高频关键词获取
关键词在简单明了地揭示文献主题内容同时也是文章的精髓,关键词的频次和活跃程度代表了该领域理论和技术发展的方向以及它们的成熟度。经统计,在“知识组织”领域中,关键词为2316个,关键词总频次为5396,篇均关键词为3.5个。
由于检索主题词为“知识组织”,其出现频次必然过多,对研究现状和热点的描述没有太大意义,因此将“知识组织”去除。同时,合并一些同义不同词的关键词,如“本体”、“本体论”、“领域本体”和“ontology”合并为“本体”,“图书馆学”、“图书情报学”和“情报学”合并为“图书情报学”,去除停用词、无意义词等。最终选取频次大于等于10的54个高频词作为分析对象,如表1所示。可看出,知识管理、图书馆、本体、数字图书馆、图书情报学、知识服务等是知识组织领域的高频热点词汇。
表1 2001-2011年国内知识组织研究高频关键词
2.3.2 构造矩阵
由于以上选取的是“知识组织”文献中出现频次较高的词,一定程度上可以代表知识组织领域的研究现状和热点,但往往某一研究热点会涉及其他相关研究热点与知识点。同时,不同的学者对关键词的把握程度也会有所差异。因此,只是通过关键词的频次反映研究热点是不科学的,这就需要对选择的关键词进行相应的数据处理。本文利用浙江大学信息资源管理研究所设计的文献题录信息统计分析工具(Statistical Analysis Toolkit for Informatics,SA-TI),将高频关键词进行两两配对,统计在同一篇文章中共同出现的次数,形成了54×54的共词矩阵。
由于关键词自身频次的大小直接决定共现频次的相对值,为了消除自身频次所带来的差异,以揭示关键词之间真正隐含的关系,本文利用Ochiia[9]相关系数将共词矩阵转换为相关矩阵。
其中,Cij为A、B两词共同出现的次数,Ci为A词出现的频次,Cj为B词出现的频次,如图书馆与知识管理的 Ochiia系数298664。相关矩阵中的数据表示两关键词之间的相关程度,数值越大表示两词之间的距离越近、相关性越大;相反,数值越小表示两词之间的距离越远、相关性越小。例如知识管理与图书馆的Ochiia系数为0.298664,知识管理与知识的Ochiia系数为0.071414,这就说明知识管理与图书馆的相关性大于知识管理与知识的相关性。
由于关键词较多,在相关矩阵中的零值较多。为方便进一步处理,用“1”与相关矩阵中的数据相减,得到相异矩阵。在相异矩阵中,两关键词之间的数值越大,表示关键词之间的距离越远、相关性越小;相反,数值越小,表示两次之间的距离越近、相关性越大。
3 知识组织文献研究的共词分析
3.1 因子分析
因子分析是用尽可能少的因子去描述众多指标或影响要素间的关系。利用因子分析方法可以将多个影响因子压缩为几个少数主要影响因子,即相关性比较密切的几个变量归为一类,每一类称为一个公共因子,这样可以用几个公共因子反映原始信息的大部分内容。可根据因子得分值和累计贡献率,在因子所构成的空间中把研究对象的变量点画出来,从而达到客观分类的目的,并以此作为聚类分析的依据[10]。
利用SPSS19.0对关键词的54*54的共词矩阵进行因子分析,首先将其转化为斯皮尔曼相关系数矩阵(Spearman),将数据导入SPSS中,利用主成分分析法、协方差矩阵、基于特征值大于1与最大平衡值法进行因子分析,分析得到的解释总方差如表2所示,表2中列出了部分主成分,它们按照特征值由大到小排列。按照“特征值大于1”和“累计贡献率达到85%以上”的原则,由此可知,进行聚类分析时,可将本文研究的高频关键词分为6-7类。由因子分析碎石图验证,可知分为6-7类较为合理,如图2所示。
图2 2001-2011年国内知识组织关键词因子分析碎石图
表2 2001-2011年国内知识组织关键词因子分析解释的总方差
3.2 聚类分析
聚类分析是根据事物的特征对其进行分类,根据个体之间相似程度的大小,相似程度较大的个体聚为一类,把另外一些相似程度较大的个体聚为另一类,然后把关系密切的类聚到一个小类团中,直到把所有个体和类团都聚合完毕,形成一个由小到大的分类系统[11]。如根据地理位置和特征,每个国家都属于一个大洲,如中国、印度等属于亚洲,美国、加拿大等属于北美洲,最终构成了七大洲,七大洲又组成了全球国家,形成一个从小到大的系统。本文中的聚类分析是根据SPSS软件中的平方Euclidean距离作为分类的依据,依次进行聚类。
将54*54相异矩阵导入SPSS中,选择平方Euclidean距离作为度量标准,类间距离的计算方法采用组内连接。根据因子分析的结果,指定聚类数为6-7类,通过关键词的直观理论分析以及聚类分析的结果,本文认为将54个高频关键词分为6类比较合理,聚类结果如图3所示。这6类分别为:知识组织对象研究、知识组织服务研究、知识组织发展研究、知识组织技术研究、知识组织体系研究和知识组织系统研究。
图3 2001-2011年国内知识组织关键词聚类分析图
3.3 多维尺度分析
多维尺度分析通过低维空间展示研究对象之间的联系,并利用平面距离反映研究对象之间的相似度,多维尺度分析法将多维空间的研究对象简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。在多维尺度分析结果中,被分析的个体以点状分布,具有高度相似性的个体聚集在一起,形成一类,越在中间的个体越核心[12]。
在SPSS中以相异矩阵为基础进行多维尺度分析,结合因子分析和聚类分析的结果,多维尺度图如图4表示。
图4 2001-2011年国内知识组织关键词多维尺度分析图
4 结果分析
根据SPSS多元统计分析的结果,将知识组织领域的研究分为6类。
4.1 知识组织对象研究
在该类中,共包括4个高频关键词,分别是:图书情报学、研究对象、综述以及图书馆学理论。知识组织的研究对象,在图书情报学领域已经不仅仅是知识组织概念、理论和方法的研究。本类中的知识组织对象研究,是理论层次上的综述性研究,它涵盖了知识组织领域的多个方面,如:技术、应用、体系等,尤其是随着Web2.0技术、语义网技术以及网格技术的出现,知识组织的研究对象应该更加具有多元性和针对性。该类涉及到的4个高频关键词,虽不是研究热点,但却是知识组织中不可或缺的一部分。由于学者们对知识组织领域中的研究进行了细致划分,而对知识组织综述性的研究有所欠缺,如果将知识组织的研究对象进行明确界定,便于学者针对具体的研究对象进行深入研究。
4.2 知识组织服务研究
该类涉及到12个高频关键词,占所有高频关键词的22.2%,其中,知识管理、图书馆、知识服务、知识经济、知识创新等关键词的频次都在40以上,知识管理和图书馆是第一和第二高频关键词,该类团的关键词总频次占所有关键词总频次的41.8%,说明此类研究是知识组织领域研究的热点问题。在当今网络信息化时代,知识组织领域的服务研究主要是网络环境下面向知识管理的服务,包括图书馆管理、信息管理、知识管理,而知识管理又包括知识经济、知识服务以及知识创新等多个方面。但在面向服务的知识组织研究中,用户没有作为高频关键词出现在此类团中,说明目前知识组织服务缺乏对用户方面的相关研究,用户是服务的最终受益者,所以应该加强对用户方面的探讨和研究。
4.3 知识组织发展研究
知识组织的发展研究属于基础理论的研究范畴,是理论研究的重要组成部分,该类涉及到7个高频关键词,比较有代表性的是知识共享、隐形知识、企业以及知识转移等。通过发展趋势的研究,学者可以了解研究领域或学科的发展变化以及发展方向等。本文中的多元分析结果显示,知识组织领域的发展研究逐渐扩展到企业领域中的知识迁移方面,知识组织已经不仅局限在图书情报领域,正在向其他领域延伸,这种延伸包括隐性知识的转化,知识的共享迁移等。
4.4 知识组织技术研究
该类涉及到的9个高频关键词显示,知识组织领域中目前使用的技术主要包括专家系统、故障诊断、知识库技术、数据库技术、知识检索技术、知识构建技术等。应该拓展知识组织领域技术的研究范围,将其他领域的先进技术迁移到知识组织方面,促进知识组织技术和理论的共同发展。
4.5 知识组织体系研究
该类涉及到15个高频关键词,占高频关键词的27.8%,是所占比重最大的一类,说明知识组织体系研究是知识组织领域的又一研究热点,代表关键词有本体、分类法、叙词表、元数据、主题图、知识地图等。知识组织体系是用于进行知识组织的各类规范和方法的统称,是获取、利用知识的重要手段。由于知识组织体系涉及到的内容比较宽泛,所以在知识组织体系的研究中可能也包括知识组织理论与技术结合的相关内容[13]。目前知识组织体系在语义网的背景下,正趋于网络化方向发展。
4.6 知识组织系统研究
该类涉及到7个高频关键词,代表关键词有知识组织系统、知识导航、主题地图等。知识组织系统的核心在于构建概念(知识)属性的形式化描述框架以满足基于及其理解的信息处理和知识管理的功能需求并实现不同系统之间不同层面上的互操作。国内在知识组织系统的研究尚处于初级阶段,没有形成核心的可视化系统,期望对知识组织系统理论的研究可以形成集资源、技术、检索、导航等多方面为一体的系统。
5 总结
本文以CNKI数据库中2001-2011年国内知识组织领域的文献为研究对象,提取其高频关键词,利用共词分析方法进行可视化分析,发现了国内知识组织领域的主要研究内容:知识组织对象研究、知识组织服务研究、知识组织发展研究、知识组织技术研究、知识组织体系研究和知识组织系统研究,并对各研究主题进行了进一步的分析与探讨。通过共词分析方法的应用及领域主题的分析,揭示了国内知识组织领域不同主题之间的相互关系,比较清晰系统地描绘国内知识组织领域的研究现状和研究热点,以期为进一步研究提供借鉴。
〔1〕 王知津.从情报组织到知识组织[J].情报学报,1998,03:71-75
〔2〕 李秀云.网络环境下的知识组织研究[J].中国图书馆学报,2002,05:35 -38
〔3〕 蒋永福.论知识组织[J].图书情报工作,2000,06:5-10
〔4〕 Barat,A.H.Human perception and knowledge organization:visual?imagery[J].Library Hi Tech,2007,3:338 -351
〔5〕 HjØrland,B.Facet analysis:The logical approach to knowledge organization[J].Information Processing and Management,2012,10:1-13
〔6〕 宋朋,张秀兰.我国最近十年知识组织研究的新进展[J].图书馆学研究,2010,18:7 -11
〔7〕 张文亮,郭金婷.近5年我国知识组织研究综述[J].图书馆学研究,2012,02:2 -5+11
〔8〕 汤建民,余丰民.国内知识图谱研究综述与评估:2004-2010年[J].情报资料工作,2012,01:16-21
〔9〕 张玉,郭会雨,陈建青.我国数据挖掘研究现状分析——基于共词分析视角[J]. 情报科学,2011,10:1589-1593
〔10〕 付鑫金,方曙,庞弘燊.基于共词分析的我国情报学博硕士学位论文研究热点分析[J].情报科学,2011,11:1722-1725
〔11〕 张勤,马费成.国外知识管理研究范式——以共词分析为方法[J]. 管理科学学报,2007,06:65-75
〔12〕 钟伟金,李佳.共词分析法研究(一)——共词分析的过程与方式[J].情报杂志,2008,05:70-72
〔13〕 宋文.知识组织体系语义互操作研究[J].图书馆论坛,2012,06:117 -121