基于知识图谱的国内外情报学对比研究
2012-04-29刘海霞刘双阳孙振球李晓娜
刘海霞 刘双阳 孙振球 李晓娜
〔摘 要〕以有关情报学为主题的来自Web of Science 数据库的7 078条外文文献和CSSCI数据库的1 009条中文文献为研究对象,利用Cite Space软件对相关引文数据和主题词数据进行分析和处理,以知识图谱的形式整理了国内外历年的研究前沿,同时梳理了国内外情报学研究的重要的知识基础,对国内外情报学研究文献的发文量等进行了对比。本研究得出的结论为:情报学的研究力量主要集中在美国,英国、加拿大、澳大利亚、巴西、中国等亦有突出贡献;中国的情报学研究作为后起之秀,文献突现性是显而易见的;国内外在情报学研究中研究热点很相似,但各具特色,有些研究热点只是存在时间的先后问题,整体来看处于同步发展。
〔关键词〕知识图谱;情报学;引文分析;Cite Space
本文选择了美国Drexel大学信息科学与技术学院教授陈超美博士开发的在JAVA环境中运行的Cite Space软件作为知识图谱可视化分析工具。在Web of Science数据库中输入主题词“informatics or information science”,共检索到7万多篇,之后选择学科类别information science & library science对检索到的结果进行精炼,得到7 078条数据(即图书馆学和情报学专业中以“情报学”为主题进行 研究的数据);在CSSCI中输入“情报学”,共检索到1 009条数据,用数据转化软件将其转化成为Cite Space能够识别的数据类型,之后用Cite Space软件对两组数据进行分析、整理。通过可视化分析聚类视图、时间序列图谱和时区视图,显示情报学在近几年的研究状况,进而对国内外研究情况进行分析。
1 国内外情报学文献研究
Cite Space软件分别将国内和国外发表的论文数量及时间以“年轮”的大小和颜色直观表现出来。在界面中,节点类型选择institutions和country,词组来源选择标题(title)、摘要(abstract)、关键词(descriptor)和标示符(identifiers),至于剪切连线选择“寻径”。以每年为切分点,将1996-2012年分为17个时段进行处理,运行Cite Space软件,得到有关情报学的直观性的分析图谱。图1 国际情报学发文量概况图谱
图1为全球各个国家对情报学研究的综合情况,将其分为国家和研究机构,圆形节点表示国家,在其分支上的小节点则表示该国的主要研究机构及与该国合作密切的中心度较小的国家。
从图1可以看出,美国和英国在情报学发文量上看贡献量是最大的,结合表1,关于图谱中的各节点的发文量上来看,节点的“年轮”越大说明发文量越多,可见美国的发文量是最大的,它的贡献远远超过居于第二的英国,其次是加拿大、西班牙、巴西、澳大利亚等国家。 表1 国外部分国家或机构发文量及节点中心度
1.2 文献的节点中心度比较分析
虽然美国发文量居于第一,然而在节点中心度上英国的贡献则位居第一(如表1),其次是美国、澳大利亚、丹麦、伍尔弗汉普顿大学(英国)、亚利桑那大学(美国)等。在图谱显示的网络中,节点中心性越大说明与该国家或者该国家的机构合作的国家或者单位越多。英国的节点中心度最大,说明其他很多国家在情报学研究中都与英国有着直接或者间接地交流及合作的关系。
通过以上的图1和表1可以看出中国的发文量相对于在国际水平上处于第七位,基本处于发文量较大的国家,其次从节点中心度来看,中国的节点中心度和中间中心性都比较小。
1.3 文献的发文突现性比较
从发文突现性上来说(如表2),巴西的Burst值为398,是整个网络节点中发文突现性最大的一个节点,其次为西班牙、中国、伊朗等国家或者相应机构。中国的Burst值为125,说明发文量上同样具备很大的突破,在为国际情报学研究中的贡献上也是与日俱增。表2 部分国家或单位在情报学研究中的发文量和发文突现性
研究前沿作为一个描述任何研究领域的动态现状的称谓,形象的体现由基础知识逐渐发展的动态过程。利用知识图谱可以可视化体现知识基础逐渐发展,历年的研究进展的动态过程。陈超美博士把研究前沿定义为一组突现的动态概念和潜在的研究问题,而研究前沿的知识基础则是它在科学文献中(即由引用研究前沿术语的科学文献所形成的演化网络)的引文和共引轨迹[1]。
利用Cite Space软件绘制共引网络知识图谱进而可视化的研究知识基础和研究前沿的轨迹,这也是Cite Space软件的重要贡献之一。网络节点选择cited reference,其他的选择策略不变,运行Cite Space软件,获得time line图和time zone图。
2.1 情报学的知识基础分析
情报学的知识基础分为两种方式,一种是早期对情报学研究具有重要贡献的奠基性作用的文献,另一种是在情报学研究过程中对发表的各个文献引用次数比较高,并且具有桥梁性作用的文献。这两种文献类型是构成整个情报学研究的整个骨架,构成历年情报学知识研究的各个支点[1]。
2.1.1 国外情报学的奠基性节点分析
如图2所示为Cite Space软件生成的强调研究前沿和知识基础间的顺时模式的时间序列图谱。时间序列图谱是以时间为横轴,各个聚类构成纵行排列的图谱,时间从左到右排列,因而可以清晰地看出基础文献和文献的不同聚类。在界面中,节点类型选择cite reference,词组来源选择标题(title)、摘要(abstract)、关键词(descriptor)和标示符(identifiers),词组类别选择“Burst Terms”,至于剪切连线选择“最小生成树”。以每年为切分点,将1996-2012年氛围17个时段进行处理,运行Cite Space软件,得到有关情报学的直观性的分析图谱。网络中由239个节点构成,其中时间跨度比较大的作为奠基性文献。通过本文的有限数据,可以看到情报学在20世纪前期就已经开始研究,直到现在研究热度持续不减,且不断上升。图2中右侧聚类显示的是近年来最新发表文献构成的节点,这些节点构成了最近几年的研究前沿内容,代表着情报学研究的思想现状,同时也可以清晰地发现情报学的知识基础与研究前沿的脉络及联系。图2 国外的情报学奠基性文献的时间序列图谱
从图2中可以看出,第一篇奠基性文献是Lotka AJ于1926年在Journal of Washington Academy Sciences发表的The frequency distribution of scientific productivity,目前该文章的被引用次数总共达到1 400次。AJ洛特卡在文中提出了科学生产率的频率分布规律,又称洛特卡定律。即科学论文作者频率与所写论文篇数间数量关系的定律,若f(x)为作者频率(即写x篇论文的作者占作者总数的比例),则f(x)=c/x2,式中c为常数,约为6079%,即写一篇论文的作者约占总作者数的6079%。该文章对情报学的科学计量学具有重要的意义[2]。
第二篇奠基性文献是Bradford SC于1934年在Engineering发表的Sources of information on specific subjects[3]。在这篇论文中,他以《应用地球物理学》和《润滑》中的书目为研究对象,提出了科学计量学中关于集中与分散分布规律,命名为布拉德福定律,该定律是文献信息计量学最基本的定律。
第三篇文献是V Bush于1945年写的As we may think[4],该文章中,范内瓦布什设想了一种能够储存大量信息,并能在相关信息之间建立联系的机器,这个想象正是目前所用的因特网,为我们的网络检索等各个方面做出了巨大贡献。
第四篇奠基性文献是Shannon C于1949年于Bell System Technical Journal发表的Communication Theory of Secrecy Systems[5],香农提出的有关保密系统的通信理论的数学模型、随机密码、纯密码、完善保密性、理想保密系统、惟一解距离、理论保密性和随机保密性等重要概念,并提出评价保密系统的5条标准,即保密度、密钥量、加密操作的复杂性、误差传播和消息扩展。这篇论文开创了用信息理论研究情报的新途径。
2.1.2 国内情报学研究的奠基性节点的分析
时间跨度最大的作为国内的情报学研究的奠基性文献。从图3中可以看出,第一篇奠基性文献是1936年Joon M在Language中发表的Book Review:George KZipfs The psychobiology of language,其次为V Bush于1945年写的As we may think[4],再次为1959年Pinkerton RL发表在Water Control and Land Use in Degonia and Fountain Bluff Drainage and Levee District上的Competitive Intelligence Watertown[6],对之后的竞争情报研究具有重要的作用。图3 国内情报学研究文献时间序列图谱
从图3中可以看出国内发表的时间跨度比较大的文献,第一篇为钱学森于1978年在文汇报上发表的《组织管理的技术——系统工程》,第二篇为1982年刘迅在情报科学上发表的《论图书馆学情报学基础理论研究动向》,第三篇为严怡民于1983年发表的《情报学概论》,第四篇奠基性文献为周文俊于1986年发表的《文献交流引论》,第五篇则是刘植惠于1986年发表在《情报学报》上的《情报学基础理论研究动向》。
通过以上对国内和国外的情报学奠基性文献的分析,国外奠基性文献和国内发表的文献比较,时间相差较大,国外最早的为1926年发表的,而国内则是1978年发表的;而中国情报学研究的引用最早的奠基性文献基本都是国外20世纪中叶的文献,可见中国在当时对情报学的研究并不是很深入;同时由于数据不够充分,结果会出现偏差,国际和国内情报学研究在引用奠基性文献上有相同也有不同,说明国内外情报学研究的侧重点不同。
2.2 高被引文献对比分析
2.2.1 国外高被引文献分析
如图4,每个节点代表一篇文献,引用次数比较高,即节点的“年轮”较大的为引用次数比较多的文献,而节点“年轮”的不同颜色的年环为该节点在不同年份的引文时间序列,年环的厚度与相应年份的引文数量成正比关系;节点间的连线代表文献间的引用,连线越粗共引次数越多,文献间的关系越紧密,研究问题越相近。被引频次排名前5的节点信息,如表3所示。
频次排第一的是C C Kuhlthau于1991年在Journal of The American Society for Information Science上发表的Inside the Search process:Information seeking from the users perspective[7],描述了从用户角度出发在搜索信息过程的本质,包括用户查阅信息和反馈。频次排第二的是DERVIN B在Annual review of information science and technology发表的Information needs and uses[8],该文献论述了信息需求及使用的相应概念、图4 国外文献共被引文献图谱
逻辑及技术等,对以后的最终用户、信息检索及技术支持具有一定的指导意义。排在第三的是第一篇是White HD于1998年在Journal of the American Society for Information Science发表的论文Visualizing a Discipline:An Author CO-Citationg Analysisi of Information Science[9],利用ACA技术对1972-1995年24年间的一些代表性文献进行作者共引分析,通过作者的共引分析的可视化结果来清晰地总结出在这24年间有关情报学的发展历程和结构特征。第四篇是Birger Hjorland和Hanne Albrechtsen于1995年在Journal of The American Society for Information Science发表的Toward a New Horizon in Information Science:Domain-Analysis[10],该文章对情报学利用知识图谱进行图谱分析提供了重要内容,并且通过数据揭示了知识图谱是如何影响情报学。最后是HARTER SP于1992年在Journal of the American Society for information science发表的Psychologic relevance and information science[11],这篇文献总结了Dan Sperber and Deirdre Wilson在1986指出的听众在日常生活中的对话和演讲时的语言的相关性,该理论被译为信息检索相关性的概念。这篇文章对之后的信息检索具有指导意义。
2.2.2 国内高被引文献分析图5 国内情报学研究文献的时区视图
表4 国内高被引文献
序号频次题 名作者时间1121现代情报学理论严怡民1996296情报学的进展与深化马费成1996359情报学若干问题辨析梁战平2003450情报学的新发展梁战平2001546情报学的学科地位问题岳剑波2000
从图5结合表4,可以发现引用次数最多的为严怡民教授在1996年发表的《现代情报学理论》[12]专著,作为情报学基础理论专著其内容既有对基础理论的详细阐述也有对当代情报学主要流派的学术观点、重要理论成果和新近成就的介绍,可以使读者把握情报学的研究态势。其次为马费成于1996年在《情报学报》发表的《情报学的进展与深化》[13],对情报学进行深刻的阐述,讨论了情报学的目标与基本任务,回顾了情报学的发展历程及主要成果。作者认为任何扩大情报学的研究对象和范围、偏离基本任务和目标的倾向都不利于情报学的学科发展,最后讨论了情报学深化和突破需要解决的关键问题。排在第三的是梁战平于2003年在《中国信息导报》上发表的《情报学若干问题辨析》[14],作者在文中阐述情报学的核心问题:信息和情报,将信息、知识、情报三者的关系加以解释,同时对情报学发展现状和相关学科进行描述。排在第四的是梁战平于2001年在《情报学报》中发表的《情报学的新发展》[15],作者将信息与社会、信息与服务、信息与学习之间的关系展开论述,并描述了情报学的发展前景及在中国的发展状况。最后一篇是岳剑波在2000年于《情报理论与实践》中的《情报学的学科地位问题》[16],作者认为在科技信息大发展时代,情报学面临着巨大的挑战,同时在内部发展中基本理论研究停滞不前,学科建设更加滞后,因而对情报学在各个学科的发展中的作用展开深刻论述,同时认为情报学的核心领域为信息计量学、信息查询、信息检索、信息管理和信息检索系统设计5部分组成。
对比国内外有关情报学的高被引文献可看出:高被引文献中,国外文献被引频次远远高于国内的,国外的被引频次前5的都大于300次,排名第一的竟达到1 112次,排在第五的文献也高达340次,而国内排在第一位的文献被引频次仅121次。据知识图谱中的显示,我国的很大一部分论文在低被引和零被引之间,并没有引起同行之间的关注,甚至于没有引起国内的同行关注。通过论文发文总量、发文的突现性及论文的被引频次之间的综合对比,我国论文发文的质量远远低于我国发文的总量及近几年发文的突现性上,其原因一方面是语言上障碍,造成国外同行的不关注,另一方面也是最主要的方面,国际情报学研究的平台较高,发表文献的质量自然要高。从发表时间来对比这些文献,国际高被引文献发表时间较早(1986年),而国内本身由于对情报学的研究起步比较晚,高被引文献发表的最早的时间是1996年,比国际情报学的高被引文献晚了整整10年。从内容来看,国际高被引文献研究的主要内容有:信息检索、信息需求、用户使用以及作者共引分析;国内的研究主要在:情报学研究各流派观点及相应的基本理论、情报学目前的研究状况及地位、情报学中核心问题理论。由此可见,国际更注重情报学的研究应用,而国内则注重情报学的学科发展和学科教育,仅有少量文献研究情报学的应用,可能由于这方面原因,国际情报学在其他学科的应用上比国内要早一些。
3 研究热点比较分析
研究热点是在某段时间研究该领域的学者对该领域中普遍关心的问题,发文数量也是较多的,是研究者关注的焦点。从文献计量学角度看待这一问题,认为被引频次最高的文献是该领域的研究热点,由于前文已经叙述过关于被引频次较高的文献,体现情报学研究的总体热点,以下通过每年的研究热点变迁,来进行国内外情报学研究对比。
本文采用文献的关键词或主题词在该年出现的频数来研究该年的研究热点,频数越高说明该年对该知识点研究教多。通过图谱得出的结果,本作者以100次作为阈值,大于或等于100次的词汇作为该年的研究热点,小于100次的则不作为研究热点。对如“研究”、“情报”、“分析”等词汇和地理位置名称的词汇虽然频数大于100次但不具备研究意义的剔除掉。
文献间的相互引用作为知识流动的一种重要方式,不仅扩大了知识溢出,而且也为知识增值提供了条件。利用知识图谱解决了怎样显示研究热点变迁的问题。为了显示出情报学在逐年间的主要研究的内容,主题词选择名词短语(noun phrase),至于其他的选项都一样,运行Cite Space 软件可以生成由共被引文献网络以及由施引文献主题词组成的共词网络,即得到一个由这两个网络共同构成的共被引和共词的混合网络图(如图6)。
3.1 国外情报学历年研究热点
时区视图是由一系列表示时区的条形区域组成,时区按时间顺序从左到右将节点进行排列,其中最右上角的为近几年发表的文献,反应近几年情报学研究的近况。同时时区视图可以看出每一时间段的论文情况,也可以分析逐年的情报学研究状况。因此在界面中,节点类型选择词组(terms)和关键字(keyword),词组来源选择标题(title)、摘要(abstract)、关键词(descriptor)和标示符(identifiers),词组类别选择“Noun Phrases”,至于剪切连线选择“最小生成树”。以每年为切分点,将1996-2012年氛围17个时段进行处理,运行Cite Space软件,得到有关情报学的直观性的分析图谱。
3.2 国内历年研究热点
由于CSSCI目前所收录的是1998-2011年的数据,不能直接得到2012年的数据,采用了在万方数据库、维普信息资源系统和CNKI等中文数据库进行检索,将其导出并转图6 国外情报学研究的时区视图
化格式,得到2012年的研究热点词汇,以同样的方法获得1996年和1997年的数据。
采用同样的方法,查看中国国内的历年研究热点:图8 国内情报学研究文献时区视图
4 对比分析国内外情报学历年研究热点
纵观看1996-2012年间,在1996-1998年国外主要是针对信息技术的研究,这段时间对信息服务、信息系统研究国外较中国研究较早;在1996-2000年这段时间数字图书馆和竞争情报的研究国外较中国研究较早;然而在1999-2004年这段时间对信息检索国内外几乎处于同一时期同时在2009-2010年这段时间对h指数的研究国内外几乎处于同一时期;在1999年以及2005-2012年,国内外几乎都在研究情报学的各种分析方法。可以看出,在情报学研究中,中国在前几年的研究稍落后于国外,然而在之后几乎处于同步状态。
5 结论与展望
5.1 结 论
通过对国内外有关情报学研究的发文量、文献突现性、高被引文献、研究热点的对比分析,大致可得到以下几方面的相关结论:
通过国内外文献的对比分析发现:美国和英国在情报学发文量上贡献量是最大的,中国的发文量上在国际上处于第七位,在情报学研究中从发文量上看中国的贡献也很大;然而在节点中心度上英国的贡献则位居第一,其次是美国、澳大利亚、丹麦等国,在中心度上,中国发表的文献中心度较低,相对来说发文质量不是很高;从发文突现性上,中国继巴西、西班牙之后位居第三。国内对情报学的研究虽然相对滞后,然而在最近几年由于信息时代下的经济飞速发展,加之国家对学科教育的重视,我国的情报学研究也不断的深入,在国际上地位有后起之秀的态势。
通过对高被引文献的对比分析发现:由于汉语不是国际通用语言的原因和国内情报学研究相对滞后,国内的被引频次远远低于国际水平,说明国内情报学研究的文献质量有待进一步提升。
通过国内外热点词汇图谱的对比分析发现:国内外有关情报学的研究热点有很大的相似性,如对信息检索、H指数、信息管理、数字图书馆等重要领域的研究,说明当前我国对情报学的研究方向和国际大体一致;同时也存在着各自独有的研究内容的倾向,国际更注重情报学的研究应用,国内则注重情报学的学科发展和学科教育,仅有少量文献研究情报学的应用。对于这种差别,国内在明确自己的研究特色的基础上,探求与国外还未曾涉及或深入研究的领域,以进一步推进情报学的研究。
5.2 论文存在的不足之处
(1)由于篇幅和精力有限,对情报学研究的数据不够全面,对其分析的也不尽全面,尽管是通过知识图谱进行直观的表现出来,但是基于本作者对其的理解而归纳的,还有部分隐含信息并未发掘,还待进一步学习以综合提炼。
(2)分析的数据源可以进一步的扩展以增加数据信息,以减少研究过程中的数据影响,使研究结果更具说服力。本文对数据的分析挖掘技术不够,同时视角不够高,在理论体系的构建过程可以更加完善。
5.3 展 望
以往的情报学多围绕理论研究或统计模型展开,得到的文字或数字的结果进行描述。然而随着科学技术的不断发展,情报学作为科学研究中的重要学科之一未来利用信息可视化的技术将会更加普遍,会将所得结果利用知识图谱直观的将其表达出来,能够让情报学初学者或非该领域的研究者在短期内了解其发展状态和研究的重要团体等相关信息。可以预见,未来科学的研究将不断推进对情报学分析工具的进一步发展及普及,知识图谱的分析方法将为情报学的学术研究和应用研究提供更大的发展空间。
参考文献
[1]赵蓉英,王菊.图书馆学知识图谱分析[J].中国图书馆学报,2011,3 7(2):40-50.
[2]Lotka AJ.The frequency distribution of scientific productivity Journal of Washington Academy Sciences,1926,16:317-323.
[3]Brad ford SC.Source of information on scientific subject[J].Engineering,1934,137(3550):85-86.
[4]Bush V.As we may think[J].The Atlantic Monthly,1945,176(1):101-108.
[5]Shannon C.Communication Theory of Secrecy Systems[J].Bell System Technical Journal,1949,28(4):656-715.
[6]Pinkerton RL.Competitive Intelligence Watertown[J].Water Control and Land Use in Degonia and Fountain Bluff Drainage and Levee District.Illinois:Southern Illinois University,1959.
[7]C C Kuhlthau.Inside the Search process:Information seeking from the users perspective[J].Journal of The American Society for Information Science,1991,42(5):361-371.
[8]DERVIN B.Information needs and uses[J].Annual review of information science and technology,1986,21(10):3-33.
[9]White HD.Visualizing a Discipline:An Author CO-Citationg Analysisi of Information Science[J].Journal of the American Society for Information Science,1998,49(4):327-355.
[10]Birger Hjorland,Hanne Albrechtsen.Toward a New Horizon in Information Science:Domain-Analysis[J].Journal of The American Society for Information Science,1995,46(6):400-425.
[11]HARTER SP.Psychologic relevance and information science[J].Journal of the American Society for information science,1992,43(9):602-615.
[12]严怡民.现代情报学理论[M].武汉:武汉大学出版社,1996.
[13]马费成.情报学的进展与深化[J].情报学报,1996,15(5):337-343.
[14]梁战平.情报学若干问题辨析[J].情报理论与实践,2003,26(3):193-198.
[15]梁战平.情报学的新发展[J].情报学报,2001,20(2):130-135.
[16]岳剑波.情报学的学科地位问题[J].情报理论与实践,2000,23(1):5-7,38.
(本文责任编辑:王 涓)