APP下载

国内知识图谱文献计量分析★

2015-12-30梁晓婷,宋凌云,王晓雪

河北科技图苑 2015年4期
关键词:文献计量知识图谱综述

国内知识图谱文献计量分析★

梁晓婷1宋凌云1王晓雪2

(1.遵义医学院珠海校区图书馆广东 珠海519041;2.遵义医学院珠海校区档案室广东 珠海519041)

摘要:基于文献计量法对2005-2014年间知识图谱相关论文从发表年代、来源分布、基金来源、研究力量作了统计分析,同时对知识图谱的研究现状进行探讨,发现国内论文主要围绕知识图谱综述、方法与工具和实证研究等,实证研究主要用以分析学科进展、学科核心作者群、刊物的结构与研究热点、作者合著群体等。

关键词:知识图谱;构建工具;文献计量;综述

中图分类号:G250

基金项目:★本文系遵义医学院硕士启动项目“基于专利计量的专利可视化方法与应用研究”(FS-2013-21)研究成果之一。

收稿日期:(2015-04-27责任编辑:刘丽斌)

20世纪90年代以来,统计分析、引文分析和网络分析方法,结合计算机图形学、图像处理与可视化技术,在科学知识图谱和知识可视化方面得到迅猛发展。知识图谱能够以可视化的方法将知识直观、形象地展示出来,新世纪以来很快成为当代研究热点,引起各界关注,目前已成为科学计量学、科学学、管理学等领域的研究热点与实践探索趋势。知识图谱对图书情报学科具有更重要的意义。近年来,国内的高等院校及许多科研单位竞相开展知识图谱基础理论及应用研究,取得了丰硕的成果。在知识图谱迅猛发展的同时,必须看到研究中存在的一些问题。笔者利用文献计量统计了2005-2014年间我国知识图谱研究领域相关文献,试图通过回溯分析揭示该领域研究的发展轨迹、研究路线、学术成果及存在的相关问题,并对其发展进行展望。

1论文统计分析

笔者于2014年6月27日以“知识图谱”为检索词,在CNKI全文数据库进行题名检索,得到2005-2014年间相关文献540篇。文献来源于中国学术网络出版总库、特色期刊、博硕学位论文、中国重要会议论文、国际会议全文数据库。

1.1论文发表年代分析

笔者选取的540篇论文的具体年代分布见表1。统计表明,论文年度数量分布呈现出明显的递增趋势和阶段性特征,可将国内知识图谱研究划分为三个阶段:①初始阶段(2005-2007年):此阶段国内知识图谱初露端倪,相关研究论文不多,其中2005年陈悦发表的《悄然兴起的科学知识图谱》正式将知识图谱引入国内;②快速增长阶段(2007-2012年):此阶段研究论文数量快速增加,2012年文献数量突破100,说明大量研究人员加入知识图谱研究队伍,并一直保持高研究热度,进入了研究热点时期;③逐步成熟阶段(2012-2014年):2012-2013年文献增长速度放缓,表明研究已逐步趋于成熟。2014年数据只统计到6月,同时考虑到文献的滞后性,可预测2014年文献数量将继续稳定增长。

表1 论文发表年统计分析

1.2论文来源分布分析

从表2看出学术期刊发文处于绝对的主导地位,硕博论文也占了一定比例,说明知识图谱研究受到了硕博研究生的高度重视,已成为硕博毕业论文的热门选题。

为进一步掌握知识图谱研究领域的核心期刊群,统计发现540篇文献刊登在225种期刊上,其中发文量在4篇以上(含4篇)的期刊有25种(见表3),占总刊数的11.1%,共收录论文225篇,占论文总数的41.7%,这25种期刊可视为知识图谱领域的核心期刊。图书情报类期刊是研究知识图谱的重要基地,发文前三位的《情报杂志》、《现代情报》、《情报科学》,发文量分别为31篇、29篇、26篇。同时结合论文学科来源,图书情报学科发表了167篇,是知识图谱研究的主力学科,围绕知识图谱定义、发展历程、构建方法、工具以及图情领域相关主题应用研究;科学研究管理学科围绕科学知识图谱方法在科学学领域的应用;其他计算机、体育、教育、新闻、经济、行政、经济贸易等学科,主要利用知识图谱构建本领域的图谱进行分析。

表2 论文来源分布表

表3 发文量4篇以上的期刊

1.3论文基金来源统计

根据表4统计分析,这540篇文献共获得196项目支持,涉及国家级、省级、市级等各个层次,表明国家及地方都非常重视知识图谱研究。其中,国家级基金项目127项,说明知识图谱研究领域的基金支持层次非常高,属于国家重点支持的研究领域。

表4 基金数目统计

1.4研究力量统计分析

统计显示,作者总人数为703人,而其中发表7篇以上的共有13人(包括第二作者),占总人数的1.8%,共发文121篇,占发文总量的22.4%(见表5)。这说明知识图谱研究已初步形成了该领域的核心作者群。知识图谱研究人员主要来自大连理工大学、武汉大学、南京大学等,大连理工形成了以刘则渊为中心,包括姜春林、侯海燕、许振亮等的核心人员;通过分析二级单位发现不少学校的信息管理学院、公共管理学院、经管学院、信息研究中心、图书馆、管理学院等都有涉及。除了这些主流研究机构,还包括不少院校的体育、外语、社科等学院。

表5 核心作者分布表

表6 作者单位统计

2国内知识图谱研究现状

2.1知识图谱综述研究

通过综述能快速了解领域的发展脉络、研究现状,陈悦最早将科学知识图谱引入国内[1],介绍了科学知识图谱发展的历程[2]。秦长江从构建知识图谱的理论、关键技术、相关软件出发,总结知识图谱的发展历史[3]。廖胜姣、梁秀娟、任红娟、杨国立、杨思洛、汤建民、胡泽文、魏瑞斌、赵丹群、孙雨生等人都分别进行了知识图谱的综述研究。通过综述能清晰地看到知识图谱的整个发展过程:从最初引入国内介绍其基本概况到各领域各主题应用,再到问题总结,可以推测知识图谱在解决引入过程中的“水土不服”问题后会得到更大的应用。

2.2知识图谱构建方法与工具研究

用于绘制知识图谱的方法很多,常用的有引文分析、共现分析、多元统计分析、社会网络分析、可视化分析方法等。知识图谱研究通常要对大量数据进行处理,选择合适的数据处理工具非常重要。这些研究工具的功能有所不同,如Wordsmith、Bibexcel、Bicomb主要用于前期的数据处理,将数据转换为其他软件可处理的格式;CiteSpace、SPSS、Pajek、Ucinet、Netdraw可对特定格式的数据做深层次处理,这两类工具通常结合使用。从相关文献看,研究工具的选择与研究方法、数据源有较强的关联性。在采用共词、聚类和因子分析时,多选择SPSS;在采用社会网络分析时,选择Ucinet和Pajek;在对WOS的引文数据分析时多用CiteSpace。由于绘制知识图谱的方法有多种,因而相关的软件也有多种。

2.3知识图谱实证研究

知识图谱文献大多是实证研究,经分析发现主要用以:(1)分析学科的知识基础、研究进展;(2)分析刊物的结构及特点;(3)分析作者合著情况;(4)国内外比较研究。

2.3.1分析学科的知识基础、研究进展

摘要分析这540篇文献的标题和,发现知识图谱已应用到各个学科领域,用以跟踪领域发展趋势,揭示研究热点,探测研究前沿。通过对文献标题和摘要的提取能够发现研究人员利用知识图谱几乎对各个学科的大多数主题进行了图谱构建,可以表明知识图谱自引入国内后研究者将知识图谱与各学科研究主题结合以可视化的方式直观地展现学科的脉络,或是回顾了演进历程,或是预测了研究前沿、研究热点。

2.3.2分析刊物的结构及特点

李小红绘制了《清华大学教育研究》的研究领域分布图谱[4]。赵玉鹏利用美国《科学哲学》期刊分析了美国科学哲学领域的最新研究前沿和热点问题[5]。姜春林对《情报科学》利用知识图谱全景扫描了该刊的知识结构和知识特征[6]。研究者利用知识图谱对某一刊物或某一领域的刊物进行图谱分析,了解各刊物的刊载特点、知识结构和演化途径等,同时帮助研究者进行科研选题。

2.3.3分析作者合著情况

有学术影响力的作者群体状况集中体现了学科科研实践的趋势,是某一学科领域科研活动的缩影之一,通过对作者群体进行研究,可以把握学科科研活动的深度和广度。余丰民以《图书情报工作》为例,绘制分析了该刊学术论文的作者合著网络、机构合著网络及区域合著网络的知识图谱[7]。殷辉以我国CSSCI和EI物流学核心期刊论文为研究对象,展示了近五年来国内物流学领域的合作网络[8]。侯剑华对《Scientometrics》文献的作者进行共被引网络分析,展示了国际科学计量学研究领域的核心作者和主流方向[9]。通过知识图谱分析作者合著关系,能够了解领域的核心团队及其研究方向,把握领域中各团队的重要性、位置关系。

2.3.4国内外比较研究

马丽娜以SCIE和CNKI收录的“企业知识共享”为主题的文献作为数据来源,对比国内的发文量和高被引文献情况、研究热点、前沿及发展趋势[10]。向剑勤通过绘制国内外图书情报学研究主题知识图谱,从学科结构组成、分支主题之间关系与最具影响的学术群体等三个方面对国内外图书情报学进行比较分析[11]。宋丁伟分别以中美情报学领域的代表性期刊《情报学报》和《美国信息科学和技术学会杂志》为例,从文献共被引和关键词共现两个视角进行比较分析[12]。研究人员利用知识图谱或进行同一主题、同一学科的国内外比较,或不同刊物的国内外比较,以期为国内研究人员提供参考。

3总结

在对知识图谱如火如荼研究之时,必须看到研究中存在的问题:国内学者主要利用已有的工具、方法对某个学科或主题进行应用研究,而对知识图谱理论研究不够深入,没有形成系统清晰的理论基础,未来应着重以下方面的研究:(1)丰富基础理论知识。从国内已有的知识图谱资料来看,网络文献资料相对较多,较为零散。相关教材不多,主要来自大连理工大学刘则渊研究团队整理的论文集。学术论文数量相对较多,主要分为两类:一类是综述性论文,围绕知识图谱的起源、概念、应用等进行综述。二是实证研究,利用知识图谱构建工具进行各自领域实证研究。基础理论研究知识相对不足,缺乏创新性研究。(2)知识图谱工具、方法开发研究。几乎所有的知识图谱构建

方法、工具都是针对外文数据库开发,对中文数据库支持有限,应加强国内数据库的软件接口开发。(3)统一数据格式。数据质量直接关系到最终分析结果的真实性、可靠性、有效性。国外数据库相对国内数据库收录较为严格、可靠,数据格式较为标准全面,兼容性强,用于知识图谱分析较为容易、可靠,国内数据库还有待提高。(4)研究的规范化问题。不同数据、研究方法和参数设置都会产生不同的结果,以及对方法、知识单元的选择都会结果产生影响。

参考文献

[1]陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,(2):149-154.

[2]陈悦,刘则渊,陈劲,等.科学知识图谱的发展历程[J].科学学研究,2008,(3):449-460.

[3]秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,27(1):30-37,96.

[4]李小红.1998-2010年《清华大学教育研究》研究领域演进及其分布的知识图谱分析[J].科技与出版,2014,(1):11-13.

[5]赵玉鹏,刘则渊,许振亮.基于知识图谱的美国《科学哲学》研究前沿和热点探讨[J].科学学研究,2008,(6):1168-1173.

[6]姜春林,李江波,杜维滨.期刊文献计量与知识图谱对《情报科学》的解读[J].情报科学,2009,27(2):166-174.

[7]余丰民,汤江明.基于可视化知识图谱的合著网络研究——以期刊为研究对象[J].图书情报工作,2011,55(12):109-113.

[8]殷辉.基于科学知识图谱的我国物流学合作网络分析[J].现代管理科学,2011,(6):56-58.

[9]侯剑华,姜中才.国际科学计量学研究代表人物的科学知识图谱——基于《Scientometrics》期刊的作者共被引网络分析[J].现代情报,2012,32(11):105-109.

[10]马丽娜,赵蓉英,王敏.基于知识图谱的国内外企业知识共享比较研究[J].图书情报工作,2011,55(10):20-24.

[11]向剑勤,赵蓉英.国内外图书情报学研究主题的知识图谱比较研究[J].情报杂志,2014,(2):86-94.

[12]宋丁伟,刘桂锋.中美科技期刊的知识图谱比较分析[J].科技管理研究,2014,(6):147-152.

猜你喜欢

文献计量知识图谱综述
SEBS改性沥青综述
NBA新赛季综述
我国医学数字图书馆研究的文献计量分析
国内外智库研究态势知识图谱对比分析
国内外政府信息公开研究的脉络、流派与趋势
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的产业集群创新绩效可视化分析
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展