国内外图书情报领域本体研究热点分析比较
2018-05-15罗琳杨洋
罗琳 杨洋
〔摘 要〕[目的/意义]在图书情报领域,本体的研究一直受到众多学者所追捧。国内外在图情领域对本体的研究各有侧重,本文为了了解国内外图书情报领域本体研究的发展状况。[方法/过程]本文选取2012-2017年CNKI中文数据库、SCI外文数据库中图书情报领域的本体研究论文,对其进行科学计量以及可视化表示,对其研究热点关键词和热门作者进行计量分析,从研究方向、研究程度和研究新颖性3个方面进行对比分析。[结果/结论]得到国内外图书情报领域本体研究的对比分析结论,从而认识到国内外研究的差异,为后续研究者提供研究改进方向。
〔关键词〕图书情报;本体;可视化;Citespace;VOSviwer
DOI:10.3969/j.issn.1008-0821.2018.04.021
〔中图分类号〕TP182;G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2018)04-0142-07
〔Abstract〕[Purpose/Meaning]In the field of library and information science,many scholars research on ontology.There is different focus on ontology research in domestic and international.This paper aimed at getting the development situation of ontology of library and information science in domestic and international.[Method/Process]This paper selected some papers about ontology of library and information science from CNKI Chinese database and SCI foreign language database from 2012 to 2017.Using tools to scientific analysis and visual presentation.The paper focused on the hot key words and popular authors.It analyzed there aspects:research direction,research level and research novelty.[Results/Conclusion]It get ontology of Library and information science in domestic and international comparative analysis.Thus it recognized the differences of research in domestic and international.and provided research direction to the follow-up researchers.
〔Key words〕library and information science;ontology;visualization;Citespace;VOSviewer
本体起源于哲学概念,指的是事物的根本存在[1]。自从20世纪计算机科学的兴起和发展以来,计算机领域就利用本体来表示某一个领域的概念和术语,通常是一个词汇表。本体是通过RDF和OWL建立概念的类和属性,实例化类的对象为资源,表示出资源的属性定义和关联,并且利用逻辑推理规则对于各个資源之间的关系进行判断和描述。这样,一个领域的共有的概念构成了知识,从而形成了一个知识网络,可以被更好地共享和复用。在国内外图书情报领域当中,有相当一部分学者和研究机构在进行本体为主题的相关研究,图书情报领域是本体研究的重要学科领域。
在2010年之后,随着互联网技术的迅速发展,国内外的图情领域在本体研究的热点主题上具有鲜明的时代特征。但是由于国内外的学科发展水平不一致,同时受到本国科研发展大环境的影响,导致国内外在图书情报领域的本体研究当中的侧重点不同。本文旨在做国内外图书情报领域本体研究热点的分析对比研究。本文选取2012-2017年之间,国外SCI数据库和国内CNKI数据库内相关文献,利用信息计量学的相关方法,从论文的发布数量,关键词分布以及热门作者这几个方向进行统计分析。数据搜集归纳完毕之后,利用社会网络分析工具VOSviwer和陈超美博士的CitespaceⅡ来进行知识图谱的绘制,从而以可视化的方式来对国内外图书情报领域本体的研究热点进行分析比较,为我国相关研究者提供国内外数据参考。
1 数据来源与获取
国内文献选自CNKI,主题词为“本体”,分类选择期刊文献,文献分类目录限定在“图书情报与数字图书馆”,发表时间限定在2012-2017年,来源类别勾选核心期刊和CSSCI期刊,检索时间为2017年9月27日,经过文献的筛选以及剔除无效文献后,筛选出有效文献482条。
经过筛选后得出,2012-2017年在国内核心期刊上有关于图书情报领域本体研究的发文数量分别为2012年91篇、2013年99篇、2014年102篇、2015年110篇、2016年95篇、2017年78篇。如图1所示,2012-2015年呈逐年上升的趋势,2016年和2017年有关图书情报领域本体的研究文献又呈下降的趋势。
根据“马太效应”,发现图书情报领域本体的相关文献在《图书情报工作》有53篇、《情报科学》上有49篇、《情报理论与实践》38篇、《图书馆学研究》34篇、《情报杂志》33篇等,大部分都集中在这些影响因子高的期刊上。如表1所示,笔者从CNKI上获取近两年来的图书情报领域的期刊复合影响因子和综合影响因子,发现所获取的图书情报领域本体研究的论文集中与本领域期刊影响因子排名大抵一致。
表2是CNKI中所统计的图书情报领域发文机构的发文量,从发文的机构来看,以武汉大学、吉林大学和南京大学的发文量最多,居于前3的位置。这与这3所大学图情专业的教学实力相当。这说明在图书情报领域当中的本体研究,有着与图书情报领域其他研究热点的聚集效应,即研究图书情报领域的各热点之间互相关联。
国外文献选自SCI,主题词为“Ontology”,分类选择“Library and Information Science”,发表时间限定在2012-2017年,文档类型选择“Article”检索时间为2017年9月27日,经过文献的筛选以及剔除无效文献后,筛选出有效文献402条。
图2是2012-2017年SCI上图书情报本体领域的发文量统计。从图2中可知,2012年的发文量为54篇,2013年的发文量为57篇,2014年的发文量为62篇,2015年的发文量为78篇,2016年的发文量为94篇,2017年的发文量为57篇。从趋势上来讲,2012-2016年呈逐年上升趋势,2016年达到一个峰值,2017年的发文量减少。
表3是SCI中所统计的图书情报领域发文机构的发文量,从发文的机构来看,在本领域的研究有很明显的国家偏向特点。主要的发文机构集中在美国、印度、中国、英国和西班牙。中国的机构是武汉大学,因为本文是要做国内外的研究对比,因此将中国的机构在SCI上发文量剔除,再次经过筛选后的文献量为394篇。
2 国内图书情报领域本体研究热点
关键词反映了一个行业在一段时间内的研究方向和热点,关键词的聚类能够集中的反映热门内容,作者是一个学科领域发展的中坚力量,热门作者的研究方向往往反映了一个领域的研究热点。本文利用可视化软件对国内高频的热点关键词进行可视化分析,对热门的关键词类别进行聚类,并给出研究热点的代表性论文以及研究内容。同时,对作者的发文量以及H指数进行统计。
2.1 高频热点关键词分析
将CNKI下载的文献数据导入到Citespace软件中,年份选择2012-2017年,节点选择为关键词。阈值设置中,被引频次c(citation)、两篇文献的共被引频次cc(cocitation)和共被引系数ccv(cosinecoefficient)3个层次分别设置为(2,2,20)、(4,2,20)、(4,3,20)。运行之后得到节点56个,关联109个,聚类之后得到图3。
根据聚类图,我们得出排名前10的关键词,如表4所示,因为有出现次数相同的关键词出现,因此在表4中所列出的关键词根据一共有14个。除去本体这个核心概念,可以得到关联数据、领域本体、数字图书馆、本体构建等为2012-2017年期间图书情报领域本体研究的热点。从研究主题分类来看,有对本体自身相关的研究,其中有领域本体、本体集成、本体构建等,具体可以从以下几个方面来看:
1)在图书情报领域的研究热点中进行本体构建。本体作为一种工具,被用来描述相关领域词汇和术语的关系,学者们构建图书情报领域中一些热点研究问题的本体,是为了提供该研究领域的术语规范和概念框架。比如在图书情报中的信息检索方向,为了提高搜索的查全率和查准率,有学者建立基于推理引擎的JESS领域本体并建立系统进行检索,对相关的概念和术语进行抽取[2];有的研究者对模糊Petri网进行知识元语义集成,为了减少知识元的重复,构建领域知识元本体,从而实现知识元的集成[3];还有学者在特定的领域建立领域本体,中国运载火箭技术研究院研究发展中心的研究员旨在用本体思想建立军工企业的知识管理系统,并且提出知识和用户模型的表示方法[4]。
2)除了相关知识本体的构建,近年来国内学者对知识融合、知识表示、知识抽取、知识转换这些有关知识领域的一些概念进行了定义和阐释[5],在知识系统的创建上也有所建树。比如李智杰等指出知识组织新的突破点——知识组织系统自适应构建的概念[6],并举出几个例子对知识组织系统的构建技术进行总结;有对于知识库的构建,翟东升等以云计算技术为支撑,构建基于图形数据库的专利语义知识库,结果显示,这种基于云计算的知识库查询是普通查询速度的5.35倍[7]。
3)本体是语义网相关技术中对资源描述的一个重要形式,因此在图书情报领域本体的研究中,也有一些本体与语义网技术相结合的研究,近年来,有利用语义相关技术进行有关技术的改进以及语义标注的应用。为了实现数据集之间的语义互联并且促进领域隐性知识的发现,牟冬梅等对语义方面对数字资源进行语义聚合[8];王晓光等在《叙事型图像语义标注模型研究》中以敦煌壁画为对象,设计了一个关于叙事型图像语义标注的本体模型,针对该敦煌壁画进行语义标注[9];冯佳等通过领域本体的概念进行映射,基于语义距离在矩阵和聚类效果维度上对共词方法进行改进,结果是在矩阵维度和聚类效果上都有所提升[10]。
4)关联数据是一种成熟的资源描述方式,近五年来,图书情报领域的学者们也在将本体与关联数据进一步结合,对相关资源进行描述和推荐。欧石燕等提出一个面向关联数据数字图书馆资源描述框架,作者是构建本体层和关联数据层对图情领域的数据进行描述[11];邓盼盼等提出将网络叙词表的发展为关联数据的发布[12];田野等提出关联数据驱动的数字图书推荐模型,是利用本体和关联数据相关数据对读者提供个性化的图书推荐[13]。
吴志祥等在《2007-2011年我国图书情報领域本体研究论文计量分析》中数据分析显示[11],在2007-2011年终本体领域的关键词排名前3的为领域本体,语义网和数字图书馆。从此可知,经过近十年的发展,领域本体和数字图书馆在图书情报领域的本体研究当中仍然为重点。
2.2 热门作者影响力分析
国内图情领域的研究中坚力量主要集中在高校,较有影响力的高校有武汉大学、北京大学、南京大学、吉林大学、华中师范大学等。一般情况下,图情领域的热点主题研究作者都是来自于这些高校的老师或者硕博研究生。这些作者的研究方向以及研究合作关系往往反映了该主题的发展方向。因此,有必要对于国内图情领域中对于本体研究的作者的发文量、H指数等指标做统计。H指数是一个作者的H篇文章被引用了H次的一个统计量,可以充分反映该作者的研究水平和论文影响力。由于做图书情报领域本体的学者较为分散,因此本文就只截取了核心作者群体,国内图书情报领域在本体研究上形成了以武汉大学信息管理学院的邱均平教授,邱均平教授与其团队主要是图书情报领域本体进行科学计量研究,掌握其发展动向。还有吉林大学管理学院教授毕强为核心的作者群体,毕强教授与其团队主要是做语义网的相关以及知识组织相关研究。
表5列出了高发文作者的发文量与作者的H指数,可以看出邱均平教授、畢强教授、夏翠娟教授和司莉教授的H指数较高并且在本领域的发文量也排名靠前。这说明了图书情报领域本体的研究有着研究水平较强的科研人员,并且在做研究时有较强的团队合作性。
3 国外图书情报领域本体研究热点
3.1 高频热点关键词分析
国外的图书情报领域本体研究热点我们将从SCI上下载的文献数据导入到可视化工具VOSviewer中创建图谱,选择Binary Counting方法,最小共现主题选择10个。软件统计出有227个主题,为了增强图谱的可读性,只选择前60%相关性高的主题来进行可视化,因此一共选择了136个主题词。
如图5、图6分别是国外图书情报领域研究热点的叠加图和密度图。从图5中可由不同颜色得知该主题词汇在2012-2017年中由哪一年最先出现。可知越偏红的聚类点越新,其中“Linked Data”,“Social Media”等都是近几年在国外图书情报领域中出现的热点。这些主题词汇之间的连线表示词汇之间的共现性,连线越多的词汇表示在本领域中与其他词汇的共现性越高,也就是本领域词汇中心性最高的词。图6的密度图是模仿城市热岛效应,中心词汇就如同城市CBD聚集在图谱中心,其共现词汇就如同城市的街道以及市集一般聚集在中心词汇周围。
对关键词频进行统计之后,除去“Ontology”本体这个主题词汇。笔者发现国外对语义网的研究较多,与此同时将图情领域的本体研究与系统和网络结合起来,也有信息检索和知识相关的研究,最后还有本体建模这方面的研究。
从国外图书情报领域本体的高频关键词来看,除去本体这个核心词汇。国外的关键词更加的抽象和概念化,并且与计算机领域的结合性更强。这与国外研究偏重实用与技术有关。国外高频关键词可分为本体本身的概念和语义网的研究,信息系统、检索,知识领域的研究还有有关本体的建模等。例如:
1)有关本体概念和建模的一些研究。Chakrabarty建立数字图书馆的基于个人信息的推荐本体,本文提出了一个需要人工干预新的上下文对齐方法,它可以将多个本体映射到生成用户动态利益,其目标是设计和开发一个本体一致性模型,提供了更多的好处,使用它的在数字图书馆资源共享和搜索更具有优先级[15]。Sayogo建立基于检查过程的产品信息的本体模型,这篇文章介绍了本体的认证和检测开发,以支持产品的智能信息披露,由此产生的本体支持信息集成和标准化,从而通过综合不同数据源的信息来支持知识的发现和共享[16]。
2)在不同的领域中建立信息检索系统。Lee建立用户的音乐信息检索系统,作者调查了一般音乐用户的需求和行为是否随着时间的推移发生了显著的变化,提出了个人音乐收藏的访问和使用的转变,本体提供丰富的上下文信息的需求等一些新兴主题[17]。Lhadj建立基于概念的语言模型来对信息检索的准确性进行增强本文中,作者使用基于概念的语言建模方法来解决多义和同义词不匹配问题,该方法将来自外部资源的本体论概念与文档收集中经常发现的搭配联系起来,作者的模型在一个基于单词的模型和Markov随机场模型上取得了显著的改进[18]。
3)国外学者使用本体相关技术建立不同领域中的KOS,Lauruhn在他和团队的文章当中对现在的知识组织系统进行了改进,做成一个自动抽取的KOS[19]。Scharnhorst基于Web的数据集合与数据和可视化分析相结合建立有关UDC的知识地图[20]。Ko建立基于概念的术语本体,构建基于结构定义的术语本体系统和语义搜索评价,最后也做成了一个KOS[21]。Alajmi指出知识组织在教育领域的应用,本研究定量分析了KO课程描述,以确定这些LIS课程的课程模块[22]。Marcondes研究了在生物医学领域中有效的展示知识模型,本文作者提出了一种生物医学的学术电子文章的语义模型,可以克服传统平面记录格式的局限性[23]。
4)语义网概念的一些应用以及语义模型和系统的创建。Bertola在文中使用语义和社会网络到自然语言处理等一系列学科的方法和工具,提供了创建语义社会空间的构建模块,以根据情感本体论来组织艺术作品[24]。Calaresu在文中探索和概念化语义网,用来作为一个在图书馆和信息科学文献中被广泛提及的术语,他们对语义网的概念采用一种解释性、历史和概念性的方法以及它提出了一个简化的概念模型[25]。Hsu提出了一种基于MIF的语义——角色映射智能系统,由基于xml的文档存储库、搜索引擎、推理引擎和转换引擎组成,它提供不同的方法来呈现不同的元数据和知识表示[26]。
3.2 热门作者影响力分析
表6是SCI中2012-2017年图书情报领域本体研究的热门作者,其中来自以色列Bar-Ilan大学的Zhitomirsky-Geffet M教授的发文量为7篇,他主要是做网络用户的信息行为的本体研究;来自巴西Fed Fluminense大学的Marcondes CH教授的发文量为5篇,她主要是做语义模型相关研究。根据本文第2章所做国外机构发文量统计,本领域主要发文机构集中在美国,欧洲等国,但是下表7中前两位发文量最高的两位作者Zhitomirsky-Geffet和Marcondes分别来自以色列和巴西,这说明国外的高产作者不一定来自高产机构,高产机构中可能有多名研究学者在研究本方向,因此有着机构高产,作者分散的现象。
4 国内外图书情报领域本体研究热点比较
通过对国内外图书情报领域本体的热点关键词以及热门作者的可视化分析,发现国内外在此领域的研究还是有一些差异。下面笔者将从研究方向、新颖性和未来发展趋势来对比国内外的差异。
1)从研究方向,国内集中在图书情报领域本体的科学计量以及知识管理方面,形成了以武汉大学的邱均平教授和吉林大学的毕强教授为首的科研团队。国外集中在语义网研究以及信息检索方面,总的来说,国外的研究更加偏向于本体本身的技术层面,以及用本体来进行相关的应用实践,而国内的研究则偏重于以本体为研究背景来做研究,更多地运用在理论的研究层面。
2)从发展程度上来看,国外的Library and Information Science学科领域在20世纪90年代,当人工智能专家Neches将本体的概念引入到计算机科学领域之后,就已经开始了相关的研究,在近几年,国外的图情领域本体发展越来越向技术层面发展,特别是这段时间以来人工智能和深度学习的发展。国内的发展从总体上来说,21世纪初期为图书情报领域本体研究的萌芽与较快发展时期,2000-2005年为图情领域本体发展的萌芽期,主要研究内容为本体的基本概念与领域本体的构建;2006-2012年为图情领域本体研究的较快发展时期,这时期的主要研究内容是本体在知识管理中的应用以及本体建模。过近十年的发展,2012年至2017年,这5年来,图情领域的本体研究的研究热点还是领域本体和数字图书馆,在知识领域和关联数据方面科研的成果也较多。国外的研究在近五年来说,在信息检索与信息系统的研究较多,知识领域的建模也应用在其他领域,对语义网技术的概念提出了更加符合当今技术发展现状的解释。国外的研究从总体水平上来说,国外在图书情报领域本体的发展程度比国内要先进。
3)从研究内容新颖性上来看,国内的研究基本上还是本体研究的基础内容,比如本体构建,语义检索,知识管理等,有一点与实际生活相偏离。国外在图书情报领域对于本体的研究已经与用户信息行为,社交网络等时下流行的研究元素相结合,在研究内容的新颖性上优于国内的基础研究。
5 结 论
本文是对2012-2017年国内外图书情报领域本体研究的热点进行分析比较,对国内外的发文量进行统计,国内的统计了情报学领域的主要期刊的影响因子,国外的统计了机构发文量。利用可视化软件Citespace和VOSviewer对国内外热点关键词进行了可视化分析。对高发文的作者进行了发文量统计和h指数的统计。并且发现了在图书情报领域本体的研究上高发文作者与高发文机构之间没有必然联系,但是高发文作者的研究方向往往是研究热点。
在图书情报领域本体研究的热点对比上,在研究方向上,国内偏重于本体的理论研究,国外侧重于实践与应用。在发展程度上,国外发展早,研究内容比国内更先进。在研究问题的新颖性上来看,国外的研究热点更加与时俱进。
综上所述,国內在图书情报领域的本体研究虽然有优秀的高校和科研机构以及高水平的研究人员在做贡献,但是因为我国在此领域起步较晚,研究方向偏理论,在研究的深度和广度上较国外的研究来说较为欠缺。国内的本体各方向的领域较为分散,本体、语义网、知识等关键词放在一起研究的较少。而国外的研究则将诸多概念融合,从而形成新的理论和实践研究内容。国外图情领域的本体研究还涉及各个领域,如医学,化学,音美等方面,更加地注重本体的构建具体能做什么事情,而不只是局限于理论研究。今后我国研究者可注重将理论与实践相结合,将本体研究深入到我国的医药学,生物,化学或者工农业领域当中。
参考文献
[1]Grigoris A,Paul G et.语义网基础教程[M].北京:机械工业出版社,2014:5-6.
[2]夏立新,段菲菲,翟姗姗.基于本体的JESS推理实证研究[J].情报科学,2017,(5):106-110.
[3]王静,刘成山,秦春秀.一种基于模糊Petri网的知识元语义集成方法[J].情报理论与实践,2017,(9):140-144.
[4]贾倩,王彦静,杨玉堃.基于本体的统一知识模型表达及应用[J].情报理论与实践,2017,(9):125-128.
[5]刘晓娟,李广建,化柏林.知识融合:概念辨析与界说[J].图书情报工作,2016,(13):13-19.
[6]李智杰,曾文,乔晓东.知识组织系统构建技术研究[J].情报理论与实践,2017,(1):115-120.
[7]翟东升,刘鹤,张杰,等.基于图形数据库的专利语义知识库构建技术研究[J].现代图书情报技术,2016,(12):66-75.
[8]牟冬梅,王萍,张艳侠,等.VIVO在信息资源聚合中的应用研究[J].情报科学,2017,(3):57-62.
[9]徐雷,王晓光.叙事型图像语义标注模型研究[J].中国图书馆学报,2017,(5):70-83.
[10]冯佳,张云秋.基于LDA和本体的科学前沿识别与分析方法研究[J].情报理论与实践,2017,(8):49-54.
[11]欧石燕,唐振贵.面向图书馆关联数据的自动问答技术研究[J].中国图书馆学报,2015,(6):44-60.
[12]邓盼盼,常春.本体模式下网络叙词表的发展[J].情报理论与实践,2013,(4):99-101.
[13]田野,祝忠明.关联数据驱动的数字图书推荐模型[J].图书情报工作,2013,(17):34-38.
[14]吴志祥,王昊,姜霖.2007-2011年我国图书情报领域本体研究论文计量分析[J].情报科学,2015,(10):66-71.
[15]Chakrabarty A,Roy S.Personalised Information Recommender Using Framework for Ontology Alignment Among Digital Libraries[J].Desidoc Journal of Library & Information Technology,2016,(36):199-204.
[16]Sayogo DS,Ran WJ.Ontological Modeling of Certification and Inspection Process to Support Smart Disclosure of Product Information[J].International Journal of Public Administration in the Digital Age,2016,(3):86-108.
[17]Lee JH,Cho H.Users Music Information Needs and Behaviors:Design Implications for Music Information Retrieval Systems[J].Journal of the Association for Information Science and Technology,2016,(67):1301-1330.
[18]Lhadj LS,Boughanem M.Enhancing Information Retrieval Through Concept-Based Language Modeling and Semantic Smoothing[J].Journal of the Association for Information Science and Technology,2016,(67):2909-2927.
[19]Lauruhn M,Groth P.Sources of Change for Modern Knowledge Organization Systems[J].Knowledge Organization,2016,(43):622-629.
[20]Scharnhorst A,Smiraglia RP.Knowledge Maps of the UDC:Uses and Use Cases[J].Knowledge Organization,2016,(43):641-654.
[21]Ko YM,Song MS.Construction of the Structural Definition-Based Terminology Ontology System and Semantic Search Evaluation[J].Library Hi Tech,2016,(34):705-732.
[22]Alajmi B,Rehman SU.Knowledge Organization Trends in Library and Information Education:Assessment and Analysis[J].Education for Information,2016,(32):411-420.
[23]Marcondes CH,da Costa LC.A Model to Represent and Process Scientific Knowledge in Biomedical Articles with Semantic Web Technologies[J].Knowledge Organization,2016,(43):86-101.
[24]Bertola F,Patti,V.Ontology-Based Affective Models to Organize Artworks in the Social Semantic Web[J].Information Processing & Management,2016,(52):139-162.
[25]Calaresu M,Shiri A.Understanding Semantic Web:A Conceptual Model[J].Library Review,2015,(64):82-100.
[26]Hsu IC,Lee JY.Integrating Semantic Web Technologies with XML Schema Using Role-Mapping Annotations[J].Electronic Library,2014,(32):147-169.
(責任编辑:郭沫含)