APP下载

国内机构知识库研究现状分析——基于知识图谱的视角

2015-04-11冯伟伟秦长江

现代情报 2015年6期
关键词:知识库图谱期刊

冯伟伟 秦长江

(河南科技大学图书馆,河南?洛阳 471023)

国内机构知识库研究现状分析——基于知识图谱的视角

冯伟伟秦长江

(河南科技大学图书馆,河南?洛阳 471023)

〔摘要〕文章对中国知网近10年机构知识库相关文献进行定量分析,采用Ucinet、Pajek等可视化软件,结合社会网络分析等方法,绘制了作者、机构、期刊与关键词等网络知识图谱。基于知识图谱视角,更为直观地分析了国内机构知识库研究现状,较为准确地揭示了国内研究热点,对国内外机构知识库的研究现状和研究热点进行了对比和分析。

〔关键词〕机构知识库;知识图谱;IR 在一篇文章中所占的篇幅虽然不大,但却是文章核心与精髓,是文章主题的高度概括和凝练,因此对文章的关键词进行分析,频次高的关键词常被用来确定一个研究领域的热点问题[14]。文章将聚类分析法、多维尺度分析法与社会网络分析法3种方法相结合,对国内机构知识库的关键词进行分析,以期能够更加完整、系统地揭示该领域的发展规律与研究热点。

机构知识库(Institutional Repository,简称IR)又名“机构库”、“机构仓储”、“机构典藏”,于20世纪90年代伴随着开放存取运动应运而生,是学术研究成果的历史沉淀、文化传承,也是学术研究者的风采展现。它以网络及相关技术为依托,以开放和互操作性为原则,对本机构成员的各种成果进行数字化收集、整理、组织和保存,从而实现知识交流与知识共享。

近几年来,国内有关机构知识库的理论和实践研究日趋增加,为了更好地了解该领域的研究现状与发展趋势,有必要对其进行归纳总结。目前有关机构知识库研究的文献已有不少,但多数局限于传统的科学计量学方法,本文拟利用知识图谱对该领域相关文献进行定量分析,以期较为直观、明确地显示出机构知识库研究的状况。其中知识图谱是用可视化的图形显示科学发展的进程和结构关系的一种方法,主要是将应用数学、计算机科学、科学学等学科的理论和方法与科学计量学中的研究方法相结合[1],用可视化技术对知识资源及其载体进行描述,进而挖掘、分析和显示它们之间的相互联系。

工欲善其事,必先利其器,科学选择文献分析软件,可以达到事半功倍的效果。文章采用较为简单实用的SATI文献题录分析工具[2],在对相关数据进行统计的基础上,借助于Ucinet、Pajek和SPSS等软件生成可视化结果,最后结合知识图谱的常用方法对已有的研究进行梳理分析,力求揭示国内机构知识库研究热点与学科发展规律。

1 研究现状分析

本文以“中国知网——期刊数据库”作为来源数据库,以“篇名”为检索字段,“机构知识库”作为检索点,在2004-2013年时间段内检索到359篇文献。首先将这些文献以EndNote格式输出并导入SATI软件进行去重与格式的转换,得到相关度较高的文献348篇,然后对其进行字段抽取、词频统计和矩阵的构建。在此基础上,利用Ucinet、Pajek和SPSS软件形成直观分析图,从而对国内机构知识库进行可视化研究。

1.1时间分布

学术论文发表的时间和数量是衡量某研究领域发展状况的重要指标。对上述数据进行“年份”字段抽取,频次统计,并绘制相应的增长曲线,以评价知识库研究领域所处的阶段,预测其发展趋势。如图1所示,其相关度较高的国内机构知识库的研究论文在2005年只有1篇,故2005年以前属于引入阶段;2006年、2007年开始缓慢发展,步入探索阶段;2008年以后发展迅速,掀起了机构知识库的研究浪潮,其中2009年达到顶峰。总体来看,机构知识库的研究呈逐年增长的趋势,这充分说明国内对该问题逐渐重视,其发展前景良好。

图1 论文年代分布

1.2主要研究团队——机构与作者分析

利用SATI的“作者”与“地址”字段抽取、频次统计功能,可以分析机构知识库领域的主要研究力量、机构间合作情况以及高产量作者。设定SATI软件Rows/Cols选项知识单元数分别为40,得出相应的作者共现矩阵和机构频次矩阵(机构逐年增长矩阵),为了得到更精准的数据,必须先对机构频次矩阵进行整理和规范,然后分别将两个矩阵依次导入Ucinet和Pajek之后生成作者与机构网络知识图谱,如图2、图3所示。图中不同大小的圆环代表发文量,圆环大小与数量成正比,是该研究领域的关键节点;连接圆环的线条表示节点与节点之间的联系,线条粗细与其联系紧密程度成正比[3]。

图2 作者网络知识图谱

图2中边线粗细代表合作频次,结点大小表示发文量。图中可以很直观形象地看出机构知识库研究领域的高产量作者。在2004-2013年期间,祝忠明、马建霞发文量相对来说最多,是国内研究该领域的佼佼者。其次邓君、王颖洁也是该领域的中坚力量。另外,从连线以及连线粗细可以看出每位学者与其他各位学者的关系和联系强度。以该研究领域的高产作者为代表,祝忠明分别与马建霞、张冬荣、卢利农、姚晓娜、张旺强等为同一研究领域,且关系紧密,合作频次较高;马建霞分别与祝忠明、曾苏、卢利农、刘巍等作者研究同一热点,其间与祝忠明、曾苏合作频次较高,与其他几位作者合作频次较低;而邓君、王颖洁个人发文量较多,少有合作者。

图3 机构网络知识图谱

图3是根据机构逐年增长矩阵构建的知识图谱,显示的是年份与机构年发文量的关系。结点大小表示机构总发文量,边线粗细代表该年度发文量。从图中直观地看出,中国科学院国家科学图书馆兰州分馆在该时间段内总发文量最多,我国已经形成了以中国科学院国家科学图书馆、兰州分馆等为主体的核心研究团队。另外佳木斯大学图书馆、西安外国语大学图书馆、曲靖师范学院图书馆等机构也是推动机构知识库领域发展的中坚力量。从连线的密集度与粗细程度可以看出,2009年以后各个机构的发文量越来越多,其中佳木斯大学图书馆在2009年发文量最多,也是该时间段内年发文量最多的团体。

同时,对各个作者发表的文献进一步分析发现,祝忠明、马建霞为中科院国家图书馆兰州分馆的主要代表人物,其机构主要研究热点为知识库联盟[4]、知识库建设和服务[5-6]、开源软件的扩展[7]与相关技术[8]等方面;邓君是吉林大学管理学院的代表人物,研究热点主要集中于模式构建[9]、技术成本[10]等领域;而王颖洁为西安外国语大学图书馆的代表人物,其研究主要集中在国外文献研究[11]、区域性知识库联盟[12]与知识库相关软件对比[13]等方面。

1.3期刊分布分析

对论文发表的期刊来源进行分析不仅有利于了解该主题的分布特点,而且能够确定该学科的核心期刊群。设定SATI软件Rows/Cols选项知识单元数为30,得出期刊频次矩阵(期刊逐年增长矩阵),将其依次导入Ucinet和Pajek生成期刊网络知识图谱,如图4所示。

同机构网络知识图谱一样,该图显示的是年份与期刊年发文量之间的关系。结点大小表示该时间段内期刊的总发文量,边线粗细代表期刊年发文量。图中清晰地看出各个期刊历年来的排名情况。《现代情报》、《图书情报工作》与《情报杂志》3种期刊总发文量最多,且《图书情报工作》与《情报杂志》为核心期刊,《现代情报》为CSSCI扩展板期刊,3种期刊的学术价值和影响力都较高,说明国内有关机构知识库的研究水准较高;根据连线的密集度与粗细程度发现,2009年属于高产年份,《现代情报》、《情报杂志》、《情报科学》、《图书情报工作》与《情报探索》五种期刊发文较多,且核心期刊就有3种;另外图书情报类的期刊较多。由此可见,机构知识库主要是我国图书情报学的研究领域,且多为核心期刊,发表文献数量之多,充分说明国内机构知识库研究质量之高,具有较高的文献参考价值。

图4 期刊网络知识图谱

1.4研究热点——关键词分析

1.4.1聚类分析与多维尺度分析

人以类聚,物以群分。聚类分析就是通过聚类算法将没有分类的信息资料按其相似程度归类的过程,用于揭示某一学科领域的研究主体结构[15]。首先对SATI自动生成的数据结果进行关键词抽取,词频统计,然后设定Rows/Cols选项知识单元数为30,得出国内机构知识库高频关键词的共现相异矩阵。

另外为了得到更精准的数据必须对30个高频关键词进行归并与整理,其中将关键词“开放存取”与“开放获取”归并为“开放存取”;“高校图书馆”、“高校”、“图书馆”与“大学图书馆”归并为“高校图书馆”;“知识共享”与“资源共享”归并为“知识共享”;“内容建设”与“资源建设”归并为“内容建设”;“版权”与“著作权”归并为“版权”,整理之后得到关键词21个,在此基础上对之前生成的矩阵进行规范化处理。最后将矩阵导入Ucinet进行层次聚类分析,得到如图5所示的国内机构知识库高频关键词聚类树状图。通过树状图可以非常直观地看出整个聚类过程和结果。

而多维尺度分析是基于研究现象之间的相似性或距离,将研究对象在一个低维(一般为二维)的空间形象地表现出来,进行内含分析的一种图示法。在多维尺度图谱中,词的位置显示了词与词之间的相似性,有高度相似性的词聚集在一起,形成一个学科研究的类别,越在中间的词表明与它有联系的词越多,在学科里的位置也就越核心;反之,则越外围[16]。与聚类树状图相比,多维尺度图谱利用平面距离展示出词间亲疏关系,能够更容易判断出某研究领域在学科内的位置。将规范后的相异矩阵导入SPSS进行多维尺度分析,得到如图6所示的多维尺度图谱。

将聚类分析与多维尺度分析结合后发现,可将国内机构知识库的研究大致分为三大主题:第一,与服务相关的研究主题,包括关键词开放存取、版权、知识共享、学术交流;第二,与资源建设相关的研究主题,包括关键词机构知识库、IR、高校图书馆、机构库、学术机构、知识库建设、内容建设、综述、数字图书馆;第三,与技术相关的研究主题,包括关键词自存储、DSpace、策略、机构知识库联盟、知识管理、构建、问题、质量控制。另外,聚类图中词频数最高的、多维尺度图中位置最集中的关键词“机构知识库”、“开放存取”、“高校图书馆”、“DSpace”等是目前该领域研究的核心。

图5 关键词聚类树状图

图6 关键词多维尺度图谱

1.4.2社会网络分析

同研究团队、期刊分布分析一样,设定Rows/Cols选项知识单元数为30,得出国内机构知识库高频关键词的共现相似矩阵,同上述情况一样,对关键词与相似矩阵进行归并整理后,将矩阵依次导入Ucinet和Pajek得到关键词网络知识图谱,如图7所示,将关键词设为结点,结点位置越居中越核心,关键词之间的共现关系被视为结点间的连线,连线越粗关系越紧密。

毫无疑问,如图7所示,“机构知识库”、“开放存取”、“高校图书馆”、“IR”、“DSpace”等处于该领域高频关键词网络的中心位置,是网络中最重要的结点;其次,从连线的粗细可以看出各个关键词之间的紧密联系,与上文聚类树状图和多维尺度图谱遥相呼应。

根据以上3张方法绘制的知识图谱,对国内机构知识库的研究现状进行研究热点分析。

(1)与服务相关的研究主题

如上文所提到的中科院国家图书馆兰州分馆的高产作者祝忠明的《中国科学院机构知识库建设与推广服务》机构知识库建设是一项系统工程,涉及技术、服务、法律等复杂问题的处理与对策方案。文章围绕中国科学院机构知识库建设战略发展目标制定的系列推广与服务工作机制,对推广与服务实践中的制度、方案与工作办法进行说明[5]。另外,中科院国家图书馆兰州分馆马建霞的《机构知识库内容建设与服务设计的趋势》通过对机构知识库发展现状以及存在问题的分析,结合其目标定位与利益相关方的需求,对其未来发展趋势提出以下建议:如强制缴存政策、灵活访问策略、简化的缴存步骤、知识管理与能力分析、可信的长期保存服务等[6]。两篇文章对机构知识库开放获取的过程及后续情况作了更深分析,对机构知识库的构建、管理与可持续发展有很大借鉴性。

图7 关键词网络知识图谱

(2)与资源建设相关的研究主题。如湘潭大学图书馆肖可以的《高校图书馆机构知识库服务团队创建研究》对国内外机构知识库发展规模进行分析研究,提出构建高校图书馆机构知识库服务团队,并分析其模型,建议组建激励协调小组、质量控制小组[17];北京大学图书馆聂华的《CALIS机构知识库:建设与推广、反思与展望》针对CALIS三期“机构知识库建设及推广项目”,从组织实施工作、技术路线与系统开发等方面介绍其建设情况,旨在揭示和推广我国高校的学术资源和学术成果,帮助高校发布、共享和保护已形成的数字化资源,通过开放获取增加其附加值以促进学术交流[18]。目前这些文章以为广大用户提供更多有利的学术资源为主要目标,都集中于机构知识库的构建,对机构知识未来发展提供了理论依据。

(3)与技术相关的研究主题

机构知识库的研究重点还集中在其相关技术——建设机构知识库采用的软件包的研究,因为各软件系统设计的原则和出发点以及目标有所差别,各机构库单位或联盟会因自身收录资料内容的范围和管理方面的特点而选取较为适合的软件系统[19]。如西安外国语大学图书馆王颖洁的《机构知识库建库软件DSpace、Eprints、Fedora的比较分析》从软件的系统概述和对比分析两大方面对DSpace、Eprints、Fedora进行比较,得出3个软件各具特色,功能丰富。各个机构可根据其自身需求和实际条件,选择适合的软件作为建库平台[13];祝忠明的《机构知识库开源软件DSpace的扩展开发与应用》对以DSpace原型系统为基础构建CAS-IR平台所进行的主要扩展和优化进行概述,主要涉及内容提交和编辑流程、传播和服务等方面的优化、改进或扩展,并对CAS-IR应用部署现状、扩展开发的经验进行简要总结[7]。这些文章针对机构知识库建设所需要的系统平台搭建技术以及功能设计等方面进行探讨,以期更好地为广大用户群服务。

从图7中还可以看出,随着机构知识库在国内的不断发展,有关知识库的“版权”、“著作权”等关键词也是近几年来的研究热点,如中国农业大学图书馆李晨英的《机构知识库收录期刊论文涉及著作权问题的解决途径探讨》[20]以及北京师范大学管理学院乔欢、姜颖的《机构知识库软件和内容资源版权问题剖析》[21]等文献分别对机构知识库资源版权现状、著作权问题进行分析,并针对常见问题提出相对解决方案。

从以上分析可以看出IR软件和系统(如DSpace)、IR构建中遇到的自存储、内容建设、版权、机构知识库联盟等问题是目前该领域的研究热点及难点。随着国内IR的构建与发展,这些问题仍然是不可避免的,因此,探索新的IR技术与构建模式,将机构知识库建设与学科服务紧密结合是未来国内机构知识库研究的重点。

2 国内外机构知识库研究现状对比

国外对IR的研究于2002年正式开始,2004年以后发展迅速,2011年步入稳定发展时期。本文以Web of Science数据库作为来源数据库,以“Institutional Repository”为标题词,在2004-2013年时间段内进行文献检索,经过查重得到相关度较高的文献227篇。对其分析可将其研究内容分为三类:第一,概述性的研究,主要涉及机构知识库的基本理论[22]与效果评价[23]等;第二,与图书馆机构知识库的建设相关的研究[24];第三,与机构知识库建设的技术相关的研究,如元数据[25]、DSpace[26]与Digitool[27]等领域。

经对比分析,国内外机构知识库的研究内容都涉及IR的基本理论、IR的构建以及构建过程中需要的相关技术等内容。同时,国内外研究又有一定的区别。国外的理论基础较为扎实,研究内容广泛且有深度,如对DSpace以外的其他系统(如Digitool)的分析;对Web语义应用程序进行的讨论;在IR的评价与完善中,真正做到了由信息管理向知识管理的转变[28]。

与国外相比,我国IR起步较晚,其基本问题研究成果较多,建设中涉及的关键问题研究较少;研究内容丰富,深度却不够,目前还处于发展甚至起步阶段。但仍对未来发展奠定了深厚的理论基础,具有很高的参考价值。忆往昔峥嵘岁月稠,看未来任重而道远。机构知识库研究尚未形成自身的特点与优势,未来发展仍需努力。

参考文献

[1]陈丹丹.基于知识图谱的高校机构知识库构建及其应用研究[D].安徽:安徽财经大学,2012.

[2]刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现——以中外图书情报学为例[J].信息资源管理学报,2012,(1):50-58.

[3]宗乾进,沈洪洲,袁勤俭.2009年中国情报学研究热点的知识图谱分析[J].情报杂志,2011,30(5):33-37.

[4]曾苏,马建霞,祝忠明.机构知识库联盟发展现状及关键问题分析[J].图书情报工作,2009,(24):106-110.

[5]张冬荣,祝忠明,李麟,等.中国科学院机构知识库建设推广与服务[J].图书情报工作,2013,(1):20-25.

[6]马建霞.机构知识库内容建设与服务设计的趋势[J].理论与探索,2010,33(9):23-27,41.

[7]祝忠明,马建霞,卢利农,等.机构知识库开源软件DSpace的扩展开发与应用[J].现代图书情报技术,2009,(181/182):11-17.

[8]刘巍,祝忠明,张旺强,等.机构知识库个性化知识资产统计服务的设计与实现研究[J].现代图书情报技术,2012,(4):17-21.

[9]邓君.机构知识库建设模式研究[J].图书情报工作,2010,(6):112-116.

[10]邓君,邢宝山.机构知识库建设的技术成本因素研究[J].情报科学,2010,(7):1094-1099.

[11]王颖洁.国外文献对机构知识库的研究综述[J].情报资料工作,2008,(5):36-39.

[12]王颖洁.我国区域性机构知识库联盟构建研究[J].情报杂志,2011,(11):183-186.

[13]王颖洁.机构知识库建库软件DSpace、Eprints、Fedora的比较分析[J].图书馆学刊,2008,(4):133-137.

[14]奉国和,吴敬学.国内机构知识库研究文献的可视化分析[J].图书情报工作,2011,55(22):95-100.

[15]罗应婷,杨钰娟.SPSS统计分析从基础到实践(第2版)[M].北京:电子工业出版社,2010.

[16]杨颖,崔雷.基于共词分析的学科机构可视化表达方法的探讨[J].现代情报,2011,31(1):91-96.

[17]肖可以.高校图书馆机构知识库服务团队创建研究[J].图书馆杂志,2011,30(9):49-51.

[18]聂华,韦成府,崔海媛.CALIS机构知识库:建设与推广、反思与展望[J].中国图书馆学报,2013,(2):46-52.

[19]罗亮.国内机构知识库研究综述[J].经济研究导刊,2013,(18):251-252.

[20]李晨英,杨国栋,臧琳,等.机构知识库收录期刊论文涉及著作权问题的解决途径探讨[J].大学图书馆学报,2010,(1):74-79.

[21]乔欢,姜颖.机构知识库软件和内容资源版权问题剖析[J].图书与情报,2011,(3):45-52,80.

[22]Shreeves SL,Cragin MH.Introduction:Institutional Repositories:Current State and Future[J].Library Trends,2008,57(2):89-97.

[23]Xia JF,Sun L.Assessment of self-archiving in institutional repositories:Dep ositorship and full-text availability[J].Serials Review,2007,33(1):14-21.

[24]Bankier JG,Perciali I.The institutional repository rediscovered:What can a university do for open access publishing?[J].Serials Review,2008,34(1):21-26.

[25]Farid H,Khan S,Javed MY.Publishing Institutional Repositories Metadata on the Semantic Web[A].8th International Conference on Digital Information Management(ICDIM)[C].IEEE,2013:79-84.

[26]Ware M.Institutional repositories and scholarly publishing[J].Learned Publishing,2004,17(2):115-124.

[27]Liu S,Zhou YL.Developing an institutional repository using DigiTool[J].Elec tronic Library,2011,29(5):589-608.

[28]齐欣,陆佳莹.国外机构知识库研究状况计量分析[J].图书与情报,2014,(6):94-101.

(本文责任编辑:郭沫含)

Analysis on Research Status of Domestic Institutional Repository——Based on the Perspective of Knowledge Graph

Feng WeiweiQin Changjiang

(Library,Henan University of Science and Technology,Luoyang 471023,China)

〔Abstract〕Combined with method of social network analysis,the authors made a quantitative analysis for literature of institutional repository from CNKI in recent 10 years,and mapped writers,institution,journal and keyword network knowledge graph with the visualization software—Ucinet and Pajek.Based on the perspective of knowledge graph,this paper analyzed the domestic research status of the institutional repository intuitively,revealed the research focus accurately,and made the comparison for the research status and focus at home and abroad.

〔Key words〕institutional repository;knowledge graph;IR

〔中图分类号〕G252.6;G252.8

〔文献标识码〕A

〔文章编号〕1008-0821(2015)06-0090-07

DOI:10.3969/j.issn.1008-0821.2015.06.017

作者简介:冯伟伟(1988-),女,硕士研究生,研究方向:网络信息资源的开发与利用。

基金项目:河南省教育厅人文社会科学研究重点项目“开放存取期刊学术影响力研究”(项目编号:2015-ZD-136)。

收稿日期:2015-01-05

·信息计量学研究与应用·

猜你喜欢

知识库图谱期刊
期刊更名启事
期刊简介
绘一张成长图谱
期刊问答
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
补肾强身片UPLC指纹图谱
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
杂草图谱
位置与方向测试题