APP下载

基于引文的科研关系组织及其服务的研究现状与发展趋势*

2015-07-22杨瑞仙郑州大学信息管理学院郑州450001

图书馆 2015年12期

杨瑞仙 秦 渴(郑州大学信息管理学院 郑州 450001)

基于引文的科研关系组织及其服务的研究现状与发展趋势*

杨瑞仙 秦 渴
(郑州大学信息管理学院 郑州 450001)

〔摘 要〕海量数字资源中蕴含着丰富的科研实体,这些实体之间存在着广泛而复杂的关系,科研关系组织主要是对科研实体关系的表述、识别、揭示和挖掘。文章从引文分析、科研关系识别与揭示、引文数据服务与科研关系可视化应用三个方面对国内外相关研究现状进行文献调研和梳理,认为科研实体的识别与抽取研究、基于引证的科研关系揭示与挖掘研究、科研关系的融合与展示研究以及基于引文的科研关系服务应用研究这四个方面是未来研究的重点。

〔关键词〕引文分析 科研关系组织 科研关系服务

海量数字资源中蕴含着丰富的科研实体,如科研人员、科研机构、科研论文、科研项目等,这些科研实体之间存在着广泛的、相互交错的关联关系,即科研实体之间的关系。基于引文的科研关系组织主要是从作者、机构等科研实体的引证角度出发(如引用、共被引、耦合等引文关系)来识别、揭示科研实体及其内在的关联关系。通过对科研关系进行组织,可以实现知识聚合和构建基于引文的科研关系网络,亦可实现从传统检索模式向具有知识导航、自动聚类、智能检索、知识评价等功能的知识服务模式转变。因此,对于科研关系的识别、揭示和合理化组织是实现知识聚合和构建科研关系网络的重要基础,也是知识服务的重要方式和手段,是科研管理和知识评价的基础所在,是当前数字资源中亟待研究和解决的问题。

1 相关研究分析

科研关系组织的研究主要源于两大学科领域,一是计算机科学领域的通过抽取算法、数据关联等来进行科研关系组织;二是图书情报领域的引证网络、知识地图、主题图等研究。目前两者的研究方向和内容正在走向融合。相关研究主要集中在引文分析、科研关系识别与揭示、引文数据服务与科研关系可视化应用三个方面。

1.1 引文分析方面

在引文分析研究中,Garfield、Small等是早期的开拓者。1955年尤金·加菲尔德博士(Eugene Garfield)发表了《引文索引应用于科学》一文,提出利用引用文献来探索科学发展的观点,掀开了引文分析的新篇章。为了完善和发展引文分析法,他又带领其所在的美国科学信息研究所(ISI)出版世界上最早利用引文建立关联关系的检索评价工具《科学引文索引(SCI)》[1]。1973年Small提出了共被引概念和分析方法,定义了共引强度,用来评价文献间的共引强度,从而成为分析文献间关联程度的一种新方法[2]。这一概念提出以后,White和Griffith等一批学者从作者共引、文献共引等角度进行了相关研究。在国内,不少学者也开始对引文分析及其相关理论进行了探讨,如邱均平阐释了引文分析法的原理和应用[3],王建芳、冷伏海对共引分析的理论和实践进行了探讨[4]。至此,对于引文分析的研究开始蔓延开来。

随着互联网的发展,网络计量学这一新研究领域的产生使一些学者开始尝试将引文分析和链接分析结合起来,如曾建勋以引文链接为基础,结合行为关联链接、本体链接等关联方式,构建了基于引文的知识链接系统[5]。此外,2013年胡志刚、陈超美等从另一角度进行引文分析探索,即通过分析引用与引文之间的多对多关系,提出了一种新的加权的计算引文总被引次数的方法,并认为基于全文的引文分析方法可以更全面地反映参考文献的真实被引次数,更客观地分析高被引论文情况[6]。随着学者们对引文分析方法的研究,综合引文的内外部特征进行分析成为研究的重点,从而更加精确地揭示被引作者、文献、期刊、机构和国家等科研实体间的关系。

1.2 科研关系识别与揭示方面

科研关系的识别与揭示研究主要体现在以下三个方面:(1)基于共现原理的科研关系识别与揭示。共现研究是对科研实体间某些特征共同出现的现象的一种研究方法,多篇论文中共同出现的关键词、共同出现的科研机构等都属于其研究范围。美国麻省理工学院Kessler在研究中发现,学科专业内容越相近的论文,其参考文献中相同文献的数量就越多,反过来,两篇文献的参考文献相似度越高,说明两篇文献的关联度越紧[7]。韩淋等采用共词分析方法挖掘科学实验与科研设备之间的关联关系,揭示不同类型科学仪器在多领域、多学科科学研究中的作用[8]。2013年中科院计算机所研发了“学术圈”,其原理就是通过研究作者共现将该作者与其他主要作者的合作关系及关联度进行可视化展示。(2)基于本体语义模型的科研实体关系识别与揭示。语义模型是用来表达复杂结构和丰富语义的数据模型,而本体则能够提供特定领域中存在的对象类型或概念及其属性相互关系,二者都能够实现科研实体间的语义关联。如Freitas基于KA2 ontology开发的科学本体,对科研活动要素,如科学文献、科研项目、研究主题、研究人员之间的关系进行了揭示与分析[9]。2009年张智雄等分析当前基于GATE等开源工具进行关系识别的研究,提出利用GATE和Stanford Parser构建开放式实体间语义关系识别的Rela Pair模型,实验显示该模型可以有效识别出由动词或介词所引导的命名实体关系三元组,为后续的情报分析工作提供重要支撑[10]。2013年李劲和程秀峰等提出基于语义的馆藏资源聚合模型,揭示和挖掘馆藏信息资源中蕴含的科学知识内容及其之间的科研关系,以满足用户日趋个性化的知识需求[11]。(3)基于关联数据的科研关系识别与揭示。关联数据能够实现对分布式异构数据的整合,并提供关联访问。康奈尔大学等机构研究和开发了VIVO平台,通过构建一个广泛适用的科研本体,对科研人员、科研项目、科研成果以及文献资源等进行语义化的知识揭示,为科研人员提供关联知识发现服务[12]。游毅认为关联数据能够利用馆藏书目中概念或实体的语义描述与链接构建实现资源内容的充分揭示与关联关系的规范表达,通过将MARC数据改造成为关联数据环境下富含语义的RDF 三元组形式,并构建馆藏资源间的丰富关联关系,从而实现书目数据的语义转换与网络关联[13]。

1.3 引文数据服务与科研关系可视化应用方面

1.3.1 引文数据服务发展现状

国内外对于引文数据库服务的研究与实践比较多,如ISI Web of Science在其独特的引文关系展示基础上,实现了以知识为基础的多种链接,如期刊目次、期刊影响因子、全文、主题深度标引、专家库、OpenURL等,形成了丰富的知识网络[14];美国《科学引文索引》扩展版(Science Citation Index Expanded,简称SCIE)涵盖了100多个学科,能够提供科学技术领域内最前沿和重要的研究成果,成为世界公认的最权威的科学技术文献索引工具。目前我国几大主要的引文数据库有中国科学引文索引数据库(CSCD),其被评为中国的SCI;中国科技论文与引文数据库(CSTPC),其集引文分析和检索功能为一体;中文社会科学引文索引数据库(CSSCI),其是我国第一个人文社会科学引文索引。由此可知,引文数据服务的研究与应用正在走向成熟。

1.3.2 科研关系可视化应用现状

随着相关科学技术和工具的发展,科研关系的可视化研究将不再停留在理论研究层面,而是更多的考虑其实际的应用。通过利用CiteSpace、Pajek、Ucinet等可视化工具进行共被引分析,以图谱的方式展示学科领域的热点主题和核心作者,如Zhao和Strotmann、Chen等学者通过作者共引、文献耦合等分析图书情报学的学科结构与知识图谱。侯海燕、刘则渊等通过绘制科学计量学研究前沿知识图谱,从而界定了七大国际科学计量学研究前沿领域[15]。美国Drexel大学著名的科学计量学家White和MaCain以共引分析为基础,采用相关的统计绘图软件,建立了基于多维尺度分析的知识图谱方法,从而全面地对科学文献间的引文关系进行了可视化[16]。2012年周杰等提出了学术研究主体与研究内容间的关联关系可视化方法,从而丰富了现有学术关系分析方法[17]。邱均平等借助社会网络分析法对《中国图书馆学报》近11年作者合著发文的网络进行了可视化的分析,从而直观地得到相关领域的核心著者。2014年刘玉琴、曾建勋利用文献关键词和引文信息进行学术研究主体之间关联关系计算,采用改进的复杂网络Fruchterman-Reingold算法设计二维网络图,应用Pathfinder算法进行网络关键信息过滤,设计实现学术关联关系的可视化分析工具,从而弥补了国内在学术关联可视化工具研发方面的不足[18]。

2 国内外研究述评与发展趋势

2.1 相关研究述评

目前,无论是在国内还是国外,科研关系组织都是学术界关注和研究的热点,不少专家学者围绕其进行了理论探索和技术实践研究,相关的服务应用也得到了初步发展。但是现有的科研关系研究比较单一,未反映出多维的、交叉的、复杂的科研实体之间的关联关系,需要积极探索有效的、科学的科研关系识别与揭示方法,实现对隐性的关系识别与揭示,需要对多类型的科研实体关系进行多阶揭示与融合,对用户科研关系服务需求进行调查研究,从而实现科研关系组织及其服务功能。

2.2 未来发展趋势

研究需利用知识组织理论、知识链接技术、引证分析方法来分析基于引文的科研关系组织原理,探讨科研关系组织概念与内涵,分析科研实体属性与特征,分析科研关系类型、特征、结构与表现形式。并在此基础上,构建基于引文的科研关系组织与服务研究框架(如图1),其中科研实体的识别与抽取研究、基于引证的科研关系揭示与挖掘研究、科研关系的融合研究以及基于引文的科研关系服务应用研究是未来的研究方向。

图1 基于引文的科研关系组织与服务研究框架

2.2.1 科研实体的识别与抽取研究

如何对引文数据中科研实体进行准确地识别和抽取是科研关系组织未来研究的难点和重点。随着用户信息需求的日益复杂与多样化,更细粒度地识别科研实体成为未来研究的发展趋势。一方面需要对科研实体进行识别与标注:采用基于规则的方法、基于统计的方法、基于规则和统计相结合的方法、机器学习与人工知识相结合等命名实体识别的方法对主要科研实体(如科研人员、科研机构、科研期刊等)进行识别。重点研究如何基于海量信息资源的篇章结构、科研实体的语义特征以及科研实体之间的邻近度来标注科研实体;另一方面需要进行科研实体的统一与规范:通过建立规范文档,避免同一科研实体的多个名称、不同实体的重名,消除实体命名歧义等现象,采用基于上下文的文本向量聚类方法,并充分考虑文本中词与词之间的关联度及相互的语义关系,通过相似度算法自动选择或生成一个最优命名的方法对科研实体的命名进行规范。基于此实现引文数据中科研实体的识别与抽取,形成科研实体的知识库。

2.2.2 基于引证的科研关系揭示与挖掘研究

科学文献的利用是通过科研人员在科学创作过程中通过对科学文献的引用体现出来的,基于引证的科研关系揭示与挖掘可以从以下几个方面进行研究:(1)通过对不同时期、不同学科、不同类型的引文耦合关系进行分析,建立科技文献间引文的相似性模型,进而揭示文献间深层的关联关系。(2)引证关系网络中存在着多种不同的路径,对这些路径的数目和宽度的分析可以揭示科研实体间深层的关联关系。(3)引证关系强度可以直观地反映科研实体间关系的强弱,量化这种关系强度有利于科研关系的进一步融合和知识聚合。(4)引证关系不仅局限于科学文献间,还包括科研机构、科研人员、科研项目与科学主题间。在扩展引证关系中,研究单一实体间的引用关系,揭示科研群体的主题相关关系,研究不同科研实体的引用关系,揭示同一主题多实体之间的关联关系,进而实现同一主题领域科研实体引用、共被引和耦合关系的融合揭示。

2.2.3 科研关系融合与展示研究

科研关系融合是构建科研关系网络、进行科研关系组织的有效途径之一,通过研究多类型科研实体关系的多阶揭示方法和融合规则,实现同主题领域内多类型科研实体间复杂关系的融合。首先,在基于科研关系揭示的基础上,综合各类实体本身的特征,通过细化科研实体之间的基本关系,对不同共现类型、不同路径、不同强度、不同主题的科研实体间的深层、交叉关系进行多阶揭示方法研究。其次,需要对多类型科研实体关系的融合规则进行研究。采用语义推理等模型技术计算科研实体之间的关联度,包括从关系路径中推导出的现实中实际的语义关系,以及这种语义关系的强度,增加多级、多层、多类型的科研关系挖掘的深度和广度,探索实体间多类科研关系的加权、筛选和融合规则。通过对同域内各类科研关系的有效融合可以实现对科研关系整体的知识化组织。

2.2.4 基于引文的科研关系服务应用研究

基于引文的科研关系服务不仅是理论问题,更是现实问题,其最终目的是为用户提供知识服务,应该坚持以用户的信息需求为中心、以解决用户的问题为目标。因此,在科研关系组织的基础上,要能够借鉴知识服务原理,针对科研人员、科研机构、科研论文、科研项目等科研实体,实现以科研实体为单位的知识导航、知识检索、知识评价和知识发现等服务,融入用户对知识的需求,建立基于引文的科研关系服务模式。通过可视化方法形象地、动态地展示科研实体关系网络中科研实体节点及其关系,基于不同维度探索特定学科的发展趋势和研究热点。在进行实证研究时需要与已有的知识服务机构进行沟通交流,对服务模式的理论进行深化和验证,达到理论与实践相结合的要求。

3 结语

科研关系组织能够很好地对科研实体间多维交叉的关系进行表述、识别、挖掘和揭示,并基于用户需求提供知识导航、知识检索、知识评价等服务。文章首先从三个方面对国内外研究现状进行分析,指出科研关系识别与揭示的粒度、用户需求的研究等方面的不足,并基于此提出了未来的研究方向,即科研实体的识别与抽取研究、基于引证的科研关系揭示与挖掘研究、科研关系的融合与展示研究以及基于引文的科研关系服务应用研究四个方面。然而由于引文自身功能的局限性,仅仅采用引文分析这一种方法不能全面揭示科研实体间各种复杂的关系,需要将其他计量方法以及关联数据与之相结合,才能够多角度、多层次全面地进行科研关系组织,为用户提供满意的服务。

(来稿时间:2015年6月)

参考文献:

1.张慧敏. 引文分析法的内涵及研究实证. 编辑学报,2006,18(S1):174-177

2. Small H.Co-citation in the scientific literature:A new measure of the relationship between two documents.Journal of the American Society for Information Science, 1973, 24(4):265-269

3.邱均平. 论“引文耦合”与“同被引”.图书馆, 1987(3):13-19

4.王建芳,冷伏海. 共引分析理论与实践进展. 中国图书馆学报, 2006, 32(1):85-88

5.曾建勋.知识链接及其服务研究.北京:中国科技文献出版社, 2012:123-138

6.胡志刚,陈超美,刘则渊等. 从基于引文到基于引用——一种统计引文总被引次数的新方法. 图书情报工作,2013, 57(21):5-10

7.王居平.数字图书馆评价的理论和方法.合肥:安徽大学出版社, 2008

8.韩淋等.国际空间站科学实验与科研设备关联关系的揭示及其应用研究.北京:中国科学院, 2013

9. Science Ontology. [2015-05-20]. http://protege.Stanford. edu/ontologies/ontology of Science/ontology of science.htm

10.刘建华,张智雄.基于Stanford Parser的实体间关系识别. 现代图书情报技术, 2009(5):1-5

11.李劲,程秀峰,宋红文等. 基于语义的馆藏资源深度聚合模型探析. 湖北民族学院学报(自然科学版),2013, 31(2):212-215

12.赵雪芹.知识聚合与服务研究现状及未来研究建议.情报理论与实践, 2015, 38(2):132-135

13.游毅.面向馆藏聚合的书目关联数据实现.情报理论与实践, 2014, 37(8):105-110

14.曾建勋.基于海量数字资源的科研关系网络构建研究.情报学报, 2013, 32(9):929-935

15.侯海燕,刘则渊,栾春娟等. 基于知识图谱的国际科学计量学研究前沿计量分析. 科研管理, 2009, 30(1):164-170

16.梁永霞,刘则渊,杨中楷. 引文分析学形成与发展的可视化分析. 图书情报工作, 2010, 54(2):31-35

17.周杰,刘玉琴,曾建勋. 学术研究主体与研究内容间的关联关系可视化方法. 现代图书情报技术, 2012(11):92-97

18.刘玉琴,曾建勋,王立学. 学术关联关系可视化系统设计与实现. 图书情报工作, 2014, 58(5):75-81

〔分类号〕G350

〔作者简介〕杨瑞仙(1982-),女,博士后,郑州大学信息管理学院讲师,硕士生导师,发表论文30余篇,主要从事信息计量、科学评价与知识组织研究;秦渴(1992-),女,郑州大学信息管理学院本科生。

* 本文系中国博士后基金项目“基于引文的科研关系组织及其服务研究”(项目编号:2014M561026)研究成果之一。

Scholarly Relation Organization and Service Based on Citation

Yang Ruixian Qin Ke
( Department of Information Management, Zhengzhou University )

〔Abstract 〕Massive digital resource contains abundant information of scientific research entities, and the relationship between these entities exists wide and complex relationship. Scientific research organization is mainly expression, identification, reveal and mining for scientific research entity relationship. This paper firstly invests and combs domestic and foreign research present situation from the citation analysis research, reveal and mining and construction of the citation data services and the visualization of these relationship, and thinks entity recognition and extraction research, reveal and fusion research, service mode and application of scholarly relations based on citation are the research direction and focus for the future.

〔Keyw ords 〕Citation analysis Scholarly relation organization Scholarly relation service