国内外引文内容分析研究进展*

2022-01-21周志超

情报杂志 2021年12期

周志超

(北京大学医学图书馆北京 100191)

在科学研究评价中，引文分析是最为重要的一种评价方法，在期刊评价、世界高校排名中引文数据都是重要的参考依据。在文献计量分析中，对研究论文影响力的测度通常是通过引文进行的，例如文献被引频次、期刊影响因子[1]、H指数[2]、g指数[3]等定量计算方法。传统的引文分析方法，只能揭示两篇文献之间的引用和被引关系，所有引文均等同视之，没有根据引文的重要性进行区分，不能说明被引文献对于施引文献的具体作用和价值，也没有考虑到作者在引文文献时的情感态度，这种评价难以真实反应被引文献的内容和质量水平。Metron曾提出引文规范性理论[4]，他认为引文是用于偿还智力债务的一种形式，是对前人智力成果的褒奖或信誉加分，然而随后有研究发现，存在大量的引文行为并没有遵循这种规范，其意图甚至与之相悖[5]，Gilbert也质疑莫顿的规范性假说过于理想化，他认为作者引用某篇权威文献是为了支持自己的观点和结论[6]。其实作者在引用文献时经历了一个复杂的过程，涉及到引用动机、引用目的和引用情感等多个方面[7]，作者往往有多种理由去引用文献，而不同引文在学术交流的过程中也会发挥不同的功能。引用行为让施引文献和被引文献之间产生了紧密的联系，但这种关系不仅限于引用和被引，还存在更加复杂的语义关联，例如Catalini等[8]利用自然语义处理技术对JournalofImmunology期刊中的负面引文进行实证研究，发现了负面引用与高质量论文之间存在联系。

随着对引文内容分析研究的深入，研究者正在积极探索引文内容在学术评价中的作用。引文内容分析能够深入的挖掘施引文献和被引文献之间的语义关联，因为引文文本是作者在引用文献时做出的评价和解释，承载了作者引用该文献的目的和情感偏向，通过对引用语境或引用内容进行分类分析能够揭示文献引用的深层次语义内涵，从而更好地对论文质量进行评价。引文分析是图书情报学科的经典研究方法之一，因此本文对已有的基于内容的引文分析研究进行梳理总结，重点介绍目前引文内容分析领域的研究进展和研究框架，追踪新的研究热点，并分析其存在的问题，以期为学术评价和知识关联领域提供新的视角。

1 数据收集

我们在Scopus数据库中利用“题名-摘要-关键词”途径进行文献检索，采用的检索式如下：TITLE-ABS-KEY(“citation content analysis”) OR TITLE-ABS-KEY(“content based citation analysis”) OR TITLE-ABS-KEY(“content citation analysis”) OR TITLE-ABS-KEY(“in-text citation analysis”) OR TITLE-ABS-KEY(“citation relation”)，不限定年代，共获得文献205篇。在CNKI数据库中利用“篇关摘”途径进行检索，检索式如下：TKA=引文内容分析 OR TKA=引文语境分析 OR TKA=引文上下文分析 OR TKA=文内引文分析 OR TKA=引文语义关系 OR TKA=引文分类 OR TKA=引文本体，不限定年代，共获得文献50篇。然后通过人工阅读题名和摘要，排除引文网络分析、文献计量分析等具体应用案例文献，最终获得87文献供进一步分析。

2 传统的引文分析

科学是一个包含研究者、项目和成果的巨大网络，而引文则是将这些节点联系起来的连线。为了及时追踪科学前沿，了解文献及科学发展动态，1955年， Eugene Garfield提出了科学引文索引(Citation Indexes for Science)[9]，随后在1963年开始编制和出版科学引文索引，该索引建立之初是用于检索和追踪科学文献信息，但随后发现引文数据对于文献和期刊层面的评价起到了重要的促进作用，因此有学者利用文献获得的引用次数来评价该文献的影响力和质量，利用学术期刊的影响因子来评价期刊的重要性。

随着Web of Science、PubMed、Scopus、Google Scholar、Microsoft Academic等电子文献数据库的出现，文献的引用和传播路径得到了极大的扩展。对于个人研究者而言，利用引文分析可以发现更多的相关文献，提高检索效率。而对于学科层面，利用引文分析能够对科学活动和行为进行评价。近些年，替代计量学的出现弥补了传统文献计量的不足，为引文分析提供了更多的统计指标，例如读者阅读数量、微博评论数量等。

引文分析在科学地图绘制、识别研究前沿和热点、学术评价、影响因子、论文质量评价等领域取得了重要的理论和实践成果，但传统的引文分析大多依赖于引文数据库的构建，这种模式存在诸多问题：将所有引用等同视之；仅考虑引文频次或参考文献数量；难以揭示施引文献和被引文献之间的深层次的语义关系。

3 引文文内特征研究

传统的引文分析从数量上考察引文的影响力，并不把引文文本信息作为研究对象，而引文文本分析则同时考虑定性和定量因素[10]。引文文本一般是指引文标识所在的句子或与其上下文句子的集合[11]，它能提供施引文献与被引文献之间关系的重要信息。在引文文本分析中有两个重要的相似概念：引用语境(citation context)和引用内容(citation content)，根据Aljaber[12]的观点，引用语境是指施引文献对被引文献的描述性和评论性文字，而引用内容则是指对被引文献内容的描述。Zhu XD[13]也曾提出，当施引文献中提及一篇参考文献时，出现在该文献引文标识附近的文本可当作引用语境。引文标识是构建引用内容的基础，引文标识周围的词语、语义内容、甚至是隐含内容都是引用内容的一部分[14]。引用内容分析和引用语境分析的目的也是不同的，前者是通过引文标识周围的语义含义了解和评价被引文献的内容特征，而后者旨在研究作者的引用过程，包括引用动机和原因[15]。为了在评估学术成果时找到更加准确的文献计量学方法，越来越多的学者开始关注基于内容的引文分析。从20世纪50年代开始，基于内容的引文分析主要从引文窗、引文分布两个方面开展。

3.1引文窗的研究引文内容包含了施引文献和被引文献之间关系的重要信息，关于引文内容的范围界定虽然没有统一定论，但有很多学者提出了重要的观点。2008年Ritchie[16]认为位于引文标识附近的词语是能够反映被引文献内容的，并定义了9种引文内容，分别是：不包含任何引用内容，仅包含施引句子，包含下一句引文之前的1个句子，包含施引句子以及该句子的前后两句，包含下一句引文之前的3个句子，包含引文标识左右共50个单词，包含引文标识左右共70个单词，包含引文标识左右共100个单词，包含完整的施引文献。后来的研究者发现基于句子的方法比基于单词数量的方法能更好地识别引文内容。2012年，Athar[17]建议使用四句话作为合适的引文窗，即引用的句子、引用句子前面的1个句子、引用句子后面的2个句子。较长的引用内容包含了更多的描述性词语，因此能够更好地揭示被引文献的内容。很多学者也将四句话的引文窗作为引文内容分析的金标准[18]。2017年，国内学者章成志等[19]通过对Morgan & Calypool出版的39本学术专著的引文内容进行标注，发现专著中引文及其上下文的平均长度(单词数)在20～30之间，与学术文献的结果比较接近。随着机器学习在文本分析中的应用，引文内容的自动分析有了新的进展，雷声伟等[20]发现在进行引文上下文识别任务中，用于文本分类的支持向量机(Support Vector Machine, SVM)比序列标注的条件随机场(Conditional Random Field，CRF)方法更加有效。

3.2引文分布研究IMRaD(前言、方法、结果和讨论)是经典的学术论文结构，很多自然科学都遵循这种结构，因此有学者根据IMRaD结构研究引文在全文的分布情况。胡志刚等[21]通过对350篇XML格式的论文进行分析，发现41.8%的引文出现在前言部分、25.2%的引文出现在方法部分、25.9%的引文出现在结果部分、7%的引文出现在讨论部分。换而言之，前言部分的引文密度高于论文其他部分，他们认为，如果一篇论文在方法部分引文较多，说明该论文的论述重点是研究方法，如果一篇论文在各个部分的引文分布差异不大，则可能是一篇综述。另一个学者Ding[22]收集了JASIST期刊的866篇论文，提取这些论文的高频引文，进行结构和语义特征分析。他发现引文在论文中的不平衡现象，有的引文出现频次不止一次，但大多数(78%)引文的出现频次少于3次，高频引文多出现在前言和相关研究部分。刘盛博[23]在其博士论文中发现，施引文献作者在文章不同位置引用文献时，具有不同的引用动机，借此可以深入研究引用行为特征。而章成志等[19]发现学术论文的引文集中出现的位置比学术专著更加靠前，这种情况可以用“学术论文的功能侧重于研究成果的公示，而学术专著则侧重于成果的传播”来解释。2018年，Boyack[24]调查了500万篇来自Elsevier和PubMed Central数据库的文献，发现引文在论文不同部分的分布是比较平均的，除了在方法学部分会出现引文反复现象，在论文中反复出现的引文比仅出现一次的引文的总被引频次低，因为仅出现一次的引文往往年代久远，具有较高的累计被引频次。2017年，Bertin等[25]对论文内多次引用(Multiple in-text references, MIR)的现象进行调查，利用自然语言处理技术从PLoS数据库抽取了8万篇文献，研究发现MIR现象在论文的所有部分均有出现，尤其是在前言、讨论和结果部分，MIR的出现往往与特定动词相邻。另外，有学者发现具有共被引的文献的引用位置也具有相似性，例如文献A和B存在共同被C引用的情况，那么文献A和B在文献C中的引用位置具有一致性[26]。

4 引文的语义关系研究

引文内容的语义关系分析主要在引用语境和引用内容的分析的基础上，从引文的动机、引文的功能、引文的重要性三个方面开展。

4.1引用动机研究引文动机是作者在引文文献时的内在心理活动，反应了引用文献的原因和目的，即为什么要引用文献。有学者认为引用文献的主要动机是说服读者[6]，或者通过引用已有成果来增加说服力和提高权威性[27]。学者们希望通过分析和确定文献被引用的具体原因，从而判断作者的引用动机和目的。1964年，Eugene Garfield[28]列举出了15项作者引用文献的理由(见表1)，但是他并没有深入分析各项理由的出现频率。该分类体系广泛而抽象，适用于不同领域，但是分类目之间存在重叠性，如“向先驱者致敬”和“确认该出版物讨论过某种理念或者概念”，也没有关于“使用前人研究数据、方法或成果”的类目，但是该分类标准为后续研究奠定了基础。

表1 Eugene Garfield提出的引文动机

不同于Eugene Garfield的研究，Thorne FC[29]考虑到作者作为社会人的属性，认为作者的引用动机中除了公正因素以为，还存在一些不公正的因素，例如利己、迎合权威、打压新人等。老旧文献的引用动机也是学者们感兴趣的话题，Oppenheim等[30]认为作者在引用年代较远的文献时共有7种理由，如“作为历史背景”“引用数据进行比较”和“使用方程理论进行计算”等等。国内学者开展引文内容分类的研究较晚。1998年，陈晓丽[31]选取了社会科学领域11本代表性中文期刊进行实证研究，通过对引文内容和引文注释进行分析，将引文动机归纳为研究引用、论证引用、褒扬引用、敬意引用、反驳引用等19种。

从引文内容中分析和判断引用动机的研究并不多，原因是这种从客观资料去推断主观意图的方法并不可靠。1985年，Brooks[32]对26位科研工作者进行访谈，归纳出了7大引文动机，包括流通规模、操作信息、正面信誉、负面信誉等，相比于单纯的引文文本分析，这样的研究更加接近真相。因此后来国内外学者开始使用问卷或访谈的方式判断作者的引文意图，例如武夷山等对《中国科技期刊研究》和情报学作者进行调查，总结出对学科或领域开拓者(创始人)表示尊重、对参考文献给予肯定、将参考文献作为背景性材料等17种引文动机[33]。还有其他学者也开展了类似的调查[34-35]。将上述观点进行梳理，汇总后见表2。

表2 引文动机视角的语义关系汇总

4.2引用功能研究最早从引文功能角度研究引文语义关系的是Moravcsik和Murugesan[36]，他们的分类体系共有4个主要类别8个具体类目，而每个引文根据其功能都可以归纳到其中一个或多个类目中。为了对简单引文计数的有效性进行质疑，Moravcsik等从Physcial Review期刊中抽取了706条引文进行定性分析，发现14%的引文都属于否定的，然而该结论经常受到文献计量学家的批评和质疑[37]，但是他们提出了新的理念：即一篇引文的可能具有多种功能。1975年，Cubin等[38]对Moravcsik的体系进行修改，提高了分类体系的互斥性，该体系共有6个类目，其中4个为肯定的、2个为否定的。该研究发现仅有5%的引文是否定的，并且大多是部分否定，而肯定的类目的分布也与数据源有关。Spiegel-Rosing[39]对66篇发表在ScienceStudies的文献进行分析，构建了包含13个类别的分类体系，其中类目“证实一个陈述或者假设、指出进一步的信息”对引文的覆盖度高达80%，该结果与Teufel[18]的类似，并且一篇引文可以归属于不同类目，而正向和负向类目也可以与其他类目交叉组合。

1979年，Finney[40]提出了7种引文功能，体系较为宽泛和笼统，而Garzone[41]在此基础上打破原有体系，并进一步细化为10个大类共35个类目，用于研究物理学和生物化学领域引文内容的自动分类。2000年，Nanba[42]合并了Garfield的引文分类体系，为了在大规模自动摘要系统中进行引文语境分类，提出了仅有3个类目的高度专业化分类体系。Pham和Hoffmann[43]也进行了类似的研究，仅保留了“基础”“支持”“局限”和“比较”4个最为重要和普遍的类目进行语料标注。2006年，Teufel[18]对Spiegel-Rosing的分类体系进行调整，构建了一个包含12个互斥类目的引文功能分类体系，大致可以分为中性、弱点、对比和积极4大类别，研究还发现65%的引文可归于“对所引用成果的客观描述”，15.7%的引文属于“作者采用或修改了工具/算法/数据”。2009年，Camacho-Minano[44]利用内容分析法，按照引文功能和引文偏见对引文进行聚类，得到9种类型的引文功能和5种类型的引文偏见。2011年，Dong等[45]比较了5种分类器在ACL Anthology数据集的表现，将引文功能分为背景、基本理念、技术基础和比较等4大类。为了证实线索词在分析施引文献和被引之间直接关系时的重要性，Wang等[46]将引文功能分为延申、批判、促进和比较四大类，以IEEE Transactions的40篇论文作为语料进行研究。2013年，Abu-Jbara等[47]将Teufel提出的12个类别合并成6类，采用多个分类器进行引文分类研究，发现SVM分类器效果最佳。国内学者张梦莹等[48]整合了已有的引文分类体系，构建引文内容标注框架用于引文内容分析，该框架包括引用对象、引文功能、引用情感、引文位置、引文重要性和标注自信度等6个方面。

将上述观点进行梳理，汇总后见表3。

表3 引文功能视角的语义关系汇总

4.3引用重要性研究引用重要性是指被引文献对施引文献的贡献，是引文关系中最直接的体现。同一文献的不同参考文献的影响力是不同的，同一参考文献对不同施引文献的影响力也有差异的[49]。1982年，Bonzi[50]为了预测引文与施引文献的相互关系，对31篇图书情报学英文文献的482个引文进行分析，发现引文来源、引用强度和施引文献类别对于判断引文的重要性有帮助。1998年，陈晓丽[31]对社会科学引文的调查发现，按照引用程度可以将引文分为有力引用、适度引用、表面引用、无关引用、高频引用、中频引用、低频引用、未被引用等8类。2014年，Wan XJ等[51]构建引文强度评估回归模型，对ACL Anthology语料进行分析，将“引文出现次数”“引文位置”“引文时间间隔”“平均引用内容长度”“平均引文出现密度”和“是否自引”作为特征变量，对引文重要性进行计算，按照1～5打分，发现84%的引文分值在2～3区间，说明绝大部分的引文重要性较低，MacRoberts[52]也发现植物学的文献中只有不到30%的引文是重要的。

论文的作者可能对所引用文献的重要性判断有更多的发言权，Zhu XD等[13]曾邀请论文的作者对自己论文的参考文献进行重要性评估，并以此作为训练数据的标签，构建引文分类模型，该分类模型预测的结果并不是对一篇单独的引文进行评价，而是评估“论文-参考文献对”的重要性，即该参考文献是否对特定的文献产生了影响。

5 引文内容本体研究

5.1将引文作为实体类的本体很多信息学相关的本体都将引文(citation)当作一个重要的实体，通过在Ontobee数据库检索，发现有18个本体包含了citation实体，并共用一个IRI(http://purl.obolibrary.org/obo/IAO_0000301)。在Lin Y等[53]发布的Informed Consent Ontology本体中，实体citation的定义是“一种用于标识特定出版物的文本实体”，没有下位实体，且通过对象属性is about与文档实体(document)产生关联，同位类还有文档题目(document title)、表格(table)、书写名字(written name)等，其父类为文本实体(textual entity)。在Semanticscience Integrated Ontology本体中，引文类的定义为一种文本实体，它表示在参考文数目或者参考文献部分中描述的文献来源。同样没有子类，其父类是文档部分(document component)。

还有一些本体考虑到了引文的特殊功能，例如在NCI Thesaurus OBO Edition本体中，将引文说明(citation description)定义为一种可接受格式的参考书目。其子类包括临床研究引文(Clinical Study Citation)、研究结果引用说明(Reference To Study Results Citation Description)、研究参考引用说明(Study Reference Citation Description)。而在Eagle-i resource ontology本体中，定义了引文管理对象(citation management objective)和引文总频次(global citation count)两个实体。此外，书目参考文献本体(Bibliographic Reference Ontology，BiRo)[54]能够描述单个参考文献以及它与被引文献之间的关系，BiRo种定义了“is referenced by”和“reference”两个对象属性，但是没有涉及引用动机或者理由。

在以上本体的结构中，虽然涉及到了引文实体，但是没有进一步深入引文本身，调研中我们还发现了部分本体的构建中，考虑到引文间语义关系、引用行为或引用过程。

5.2研究引文语义关系的本体在Iorio AD等[54]构建的另一个本体中——引文次数和引文内容特征本体(Citation Counting and Context Characterization Ontology，C4O)，不仅以机器可理解的形式定义参考文献列表和文中引文，而且对施引文献是如何使用参考文献的进行了描述。例如对文中引文出现位置和次数、文中的引文标识与参考文献对应关系、引文上下文等都有具体的定义描述。在语义出版领域，为了满足作者、出版商和读者的个性化信息需求，Peroni S等[55]建立了FaBiO本体和CiTO本体，其中引用类型本体(Citation Typing Ontology，CiTO)使用“事实的”和“修辞的”两种类型描述引文本质，并进一步划分为积极、消极和中性三种情感类型。

引用理由或动机也是引文分析中重要的研究对象，Ihsan I等[56]利用情感分析技术、专家咨询的不断迭代过程，将150种引用理由合并为8种互斥的理由，并按照引文情感分为三大类，分别是积极理由：吸收、扩展和基于，中性理由：比较和讨论，消极理由：否定、批判和对比，最终建立了引用内容和理由本体(citation's context and reasons ontology，CCRO)，作者认为引文句中采用的动词是判别引用理由的重要依据。在神经科学领域，针对阿尔兹海默疾病研究的科学论述，Ciccarese P等[57]提出了可以存储、获取、整合和交换文本语义内容的SWAN论述本体，该本体利用 “citeAsEvidence”“citeLifeScienceEntity”和“citesReagent”等三种话语元素存储研究论述，并定义了话语元素之间的语义关系集合，包括讨论、拒绝、支持和替代等。国内学者石泽顺[58]等在复用CiTO的基础上构建全文引文本体(Full-text Citation Ontology，FCO)，包括引用功能、引用情感和引用位置等引文属性，并以关联数据的形式发布，可利用SPARQL检索式实现全文引文分析。

通过对以上引文相关本体进行调查，我们发现引文是科学研究中重要的实体类型，且在多个本体中都有明确定义。引用是一个复杂的过程，文献通过引用建立的语义关系也是较为丰富的，利用本体从引用动机、引用情感、引用理由、引用功能等多个角度研究引用行为是目前的主流方法。

6 引文内容分析对临床试验评价的意义

在生物医学领域，引文内容分析和情感分析对于临床试验价值的判断具有重要的意义。可重复性和可预测性是科学研究的两大特质，在过去的十年内，随着学术文献的爆发式增长，科学研究的可复现性成为了重要的议题，在很多医学科学出版物发现存在大量不可重复的研究(Non-reproducible Study)，美国生物医药巨头安进公司Amgen曾指出，在顶级肿瘤学期刊发表的论文中，有88%的研究结果是不可复现的[59]，Ioannidis等人估计在生物医学领域不可重复研究可能占到80%[60-61]，而研究中出现的错误、行为不当或者欺诈是导致临床试验结果不可再现的主要原因，目前有越来越多的研究论文由于实验不可重复性而被杂志撤回。Favresse J等[62]曾警示临床医生和医学实验人员，参考这些不可重复的研究结果可能会误导临床决策。因此，尽可能早地发现和识别更多的可重复性低或者存在缺陷的论文，防止科研资源浪费是非常重要的。引文文本中包含了作者引用该文献的目的和情感偏向，因此科学研究的可重复性可以通过施引文本中的总体情感来评估和判断，引用内容和引用情感分析是评价临床实验可重复性价值的重要步骤。

7 引文内容分析研究框架

从上述研究可以看出，随着开放科学运动的兴起以及自然语义处理技术的迅猛发展，引文内容分析已从语法分析层面不断地向语义分析层面深化。语法层面的引文内容分析利用文献的结构和布局来确定引文的位置和数量，基于此对引文影响力进行评估；而语义层面的引文内容分析需要通过解析文本内容制定分类框架，以此对引用行为进行判定。根据已有的引文分析研究体系，并借鉴Zhang Guo[63]的理论框架，我们归纳出了引文内容分析的研究框架(见表4)。

表4 引文内容分析的研究框架

语法层面的引文内容分析通常关注单句引文，例如引文窗的研究涉及引文内容和引文语境的界定、引文内容的抽取，而在引文影响力的评估中，不同的引用方式反应了作者对引用的重视程度，例如简单提及、详细解释和直接引用这三种方式的引文重要性逐渐提高。但是引文内容的语法分析往往并不涉及引文的具体内容，难以挖掘深层次的语义关联。事实上引用是一个由主观因素触发的内在复杂行为，它是作者通过理性、权衡的形式做出的高性价比选择。因此，通过预定义的引文分类体系，推断出引用行为的动机、目的、情感和功能是非常有意义的研究方向。随着线性判别分析、主题模型、词向量等技术的应用，文献之间的语义相关性判别变得更加高效，产生了引文推荐预测、自动引文摘要等重要的研究方向。

8 结语

本文对引文分析的发展历程、引文文内特征、引文语义关系和引文内容本体的研究进行了梳理总结。此外，还提出了引文内容分析的研究框架。

传统的引文内容分析方法将所有引文等同视之，难以揭示引文之间的深层次语义关系并作出客观、科学的学术评价结论，在二十世纪中叶，得益于数据挖掘和自然语言处理算法的进步，引文内容分析逐步从人工化、小规模、少样本的模式向半自动化、大规模、海量样本的模式蜕变。而引文关系非常复杂，涉及引用目的、引用动机、引用情感、引用功能等多个因素，不同学科间存在差异性，单一体系很难详尽阐释引文关系的内涵，随着新媒体时代的发展，引文语义关系呈现出演进与变化趋势。对于引文间语义关系的研究，目前学界缺少系统性描述和定义，尤其是生物医学领域，虽然有从修辞角度研究引用关系的，但尚无引文语义关系与文本分类相关本体，缺乏具有统一的规范化的界定和框架。

从应用角度来看，引文内容分析以及广泛应用于科研行为评价、科研数据管理、信息检索、自动摘要、引文推荐和预测、学术传播和知识挖掘等研究方向。具体来说，在临床医学领域，利用自然语言处理和深度学习技术实现自动引文情感分类，以识别出具有可重复价值的临床研究文献进行推荐，区分出不可重复的临床实验，从而避免医学资源浪费是非常有意义；此外，文献是知识的载体，在学术评价和管理过程中，应该将评价对象进一步细粒度化为文献中包含的知识实体，这些实体包括但不局限于数据集、知识元、方法、工具和理论等，因为这些知识实体是引文内容中的核心，是作者具体的引用对象。可以预见，基于知识实体的引文内容分析和计量分析将赋予文献计量分析范式转移的巨大势能，而Eugene Garfield的引文索引网络可以进一步演化为知识实体引用关系网络，对于开展学术史研究的人员，能够更细粒度地梳理学科发展历程中的知识流动和演进；2012年Google提出知识图谱这一新的知识表示模式，产生了大量的概念驱动或实体驱动的图谱，而数据集、视频、网页、博客等非著作型的引文内容由于具有数字资源可定位性、唯一性，更加适合利用知识图谱的方式进行引文内容分析，如何更好地将这些实体引文图谱与其他开放资源产生关联，并实现智能化知识发现是未来值得进一步探索的方向。