APP下载

基于引文内容的图书被引动机研究

2019-09-24李卓赵梦圆柳嘉昊周清清章成志

图书与情报 2019年3期

李卓 赵梦圆 柳嘉昊 周清清 章成志

摘   要:文章针对目前图书影响力评价研究的不全面性,从引文内容的角度对图书在其施引文献中的被引用动机情况进行探究分析。首先,基于现有研究归纳出三种图书被引动机分类标准——使用、比较和背景引用;其次,以五个学科领域中文图书为例,获取其在施引文献中的引文内容信息,并标注引文的动机标签;最后,探究图书的被引动机分布及其与引用位置、引用长度的关系。实证分析结果显示,图书被引动机中"使用"占比较大。同时,引用动机与引用位置存在显著相关性,而与引用长度无明显相关性。此外,不同学科领域图书在施引文献中的引用动机存在差异。

关键词:引文内容;引用动机;图书被引行为;学科差异

中图分类号:G250.7;G252   文献标识码:A   DOI:10.11968/tsyqb.1003-6938.2019046

Citing Motivation of Book Based on Citation Content

Abstract In view of the incompleteness of the current research on the evaluation of book influence, this paper explores and analyses the motivation of books being cited in the citation literature from the perspective of citation content. Firstly, based on the existing research, three classification criteria of citation motivation are summarized: use, comparison and background citation. Then, the citation content information of Chinese books in the citation literature of five disciplines was obtained, and the motivation label of the citation was marked. Finally, the distribution of book cited motivation and its relationship with citation location and length was analyzed. Empirical analysis shows that the proportion of "use" in book-citing motivation is relatively large. At the same time, there is a significant correlation between citation motivation and citation location, but no significant correlation with citation length. In addition, there are differences in the motives of citation of books in different disciplines.

Key words citation content; citation motivation; book citation behavior; subject difference

1   引言

引文內容是指文献正文中引用参考文献的句子,也可包括其上下文,即引文句的前后[1],依据引文内容可以获取引文在施引文献中被引用的频率、位置、主题、动机等重要信息[2]。近年来,从引文内容的角度分析学术论文的影响力评价已经取得一定的成果,如赵青[3]和王岚[4]基于引文内容从引用性质和引用深度进行引文分析,以区分每条引文的作用,从而提高目前引文数据评价的准确性;刘盛博和丁堃[1]提出了引用性质和引文质量的评价方法,进而应用于评价科研人员和期刊评价。

而同样作为学术交流重要资源的图书,目前仍主要以被引次数、专家评论等进行影响力评价[5],也有部分学者从引文分析的角度进行研究,如阮选敏等[6]探讨了与书名、学科、出版社、作者等相关的10个对图书被引的影响因素,采用非参数检验及回归分析等方法对学术图书进行分析,结果表明10个因素对图书被引的拟合优度较低,说明更重要的影响因素有待于进一步发掘。

因此本文尝试从引文内容的角度对图书被引的影响进行更加深入的分析。White[7]指出引文内容主要有引文分类、引文内容分析和引用动机识别三个方面的应用。通常引用动机识别比较复杂,相关研究对引用动机的分类标准和实现方法各有不同。目前,被引次数、h指数等方法忽略施引作者的引用动机,由此进行影响力评价是不全面的[8]。

为此,本文以中文图书为研究对象,基于图书在施引文献中的引文内容,对图书的被引动机分布情况进行了统计,同时探究了图书被引动机与图书被引位置、被引长度之间的关系,并从学科领域的角度分析图书被引动机的差异性。具体而言,从亚马逊中文网站中选取来自5个学科领域的399本图书作为研究对象;然后人工采集图书在施引文献中的引文内容及其上下文信息,构建了含有2288条引文内容的语料库;接着通过人工标注的方法确定引用动机、引用位置、引用长度等信息;最后对图书的被引动机进行深入地探究。本文的研究意义在于:一方面,选取中文图书作为研究对象进行引文内容层面的分析,与现有较多以学术论文为对象的研究形成对比,可以扩展引文分析研究的全面性;另一方面,从引文内容的角度对图书被引动机进行研究,为图书影响力评价提供新视角。

2   相关研究工作概述

引用动机是指施引作者对参考文献的引用目的或意图[9],其蕴藏着丰富的信息,既能结合引文内容的其他特征分析引文的特性,发现学科领域之间的引用规律,还可以为学术作品评价提供参考。部分学者将作者对参考文献的引用目的称为引文动机、引文目的、引用功能,为了叙述的需要,本文将之统称为引用动机。在对引用动机的相关研究中,1975年Moravcsik和Murugesan[10]对于引用动机的研究具有一定的代表性,为其后学者奠定了研究基础。他们从四个不同维度对引用进行分类——概念性或操作性引用、陈述性或敷衍性引用、扩展的或继承性引用、质疑的或否定性引用,并对30篇文献的706次引用进行标注分析,发现概念性引用多于操作性引用,同时约40%的引用是敷衍性引用,不同的引用对引文评价有不同的影响。本文从引用动机的研究方法和引用动机分类两个方面概述相关研究。

2.1    引用动机研究方法研究概述

关于引用动机的研究方式主要有两种[11]:首先是直接通过文章作者获取真实引用动机,如访谈、调查问卷等;其次是基于引文内容来识别作者的引用动机,如人工标注、自动标注等。早期由于引文文本研究的样本量较少以及技术的限制[9],大多数学者依靠访谈、调查问卷、人工标注的方式获取引用动机。近年来,计算机的技术快速发展让学者更加倾向利用计算机自动标注数据,且处理速度快,可处理样本容量大,效率较高。本文针对目前研究人员获取引用动机的具体研究方法,将其归纳为以下三种。

(1)访谈或调查问卷获取引用动机。该方法可直接通过文章作者获取其对参考文献的引用动机,如2009年,马凤和武夷山[12]进行两项问卷调查工作:第1项是调查307位中国科技期刊研究界的科研人员对已给定的17种引用动机的重要程度评定情况;第2项是调查80位文献作者引用最新所发表论文的参考文献的引用动机情况,最终表明,两个结果从整体上来看较为一致,且引用是由多种因素引发的结果。2015年,邱均平等[13]也向科研人员发放调查问卷获取作者的引用动机,共收到157份有效问卷,通过分析问卷结果来研究引用动机之间的相互影响关系。访谈或调查问卷都可以直接反映文章作者对参考文献的引用动机,但实验数据少,操作复杂,容易忽略其他引文内容信息,如引文在施引文献中被引用的位置、次数、内容长度等信息。

(2)人工标注引用动机。早期的研究多是探究性的,且计算机技术以及电子数据库不完善等因素,采用的语料规模较小,学者通过引文内容信息人工标注文章作者的引用动机。在Moravcsik和Murugesan[10]关于引用动机的研究中,通过人工标注的方式,对不同引用进行动机分类,进而分析引用动机分布情况。人工标注一般都是专业的标注人员根据预先的动机分类标准对引用进行动机标注[9],而且部分计算机标注的方法需要依靠人工标注的结果去实现大规模的数据标注任务,但人工标注主观性太强,且需要大量的人力和时间,样本容量也比较小。

(3)计算机标注引用动机。由于访谈或调查问卷以及人工标注的操作都比较复杂,无法大规模获取实验数据,目前越来越多的学者利用计算机进行引用动机的标注。2006年,Teufel等[14]驗证了计算机标注的可靠性,首先由3名标注人员利用统一标准对计算机语言学的26篇文章的548次引用进行人工标注,通过Kappa值的计算(K=0.72),测量3人标注的一致性;然后采用人工标注和机器学习的方法,分别对来自计算机语言学的116篇文章的2829次引用进行动机标注,通过计算两种标注方式结果的Kappa值(K=0.57)和Macro-F(Macro-F=0.57)用于度量机器标注的准确性。2013年,Abu-Jbara等[15]通过引文内容识别以及引用动机和引文极性自动标注的分析,验证计算机标注方法具有较高的准确率,并发现基于引文上下文的标注相对于只依据引文内容提高了计算机标注的准确性。2015年,Hernández-Alvarez 和Gomez[16]从ACL Anthology随机选取85篇文章构成引文语料库,通过对部分文章作者关于引用动机调查的结果和相应的计算机标注进行比较,说明了计算机标注结果有较高的准确性。然而目前基于数据开放程度以及引用内容自动抽取不完善等问题,还很难从大规模文献语料中高正确率和召回率地对引用动机进行自动分类[2]。随着自然语言处理、机器学习等技术日益成熟,今后的动机分类研究将更注重自动分类以及从大规模文本获取更丰富的知识,以帮助引文分析研究更加细致和深入。

从现有研究可以看出,计算机标注是目前学者获取引用动机的主要方法,相比其他方法,可以更快处理大规模数据。但是本文由于无法对引文数据进行大规模获取,同时考虑到对图书的被引动机作初步探究,不同学科之间的被引动机可能存在差异性,为保证数据标注结果的可靠性和准确性,本文采用人工标注的方法从引文内容获取引用动机。

2.2    引用动机分类相关研究工作概述

关于引用动机的分类目前还没有统一的标准,不同的学者持有各自的观点。2006年,Teufel等[14]将引用动机分为4类——明确表明缺点、与其他文章对比或比较、赞同或使用其他文章、中性的,在此基础上细分12个标准进行动机分类研究,之后又将这12个标准归到三大类别——负面、中性、正面;然后,由3名标注人员对计算机语言学的26篇文章的548次引用分别按照12个类别和3个类别进行动机标注,并计算两种标注方式结果的Kappa值分别为:0.72(n=12,N=548,k=3)、0.75(n=3,N=548,k=3),相比而言,标注人员按照3分类标准的标注结果一致性较高。2013年,Abu-Jbara等[15]对自然语言处理领域30篇学术论文在施引文献中的3500条引文内容及其上下文进行动机标注,他们将引用动机划分为6种类型——批评、比较、实验、证明、依据、中性。2013年,朱大明[17]基于引文原理和影响引用动机的各种因素,将参考文献的引用动机分为学术性动机和非学术性动机,同时将学术性动机划分成10种小类。2015年,邱均平等[13]将引用动机分为内在引用动机(包括知识主张、价值感知)和外在引用动机(包括信息源便利性、引用输出、引用重要性),他们对收到的157份有效问卷进行引用动机间影响关系的探究。2015年,Hernández-Alvarez 和Gomez[16]将引用动机分为6种类型——依据或弥补、使用、赞同或讨论、比较、不足或有待改正、模糊,从而对来自计算机语言处理领域的85篇文章的引用进行动机标注。2015,Valenzuela等[18]对自然语言处理领域学术论文的465次引用进行动机标注,他们将引用动机分为使用、扩展、相关工作、比较,并认为如果以拓展或使用为目的的引用,对于文章来说是重要的;如果是作为背景引用或以比较结果为目的,则被视为不重要的引用。2018年,尹莉等[8]从SCIE数据库和CSCD数据库中选出计算机语言学研究的98篇学术论文的约2540条引文记录,并进行动机标注,他们将引用动机分为4大类和8小类,即使用(包括被依据的、供应、有用的)、比较(包括对照)、批评(包括弱点、回避)和背景(包括获得、证实)。2018年,Jurgens等[19]选择自然语言处理领域的52篇文章的1969次引用进行动机标注,他们将引用动机分为6种类别——背景、使用、比较或对比、动机、扩展、未来展望。

从上述的研究可以看出,不同的学者对引用动机的分类标准存在差异。一方面,这与学者的研究目的和研究方法不同存在一定的关联;另一方面,不同的学者对引用动机概念的界定有所差别,有些学者区分引用过程中的赞成和批评意见,而有的学者则认为都是阐述前人的工作,不必加以区分[9,20]。另外综合近几年的研究来看,为了保证分类效率和准确性,学者对动机类别划分的数量较少,且类别特征多数包含“使用”“比较”和“背景引用”等[8,16,18,19]。本文主要对图书的被引动机作初探性的研究,其引用动机的定义主要反映施引作者的引用目的,强调施引作者引用图书对文章产生的作用,且为客观存在的动机,而不考虑情感极性等其他因素,因此本文综合以上研究将图书的被引动机划分为“使用”“比较”和“背景引用”三类。

3   研究方法

本文通过获取图书在施引文献中的引文内容,分析其被引动机的分布情况,并研究引用动机与引用位置、引用长度的相关性。本文研究框架包括数据采集、数据处理、数据分析等三个部分(见图1)。

3.1    数据采集和处理

本文研究的图书元数据信息和图书施引文献的元数据信息分别来源于亚马逊中文网站(https://www.amazon.cn/)和百度学术(http://xueshu.baidu.com/),在2016年11月完成数据采集工作。目前主流的中文全文数据库如知网、万方、维普等均存在部分文献未收录的情况,为了尽可能地找到图书的所有施引文献信息,本研究以百度学术作为检索入口,以中文图书的元数据信息作为检索关键词,获取图书的施引文献信息。相比于以单一的中文全文数据库作为检索入口,百度学术更可能覆盖所有施引文献的信息。本文在选取图书的学科领域时,首先以亚马逊官方网站提供的中文图书商品分类1的一级类目为基础,同时考虑到一级类目与学科分类类目的匹配程度以及自然学科和人文社会学科的差异,我们最终以计算机、法律、文学、医学、体育五个学科领域为例,通过学术论文全文数据库获取图书引文内容数据集,通过以下两个数据获取的步骤,构建图书的引文内容语料库。

(1)根据图书在亚马逊中文网站上的评论数必须大于或等于1、图书在百度学术上被引次数大于或等于1、并且图书必须包含目录信息的原则,得到计算机、法律、文学、医学、体育五个学科领域的图书6006种。

(2)为了保证引文内容的准确性,我们采用人工标注的方法获取这些图书被引的引文内容及其上下文(即引文内容的前两句和后两句)。但鉴于人工标注方法的工作量大且成本较高,因此,我们仅从6006种图书中选择500种作为实验对象。由于6006种图书的被引分布存在差异,如被引次数在[0-5]区间的较多,而被引大于15次的相对较少,为使获得的引文内容数据更具有代表性,我们根据图书被引分布,按比例(即6006种图书在各被引区间的分布比例)抽取各个被引区间的图书共计500种。

在获取施引文献全文信息后,主要完成引文语料库的构建。由于引文上下文中包含施引者对该文献的描述与评价,蕴含了施引者的引用动机[21],所以本文采集的引文内容不仅包含带有标注序号的引文句,还有引文的前两句和后两句内容。采集人员在摘取引文内容的同时,根据引文内容所在章节段落的标题以及全文信息判断引用位置,本文将引用位置划分为引言、相关工作、方法、数据、实验、结果、讨论七个类别;引用长度即为引文句的字数,可在引文内容采集完成后进行计算[22]。

数据处理过程主要针对以下情况进行数据过滤:(1)合并处理。部分文献作者相同,内容无异,仅标题有个别字的差异;部分文献被翻译成英文文献,且被发表在不同的期刊中,对于这些情况我们仅将其当成一篇文章处理,其引用不重复累计;(2)纠錯处理。由于期刊的页面排版等因素,部分文献的引用出现在错版的文章中,因此这些引用无效,需要剔除掉;(3)删除处理。部分文献在引用过程中没有标注参考文献编号;部分文献无法在国内的主流数据库检索到,也无法在搜索引擎中获得全文,因此这些文献也无法获取引文内容信息。经过数据清洗,我们最终得到399本图书的引文句及其上下文(构建的图书引文内容语料库具体情况见表1)。

3.2    数据标注

由于本研究围绕图书被引动机展开,与已有关于学术论文的被引动机研究存在差异,其分类标准自然也不能一概而论,本文结合已有的研究,将图书的被引动机分为三种类别——“使用”“比较”和“背景引用”,相比而言,这三类之间的区分度也较强。为了使每种分类标准的定义区分更加明确,同时让标注人员在标注过程中更容易判别,本文对每个类别进行了详细的描述。朱大明[17]基于引文原理和影响引用动机的各种因素,将参考文献的引用动机分为学术性动机和非学术性动机,同时将学术性动机划分成10小类,其描述相比而言较为详细和全面,鉴于本文涉及的图书被引动机主要反映施引作者的引用目的,即科研人员学术型动机,为此本文参考了朱大明的详细分类情况,并对其描述进行了调整和补充,在此基础之上使其成为三种类别的具体描述,最终得到本文所采用的动机分类标准(见表2)。在实际标注过程中,该描述基本能覆盖所有已采集的语料。

为了减少标注过程的误差,本文标注任务由三位标注人员独立完成。在正式标注之前,三位标注者预标注30条数据,验证标注方法的可行性和可靠性。在标注过程中,标注者结合引文的上下文内容判断引文的动机,并严格按照人工采集数据信息表的标准和描述进行归类,为验证人工标注结果的一致性,本文利用Kappa 系数作为一致性评价指标,对三位标注者标注结果的一致性进行评估。Kappa系数定义如下[23]:

其中P(A)表示标注结果一致性的实际观测值,P(E)表示标注结果一致性的期望值。

本文将三位标注者的结果分别两两计算Kappa值,得到各个领域两者一致性最高的结果(见表3)。根据Carletta[23]给出的一致性参考指标(K≥0.8为十分可靠,K≥0.69较为可靠),每个领域最高的一致性结果均大于0.69,说明标注结果较为可靠。在此基础上,为了统一标注的结果,本文选取至少两位标注者相同的标注结果作为参考,另外对于三者的标注结果均不相同的情况,则将其按照分类标准重新讨论确定,最终确定一份统一的动机标注结果。

3.3    数据分析

数据分析部分首先分析图书被引动机的整体分布,考虑到动机的分类研究是基于引文内容的语义信息,而引用位置和引用长度并不依赖文本的语义信息[9],因此本文从图书被引位置和被引长度两个角度,对图书被引动机的相关性进行探究。另外本文还分析了各个领域图书被引动机的比例分布,并通过JS(Jensen-Shannon)[24]散度计算不同领域图书在被引动机分布上的相似性。

为了探究不同领域之间图书被引动机的相似性,本文试用JS(Jensen-Shannon)距离作为引用动机相似性的度量标准,JS距离是基于KL距离的不对称性而进行改进的计量指标,其公式定义如下[25]:

其中,p和q为两个学科领域图书被引动机分布,pi和qi分别是其学科领域对应的第i种引用动机下的概率分布,引用动机的类别数为n。由于两个学科领域的相似性具有对称性,JS散度能很自然地衡量不同领域所构成的随机分布之间的距离,比其他测量距离的方法更好[24]。JS 距离越小,表明概率相似度越大,其对应的领域之间图书被引动机的相似性越大。通过对比不同领域之间的相似度,可以更好的分析基于引文内容的图书被引动机行为,同时也可以反映不同领域在图书引用动机上的差异性。

4   结果分析

本文围绕图书的被引动机展开了以下分析:首先基于图书在施引文献中的引文内容,对图书的被引动机整体分布情况进行了统计,接着探究了图书被引动机与图书被引位置、被引长度之间的关系,最后从学科领域的角度分析图书被引动机的差异性。

4.1    图书的被引动机分布

本文将已标注的引用动机进行统计得到图书的被引动机分布图的结果(见图2)。从图中的总体情况来看,“使用”动机占比较大,平均达到71.06%,说明作者在引用图书时,更倾向于通过引用来佐证自己的观点,使文章有理有据。“背景引用”通常用于阐明作者写作意图和论文的新颖性,在本研究中,该动机所占比重约为25%。相比而言,“比较”动机占比较小,低于5%。而对于以学术论文为研究对象的引用动机研究,Valenzuela等[18]对来自ACL文章中465次引用的数据集进行动机标注,结果显示以“相关工作”和“比较”为引用动机的占比达到85.4%,而“使用”和“拓展”动机仅为14.6%;Jurgens等[19]对ACL文章中1969次引用进行动机标注,结果表明50%左右的引用为“背景引用”[19],这与图书被引动机的分布存在着差异。笔者认为,图书与学术论文在动机分布产生差异的原因,一方面可能是不同作者的动机分类标准不统一;另一方面可能是研究对象的不同,学术论文侧重于研究成果公示,时效性强,可以在一定程度上反映出该领域的研究热点和进展[26],因此作者引用学术论文时,“背景引用”占比较大,而图书对知识的阐述更加系统和完整[26],因此作者更加侧重引用图书作为理论的支撑,与本研究中图书被引动机“使用”占比较大的结果相印证。

4.2    基于引用长度的动机分析

本文将引用内容的长度升序排列,发现绝大部分引用长度在220字以内,仅有2.14%的引用长度分布在220至600字之间。通过对引用长度小于220字的引用进行引用动机与长度的关联分析,得到引用长度的动机分布图(见图3),其中横坐标为引用长度区间,如10代表引用长度小于10的区间,20代表引用长度大于或等于10并小于20的区间,以此类推。从图中可以看出,在每一段区间内“使用”占比在65%-80%之间,“背景引用”占比在15%-30%之间,与图2中三种动机总体分布较为相符,且每段区间的比例分布起伏相对平稳,没有出现某种动机出现在固定长度之间或者相对聚集的情况,说明学者在引用图书时,不会因为引用动机的不同而控制引文的长度。

4.3    基于引用位置的動机分析

在对引用位置进行标注过程中,我们发现文学和法律领域的文章,难以通过全文主题和其所在章节在全文中的作用来推断引用位置,且不同作者之间的写作架构存在差异,人工对引用位置的判断难度较大。相比而言,体育、医学、计算机三个领域文献结构较为直观,章节标题有助于标注者判断引用位置。因此,我们仅获得了体育、医学、计算机领域图书在施引文献中的引用位置。

我们将不同引用位置的动机分布比例进行比较,得到引用位置的动机分布图(见图4)。由图可见,“背景引用”在引言部分和数据部分占比较大,都超过了50%,而方法部分和实验部分的“背景引用”占比较少,分别为13.4%和9.1%;相比而言,“比较”在引言、相关工作和讨论部分占比较大,占比4.5%左右;在方法和实验部分,“使用”的占比较大。笔者认为,该数据结果可能与文章中不同位置体现的作用存在关联性,一般而言,引言和相关工作部分主要介绍写作范围和目标[18],因此作者更倾向“背景引用”;数据、方法和实验部分描述了这项研究是如何进行的;结果部分展示研究的相关报告;讨论部分解释了结果的含义,并为未来的工作提供了指导方针[18],因此“比较”引用动机占比也较多。与Jurgens等人的研究进行对比,发现图书与学术论文在不同位置的被引动机分布情况存在异同。Jurgens等人同样表明在引言部分“背景引用”的占比较大,方法和结果部分的“使用”比重较大,“比较”在讨论和相关工作部分占比相对较多[19]。不同的是学术论文的相关工作部分以“背景引用”动机为主,讨论部分主要为“比较”动机。总的来说,对于不同位置的动机分布存在着明显的差异,位置和动机间有着一定的关联性。

4.4    不同学科领域的图书被引动机分布

从不同学科领域角度来看,学者在对图书的引用过程中,动机倾向不同。体育领域的“背景引用”占比43.19%,远远高于其他领域;法律领域相比其他领域,“比较”占比较大,达到10.58%;计算机和文学领域的“使用”占比分别为78.87%、79.97%(见表4)。其可能原因是,不同领域的作者写作结构方式不同,导致作者的引用动机倾向也不同。在文学领域,作者更倾向于直接引用作品文字,或者复述作品内容,作为自己阐述的论据,因此“使用”动机占比较大;在法律领域,作者在对问题或案例进行剖析时,更善于运用比较法进行论证,因此“比较”的动机占比较大;在体育领域,由于理论和实践发展较快,现代体育科学的综合性较强,背景引用的语句相对较多。总体而言,在对图书的引用过程中,不同的引用动机占比不同,同时在不同领域之间存在差异。

为了进一步论证不同学科领域之间图书被引动机的差异程度,我们对不同学科领域的图书被引动机分布进行JS散度计算,得到不同学科领域图书被引动机分布相似性比较结果(见表5)。比较可以发现,“计算机”与“文学”之间的JS值较小,仅为0.0001,医学和法律之间的JS值也只有0.0058,说明这些领域的图书被施引文献引用时,引用动机表现较为相似,而从学科交叉的角度来看,以上学科领域分别来自于自然学科和人文社会科学,两者之间的交叉性较小,说明施引作者的引用目的并不会因为学科交叉性的不同而存在较大差异。相比而言,体育和法律之间的JS值达0.0498,说明两者之间的引用动机相似度较小。从纵向分布来看,体育与其他领域之间JS值均大于0.02,相似性普遍较小。

5   结论与研究展望

本文对引用动机的研究方法和分类标准进行梳理,归纳出三个动机分类标准:背景引用、比较、使用。考虑目前以中文为数据来源的研究较少,本文选取中文图书的施引文献作为研究对象,并从引文内容的角度出发,对图书的被引动机进行研究。基于实验数据的实证分析结果显示,在引用动机分布中,相比而言“比较”占比较少,“使用”占比较多,不同领域的学者在对图书的引用中,动机倾向不同,其中“计算机”与“文学”之间的JS值较小,说明动机分布较为相似。本文还基于引用位置和引用长度两个方面,对引用动机进行相关性研究,结果表明,不同的引用长度的动机分布较为均匀,說明学者对图书的引用动机不会受引用长度的影响,而不同的引用动机与引文位置在全文中表现的作用有较大的关联性。

本文在对图书的被引动机研究中,仍有许多不足之处。首先在数据的获取上,部分的施引文献由于未有参考文献标号,导致无法获取具体的引用句,因此在数据的全面性上存在缺陷。此外,在对引用动机的分析过程中,每个领域的数据量不均衡,因此在对比中,仍具有一定的片面性。

未来的研究中,可以考虑对数据进行扩充,使各领域之间的数据均衡。在标注的过程中,可以记录判断的线索词以及标注的可信度,并结合线索词,设计机器学习的分类规则,从而构建更加精准的分类体系。同时,还可以考虑从引用情感和引用功能等语义角度与引用动机对比分析,更加深入地研究图书的被引行为,从而为不同学科领域的图书评价和科研人员提供更有价值的参考。

参考文献:

[1]  刘盛博,丁堃.基于引用内容的引文评价分析[C].第九届中国科技政策与管理学术年会论文集,2013:1-7.

[2]  刘浏,王东波.引用内容分析研究综述[J].情报学报,2017,36(6):637-643.

[3]  赵青.文学学科引用性质与引用深度调查分析[J].情报杂志, 2010,29(10):46-50.

[4]  王岚.中文人文社会科学引用性质与引用深度研究[D].南京:南京大学,2009.

[5]  章成志,童甜甜,周清清.整合不同评论平台的图书综合影响力评价研究[J].情报学报,2018,37(9):861-873.

[6]  阮选敏,吕冬晴,张培,等.我国人文社会科学学术图书被引影响因素研究[J].图书馆论坛,2019,39(5):33-45.

[7]  White H D.Citation analysis and discourse analysis revisited[J].Applied Linguistics,2004,25(1):89-116.

[8]  尹莉,郭璐,李旭芬.基于引用功能和引用极性的一个引用分类模型研究[J].情报杂志,2018,37(7):139-145.

[9]  王文娟,马建霞,陈春,等.引文文本分类与实现方法研究综述[J].图书情报工作,2016,60(6):118-127.

[10]  Moravcsik M J,Murugesan P.Some Results on the Function and Quality of Citations[J].Social Studies of Science,1975,5(1):86-92.

[11]  刘君玉.引文分析的评价[J].情报理论与实践,1998,21(2):87-89.

[12]  马凤,武夷山.关于论文引用动机的问卷调查研究——以中国期刊研究界和情报学界为例[J].情报杂志,2009,28(6):9-14.

[13]  邱均平,陈晓宇,何文静.科研人员论文引用动机及相互影响关系研究[J].图书情报工作,2015,59(9):36-44.

[14]  Teufel S,Siddharthan A,Tidhar D.Automatic classification of citation function[C].In:Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP2006),Sydney,Australia,2006:103-110.

[15]  Abu-Jbara A,Ezra J,Radev D.Purpose and Polarity of Citation:Towards NLP-based Bibliometrics[C].In:Proceedings of Human Language Technologies:The Conference of the North American Chapter of the Association for Computational Linguistics 2013 (HLT-NAACL2013),Denver,Colorado,USA,2013:596-606.

[16]  Hernández-Alvarez M,Gomez J M.Citation Impact Categorization:for Scientific Literature[C].In:Proceedings of 2015 IEEE International Conference on Computational Science & Engineering (CSE2015),Porto,Portugal,2015:307-313.

[17]  朱大明.参考文献的引用动机[J].科技导报,2013,31(22):84.

[18]  Valenzuela M,Ha V,Etzioni O.Identifying meaningful citations[C].In:Proceedings of 2015 in AAAI Workshop:Scholarly Big Data,Austin,Texas,USA,2015:21-26.

[19]  Jurgens D,Kumar S,Hoover S,et al.Measuring the Evolution of a Scientific Field through Citation Frames[J].Transactions of the Association for Computational Linguistics,2018(6):391-406.

[20]  楊思洛.引文分析存在的问题及其原因探究[J].中国图书馆学报,2011,37(3):108-117.

[21]  徐健,李纲,毛进,等.文献被引片段特征分析与识别研究[J].数据分析与知识发现,2017,1(11):37-45.

[22]  章成志,李卓,赵梦圆,等.基于引文内容的图书被引行为研究[J].中国图书馆学报,2019,45(3):96-109.

[23]  Carletta J.Assessing Agreement on Classification Tasks:The Kappa Statistic[J].Computational Linguistics,1996,22(21):249-254.

[24]  唐晓波,祝黎,谢力.基于主题的微博二级好友推荐模型研究[J].图书情报工作,2014,58(9):105-113.

[25]  Kullback S,Leibler R A.On information and sufficiency[J].The Annals of Mathematical Statistics,1951,22(1):79-86.

[26]  冯晴,陈惠兰.国内数字图书馆领域学术图书出版研究[J].图书馆杂志,2013,32(4):53-57,81.