APP下载

期刊引用行为与影响因子的关系

2017-03-24马建霞王文娟

中国科技期刊研究 2017年11期
关键词:参考文献数量期刊

■袁 慧 马建霞 王文娟

1) 中国科学院兰州文献情报中心,甘肃省兰州市天水中路8号 7300002) 中国科学院大学,北京市石景山区玉泉路19号(甲) 100049

本文的引文文本是指文献正文中引用标识的上下文构成的内容,是有关参考文献中与相关内容的叙述或评价[5]。当前,引文文本分析是对引文文本内容进行引文类型分类等分析,主要集中在情感倾向、功能、位置、影响力几个维度。本文的引用行为包括引文的引用数量、基于引文内容的引用情感倾向和引用功能分类等。传统期刊影响力评价是以被引频次为基础的影响因子(IF)[6],本文利用影响因子表征期刊文献的被引频次。期刊中文献的引用行为与影响因子的关系,在一定程度上能够反映文献获得较高的引用或者是获得较高引用的潜力。

为了研究引用行为与影响因子的关系,以2014—2015年荒漠化与水土保持领域的8种中文核心期刊为研究对象,统计文献中的引文数量以及引文内容,根据期刊中文献的平均参考文献数量、引文的情感倾向和不同引用功能的引用行为重要性加权差异情况,结合其他因素,探讨引用行为与影响因子之间的相关性。

1 数据来源与研究方法

1.1 数据来源与处理

荒漠化与水土保持是环境生态领域一个重要的研究方向,共有10种中文期刊,其中《灌溉排水学报》的文章内容主要涉及农业基础与作物学等方面,不作具体分析。在获取引文内容的过程中由于《林业科学》的参考文献著录方式与其他期刊不同,无法获取引文内容,因此研究对象为其余8种期刊,通过中国知网期刊大全获取期刊基本信息,包括国际标准连续出版物编号(ISSN)、期刊名称、复合影响因子、综合影响因子[7](表1)。

由于表1中计算2014—2015年影响因子,因而引文内容分析的数据也选择2014—2015年。在中国知网数据库中以期刊名称检索2014—2015年的文献,按照每年文献数量总数的30%随机抽取。下载全文数据,然后转换为TXT格式文本,使用编程方法抽取全文中出现的引文文本,抽取方法见图1。

表1 荒漠化与水土保持领域中文核心期刊

注:表1的复合影响因子和综合影响因子来源于中国知网数据库2016版,即计算年份为2014—2015年,综合影响因子仅计算期刊论文的被引频次,复合影响因子还包含硕博士学位论文以及会议论文的被引频次。

经过上述方法清洗数据后,过滤和剔除抽取结果中的干扰项和非引文文本,最后经过筛选和整理,得到8种期刊的引文文本数量(表2)。在处理引文文本的过程中,部分文献由于格式原因导致数据丢失或者出现乱码,因而无法获取部分引文文本相应内容。上述情况在每种期刊中均出现,约占引用文本总量的0.83%,因此对总体情况影响可以忽略不计。

表2 不同期刊的引用文本总量

1.2 研究方法

将已得到的引文文本按照如下过程进行分析:首先,人工标注部分引文文本的情感倾向和引用功能,基于结构线索词[8]机器标记情感倾向,使用支持向量机(SVM)算法[9]机器标记引用功能分类(图2);其次,采用统计方法分析得到的引文情感倾向和引用功能分类数据的引用行为,观察引用行为与期刊影响力(复合影响因子、综合影响因子)的关系。

图2 引文文本标记过程

2 数据分析

2.1 平均参考文献数量

8种期刊的平均参考文献数量见表2。由表2可知不同期刊的平均参考文献数量的区别较为明显,其中,平均参考文献数量最多的期刊为《土壤学报》,为34.56篇,平均参考文献数量最少的期刊为《水土保持通报》,仅为13.07篇。通过随机阅读抽取的文献,发现《土壤学报》中综述性文献所占的比例以及文献正文中综述部分所占的比重比其他期刊略高。

平均参考文献数量能够反映期刊的参考文献数量水平,为探索引用参考文献的数量是否影响期刊的被引潜力,利用R语言分析平均参考文献数量与影响因子的关系,得到平均参考文献数量与影响因子之间的Pearson相关系数,结果见表3。

表3 平均参考文献数量与影响因子的相关性分析

注:①*表示在0.05水平(双侧)显著相关;②**表示在0.01水平(双侧)显著相关;③综合影响因子仅计算期刊论文的被引频次,复合影响因子还包含硕博士学位论文及会议论文的被引频次;④括号内数据为显著性系数。

由表3可知,平均参考文献数量在统计意义上与期刊复合影响因子和综合影响因子均显著相关。从相关性分析结果来看,尽管采集数据中不包含学位论文、会议论文等数据源,但是平均参考文献数量仍与复合影响因子具有统计相关性。其主要原因是(1)复合影响因子与综合影响因子之间存在相关关系;(2)复合影响因子本身已经表征了期刊的被引频次情况。

期刊影响因子通过该期刊前两年的被引频次和文献数量计算得出,统计被引情况,表征期刊的文献被引用情况,较高的影响因子意味着获得了较高的被引频次。然而本研究的平均参考文献数量与期刊影响因子之间存在显著相关关系,说明参考文献数量较多的文献更有可能获得较高的引用或者具有获得较高引用的潜力。但是文献在引用参考文献过程中可能存在其他的影响因素,忽略不同引用目的的复杂引用情况。

2.2 引文文本情感倾向

2.2.1 情感倾向分类

引文文本的情感倾向是指文献作者在正文中对被引用参考文献表述的态度,即持肯定态度或否定态度[10]。引文文本情感倾向分为两类:正向情感和负向情感。正向情感包括支持和中立态度,负向情感是指对引用文献中的观点或者结论持批判态度。在分析引文的过程中,发现负向情感倾向的引用相对较少,表述方式也类似,因此,将负向情感倾向以外的引用情感倾向均归结为正向情感倾向。本研究以负向情感倾向作为研究对象,从而可推断正向情感倾向的结果。引文文本中出现负向情感的表述结构见表4。

表4 引文文本中负向情感的表述结构

2.2.2 负向引用数量分析

通过手工标记与机器标记引文文本的情感倾向,统计得到荒漠化与水土保持领域8种中文核心期刊近5年的负向引用数量与引文总数的比例(表5)。本研究统计发现,负向引用共计1741条,占抽取样本总数的3.71%,所占比例较低,与已有研究中其他学科发现的负向引用比例相当[11]。其中《水土保持学报》负向引用比例最高,《岩土力学》负向引用比例最低,但是各个期刊负向引用比例相差不大。

2.2.3 负向引用与影响因子的相关性分析

分析表5中的负向情感倾向引用在总引文数量中的占比与影响因子的相关性,结果见表6,发现负向引用占比与影响因子之间不具有统计相关性,即期刊文献中的负向引用数量不影响期刊的影响因子,两者没有直接关系。情感倾向的划分标准为:非负向引用即为正向引用。分析正向引用占比与影响因子的相关性,结果显示正向情感倾向的引用与影响因子之间也不存在相关关系。因此,引文文本中的情感倾向与影响因子无关,即不影响文献是否具有获得较高引用的潜力。

表5 期刊的负向倾向引文文本数量对比

表6 负向引用比例与影响因子的相关性分析

注:①**表示在0.01水平(双侧)显著相关;②综合影响因子仅计算期刊论文的被引频次,复合影响因子还包含硕博士学位论文及会议论文的被引频次;④括号内数据为显著性系数。

根据正向和负向情感的分类标准,引用文本中的负向情感是指对被引文献或者参考文献中观点、结论或者实验过程的批判或者改进,这种类型的引用大多数是对前人研究的改进、纠正或者一种观点的不同解释等,体现了学术中的百家争鸣现象,因而认为负向引用占比高的期刊中可能容纳了更多不同的观点、结论、方法等相关研究的探讨,有利于学科发展。

2.3 引文文本引用功能

2.3.1 引用功能分类

文献中不同功能类型的引用对文献的贡献不同[12],对引文文本的引用功能进行分类,并划分不同引用功能的重要性等级,能够了解期刊中不同引用功能的占比,并且了解基于不同功能的引用行为重要性加权与影响因子的关系。引用功能分类建立在Chang等[13]和Sula等[14]分类的基础上,分为5个等级和10类,具体分类模型见表7。

表7 引文文本中引用功能的表述结构

由表7可知,功能与重要性等级形成了一定的映射关系,根据不同引用功能的重要程度划分等级,在功能引用数据的基础上计算期刊引用行为的重要性加权,尝试解释引用功能与影响因子之间的相关性。

2.3.2 不同引用功能分析

按照表7中的引用功能,标注获取到的46972条引文文本,包括人工标记和机器自动标记2部分,统计结果见表8。由表8数据可知,扩展阅读功能的引用最多,平均占比约26.78%,根据引用功能分类模型中的定义,此类引用为读者提供导读,不详细介绍被引文献内容,随机抽样阅读扩展阅读类型引文,发现部分引文甚至可能与施引文献内容不相关。其次是引用结论,对比被引文献中的结论与施引文献结论,引用观点也是如此。引用功能中以引用相关研究和方法最为重要,这两类引用功能占比合计约18%,是重要的研究基础和思路来源。

观察表8中每种功能引用的最值,结合表7中每种引用功能的重要性等级,发现《土壤学报》对重要性等级较低的背景和扩展阅读的引用在所有期刊中最少,然而对重要性等级较高的数据和相关研究的引用最多。相反,《水土保持通报》对重要性等级较低的背景和扩展阅读的引用在所有期刊中最多,《中国沙漠》对重要性等级较高的观点和方法的引用最少。结合8种期刊的影响因子,《土壤学报》的影响因子较高,《水土保持通报》的影响因子较低,说明影响因子较高的期刊文章,对重要性等级较低的背景和扩展阅读的引用较少,对重要性等级较高的数据和相关研究的引用较多,然而影响因子较低的期刊文章则相反。

2.3.3 基于引用功能的引用行为的重要性加权

在表7的引用功能分类模型中,划分10种类型的重要等级,将各功能类型的占比按照重要性等级计算引用行为的重要性加权。计算公式为:引用行为的重要性加权=∑(功能类型×等级),计算结果见表9。由计算结果可知,《农业工程学报》重要性加权最高,《水土保持通报》最低。同时发现引用行为的重要性加权与期刊综合影响因子的两个最值相互对应,因此引用行为的重要性加权与期刊影响因子之间是否具有相关关系仍需要进一步验证。

表8 不同期刊中引用功能类型的引文分布

注:表8中数据是人工标记与机器标记的合集,加粗数据为每种引用功能的最大值与最小值。

表9 不同期刊中基于引用功能的引用行为重要性加权

分析引用行为重要性加权与影响因子的Pearson相关性,结果见表10,可知引用行为重要性加权与期刊的复合影响因子和综合影响因子均存在显著的统计相关关系,原因与2.1节中分析的情况相同。因此,引用行为重要性加权即高质量引用更有可能获得较高的引用或者具有获得较高引用的潜力。

以引用行为重要性加权为横坐标,期刊综合影响因子为纵坐标,绘制对应关系,见图3。分布趋势为y=3.4946x-9.9275,拟合优度(R)达到90%,说明引用行为重要性加权与期刊综合影响因子之间基本呈现线性相关。最明显的离群点是《中国沙漠》,其引用行为重要性加权值为3.132,而其综合影响因子为1.395。

表10 引用行为重要性加权与影响因子的相关性分析

注:①**表示在0.01水平(双侧)显著相关;②综合影响因子仅计算期刊论文的被引频次,复合影响因子还包含硕博士学位论文及会议论文的被引频次;③括号内数据为显著性系数。

图3 引用行为重要性加权与期刊综合影响因子的拟合关系

由表10和图3可知,引用行为重要性加权与影响因子之间的线性相关关系为强相关,因此期刊中文献若引用较多的重要性等级较高的观点、结论、数据、方法和相关研究,意味着其有可能获得较高的引用或者认为其具有获得较高引用的潜力。同时,期刊编辑可以通过在审稿中关注文献中的引用行为,多录用对结论、观点、数据和方法等引用行为较多的文献,从而提高期刊的影响力。

3 结论

结合2014—2015年荒漠化与水土保持领域中文核心期刊的引文文本,分析了8种期刊的平均引文数量、引文情感倾向和引用功能,探讨其与2016年期刊影响因子(计算年为2014—2015年)之间的关系。通过研究期刊影响因子与期刊的引文数量、引文情感和引用功能的相关分析得到以下三个结论。

首先,期刊文献的平均参考文献数量与影响因子存在显著相关关系。通常如果文献引用的参考文献数量较多,认为其对前期研究作了充分的调研和分析[15],或者文献可能更偏向于综述类型,被引用的可能性较大。这说明期刊文献的参考文献数量在一定程度上影响期刊的被引情况。

其次,期刊文献引文中的情感倾向与期刊影响因子无直接关系。将负向引用占比较大的期刊中的相关文章对不同研究的观点、结论、方法进行对比,发现引文的负向情感倾向是批判或者改进被引文献[16],是作者表达观点的一种方式。

最后,基于不同引用功能的引用行为重要性加权与期刊影响因子存在显著的相关关系。加权计算不同引用功能的占比和重要性等级,凸显重要性较高的引用功能的价值,除《中国沙漠》稍有差异的离群点以外,计算所得的引用行为重要性加权能够客观地反映文献引用行为的重要性。因此在一定程度上,期刊文献可以关注引用功能的类型以判断其被引潜力。

综上所述,对于2014—2015年荒漠化与水土保持领域的中文核心期刊而言,期刊中文献的平均引文数量、引用行为重要性加权都与影响因子存在相关关系,而引用中的情感倾向则与影响因子无关。因此,对于作者而言,增加参考文献数量和在文献中较多引用观点、结论、数据、方法和相关研究等,意味着有可能获得较高被引的潜力;对于期刊编辑而言,可以通过在审稿中关注文献的参考文献数量和引用行为,从而提高期刊的被引频次。

[1] 陆伟,孟睿,刘兴帮. 面向引用关系的引文内容标注框架研究[J]. 中国图书馆学报,2014,40(6):93-104.

[2] Liu Y,Rousseau R. Interestingness and the essence of citation[J].JournalofDocumentation,2013,69(4):580-589.

[3] Small H,Greenlee E. Citation context analysis of a co-citation cluster:Recombinant-DNA[J].Scientometrics,1980,2(4):277-301.

[4] 王文娟. 基于引文文本的引用行为分析——以国内图情领域为例[D]. 北京:中国科学院大学,2016.

[5] Bornmann L,Daniel H D. What do citation counts measure? A review of studies on citing behavior[J].JournalofDocumentation,2008,64(1):45-80.

[6] Garfield E. The history and meaning of the journal impact factor[J].Jama,2006,295(1):90-93.

[7] 中国知网. 期刊导航[EB/OL]. [2017-03-11]. http:∥navi.cnki.net/KNavi/Journal.html.

[8] Garzone M,Mercer R. Towards an automated citation classifier[J].AdvancesinArtificialIntelligence,2000,1822:337-346.

[9] Agarwal N K,Xu Y C,Poo D C C. A context-based investigation into source use by information seekers[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2011,62(6):1087-1104.

[10] Moravcsik M J,Murugesan P. Some results on the function and quality of citations[J].SocialStudiesofScience,1975,5(1):86-92.

[11] Martens V,Goodrum A A. The diffusion of theories:A functional approach[J].JournaloftheAmericanSocietyforInformationScienceandTechnology,2006,57(3):330-341.

[12] 陈晓丽. 引文类型比较分析[J]. 图书与情报,1998(4):50-53.

[13] Chang S J,Rice R E. Browsing:A multidimensional framework[J].AnnualReviewofInformationScienceandTechnology,1993,28:231-276.

[14] Sula C A,Miller M. Citations,contexts,and humanistic discourse:Toward automatic extraction and classification[J].LiteraryandLinguisticComputing,2014,29(3):452-464.

[15] Webster G D,Jonason P K,Schember T O. Hot topics and popular papers in evolutionary psychology:Analyses of title words and citation counts inEvolutionandHumanBehavior,1979—2008[J].EvolutionaryPsychology,2009,7(3):348-362.

[16] 魏杨烨,孙玉琦,汪琦凡. 基于引用频次和引用内容的引文评价分析[J]. 情报探索,2016(8):116-120.

猜你喜欢

参考文献数量期刊
期刊更名启事
期刊简介
芳芳猜童话书的数量
期刊问答
The Muted Lover and the Singing Poet:Ekphrasis and Gender in the Canzoniere*
统一数量再比较
Study on the physiological function and application of γ—aminobutyric acid and its receptors
头发的数量
The Review of the Studies of Trilingual Education in inghai
期待您的加入