图书情报类期刊高被引论文多维特征计量分析
2021-12-08裴光兰
裴光兰,凌 民
(1.西南民族大学 图书馆,四川 成都 610041 2.宁波大学 图书馆与信息中心,浙江 宁波 315211)
高被引论文指在某个统计区间论文被引频次数排在该学科前列的论文,在一定程度上代表了学科的研究进展,具有重要的研究意义。由于高被引论文的被引频次能够客观地反映论文的影响力以及在学术交流中的作用和地位,因此,近年来高被引论文成为国际上普遍采用的科研水平评价标准[1]。揭示这种共性规律的产生、发展和变化过程对于指导科研工作者正确地进行科研论文写作具有较大意义[2]。汤森路透集团文献评价分析工具ESI中将高被引论文定义为过去十年被引用次数排在各学科前1%的论文[3]。我们此次的研究对象是18种图书情报类CSSCI期刊2010年(含)以后发表的科技论文。从每种期刊上选择被引频次最高的10篇。由于《图书馆论坛》高被引第9、10、11这三篇频次相同,所以,我们共计下载论文181篇,下载时间为2019年8月7日。
一、题名特征分析
(一)题名的长度
题名是以最恰当、最简明的词语反映论文中最重要的特定内容的逻辑组合,是论文精髓的集中体现[4]。规范撰写的题名可以帮助读者准确地定位所需要的文献,准确、统一的著录可以使文献得到全面揭示,提高检索效率[5]。题名长度方面,我们查阅了这18种期刊网站,发现只有3种期刊建议了题名的长度。《情报理论与实践》希望中文题名最好不要超过17个字,《图书馆学研究》要求论文标题在20字以内,《信息资源管理学报》要求题名一般不超过20个字,其他15种没有提及题名长度。《南京医科大学学报》在来稿题名和作者署名的注意事项中指出,中文题名一般不超过20个字,必要时可加副标题。杨宇&张子军(2019)认为,按照普通论文的中文题名在字数上一般不宜超过20个汉字,这种规定应视为上限,在保证能准确反映最主要的特定内容的前提下,题名字数越少越好[6]。
我们借鉴了李宏伟&张威(2012)研究时计算题名长度的标准:两个大写字母或1个大写字母和2个小写字母或4个小写字母视为1个汉字;2个数字视为1个汉字,1个字母和1个数字视为1个汉字;全角情况下的连接符或标点视为1个汉字,半角情况下2个视为1个汉字[7]。根据这样的计算标准,我们发现这181个标题有3239个汉字或由字母、数字、标点折算过来的汉字单位,篇均17.9个。最长的标题是42个字,最短的是6个,有47个标题的字数在21(含)个字以上,占25.97%,不过,超过20个词的标题中,有16个的题名是正副标题。李宏伟、张威以4种生物医学类科技期刊所刊发的1658篇论文题名为研究语料,统计分析了科技论文题名的字数,研究发现,70.39%的生物医学类研究人员撰写的论文题名字数超过20个汉字,非生物医学类也有24.86%的论文题名长于20个汉字,基于这样的研究结果,他们建议应放宽对科技论文题名字数的要求,建议以不超过30个汉字为宜。
表1 题名的长度
从表1我们可以看出:有15个和16个字符的题名以17次名列第一,紧随其后的是14个字符和20个字符(均为16次)、17个字符(15次),其余字符数的题名都不到10篇。从最大值来看,与化柏林(2007)的研究结果很相似,他研究了42989篇图书情报学论文,发现14个字符的标题最多[8]。
(二)题名的结构特征
在标题结构研究方面,凌民(2000)以北京大学学报(哲学社会科学版)的论文标题为基础,从结构上将学术论文的标题分为词组型标题、分句型标题、冒号/破折号型标题和正副题型标题[9]。刘君君(2005)将题名分为短语型篇名、冒号型篇名、正副标题型篇名[10];史顺良,任育新(2010)分析语言学学术论文标题结构特征时,将所有标题分为复合型结构、名词词组结构、动名词结构、介词词组结构、完整句子结构、小/分句结构和不定式结构等七类[11];林佳瑜(2010)将论文标题分为结论型、中立型或描述型及问题型三类[12];曹阳、赵硕(2014)利用Science和Nature的语料,探讨标题的结构和语言特征时,将所研究的303个标题分为名词短语结构标题、完整句子结构标题和复合型结构标题三大类[13]。杨廷君、凌民(2018)探讨中外图书情报学期刊论文英语标题的结构特征时,将英文标题分为名词词组型标题、复合型标题、动名词型标题、完整句子型标题、介词词组型标题和祈使句型标题等六类[14]。从上面的综述我们可以看出,除了凌民研究的是纯汉语期刊的论文标题外,其余学者的研究重点在中外期刊的英文标题结构特征对比,但他们的分类基础值得借鉴。在此基础上,我们将这181个题名分为七类,具体数据如下:
表2 题名的结构分类
从表2我们可以看出:我国图书情报学者撰写论文时,倾向于使用“名词词组型题名”、“名词词组并列型题名”和“正副篇名型题名”这三类题名,而且名词词组具有绝对优势,这与我国科技期刊长期以来优先采用名词词组题名,忌用或少用结构完整的句子作为题名的撰写原则是一致的。值得注意的是,林国栋(2016)统计分析了国际知名期刊Cell在2015年里刊发的334篇研究论文,结果发现有182篇采用短句式题名,短语式的152篇,两者的占比分别为54.5%和45.5%,分析论文题名和内容的关系后林国栋认为短句式题名与短语式题名从不同角度表达论文内容,短语式题名的重点是概括论文的研究内容和研究范围,而以陈述句为主的短句式题名直接展示论文的研究结果,读者从中获取更有价值的信息[15]。
(三)题名的尾词分析
学术论文题名尾词依据其有无明确的专业特征,包括图书馆学、情报学或其它学科,可分为专业词和通用词两类。我们把181篇论文的尾词建一个文件,存为文本文件后,用语料库检索软件AntConc 3.2.1w提取数据,见图1。
图1 181篇论文尾词频数
从图1我们可以看出:这181篇论文的尾词比较集中,归目后(去掉重复的)只有60个。如图1所示,以“研究”为尾词的论文高达54篇,换句话说,接近30%的论文使用了“研究”作为论文的尾词。按篇数排名,位列第2-10名的分别是“综述”(16篇)、“分析”(11篇)、“展示”(8篇)、“为例”(7篇)、“构建”(6篇)、“趋势”(6篇)、“实现”(6篇)、“图书馆”(4篇)、“展望、探析、进展”(均为3篇)。值得注意的是,我们分析这些尾词后,发现只有“图书馆”、“互联网”带一点专业词性质,其他的都是通用语。尾词方面的研究结果与叶新明(2018)的研究很相近,他研究了10种图书馆学类期刊在1997年至2016年刊发的53735篇论文,发现词频超过1000次的尾词有5个,全部为通用词,它们是“研究”、“分析”、“为例”、“思考”和“探讨”[16]。数字对比显示,两组尾词前五位有3个相同。
二、作者分析
(一)合作度和合作率
科技论文的作者分析主要有论文的作者合作度和合作率。合作度指所研究论文的平均作者数,即论文作者总数和论文之间的比值,而合作率则指具有合作的论文数量与论文总数之间的比值。随着时代的发展和科技的进步,新生事物不断涌现,信息和知识呈现井喷式增长,个人知识更新的步伐永远无法保持同步,在这种情况下,合作开展高质量的科研就逐渐成为最佳选择。统计显示,这181篇论文有作者359人,合作度为1.98。作者数的分布情况为:69篇论文系独立完成,其余论文均为合作完成。其中,合作情况分别为:2人(68篇)、3人(29篇)、4人(9篇)、5人(5篇)、6人(1篇),论文的合作率为61.88%。在合作论文中,合作者为2人和3人的占绝对优势,共计97篇,占合作论文的86.61%。我们可以借鉴一下相近时间段图书情报学期刊论文的合作度和合作率。孙育华(2010)的研究数据显示,在合作率方面,《图书馆理论与实践》2006-2008年为30.64%,《图书馆杂志》2008年为28.19%,《图书馆建设》2007年为25.73%[17];《图书工作与研究》2003-2007年为26.18%;彭媛媛和王筠(2015)研究了2010-2014年间《情报学报》刊载的期刊论文,发现该时间段的论文合作率为82.8%,论文合作度为1.31[18];谢蕴(2012)的研究数据显示,《图书馆论坛》2011年的合作率为32.84%,合作度为1.44[19];张桂玲研究了《图书馆理论与实践》2011-2015年间的作者群,发现该刊这期间的论文合作度为1.51[19]。数字对比显示,高被引论文的作者合作率比《情报学报》低,比其他期刊高出30多个百分点;合作度方面,高被引论文比《情报学报》和《图书馆论坛》分别高出0.67和0.54。
(二)核心作者
表3 核心作者情况表
从表3我们可以看出:核心作者主要分布在高等院校和科研院所。在科研院所中,中国科学院和上海社会科学院的两位研究人员各有4篇论文成为高被引论文,并且是论文数最多的研究人员。在高等院校中,武汉大学具有不可撼动的优势,有五位研究工作者成为核心研究人员,占核心研究人员的三分之一。
(三)作者机构分析
对作者机构的研究和分析可揭示学科研究优势的区域差异,为今后的协作研究和人才培养提供信息。统计发现,这181篇论文中,独立作者或第一作者的机构涉及87个机构,其中,两个美国机构。我们提取了发文两篇(含)以上的机构,生成表4。
表4 181篇论文第一作者的机构
从表4我们可以看出:高被引论文作者的机构主要集中在高等院校和科研院所。武汉大学在该领域占绝对优势,它的发文量是第二名中国科学院的两倍多,第三名南京大学和第四名北京大学这两所名校的发文量还不到它的三分之一或四分之一。还有一个值得注意的机构,就是桂林理工大学,它和北京大学并列,它的高被引论文数量超过了吉林大学、南开大学、四川大学这些名校,足见该校在图书情报学研究方面具有较强的研究实力。
三、摘要长度
科技论文摘要是科学论文的重要组成部分,是论文的高度浓缩,它在科技交流中有两个作用:提高检索和阅读效率与提高科学交流效率,促进学术论文的传播[20]。读者检索到某论文后,通过摘要就初步把握了论文的研究对象、研究方法、研究过程、研究工具、研究结果和研究得到的启示等主要科学情报。因此,高质量的论文摘要可提高检索率,通过影响更多的读者而扩大学术影响力,进而介入到进一步的学术交流与科学研究中。科技论文摘要可大致分为报道性摘要、指示性摘要及报道指示性摘要三类。一般的学术期刊在摘要长度、语言结构、名词术语、避讳用词等方面提出了撰写要求。例如,《现代情报》要求摘要的字数在200字左右,内容要包括研究的目的或意义、方法或过程、结果或结论;《图书情报工作》要求作者在摘要中首先要写出撰写论文的背景、意义和目的,或本文拟解决的问题。《图书情报知识》对摘要需要撰写什么做了说明后,还指出了需要避开什么,如“文摘切忌出现和引言重复的内容,尽量采用客观的描述,不宜对内容进行自我评价”等;《图书馆杂志》要求摘要“应包括研究问题、目的、方法、结果或结论等基本要素不用评论性或指示型说明,一般不超过150词”。
尽管不同期刊对论文摘要长度的要求相同(一般在150词-300词之间),而且作者在撰写和根据编辑部修改意见修改论文时,多半已将字数控制在要求的字数之内,对论文摘要长度的研究能揭示一些共性数据,以服务于图书情报领域的研究人员。
提取论文摘要时,我们选择定论文后,点击“导出/参考文献”,在“文献导出格式”处点击“自定义”后,选择“摘要”,提取这181篇论文的摘要。统计后发现,这181篇论文的篇均字符为166.46。
从表5我们可以看出:位居篇均最长摘要的《情报学报》(245.6)比最短《情报资料工作》(110.3)多出130多个字符;在“最长摘要”这一组数据中心,最大值(386)比最小值(149)高出237个字符;在“最短摘要”中,最大值(165)比最小值(63)多出102个字符;18种期刊的篇均摘要字符数均没有超过250,篇均字数在200以上的,只有2种;少于150的有4种。181篇摘要长度的区间分布分析显示,15篇的字符少于100个,占8.29%;101-150的有64篇,占35.36%;151-200的有60篇,占33.15%;201-250的有23篇,占12.70%;251-300的有15篇,占8.29%;超过300的只有4篇,占2.21%。
表5 摘要篇均长度
从图2我们可以看出:这181篇高被引论文的摘要长度在101-200字符之间(124篇,占68.51%),200个字符以上的只有42篇,占23.20%。
图2 摘要长度的区间分布 图3 关键词词云图
四、关键词分析
关键词是科技论文的文献检索标识,是表达文献主题概念的自然语言词汇,是论文信息的高度概括,也是研究和论述课题的主要线索。随着计算机的广泛应用,关键词不仅有利于文献进入电脑检索系统和便于二次文献的编制,还为读者了解文稿内容提供了方便[21]。关键词包括主题词和自由词两个部分。主题词是专门为情报检索结构编制索引用的,它是从自然语言的主要词汇中选取后并加以规范化并录入《汉语主题词表》的词或词组;自由词则是未规范化的词或词组[22]。
此次研究,181篇论文共有744个关键词,没有出现趋中趋势,即关键词分布很开阔,出现频率在10词以上的只有6个词,它们是“大数据”(25次)、“图书馆”(23次)、“高校图书馆”(17次)、“阅读推广”(16次)、“图书馆服务”(14次)、“微信”(13次)。我们利用语料库技术,将关键词做成了词云图(图3),可以直观地看出它们的频率(频率越高,字体越大)。
(一)论文篇均关键词数
期刊一般对关键词的个数和撰写规范有明确的要求,要求作者从题名、层次标题和正文中选出3-8个关键词。我们首先对关键词的数量进行了统计分析,发现这181篇论文共使用744个关键词,篇均关键数是4.11个,比化柏林的研究结果少0.6个。下面是关键词的具体数据。
从图4我们可以看出:只有3个和4个关键词的论文占有绝对优势(占总数的71.72%)。有7个关键词的论文只有4篇,8个关键词的为零篇,超过8个的只有1篇。该篇论文是主题为“智慧城市与图书馆服务”的第六届上海国际图书馆论坛的主旨报告,会后修改后发表,原文作者是英国人,由上海图书馆上海科学技术情报研究所副研究馆员陈旭炎翻译成汉语。由此我们可以看出,高被引图情期刊论文的关键词主要在3-6之间,以3个和4个居多。
图4 关键词的个数 图5 关键词的长度
由于我们研究的是18种期刊,尽管这181篇高被引期刊论文的篇均关键词只有4.11个。是否存在这样一种情况:某些期刊的篇均关键词较大,而另一些较少呢?
表6 18种期刊的篇均关键词数(个)
从表6我们可以看出:10种期刊的篇均关键词在4.0(含)以上,8种期刊在3.5-3.9之间,这样的数字分布非常合理。从比值来看,最大的(4.8)比平均值高出0.7,而最小的(3.5)比平均值少0.6。换句话说,处于极限两段的期刊,它们的关键词数量之差只有1.3,即关键词数量最多的期刊,也只比关键词次数最少的期刊多1.3个关键词。由此可以看出,图书情报类CSSCI期刊高被引论文的关键词数量与期刊没有直接联系,即期刊对关键词的多少没有导向性影响。
(二)出自题名的关键词数量
论文的关键词出自题名、层次标题和正文,而题名一般不能超过20个汉字。那么,多少个关键词会出自题名呢?
从表7可以看出:这181篇论文中,有744个关键词,359个出现在题目中,占比是48.25%。9种期刊刊发的论文有50%以上的关键词出现在题名里,最大值是《情报科学》,该刊刊用的论文有72.97%的关键词出现在题名中。有3种期刊低于35%,最低的只有25.58%。虽然有多少关键词出现在题名中不会影响论文的质量,但题名概括的信息越多,论文被检索到的概率就越大。有的专家就明确指出,题名中一定要有反映文章内容的关键词,关键词多一些更好。
表7 出现在题名中的关键词数量
(三)关键词的长度
按照学术规范,科技论文的关键词尽可能从《汉语主题词表》等词表中选用,未被词表收录的,也可作为关键词标注。杨一琼(2004)认为直接从文献中提取的关键词不受词表控制,是未经规范化处理或仅作少量规范化处理的自然语言,它们的标引呈现一定的自主性特征,作者用词有一定的自由性。下面我们从关键词的长度来看看这一特点。
从图5我们可以看出:具有绝对优势的是由4个字构成的关键词,达到338个,占45.43%。3个和5个分别占15.48%和14.92%。这三个数合计为75.81%。从图5我们也能看出:尽管由7、8、9个字符组成的关键词数量不多,但它们也出现了。值得注意的是,由1个字符组成的关键词是英语字母,不是汉字。此外,还有35个标题或由英文字母或单词构成(如CiteSpace,CNKI),或由英文字母加汉字(如h-指数,LDA模型)构成。
五、结语
基于相关数据,本研究对18种图书情报类CSSCI上的181篇高被引论文从题名、作者、摘要长度和关键词等角度,探讨了图书情报类高被引论文的相关特征。研究发现,14-20个汉字的标题最多,15-16个汉字的标题位列第一,14和20个汉字的标题次之;“名词词组并列型题名”、“名词词组型题名”和“正副篇名型题名”为常见结构;“研究”、“综述”和“分析”是最高频的三个标题尾词;这181篇论文的合作度为1.98,摘要的篇均字符为166.46,篇均关键数为4.11个;高被引论文作者的机构主要集中在高等院校和科研院所,中国科学院和上海社会科学院各有两位研究人员均有4篇论文成为高被引论文,且是论文数最多的研究人员,而武汉大学的核心作者数位列第一。摘要篇均字符长度和篇均关键词数《情报学报》分别以245.6字符数和4.8个关键词夺魁。虽然图书情报类CSSCI期刊高被引论文的摘要和关键词数量与期刊没有直接联系,即期刊对摘要及关键词字数的多少没有导向性影响,有多少关键词出现在题名中不会影响论文的质量,但题名概括的信息越多,论文被检索到的概率就越大,论文在学界产生的学术影响也就越大。因此,值得注意和重视。