Nature和Science期刊基础核心区的划分*
——基于其2003~2012年载文的引刊分析
2014-03-27严建新徐莉莉苏芳荔苏立新
■严建新 徐莉莉 苏芳荔 苏立新
1) 广西大学 政治学院,530004 广西南宁市大学路100号,E-mail:eddygx@foxmail.com2) 大连理工大学科学学与科技管理研究所暨WISE实验室,116024 辽宁大连市凌工路2号 3) 广西大学 科技处,530004 广西南宁市大学路100号4) 郑州航空工业管理学院 信息科学学院,450015 河南郑州市大学中路2号
1 引言
目前,中国的核心期刊遴选以及国外数据库源期刊的遴选,都将期刊载文的被引量作为重要的评价指标之一。然而,在计算期刊载文的被引量时,并不考虑施引文献载刊的学术影响力。具体地说,被重要期刊的载文引用与被次要期刊的载文引用是等价的。事实上,科学技术期刊在学术维度上的分层是一种普遍存在的客观现象[1]。通常,期刊的学术影响力或所处的学术层次与其稿件评审的学术标准存在着正相关的关系[2],这意味着施引行为如果来自较高学术影响力的期刊载文,它就应该具有较高的评价意义。因而,期刊的载文被高影响力期刊载文引用的情况可作为期刊评价的一种辅助性指标,即:在一般意义上,如果在评价期内被评价期刊的载文相对高频地被高影响力期刊的载文所引用,那么,被评价的期刊也具有相对较高的学术影响力。在本文中,A刊的期刊基础是指刊载A刊引文的期刊所构成的集合。选择某学科或研究领域中影响力较高的期刊,对其载文进行引刊分析,如果引用频次在期刊基础中的分布存在较明显的集中现象,就可据此在该刊的期刊基础中划分出相对重要的核心区,从而可在一定程度上对该学科或研究领域内的期刊进行评价。如果选择影响力较高的综合期刊,这样的评价就可涉及不同学科或研究领域内的期刊。
英国的Nature和美国的Science分别创刊于1869年和1880年,目前在世界上享有很高的学术威望,在2003~2012年的十年间,它们的影响因子平均高达32.48和29.98。由于它们都是综合性期刊,合并分析它们的期刊基础可以对基础研究中不同学科和研究领域的学术期刊提供一个参考性的评价依据。在上述十年间,Nature和Science共刊载了16986篇论文(article),我们从美国科学信息研究所(ISI)的SCI数据库获取了这些论文的全部引文信息,以两种不同的方法在其期刊基础中划分出核心区。
2 基于期刊被引频次的划分
1934年,英国文献学家布拉德福(S.C.Bradford)首次提出了文献集中与离散规律[3],从而引出了基于这一规律的“核心区”与“核心期刊”概念。核心期刊现象是期刊学术分层的外在表现,本质上是科研人员长期互动的结果[1]。一般而言,出于对自己的时间、精力以及对引文权威性的考虑,科研人员通常选择从学术影响力较高的期刊了解有价值的研究进展,并在自己的论文中加以引用,而将研究成果发表在学术影响力较高的期刊则能获得较高和较广泛的同行承认。这不仅导致了相对较多的高水平研究成果集中地发表在少数影响力较高的期刊上,也导致了相对多的文献引用集中于相对少的期刊。因而,期刊的被引量在期刊上的相对集中也是科研人员长期互动而产生的客观现象。
期刊被引频次越低,偶然性就越大。为了排除偶然因素的影响,我们借助CiteSpaceⅡ软件仅统计在2003~2012年间被Nature和Science载文引用频次大于1的期刊。经过剔除和去重合并,共得到包括Nature和Science在内的8942种期刊,这些期刊共同构成了上述十年Nature和Science的期刊基础。440696次被引总量在这些期刊中的分布存在明显的集中现象(图1),因此可根据被引量的分布在Nature和Science的期刊基础中划分出核心区。
图1 Nature和Science引文在各载刊的累积分布(2003~2012年)
由于Nature和Science都是综合期刊,不宜用布拉德福原理确定其期刊基础的核心区。1897年,意大利经济学家帕累托(V. Pareto)在研究英国人的财富分布时提出了“二八法则”,他发现,20%的人占有80%的财富。1969年,美国学者特鲁斯维尔(R.L.Trueswell)将二八法则引入到馆藏研究中,认为图书馆“流通量的80%产生于馆藏量的20%”[4]。李江等中国学者(2011)推测,“20%的期刊占80%的被引频次”[5]。由图1可以看出,被引量在8942种期刊中的分布并不严格遵循二八法则:集中了被引量80%的期刊只占期刊总数的4.1%;而20%的期刊所集中的被引量则高达93.5%,呈现出比二八法则更高的集中度。根据二八法则的两个百分比,可将8942种期刊按被引频次从高到低划分为三个区(图1):A区包括367种期刊,占期刊总数的4.1%;B区有1421种期刊,占期刊数15.9%;C区有7154种期刊。由于A区内的期刊集中了被引总量的80%,因此这367种期刊可视为Nature和Science期刊基础的核心区,它们当中在上述十年间被引频次最高的期刊是Nature和Science(图2),最少的也被引用了133次。
考虑到学者的引用行为存在一定的偶然性[6],不能说所有的高被引文献都很重要,但重要的文献通常都有较高的被引量。每年,出版SCI的美国汤森路透集团会将成果的被引量作为主要依据之一,预测将获得诺贝尔奖的成果及科学家*见:http://sciencewatch.com/nobel/2012-predictions。
一般而言,每一成果的取得都是在前人的基础上向前迈出的一步,施引文献的重要性与被引文献的重要性存在着一定的对应关系。
基于以上的认识,我们从2003~2012年间Nature和Science刊载的论文中各选取被引频次最高的2000篇论文(占载文总量的23.5%),根据其引刊的被引频次在Nature和Science期刊基础中划分出核心区。按SCI数据库提供的统计数据,这4000篇论文中被引频次最低的为175次,而最高的是2004年10月发表于Science的论文“Electricfieldeffectinatomicallythincarbonfilms”,被引用多达10067次*含2013年的引用(2013年5月29日查询)。“Electric field effect in atomically thin carbon films”为2010年诺贝尔物理学奖的获奖成果。。这些高被引论文的引文主要刊载于3017种期刊,97870次的被引总量在这些期刊中的分布也存在明显的集中现象。其中,252种期刊(占载刊数量的8.35%)集中了80.02%的被引量(图3)。
图2 被Nature和Science载文引用次数最多的前50种期刊
图3 Nature和Science高被引论文的引文在各载刊的累积分布(2003~2012年)
根据前面的分析,我们可将这252种期刊作为Nature和Science高被引论文的期刊基础中的核心区内的期刊。图4为这些期刊中被引量居前50位的期刊,其中有40种期刊同时出现在图2所列的前50种期刊中,期刊相同率达80%。这在一定程度上表明,Nature和Science期刊基础的核心区具有相对的稳定性。
3 基于期刊共被引聚类的划分
引文分析就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用或被引用现象进行分析,以便揭示其数量特征和内在规律的一种文献计量研究方法[7]。共被引分析是引文分析的一项重要内容。1973年,美国计量学家斯莫尔(H.Small)[8]和苏联计量学家马沙科娃(I.Marshakova)[9]分别提出了文献共被引分析的概念。如果两篇文献同时被另一文献引用,这两篇文献就具有共被引关系,同时引用它们的文献越多,它们之间在研究主题上的相关性就越强。
图4 被Nature和Science高被引载文引用次数最多的前50种期刊
在研究主题上存在相关性的文献往往刊载于相同或相近学科领域的学术期刊,其中比较重要的文献又往往会被同时引用,从而在知识图谱中形成文献共被引聚类。从文献计量学的角度看,研究前沿体现于施引论文的研究主题,共被引聚类内的文献构成了该研究前沿的知识基础[10],这些被引文献的载刊则因载文的共被引而衍生出期刊的共被引关系,并在知识图谱中形成期刊共被引聚类。在同一聚类内的期刊不仅有较强的学科关联,而且也是对应研究前沿的知识基础的主要载体。具体到Nature和Science期刊基础核心区的分析,期刊共被引聚类中的期刊就构成了期刊基础的核心部分。
CiteSpaceⅡ软件是由美国德克塞尔大学(Drexel University)陈超美教授用Java语言开发的文献计量分析应用软件[11],可运用不同的算法进行期刊共被引分析,并对运算结果进行可视化处理,以不同的色彩和几何图形绘制出直观的网络图谱。本文用CiteSpaceⅡ(2.2.R9版)软件,以每两年为一个时段对前述16986篇论文的引文进行引刊分析。将被引频次(c)、共被引频次(cc)和共被引系数(ccv)的阈值分别设为19,19,21,筛除被引和共被引频次均低于19次的期刊以及共被引强度低于0.21的共被引关系,可获得聚类边界较为清晰的期刊共被引图谱。图谱包含340个期刊节点和1750条共被引连线构成,其中297个节点构成了图5中部的共被引网络。该网络以Nature和Science两大节点为中心形成八个共被引聚类(为了避免遮挡,在聚类8的细节图中隐去了节点PNATLACADSCIUSA的标签),节点直径的大小取决于节点的被引频次*指根据满足共被引聚类阈值的节点计算出的被引频次。下同。。这八个聚类中的297个期刊节点占图谱中节点总数的87.35%,被引频次总和为164148次,占总被引频次的94.42%。从期刊的学科归属看,这些期刊涉及生命科学、生物学、天文学、医学、地质学、物理学和化学等学科群,几乎涵盖了基础研究的全部研究领域。因而,各聚类中的期刊具有较大的代表性,可作为Nature和Science期刊基础的核心区。表1所列为各聚类被引频次最高的前五种期刊。
图6为基于2003~2012年间Nature和Science的4000篇高被引论文引文的期刊共被引聚类图谱,三段阈值分别设为9,9,21,同样以每两年为一个时间段。图中共包括268个期刊节点,除了7个散点外,其余节点形成共被引网络。尽管这4000篇高被引论文的79.9%发表于2003~2007年,对比基于上述十年间全部16986篇论文的引文所得到的期刊共被引聚类图谱(图5),从对应聚类的期刊节点上看,除了聚类5的期刊节点在排序上有较大差异外,两个图谱的期刊共被引聚类存在着对应关系,且图6图谱中有241个期刊节点与图5图谱的节点相同,占图6图谱节点数的89.93%。由于期刊的共被引缘于文献的共被引,从期刊共被引聚类的对应关系出发,我们认为:十年间4000篇高被引论文知识基础的主要载体与16986篇论文知识基础的主要载体在学科归属上具有较高的一致性,基于4000篇高被引论文引文的期刊基础也具有较大的代表性,各聚类内的261种期刊可视为Nature和Science的期刊基础的核心部分。
图5 基于Nature和Science引文的期刊共被引聚类
聚类被引频次期刊聚类被引频次期刊11493NEURON5838JGEOPHYSRES1443JNEUROSCI715GEOLOGY1046NATNEUROSCI660GEOCHIMCOSMOCHIMAC613NATREVNEUROSCI636JGEOPHYSRES-SOLEA546ANNUREVNEUROSCI593ICARUS2738PROYSOCB-BIOLSCI62350PHYSREVLETT554AMNAT1346PHYSREVB553TRENDSECOLEVOL1278JAMCHEMSOC494EVOLUTION821APPLPHYSLETT411ECOLOGY723REVMODPHYS3519PLANTCELL7859NATMED424PLANTPHYSIOL838JEXPMED389PLANTJ718JIMMUNOL208CURROPINPLANTBIOL706JCLININVEST204TRENDSPLANTSCI703CANCERRES4905ASTROPHYSJ813519NATURE734ASTRONASTROPHYS13009SCIENCE559MONNOTRASTRONSOC8274PNATLACADSCIUSA462ASTRONJ4913CELL312ASTROPHYSJSUPPLS3846JBIOLCHEM
我们通过以上两种方法分别对2003~2012年间Nature和Science的全部论文和4000篇高被引论文的引文进行了引刊分析,划分出这十年间Nature和Science期刊基础中的核心区并确定出核心区内的期刊数量(表2),以期为期刊评价增加一个参考性的依据。
图6 基于4000篇高被引论文引文的期刊共被引聚类图谱
方法分析对象核心区期刊数量对比期刊被引频次法全部论文的引文367种被引量最大的前50种期刊有80%相同高被引论文的引文252种期刊共被引聚类法全部论文的引文297种(阈值:19,19,21)对应聚类内的期刊在学科归属上有较高一致性高被引论文的引文261种(阈值:9,9,21)
4 讨论
研究成果的数量在各学科或研究领域的分布是不均衡的,成果较多的学科,相关期刊被引频次就会较高。当采用期刊被引频次法划分核心区时,与多成果学科相关的期刊就会在核心区内占有较大的比重。相应地,对于研究成果相对少的学科,能进入核心区的相关期刊就会相对偏少。例如,期刊ANNUREVPLANTPHYS能列入用期刊共被引聚类法划分出的核心区,但它在上述十年中被引频次为117次,仅列居第415位,未能进入由被引频次法划分出的367种重要期刊之列。因而,这有可能导致核心区内期刊的学科分布与研究的学科格局存在偏差。采用期刊共被引聚类法划分核心区则根据被引频次和共被引关系两个指标,能在一定程度上减少这一偏差。两种方法相比较,我们认为采用期刊共被引聚类法更具合理性。
帕森(Persson,1994)指出,随着共被引阈值的降低,知识基础会逐渐增大[10]。这意味着,可根据期刊评价的实际需要适当改变参数,有目的地控制核心区内的期刊数量。当采用被引频次法划分重要期刊时,在集中被引总量80%的期刊百分比,例如图1中的4.1%及图3中的8.35%,和期刊总数的20%之间选择不同的百分比,期刊基础核心区的大小就会相应改变。采用期刊共被引聚类法划分重要期刊时,在保证聚类有相对清晰边界的前提下可改变聚类的阈值来控制核心区的大小。如果仅基于高被引论文引文的期刊共被引聚类对核心区进行划分,则高被引论文的数量和聚类阈值都是影响核心区大小的控制参数。
由图5和图6的共被引期刊聚类可以看出,在这十年里,Nature和Science刊载的研究成果半数以上集中于生命科学及相邻的学科或研究领域,因而,基于Nature和Science载文的引刊分析所进行的期刊遴选将难免带有一定的局限性。同时还需要指出的是,科学研究是一个动态发展的过程,而期刊体系也存在着导致期刊在不同学术层次之间垂直流动的竞争机制[1]和层际流动的现象[12]。因而,无论采用何种方法,遴选出的核心区期刊目录都必须周期性地更新。
1 严建新,王续琨.中国科学技术期刊的学术分层机制.科学学研
究,2008,26(1):52-57 2 邱均平.关于核心期刊几个问题的思考.图书情报知识,1995,(4):16-19
3 Bradford S C. Sources of Information on Specific Subjects.Engineering,1934,26(1): 85-86
4 Trueswell R L. Some Behavioral Patterns of Library Users: The 80/20 Rule.WilsonLibraryBulletin, 1969,43(5):458-461
5 李江,伍军红,孙秀坤.中国科技期刊的“核心区”研究——基于布拉德福定律与二八法则的统计分析.中国科技期刊研究,2011,22(6):869-873
6 邱均平,嵇丽.美国《科学引文索引》与科学评价研究.科研管理,2003,24(4):22-28
7 邱均平.文献计量学.北京:科学技术文献出版社,1988:13
8 Small H. Co-citation in the scientific literature: A new measure of the relationship between two documents.JournaloftheAmericanSocietyforInformationScience, 1973,24(4):265-269
9 邱均平,马瑞敏,李晔群.关于共被引分析方法的再认识和再思考.情报学报,2008,27(1):69-74
10 Persson O. The intellectual base and research fronts of jasis 1986-1990.JournaloftheAmericanSocietyforInformationScience,1994,45(1):31-38
11 Chen C. CitespaceⅡ: Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature.JournaloftheAmericanSocietyforInformationScienceandTechnology, 2006,57(3):359-377
12 何荣利,李戈.我国科技核心期刊动态性调查与分析.情报理论与实践,2001,(6):439-441