科技学术期刊系统的分形特征
2013-09-09杨青
杨 青
(福州大学学报自然科学版编辑部,福建福州 350108)
科技学术期刊系统的分形特征
杨 青
(福州大学学报自然科学版编辑部,福建福州 350108)
运用分形理论的概念和方法分析科技学术期刊系统(期刊数据库JCR2008,CJCR2009,CAJCCR2006等)关于影响因子的统计分形特征。当以期刊的影响因子为“尺度”来度量一个期刊系统时,关于影响因子的期刊数量的累计分布率与影响因子在一定范围内呈负幂函数关系,即呈现出分形特征。期刊系统统计分维特征参数D值的大小显示系统中期刊关于影响因子层次化程度的高低,期刊系统的D值越小,其层次化程度越高,系统功能发挥得越好。一个拥有大量较高影响因子的期刊系统所具有的统计分形特征为:较宽的影响因子无标度区间和较低的分维特征参数D。
分形理论;科技学术期刊系统;影响因子;影响分形;无标度区间;分形特征
一、概述
系统思维方式认识对象的基本思路是把对象看作各要素以一定的联系组成的结构与功能统一的整体。系统的结构是系统内部联系的描述,系统的功能则是系统与外部联系的表征。[1]根据系统的层次性原理[2]可知,组成系统的诸要素按照其质的差异形成等级秩序性或层次序列是系统的基本特征。同时,结构功能相关律规定,系统的层次性即结构是系统功能的基础,系统的功能依赖于系统的结构。对于人为系统,只有系统的结构合理,系统才能具有良好的功能,系统的功能才能得到好的发挥。
对于一个科技学术期刊系统——拥有数以千计组成期刊的数据库,如果把组成期刊看作系统要素,显然,系统要素期刊之间最基本的联系就是期刊间的引用关系。
影响因子概念源自E.Garfield博士为其编纂的SCI挑选期刊时所采用的一个简单方法[3],
影响因子IF=该刊前两年发表论文在统计当年被引用的总次数/该刊前两年发表论文总数
由其定义可知,期刊影响因子反映一个期刊在数据库中影响力的相对大小,显示期刊在一段时间内被数据库中其他期刊引用态势的相对强度。因此,研究一个系统中期刊数量关于期刊影响因子的分布可以对基于期刊间引用关系的期刊系统结构进行描述,以了解系统在引用关系方面的等级秩序性或层次序列——层次化程度。
分形理论作为一种新的科学方法论,其概念和方法已经被广泛地应用到自然科学和社会科学领域,为人们认识事物的复杂性提供了新的构思和手段。[4]对于一个科技学术期刊系统,当以期刊影响因子为尺度来度量这个系统时,关于影响因子的期刊数量的累计分布率与影响因子在一定范围内呈负幂函数关系,即呈现出分形特征。本文通过分析比较不同期刊系统(如CJCR与 JCR等)关于影响因子的统计分形特征,旨在探究一种可以表征期刊系统层次化程度的方法,提出一个认识科技学术期刊系统结构的视角,为使期刊以及期刊系统在科技创新活动中真正发挥其应有功能、构建一个有序的发展的学术期刊系统结构提供参考依据。
二、文献计量学经验定律及其分形学意义
不论是在客观世界还是在主观世界,自然界的许多系统、现象和过程都具有分形特征。分形是自然界非线性特征的几何表现,因此分形性是自然界的一种基本属性。[5][6]
文献计量学的三个最基本的经验定律(Bradford定律、Zipf定律和Lotka定律)是分别从不同对象中总结出来的,但其分布函数十分相似,均呈负幂律分布(简称布-齐-洛分布)。
S.Redner研究了科学信息研究所(ISI)收录的发表在1981年的783339篇论文,在1981至1997年6月的被引用情况,涉及引用文献6716198篇(ISI收录论文)。[7]其研究结果表明,在科学论文引文的分布中,存在同样的分布函数形式:在一定的范围内,被引用了x次的论文的数量N(x)与x之间也服从幂律分布N(x)∝x-α,指数α≈3。并且,论文至少被引用次数Yk与引用排名k之间服从Zipf定律。
方曙从分形模型十分简单地导出了布-齐-洛分布,说明布-齐-洛经验定律是统计分形模式在不同对象上的具体表述。也就是说,尽管三个经验定律所考虑的对象不同,但它们的分布规律均表现出一种相同的属性——统计分形特征。[8]对于三个经验定律及 S.Rednerd科学论文引文分布规律,抛开所考虑的具体对象,从本质上看,它们都是在某一主体中,当用一个“尺度”去度量时,其分布规律呈现出的一种统计自相似性分形。表1列出在统计分形视野下,不同经验定律中的主体和度量“尺度”。
表1 文献计量经验定律在统计分形中的主体和“尺度”
分维数值D的大小是复杂程度的一种量度,它描述了一个主体关于某一个尺度分布的复杂程度。在分形学的视野下,文献计量经验定律中的n即为分维D。主体的D值越低,其复杂程度或层次化程度越高。以Lotka定律为例,不同的学科具有不同的分维D,按自然科学、技术科学、社会科学与人文科学的顺序依次增大。[9]在这里,D值显示了不同学科著者分布均匀程度的信息。基础自然科学类D值较低,因为其专业化程度高、研究人员的知识水平及学术修养要求较高,而且需要一定的实验设备和手段,著述能力相对悬殊,所以著者分布较为集中,即层次化程度较高;社会科学与人文科学类D值较高,因为社会科学与人文科学对研究人员的要求和研究条件等没有自然科学那样苛刻,即一般人(包括搞自然科学的人)都可对其有所著述,从而著者分布较分散或较平均,即层次化程度较低。
三、认识科技学术期刊系统层次化程度的意义
知识资源的获取、组织、创新和开发利用是一个国家在发展过程中保持其适应性、健康地生存并具有竞争能力的要求。愈是发展着的组织,愈是需要知识的支持。获取更深层次知识的有效途径“是通过他人创造的间接知识与自身的社会实践形成的直接知识有机结合,并在这种结合乃至化合的基础上,形成自己独有的感悟、发现和创新”。[10]
科技学术期刊在知识资源的获取、组织、创新和开发利用的过程中有着不可替代的重要作用,期刊间密切的引用关系是知识信息得到传承和发展的基本保证。以复杂系统的观点来看,科技学术期刊系统是科技创新体系的一个子系统,一个学术期刊系统应该具有开放和运行有序的自组织系统特征。
科技学术期刊所刊载的内容应是基于社会发展的需求而不是以发表论文为目的;学术期刊通过引用文献链接在一起,应在科研活动中发挥承上启下的作用,期刊间的引用关系使得知识信息的表达和组织从文献单元深化到知识单元,使处于分散状态的知识信息组织有序;由期刊间的引用关系构成的系统结构应是层次化的有序的。可以说,基于期刊间引用关系构成的系统结构越合理,创新体系越能有效地从中获取、开发和利用知识资源。
一直以来,提高我国科技学术期刊的影响因子、提高期刊的学术影响力是大多数办刊人努力工作的目的。当低影响因子期刊大量存在;当相比于值得发表的论文数量,期刊数量供过于求;当越来越多的科技期刊已经不再具有其所谓“窗口”的功能,优秀论文大量“外流”;……如何使一个期刊乃至整个科技学术期刊系统在科技创新活动中真正发挥其应有功能已经成为一个迫切需要解决的问题。因此,认识科技学术期刊系统结构及其与功能的相应关系有着非常重要的意义。
一个期刊的影响因子反映了这个期刊在一段时间内被引用态势的相对强度,显而易见,一个科技学术期刊系统中影响因子的分布情况则在一定程度上反映了这个系统的基于期刊间引用关系构成的系统结构。分形理论的概念和处理问题的方法为我们提供了探究这种系统结构层次化程度的可能性和途径。
由美国科学信息研究所(ISI)编制的《期刊引证报告》(Journal Citation Report,JCR)从发布至今已有40多年了,JCR系统是一个组成期刊经过不断筛选、优化且具有极高国际化程度的学术期刊系统。系统中的出版物主要来自以美英为主的60多个国家和地区(包括地学、工程技术、管理科学、化学、环境科学、农业科学、社会科学、生物、数学、天文、物理、医学和综合性期刊),系统中的期刊影响因子高低相差很大,最低值为0,最高值在2005年为50、2008年为74.6。众所周知,JCR系统中汇集了大量高影响力的综合性期刊和专业性期刊,它们在世界科技发展活动中发挥着非常积极的作用。了解该系统具有怎样的分形特征对于认识科技学术期刊系统结构与功能的相应关系有着重要的借鉴意义。
我国科技期刊的影响因子自1998年起由中信所以《中国科技期刊引证报告》(Chinese Journal Citation Report,CJCR)的形式正式发布,作为期刊影响力评价的重要指标之一。CJCR系统(包括数学、信息科学与系统科学、物理学、力学、化学、天文学、地学、生物学、农业科学、医药卫生、工业技术、电子与通信、计算技术、交通运输、航空航天、环境科学、理工大学学报与工业综合类、综合类和管理学)与JCR系统相比,所含期刊种类不尽相同,但差别不大,且系统的期刊总数相近。与JCR系统相比,CJCR系统的期刊影响因子分布区间较窄,如1998 年为0 ~ 2.5,2009 年为0 ~7.8。
以“中国知识资源总库”中最大的文献信息资源——“中国期刊文献数据库”所收录的各类学术期刊的引文数据为基础编制而成的科学文献计量年报《中国学术期刊综合引证报告》(CAJCCR)也对包括影响因子在内的各项文献计量指标进行了统计和分析。CAJCCR系统中包括自然科学、社会科学、工程技术、艺术与人文科学等各个学科的期刊。据CAJCCR统计,2006年影响因子区间为0~7.4。
四、科技学术期刊系统关于影响因子分形特征的表达
在期刊系统中,期刊关于影响因子的层次化分布是客观存在的。正如在JCR、CJCR和CAJCCR系统中看到的,尽管影响因子绝对值存在着较大的差异,但影响因子的分布有着相同的层次化特点:在同一类型或同一学科期刊中,影响因子较高的期刊数量较少,影响因子较低的期刊数量较大。正是系统中存在的局部与局部、局部与整体在影响力方面所具有的统计意义上的自相似性使得一个期刊系统在一定程度上具备分形特征,并且,这种程度越高表明系统所具备的分形特征越显著、系统的有序性越好。通过对建立在期刊间引用关系上的期刊系统结构——“影响分形”的表达可以较全面地定量地刻画期刊系统关于影响因子的层次化结构。
一个期刊的影响因子是基于它所在的数据库中所有期刊的统计数值,把一个期刊数据库中的所有期刊的影响因子的集合称作这个数据库或期刊系统的影响分形。
在描述地学等自然事件的分布中,以幂律函数形式的超越率函数所表达的统计特征在统计分形中有着极为广泛的应用。[11]在处理各种实际问题时,可以使用事件出现的频度近似地替代超越率函数。对科技学术期刊系统,以期刊影响因子为“尺度”来度量一个期刊系统主体时,大于或等于影响因子f的刊物累计分布率p(≥f)与f之间有下式成立:式中:f为影响因子;p(≥f)为影响因子大于或等于f的刊物累积分布率,p(≥f)=n/N,n为为影响因子大于或等于f的刊物累计数,N为系统中刊物总数;D为影响分形的分维特征值。
分别对以下4个系统进行统计处理:
(1)2008年Journal Citation Reports中的所有刊物 (JCR2008,共6598种);
(2)2005年Journal Citation Reports中的所有刊物(JCR2005,共6087种);
(3)《2009年版中国科技期刊引证报告(扩刊版)》(CJCR2009扩,共6108种);
(4)《中国学术期刊综合引证报告(2006版)》(CAJCCR2006,共6331 种)。
首先,在Excel软件中将刊物按影响因子降序排列,提取影响因子fi及其所对应的累计刊物数ni,共提取36组数据。数据分为两段提取,第一段为累计刊数1(对应于最高影响因子)到累计刊数100,第二段为累计刊数100直至刊物总数(对应于最低影响因子0)。第一段,由于影响因子的变化幅度很大,故按刊数提取数据,在刊数1到100,刊数每增加10提取一组数据,共提取10组数据;第二段,按影响因子提取数据,从刊数100所对应的影响因子至0,按等间隔划分提取26组数据。然后,对每组(fi,ni)(i=1,2,…,36),按pi=ni/N,计算得到(fi,pi)(i=1,2,…,36)。最后,以lg(pi)对lg(fi)作图。双对数图中回归直线斜率的负数即为系统的分维特征参数D。
对于实际问题,无标度区间是统计分形中的一个重要限定。对于由自然事件组成的集合(如岩石破裂后形成的各种大小的碎块)或自然系统(如生物血管),满足统计分形关系的尺度范围是有限的,并且具有切实的物理意义。对于科技期刊系统影响分形,由(1)式可知,满足统计分形关系的尺度范围也就是双对数图中满足线性回归关系并同时具有实际可取影响因子的取值范围。已知,表示回归直线拟合优度的判定系数R2等于回归偏差占总偏差的比率,为使不同期刊系统间的分维特征值D(双对数图中回归直线斜率的负数)具有可比性,即各回归直线斜率具有相同比例的回归偏差,所以,必须使不同期刊系统具有相同的判定系数R2。以尝试法调整影响因子统计区间以取得相同的判定系数R2。
科技期刊系统影响分形的统计区间(即无标度区间)采用下述方法确定。区间的上限均取为第一取样点,即影响因子降序排列中累计刊数1(影响因子最高者)所对应的影响因子(IF上限);无标度区间的下限通过试算求得,在双对数图中由小到大逐个删除数据点,直至判定系数R2=0.960(为满足R2=0.960,有时需适当增加一个取样点),此处lg(fi)所对应的影响因子即为无标度区间的下限(IF下限)。
4个系统的双对数图(仅画出无标度区间部分)如图1所示,科技期刊系统的影响分形特征数据列于表2。
图1 期刊系统影响因子及其统计分布率的双对数图
表2 科技学术期刊系统影响分形特征比较
由图1可以看出,当以期刊影响因子为尺度来度量一个期刊系统时,4个期刊系统均存在无标度区间。从表2可以看出,在无标度区间内,关于影响因子的期刊累计分布率与影响因子呈负幂函数关系,即呈现分形特征。对JCR系统,其2008年影响分形的无标度区间从高到低为74.57~0.49,处于无标度区间的刊物数占系统中总刊物数的比例较高,达到83.9%,即在影响因子 74.57 ~0.49,期刊系统呈现统计分形特征,分形特征参数为1.67;我国期刊系统CJCR2009扩在影响因子7.81~0.25区间呈现统计分形特征,处于无标度区间的刊物数为50.2%,分形特征参数为2.33。
五、讨论
(一)一个运行有序有效的科技学术期刊系统的影响分形特征
科技学术期刊系统应具有怎样的结构才更有利于其功能的发挥呢?由表2数据可以看出,JCR2008系统的影响分形特征为:系统无标度区间为74.57 ~0.49,长达74 个单位,即系统在影响因子0.49~74.57具备统计分形特征,影响分形特征值D较低为1.67。结合JCR系统中汇集了大量高影响因子科技期刊及其在世界科技发展中发挥积极作用的事实,可以推论,一个运行有序有效的科技学术期刊系统所具有的统计分形特征为:较宽的无标度区间和较低的影响分形特征值D。
(二)影响分形特征值D的物理意义
分形维数D对于不同系统具有不同的含义。在科学家撰写论文数量分布中,D值显示了不同学科著者分布均匀程度的信息[12];在因特网网络结构中,D值代表了网络节点连接方式和网络的总边数对平均最短路径长度的影响[13];在城市形态演变过程中,城市建设用地边界的分维数D反映了城市外部形态的紧凑度及变化方式。[14]张嗣瀛用树状生长模型给出更具一般性和更加直观的图像:树每枝每次分杈的数目大体相同,且越往上长,长度逐次缩短,D值的大小反映了树冠分叉的情况,具有较高D值所对应的是短间距密分叉的树如灌木和草类植物。[15]
对于科技学术期刊系统,D值的大小意味着系统中期刊数量关于影响因子层次化程度的大小。D值越大,各级影响因子之间的期刊数量越相近,表明系统中期刊关于影响因子的层次化程度越低;D值越小,各级影响因子之间的期刊数量相差越大,意味着系统的层次化程度越高。
比较表2中JCR和CJCR的无标度区间长度可知,其长度相差极为悬殊:CJCR2009扩系统的无标度区间只有约7个单位,而JCR2005系统长达49个单位、JCR2008系统更长达74个单位。可以用树做一个形象的比喻:无标度区间短的系统就好比是短间距密分叉的灌木,无标度区间长的系统就好比是长间距少分叉的松树。系统无标度区间的长度越长,其最高影响因子IFmax越高,也就是说,系统影响因子所能达到的高度取决于系统结构的有序性或层次化程度。
较低的D值、较长的无标度区间以及较高的IFmax,是系统结构具有较高层次化程度的表现。与JCR系统相比,我国期刊系统层次化程度明显偏低,期刊影响因子差别不大,这与我国科技学术期刊的影响因子普遍较低的事实相符。
(三)影响分形特征的显著性
系统无标度区间刊物数占比具有明确的物理意义。无标度区间刊物数占比越高,表明期刊系统的影响分形特征越显著。比较表2中大于IF下限刊物占比(p)可以看出,JCR系统中处于无标度区间的刊物占比在2005年和2008年分别达到66.2%和83.9%,而我国期刊系统中处于无标度区间的刊物占比在2006年和2009年分别为49.0%和50.2%,说明JCR系统具有更为显著的统计分形特征,系统结构的有序性更好。
自然系统如生物血管,从主动脉到毛细血管、再到微血管所形成的巨型网络是关于血管直径分布的分形,无标度区间为从微血管直径到主动脉直径。如此,才使得血液循环系统得以把巨大的表面压缩在有限的体积之内,既满足最小能量损耗原则,又充分利用了有限的空间。在最小能量损耗与有限空间的限制条件下,生物血管等天然系统的分布被动形成了分形体,从而满足了功能与结构一致性的要求。同样,在人类社会活动中,追求较高效率和较低成本是构建一个系统并使其不断完善的基本原则,当系统实际功能与预期功能发生较大偏离时,就要求系统管理者及时对系统结构进行修正。分形理论和系统论的方法论使我们能够发现和分析这种偏离及其程度。以JCR系统这个经过优化的具有较高层次化程度的期刊系统作为参照,考察比较一个客观存在的期刊系统结构,有助于发现其结构上的问题。
在与JCR系统的比较中可以看到对我国期刊系统结构进行调整的必要性和方向。从无标度区间刊物数占比数据可以做一大致判断:在CJCR2009扩系统中,仅有50.2%(3066个期刊)的期刊分布在无标度区间,在现有社会经济文化生态环境下,若要使这一比例上升到70%或80%,应使系统的总刊数降至4300或3800。
(四)小结
一个期刊系统,只有当它具备一定的层次化程度,系统中才可能出现具有较高影响因子的期刊。系统的层次化程度越高,其中期刊所能达到的最高影响因子也越高。
对我国期刊系统存在的结构不合理、系统功能实现度低的问题,应着力提高我国期刊系统的层次化程度,减少低影响因子期刊的数量或减少低影响因子期刊的载文量。同时,治理滋生学术腐败、道德失范、评价失真等问题的环境。不能让优质论文被淹没在大量低质的、重复的和批量生产出来的所谓论文中。
注释:
[1]魏宏森:《复杂性研究与系统思维方式》,《系统辩证学学报》2003年第11期。
[2]魏宏森、曾国屏:《系统论——系统科学与哲学》,北京:世界图书出版公司,2009年。
[3]Garfield E.,“Journal impact factor: a brief review”,CMAJ,vol.161,no.8(1999),pp.979-980.
[4]张越川、张国祺:《分形理论的科学和哲学底蕴》,《社会科学研究》2005年第5期。
[5]张继忠:《分形》,北京:清华大学出版社,2001年。
[6][11]陈 颙:《分形几何学》,北京:地震出版社,2005年。
[7]Redner S.,“How popular is your paper?”,EurPhysJB,no.4(1998),pp.131-134.
[8]方 曙:《布-齐-洛分布的分形模型》,《情报科学》1990年第5期。
[9][12]方 曙:《洛特卡定律与分形理论》,《图书情报工作》1989年第6期。
[10]谭华军:《知识分类》,南京:东南大学出版社,2003年。
[13]李旲、山秀明、任 勇:《具有幂律度分布的因特网网平均最短路径长度估计》,《物理学报》2004年第11期。
[14]詹庆明、徐涛、周 俊:《基于分形理论和空间句法的城市形态演变研究》,《华中建筑》2012年第4期。
[15]张嗣瀛:《复杂系统、复杂网络自相似结构的涌现规律》,《复杂系统与复杂性科学》2006年第4期。
[责任编辑:黄艳林]
N949
A
1002-3321(2013)03-0098-06
2012-12-12
杨 青,女,湖南新化人,福州大学学报自然科学版编辑部副编审。