基于文献计量学理论建立上海世博会研究文献的数学模型
2011-08-05张明伟
[摘要]通过建立上海世博会研究文献的数学模型,从文献计量学视角描述了本研究领域的文献增长趋势、作者频率分布、高产与核心作者、期刊区域划分等问题。并通过本研究验证了普赖斯定律、洛特卡定律、布拉德福定律。
〔关键词〕上海世博会;文献计量学;普赖斯定律;洛特卡定律;布拉德福定律
DOI:10.3969/j.issn.1008-0821.2011.07.023
〔中图分类号〕G250.252 〔文献标识码〕B 〔文章编号〕1008-0821(2011)07-0098-04
Bibliometrics Theory Based on the Establishment of Expo Shanghai China
Mathematical Model of the Research LiteratureZhang Mingwei
(1.Library,Harbin Medical University,Hrbin 150081,China;
2.Heilongjiang Medical Information Institute,Hrbin 150081,China)
〔Abstract〕Through the establishment of Expo Shanghai China mathematical model of the research literature,from the perspective of bibliometrics described the research in the field of Literature growth trends,frequency distribution of author,high yield and core authors,periodical zoning,etc.And through this research verified Price Law,Lotka Law,Bradford餾 law.
〔Keywords〕Expo Shanghai China;Bibliometrics;Price餾 law;Lotka餾 law;Bradford餾 law
1 数据来源与研究策略
1.1 数据来源
以中国知识基础设施工程——中国学术期刊网络出版总库为数据源。
1.2 研究策略
通过高级检索方式,以下列逻辑关系式及匹配条件检索:
(题名=上海世界博览会)或者(题名=上海世博会)(精确匹配)
检出我国申办和举办上海世博会期间的所有关于上海世博会的研究文献(检索截止日期2011年1月15日)。经下载、筛选,剔除无作者、报道、通知等不相关的文献。使用Excel、Access、超功能计算器等工具对其进行分类统计、排序整理、分析处理。分别建立普赖斯定律模型、洛特卡定律模型、布拉德福定律模型,系统分析上海世博会研究文献的客观规律。
2 建模分析
2.1 文献增长趋势,普赖斯曲线分析
2002年5月上海世博会的成功申办,奠定了研究上海世博会的基础。它的第一篇研究文献产生于2001年,题为“2010上海世博会规划概念设计国际竞赛回顾”一文,开创了我国在学术界研究上海世博会的先河。经统计,在2001-2010年的10年间,共发表上海世博会研究文献1 974篇(见表1)。通过表1拟合绘制了普赖斯曲线(见图1),直观呈现出指数增长趋势,基本符合普赖斯指数增长规律。通过观察普赖斯曲线也可以看出,由于我国举办2010上海世博会的特殊使命,而衍生出上海世博会研究领域。所以2001-2007年属于起步研究阶段,2008年进入快速增长态势[1],2010年上海世博会举办期间达到顶峰1 209篇。按一般研究领域的发展规律,它将进入稳定研究阶段,但在特定历史背景下,受客观因素的影响,本研究领域基本不会出现稳定研究阶段,它将随着后世博时代的影响而逐渐衰减,直至淡出历史舞台[2]。表1 上海世博会研究文献年代分布统计
年代文献量年代文献量200112007752002142008121200321200939020043420101 209200543合计1 976200668
图1 普赖斯曲线
2011年7月第31卷第7期基于文献计量学理论建立上海世博会研究文献的数学模型July,2.2 作者频率分布,洛特卡定律分析
作者频率分布规律一般遵循洛特卡定律。它是定量描述论文作者与论文数量之间的分布规律[3]。笔者将根据洛特卡定律,分析本研究领域的作者与文献数量之间的关系,同时验证洛特卡定律和平方反比经典公式。
洛特卡定律y(x)=c/x琻(c>0),其中:y(x)为作者频率,c为某一研究领域的特征常数。
该表达式的文字描述:即发表x篇论文的作者占作者总数的比例y(x)与所发表的论文数x的n方成反比。当n=2时,即为平方反比经典公式y(x)=c/x2,(c=0.6079)。
经统计,本研究领域的文献,系由1 426位作者所撰写。将作者发表文献按数量排序,并计算出所需相关数据列于表2。由于洛特卡定律是一个幂函数,所以首先要利用最小二乘法估算出n值,经数学解析转换得出:
n=N∑xy-∑x∑yN∑x2-(∑x)2 (N为作者总数)
将表2数据代入上式,求得本研究领域的n=0.8618,由于n值不等于或不接近于2,所以不符合洛特卡平方反比经典公式[4],符合洛特卡定律的一般表达形式,y(x)=c/x0.8618。
下面通过y(x)=c/x0.8618,公式推导出c=∑(1/x0.8618),将表2中的x数据代入,得出:C=2.973。所以本研究领域的作者频率分布的洛特卡定律描述为:y(x)= 2.973/x0.8618。表2 作者发文数量分布统计
(篇/人)论文数x作者人数y论文数XYXYX2111111.0414001.084510110100162120.77820.3010.23420.6056512600.69891.07920.75430.4885416640.60211.20410.72490.36253772310.47711.88650.90.227622715420.3012.43290.73230.090611 0461 04603.019500∑1 4261 9764.89879.92323.34573.8593注:X=lgx,Y=lgy2.3 高产与核心作者,普赖斯定律分析
普赖斯描述了核心生产者分布的平方根定律(亦称普赖斯定律)。即:在特定的领域中,全部论文的半数系由该领域中全部作者数量的平方根的那些人发表的[6]。无疑“那些人”即为高产作者。本研究领域中,全部作者人数为1 426位作者,那么高产作者:n=(1426)1/2=37.76≈38人,对照表2可以看出,发文4篇以上的作者有32位,可以确定他们即为本研究领域的高产作者(见表3)。
同理普赖斯根据平方根定律进一步解析出核心作者理论。即:发表m篇以上论文的作者为核心作者[5],表达式为m=0.749(x璵ax)1/2,其中:x璵ax为发文量最多作者的发文篇数。
将表2数据代入求得:m=0.749(11)1/2=2.484≈3篇。说明本研究领域的核心作者系发文3篇以上的作者。
又根据普赖斯“在某一研究领域约有75%的科学家一生中只发表一篇论文”的阐述[5]。由表2得出本研究领域发表1篇论文的作者占总作者人数的73.35%,结论与普赖斯阐述的一致。
另外,从表3的统计结果可以看出,在32位高产作者中,高校占21位,而同济大学占18位,可见高校且同济大学是本研究领域的核心机构。表3 高产作者分布统计(发文4篇以上)
序号作者单 位发文量
(篇)1乐 云同济大学112吴志强同济大学103陈小鸿同济大学64何清华同济大学65周华林上海市建工总公司56薛伟辰同济大学57杜豫川同济大学58王恒栋上海市政工程设计研究院59陈建辉东华大学510林选泉上海浦东建筑设计研究院有限公司511龙文志中国建筑金属结构协会
光电建筑应用委员会512唐子来同济大学513刘月琴同济大学514孙立军同济大学515胡 玎同济大学516张其林同济大学517龙惟定同济大学418胡 玎上海市风景园林学会419邵 丹上海城市综合交通规划所420王 越上海同济城市规划设计院421朱 昊上海城市综合交通规划所422李永奎同济大学423王 越同济大学4 续表3
序号作者单 位发文量
(篇)24李克平同济大学425沈友弟上海市消防总队426王 越《城市规划学刊》427张 姿同济大学428李武英上海《建筑时报》社429郭英之复旦大学430张青萍南京林业大学431胡 翔同济大学432章 明同济大学42.4 期刊区域划分,布拉德福定律分析
文献在期刊上的分布遵循布拉德福定律。它是定量描述科学论文在相关期刊中,集中与离散状况的一个规律[7]。根据布拉德福期刊区域划分规则,将某一研究领域的载文期刊划分为3个区域(核心区、相关区、离散区),尽可能使每个区所包含的论文数量大体相当,如果3个区域的期刊数量之比满足:n1∶n2∶n3=1∶a∶a2(其中:n1、n2、n3为3个区域的期刊数量,a为布拉德福系数,a>1),则它的分布规律符合布拉德福定律。
经统计,本研究领域的1 976篇文献分布在782种期刊中。按上述规则绘制布拉德福期刊分区表(见表4)。分析表明,3个区域的论文数量大体相当,核心区的论文来自数量不多但效率最高的39种期刊,相关区包括数量较多,效率一般的146种期刊,而离散区包括数量最多而效率很低的597种期刊[6]。三者的期刊数量之比为:
39∶146∶597≈40∶160∶640=1∶a∶a2 本例布拉德福系数a=4
即:39∶146∶597≈1∶4∶42
显然上述表达式与布拉德福定律相吻合,说明本研究领域的期刊分布规律符合布拉德福定律。表5列出了论文数量占总文献1/3的核心区载文期刊,39种核心期刊只占期刊总数的4.98%;载文612篇,占总文献的30.97%。所以,可以认定列在核心区的39种期刊,即为本研究领域的核心期刊。
表4 布拉德福期刊分区表
分区类别期刊载文数量n期刊数量论文数量占论文总数%平均载文密度(篇/种)核心区n≥93961230.9715.69相关区3≤n<914664032.394.38离散区n<359772436.341.21表5 核心区载文期刊分布(载文9篇以上)
期 刊 名 称期刊数量
(种)每种期刊
载文量期刊数量
累计和C期刊数量
累计和lgC载文量
累计和R(n)时代建筑1591059建筑施工15220.3010111规划师12430.4771135上海建设科技12340.6020158建筑学报12250.6989180建筑创作/新安全东方消防22170.8451222施工技术/装饰22090.9542262对外传播/建筑结构219111.0413300建筑技术117121.0792317城市环境设计116131.1139333交通与运输115141.1461348广西城镇建设/建筑与文化/园林314171.2304390China餾 Foreign Trade/现代电视技术213191.2787416上海城市规划112201.3010428网印工业/制冷技术211221.3424450国际市场/沪港经济/建设科技/暖通空调/智能建筑与城市信息/中国建筑装饰装修/中国广告/中国无线电/中国园林910311.4914540城市规划学刊/城市交通/浦东开发/上海化工/上海企业/消防科学与技术/中国残疾人/中国建筑金属结构89391.591161288471.6721676127591.7709760(相关区期刊从略)146731.8633844135861.93459094641322.12061 0935331852.26721 252(离散区期刊从略)12723122.49421 50647017822.89321 976
为了进一步直观描述期刊的集中与离散现象,根据表5的相关数据,以期刊数量的对数lgC为横坐标,以“期刊数量”乘以“每种期刊载文量的累计和R(n)”为纵坐标,拟合出布拉德福曲线(见图2)。分析可见,它由两部分构成,首先AB段是一条上升的指数曲线[8],它对应为核心区;B(1.5911,612)点为核心区的拐点,PB段是一段线性上升的直线,对应为相关区和离散区。这充分说明了本研究领域的期刊分布规律存在明显的集中与离散现象。
图2 布拉德福曲线
3 讨 论
3.1 应用洛特卡定律要慎重
洛特卡定律最经典的、最有影响的,也是应用最广泛的,是他的平方反比公式。只有拟合为平方反比关系,其结论才有意义。而本研究领域拟合的作者频率分布模型,不符合洛特卡平方反比经典公式,其验证结果出乎笔者期望。经查阅相关资料证明,即:无论是国外的还是国内的学者,通过不同的研究方式来验证洛特卡定律,有的研究数据符合洛特卡定律,有的则不支持,甚至相反于洛特卡定律。因此,洛特卡定律在某些领域内是符合的,在有些领域内却是有出入的[5]。
所以,在应用洛特卡定律时一定要慎重。如果拟合结果出现较大偏离,必要时可以通过K—S检验来进一步验证,最终证明是否符合洛特卡分布[5]。
3.2 普赖斯定律的局限性
普赖斯定律是在洛特卡定律的基础上推演而来的,不能孤立的研究普赖斯定律[5]。而本例中应用普赖斯平方根定律产生的高产作者,经验证表明,发文数量不足200篇,并非全部论文的半数,说明普赖斯平方根定律的应用环境是有条件的,且与洛特卡定律是分不开的。究其原因在于:其一,洛特卡定律是由一般规则导致的理论模式,是一种静态表述,而文献的发展是动态的,恰好是洛特卡定律的缺陷[3],而直接的表现就是洛特卡定律的参数n是通过最小二乘法的方式估算出来的。通过很多学者的验证,确实存在应用领域的局限性,同时也提出了一些改进算法,如用回归分析的估算方法求解n值,其拟合结果将更具一般性[5];其二,洛特卡的数据抽取方法欠科学,在数据量大的情况下应用洛特卡定律,其结果才比较客观[6]。所以由于洛特卡定律不够严谨[5],而导致普赖斯定律的应用局限。而本研究领域恰好是新兴学科,统计年限跨度较短、样本量少,也是导致这一结果的重要原因之一。
通过上述分析,应用洛特卡定律与普赖斯定律应注意它的相对静止的适用环境。即:某一研究领域已进入稳定的研究期;数据采集年限跨度要长;样本量要大。
3.3 布拉德福定律的核心效应显著
本研究应用布拉德福定律,成功的建立了期刊区域划分模型和布拉德福曲线,数据拟合的非常理想。无论是布拉德福期刊分区表,还是布拉德福曲线图,均高度验证了期刊的核心与离散现象。
又因为布拉德福系数a,一直被核心期刊研究领域坚信,它是反映任何学科期刊分布状况的一个重要参数,a值越大,核心效应越强,反之核心效应越弱[6]。本例中a≈4,a值相对较大[6],由此可见,其核心效应是显著的。
参考文献
[1]张明伟,张胉,等.5.12汶川大地震相关研究文献的分布调查[J].情报杂志,2010,(11):57-61.
[2]张明伟,张胉,等.我国MARCh研究文献的发展趋势与预测[J].图书情报工作,2006,50(1):49-50,99.
[3]王静,王宏鑫,等.关于Lotka定律的研究[J].情报杂志,2007,(4):94-96.
[4]周爱民.洛特卡参数的新评估法[J].现代情报,2010,30(12):18-21.
[5]刘婧.文献作者分布规律研究——对十五年来国内洛特卡定律、普赖斯定律研究成果综述[J].情报科学,2004,22(1):123-128.
[6]邱均平.信息计量学[M].武汉:武汉大学出版社,2007.
[7]邱均平,刘敏,等.1998-2007年我国竞争情报领域论文的计量规律研究[J].情报科学,2009,27(9):1281-1285.
[8]赵玉珍.运用布拉德福定律研究沙棘文献的核心期刊[J].情报科学,2009,18(5):462-464.
注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”