APP下载

基于聚类分析的全国各省科研水平评价

2018-03-15侯淑静

科技视界 2018年35期
关键词:聚类分析

侯淑静

【摘 要】基于2012年中国大陆31个省市自治区被三大科技文献检索的论文篇数情况,本文先用聚类分析的方法将各省科研水平划分为五个类别,然后再用判别分析的方法讨论了某个未知地区的科研水平,并对相关结果作一简要的分析。

【关键词】聚类分析;科研水平;判别分析

中图分类号: O24 文献标识码: A 文章编号: 2095-2457(2018)35-0048-003

DOI:10.19694/j.cnki.issn2095-2457.2018.35.020

Evaluation on the Research Level of Provinces based on Cluster Analysis

HOU Shu-jing

(School of Finance and Economics,Tibet University for Nationalities,Xianyang 712082)

【Abstract】Based on China mainlands 31 provinces papers,which were indexed by the three scientific cited systems,we first divided the scientific research level of 31 provinces into five categories by using cluster analysis,then we discussed an unknown areas level using discriminant analysis method.Finally,the related results were briefly discussed.

【Key words】Cluster analysis;Scientific research;Discriminant analysis

0 引言

SCI(科學引文索引)、EI(工程索引)、ISTP(科技会议录索引)是世界著名的三大科技文献检索系统,是国际公认的进行科学统计与科学评价的主要检索工具,其中以SCI最为重要。

《科学引文索引》(Science Citation Index,SCI)是由美国科学信息研究所(ISI)1961年创办出版的引文数据库,其覆盖生命科学、临床医学、物理化学、农业、生物、兽医学、工程技术等方面的综合性检索刊物,尤其能反映自然科学研究的学术水平,是目前国际上三大检索系统中最著名的一种,其中以生命科学及医学、化学、物理所占比例最大,收录范围是当年国际上的重要期刊,尤其是它的引文索引表现出独特的科学参考价值,在学术界占有重要地位。许多国家和地区均以被SCI收录及引证的论文情况来作为评价学术水平的一个重要指标。从SCI的严格的选刊原则及严格的专家评审制度来看,它具有一定的客观性,较真实地反映了论文的水平和质量。根据SCI收录及被引证情况,可以从一个侧面反映学术水平的发展情况。特别是每年一次的SCI论文排名成了判断一个学校科研水平的一个十分重要的标准。《工程索引》(EngineeringIndex,EI),1884年创刊,由美国工程信息公司出版,报导工程技术各学科的期刊、会议论文、科技报告等文献。《科技会议录索引》(Index to Scientific & TechnicalProceedings,ISTP),也是由ISI出版,1978年创刊,报导世界上每年召开的科技会议的会议论文。

1 聚类与判别分析

一般说来,根据被这三大科技文献检索情况,基本上可以看出一个国家、地区或者是学术机构的研究水平。本文希望通过2012年中国大陆科技论文按地区分布被检索情况(篇数)了解各个省份学术研究的一些基本情况。首先对数据做聚类分析[1],然后再对未知地区被检索篇数做判别分析,并对相关结果作一简要的分析。聚类分析一般寻求客观的分类方法,在聚类分析以前,对总体到底分为几种类型并不知道,聚类[2-3]的基本思想是通过定义样本或者变量间的“接近程度”(距离)的度量,以此为基础,将“相近”的样品或者变量归为一类。聚类的方法有快速聚类法和谱系聚类法。前者需要预先指定分类的数目,这个数目对分类的最终结果有很大的影响。本文采用后者。谱系聚类法类似于植物分类学的思想对研究对象进行分类。它首先将各个样品自成一类,然后把最相近的样品聚为小类,再将已聚合的小类都聚合成一个大类,从而得到一个按相近性大小形成的谱系图。最后再根据实际情况确定合适的分类个数。当研究对象用某种方式已经划分为若干类型,当得到一个新的样品时,就可以根据了解到的情况将它归为某一类中去。这就是判别分析,其基本思想是把样品归并到与它最相近的类型中。本文程序在matlab 7.6中运行通过,所使用的数据来自中国统计网。

2 结果与讨论

首先对31个省市SCI、EI和ISTP的篇数情况分为几个类别,由于事先并不知道分为几个类比较合适,用聚类分析[4]完成这一过程。根据数据集画出谱系图。得到的谱系图如图1(图1中1~31代表的省份见中国科技统计年鉴2012年中国大陆科技论文按地区分布被检索情况(篇数)):

从上面的图1谱系图中可以把待分类的对象分成五类。各个类别及类别中的元素列入下面的表格中。从中国科技统计年鉴2012年中国大陆科技论文按地区分布被检索情况(篇数)中可以看出北京地区的SCI、EI和ISTP的被检索篇数均居全国第一且远多于其它地区,通过聚类分析得出的结果为北京地区的科研水平是很高的,这与事实基本相符。而上海、江苏地区的数据仅低于北京,但又比其它地方有显著的差异,通过聚类分析将上海和江苏列为一类。辽宁等九省区划分为中等,这几个地区的总篇数在全国居前几位,把这几个归为一类还是比较合适的。中等偏下水平的省区的SCI被检索篇数都在4600以下但在1000以上。前已提及SCI是最为重要的检索系统,因此把它们归为一类基本符合实际情况。从表中还可以看出:经济发达的北京、上海、江苏其科研水平也居前列,而经济相对落后的西部科研水平比较低下,而陕西的处于中等的水平上是个例外,这可能与陕西在西部的重要地位有关系,此外,这里还汇集了全国很多的高等院校和科研机构。

表1 聚类表

通过聚类分析,大致了解了各个地方的科研水平的情况,接下来对表中未知地区的情况作一判断,看它处于什么样的水平上,为此,作判别分析。根据聚类分析得到结果作为训练集。

运行结果表明:该地区的科研水平属于低等,这是符合客观情况的。事实上,从数据对比上看,很容易得出该结论,以上程序说明了这种情况。但是,并不能肯定该地区属于西部地区,因为并没有充分的根据。

由于一个地区的科研或者学术水平跟很多因素有关系,比如经济发展情况,科研机构的多少(包括高等院校),当地政府对科研的投入等等。当已经清楚科研水平与各因素之间的关系后就可以大致地推测这个地区的情况了。这个问题有待进一步的分析。

【参考文献】

[1]孟海东,李秉秋.聚类分析在县域经济发展研究中的应用[J].河北工业科技,2012,29(2):116-119.

[2]俞鑫.基于因子分析法和聚类分析法评价中国各省市综合经济实力[J].时代经贸,2013(24).

[3]吕栋鑫,李正龙,杨胜利.基于社会保障水平指标的全国各省市聚类分析[J].劳动保障世界,2010(22):16-18.

[4]袁世琪.基于聚类分析的全国各省城镇化水平评价[J].企业导论,2015(09):58-59.

猜你喜欢

聚类分析
浅析聚类分析在郫县烟草卷烟营销方面的应用