基于文献聚类的高校科研成果量化分析
2011-11-17李远明胡魁菊祝方林周劲
李远明 胡魁菊 祝方林 周劲
〔摘要〕高校图书馆依托文献资源优势,结合业务工作特点,采用文献计量的方法,从文献的角度对高校科学研究事业进行合理的评价,是高校图书馆开展信息服务、创新服务领域的重要形式之一。本文以湖北民族学院十一五期间发表的科研论文为研究对象,采用频次统计和聚类分析方法对提取出的样本数据进行了定量分析,并藉此为高校科学研究事业的健康发展提供数据支撑和理论支持。
〔关键词〕文献计量;聚类分析;频次统计;信息服务
收稿日期:2011-03-28
作者简介:李远明(1969-),男,副研究馆员,硕士,研究方向:信息检索与服务、信息计量分析等,发表论文数篇。
DOI:10.3969/j.issn.1008-0821.2011.06.029
〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2011)06-0113-05
Quantitative Analysis Based on Document Clustering for University Research
Li Yuanming Hu Kuiju Zhu Fanglin Zhou Jin
(Library,Hubei University for Nationalities,Enshi 445000,China)
〔Abstract〕Reasonable evaluation for university scientific research cause is one of the important forms for university library to perform information services and innovative services,relying on the literature library resources,combining with features of professional work,using bibliometric methods from the perspective of the literature.This paper analysed the sample data extracted from the scientific papers published during the Eleventh Five of Hubei University for Nationalities,using the methods of frequency statistics and cluster analysis,and provided data and theoretical support for the healthy development of scientific research cause of Hubei University for Nationalities.
〔Key words〕bibliometrics;cluster analysis;frequency statistics;information services
科研工作是高等学校的中心工作之一,科研水平的高低,科研能力的强弱,是构成高校综合实力的重要条件。科研论文是科学研究活动的主要产出形式,其数量和质量反映了科学研究的成果和效率,其内容反映了高校的研究特色与研究方向。因此,通过对高校科研人员所发表论文的计量分析,可准确获知该校在某一研究领域或某一给定的时限内的科研概况。
本文利用中国知网(CNKI)的中国学术期刊网络出版总库,依据文献计量学方法,对湖北民族学院(以下简称该校)2006-2010年(即十一五期间)的科学研究活动进行评价,以期对该校科学研究事业的健康发展提供数据支撑和理论支持。
1 数据来源和分析方法
1.1 数据来源及样本的选取
选择中国知网(CNKI)的中国学术期刊网络出版总库为数据来源,该库收录了7 579种学术期刊,文献来源覆盖率达到了99%。检索时间限定为2006.1.1-2010.12.31,作者单位以“湖北民族学院”为检索词,以模糊匹配方式进行检索,共得到记录4 149条,去掉1条无用数据,共得到数据4 148条,并以其作为样本进行分析。
1.2 数据分析方法
根据文献计量学原理,采用频次排序技术,将被统计分析的对象(如样本数据中的期刊、作者和关键词等要素)按照它们出现的频次从高到低排序,以SPSS17.0和BICOMB等软件为统计分析工具,对该校十一五期间发文期刊频次、关键词频次进行统计分析,并以关键词共现聚类分析方法来揭示该校十一五期间科学研究的重点领域及研究趋势。
2 结果与分析
2.1 概 况
中国知网(CNKI)的中国学术期刊网络出版总库中共收录该校十一五期间所发表论文4 148篇(见表1)。可以看出,中国学术期刊网络出版总库中2006-2007年收录该校发表论文总篇数占到了十一五期间该库中收录该校论文总篇数的47.3722%,为1 965篇。2008-2010年共2 183篇,占52.6278%,且这3年每年的篇数基本持平。
表1 2006-2010年中国学术期刊网络出版总库检出文献
2.2 发文期刊分布
样本数据中4 148篇论文共分布在970种期刊中,平均载文量4.3篇,本文将期刊频次阈值大于11的期刊在表2中列出,共49种期刊。
表2 期刊频次统计表(频次阈值12以上)
续表2
该刊2006.1.1-2010.12.31载文总数该校作者2006.1.1-2010.12.31在该刊的载文率
从样本统计数据看出,有516种期刊仅登载该校作者的1篇文献,占发文期刊总种数的53.2%,除该校学报外,登载该校作者论文2篇以上的期刊有451种2 625篇,占期刊总种数的46.5%。5年中该校有1 007篇文献发表在该校学报上,占样本数据中文献总篇数的24.3%,由此可见,该校学报是该校科研论文产出的摇篮。从该校作者发表文献的空间分布来看,呈现分散的特点,涉及期刊多而广,且核心期刊载文率偏低。表2中部分期刊5年载文总数偏高,其学术性值得商榷。本文认为,单纯的论文产出不能代表高校科研人员的论文能力,提高论文产出能力应该注意将学术论文按学科相对集中地发表到高层次的期刊上,并关注论文的被引率。
2.3 关键词分析
2.3.1 关键词样本数据的抽取
主题词和关键词作为一种检索语言和标识语言,集中反映了文献数据库中论文内容的主要观点。基于文献计量领域著名的齐普夫定律,通过观察主题词和关键词在数量上的变化,可以了解某一学科或专业领域的发展阶段和发展动向[1]。因此对其汇总和统计分析,即可直接反映出某一学科、某一领域或某一学术团体科学研究的结构和趋势。
本文从样本数据中提取了关键词共17 818个,频次2次以上的关键词占关键词总数的50.1%,只出现1次的关键词占49.9%,关键词离散程度较大。关键词词频统计及排序结果显示,该校十一五期间科学研究内容丰富,特色明显。现将关键词出现频次10次(共109个)以上,且去除对策、发展、现状、问题等无实际标识意义的关键词共25个后,剩下84个关键词,列于表3。
表3 关键词列表
2.3.2 高频关键词聚类分析
仅仅对关键词按照出现频次由高到低的排列还不能表现出这些高频关键词之间的联系,因此我们采用共现分析的技术来进一步挖掘这些关键词之间的联系。关键词的共现分析是根据关键词在同一篇论文中共同出现的次数来表示关键词之间的联系。一般认为,如果两个关键词频繁在同一篇论文中同时出现,往往表明这两个关键词之间具有比较密切的联系,这就是共现分析的理论基础。由此,我们对这些高频关键词的共现次数进行两两统计,并进行聚类分析,可以对当前某学科领域或某一学术团体的科学研究情况进行归类,从而发现当前研究的热点与趋势[2]。
本文采用BICOMB软件对样本数据中4 188篇文献中的关键词进行了分析,并生成了表3中84个高频关键词的84×84共现关系矩阵,矩阵片断见图1。
图1 关键词共现矩阵片断
将此矩阵导入SPSS17.0中进行聚类分析。采用分层聚类的方法,聚类开始时把参与聚类的每个关键词视为一类[3],根据两类之间的距离(欧氏距离平方)逐步合并,直到合并为一个大类为止,聚类分析结果见图2聚类树形图(片断)。
通过对聚类树形图的观察,并结合各类关键词之间的语义关系,得出该校十一五期间科学研究的热点主要包括以下几个方面:第1类,厚朴酚及和厚朴酚的提取方法,其含量的测定方法,厚朴酚及和厚朴酚的应用等;第2类,以藤茶为研究对象,研究藤茶中黄酮的提取及分离纯化工艺,研究藤茶中多糖和硒多糖的抗氧化性、稳定性及活性;第3类,以科学发展观为指导,探索恩施州内新农村建设及和谐社会的构建,从循环经济建设的角度寻求可持续发展;第4类,竹节人参的抗炎镇痛研究;第4类,以魔芋和玉米为研究对象,研究硒多糖的赋存形态和药理作用;第5类,糖尿病的诊断与治疗;第6类,研究番石榴叶、长叶胡颓子、黄连等中药成分对大鼠结肠炎的疗效;第7类,研究邓小平理论对构建社会主义的普遍指导意义;第8类,研究五鹤续断的提取工艺;第9类;病人并发症的护理及其健康教育;第9类,研究民族地区、土家族聚集地区文化内涵的建设;第10类,研究高校大学生心理健康问题;第11类,以土家族及其语言为研究对象,深入研究其文化变迁过程;第12类,研究白术、党参、天麻、麦冬、何首乌、地茶等中药成分的抗氧化酶作用。另外还有近30个关键词的聚类结果不明显,说明这些领域的科研合力还有待进一步加强。
3 结 语
基于文献计量原理,运用频次统计和共现聚类分析方法对高校科学研究事业进行定量分析和评价,是高校图书馆开展信息服务、创新服务领域的重要形式,对高校正确制订科学研究发展规划、加强学科建设、构建和完善以质量为导向的高校科研评价指标体系与管理模式等方面具有重要意义。应该看到,由于样本数据总量较大,本研究在
图2 聚类树形图(片断)
频次阈值的取值上相对较大,造成部分论文被排除在外,也许有部分研究热点未显现出来。可见,研究对象的选择、样本数据的规范化处理、阈值的确定、聚类方法的选择和统计的误差等方面都可能会影响到分析结果的客观性,这也是今后研究中值得推敲的关键所在。
参考文献
[1]查先进.信息分析与预测[M].武汉:武汉大学出版社,2000:179-180.
[2]崔雷.当年高被引论文的主题词链聚类分析及其在情报预测中的应用[J].情报学报,1995,(5):368-373.
[3]卢纹岱.SPSS for Windows 统计分析(第二版)[M].北京:电子工业出版社,2002:338-374