水科学研究的关键词共词聚类分析
2015-12-11韩宇平袁皖华肖恒
韩宇平,袁皖华,肖恒
(华北水利水电大学,河南 郑州 450045)
“水科学”(Water Science)是最近二十年来出现频率很高的一个词,已经渗透到社会、经济、生态、环境、资源利用等许多方面,也派生出许多新的学科或研究方向,成为学术研究和科技应用的热点.相应地,每年涌现出大量期刊论文,既给学者的研究工作提供了便利,但同时也给文献的管理与分析利用带来了不便[1].因此,有必要对所包含的学科主题和热点进行系统科学的梳理. 左其亭[2-3]将水科学划分为:水文学、水资源、水环境、水安全、水工程、水经济、水法律、水文化、水信息、水教育等各有侧重且相互交叉的10 个具有较强关联性的研究领域,并分别对这10 个方面做专题研究进展报告,及时总结了当前水科学研究的最新进展.然而,目前运用文献计量学方法来分析水科学研究中的热点与现状的成果还比较少.而这些少数研究也只侧重于水科学研究中的某一方面(如水资源领域[4])进行文献分析探讨.
因此,本文利用《CNKI 中国学术期刊网络出版总库》中的文献资料,采用Bibexcel 统计分析涉及水科学期刊论文中的关键词,选取高频关键词构建共词矩阵,通过网络分析、多尺度分析和聚类分析等统计方法,揭示水科学研究中的热点与研究现状.
1 资料与方法
1.1 资料来源
研究使用的资料源于《CNKI 中国学术期刊网络出版总库》.以关键词为搜索词进行模糊检索,检索策略为:以10 个“水科学”的研究方面作为搜索范围,即水文学、水资源、水环境、水安全、水工程、水经济、水法律、水文化、水信息、水教育;来源类别限定为EI、核心期刊;检索年限为2005—2014 年. 按上述方法,检索到期刊论文24 634 篇,年度分布情况见表1.
从表1 中可以看出,2005—2007 年论文数量逐年增加(1 764 ~2 244 篇),2008—2013 年在2 600篇以上,2014 年论文数量相对较少,这主要是因为开始检索的时间为2015 年1 月初,2014 年12 月份发表的部分论文未纳入统计之中. 从各研究领域的论文数量上看,水资源领域期刊论文数量最多,为1 129 ~1 823 篇,平均约1 477 篇;其次是水环境领域,发表论文477 ~875 篇,平均约714 篇.这2 个领域约占统计的10 个水科学领域论文总量的90%,论文数量在年际上的变化主要由这2 个领域论文数量所引起.2010 年左右,关于水文学、水环境和水安全等的研究显著增多,一定程度上反映出国家水安全战略需求重点关注的方面(如洪涝、干旱等极端水文事件研究).涉及水经济、水法律、水文化、水信息、水教育等领域的论文数量相对较少,特别是水教育领域自2011 年才有期刊论文出现,论文数量1 ~2 篇.
表1 2005—2014 年期刊论文数量年度分布篇
1.2 高频关键词
关键词是论文的文献检索标识,是表达文献主题概念的自然语言词汇,能够简单、直接、较为全面地概括论文的核心研究内容,可以反映一个学术领域在某一时期内大量学术研究的发展脉络和发展方向[5].由于水科学涉及面广,关键词繁杂,本文仅以出现频次较多的高频关键词为分析对象.
以2005—2014 年与水科学相关性较大的5 972篇论文的关键词为统计分析对象,使用文献计量软件Bibexcel 得到1 003 个关键词. 考虑到一些同义关键词在不同论文中的表述存在不同的情况,如水资源承载力、水资源承载能力在大多数情况下概念相同,本文对部分同义词进行了合并处理,最终将62 个词频大于等于20 次的关键词,作为高频关键词,见表2.
表2 2005—2014 年高频关键词及词频
从表2 中可以初步归纳出近十年来涉及水科学相关研究的文献具有如下特点:
1)水环境、水资源承载力、可持续发展、水文学、水文化等出现频次超过100 次,表明这些领域(方向)是水科学工作的重点,研究成果较多.
2)虽然国内对研究气候变化、水生态文明、水文化等方面研究起步较晚,但是在变化环境下的水资源脆弱性评价和适应性、气候变化下的水资源承载能力、水生态系统的保护、水文化的宣传和普及等方面的研究得到较快发展.
3)方法层面的应用研究较多. 如层次分析法、主成分分析法、分布式水文模型、系统动力学、熵权法、BP 神经网络、集对分析等关键词出现频次较高,这一方面表明一些较为成熟的方法得到了广泛应用;另一方面表明新的技术方法也在不断发展.
4)形成了一些研究热点地区. 按流域划分,主要集中在黄河流域(如全流域、渭河流域、黑河流域等)和长江流域(如全流域、汉江流域、太湖流域等);按行政区域划分,以北京市为研究区的研究最多.此外从水利工程角度分析,以研究三峡水库和南水北调工程的居多.
1.3 高频关键词共词分析方法
高频关键词在一定程度上反映了水科学研究的热点与研究方向,但仅按出现频次对这些词进行线性排列,还不能全面反映它们之间的关系,需要进行共词分析[6]. 共词分析法属于内容分析法的一种,其原理主要是统计一组词中两两同时出现于一篇文献的次数,以这种“共现”次数反映这些词之间的关联程度,两个词的“共词强度”(指两个词同时出现于一篇论文中的次数)越高,则这两个词之间的关联越紧密[7].
本研究对高频关键词共词的分析主要从网络分析、多维尺度分析、聚类分析等3 个方面展开.
首先采用Bibexcel 构建共词矩阵. 由于关键词的频次悬殊,共词矩阵中数据相差也比较大,为了消除频次悬殊造成的影响,研究中引入共词相对强度的指标,采用关联强度的Salton 统计指数计算,
式中:nij为两关键词同时出现的频次;ni、nj分别为第i、j 个关键词出现的频次.
利用式(1)计算得到高频关键词共词的相异矩阵,其对角线上的数据表示该词自身的相关程度.
然后,为进一步揭示高频关键词之间的内在相关关系,采用社会网络分析软件Ucinet 进行统计,并用画图工具Netdraw 绘制合著网络图谱,得到高频关键词共现网络可视图.对高频关键词网络中,处于中心位置的关键词运用Ucinet 对结构网络图的网络中心性指标节点进行分析,进一步考察各关键词相对其它关键词的地位和影响力.
最后,采用SPSS 统计软件对高频关键词共词的相异矩阵进行多维尺度分析和聚类分析,分别得到多维尺度可视化图谱和聚类图,以便直观、形象地反映关键词之间的聚类群体和各研究对象之间的相对关系.
2 结果分析
2.1 高频关键词共词网络分析
将62 个高频关键词进行两两配对,统计它们在1 003篇文献中共同出现的频次,得到62 ×62 的共词矩阵.其中主对角线的数值为该词出现的频次,非主对角线上的数值表示两个关键词共同出现在同一篇论文中的次数. 由于篇幅所限,这里仅给出前10位高频关键词的共词矩阵,见表3.
表3 2005—2014 年高频关键词共词矩阵
通过式(1)将高频关键词矩阵转化为相异矩阵,采用社会网络分析软件Ucinet 进行统计,并用画图工具Netdraw 绘制合著网络图谱.图1 给出了高频关键词共现网络可视图.图1 中节点的大小表示该关键词在水科学研究中影响力的强弱;节点之间连线的粗细表示节点之间两组关键词出现频次的大小.
图1 高频关键词共现网络可视图
从图1 中可以看出,水环境、水资源承载力、可持续发展、水文学、水资源管理、指标体系等节点较大,处于节点的中心位置,在一定程度上反映出近十年来水科学研究的主题和主要内容.具体来说:
1)水文学与气候变化的联系最为紧密,这表明,气候变化下的水文过程的响应及机理研究是当前研究的热点问题.
2)水资源管理与管理模式、系统动力学、优化配置等关系较为密切,表明关于水资源管理的研究从系统动力学、优化配置技术方法层面和从管理的角度开展的较多.
3)水资源承载力与指标体系、系统动力学、主成分分析法、层次分析法等联系较为密切,表明关于水资源承载力方面的研究主要侧重于计算方法.
4)水环境与水环境质量、水污染、可持续发展、水环境容量、对策等联系较为密切,表明水环境方面的研究侧重于从可持续发展的角度探讨水环境质量和水环境容量,以及相应的对策研究.
此外,由于水工程领域文章数量相对较少,涉及水工程领域的节点较小,但是高频关键词共词的联系却十分紧密.如动能经济为中心节点,其与水电站建筑、水库群、工程监测、自动化设备等关键词共同出现的频率较大.
2.2 高频关键词共词多维尺度分析
采用SPSS 统计分析软件,对高频关键词共词相异矩阵进行多维尺度分析,拟合指标为0.132 5,小于阈值0.2,且决定系数达到0.910 7,这表明拟合结果较好,分析结果如图2 所示.
图2 多维尺度分析结果
从图2 可以看出,第1 维度方向上,侧重水文学、水资源、水安全研究方面的高频关键词在左侧;侧重水环境、水工程研究方面的高频关键词在右侧.第2 维度方向上,水文学方面的关键词在左下方,水资源方面关于区域水资源合理配置方面的关键词在左上方;水工程方面围绕南水北调工程的关键词在中上方;水环境方面的关键词在右上方;右下方则主要是水工程研究中与流域水资源利用相关的关键词.
2.3 高频关键词共词聚类分析
采用SPSS 统计分析软件,对高频关键词共词相异矩阵进行系统聚类分析计算,得到共词聚类树形图,如图3 所示.
图3 层次分析聚类树形图
图3 中大致将62 个高频关键词划分为6 类,分别集中在水文学领域、水资源领域(方法部分)、水资源领域(管理部分)、水环境领域、水工程领域以及其它相关领域.
1)水文学领域. 研究内容侧重于气候变化、水循环、生态水文及水资源安全等,研究区域多选择半干旱地区的黑河流域和我国重大水利工程(如三峡水库),研究方法上主要采用(水文)模型进行模拟分析.
2)水资源领域(方法部分).围绕区域的可持续发展,侧重开展水资源承载力、生态环境评价等研究,研究区域集中在干旱区,如石羊河流域及黄河流域.采用的方法主要是建立指标体系,多以熵权法确定指标权重,运用层次分析、主成分分析、模糊综合评价等方法进行综合评价.
3)水资源领域(管理部分).流域方面侧重水资源管理模式的研究,研究区集中在长江流域,同时注重考虑流域生态需水问题;城市方面注重水资源利用的研究,地理信息系统技术在城市数字化过程中也得到了较为广泛的应用.
4)水环境领域. 研究围绕地表、地下水环境的容量、质量、管理等方面展开,研究区域主要是太湖流域.
5)水工程领域.研究侧重于与南水北调工程相关的地质勘探、相关设备、工程监测、工程影响因素等方面.
6)其它领域.研究成果较为集中地体现在采用系统动力学方法研究北京市的水环境承载力.
3 结 语
水科学的涉及范围十分广泛,很多方面仍处于探索阶段,对水科学的学科体系、研究框架的认识还很不足,相应的关于水科学研究的成果层出不穷,文献数量越来越多.本文在收集大量文献基础上,构建由62 个高频关键词组成的共词矩阵,利用网络分析、多维尺度分析和聚类分析等不同统计方法,初步归纳出近十年来水科学研究中的研究热点和研究现状.
①在水文学领域中关于气候变化方面的研究、在水资源领域中关于水资源承载力和水资源管理方面的研究、在水环境领域中关于水环境容量和水环境质量方面的研究在当前研究成果中占较大比例;②围绕大型水利工程(如南水北调工程)的水工程领域的研究,以及国家日益重点关注的水安全问题的水安全领域的研究均有所增多;③水科学相关研究中更加注重区域的可持续发展和生态环境保护;④各方面的研究中都形成了一些研究热点地区.
应当指出的是,本文在研究方法上还存在一些不足,今后需进一步加以改进:①对有限的高频关键词进行了统计分析,仅是从一个侧面揭示了当前水科学研究的现状;②由于水经济、水法律、水文化、水信息、水教育等领域的高频关键词少,造成这些领域的研究热点和研究现状分析不足.
致谢:本文第一作者自2013 年以来参加了由郑州大学左其亭教授主编的《中国水科学研究进展报告》系列丛书的编写工作,在编写过程中认识到用数学方法描述水科学研究进展的直观性和科学性,先期以“水资源学”为研究对象撰写的《水资源学研究的关键词共词聚类分析》一文已发表,本文则在前期研究的基础上扩展到整个水科学研究领域. 在此,感谢左其亭教授及其领导的《中国水科学研究进展报告》编写团队对本文提出的指导意见!
[1]任智军,朱东华,谢菲. 科技文本的可视化分析研究[J].北京理工大学学报(社会科学版),2007,9(1):13-17.
[2]左其亭.中国水科学研究进展报告2011—2012[M].北京:中国水利水电出版社,2013.
[3]左其亭.中国水科学研究进展报告2013—2014[M].北京:中国水利水电出版社,2015.
[4]王富强,韩宇平,王朋,等.水资源学研究的关键词共词聚类分析[J]. 水利水电科技进展,2014,34(4):29-34.
[5]尹相旭,张更平,李晓菲. 基于关键词统计的情报学研究现状分析[J].情报杂志,2009,28(11):38 -41.
[6]舒琅.基于社会网络分析的项目管理学科热点和主流知识群的研究[D].杭州:浙江大学,2010.
[7]FRY J,TALJA S.The intellectual and social organization of academic fields and the shaping of digital resources[J].Journal of Information Science,2007,33(2):115 -133.