APP下载

基于知识图谱的智慧水利研究进展

2023-06-05朱丽萍

关键词:主题词水利数据库

陈 述,纪 勤,陈 云,刘 雨,朱丽萍

(1.三峡大学水电工程施工与管理湖北省重点实验室,湖北 宜昌 443002;2.三峡大学水利与环境学院,湖北 宜昌 443002; 3.三峡大学经济与管理学院,湖北 宜昌 443002)

水利工程是国民经济公益性、基础性和战略性支撑行业[1],拥有防震减灾、提高水资源利用效率和置景造景的作用[2-3]。但是传统水利工程具有点多、面广、量大、类型复杂的特点,难以实现专业化、精细化、科学化管理。移、云、大、物、智等新兴科技的发展,提升了水利工程的水资源利用效率和水旱灾害防御能力,智慧水利成为水利行业转型发展的必然趋势[4]。

2003年水利部印发《全国水利信息化规划》,为国内智慧水利建设奠定了基础[5]。2008年IBM公司发布《智慧地球:下一代领导人议程》报告,促进了信息技术与传统行业相结合[6]。2018年水利部出台《加快推进新时代水利现代化的指导意见》,大力推进水利与信息技术结合[7]。2019年水利部印发《加快推进智慧水利的指导意见》,全方位推进水利现代化建设[8]。2020年水利部印发《关于开展智慧水利先行先试工作的通知》,进一步强化新一代信息技术与水利业务的深度融合[9-10]。2021年水利部发布《“十四五”智慧水利建设规划》《关于大力推进智慧水利建设的指导意见》,全面推进构建数字孪生领域,努力实现各项水利管理活动数字化、网络化、智能化[11]。

随着政府对智慧水利的大力推进,近几年智慧水利研究呈现爆发式增长态势。然而,由于智慧水利概念提出时间较短,加之传统的研究进展分析基本采用文献调研法,调研文献数量有限、时间跨度短,因此对智慧水利研究进程的梳理工作较为薄弱。本文基于中国知识基础设施工程(CNKI)和Web of Science(WOS)核心数据库2000—2021年智慧水利有关文献,采用文献计量和可视化方法,构建智慧水利研究领域文献量时序分布、发文机构和研究热点演变的各类知识图谱,分析智慧水利研究现状、研究热点和发展趋势。

1 文献来源

采用六元组检索模型进行数据采集检索,TC1(CNKI)、TW3(WOS)代表主题(topic)检索,保证查全率,TC2(CNKI)、TW4(WOS)代表“篇名(title)or关键词(keywords) or摘要(abstract)”检索,保证查准率。具体检索模式见表1。

表1 文献检索模式

为覆盖水利行业的多样性,将“水电”“水工程”“流域”“河网”“水网”“洪水”“大坝”及“水电站”合并至关键词“水利”中进行检索。

综合以上分析,合并上述检索式进行检索,设置CNKI数据库文献数据检索式如下:TC1=水利信息化or数字水利or数字流域or数字黄河or智慧水利or智能水利or水利云or水联网or水利大数据or数字孪生,TC2=遥感or GIS or射频技术or UAV or传感器or BIM or物联网or IOT or大数据or区块链or云计算or云平台or深度学习or人工智能or机器学习or智能算法and 水利or水电or大坝 or 水电站 or 水工程 or 流域 or 河网 or 水网or洪水。

WOS数据库文献数据检索式如下:TW3=hydroinformatics or water resources informatization or water conservancy information or hydrology of informization or smart water or intelligent water conservancy or digital water conservancy or big data water conservancy;TW4=GIS or RS or RF Technology or UAV or BIM or sensor or internet or intelligent or big data or IOT or blockchain or deep learning or artificial intelligence or machine learning or machine vision or cloud computing or neural network or intelligent algorithm or chaos theory or rainfall runoff modeling or flood forecasting or flood risk assessment or decision support system or urban flood management or numerical simulation or 2D modelling or 3D modelling or optimization procedure or chaos theory or genetic algorithm or fuzzy logic and water or hydropower or dam or water resource or river or inundation。

按照上述检索式进行检索,剔除新闻、会议通知等与智慧水利研究无关的文献,最终选择CNKI数据库中2175篇文献、WOS数据库中1789篇文献为本文研究数据。

2 研究方法

选取文献量作为智慧水利研究统计分析指标,以研究机构、研究热点、研究主题为主要内容,形成对智慧水利研究领域发展变化的初步认知。

2.1 文献量时序分布

文献量时序分布直观反映该研究的热点变化,可以衡量该研究在特定时间段内的发展态势。按照时间期限统计智慧水利文献量,对比数据库文献量时序变化,分析该领域研究现状及重心转移,宏观分析该研究领域进展趋势[16]。

2.2 发文机构

发文机构是研究领域骨干力量,分析发文机构能够了解机构贡献程度及影响程度。选取发文机构共现词频作为发文机构的分析指标,记录共现词频在文献中出现次数及联系,衡量机构间交叉合作关系[17]。CNKI数据库发文机构知识图谱的评价指标包括节点数、连线数。节点数代表高频机构数量,连线代表机构间的合作关系,其中连线越粗则机构间合作越密切。WOS数据库发文机构评价指标包括发文机构节点、连线等图谱整体网络结构评价。

2.3 研究热点

关键词能够提炼和概括文章核心内容,共现关键词能够反映出特定时间段内,相互之间存在联系且数量较多的问题即研究热点[18]。利用VOSviewer进行关键词的共现词频分析,分析关键词亲疏关系,并以共现词频、出现年份以及分布时段作为分段研究评价指标,以测度研究热点分布时间段[19]。研究热点知识图谱采用评价指标节点数、节点颜色、连线数及连线粗细整体评价图谱网络结构。

2.4 研究主题

主题词分布及演化能直观体现热点领域、分析视角的变化,且主题词的规范性可以提高检索查准率和查重率,故选取主题词被引频次作为分析指标。根据主题词因子得分(贡献率、方差累计贡献率大于或等于60%),确定研究主题分类,并依据KMO和Bartlett检验判断研究主题分类的正确性[20]。系统聚类共被引矩阵,可以揭示该领域各研究分支之间的内在关联及归属层次,并通过构建Hubert’Γ统计量,检验聚类效果。多维尺度分析主题词,从宏观角度探究主题词之间的相似性[21],并结合拟合度量值Stress和效度估计值RSQ确定验证整体网络结构合理性。

归纳整理2000—2021年智慧水利文献数据主题词,并利用TF-IDF方法[22-23]进行分词,提取反映不同时段研究特色的高频主题词。提取主题词进行因子分析后,进行系统聚类,并构建Hubert’Γ假设检验[24],拒绝随机排列假设,验证聚类效果合理性。

3 结果分析

3.1 文献量时序分布

根据统计的CNKI和WOS数据库中智慧水利研究主题的文献量,绘制文献量时序分布如图1所示。对CNKI数据库文献量的累计占比进行偏差分析,建立CNKI数据库文献量累计占比关于时间的多项式曲线回归模型:

图1 智慧水利研究领域文献时序分布

q=0.0004t2+0.0085t

(1)

相关指数R2=0.9986,说明曲线趋势与数据拟合性较好,CNKI数据库智慧水利文献量逐年递增,说明该研究热点逐渐走向我国专家学者的视野,关注度愈来愈高。

总体上,WOS、CNKI文献量均呈现上升状态,一方面是由于近年来移、云、大、物、智在水利行业的运用广泛,推动了该领域的深度发展。另一方面是各国政府对水利的重视,引导了专家学者的研究方向。CNKI数据库与WOS数据库文献量变化存在明显差距,CNKI文献量在2003年(水利部印发《全国水利信息化规划》)有小幅度增加,2014年《关于促进智慧城市健康发展的指导意见》出台,该研究热度逐年上升。WOS文献量逐年递增,增速相对较高,特别在2017年Wallingford提出运用CMlive模型建设数字孪生流域之后,迎来了爆发式增长。

3.2 发文机构分析

由图2(a)可知,CNKI数据库研究力量主要集中在政府部门、高校以及科研院所,已形成以高频发文机构为核心的研究团体,清华大学、华中科技大学、河海大学、中国水利水电科学研究院以及中国科学院地理科学与资源研究所等机构贡献较大,是我国水利领域的引导者。其中中国水利水电科学研究院与河海大学、清华大学等机构联系频繁形成该研究领域的主体力量。

图2 智慧水利研究发文机构共现知识图谱

由图2(b)可知,WOS数据库显示智慧水利研究机构涉及到高校及研究所,其中Deltares(荷兰三角洲研究所)、DHI(丹麦水力研究所)、Delft Univ Technol(荷兰代尔夫特理工大学)以及king Abdullah Univ(阿卜杜拉国王科技大学)等是先锋机构。但WOS数据库各机构团队致力于内部交流,外部交流相对较少。

3.3 关键词共现分析

图3为关键词研究热点聚类知识图谱。由图3(a)可知,CNKI数据库关键词出现频次较多的有水利信息化、智慧水利、数字流域等,说明CNKI数据库研究主要集中于新一代信息技术与流域、水电站和大坝等水利工程结合,建立数学孪生流域等,实现智慧模拟和精准决策水资源[25],提升水资源利用效率和水旱灾害防御能力[26]。

图3 智慧水利关键词共现知识图谱

由图3(b)可知,WOS数据库关键词集中在machine learning,deep learning,model,internet of things等。与CNKI数据库不同,WOS数据库主要研究为水利行业与云计算、物联网、大数据的结合,进行边缘拓展[27-28],精准模拟水利场景,预测水利问题,并实现问题决策,形成智慧水利研究领域[29],实现水利行业与物理系统的整合[30],达到“智慧”的状态。

对关键词进一步分析,结合文献量时序变化,划分智慧水利研究阶段如图4所示,包括研究探索期、研究导入期和研究爆发期3个阶段。

a.研究探索期,相关研究处于萌芽起步阶段。通过发展数字地球技术,整合地球空间相关的社会经济信息,实现地球空间信息共享。然而由于我国水系多而杂[31],传统水利难以满足社会专业化、精细化、智能化发展的需求,故亟待数字地球与传统水利行业结合,实现水利工程规划、建设与管理的数字化、网络化、智能化和可视化,为其发展奠定了基础。WOS数据库显示智慧水利重点集中于新一代信息技术的研究。水利信息化发展面临泛在、智能化精简等薄弱点,故利用物联网、神经网络等新技术进行特征提取、特征分类等[32],打破水利信息化发展局限性,为智慧水利建设作铺垫。

b.研究导入期,初步形成智慧水利研究框架。CNKI数据库显示相关研究主要面向数字地球在流域尺度上的应用[33],整合流域信息资源,更好服务流域管理。结合我国几大流域形成数字黄河、数字长江等热点,提高我国数字流域涉及的关键技术及相关设施应用成熟度,促进水资源信息共享时代的到来。WOS数据库显示随着专家学者注意到环境变化和水资源问题[34],加快新一代技术与水利行业的结合,促进水利信息化应用到降雨、径流等模型[35],并模拟及预测水利场景,建立决策系统,整合水利行业信息系统和物理系统,精细动态管理水利信息,促进水利的发展。

c.研究爆发期,智慧水利研究领域呈现迅速繁荣态势。CNKI数据库显示数字水利结合物联网和智能计算,构建总体技术框架[36],将传感器嵌入和装备到流域中,以多源耦合的气象水文信息保障平台、二元水循环及伴生过程数值模拟平台等为支撑,将其与数字流域耦合起来,完成数字流域与物理流域的无缝集成[37],做到防洪抗涝减灾、防旱抗旱、水资源合理配置和水生态保护等,实现智慧水利的全面透彻感知、数据信息共享、协同智能管理和泛在服务。WOS数据库显示水利信息化发展成为智慧水利,并且加入人工智能、卷积网络、数字孪生等[38-39],促进智慧水利前沿发展,搭建高效的水利平台,促进数据融合,系统模拟流域实时状况,预测分析水灾害的状况,并进行精准决策,减少灾害损失,提高水资源利用效率[40]。

3.4 主题词共现分析

构建主题词共被引矩阵进行因子分析,结果见表2。CNKI数据库显示共被引矩阵降维至11,表达整体信息的82.084%。11个主因子特征值均大于1,其代表的主题是智慧水利研究领域的主要研究方向,即信息安全、DEM数字高程模型、流域、人工智能、水电站、数字化、3S技术、GIS地理信息系统、智能水网和水利信息化。WOS数据库显示主题词共被引矩阵降维至8,表达整体信息的79.224%,8个因子特征值均大于1,其表示主要研究方向为智慧城市、气候变化、模糊控制系统、卷积神经网络、服务性、遗传算法、预测和深度学习,为之后聚类分析提供参考。

表2 智慧水利研究主题词因子分析

通过共被引矩阵KMO和Bartlett,验证因子分析可靠性和共被引矩阵正确性。CNKI数据库显示共被引矩阵KMO为0.648大于等于0.5,Bartlett球形检验近似卡方值为5234.58、显著度Sig为0.000,小于0.05;WOS数据库显示共被引矩阵KMO=0.761大于等于0.5,Bartlett球形检验近似卡方值为6064.59、显著度Sig为0.000,小于0.05,说明两数据库变量间存在显著相关性,因子分析结果可靠。CNKI数据库显示变量公因子方差均值为0.821,大于0.7,WOS数据库显示变量公因子方差均值为0.798,大于0.7,表明两数据库公因子代表所有变量效果好,即上述研究主题概括具有较高合理性。

运用R型聚类方法,系统聚类共被引矩阵,绘制智慧水利研究领域中研究主题的知识图谱(图5)。

图5 主题词聚类分析系谱图

由图5可知,智慧水利主题词分支存在明显差异。CNKI数据库显示该领域主要研究水利防汛抗旱资源管理、数字水利研究现状、Webgis数据共享、信息应用系统规划与管理、3S技术与决策支持系统、智慧流域与智能水网、水利信息化的发展、智慧大坝及水电站的发展、数字流域的主要模型及技术、数字黄河及数字长江发展和数字地球的应用,注重智慧水利实践应用与前沿技术并驾齐驱的发展。而WOS数据库显示研究主要有智慧城市网络框架研究、环境变化与大数据的结合、智慧水利支撑技术的交叉融合、卷积神经网络特征提取、服务传感器系统的发展、算法模拟流域降水预测洪水、信息管理的优化及预测、遗产算法与深度学习的演化及定义。

构建假设检验,验证分类合理性,计算上述分类Γ值的分类频数占随机分类所有频数的概率P,由于PCNKI、PWOS≈0,故拒绝随机排列假设,推断出上述聚类结果合理性较高。

以纵轴为密度,横轴为向心度,通过多维尺度分析体系,得到智慧水利研究领域的相对位置,如图6所示。

图6 研究主题多维尺度分析图谱

第一象限:CNKI数据库研究主题联系分散。各主题词构成了该研究领域下的应用基础,主要体现为信息技术功能。WOS数据库各主题词处于该领域的重要地位,其中卷积网络、洪水风险预测等联系较紧密,处于智慧水利应用研究的“核心”地位。

第二象限:主题词结构联系紧密。CNKI数据库主题词体现为应用前景以及应用系统等方面,其中DEM、人工智能等主题关联程度高,研究热度较高。WOS数据库各主题词主要定位于降雨模型、河流演化的预测及优化等,其中还涉及物联网、云计算等新一代技术,但交叉度不高,发展不成熟,处于研究领域的过渡地带。

第三象限:主题词结构较为紧密。CNKI数据库主题词可聚类到水利行业信息管理,信息应用系统相关研究成果处于“核心地位”,理论成果较为成熟。WOS数据库主题领域结构紧密,各主题词在卷积神经网络、机器视觉、人工智能网络等研究方向上都有体现,主题间交叉度较高,概括智慧水利新一代信息技术的交叉融合,有利于形成系统研究。

第四象限:CNKI数据库主题词大多体现在流域管理以及智慧水利应用场景研究方面,水电站、智慧流域以及水利管理研究主题间关联程度较高,理论及技术成果较为成熟。WOS数据库各主题词聚类到智慧城市、水安全系统与云计算、深度学习等算法的结合,延伸智慧地球至水利行业,支撑构建智慧地球。

为证明结果集群关系的正确性,验证多维尺度展开解释模型残差度为17.544%、19.013%,小于20%,说明变量未被解释数量较少,数据与分析结果拟合较好,近似程度较为满意。决定系数为0.595、0.510,大于0.5,也可证明图6模型解释效果较好,由此证明了上述结果的可靠性较高。

4 结 论

a.从文献量来看,CNKI数据库显示我国智慧水利研究起步较早,但发展较缓慢,与WOS数据库显示的智慧水利研究发展水平存在一定差距,发展效率较低。近几年,开展智慧水利先行先试工作增加了我国专家学者的关注度,提高了我国研究发展速度。

b.从发文机构共现来看,CNKI数据库显示清华大学、华中科技大学、河海大学、中国水利水电科学研究院以及中国科学院地理科学与资源研究所等机构贡献较大,且机构间联系频繁。WOS数据库显示该领域研究机构中Deltares、DHI、Delft Univ Technol和King Abdullah Univ等机构出现频次较高,是WOS数据库该研究领域的先锋机构,但团队外交流相对内部较少。

c.通过关键词共现可知,智慧水利研究经历了3个阶段。CNKI数据库显示主要阶段为数字水利产生、数字流域的发展与智慧水利框架的建立。WOS数据库显示主要路线为水利信息化产生与发展、建立模拟预测水利场景并精准决策的平台、智慧水利平台的运用。

d.通过主题词聚类分析可知,智慧水利主题词聚类存在明显差异,CNKI数据库显示实践应用与前沿技术探索并驾齐驱,WOS数据库显示偏向于智慧水利前沿发展和平台的运用。

e.CNKI数据库和WOS数据库论文主要研究方向存在不同。CNKI数据库显示推行智慧水利先试先行工作,以新兴科技与水利工程的深度融合为主要方向。WOS数据库显示主要方向为以卷积神经网络等为工具,结合水利信息化基础,精准模拟水利场景,搭建智慧水利数据平台。

猜你喜欢

主题词水利数据库
为夺取双胜利提供坚实水利保障(Ⅱ)
为夺取双胜利提供坚实水利保障(Ⅰ)
水利工会
数据库
数据库
数据库
数据库
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引