基于XGBoost的水库大坝基础设施潜在风险评估预测
2023-06-27丁炜金有杰张日俞蕊
丁炜 金有杰 张日 俞蕊
摘要:水库大坝基础设施潜在风险评估是水库大坝风险评估体系的重要组成部分,然而水库大坝基础设施数据量大、数据特征多、还存在数据缺失的情况。XGBoost算法作为一种基于决策树的集成算法,在应对大规模含有缺失情况的、具有混合类型的特征数据方面具有独特优势。为了更快速准确地对水库大坝基础设施潜在风险进行评估,提出了一种基于XGBoost的水库大坝设施潜在风险评估预测方法。首先将水库大坝统计数据进行预处理,并用该数据对XGBoost模型进行训练,然后通过GridSearch和Cross-validation计算模型最优参数,最后根据准确率、召回率等精度指标对模型进行评价。预测结果表明:XGBoost在测试集上的准确率达91.26%,相比于其他4种常规机器模型(随机森林、人工神经网络、最邻近算法、支持向量机)高出2.12%,5.59%,19.31%,38.65%,满足工程实际的要求。
关 键 词:水库大坝; 风险评估预测; 准确率; 召回率; XGBoost
中图法分类号: TV63
文献标志码: A
DOI:10.16232/j.cnki.1001-4179.2023.04.035
0 引 言
第一次全国水利普查报告以及相关的统计数据显示,中国大陆地区共有水库98 002座,其中小型水库93 308座,中型水库3 938座,大型水库756座,总库容达到9 323.12亿m3,有相当一部分兴建于1950~1970年间[1-2]。受限于当时科学技术发展水平以及经济条件,部分大坝存在设计缺陷、施工质量[3-4]等病险问题。由于水库数量众多、分布较广,难以通过专家判断的方式评估每座水库基础设施的风险。因此,如何准确、快速地评估水库大坝基础设施风险便成为亟需解决的问题。
国内外在水库风险评估方面已有一定的研究,Chauhan等[5]將不确定性分析和水库大坝风险评估相结合,更为全面准确地评估多种因素下的水库大坝风险;Xin等[6]利用影响尾矿坝变形和稳定的坝体材料、坝高等影响因素构建水库大坝风险评估体系,并建立了基于风险评估指标法的风险评估模型;Kuo等[7]在纳入水库特性不确定性和水文事件自然随机性的基础上,通过考虑溢洪道闸门的可用性来评估水库大坝的溢流风险,结果表明考虑到基础设施可用性的风险高于不考虑溢洪道闸门可用性的风险;Pinto等[8]提出了一种小型水库大坝安全指数(SDSI),构建了具备分类标准的评价矩阵,用以评估水库大坝的安全性,并且能够为小型水库大坝维护行动优先级的确定提供支持;Smith[9]采用贝叶斯网络分析了岩土、水文、结构等风险因素,确定了对总体风险影响最大的因素;Li等[10]基于AHP方法筛选出12个风险指标,并采用动态灰色关联分析法预测了尾矿坝动态风险等级,实现了风险等级的智能化评估;徐耀等[11]采用主成分分析法确定了影响水库大坝的主要风险指标;杨德玮等[12]以脆弱度和后果系数为依据建立水库风险指数,并对实际案例进行了分析;周端祺等[13]基于层次分析法,以脆弱度和模糊数学为工具,构建了水库大坝风险评价体系。随着人工智能技术的快速发展,各种机器学习算法逐渐在水库大坝风险评估领域得到应用并取得了较好的效果,Mcmanamay等[14]利用美国水库大坝统计数据,建立了基于决策树的水库大坝风险评价模型,实现了水库大坝风险的快速评估;Assaad等[15]利用ANN等机器学习方法建立了水库大坝风险预测模型,用以评估水库大坝的安全风险等级。
水库大坝基础设施数据量大、数据特征多,还存在缺失情况。XGBoost算法是一种集成机器学习算法,在处理大规模水库大坝基础特征数据时更高效、快速,面对缺失情况还具有一定的鲁棒性,同时在模型构建、模型优化等方面能够减少主观因素。因此本文选取XGBoost算法构建水库大坝基础设施潜在风险评估模型,旨在为水库大坝早期风险预警提供一种简便有效的手段,为水库大坝进行全面风险评估提供支持。
1 研究方法
1.1 XGBoost基本原理及参数
XGBoost全名为eXtreme Gradient Boosting,是一种基于树的集成模型,它的核心思想就是在训练过程中不停将特征参数作为变量加入目标函数,通过新的目标函数拟合损失函数,并在训练中不断地调整特征权重,以达到最好的效果。
1.2 潜在风险评估与预测流程
本文主要研究思路是利用机器学习模型从水库大坝基础设施相关数据中学习风险评估的一般规律,使其能通过水库大坝基础设施数据评估预测大坝的风险等级。潜在风险评估与预测的流程如图1所示。
(1) 数据清洗。由于主观和客观因素,研究数据中大多存在数据缺失、内容格式异常等问题,无法直接读入模型训练,因此首先需要查看各字段数据类型、数据缺失、异常值分布情况,然后将不符合要求的数据进行相应的处理。
(2) 数据编码。模型对于输入数据格式和类型有一定的要求,通常数据包含文本型、数值型等多种类型,因此在输入模型前需对文本数据编码。当前主要编码方式有LabelEncoder和OneHot。
(3) 模型优化。模型优化是指通过对模型参数调整使得该模型在训练样本上获得高预测准确度,并且在对未知数据预测时能够有良好的表现。
(4) 模型评估。模型在训练数据上的准确率无法表明其性能优劣,需要用测试数据来综合评估模型性能,常用的评价指标依据有Precision、Recall、混淆矩阵、总体精度等。
1.3 模型评估方法
为了能客观评估模型的评估预测能力,采用混淆矩阵对模型进行综合评价。混淆矩阵是一种可视化的、能比较分类结果和真实值的可视化工具,基本结构如表1所列,其主要评价指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及F-Score。
由此评价指标可分别表示为
式中:Accuracy(准确率)为测试数据中分类正确的样本占全部样本的比值;Precision(精确率)为测试数据中预测结果为正确类别(类别1)的样本在分类结果中的比例;Recall(召回率)表示实际为类别1的样本中被预测为类别1的比例;F-Score为衡量Precision和Recall的调和值,它能较为全面地评估模型分类能力;β为Precision和Recall的权重。
2 实例评估与结果验证
2.1 研究数据
本文选择2019年美国水库大坝清单(National Inventory of Dams)作为研究数据,该数据将水库大坝潜在风险等级分成3类,如表2所列。从中选取39 396条数据并筛选出25项大坝重要基础特征,特征情况如表3所列。
2.2 数据预处理
数据预处理的好坏将直接影响模型的预测能力,依据模型要求对输入数据采用的预处理包括数据清洗、数据编码。
本文研究数据为实地勘测和统计数据,针对特征数据中存在的数据内容、数据格式异常等问题,通过数据清洗使其符合模型要求,并将特征数据缺失严重的删除。
针对研究数据包含文本数据、数值数据等多类型的情况,通过数据编码将数据形式进行统一。
以处理后的数据为基础,随机选取80%数据作为训练数据,剩余20%数据作为测试集数据。为防止数据泄露,在训练阶段测试数据不参与模型训练的任何过程,确保能科学评估模型的评估预测能力。
2.3 模型最优参数设置
模型最优参数计算采用网格搜索和交叉验证相结合的方式,首先将数据集分为k个子集,将其中1个子集作为测试样本,k-1个子集作为训练样本;在此基础上将k-1个训练样本输入模型训练,并使用网格搜索获取最优参数,计算其预测准确度;通過交叉验证k次并计算k次结果的平均值。本文最终参数选择结果见表4。
2.4 实验结果分析与讨论
将训练模型应用于测试集数据,评估水库大坝基础设施潜在风险并获得每个特征因子的重要性排序结果,如图2所示。在25个特征中,检查频次、筑坝材料、防渗体类型、闸门宽度和闸门数量的重要性显著高于其他特征。相关研究结果表明,在实际工程状况下,筑坝材料和防水材料分别对水库大坝的变形和渗流有着重要影响[10],例如1908年美国赫勒拿的豪瑟水库因水坝建造材质以及结构问题使得在面对洪水时出现溃坝;而水库大坝闸门宽度、闸门数量决定了水库的泄洪能力,在历史溃坝事件中,水库泄洪能力不足、无法及时泄洪是溃坝发生的重要原因之一;在水库大坝建成后大坝安全检查是确保水库大坝安全极为重要的一环,大坝安全检查具有及时性、全面性和直观性的特点,能及时发现渗流、裂缝、设备故障等重大安全隐患,增加检查频次能极大提升大坝的安全性,这表明模型对于水库大坝基础潜在风险的预测评估具有一定的合理性。
分类结果预测准确度如图3混淆矩阵所示,高风险预测准确率为95%,中风险预测准确率为89%,低风险准确率为91%。利用式(11)计算可得模型预测结果总体准确率为91.3%。水库大坝失事往往会带来极为严重的后果,因此工程应用中对高风险等级的预测准确率有着较高的要求。而本文模型高风险预测准确度达到95%,并且总体准确率超过90%,满足实际应用的需要。为了更为全面地评估模型,利用公式(12)~(14)计算Precision(精确率)、Recall(召回率)和F-Score,从表5中可以看到3种分类结果的F-Score均超过90%,表明模型预测准确率具有高可靠性。
为进一步验证XGBoost相较于其他方法的优越性,现将XGBoost与最邻近算法(KNN)、人工神经网络算法(ANN)、支持向量机(SVM)、随机森林算法(RandomForest)等研究方法进行对比,结果如表6所列。从准确率来看,5种模型中SVM和KNN表现不尽人意,准确率仅有52.61%和71.95%,其主要原因是采用的研究数据是实际数据,数据缺失值较多,而SVM和KNN对于缺失值极为敏感,因此准确率较低。相比SVM和KNN模型,神经网络和极限梯度提升树模型在应对存在缺失值的数据集有更好的表现,故ANN、RandomForest和XGBoost准确率更高,其中XGBoost准确率达到91.26%,分别比ANN模型、RandomForest模型高5.59%和2.12%,这充分说明XGBoost不仅预测精度优于其他模型,并且受缺失数据的影响较小,具有一定的鲁棒性,适合在工程实际中推广应用。
3 结 论
迅速准确地评估水库大坝基础设施潜在风险对降低水库大坝失事风险有着重要意义。本文结合水库大坝基础资料,提出了基于XGBoost的水库大坝潜在风险评估预测模型,实验结果表明,该模型与SVM、KNN、ANN、RandomForest等模型相比,预测能力更加突出,在准确率、召回率和F-score指标上均优于其他模型,能准确地评估预测水库大坝风险等级;同时该模型受数据缺失的影响较小,具有良好的泛化性能,能够在实际场景中进行使用。
然而,潜在风险评估预测研究以水库大坝基础特征为主,尚未将全部影响因素纳入研究范围,后续可以结合洪水、渗流、降雨等动态风险因子,针对水库大坝风险动态预警做进一步研究。
参考文献:
[1]中华人民共和国水利部,中华人民共和国国家统计局.第一次全国水利普查公报[J].中国水利,2013(7):1-2.
[2]黄强,刘东,魏晓婷,等.中国筑坝数量世界之最原因分析[J].水力发电学报,2021,40(9):35-45.
[3]杨启贵,高大水.我国病险水库加固技术现状及展望[J].人民长江,2011,42(12):6-11.
[4]孙继昌.中国的水库大坝安全管理[J].中国水利,2008(20):10-14.
[5]CHAUHAN S S,BOWLES D S.Dam safety risk assessment with uncertainty analysis[J].Ancold Bulletin,2004:73-88.
[6]XIN Z,KAILI X.Study on the risk assessment of the tailings dam break[J].Procedia Engineering,2011,26:2261-2269.
[7]KUO J T,HSU Y C,TUNG Y K,et al.Dam overtopping risk assessment considering inspection program[J].Stochastic Environmental Research and Risk Assessment,2008,22(3):303-313.
[8]PINTO W L H,FAIS L M C F.The small dam safety index(SDSI):a tool for small dam safety assessment[J].International Journal of River Basin Management,2022:1-26.
[9]SMITH M.Dam risk analysis using Bayesian networks[J].ECI Digital Archives,2006,43:51-62.
[10]LI W,YE Y,HU N,et al.Real-time warning and risk assessment of tailings dam disaster status based on dynamic hierarchy-grey relation analysis[J].Complexity,2019,26:711-736.
[11]徐耀,趙春,汪洋.基于主成分分析法的水库大坝风险排序综合指标研究[J].水利发展研究,2018,18(2):43-47.
[12]杨德玮,彭雪辉,盛金保.基于大坝缺陷的群坝风险排序方法研究[J].安全与环境学报,2016,16(2):11-15.
[13]周端祺,周志维.基于模糊层次分析法的大坝风险评价方法研究[J].江西水利科技,2019,45(4):235-240,246.
[14]MCMANAMAY R A,OIGBOKIE C O,KAO S C,et al.Classification of US hydropower dams by their modes of operation[J].River Research and Applications,2016,32(7):1450-1468.
[15]ASSAAD R,EL-ADAWAY I H.Evaluation and prediction of the hazard potential level of dam infrastructures using computational artificial intelligence algorithms[J].Journal of Management in Engineering,2020,36(5):04020051.
(编辑:胡旭东)
Evaluation and prediction of potential risks of reservoir dam infrastructures based on XGBoost
DING Wei1,JIN Youjie1,2,ZHANG Ri1,YU Rui1
(1.Nanjing Research Institute of Hydrology and Water Conservation Automation of MWR,Nanjing 210012,China; 2.Hydrology and Water Resources Engineering Research Center for Monitoring of MWR,Nanjing 210012,China)
Abstract:
The potential risk evaluation of the reservoir dam infrastructures is an important part of the reservoir dam risk evaluation system.However,the monitoring data of reservoir dam infrastructures is large with many characteristics and easy to lose.As an integrated algorithm based on decision tree,XGBoost algorithm has unique advantages in dealing with feature data with large-scale missing data and mixed type.Therefore,in order to evaluate the potential risk of reservoir dam infrastructures quickly and accurately,this paper proposed a potential risk assessment and prediction method for reservoir dam infrastructures based on XGBoost.Firstly,the reservoir dam monitoring data was preprocessed,and the XGBoost model was trained with the data.Then,the optimal parameters of the model were calculated by GridSearch and Cross-validation.Finally,the model was evaluated according to accuracy indicators such as accuracy and recall rate.The prediction results showed that the accuracy of XGBoost on the test set reached 91.26%,which was 2.12%,5.59%,19.31% and 38.65% higher than the other four conventional machine models (random forest,artificial neural network,nearest neighbor algorithm and support vector machine).The proposed model can meet the requirements of engineering practice.
Key words: reservoir dam;risk evaluation and prediction;accuracy;recall rate;XGBoost
收稿日期:2022-04-01
基金项目:中央级公益性科研院所基本科研业务费专项资金资助项目(Y520022,Y520009)
作者简介:丁 炜,男,助理工程师,硕士,研究方向为水利信息化及机器学习。 E-mail:dingwei@nsy.com.cn