APP下载

基于数据驱动的洪涝风险评估方法研究进展

2022-05-27何昕宇田文翀张智宇廖振良

人民珠江 2022年5期
关键词:洪水机器因子

何昕宇,田文翀,张智宇,廖振良

(同济大学环境科学与工程学院,上海 200092)

每年洪水泛滥都对人们的生命安全和社会正常运转造成了巨大的威胁,阻碍了社会经济的可持续发展[1]。洪水具有突发性强、频率高、预测预防难度大、危害性强的特点[2-3]。随着人口、经济、城市的不断发展对孕灾环境的改变及全球变暖带来的降水影响,洪水带来的风险会继续增加[4]。为了减少洪水带来的人员伤亡和经济损失,许多研究人员把目光聚集在了洪水的空间预测,通过预测模型来规划洪涝风险,对脆弱区域进行管理。

洪涝灾害的发生、发展过程极其复杂,洪水风险评估基于洪水的形成机制,收集地形数据和历史洪水位置数据,对空间上的点发生洪水的可能性进行预测,绘制洪水风险图识别出易发生洪水的敏感区域,可以为人们主动应对洪水灾害预留时间,并为可持续的洪水风险管理提供有效的技术决策支撑[5-6]。根据使用的方法不同,洪水风险评估可以分为机理模型方法、知识驱动方法和数据驱动方法3类[7]。机理模型针对不同频率的降雨过程,利用水动力学模型及洪水淹没模型模拟推求可能的淹没范围,但在实际应用中存在水动力模型求解时间长数据精度要求高、洪水淹没模型数据需求量大等[8-9]不可忽视的问题。知识驱动方法运用领域专家的理论和经验知识选取和洪水成因有关的洪水风险的指标并对权重的定量化取值,其代表性方法有层次分析法[10-13]、网络分析过程(ANP)[14-15]、TOPSIS(Technique for Order Preference by Similarity to Ideal Solution)[16]等,但由专家主观判断造成的不确定性仍未有详细的解决和分析方法。

数据驱动方法指的是通过数据驱动模型,参考历史洪水的位置数据和与洪水环境特征相关的数据来预测区域上发生洪灾的空间概率,主要可以分为统计分析方法和机器学习方法[17]。与定性的分析方法相比,数据驱动方法可以客观地反映影响因子和洪水已发性之间的关系,需要更少的数据并且缩短了风险评估所需时间[18]。对于研究人员来说,数据驱动方法可以从研究结果了解输入数据的质量和所用方法的弱点,对不同研究区域做对比研究。对于风险管理者来说,数据驱动方法为风险管理措施的优先级排序和相关资源的分配提供了基础[19]。在遥感图像识别泛洪区域的技术不断发展[20]以及GIS系统强大的空间分析能力[21]的驱动下,最近使用数据驱动方法进行洪水风险分析的英文文章数量不断增加,文章的主要内容主要集中于特定模型的应用和模型之前的比较[22-23],中文文章还处于初步应用阶段。面对层出不穷的新的数据驱动方法的应用,有必要对其进行较为全面的概述,为水利水务相关研究者及管理部门提供学术研究和业务应用的方法论参考。

1 洪水风险评估的数据驱动方法现状

1.1 统计分析方法

统计分析的方法被广泛地用于风险评估的研究当中,其优点是建模过程和所得结果易于理解并且花费时间较少,缺点是在使用之前进行了严格的假设,在单独使用时具有一定的局限性[24]。统计分析方法可以分为两大类:二元统计分析(Bivariate Statistics Analysis,BSA)和多元统计分析(Multivariate Statistics Analysis,MSA)。

1.1.1二元统计分析

在洪水风险评估研究中,二元统计分析的方法用于评价各等级评价因子对洪水发生之间的关联性[24],二元统计分析方法可以单独使用,也可以作为构建机器学习模型的前处理步骤,排除关联性较弱的评价因子以保证预测模型的准确性。代表方法有频率比(Frequency Ratio,FR)、证据权(Weight of Evidence,WofE)和信息量法[25]。

频率比是一种实现简单、易于理解的二元统计方法,通过计算得到的频率比值,频率比的值越大,洪水的发生与评价因子之间的关联性越强,比较不同评价因子频率比值的大小可以识别出贡献最大的因子。Samanta等[26]使用FR模型对印度Subarnarekha河下游进行洪水风险评估,选取11个可能的评价因子进行分析,认为强降水、农业用地、较低高程和冲击土壤类型是影响该地区洪水发生的主要影响因素。频率比方法也被指出其缺点是忽略了变量之间有可能存在的线性关系[27]。

证据权方法已广泛应用于洪水[15]、滑坡[28]和山火[29]风险评估研究,是一种基于贝叶斯概率模型的二元统计方法[30]。Costache等[31]选择12个指标对罗马尼亚Izvorul Dorului河流域洪水爆发可能性进行评估,并采用证据权法指出主要的地貌影响因素。多项研究对比了频率比方法与证据权方法得到的权重,发现2种二元分析方法在识别主要风险因素上得到的结果有很大的相似性[32-33]。

1.1.2多元统计分析

Logistic回归是一种常用的多元统计分析方法,其原理是基于概率论及其参数值采用最大似然估计的方法进行估计。该方法的优点是数据不需要呈正态分布,并且影响因子的数据可以是连续的或离散的,也可以是2种类型的组合[34]。Logistic回归模型在风险评估问题中被用来确定各个因子对洪水形成的影响以及因子之间的相关性。Tehrany等[17]用FR-Logistic回归集成模型对马来西亚Kelantan地区进行洪水风险评估,FR模型作为二元统计分析工具获取每个因子每级的权重,将得到的权重归一化处理后作为Logistic回归模型的输入,利用Logistic回归模型获取每个因子和洪水事件之间的关系。曾忠平等[35]从互联网媒体报告和公众分享数据提取历史洪灾数据,采用Logistic回归模型进行洪涝灾害评价。

1.2 机器学习方法

随着机器学习理论的发展,机器学习技术与GIS空间分析技术耦合进行洪水风险评估已取得了较好的成果。与传统的统计分析方法相比,机器学习模型能更准确地表达洪水发生与环境因子之间的非线性关系,并且不要求环境因子呈正态分布,更适合在大面积区域使用[36]。运用到洪水风险评估的主流方法有人工神经网络(ANN)、自适应神经模糊推理系统(ANFIS)、支持向量机(SVM)和决策树(DT)等。

1.2.1机器学习建模评估洪水风险概述

利用机器学习技术进行洪水风险评估的基本流程见图1,可以大致分为数据准备、机器学习模型的构建、模型评估和风险图绘制等步骤。模型的输入数据包括历史洪水清单地图和洪水影响因子等。历史洪水清单地图记录了历史洪水发生的空间位置、发生日期等信息,可以取自遥感卫星影像[37]、机载激光雷达[38]、政府公报和报纸[39]等来源。为了训练机器学习模型并评估模型的预测和泛化能力,历史洪水点位数据集还包括与洪水事件数量相同的非洪水事件数据,其中洪水发生的数据由1表示,1的值表示存在,非洪水的位置由0表示,并按照一定的比例随机分为训练数据集和验证数据集。

在数据准备过程中,选择合适的影响因子是风险评估的关键步骤。造成洪水的自然、社会因素多种多样,目前没有统一的选择标准,应结合当地实地考察情况和专家意见决定。机器学习方法中主要采用的影响因子可以分为以下几类:地形因素(海拔、坡度、高程、坡度角、曲率、岩性、与河流的距离等)、气象因素(三日内最大降雨量、风暴潮频率等)、人为因素(与主路的距离、植被覆盖率、排水管网密度等)[39-41]。

图1 机器学习建模评估洪水风险流程

为了评估所用机器学习模型的精度,比较不同机器学习方法性能,常用的方法有统计参数计算、ROC曲线(Receiver Operating Characteristic)、ROC曲线下面积值(Area Under the Curve,AUC)等方法[42-43]。ROC曲线可以直观地反映模型性能,ROC曲线是评估二分类机器学习模型性能的常用工具[23,44],以敏感性(真阳率)为横坐标、1-准确率(假阳率)为纵坐标绘制的,ROC曲线下面积AUC是直观反映当前机器学习模型准确度的指标,AUC的值越大,说明模型的效果越好。

1.2.2人工神经网络

人工神经网络(Artificial Neural Network,ANN)是模拟人类大脑神经网络设计的一种模型,它与生物神经元类似,由多个节点(人工神经元)互相连接而成,可以用来对数据之间的复杂关系进行建模。ANN模型在水质预测[45]、河流流量预测[46]、降雨径流模型[47]等相关领域有着广泛的应用。

最早发明的简单神经网络称为前馈神经网络,有时也被称为多层感知器(Multi-layer Perceptron,MLP)[48],由输入层、隐藏层和输出层组成,输入层输入的是洪水的影响因子,输出层为洪水发生或未发生网格单元,隐藏层将输入转为输出。MLP模型常使用反向传播算法(Back Propagation,BP)调整网络的结构,算法最开始随机选择神经元之间的初始权重,通过比较网络计算输出值与真实值之间的偏差,重新调整权重至获得最小偏差。Costache等[49]比较了MLP模型和梯度提升树模型在洪水空间预测上的准确性,通过分析结果指出是因为MLP模型这种不断试错获取最小偏差的方法使其获得更高的预测准确率。

深度学习起初是人工神经网络的隐藏层从结构上向多层进行拓展,在之后的发展中逐渐衍生出卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络等等算法,在语音识别、数字图像处理和自然语言处理等其他科学领域有着广泛应用[50]。以卷积神经网络为代表的深度学习算法可以直接对图像形式数据进行处理,提前将洪水历史清单和影响因子图像堆叠在一起合成一张“多通道图像”,CNN可以直接从图像中提取有用的信息。Wang等[51]采用一维、二维、三维3种数据表现形式结合卷积神经网络对江西上犹县绘制了洪水风险图。其次,在面对大量数据集的问题时,深度学习模型占有很大的优势,Khosravi等[52]收集了伊朗2 769场洪水的空间点位数据,采用CNN模型绘制全国范围内的洪水风险图,取得了较好的效果。

1.2.3自适应神经模糊推理系统

自适应神经模糊推理系统(Adaptive Neuro-Fuzzy Inference System,ANFIS)于1993年提出,是洪水风险评估中很受欢迎的一种方法,它通过将人工神经网络和模糊逻辑相结合,提供了更高的学习能力,并且快速简便易于实现[53]。尽管ANFIS在ANN的基础上进行了改进,但它的缺点是无法找到最佳参数,容易陷入局部最小值[42]。针对这一缺陷,近期的研究通常采用优化算法寻找最佳参数,对ANFIS算法进行改进。Hong等[54]运用差分进化算法和遗传算法对ANFIS模型进行改进,研究了江西横峰县的洪水危险性,分析发现ANFIS和差分进化算法结合得到结果更快,洪水危险性区划结果的准确性更高。Wang等[55]使用BBO(Biogeograpgy Based Optimization)算法和ICA(Imperialistic Competitive Algotirhm)算法分别与ANFIS算法进行结合,将赣州定南县的洪水风险区划分为5级,研究结果显示集成方法相较ANFIS在预测的准确度上有很大提高。

1.2.4支持向量机

支持向量机(Support Vector Machine,SVM)是基于统计学习理论开发机器学习方法,其基本思想是将原始数据集从输入空间映射到高维甚至无限维的特征空间,使分类问题在特征空间中变得更加简单,通过学习已发生洪灾和未发生洪灾2类样本,在高维特征空间寻找最优分类超平面,将2类数据正确分开[56]。SVM算法的性能与核函数的选择及参数取值紧密相关[57],常用的核函数有4种:线性(Linear)核函数、多项式(Polynomial)核函数、径向基(Radial Basis Function,RBF)核函数和S型(Sigmoid)核函数,见表1。Tehery等[58]选取马来西亚Kuala Terengganu盆地作为风险评估研究区域比较了上述4种不同核函数的支持向量机模型的预测效果,结果表明SVM-Sigmoid模型和训练集的拟合程度最好,而SVM-RBF的预测准确率最高。

表1 常用的支持向量机核函数

支持向量机参数中的核函数参数及惩罚系数C一般使用交叉验证的方法选取。传统的参数估计方法耗时较长,因此Panahi等[59]采用元启发式算法对参数搜索过程进行改进,将方法用于伊朗西北部的Qazvin平原地区,得到的区划结果优于传统方法。SVM模型虽然泛化能力强,缺点是很难识别出重要的变量。针对这一问题,有研究使用二元统计分析模型如FR、WoE等排除与洪水发生关联性很小的影响因子降低模型输入的不确定性,以求获得更好的预测效果。Zhao等[39]认为以前的研究工作对样本点之外的数据集利用不足,导致在高度空间异质化的城市地区使用效果不够理想,因此提出采用半监督式模型——弱标记支持向量机对北京地区的易涝地区进行识别,与其他模型对比发现弱标记支持向量机的区划结果展现出更多的街区和道路细节,区划结果更加合理。支持向量机是一种适用小样本训练集的学习方法,在研究区域很大的情况下,训练集的数据量增大,SVM模型训练需要花费的时间成本会增加,可能在预测的准确率上也会下降[60]。

1.2.5决策树

决策树(Decision Tree,DT)是由一些内部决策节点和终端树叶组成的树结构机器学习模型[61],在洪水风险空间预测问题中,通常选取一定数量发生洪水的历史事件和不发生洪水的随机点位作为训练样本,按照一定的属性选择度量逐级递归分割,直到每个节点只有一种类型或记录数低于某个阈值,从而构建起决策树。决策树模型的特点是简单易于使用,离散和连续的数据均能进行处理,且输入数据不需标准化[62];其另一特点是可以在模型训练过程中找到对洪水是否发生产生关键性影响的因素,并且随着树自上而下移动,影响因素的重要性依次降低[17]。Wang等[63]使用决策树的算法之一——分类回归树模型对江西鄱阳12个洪水风险因素进行识别,根据分类回归树的训练结果,与该地区洪水发生最相关的3个地理因素分别是坡度、高程和土壤种类。

随机森林(Random Forest,RF)是另外一个洪水风险评估常用的决策树衍生模型,其实质是将许多决策树合并在一起,提高了模型的预测精度,并且能处理数据量较大的训练集。Zhao等[64]在中国大尺度范围内进行了山区洪水风险评估,对RF、ANN、SVM算法进行了对比,结果发现RF模型表现出最佳的性能。吴小君等[65]从触发因子、下垫面孕灾环境和承灾体角度选取9个评价指标识别出了江西省的山洪高发区域,随机森林算法在研究中表现出较好的预测准确性。

2 结语

对洪水风险评估中的数据驱动方法做了综述性回顾,将其分为统计分析方法和机器学习方法,探讨了不同方法下优化发展方向,比较了各种方法的优点及局限性。笔者认为以下几个问题还需要深入解决。

a)确定评价指标之间的线性关系及其影响。洪水事件受多方面的因素的影响,根据研究区域的不同地理特征和数据的获取情况,评价指标的选择具有地区差异性。一个评价指标可能对特定区域的洪水具有高影响性,对另外一地区影响甚微。因此在研究中对评价指标的相对重要性作分析是很重要的步骤,主要方法有信息增益[49]、频率比、随机森林[66]和SWARA法[67]。值得注意的是,有文章观察到增加指标数量有助于模型精确度的提高[64],但指标之间还会存在多重线性的关系,其线性关系对于模型精确度的影响还有待探讨。

b)遥感识别技术与风险评估模型的进一步集成。遥感图像识别模型与风险评估评估模型的集成也有待进一步扩展。洪水风险评估依赖于较高精度的数据高程模型数据(DEM),而新的卫星发射带来了更好的传感器,更短的返回周期,更快的图像采集和处理,让更高质量和更高分辨率的遥感数据变得更容易获取[68]。已有机器学习算法如决策树模型用于从数据中提取更准确、更大量的信息,这为洪水风险管理提供更广阔的空间[24]。拓展遥感图像识别的模型与洪水风险评估模型集成,将有利于快速评估灾害状况和需求,有利于灾情的快速分析和管理。

c)离散化处理和尺度效应的影响。在洪水风险分析影响因子中,有土地利用类型、土壤类型等离散型数据和坡度、坡向等大量连续性数据,空间分析栅格化时需要对这些连续数据进行离散化处理。连续数据的离散化处理过程中造成的图层信息损失以及不同尺度的栅格给预测结果带来的影响需要进一步的分析。

d)拓展机器学习模型方法。数据驱动方法应用的更新存在以下几个趋势:一是不同机器学习方法联合使用,相较于单一模型,集成模型从泛化能力、求解速度和预测准确性方面都具有显著的优越性;二是机器学习模型和模糊系统、统计方法集成;三是机器学习模型与寻优算法集成。数据驱动方法在不断增多,不同的研究区域和不同规模的样本和数据集,模型的性能表现有所不同。但从现有的文章来看,还没有哪个模型在各种研究区域都拥有绝对的优势,更高质量的集成模型仍有待进一步探索。

猜你喜欢

洪水机器因子
机器狗
机器狗
因子von Neumann代数上的非线性ξ-Jordan*-三重可导映射
一些关于无穷多个素因子的问题
影响因子
影响因子
洪水时遇到电线低垂或折断该怎么办
未来机器城
又见洪水(外二首)
洪水来了