基于Softmax回归模型的地震灾害损失预测评估研究
2022-01-04李云飞许才顺池招招
李云飞,许才顺,2,池招招,张 飞
(1.清华大学 合肥公共安全研究院,安徽 合肥 230601; 2.安徽建筑大学 电子与信息工程学院,安徽 合肥 230601)
我国是世界上地震活动最强烈和地震灾害损失最严重的国家之一,快速、精准地对地震灾害损失进行评估和预测分析,是灾害风险管理,特别是应急管理的关键环节[1]。
文献[2]采用震害经验统计法,结合数理统计和最小二乘拟合法,给出了生命线系统与建筑物之间的地震直接经济损失之比与震级之间的函数关系模型;文献[3]在回归函数的基础上,考虑了震级和震中烈度对直接经济损失的影响,结合震级-震中烈度联合分布律构建了基于贝叶斯模型的快速评估方法。然而,地震灾害及其产生的后果是一个复杂的过程,地震灾害损失的发生通常是由孕灾环境、致灾因子和承灾体等多种因素交互影响形成的,地震灾害发生后的经济损失评估也面临相当复杂的技术问题,需要考虑诸多影响因素之间的非线性交互影响,以及因素之间复杂的不确定性、离散性、随机性及相互之间的关联性,因此地震灾害风险损失的预测具有挑战性[4]。为此有研究者引入人工神经网络等非线性建模方法来构建地震灾害损失模型。文献[5]基于多层级的指标体系,建立适用于震后经济损失快速评估的三层逆向传播(back propagation,BP)神经网络地震灾害经济评估模型;文献[6-7]分别采用随机权神经网络模型实现大数据环境下地震灾害破坏程度快速评估。上述研究进一步丰富了地震灾害损失评估和预测工作的理论方法。
由于地震灾害所引发的次生衍生灾害的复杂性,直接与间接损失的准确数值难以进行评估预测。相比较而言,对地震灾害损失的等级进行分类、评估与预测更加具有可行性和可操作性。常见的用于解决多分类问题的算法有多种,如决策树、朴素贝叶斯、支持向量机(support vector machine,SVM)和BP神经网络等。而近年来,机器学习中的Softmax回归模型作为构建多分类模型的方法逐渐被重视[8-10]。本文使用Softmax回归模型构建融合的地震灾害损失等级预测模型,并将其与传统的BP神经网络模型和SVM模型进行了比较。研究结果表明,在测试时间和预测精度上,本文构建的预测模型都优于BP神经网络模型和SVM模型。因此,融合Softmax回归模型为地震灾害直接经济损失等级的快速精准评估和预测提供了一种新方法。
1 基于Softmax回归模型的震灾预测
Softmax回归是线性回归在多分类问题上的扩展,主要用于处理多分类问题。本文将不同地震灾害损失程度等级作为分类类别,将地震灾害相关参数作为特征进行训练,用Softmax回归模型预测新发地震灾害损失。
1.1 Softmax回归分类
假设地震灾害损失程度分为m级,则Softmax分类标签为m个。假设有n个训练样本,样本集合为:
A={(x(1),y(1)),(x(2),y(2)),…,(x(n),y(n))}
(1)
其中:x(i)为输入地震灾害特征,若地震灾害特征参数的个数为k,其为元素个数为k的一维向量;y(i)∈{1,2,…,m}为类标签,i={1,2,…,n}。对每个样本,估计其所属的类别概率为P(y=j|x)(j=1,2,…,m)。根据广义线性模型理论,可得出其假设函数为:
(2)
(3)
1.2 Softmax回归求解
Softmax回归算法在进行训练时是对其损失函数求极大似然估计,可采用梯度下降法或牛顿法进行求解。Softmax回归算法的损失函数为:
(4)
(5)
这时损失函数变为凸函数,有唯一解且Hessian矩阵可逆,可以采用梯度下降法或牛顿法求解。对(5)式求偏导,有
P(y(i)=j|x(i);W))]+δwj
(6)
这里采用梯度下降法,结合训练数据对权重wj进行更新,求出wj的最优解,公式为:
wj=wj+αwjJ(W)
(7)
其中,α为学习率。训练完成后,用得到的W矩阵数据对测试数据作前向传播,更新(5)式,最终求解(2)式,获得每个测试数据对应的m个预测值,选取其中最大值所对应的类别作为模型预测的最佳类别。
2 震灾指标体系构建与特征参数设计
地震灾害损失评估的目的是定性或定量地分析致灾因子在人类社会的发展与生存中所产生的影响。评估的主体为经济损失与人员伤亡这2个参数。灾害损失评估的过程中,首先考虑自然灾害对于人类社会发展的直接破坏作用,这包括了直接经济损失与人员伤亡。而由于这2个参数物理意义的差异,无法融合成为1个评估指标,因此相关研究采用的是双重指标评估体系。自然灾害造成损失的评价方法主要有风险评价方法、灾害等级评价方法、最优决策方法3种[7]。本文采用灾害等级评价方法。
由于地震灾害是社会和自然综合作用的产物,灾害作用于人类社会产生灾难,灾难的灾情大小取决于孕灾环境的稳定性、致灾因子的危险性和承灾体的脆弱性。因此,本文将地震灾害直接经济损失看成是孕灾环境、致灾因子和承灾体的函数,它们之间存在复杂的非线性、不确定性和离散性,相互作用下会造成难以估算的损失。为了更加客观、全面、合理、有效地对地震经济损失作出评估和预测,建立地震灾害直接经济损失指标体系,如图1所示。
图1 地震灾害直接经济损失指标体系
在实际过程中,本文进一步选取8个代表性的指标进行实验验证。
(1) 致灾因子。本文选取地震震级、震源深度和震中烈度作为致灾因子的量化指标。
(2) 孕灾环境。由于医疗技术程度难以量化,地震规划带难以操作,道路及疏散场所面积很难统计,对于灾后应急救援,需要根据地震相关数据快速确定灾害等级,因此本文选取抗震设防烈度和设计基本地震加速度作为孕灾环境的实验模拟指标。
(3) 承灾体。根据文献[11]可知,建筑物抗震设防标准与抗震设防烈度相关,且一个区域存在多种不同抗震等级的建筑物,无法短时间内总结量化该地区的建筑物抗震设防标准,因此为了在地震灾害发生后,短时间内预测灾害等级从而提出对应的应急救援措施,本文使用抗震设防烈度代替建筑物抗震设防标准。而建筑物类型及比例在短时间内也难以测算,因此承灾体的实际选取指标为灾区人均GDP、灾区人口和受灾面积。承灾体的评估主要涉及受灾区的经济发展程度、财富分布情况以及受灾面积大小。经济发展程度可以用灾区人均GDP衡量。而受灾面积大小与地震直接经济损失成正相关关系,在其他条件不变的前提下,受灾面积越大,涉及的社会财富也就越多,地震发生后所遭受的直接经济损失就会越大。因此,承灾体选取受灾面积结合灾区人均GDP与灾区人口可以较好地反映地震直接经济损失。
抗震设防烈度、设计基本地震加速度和灾区人均GDP在2个地区交界处或者涉及多个地区时,其对应的值是不一致的,本文计算时取两地均值,可以较合理地反映当地实际情况,且具有可操作性。灾区人均GDP由各省份发生灾害时的年份确定。
3 模型建立与结果分析
3.1 数据来源与数据处理
由文献[12]可知,地震灾区指有社会经济破坏的区域,一般取烈度大于等于6的区域。地震灾区范围内的人口称受灾人口。本文采用我国2005—2017年的全国地震数据,所用数据的地震震级、震源深度、震中烈度、灾区人口、受灾面积与直接经济损失来源于文献[13-23],相对应的抗震设防烈度与设计基本地震加速度参考文献[11],灾区人均GDP从国家统计局查询获得,查询条件为当地所属省份当年的人均GDP。
由于篇幅有限,本文仅列出6组数据作为示例,见表1所列。
表1 2005—2017年中国大陆地震灾害损失数据集
因为每个训练样本参数值分布不同,得到的样本间距差异较大,可能导致模型在拟合数据时出现较大偏差,并且即使模型在训练集上的拟合效果好,也不具有泛化能力,所以需要对训练样本数据进行归一化处理。
针对所有训练样本中的每个属性参数,进行归一化处理的计算公式为:
其中:ymax、ymin为设定值,分别为1、0;xmax为x数列中最大值;xmin为所有训练样本中此属性参数最大值。
3.2 地震灾害损失等级划分
自然灾害损失的度量可以是绝对的,也可以是相对的。文献[24]基于灾害损失的绝对度量,给出了灾度的概念,并以灾度为标准,将自然灾害划分为5个等级:A级巨灾、B级大灾、C级中灾、D级小灾和E级微灾。灾害损失的相对度量可以通过灾损率来衡量,灾损率是指受灾区域各类财产的损失值与灾前(正常)值之比。
本文灾害损失分级见表2所列。
表2 灾害损失分级
本文分级表是基于灾度和灾损率的自然灾害等级划分的。在2005—2017年的地震灾害统计数据中,仅有1次E级微灾,因此后续的模型预测未将该等级算入。文献[24]的灾害损失分级中缺少了财产损失为105~106万元之间的分级,因此本文在其分类基础上进行了修改,将105~106万元之间的地震数据定义为B级大灾。
3.3 模型参数设置与训练
本文所得2005—2017年间地震数据共105条,将其分成2组数据集,训练集与测试集的分组见表3所列。
表3 训练集与测试集数据分组
Softmax、SVM与BP神经网络3种模型均采用相同的数据结构,将地震震级、震源深度、震中烈度、抗震设防烈度、设计基本地震加速度、灾区人均GDP、灾区人口、受灾面积作为输入地震灾害特征;地震灾害等级作为标签。其中,Softmax回归模型中,权重衰减参数为10-8,一阶最优性上的终止容差为10-10,参数变化的进程终止容忍度为10-20。
使用Softmax回归模型进行分类时,迭代过程中代价函数的变化趋势如图2所示。
图2 Softmax回归模型针对地震数据预测的代价函数曲线
代价函数值随着迭代次数的增加逐渐减小,在迭代到第200次后,达到稳定,不再变化,因此本文取该迭代次数下计算得到的精度。
使用SVM模型时,由于样本数量远高于特征值数量,因此SVM模型选择径向基函数作为核函数。使用一对一模式进行多分类识别,共有k(k-1)/2个分类器。使用交叉验证法计算参数数组的最优值,其中,惩罚因子C、核参数g的取值均为9.766×10-4。
BP神经网络模型参数[25]设置如下:根据灾害的实际情况建立3层神经网络,输入层为地震灾害特征的8个节点,隐层节点数为8个,地震灾害等级以独热编码形式分级为5个节点作为输出层;同时隐层将Tanh函数作为激活函数,输出层将Sigmoid函数作为激活函数;对于代价函数的选取,采用交叉熵代价函数代替二次代价函数。根据传统的BP神经网络模型对参数进行设置,学习率为0.710,迭代次数设置为9 400。
3种模型预测结果对比见表4所列。
表4 3种预测模型的结果对比
3.4 结果分析
由表6可知,SVM模型的训练时间与测试时间均短于BP神经网络模型,但是精度相对较低,无法达到对地震灾害等级的精确预测;BP神经网络模型测试时间虽少于Softmax回归模型,但与Softmax回归模型相比,其训练时间较长,且所能达到的精度小于Softmax回归模型。
由于BP神经网络模型收敛速度较慢,因此训练时间上,SVM模型与Softmax回归模型学习效率要优于传统的BP神经网络模型。SVM模型对于二分类的问题发展已较成熟,而对于多分类则稍显不足,从而使得分类结果比另2种方法差。总体上,Softmax回归模型对于地震灾害等级的预测结果较为准确,且在训练时间方面更高效。
Softmax回归模型本身就是针对多分类问题而设立的,因此相对而言,对于本文的地震数据集,需要获得的结果是5个不同地震灾害等级的预测,因此使用Softmax回归模型能达到较高预测精度,且计算时间较短。
4 结 论
我国是地震发生次数最多的国家之一,通过评估和预测地震灾害损失,对于灾后的经济建设具有重要意义。在提取历年地震数据的样本特征后,可以使用合理的分类模型对地震灾害损失进行定级。本文研究运用Softmax回归模型对地震灾害损失进行评估和预测,采用的数据集为2005—2017年的我国地震数据,并与传统BP神经网络模型和SVM模型结果进行对比。
(1) 传统BP神经网络模型存在收敛速度慢、结构选择不一、局部极小化的问题,SVM模型存在对大规模训练样本难以实施的问题,而Softmax回归模型很好地弥补了这2种模型的缺陷,其迭代次数更少,能实现快速收敛。
(2) 地震灾害直接经济损失指标体系较为全面地描述了地震发生后所造成的经济影响,且灾害损失分级与地震灾害直接经济损失指标体系之间能够较好地相互关联,从而使得本文灾害损失模型的预测能够达到78.571%的精度。
(3) Softmax回归模型由于可以更好地针对多分类问题,收敛速度快,不易陷入局部最优值,因此相较于传统BP神经网络模型和SVM模型具有更好的实施性,在地震灾害预测中的应用前景较好。