基于遗传—神经网络方法的广西台风灾害评估模型研究
2021-07-14李艳兰金龙史旭明陈丹
李艳兰 金龙 史旭明 陈丹
(1.广西壮族自治区气候中心,广西 南宁 530022; 2.桂林航天工业学院,广西 桂林 541004;3.广西壮族自治区气象科学研究所,广西 南宁 530022)
引言
广西地处华南地区,是受台风影响严重的地区,平均每年会受到5个台风影响,最多的年份达9个。进入21世纪以来,严重台风灾害事件频发,台风灾害影响和损失有加重的态势。其中2001年7月上旬台风“榴莲”和“尤特”连续影响广西,造成24人死亡,直接经济损失159.03亿元以上,是建国以来给广西造成直接经济损失最大的台风灾害。2014年7月,建国后有台风记录以来进入广西的最强台风“威马逊”造成广西10人死亡,直接经济损失138.4亿元,仅次于2001年台风“榴莲”、“尤特”的累计直接经济损失。2013年、2015年广西受秋季台风的严重影响,2013年11月中旬台风“海燕”、2015年10月上旬台风“彩虹”严重影响广西,分别造成17.16亿元、16.63亿元的直接经济损失,为历史同期罕见。广西台风灾害发生频次高、影响范围广、灾害损失大。因此,预防和减轻台风灾害尤为重要,而灾害评估是制定防灾减灾对策的基础,是防灾减灾的重要环节。
台风灾害评估工作一直以来都受到国内外学者的广泛关注。Dorland等[1]构建了台风风速与损失率的指数函数模型;一些学者[2-3]基于模糊数学理论对台风灾害进行评估;李春梅等[4]应用层次分析法对广东省热带气旋灾害影响因素进行多层次的分析,建立热带气旋灾害影响评估模型;陈佩燕等[5]在分析我国台风灾情主要成因的基础上建立了台风灾情预估方程;刘少军等[6]将可拓方法应用于台风灾害损失评估。近年来,随着人工智能技术的发展,神经网络方法在气象领域得到广泛的应用[7-10]。在台风灾害评估中的应用方面,娄伟平等[11]基于主成分神经网络建立了浙江省台风灾害经济损失评估模型;刘晓庆等[12]将Elman神经网络应用于广东省台风灾害损失评估;陈有利等[13]选取台风灾害致灾因子、台风灾情综合关联度,建立BP神经网络预估模型,对宁波市台风灾情进行预估。台风造成的灾害损失是一个非线性复杂系统行为的结果,人工神经网络方法具有较强的处理非线性问题的能力,但神经网络存在收敛速度慢,极易陷入局部极值点等问题[14],可通过结合遗传算法来解决[8]。因此,本文尝试应用遗传—神经网络方法,构建一种新的台风灾害评估模型,可对广西台风灾害损失程度进行预估,为防灾减灾提供科学依据。
1 资料与方法
1.1 资料来源
选取1981—2018年影响广西且灾情记录比较完整的86个台风样本进行研究。台风路径、中心附近最大风速资料来源于中国气象局热带气旋资料中心(tcdata.typhoon.org.cn)最佳路径数据集[15],广西90个气象台站的逐日降水量、大风等气象数据来自广西壮族自治区气象信息中心,选取的90个气象台站是国家级地面气象观测站,为广西全区各县(市)的代表站,有本文研究所需的长序列逐日气象观测数据。台风灾害直接经济损失、死亡和受伤人数等灾情数据来自《中国气象灾害大典·广西卷》[16]和广西壮族自治区民政厅。1981—2018年广西居民消费价格指数来自《广西统计年鉴2019》[17]。
1.2 遗传—神经网络方法
以适者生存、优胜劣汰为原则发展而来的遗传算法[18](Genetic Algorithm,GA),是一类通过借鉴生物界自然选择遗传机制形成的随机搜索算法。在模拟人工种群的进化过程中,通过选择、交叉以及变异等机制,使得每次进化迭代中都筛选出更为适应外界条件的候选个体,引导该种群向最优结果方向进化发展,对此过程反复进行优化操作,在该种群经过若干代进化后,使其适应度达到近似最优的状态,以此来获得更为优良的个体[19]。
1.2.1 模型框架
本文通过采用遗传算法优化计算三层BP网络预报模型来构建预报个体种群[20],首先采用实数与二进制混合的编码方法,对神经网络个体的每层节点、权(阀)值按某种顺序进行编码,形成一个遗传个体。进一步在编码空间中随机生成初始的遗传个体种群。其次种群的大小对遗传算法的寻找最优解和算法的收敛时间影响较大,需同时考虑时间效率与近似最优的平衡。
1.2.2 适应度计算
在遗传算法中,利用适应度的函数值来评价遗传个体(解)的好坏,一般适应度函数值越大,解的质量越高。适应度函数设计应结合具体求解问题本身的要求而定。
本文将种群中的每个遗传个体分别解码为三层BP网络的隐节点和权(阀)值,先输入训练样本计算得出隐层的输出值:
(1)
式(1)中,ah为输入层节点输入,h=1,2,…,m,m为输入节点个数;i=1,2,…,p,p为隐节点个数;vhi为输入层至隐层的权值;θi为隐含层的阀值;激活函数f采用sigmoid函数,这样三层BP网络的输出值可以用下式计算得出:
(2)
式(2)中,wij为隐含层至输出层的连接权系数矩阵;γj为输出层的阀值;再由期望输出与式(2)可以计算得到神经网络的总体误差:
(3)
式(3)中,训练样本数为n,则每个遗传个体的适应度可通过如下函数计算得出:
(4)
1.2.3 遗传进化操作
根据计算得出的每个个体的适应度,采用选择、交叉和变异3个算子对种群进行遗传进化计算。其中选择算子采用轮盘赌选择方式,即每个个体被选中的概率由下式得出:
(5)
式(5)中,K为种群的个体数,第k个个体的适应度为Fk(x),通过轮盘赌方式可确保适应度值F(x)大的个体进化到下一代的概率更大。交叉算子是对两个待交叉的不同的染色体根据交叉概率Pc按某种方式交换其部分基因。变异算子是以概率Pm对某个体与其他个体作等位基因替换。若在操作过程时,当某个体的神经元被变异剔除时,则相应的权值码等被设置为0,而当变异运算增加神经元时,则随机初始化产生相关的权值码。
利用3个算子进行遗传进化计算得到新一代个体种群。反复进行进化操作直到事先设定N代后结束,并将最后一代种群中的每一个个体进行解码,得到K个神经网络个体,本文赋予每个神经网络个体相同的权重,将每个个体的预测值作平均得到遗传—神经网络集合预报模型的预报值。
1.2.4 主要计算步骤
采用遗传算法进化三层BP网络个体并构建集合预报模型可归结为:
(1)初始时刻随机给出神经网络个体的权(阀)值等,并设定模型的收敛误差为ε。
(2)输入训练样本,计算每个神经网络个体的实际输入与期望输出的误差,并采用3层前馈网络的误差反传播学习算法,调整各层的连接权值。
(3)反复进行这样的学习训练,直到计算输出的误差ε小于设定的收敛误差则结束训练,再根据训练得到的网络权值和预报因子,计算得出最终的集合预报模型预报值。
1.3 台风灾情评估指标和致灾因子选取
1.3.1 台风灾情评估指标
台风带来的灾害一般表现在人员伤亡、财产损失等方面[21]。本文参考中国气象局《全国气象灾情收集上报调查和评估规定》,选取台风灾害死亡人数、伤亡人数、直接经济损失作为灾情评估指标。在灾情数据的处理过程中,把失踪人数计入死亡人数;为了消除通货膨胀,使历史台风样本间的直接经济损失具备可比性,采用考虑了物价水平、人口和财富因子的居民消费价格指数方法[22],以2018年为基准年,对直接经济损失进行折算。根据广西台风灾害情况,划分灾情等级(表1)。如果不同的灾情评估指标评估的灾情等级有差异,则取其中等级最高者。
表1 台风灾情等级划分标准Table 1 Classification standard of typhoon disaster
1.3.2 台风灾害致灾因子
关于台风灾害致灾因子的研究方面,前人已做了许多工作。陈佩燕等[5]通过分析台风灾害成因,以台风引起的大风、降水以及登陆台风的强度和移速等有关物理量构造致灾因子;娄伟平等[11]以登陆或影响浙江省的台风影响期间各级过程降水量站数、各级过程最大风速站数、台风登陆时的中心气压和最大风速等作为评估因子;李春梅等[4]采用热带气旋中心最低气压,登陆点、登陆路径,各级强风站日数,各级强降水站日数、最大日降水量、过程降水量≥100 mm站数等因子,分别构建热带气旋强度参数、地理综合参数、风综合参数、雨综合参数,建立评估模型,均取得较好的效果。总的来看,台风灾害程度与台风移动路径及强度关系密切,台风带来的大风、强降水是造成灾害的直接因素,灾害的轻重程度主要与大风和降水强度、范围、持续时间等因素有关。
本文选取台风进入广西影响区(19°N以北、112°E以西区域)后的中心附近最大风速、地理参数,台风影响过程期间广西的大风站日、最大日降水量、过程最大降水量、过程降水量≥100 mm站数、暴雨指数等7个致灾因子[23]。其中地理参数根据台风中心进入广西影响区后的移动路径类别确定,路径类别分为深入广西内陆、进入广西陆地但未深入、沿广西陆地边界移动、进入影响区但未进入广西陆地区域4大类,各大类又分若干亚类,对应的地理参数取值在1—5之间(表2)[23-24]。地理参数数值根据各类台风路径可能的影响范围以及影响区社会经济状况的相对大小确定,地理参数赋值的首要原则是按照台风是否进入广西陆地及进入陆地的情况,距离陆地越远数值越小,越深入内陆数值越大;其次,对于沿广西陆地边界移动的台风路径类别,根据各亚类影响区域的范围和社会经济状况,调整地理参数的大小。大风站日为台风影响期间广西90个气象台站每天出现大风的站数累计值;暴雨指数为台风影响期间广西90个气象台站每天日降水量≥50 mm的站点的降水量累计值除以50,表征台风影响过程广西区域范围内暴雨累积强度;最大日降水量、过程最大降水量反映降水的最大强度,过程降水量≥100 mm站数表征强降水的范围。以上7个致灾因子从台风自身特征(强度、路径)、大风范围、降水的最大强度、强降水范围、强降水累积强度等多方面反映了台风的影响特征。分别对上述7个致灾因子进行标准化处理,建立预报因子样本集合。
表2 各类台风路径对应的地理参数Table 2 Geographical parameters corresponding to various typhoon paths
2 结果分析
2.1 台风灾害致灾因子与灾情等级的关系
利用1981—2018年影响广西且灾情记录比较完整的86个台风样本数据,分析台风灾害致灾因子与灾情等级之间的相关性。由表3可见,经过标准化处理后的台风地理参数(Tp)、台风进入广西影响区后的最大风速(Tf)、大风站日(Df)、最大日降水量(Rd)、过程最大降水量(Rg)、过程降水量≥100 mm站数(Rn)、暴雨指数(Rz)与灾情等级之间的相关系数在0.36—0.78之间,均通过α=0.001的显著性检验,且多数因子与灾情等级之间的相关系数达0.6以上。表明这7个因子标准化值与灾情等级呈显著正相关,用于表征台风灾害致灾因子强度是合理的。
表3 台风灾害致灾因子与灾情等级之间的相关性Table 3 Correlation between typhoon disaster hazard factors and disaster levels
2.2 台风灾情等级遗传—神经网络模型预报试验分析
本文在进行台风灾情等级集合预报试验时,采用1.2节介绍的方法来生成种群个体,并以1.3.2节选取的预报因子为因子矩阵建立相应的遗传—神经网络集合预报模型。其中神经网络的输入节点(预报因子数)为7,以输入节点的 0.5—1.5倍作为神经网络的隐层数,连接权值的范围设为(-2,2),训练次数为 200次,学习因子为0.5,动量因子为0.75。遗传进化计算参数设为:每代种群个体数为30,进化代数为30代;交叉算子的权(阀)值交叉概率为0.6,控制码交叉概率为0.9;变异算子采用基本位变异,其变异概率为0.05。进化计算结束后,对最后一代个体进行解码,得到30个神经网络预报个体分别给予相同的权重构建最终的集合预报模型。利用该预报模型,分别对2014—2018年的 14个独立预报样本作预报检验。在进行预报试验时,先用1981—2013年的72个建模样本建立预报模型对第1个独立样本作预报,再以72个建模样本加上前面第1个独立样本作为建模样本,对第2个独立样本进行预报,以此类推一直计算到最后第14个独立预报样本。并且在计算每一个独立预报样本时,集合预报模型的所有参数设置一直保持不变。
表4和表5分别给出了利用遗传—神经网络集合预报模型对1981—2013年72个样本(训练集)的拟合和2014—2018年14个样本(测试集)的预报效果。训练样本灾情等级拟合值与实际值的相关系数达0.9374,通过α=0.001的显著性检验,72个样本中有86.1%的样本拟合值与实际值一致。测试样本灾情等级预报值与实际值的相关系数达0.9251,通过α=0.001的显著性检验,14个样本中有71.4%的样本预报值与实际值一致,其余4个样本的预报值与实际值相比仅相差1个等级,其中灾情等级为严重(4)和较重(3)的样本预报值与实际值完全一致;灾情等级为中等(2)的4个样本中有1个样本预报值与实际值一致,3个样本的预报值比实际值偏大1个等级;灾情等级为较轻(1)的6个样本中有5个样本预报值与实际值一致,1个样本的预报值比实际值偏大1个等级,一致率达83.3%。总的来看,该模型对广西台风灾害程度的评估效果较好。
表4 台风灾情等级模拟效果Table 4 Simulation effect of typhoon disaster levels
表5 台风灾情等级预报值与实际值的比较Table 5 Comparison of predicted and actual values of typhoon disaster levels
3 结论与讨论
(1)台风进入广西影响区后的中心附近最大风速、地理参数,台风影响过程期间广西的大风站日、最大日降水量、过程最大降水量、过程降水量≥100 mm站数、暴雨指数等因子,与根据广西台风灾害死亡人数、伤亡总人数、直接经济损失构建的台风灾情等级具有显著的相关关系。
(2)以上述因子的标准化值作为预报因子,以台风灾情等级作为预报量,基于遗传—神经网络方法建立广西台风灾害评估模型,有效结合了神经网络局部调节能力强和遗传算法全局优化的能力,取得较好的效果。试验结果表明,模型具有较好的评估能力,对台风灾情等级的拟合值、预报值与实际值的相关系数分别达0.9374、0.9251,均通过α=0.001的显著性检验,对训练集灾情等级的拟合一致率为86.1%,对独立样本台风灾情等级的预报准确率达71.4%,台风灾情等级误差不超过1个等级,其中严重和较重的台风灾情等级预报与实况基本一致。
(3)本文建立的台风灾害评估模型建模原理清晰,所需预报因子资料易于获取,具有较好的实用性。业务应用时,在台风影响广西之前,可根据台风路径、强度预报和风、雨预报值统计得到各预报因子数值,利用该模型对台风灾情等级进行预评估,根据灾情等级估计可能造成的损失量值范围,为防台减灾提供决策依据。
(4)台风灾害的成因十分复杂,本文选取的灾害预报因子只考虑了台风强度、路径、风雨情况等主要因素,未考虑风暴潮等影响因子以及孕灾环境、防灾抗灾能力等方面的作用,在今后的工作中,还需结合上述要素进一步开展研究,提高模型预估的准确度和精细度。