APP下载

基于等距特征映射降维的台风灾情概率神经网络预评估模型*

2016-07-25陈燕璇刘合香谭金凯

灾害学 2016年3期
关键词:信息熵台风灾害

陈燕璇,刘合香,谭金凯

(广西师范学院 数学与统计科学学院,广西 南宁 530023)



基于等距特征映射降维的台风灾情概率神经网络预评估模型*

陈燕璇,刘合香,谭金凯

(广西师范学院 数学与统计科学学院,广西 南宁 530023)

摘要:台风致灾因子、承灾体和灾情之间是一个复杂的非线性动力系统,准确高效地提取重要指标对台风灾情等级进行预评估,是防灾救灾工作的重要依据。采用主成分分析、等距特征映射和信息熵特征提取的承灾体关键指标,和致灾源作为输入神经元,灾情等级作为输出神经元,建立台风灾情概率神经网络预评估模型。结果表明,基于等距映射非线性特征提取的概率神经网络预评估模型的准确率达到90%。

关键词:概率神经网络;等距特征映射;信息熵;台风;灾害;预评估

热带气旋是生成于热带或副热带洋面上,具有对流和确定气旋性环流的非锋面性漩祸[1]。台风作为热带气旋的一种,登陆我国的台风平均每年有7个左右,影响广西的台风平均每年有5个左右。据不完全统计,1984-2012年,广西因台风灾害造成的受灾人数为8 148万人次,死亡801人,直接经济损失1 205亿元(占气象灾害总经济损失的12.3%)[2]。灾害发生过程根据气象致灾因子预报与承灾体脆弱性快速预测灾情等级是灾害的预评估。人工神经网络是非线性自适应系统,与耗散、复杂的高阶非线性自然灾害系统相似[3],灾情等级预评估实际是人工神经网络模式识别问题[4]。

近年来,很多专家学者从不同角度对台风灾害进行预评估研究[5-8]。魏章进等[9]基于聚类与回归方法建立台风灾情预评估模型;芮建勋等[10]设计了基于元组时间标记法的台风灾害评估的多尺度数据管理模式。在地理信息系统方面,刘合香等[11]利用模糊数学、非线性数据处理方法和ArcGIS空间进行Kriging插值,分析广西洪涝灾害发生的频率,结果表明洪涝多发生地与实际洪涝灾害拟合较好;刘少军等[12]采用可拓分析方法计算综合关联度判断灾害损失的等级,建立基于GIS的台风灾害损失评估模型,以实现台风灾害动态评估。

承灾体的脆弱性是指受到危险因素威胁所有人生命和财产的损害程度,是灾害风险形成的关键因素[13],一般当承灾体指标比较多时,会导致数据的高维特征,增加数据处理的困难。巩在武等[14]利用相关分析从致灾因子、承灾体和防灾减灾能力方面选取重要影响因子,实例证明所选指标的合理性。但相关分析只表示变量间线性关系,不能反映变量间的非线性关系,且易受观测值影响。流形学习是根据高维数据空间的内部几何结构,构造低维流形嵌入,以实现数据降维,提高计算效率[15]。非线性流形降维方法主要由有局部线性嵌入(LLE)和等距特征映射(ISOMAP)。黄颖等[16]利用局部线性嵌入与逐步回归相结合的预报因子挖掘技术,建立非线性人工智能集合预报模型,为台风强度客观预报提供了新方法;等距特征映射算法(ISOMAP)是Tenenbaum等[17]于2000年提出的,它结合了主成分分析(PCA)和多维标度法(MDS)的算法特征,在医学方面的肺癌基因数据分析中,在低维空间揭示出数据集的本质结构,实现非线性数据降维[18],而在台风灾害系统指标降维方面的应用还鲜为少见。

针对上述问题,为了比较不同的变量选取方法的预评估效果,本研究运用主成分分析(PCA)、等距特征映射(ISOMAP)和信息熵特征提取方法试图建立概率神经网络模型,并将该模型应用于台风灾情预评估工作中。

1模型输入的特征提取方法

1.1ISOMAP降维方法

ISOMAP的思想关键在于用测地距离代替欧氏距离,通过等距映射获得高维数据空间在低维空间的表示,更好地实现非线性数据降维[17]。ISOMAP算法设定K个近邻点是相互连接的,通过欧氏距离构造临接矩阵,用Floyd算法计算样本点的最短距离,作为测地距离的逼近[19],主要包括以下的步骤。

(a)构造邻域图G。在空间X中的样本点xi和xj,其欧氏距离为dx(i,j)。若xi是xj的K个近邻点之一,说明邻域图G有边,边长为dx(i,j)。

(b)计算最短距离。当xi和xj之间有一条边,则dG(i,j)=dx(i,j);当xi和xj之间无边,则dG(i,j)= ∞;对K=1,2,…,N,dG(xi,xj)= min{dG(xi,xj),dG(xi,xk)+dG(xk,xj)},D={dG(xi,xj)}是邻域图G中所有点的最短距离构成。

1.2信息熵方法

信息论中,若某项指标提供的信息越多,则对决策的精度和可靠性越大[20]。基于熵权理论构建台风灾情指数,可以避免人为确定指标权重的主观性,具有更高的客观性和科学性。熵权也可作为选取关键指标的办法,主要计算步骤如下所示。

(a)计算熵值Hj

(b)计算熵权ωj

(1)

2概率神经网络模型

鉴于台风灾情与变化的致灾气象因子和承灾体脆弱性之间是非线性关系,复杂的相互作用和变化增加了预评估的困难。概率神经网络(PNN)是基于贝叶斯原理,构造概率密度函数(PDF)分类估计,在处理非线性问题和模式识别方面比BP等更具有显著优势[21-23]。PNN的拓扑结构由输入层、模式层、求和层和输出层组成,主要计算步骤如下所示。

(a)输入层

将提取的承灾体关键指标作为输入层神经元,神经元数目与输入样本维数相等。

(b)模式层(神经元与给定类别以权值连接)

(2)

式中:X为降维后提取的关键指标矩阵; Xji为类别j第i个训练向量;m为训练样本数目;δ为平滑系数;P为待分类的向量X及训练向量的维数。

(c)求和层(属于某一类别的概率累积)

(3)

(d)输出层(竞争神经元)

PDF最大的神经元输出为1,表示所对应的那一类为待识别的模式类别,其他输出神经元输出为0,即:

(4)

3模型应用与分析

3.1数据来源及预处理

本研究的致灾源数据来自《热带气旋年鉴》中1985-2013年之间登陆或影响广西的60个台风致灾的降水过程数据,1985-2013年的社会经济情况数据取自《广西统计年鉴》。灾情数据来自广西气象信息中心、广西农业厅、广西民政厅和广西防汛抗旱指挥部的灾情综述统计。

为了消除指标间的量纲影响,进行归一化处理:

(5)

式中:xmin和xmax表示同一指标下的最小值和最大值,将指标数据范围压缩到0~1之间。

3.2构造灾情指数与划分灾情等级

考虑到台风灾害对生命财产和社会经济的影响,选取受灾人口C1(万人)、死亡人口C2(人)、农作物受灾面积C3(khm2)、倒塌房屋C4(千间)和直接经济损失C5(千万元)这5个指标作为构造灾情指数的关键指标。

台风灾情的综合评价方法是对各指标在灾情评估的权重进行确定,利用综合指数来衡量灾情的严重程度[24]。本文以信息熵构造综合灾情指数为:

(6)

表1 基于熵权的台风灾情评估指标权重

由表1可以看出,受灾人口C1和直接经济损失C5的权重较大,其次是农作物受灾面积C3和倒塌房屋C4的权重,死亡人口C2的权重最小。受灾人口指的是因灾伤亡人数、因灾失踪人数等,直接经济损失指的是农业、林业、渔业和建筑及室内财产的损失[25],二者是反映灾情的生命财产损失情况的核心指标,因此二者权重较大。而死亡人数由气象因子导致的具有偶然性,受灾区经济、居住环境等条件影响的程度更大[26],因此其权重最小是客观合理。根据灾情指数的大小,我们将灾情划分为几个等级,这是灾后评价、灾情预估进行救助与管理的重要依据。系统聚类方法基本思想是将个样品分成若干类,距离最小的一对合并成新一类,计算新类与其他类之间的距离,再将距离最近的两类合并,依次聚类直至所有的样品合为一类为止。本文参考马宗晋等[27]等级划分的思想,结合系统聚类方法,采用欧氏距离将灾情指数划分为5个等级(I级为微灾,II级为小灾,III级为中灾,IV级为大灾,V级为巨灾)(见表2),避免了主观划分灾情指数等级。

据广西区民政厅的灾情综述,2008年9月24-27日全区受强台风“黑格比”的影响,受灾人口664.99万人,农作物受灾面积656.570 khm2,倒塌房屋19 358间,直接经济损失高达69.7亿元,由表2可知,灾情指数为0.621,灾情等级为大灾(IV级),是受台风灾害很严重的灾情。2013年8月14-20日全区受热带风暴“尤特”的影响,造成农作物受灾面积59.28 khm2,直接经济损失12.82亿元,灾情指数为0.529,灾情等级为大灾(IV级)。同年8月22日20时-25日20时,受台风“潭美”减弱后的环流和西南季风共同影响,造成9市30县(市、区)25.37万人受灾,农作物受灾面积15.18 khm2,直接经济损失6 600.82万元。“潭美”的移动速度快,在广西的持续降水时间与“尤特”相比要短得多[28],受灾情况较为轻,由表2可知,灾情指数为0.165,灾情等级为微灾(I级)。上述表明该灾情等级划分合理,符合实际情况,可以作为灾后救助与管理的重要依据。

表2 广西1985-2013年台风灾情指数与灾情等级

3.3基于ISOMAP降维、PCA降维和熵权特征提取的PNN预评估模型

承灾体是指一个地区的社会经济和发展状况,比如人员、农作物、房屋等方面的指标。因此,本文选取单位面积GDPB1(亿元)、人口密度B2(人/km2)、农作物总播种面积B3(khm2)、城镇居民人均居住面积B4(m2)、农村居民人均生活用房面积B5(m2)、人均GDPB6(元/人)、就业人数B7(万人)、每万人在校大学生人数B8(人)、公路网密度B9(km/104km2)、每万人拥有床位B10(床)、每万人拥有医生B11(人)、电话普及率B12(部/万人)共12项指标。在致灾源方面,本研究选取暴雨过程的时间长度A1(h)、暴雨过程降水极值A2(mm)和暴雨过程降水均值A3(mm)。

通过ISOMAP方法进行非线性降维。在构造邻域图G图时,采用K-近邻方法确定样本邻域,为了保持图连通性,确定最小值K=8,用Floyd算法计算最短距离,作为测地距离的逼近,降维后的残差曲线图如图1所示。

图1 ISOMAP降维的残差曲线图

ISOMAP算法降维维数的方法一是当残差曲线出现拐点,方法二是残差值小于一定的阈值[12]。由图1可知,当维数降到3维时,残差曲线出现明显拐点,且残差值为3.199×10-4<0.05,确定采用ISOMAP降维后的3维向量代表承灾体原始矩阵的多维向量。

采用主成分分析(PCA)对承灾体原始矩阵进行线性降维,见表3。主成分1和主成分2的累积贡献率是96%>80%,符合主成分降维的要求,将标准化后的原始数据代入主成分表达式得到承灾体主成分得分矩阵。

表3 基于PCA降维的特征值、贡献率和累积贡献率

采用信息熵计算承灾体各个指标的权重,计算结果见表4,选取对承灾体系统起重要影响的指标(权重值>0.1)为单位面积GDPB1(亿元)、每万人拥有床位B10(床)这2项关键指标。

表4 基于熵权的承灾体指标提取

分别将ISOMAP降维后的三维向量、PCA降维后的主成分得分矩阵和信息熵提取的关键指标,联合致灾源数据作为神经网络的输入神经元(矩阵p),将灾情等级作为期望输出(矩阵t),进行概率神经网络的分类训练和预测。Matlab创建PNN网络的调用函数为net=newpnn(p,t,spread),其中,spread为网络的扩展速度,spread值过大,需较多的神经元适应网络快速变化,计算效率差;spread值过小,需较多的神经元适应网络缓慢变化,网络训练性能差。经过多次实验,最终确定spread取0.1,创建的PNN是个近邻分类器,训练准确度高。PNN具有网络训练性能好,训练不需大量样本等优点,故本文选取10组登陆或影响广西的重要台风灾害作为测试样本,其他50组样本作为训练样本,PNN预测结果如图2~4所示。

图2 基于ISOMAP降维的PNN预评估结果

图3 基于PCA降维的PNN预评估结果

图4 基于信息熵特征提取的PNN预评估结果

由图2可知,在10组预测样本中,基于ISOMAP降维的PNN预评估只有8号样本(1311号台风)误判,其他样本预判类别和实际类别重合说明预判准确,分类效果最好。由图3可知,基于主成分分析降维的PNN预评估中,6号样本(1213号台风)和8号样本(1311号台风)误判,其他样本预判准确。由图4可知,基于信息熵特征提取的重要指标的PNN预评估模型,4号样本(1117号台风)、8号样本(1311号台风)和10号样本(1330号台风)误判,其他样本预判准确。基于三种变量提取方法的PNN预评估结果对比如表5所示。

根据表5可知,基于ISOMAP降维的PNN预测灾情等级的准确率最高(90%),运行时间最短(0.227 1 s),预评估效果最好。造成不同预测效果的原因是,PNN模型输入指标提取的方法将直接或间接影响预评估结果的准确度,因此要深入分析致灾源、承灾体与灾情之间的信息传递,有效的特征选取方法能提高PNN预评估的精准度。

在三种特征选取方法中,基于信息熵特征提取模型,因只选取对承灾体系统的2项关键指标对

预评估会造成一定的信息损失,虽然计算效率有所提高,但对预评估的精确度有一定影响。基于主成分特征提取的模型,提取了承灾体系统线性相关度高的特征分量,比信息熵方法减少信息损失,但忽略了高维数据内部的非线性结构。实验结果表明,ISOMAP比PCA更好的地将高维数据的非线性流形结构挖掘,保留更多原始信息,计算效率最高,采用ISOMAP算法对承灾体指标进行非线性降维过程中,邻域K的取值和降维维数n是决定其降维效果优劣的重要参数[17],K取值过大会导致数据集变成局部邻域,K取值过小会导致邻域图不连通,本实验K取最优值8。在K取定值情况下,由残差曲线图的明显拐点确定降维维数n。若n值过大,会增加数据冗余度,若n值过小,会导致数据集分离部分被映射到一起。本实验由残差曲线图确定n为3,降维效果最好。

此外,我们注意到1311号台风“尤特”在三种特征选取的PNN预评估模型均预测错误,可视作异常点分析。1311号台风“尤特”以热带风暴强度进入广西,先后造成15日(15日08时—16日08时)和18日(18日08时—19日08时) 2个特大暴雨,部分暴雨落区重叠,造成当地重大生命财产损失[29]。根据广西民政厅统计,台风“尤特”造成全区直接经济损失12.82亿元,153.17万人受灾,灾情等级划分为大灾(IV级)较合理。

4结论与展望

(1)基于概率神经网络的灾情等级识别是利用其强大的非线性处理能力,将致灾因子和承灾体的特征空间映射到灾情等级类型空间中,形成了一个较强容错能力和自适应能力的识别网络系统,网络训练不需大量样本,总收敛于Bayes优化解,稳定性高。

表5 基于三种方法选指标的PNN预评估结果

(2)在采用概率神经网络进行台风灾情等级预评估模型时,模型输入的影响因子选择是一个重要问题,选择起关键作用的因子,提高计算效率和模型预评估的精确度。主成分分析方法本质是个二阶统计特征的线性映射方法,而很多自然灾害系统的数据信息都包含高阶非线性关系中。基于等距映射的非线性特征提取方法可以充分有效地挖掘预报因子的信息,算法效率高,具有全局优化性和渐近收敛性的优点,且在台风灾情评估指标选取方面鲜少研究。

(3)ISOMAP算法适用于自然灾害系统的指标降维。本研究基于等距映射的非线性特征提取建立概率神经网络预评估模型,该模型预测精度高,对台风可能造成的灾害进行有效的预评估,有助于相关部门更好的对灾情的预防与救助做出有效的决策。

(4)采用信息熵构造灾情指数,对灾情指数采用系统聚类方法进行灾情划分等级,克服了人为划分灾情等级的主观随意性。

(5)本研究对异常极值点的预测仍存在误差,还需对台风灾情预评估模型进一步优化。台风灾害系统是由致灾源的强度、承灾体的脆弱性及防灾减灾应急能力等因素共同作用的结果,关于台风灾情的预评估工作还需考虑更多实际的影响因素,例如台风登陆路径、最大风速和最低气压等预报因素,还可以将城市护林、排水和城市建设实施的损害情况等因素一并考虑到灾情预评估的研究中。

参考文献:

[1]温克刚,杨年珠.中国气象灾害大典-广西卷[M].北京:气象出版社,2007.

[2]黄雪松,廖雪萍,覃卫坚.广西热带气旋特征变化与灾损变化态势[J].气象研究与应用,2014,35(1):2-6.

[3]彭昱忠,王谦,元昌安,等.数据挖掘技术在气象预报研究中的应用[J].干旱气象,2015,33(1):19-27.

[4]叶雯,刘美南,陈晓宏,等.基于模式识别的台风风暴潮灾情[J].海洋通报,2004,23(4):65-70.

[5]刘合香,简茂球.基于粒子群-投影寻踪和遗传-神经网络集成的预测模型[J].中山大学学报:自然科学版,2012,51(5):113-119.

[6]陈佩燕,杨玉华,雷小途.我国台风灾害成因分析及灾情预估[J].自然灾害学报,2009,18(1):64-73.

[7]徐明,雷小途,杨秋珍.应用联合极值分布评估热带气旋影响风险——以“海葵”对上海地区影响为例[J].灾害学,2014,29(3):124-130.

[8]吴先华,徐中兵,袁迎蕾,等.台风灾害的关联经济损失评估——以江苏省为例[J].灾害学,2014,29(2):77-83.

[9]魏章进,隋广军,唐丹玲.基于聚类与回归方法的台风灾情统计评估[J].数理统计与管理,2014,33(3):400-407.

[10]芮建勋,张发勇,鲍曙明,等.面向台风事件与灾害影响评估的时空数据管理模式[J].灾害学,2015,30(3):43-46.

[11]刘合香,秦川,倪增华.组合权重和ArcGIS相结合的广西洪涝灾害风险分析[J].灾害学,2015,30(3):76-79.

[12]刘少军,张京红,何政伟,等.基于GIS的台风灾害损失评估模型研究[J].灾害学,2010,25(2):64-67.

[13]Blaikie P,Cannon T,Davis I,et al.At Risk:Natural Hazard,People’s Vulnerability and Disasters[M].London:Routledge,1994:210.

[14]巩在武,胡丽.台风灾害评估中的影响因子分析[J].自然灾害学报,2015,24(1):203-213.

[15]倪艳.Isomap算法在地震属性参数降维中的应用[J].西南民族大学学报:自然科学版,2008,34(2):397-400.

[16]黄颖,金龙,黄小燕,等.基于局部线性嵌人的人工智能台风强度集合预报模型[J].气象,2014,40(7):806-815.

[17]Tenenbaum J B,Silva V,Langford J C.A global geometric framework for nonliner dimensionnality reduction[J].Science,2000,290(5500):2319-2323.

[18]翁时锋,张长水,张学工.非线性降维在高维医学数据处理中的应用[J].清华大学学报:自然科学版,2004,44(4):485-488.

[19]尹焕.基于ISOMAP的机械故障诊断方法研究与应用[D].广州:华南理工大学,2012:15-22.

[20]张星.自然灾害灾情的熵权综合评价模型[J].自然灾害学报,2009,18(6):189-191.

[21]Specht D F.Probabilistic neural networks[J].Neural Networks,1990,3(1):109-118.

[22]郭联金,罗炳军.PNN与BP神经网络在钢板表明缺陷分类中的应用研究[J].机电工程,2015,32(3):352-357.

[23]王雨虹,付华,张洋,等.基于KPCA和CIPSO-PNN的煤与瓦斯突出强度辨识模型[J].传感技术学报,2015,28(2):271-277.

[24]胡永宏,贺思辉.综合评价方法[M].北京:科学出版社,2000.

[25]王志强,陈思宇,吕雪锋,等.风暴潮灾害受灾人口与直接经济损失评估方法研究进展[J].北京师范大学学报,2015,51(3):274-279.

[26]陈舜华,吕纯濂,李吉顺.福建省台风灾害评估试验[J].中国减灾,1994,4(3):31-34.

[27]赵阿兴,马宗晋.自然灾害损失评估指标体系的研究[J].自然灾害学报,1993,2(3):1-7.

[28]张芳琳.“潭美”入桂待一天暴雨集中桂中北[N].南宁晚报,2013-8-24(5).

[29]陈见,赖珍权,罗小莉,等.“尤特”超强台风残留低涡引发的广西特大暴雨成因分析[J].暴雨灾害,2014,33(1):20-25.

*收稿日期:2016-01-13修回日期:2016-03-11

基金项目:国家自然科学基金(41465003);广西研究生教育创新计划项目(YCSZ201585)

第一作者简介:陈燕璇(1988-),女,广东汕头人,硕士研究生,研究方向为概率统计、数学模型、自然灾害风险分析. E-mail:colourful48@qq.com 通讯作者:刘合香(1962-),女,山东荏平人,教授,硕士生导师,研究方向为概率统计、数学模型、自然灾害风险分析. E-mail:hx_post@163.com

中图分类号:X43;TP3

文献标志码:A

文章编号:1000-811X(2016)03-0020-07

doi:10.3969/j.issn.1000-811X.2016.03.004

Probabilistic Neural Network Pre-Assessment Model Based on Isometric Feature Mapping Dimentional Reduction in Typhoon Disaster

CHEN Yanxuan, LIU Hexiang and TAN Jinkai

(CollegeofMathematicsandStatisticsSciences,GuangxiTeachersEducationUniversity,Nanning530023,China)

Abstract:Typhoon hazard, between hazard bearing body and the disaster is a complex nonlinear dynamical system; accurately and efficiently extract the important indicators for the pre-assessment of typhoon disaster grade is an important basis for disaster prevention and relief work. In this paper, we apply principal component analysis, isometric feature mapping and entropy to extract key indicators of hazard bearing body, with hazard source as the input neurons, and disaster grade as output neurons, establishing probabilistic neural network pre-assessment model in typhoon disaster. The results show that the accuracy of probabilistic neural network pre-assessment model based on the non-linear feature extraction isometric feature mapping reaches 90%, the model has a satisfactory level of accuracy and generalization ability, provide a new way for natural disaster risk assessment, having certain reference value.

Key words:probabilistic neural network; Isometric Feature Mapping; entropy; typhoon; disaster; pre-assessment

陈燕璇,刘合香,谭金凯. 基于等距特征映射降维的台风灾情概率神经网络预评估模型[J]. 灾害学,2016,31(3):20-25,30. [CHEN Yanxuan, LIU Hexiang and TAN Jinkai.Probabilistic Neural Network Pre-Assessment Model Based on Isometric Feature Mapping Dimentional Reduction in Typhoon Disaster[J].Journal of Catastrophology,2016,31(3):20-25,30.]

猜你喜欢

信息熵台风灾害
河南郑州“7·20”特大暴雨灾害的警示及应对
台风过韩
基于信息熵可信度的测试点选择方法研究
蝗虫灾害的暴发与危害
台风来了
台风爱捣乱
地球变暖——最大的气象灾害
一种基于信息熵的雷达动态自适应选择跟踪方法
基于信息熵的循环谱分析方法及其在滚动轴承故障诊断中的应用
泊松分布信息熵的性质和数值计算