基于微信文本的台风灾情快速评估方法研究
2023-01-19姚桂福林广发祁新华张欣媛白远远陈齐超
姚桂福,林广发,2,3,祁新华,张欣媛,白远远,陈齐超
(1.福建师范大学地理科学学院,福建 福州 350117;2.福建省陆地灾害监测评估工程技术研究中心,福建 福州 350117;3.海西地理国情动态监测与应急保障研究中心,福建 福州 350117;4.北京师范大学地理科学学部,北京 100875)
我国东部沿海地区人口众多,工农业较为发达,国内生产总值占据全国60%以上,但该区域位于世界上最大的台风发源地(西北太平洋)的西海岸.自1949年以来,西北太平洋平均每年生成约27个台风,其中约7个台风登陆我国东部沿海地区[1].台风对我国东部沿海地区的经济发展、人民生命财产安全造成严重的威胁,因此关于台风灾情评估的研究具有重要意义.
台风灾情评估是指在台风灾害数据资料基础上,应用统计方法定量估算已经或正在发生的台风灾害造成的财产损失或人员伤害[2].学术界对台风灾情评估的研究主要包括以下几个方面:(1)在台风灾害灾情评估因子选择上,有学者选取台风暴雨、台风强度和持续时间等危险性指标作为灾害风险评估因子[3-5],有学者则选取死亡人数、直接间接经济损失、倒塌房屋数等灾害损失指标表征损失情况[6-12];(2)在台风灾害灾情评估方法上,比例系数法、投入产出法、层次分析法、回归分析法等数理统计方法被广泛运用[13-19].近年来随着神经网络的发展,神经网络开始应用于台风灾情评估[20-21].但不论是选择何种评估因子或方法,大多数学者使用气象、水利、农业、民政等部门统计资料或灾害直报系统的数据.这些数据较为全面完整,但存在各部门统计标准不一、行业分割、统计数据共享难、更新速度较慢等问题.
近年来,有学者意识到相较于政府部门自下而上的逐级灾情情况汇总统计数据,社交媒体数据更为便捷、更新速度更快,于是开始使用社交媒体数据作为台风灾害灾情评估的数据来源,但目前大多采用微博、推特为数据源[22-24],基于微信文本数据的研究报道相对较少.事实上,微信凭借着用户群体广泛、使用人数众多、效率较高、发布信息量较大等优点,具有更大的数据量和更新颖的使用方式.如气象部门和地质灾害管理部门的微信公众号,在灾害来临前发布相关内容并将这些内容传送给每一个订阅粉丝;在灾害发生时,微信则成为灾情信息直报、传播的快捷有效渠道.值得注意的是,微信除了文字交流外还能利用语音进行交流,便捷地发送现场图片和视频,还能了解在灾害来临时人们的情感变化.微信文本数据在人们浏览、评论、点赞公众号文章时能较完整地将上述信息保留下来以供灾后分析和研究使用[25-28].
基于上述分析,本文探索了基于微信的台风灾情快速评估方法.论文采集了台风“利奇马”“白鹿”在登陆前、登陆后、消亡后3个阶段的微信公众号文章,分析了人们对于3个阶段不同关注内容所反映的灾情特征及在台风“利奇马”中东南沿海各个省份的灾情排序;在台风灾情指数的基础上增加转移安置人数因子,构建了省级台风灾情指数,辅以部分统计数据计算省级台风灾情指数用以验证基于微信文本数据的各省台风灾情评估结果.
1 数据来源与研究方法
1.1 研究案例概述
考虑到台风灾情评价的“时效性”和基于微信文本台风灾情快速评估结果“可验证性”,本研究选取2019年有登陆我国大陆的台风“利奇马”和“白鹿”.超强台风“利奇马”于2019年8月4日在菲律宾东洋面上生成,8月10日在我国浙江省温岭市沿海登陆,后逐渐向北偏移穿过浙江、江苏两省,在江苏省连云港市附近出海,经过黄海海面在山东半岛再次登陆,穿过山东半岛后进入渤海,于8月15日消散.此次台风对我国沿海浙江、山东、安徽、江苏、辽宁、上海、河北、吉林、福建9省造成严重影响,共造成54人死亡,14人失踪,直接经济损失537.20亿元.强热带风暴“白鹿”于2019年8月14日在西北太平洋洋面生成,8月24日在台湾地区屏东县沿海登陆,穿过台湾地区进入台湾海峡,8月25日在福建省东山县再次登陆,随后由福建进入广东省,8月26日消散.此次台风对我国台湾、福建、广东、江西、湖南5省造成严重影响,共造成至少3人死亡,直接经济损失1.994亿元.
1.2 数据来源与处理
1.2.1 数据来源
通过Python程序,进行微信公众号文章的采集,进而获得微信文本数据.在获取的过程中,主要以“利奇马”“白鹿”“台风利奇马”“台风白鹿”等为搜索关键字共计采集到1 124篇文章,在剔除重复及错误文章后,共计1 036篇有效文章及其评论内容.死亡人数、倒塌房屋数、农田受灾面积、直接经济损失、转移安置人数等灾情数据则是来源于各年度《中国气象灾害年鉴》及国家减灾网官网(http://www.ndrcc.org.cn/)的省级统计数据,其中已将直接经济损失根据公式转换为以2000年为基准的定基经济损失(表1).
表1 台风“利奇马”各省份灾情数据Tab.1 Disaster data of Typhoon “Lekima” by province
1.2.2 数据预处理
将微信文本数据按照登陆前、登陆时(后)、消亡后3个时间段进行分类,其中台风“利奇马”的3个时间段分别为2019.08.10前、2019.08.10—2019.08.15、2019.08.15后;台风“白鹿”的3个时间段分别为2019.08.24前、2019.08.24—2019.08.26、2019.08.26后.台风“利奇马”消亡后与台风“白鹿”登陆前有一段重合期,所以还需要将这段时间内获取到的文本进行二次整理,剔除重复获取到的相同文章,以保证数据的正确性.将每篇文章的发布时间、阅读量、点赞量、评论量、标题、公众号、评论等文本进行汇总处理.
1.3 研究方法
针对现有台风灾情评估研究数据统计周期较长的不足,本文利用微信文本数据作为新的数据来源进行台风灾情快速评估,并通过省级台风灾情指数加以验证.研究框架如图1所示.对采集到的微信文本数据进行二次整理,提取相关评论内容.词云就是对关键词形成聚类,突出文本内出现频率较高的词,并以此进行可视化的方法.根据不同灾害应急信息类型及关键词解析,绘制相关的词云图以此表征不同阶段的灾情特征;并基于文章评论内容进行台风“利奇马”各省灾情推测.为各省防灾减灾资源分配提供参考.对于灾情统计数据主要有两类:一类是台风“利奇马”和“白鹿”的灾情数据用以计算2个台风的灾情指数;一类是2003—2018年登陆我国台风灾情统计数据,依此确定省级台风灾情指数的阈值.基于台风灾情指数构建省级台风灾情指数用以验证基于微信文本数据的台风灾情快速评估方法的推测结果.
图1 研究框架Fig.1 Research framework
1.3.1 台风灾情指数
卢文芳等[10]将房屋倒损数、农田受灾面积和人员死亡数作为因子,提出了台风灾情指数——将规范化后的各个指数进行累加求得.雷小途等[11]在此基础上考虑社会经济发展因素,引入了直接经济损失因子,将各个规范化指数累加求得新台风灾情指数,指数越大则表示台风灾情越严重.公式如下:
(1)
(2)
(3)
(4)
式中:a、b、c、d分别为台风灾害造成的倒损房屋数(间)、死亡人数(人)、农田受灾面积(hm2)、直接经济损失(亿元).
考虑到物价变化和社会经济发展状况等因素影响,如果直接使用当年台风灾害造成的直接经济损失就无法客观地比较不同年份灾害损失,因此还需要引入定基物价比系数,转换公式如下[11]:
d=d0×β,
(5)
式中:d0为台风灾害造成的当年直接经济损失,β为定基物价比系数.
台风灾情指数计算公式如下:
IATD=Ia+Ib+Ic+Id.
(6)
式中:Ia、Ib、Ic、Id分别为规范化的倒塌房屋、死亡人数、农田受灾面积、定基直接经济损失指数.
1.3.2 省级台风灾情指数
台风灾情指数通过倒损房屋数、死亡人数、农田受灾面积、直接经济损失等因子,以整个台风为整体进行灾害等级划分及判断变化趋势等.然而,由于各省的区域差异大,整体性灾情评估难以精准地适应各地防灾减灾实践的需要.在各省的防灾减灾救援中,对于受灾人员的转移安置也需要花费大量的人力物力,但在此前的研究中一般只考虑死亡人数;同时后续的统计口径有所改变(不再统计房屋损坏数).为此,本文在前人研究的基础上,以省级行政区为单位,根据获取数据的难易程度以及可实现程度,改进台风灾情指数,将台风倒损房屋数替换为直接的房屋倒塌数,引入转移安置人数因子,构建省级台风灾情指数,用于表征各省台风灾情严重程度.
此指数旨在衡量省际之间的灾情,为各省防灾减灾资源分配提供参考,因此计算公式的阈值需要进行调整.根据文献[10-12]及《中华人民共和国气象行业标准重大气象灾害应急响应分级标准》,将2003—2018年登陆我国台风的5个因子根据影响省份数量求平均值,为避免主观性,将计算到的2003—2018年台风各因子的均值数据作为样本的集合,死亡人数(人)、倒塌房屋数(万间)、定基经济损失(亿元)、农田受灾面积(万hm2)、转移安置人数(万人)区间分别为:[0,120]、[0,5.6]、[0,365.9]、[0,38.0]、[0,125.5],利用自然断点法进行分级将其分为特大灾、大灾、中灾、小灾、微灾5级,最终得到各灾情因子对应灾级区间(表2).
表2 各灾情因子对应灾级区间Tab.2 Disaster factors corresponding to disaster levelsl
根据各因子分级标准将各规范化指数计算公式进行调整,经过计算后就能得到各单项指数和省级台风灾情指数及其所对应的特大灾、大灾、中灾、小灾、微灾5个灾害等级,数值所对应灾级如表3所示.具体计算公式如下:
表3 单项指数及省级台风灾情指数对应灾级Tab.3 Single index and provincial typhoon disaster index corresponding to disaster levels
(7)
式中Xi为前文所述的第i个因子,即台风灾害造成的死亡人数(人)、倒塌房屋数(间)、定基经济损失(亿元)、农田受灾面积(万hm2)、转移安置人数(万人);Xt、Xd、Xz、Xx、Xw分别指各因子在特大灾、大灾、中灾、小灾、微灾分级区间内的最小值.
则省级台风灾情指数计算公式如下:
(8)
式中IXi分别为规范化的死亡人数、倒塌房屋数、定基经济损失、农田受灾面积、转移安置人数指数.
2 结果分析
2.1 基于微信文本的灾情分析
2.1.1 词云变化反映不同阶段的灾情特征
在文献[29]的基础上,根据台风灾害的特点,合并和筛选出了8类灾害应急信息:正向情绪特征、交通信息、天气预警、伤亡及营救、次生灾害、能源中断、事件/人物追踪、恢复,具体类型及所体现的关键词如表4所示.
表4 不同灾害应急信息类型及关键词Tab.4 Types and keywords of emergency information for different disasters
将整理好的各个阶段文章及其评论内容数据,制作相应的词云图(图2),用以分析大众不同阶段关注的侧重点:①在台风登陆前,主要为交通信息、正向情绪特征、天气预警,具体信息如“高铁/公交是否停运”“希望大家安全平安”等.②台风登陆时(后)主要为正向情绪特征、交通信息、天气预警、伤亡及营救、次生灾害、能源中断、事件/人物追踪、恢复等,具体信息如“xx市出现严重的城市内涝、洪水”“xx市变电站爆炸将持续停电”等.但是在此阶段伤亡及营救类别主要是实时信息更新;事件/人物类别主要是关注军人、官兵等救援一线人物;恢复类别主要是询问相关能源、通讯恢复进度或恢复程度.③台风消亡后,主要为正向情绪特征、伤亡及营救、恢复,具体信息如“累计受伤人数”“通讯正在逐步恢复”等.在此阶段伤亡及营救类别主要是伤亡人数的汇总;恢复类别主要是对相关恢复信息的跟踪.
图2 台风三阶段评论内容关键词词云图Fig.2 Key words word cloud of comments in three stages of typhoon
2.1.2 基于评论数的台风灾情推测
社交媒体文本关键词可以提供及时有效的信息,用以识别台风灾害受灾区[30].因此本文通过提取台风“利奇马”登陆时(后)相关评论内容的地名数量来表征台风灾情实况,评论数越多的省份台风灾情越严重(图3).由图3可以看出在台风“利奇马”登陆时(后)提取到浙江、山东、广东、上海、安徽、江苏、福建、台湾、湖南、海南、广西11个省市.根据台风“利奇马”另外两个时期各省评论数推测的台风路径是在浙江省登陆后持续往北移动,同时考虑到台风“利奇马”的强度,外围环流可能影响浙江省周边的福建、湖南、台湾,因此去除台风预测路径外且不在台风外围环流影响内的省份,最终推测出的灾情情况由重到轻依次为:浙江、山东、上海、安徽、江苏、福建、台湾、湖南.
图3 台风“利奇马”登陆时(后)各省地名数量Fig.3 Number of place names by province at (after) Typhoon Lekima’s landfall
2.2 基于灾情数据的灾情评估
2.2.1 不同台风的灾情对比评估
将获取到的台风“利奇马”“白鹿”的4个灾情因子数据分别代入上述台风灾情指数(1)-(6)计算公式,可得各规范化指数及台风灾情指数(表5).其中台风“利奇马”的台风灾情指数为11.57,台风“白鹿”的台风灾情指数为1.33(以2000年为基准年).根据文献[11]可知,台风“利奇马”的台风灾情指数位于大灾的范围内(11.10<台风灾情指数≤12.60),台风“白鹿”的台风灾情指数位于轻灾的范围内(台风灾情指数≤8.3),且“利奇马”带来的灾害程度远大于“白鹿”.这主要是由于台风“利奇马”风力等级为17级且在陆地滞留时间较长,因此倒塌房屋指数偏高,又因为其主要影响地区均为我国经济较强、农业发展较为发达的省份,其农田受灾面积指数、定基直接经济损失指数很高.台风“白鹿”风力等级为11级且经过台湾地区后入台湾海峡才再次登陆我国大陆,台风强度有所衰减,对我国大陆省份的影响较小,所以其农田受灾面积指数、定基直接经济损失指数较低.由于我国台风预警机制及时启动、防台抗台措施及时响应,在台风中伤亡人数较少,2个台风的死亡人数指数都较低.
表5 台风“利奇马”和台风“白鹿”各规范化指数及台风灾情指数Tab.5 Typhoon “Lekima” and Tropical Storm “Bailu” by norm index and typhoon disaster indexx
2.2.2 同省份的灾情对比评估
考虑到数据的获取难易程度及可实现性,仅以台风“利奇马”测算各省的省级台风灾情指数.将获取到的台风“利奇马”来临时各省各个灾情因子分别代入上述(7)-(8)公式,其中未统计到的数据默认为0,可得到各省在台风“利奇马”来临时的各规范化指数和省级台风灾情指数(表6).将各省省级台风灾情指数及台风“利奇马”路径利用ArcGIS进行可视化(图4),由图4可以直观地看出此次通过省级台风灾情指数表征的台风受灾严重程度还是比较符合台风“利奇马”的实际路径.在省级台风灾请指数中,浙江省3.42位于榜首,处于大灾范围;山东2.48次之,处于中灾范围;安徽、江苏、上海、辽宁、河北、吉林、福建等省市处于微灾范围.这主要是由于“利奇马”在浙江省登陆时风力高达16级,在境内长达10 h,在台风实际移动路径上多次受地形抬升影响使得雨量得到增幅,影响区域较多且经济较为发达,因此其定基经济损失、农田受灾面积指数较高,均位于大灾范围;根据文献[1]因台风死亡、失踪的原因共有9类,台风“利奇马”在登陆浙江省后诱发了多场山洪等地质灾害,导致较多的人员伤亡及大量的人员转移安置,因此其死亡人数、转移安置人数指数较高,其中转移安置人数位于大灾级别.台风“利奇马”抵达山东省时虽然风力等级有所下降,但是山东省人口密度较高,同时台风入海再次登陆提供了较多的水汽来源,因此其定基经济损失、农田受灾面积、转移安置人数指数也较高,这也就使得山东省灾情等级有所上升.河北、吉林、福建3省受台风影响较小因此其灾情较轻.
表6 各省市各规范化指数及省级台风灾情指数Tab.6 Norm index and typhoon disaster index by province
注:基于自然资源部标准地图服务网站GS(2016)1595号标准地图制作,底图边界无修改图4 各省省级台风灾情指数及台风“利奇马”路径图Fig.4 Typhoon disaster index and Typhoon Lekima’s path by province
通过各省省级台风灾情指数的计算及与气象局的天气报道以及相关部门的灾害统计公报的对比,可以验证2.1.2中基于微信文本数据推测的各省灾情大部分符合实际情况,其中实际受到影响的省份有浙江、山东、上海、安徽、江苏、福建6省.除了上海外,其余5个省份的排序与省级台风灾情指数的计算结果一致(图5).上海的推测结果大于安徽、江苏两省,可能是因为上海市作为国际大都市,经济发达,对台风的关注度也更高些.值得注意的是,实际受影响的辽宁、河北、吉林3个省份没有在评论出现,或许是由于这3个省份受台风影响较小,因此关注度也较少.
图5 基于微信文本数据提取地名数量与省级台风灾情指数对比Fig.5 Comparison of the number of place names extracted from WeChat text data with provincial typhoon disaster index
3 结论与讨论
3.1 主要结论
(1)在台风的不同阶段,大众的关注内容反映出不同的灾害应急信息类型.在台风登陆前,主要为交通信息、天气预警;台风登陆时(后),主要为交通信息、天气预警、伤亡及营救、次生灾害、能源中断、事件/人物追踪、恢复;台风消亡后,主要为伤亡及营救、恢复.但在后两个阶段的伤亡及营救、恢复两个类别的侧重点有所不同.
(2)基于微信文本数据推测的各省灾情由重到轻依次为:浙江、山东、上海、安徽、江苏、福建、台湾、湖南.
(3)台风“利奇马”的台风灾情指数为11.57,位于大灾的范围内(11.10<台风灾情指数≤12.60),台风“白鹿”的台风灾情指数为1.33,位于轻灾的范围内(台风灾情指数≤8.3)(以2000年为基准年).在各省省级台风灾情指数中,浙江省为3.42处于大灾范围;山东省为2.48处于中灾范围;其余7省均处于微灾范围.浙江省定基经济损失、农田受灾面积、转移安置人数指数均位于大灾级别以上.同时通过省级台风灾情指数验证了基于微信文本数据推测的各省灾情排序基本符合实际情况.
(4)在台风灾情指数基础上提出的以省级行政区为单位的省级台风灾情指数,能够较好地对比各省际之间的受灾程度,为国家相关的救灾措施及各省救灾资源分配提供一定参考.
(5)微信凭借其用户群体广、数量大等优点,产生的大量文本数据在台风灾情快速评估中具有广阔的应用前景:首先根据不同灾害应急信息类型及关键词解析,能够快速了解到群众在台风灾害不同阶段的关注点;其次根据关键文本信息(如地名等),能够快速推测出各省灾情,为防灾减灾资源分配提供参考.
3.2 讨论
(1)本研究在前人的基础上构建了省级台风灾情指数,对于衡量各省灾情程度具有一定的可信度,但目前对省际灾情评估还处于探索阶段,还需后续研究检验校正.
(2)在此次研究中基于评论数推测灾情严重程度是对已有研究的拓展,本次研究的评估结果均大致符合实际情况,运用的微信文本数据较传统统计数据更新速度更快,在灾害发生期间也能够进行实时获取,或在灾害结束后的短期内也能获取到相关数据,完善了社交媒体数据在台风灾情评估中的应用,为后续台风防灾减灾提供有益参考.微信用户的广泛性,使得微信不像微博存在城市地区使用率大于农村地区的局限性[23];并且大部分用户是具有微信文章的评论权限,这就使得分析能够更加真实,不同阶段的灾情特征更贴近真实;虽然存在一定数量自媒体人创办的微信公众号,但是持续发布相关信息及阅读量等更多的还是权威官方号(如中国天气网、央视新闻等),所以其文本数据也相对可靠.
(3)微信文本数据的使用虽补充了社交媒体数据在快速感知灾情的应用,但也存在部分不足,如除了小部分公众号一天内可以发布多次文章外,大部分都是一天只能发布一次文章,这就使得文章及其评论内容与台风抵达地区存在一定的时间差;部分冗余信息使灾情推测出现了实际未受到影响的城市等.为了克服基于微信文本的台风灾情快速评估方法的不足,在后续的研究中将会考虑对各个公众号赋予相关权重,一天内能够发布多次文章的公众号赋予更大的权重,反之较小,以此来弥补大多数公众号发文频率与台风移动速度之间的时间差,并将台风的相关要素一同考虑入内,使得时间周期能够更具客观性,同时能够更加精准地去除冗余信息,更好地提取、利用相关评论内容.同时受关注度影响,基于微信文本推测的各省灾情在上海和江苏、安徽推测结果上存在偏差,在后续研究中将会考虑将样本进行归一化处理,降低样本数量对结果的影响.