基于微博数据和情感分析法的台风“米克拉”灾情过程探测
2021-04-13陈齐超林广发梁春阳黄潇张明锋陈鑫周星辰
陈齐超,林广发,2,3*,梁春阳,黄潇,张明锋,2,3,陈鑫,周星辰
(1.福建师范大学 地理科学学院,福州 350007;2.福建省陆地灾害监测评估工程技术研究中心,福州 350007;3.海西地理国情动态监测与应急保障研究中心,福州 350007)
0 引言
台风灾害不仅影响范围广、破坏性强,而且发生频率高,是造成中国社会经济损失最严重的自然灾害之一[1]。快速、准确地了解灾害过程,获取灾损信息和识别受灾区域,并以图表形式进行直观展示,可为防灾减灾部门开展抢险救援工作提供重要参考。微博作为一种社交媒介,已经成为了人们记录事件、分享现场、发表看法、宣泄情感的一个平台,大量、实时、广域覆盖的社交媒体信息充斥在网络中[2]。对其中含有地理位置的微博文本进行采集、信息抽取和分析,从而得到数据中包含的台风灾害相关事件发生的地理位置、时间和影响范围,以及各种实时灾情信息,逐渐成为灾害大数据领域的一个研究热点。这些信息可用于台风天气过程跟踪、灾害事件检测、预警和灾情准实时评估,对于灾害研究和防范、应急救灾具有独特的价值。
近十年来,国内外学者对于含有时空信息的社交媒体数据在自然灾害领域的应用研究方兴未艾,其中一些热点话题包括洪涝区域识别[3]、干旱风险管理[4]、火灾蔓延[5]、地震震情评估[6-7]、台风灾情评估[8]等。这些应用的主要算法基础,包括文本主题模型和文本情感分析模型。文本主题模型抽取一段文本所包含的特征词,并对文本集包含的所有特征词进行语义聚类,从而建立每个文本的主题概率分布矩阵,识别文本中所蕴含的灾情相关的主题信息。如梁春阳等综合隐含狄利克雷分布 (Latent Dirichlet Allocation,LDA)主题模型和支持向量机模型将微博文本分为“灾情”“救援”等主题,实现对灾情信息的快速识别[9];苏凯等采用Biterm主题模型(Biterm Topic Model,BTM)实现“灾害地点”相关信息的识别[10]。因此,通过主题模型能够快速地识别蕴含在文本中的灾情相关信息。文本情感分析模型主要思想是在灾害事件描述文本所反映的情绪类型及其强烈程度与灾情严重程度之间建立一种对应关系。常见的情感分析方法有基于情感词典的文本匹配、基于统计机器学习的方法和基于深度学习的方法。基于情感词典的方法是借助情感词典,如HowNet情感词典、NTUSD情感词典、清华大学李军中文褒贬义词典、BosonNLP情感词典等,结合句式对情感词加权计算得到文本的情感值;基于统计机器学习的分类是提取语料文本特征通过朴素贝叶斯、支持向量机等分类模型训练文本情感分类器,使用文本分类器对未标注标签的文本进行情感分类;基于深度学习的方法是使用卷积神经网络、长短时记忆网络等神经深度学习模型自动提取文本特征,实现文本情感分级。不少学者基于以上情感分析方法开展了环境状况监测、灾情事件感知、受灾区域识别等方面的研究。如陈顾远等使用朴素贝叶斯分类器和情感词典对文本情感进行正负极分类并打分,分析认为公众情感能够较好地反映当前环境状态[11];陈凌等采用长短时记忆网络构建情感分析模型,将情感分类结果结合词云对灾害期间的舆情事件进行感知[12];Gruebner等使用EMOTIVE高级情感检测程序识别具有消极情绪的受灾者推文,从而挑选出最需要救援的区域[13];张岩等使用朴素贝叶斯情感分类方法,通过分析表明情感指数能较好的用于重灾区的判断[14]。
在上述研究的基础上,本研究将LDA主题模型、情感分析模型结合可视化技术引入台风灾情过程探测中。以2020年第6号台风“米克拉”为例,挖掘了台风灾害事件相关微博中蕴含的灾情信息、主题信息和情感信息并对其进行可视化,分析台风灾害前后用户发文主题和情感值的变化与时空分布,进而探测台风灾害的时空过程。
1 数据采集与处理
1.1 数据采集
2020年第6号台风“米克拉”于8月11日7时许在福建省漳州市漳浦县登陆,于12日6时许消逝。本研究以新浪微博作为数据源,选择“米克拉 台风”作为采集关键词,以台风预报前一天至预警解除后一天(8月9日0时至8月13日0时)作为采集的起止时间,使用基于模拟登录的方法,利用前期开发并部署于华为云端的爬虫采集微博数据。采集得到的微博数据包括用户id、微博发文时间、文本信息、签到位置、用户注册位置等字段信息。通过对字段不完整和字数少于6的信息进行过滤,合计采集与台风“米克拉”相关原创微博数据共5 916条。
1.2 数据预处理
微博文本数据是一种非结构化的数据,其中虽蕴含着各类属性信息,但未经处理则不能直接用于分析使用。“词”是组成文本的最小单位,准确的中文词汇切分是文本特征提取和文本分析的基础。但中文分词的准确度并不高,词语时常被分词器误切分,因此需要通过构造领域用户词典,实现词典内的词汇能够被准确切分。使用HanLP中文分词工具的基于条件随机场(Conditional Random Field,CRF)的分词模式[15],实现文本词语的准确切分。中文分词对专业领域名词识别效果不佳,时常出现误切分的情况,因此引入自定义的台风灾害事件词汇作为用户词典。分词结果中往往存在大量与分析目的无关且频率很高的词汇,此类词汇参与分析则会影响分析结果,需要构建停用词表对无关词汇进行过滤。本研究在哈工大停用词典的基础上补充了微博文本常出现的无关词,实现微博无关词的过滤。
微博中含有3种位置信息:注册位置、签到位置以及文本位置。注册位置,是用户设置个人信息时选择的位置,该位置可获得的最小范围为地市尺度,一般与具体某个微博所描述事件的地点没有什么关系;签到位置,为用户发微博时自行定位的位置,多是体现微博用户发微博时所在的位置,该位置的准确度取决于微博用户,从省域到非常具体的某个兴趣点均可,但不一定是事件发生的地点;文本位置,是微博文本中所蕴含的位置,该位置一般是微博描述事件所在的位置,具有较高的准确性。在位置的选择上优先使用文本位置,当文本位置空缺时采用签到位置。文本位置蕴含在文本中,不像注册位置和签到位置一样能够轻易的获取。本研究使用基于CRF的方法[16]对文本中的位置实体进行识别,从而抽取出文本包含的位置信息。使用以上方法获得有效的位置信息共4 912条,占微博总数的83%。本研究使用百度地图提供的地理编码服务将文本地理位置转为经纬度坐标,实现文本数据的地图可视化展示。
2 研究方法
2.1 基于LDA的台风主题模型词提取
采用Blei提出的LDA主题生成模型[17]实现台风“米克拉”微博文本的主题分类。LDA主题模型属于无监督分类的3层贝叶斯概率模型,包含词、主题、文档3层结构。该模型假设文档是由若干个隐含主题构成,而这些主题由文档中若干个特定词汇构成。
由于模型计算是反复迭代的过程,本研究设置迭代次数为200次,为了能得到较好的效果、较快收敛,先验参数根据经验取值,α=50/k,β=0.01[18]。文本-主题概率分布矩阵表示每条微博文本数据可能包含的主题的概率,文本以概率最大的那个主题作为单条微博文本的主题,最终所有微博被分为16个主题类别,其中出现频率排前10位的特征词及主题序号矩阵如表1所示。通过对特征词的判读可以将相似主题进行分类:1、5、8、15划分为预警类信息,是灾害发生前气象台等政府部门发布的预警信号及台风运动轨迹等信息;6、9、10、12、13划分为防御类信息,是关于交通班次停运、航线停航、公园关闭等相关信息;3、4、7、11、14划分为灾损类信息,是用户报道的大风、暴雨、路面损失等描述信息。0、2为无关信息。
2.2 台风微博情感分析
使用基于情感词典的方法进行划分,通过建立通用情感词、程度副词、否定词和专业领域词典,结合句式词库对情感词加权计算得到微博文本的情感值,然后通过人工设定正负倾向的阈值来进行情感的分类,该方法简单易行且通用性好。BosonNLP情感词典是从微博、新闻、论坛等渠道获取的文本数据经过情感标注构建生成。该词典囊括了大量的网络用语,对微博文本的情感分析有很好的实用性。因此,使用BosonNLP词典作为具有情感分值词的情感词词典,情感值计算公式[19]如式(1)所示。
表 1 “主题-特征词”矩阵 Table 1 Subject-word matrix
(1)
degree(t)是文本t的情感值得分,qi为一篇文章中第i个情感词,wi为情感词qi对应的程度副词,k为情感词qi前否定词的个数。通过对文本的句式划分,对文本中多个情感词语程度副词进行加权累加,最终得到一篇文章的情感值,情感值大于0为积极正面的微博,小于0则为消极负面消极的微博。
3 结果分析
图 1 微博数量-时间序列Figure 1 The number of microblogs-time series
本研究以小时作为时间分辨率,对微博文本数量、内容、主题类别和情感极性进行时空统计分析。从相关微博数量随时间变化情况来看,8月9日晚21时发布了第一条与“米克拉”台风相关的微博,随后气象部门等发布了大量的预警信号,该台风事件逐渐被人们所关注,在10日15时许达到第一个小高峰;由于午夜时分用户休息,微博数量在凌晨0时至6时降为低谷;随着台风在11日8时许登陆漳州市漳浦县并对当地居民出行和生活、生产造成影响,微博数量在11日10时达到第二个高峰;台风登陆后逐渐减弱并于11日14时降为热带低压,此后相关微博也逐渐减少(图1)。
3.1 “米克拉”台风事件主题分析
图 2 事件主题类别-时间序列Figure 2 Text category-time series
按预警、灾损与防御类文本主题,分别统计其发文数量和高频词随时间的变化(图2),可以看出,与“米克拉”台风相关的第一条微博是属于预警类信息,描述了台风即将生成,并逐渐向台湾、福建和广东地区靠近的情况;在台风登陆前,关于台风风向、风力强度、预计路径和预计暴雨强度等的预警类信息占主要部分;其次是关于渔船撤离、景点关闭、航班取消、列车停运等相关的防御信息;关于大风大雨影响描述的灾情信息只占少数。随着台风逐渐向内陆靠近,微博中灾损类信息大量增加,在11日8时左右微博中的灾损类信息超过预警类信息,这反映11日8时台风登陆漳州市漳浦县并对周边地区造成大量的灾害损失,其中的“福建、漳州、厦门、树木、车辆、道路、交通”等高频词,可以看出“米克拉”台风灾害在漳州、厦门两地,主要造成了树木倒塌、道路交通堵塞等灾损影响。在降为热带低压且逐渐消逝的过程中,灾损类信息仍占主导地位,其中高频词语有“厂房、树木、护栏、道路”等,是对台风影响整个过程中造成的厂房被吹倒、树木倒塌、护栏压到民警、道路拥堵等事件的描述。
图 3 台风登陆前后灾损类信息点密度Figure 3 Density of damage information before and after typhoon landing
将主题分类后微博文本信息中的文本位置转换成地图上的点事件,并通过核密度聚类生成热力图对灾损类信息进行空间可视化,从而与实际灾情进行比较(图3)。可以发现:台风登陆前,漳州、厦门有些许灾损信息,主要描述大风大雨对民众出行造成影响;台风入境后,泉州、福州等沿海地区有些许灾情信息生成,厦门、漳州两地有大量灾情信息生成,主要描述了树木倒塌、道路交通堵塞、仓库倒塌、停电等信息;漳浦、平和、南靖、厦门市有大量的灾损类事件聚集,反映了此次台风事件的灾情分布,主要存在于福建省闽南沿海一带。
根据气象部门预报,“米克拉”台风在福建漳浦登陆后向西北方向移动,途径漳浦、平和、南靖地区,造成福建东南沿海大风和暴雨,导致漳州多县区房屋受损、树木倒伏、电力受毁等。因此,对微博数据进行文本抽取、可视化展示并分析,能够快速直观地了解此次台风事件造成的灾情影响、影响区域等信息。
3.2 “米克拉”台风微博用户情感趋势
在台风灾害事件中,身处受灾区的用户会发布大量关于灾情相关的微博,此类微博多是对灾情的描述,其情感值大多是负向消极的。因此,对用户的情感进行分析可以探测台风灾害的影响区域和程度。“米克拉”台风的文本情感分析结果显示有72.4%的微博用户对此次台风持积极的态度,27.6%的微博用户持消极态度。此次台风事件微博情感值最低值为-16,该微博发布于厦门市湖里区东百蔡塘广场,描述了厦门市的大风、停电和服务业受影响等多个消极事件;情感值最高分为27,该微博发布于12日,声称台风为厦门市降温降雨,并且在晚上能够看到英仙座流星雨。
从时序和主题分析上来看,在8月9日9时之前,尚未确定台风会影响中国时,关于“米克拉”的话题几乎没有用户讨论,此时属于舆情传播的潜伏期。在8月10日有大量预警类报道,确定台风会登陆福建闽南一带,此时微博大量发布。在10日15时达到一个小高峰,此时持积极态度的预警类和无关类微博占主体地位,根据高频词汇可知主要是因为此次台风预测强度不大且前期一直处于高温状态,大量用户渴望台风能够给当地带来降雨和降温,此类微博主要分布在厦门、福州等高温地区。在11日8时“米克拉”登陆漳州市漳浦县,持消极态度的微博大量生成,主要描述护栏被吹倒、树木倒伏、暴雨肆虐等灾情信息,此类微博主要发布在厦门、漳州等地区(图4)。
图 4 登陆前后积极无关类与消极灾损类信息点密度 Figure 4 Density of positive irrelevant and negative damage information before and after landing
超强台风“莫兰蒂”于2016年9月15日登陆福建省厦门市,登陆时恰逢天文大潮,对福建、浙江、江西等省造成了严重的影响,大面积的基础设施损坏严重,上百万人受灾。本研究当时收集了台风灾害事件相关微博共52 882条,其中有43.4%的微博用户对此次台风持积极的态度,56.6%的微博用户持消极态度。其中持消极态度的微博多是灾损类信息,分布于以厦门为中心的福建沿海地区。情感值最低为-30,该微博发布于厦门市瑞景商业广场,描述了厦门当地停水、停电、断网、物资紧缺、道路堵塞、交通瘫痪等多种灾情信息;情感值最高分为33,因台风登陆时正好碰上传统节日中秋节,该微博描述了中秋佳节的祝福信息;其他积极态度的文本包括描述中秋佳节祝福、停课放假的欣喜、以及对灾区的祈愿等,多分布在不受灾害影响或受灾不严重的地区。通过对比两次台风可以发现,发布负向极性的微博多是来自于受灾区,且描述的是当地受灾害信息。“莫兰蒂”台风用户情感持正向态度的多处于无灾区或轻灾区;“米克拉”台风持消极态度的微博占比与持积极的微博都位于台风影响范围的区域。同样是台风灾害事件,由于造成灾害影响程度的不同,微博文本的情感极性占比和文本类别也大不相同。严重的台风事件带来大量的灾损类消极信息,而较弱的台风带来大量积极的信息。因此,通过对微博主题类别和情感极性进行时空分析,可用于台风灾害事件的影响范围和灾损影响程度的舆情监测。
4 结论与展望
(1)基于LDA主题模型对“米克拉”台风事件的微博进行聚类,分为灾损信息类、防御信息类、预警信息类和无关信息类。分析各类微博的时间过程可以看出,台风登陆前有大量预警类信息;随着台风逐渐向内陆靠近,受灾地区的灾损类微博大量增加,灾损类微博在台风登陆时达到最高峰。因此,通过对主题类别的时序统计可以辅助探测台风的登陆过程及其灾情时空分布。(2)利用情感分析方法,挖掘微博文本所蕴含的情感值,并通过空间统计制图分析,发现台风登陆前后的微博中存在情感较为复杂:在台风登陆前,对福建高温地区的微博文本存在明显的正面影响,文本多是描述渴望降温、降雨的信息;在台风登陆后,对受灾区用户的微博文本存在明显的负面影响,文本多是描述灾情信息,这很好地佐证了台风并不总是带来负面影响的观点[20]。台风登陆虽给受影响地区带来了一定的自然灾害,但同时也带来了降温、降雨,往往给前期受高温干旱天气影响的当地居民带来积极的影响。(3)持负向态度的微博多是来自于受灾区。通过对比2016年“莫兰蒂”和2020年“米克拉”这两次台风的微博舆情可以发现,较弱的台风会带来较多的积极信息。因此,正、负向微博的占比可以侧面反映台风的灾情程度;台风灾害期间,也可以利用实时产生的微博数据进行分析,快速识别受灾区域和灾损影响程度,从而辅助政府部门掌握台风动态发展趋势。
利用微博数据虽能够较好地探测出台风登陆的时间节点,但是对于具体台风灾害事件发生位置并不能很准确地探测。其限制因素包括:(1)微博用户多集中于大中城市,当灾害事件在广大农村、山区发生时,事发地并不会大量发布微博;(2)用户的隐私保护意识也使得微博地理位置精度受限,在不开放具体坐标信息时无法获得位置信息或者仅标注到县市单元;(3)从微博文本中识别位置的精度则依赖于地理特征词抽取准确性及足够详细且现势性强的地理编码库的支持。鉴于微博中往往包括很多照片、视频等多媒体信息,其中经常嵌入了拍摄时间和地理坐标,因此如何利用这些信息提取地理位置,以及基于机器学习方法从照片中直接提取路标、灾害场景特征等信息,以改进本研究前述方法是目前一个研究热点。