社交媒体数据挖掘在城市应急管理中的应用
2021-12-07李沂蔓程根银王永建
李沂蔓,程根银,王永建
(1. 华北科技学院 安全工程学院,北京 东燕郊 065201; 2. 华北科技学院 机电工程学院,北京 东燕郊 065201;3. 华北科技学院 研究生部,北京 东燕郊 065201)
0 引言
随着信息技术的高度普及与深入应用,互联网技术不断发展,5G时代来临,数据产生和收集的速度迅速增长,相较于过去数倍乃至数十倍的数据产生和收集能力给应急管理带来了新的机遇和挑战。传统的应急管理需求数据挖掘存在挖掘时间长, 挖掘精度低的问题[1], 如何提高应急管理中的需求数据挖掘的速度和精确度,是当今应急管理数据应用需要的重点研究课题。
社交媒体数据是应急管理需求数据中的重要组成部分。社交媒体经迅速发展,已成为分享信息的主要渠道之一,从中提取和分析实时信息是许多领域的研究热点。近几年来,互联网上的社交媒体数据在检测自然灾害[2]、分析流行病的传播[3]、应对危机[4]、分析情感[5]等方面有了较广泛的应用,对于社交媒体数据的挖掘可以帮助人们更好感知世界。
社交媒体数据作为一种时空大数据,兼具实时性和定位功能,能够补足传统数据获取方式中获取灾情事故信息不足、落后,受害群体定点反馈等缺点,但对原始数据要求更高,数据精度与可信度劣于传统数据获取方式。正确挖掘社交媒体数据在应急管理中的需求数据,与传统数据获取手段形成互补。是应急管理工作研究的新方向与重点课题。
1 社交媒体数据挖掘方法
1.1 数据挖掘方法
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含其中人们事先不知道的、并具有潜在利用价值的信息和知识的过程。数据挖掘是一个多学科交叉的领域,涉及数据库技术、人工智能、机器学习、人工神经网络、统计、模式识别、知识库工程、信息检索、高性能计算技术、可视化等领域。目前数据挖掘研究和开发表明:数据挖掘需要覆盖各种不同的应用任务,从数据的预处理到关联规则、聚类分析、数据分类、偏差检查、序列模式等特定的模式。频繁模式与关联规则挖掘问题首先由R.Agrawa提出,它是很多其它挖掘问题的基础。Agrawal提出的Apriori算法是挖掘关联规则的最基本、最具影响的核心算法。
国内针对突发事件应急管理中需求数据挖掘的研究中,柳萌萌等[6]提出一种基于多尺度挖掘的应急管理系统需求数据挖掘方法。数据划分尺度的设定依靠概念分层理论,根据与应急决策支持系统多尺度需求数据集间的上下关系; 利用多尺度关联规则挖掘算法,实现应急决策支持系统需求数据挖掘,这种挖掘算法虽然数据挖掘覆盖率、精确度较高,但挖掘效率较低,无法满足海量数据挖掘需求。刘海涛[7]提出了基于加权代价的需求数据挖掘方法,通过构建决策树对应急管理工作中的需求数据进行代价敏感学习; 设定不同的需求数据的具体权值, 给出加权可靠度; 通过非频集过滤矩阵寻找需求数据频繁项集,得到需求数据间的关联规则,根据这种关联规则挖掘出所有的需求数据,该方法的弊端是挖掘精度较低。杨帆等[8]提出了一种基于支持向量机的应急管理需求数据挖掘方法,采集应急决策支持系统需求数据,根据需求数据采集结果构建需求数据分类模型,对需求数据进行分类,实现应急决策支持系统需求数据快速挖掘。这种数据挖掘方法可以有效应对应决策支持系统小样本、高维数据的问题,具有可视性强、准确率高,应用范围广等优点,但挖掘效率过低。彭秦晋[9]提出一种新的需求数据挖掘方法———基于最大间隔准则与最小最大概率机相融合的应急决策系统数据自助挖掘方法。
1.2 社交媒体数据传播方式分析
社交媒体数据受社交媒体软件的限制,数据传播方式存在差异。以国内普及率较高的社交媒体软件为例,社交媒体又可以划分为侧重于用户与用户之间的交流的社会化关系网络,如微信等;侧重于用户信息接收的社会化信息网络,如微博、论坛、帖吧等;以及单向数据传输网络,个体间交流极少的官方网站、新闻社区、电子杂志、网络电视等。
社会化关系网络侧重于用户与用户之间的交流与信息传递,用户与用户之间多存在双向的交流关系,互为信息的传递者和信息的接受者,同一信息传播载体不同用户之间同层次信息传递密度大,远超同等密度用户的社会化信息网络与单项数据传输网络。但用户受其相关点数量等指标的影响,信息的传播多数流通在群体内部交流,单个用户连接的信息接收者在三类信息传播载体中最少。
社会化信息网络中单个用户信息传播的广度最大,即单个用户连接且实现的信息传播关系数量最多,单个用户连接的信息通道呈网状辐射,但用户之间的信息传播关系多为单向传播,建立信息传播关系越多的用户,单向信息传播通道占其连接同一信息传播载体使用用户信息传播通道的比重越大,建立相互信息传播关系占其所建立的全部信息传播关系的比重越小。
单向数据传输网络,通过作为媒介的用户,大量辐射到其他的社交媒体中,在信息传播的过程中起到公示的作用。因为单向数据传输网络信息发布的特点,单向数据传输网络连接的信息关系多为单向。
针对不同的社交媒体数据传播方式,应采用不同的数据挖掘方法针对性进行数据挖掘,综合不同社交媒体数据挖掘结果,建立综合性的社交数据挖掘结果,提高数据挖掘结果的可信权重。
1.3 社交媒体数据用户分析
按照社交媒体的使用用户分类,社交媒体数据按照其发布主体可进一步分为:媒体用户,即以进行事件报道的新闻媒体等(包括报纸、周刊、电视等)作为使用者的用户类型,比如凤凰网、新报网等;官方用户,即政府及有关部门作为使用者的用户类型;名人用户,相比普通用户具有一定的粉丝基数和影响力,某些社会组织的用户也包括在内,名人用户的使用者并不单是个人;普通用户,即一般民众所使用的用户。
不同用户类型的数据在数据信息传播过程中的影响力与数据可靠程度不同,在数据挖掘过程中可结合用户特点分别赋予不同的权重加权作为数据评估指标。
2 社交媒体数据挖掘内容
2.1 社交媒体灾害事故强度数据
利用社交媒体数据获取灾情具有高实时性的特点,结合社交媒体数据可获取灾害事故强度因子的空间分布,从而提取实时灾害事故强度信息[10]。使用位置熵和马尔可夫转移矩阵[11]结合时空维度将实时灾害强度信息进行进一步处理,反应灾害事故强度因子时空间维度的动态转变[12]。进一步识别灾害事故的影响程度、范围[13-14],根据影响程度划分影响区域,从而有针对性地进行应急处置。
但是社交媒体灾害事故强度需求数据挖掘存在一定问题:需求数据挖掘方法主要适用于文本数据的数据挖掘,无法适用于图像数据、视频数据的识别处理。目前的深度学习方法已经能对图像、语音、视频进行有效识别处理[15]。
2.2 社交媒体灾害事故损失数据
社交媒体需求数据采集可是实时反映灾害事故损失情况,弥补传统应急管理模式下对灾情逐级上报的滞后性缺点,有利于应急管理决策人员尽快对突发事件灾情获得基本认知,便于其进行应急指挥应急决策。社交媒体灾害事故损失数据为传统应急管理模式下逐级上报的灾情反馈进行充分佐证和校对,有利于获取真实可靠的灾害事故损失数据。
社交媒体灾害事故损失数据可采用语义分析[16]、语义分类[17]、情感分析[18]和主题标签[19]等多维分析方法预测灾害损失,并用机器学习和反馈机制提高预测精度,通过信息筛查和地理位置标记获取灾情影响范围进行动态演变标记,结合航测数据和逐级上报数据统计估算经济损失[15]。但是损失的估算收到社交媒体数据信度效度影响,直接经济损失价值无法确定。
2.3 社交媒体灾害事故需求数据
挖掘社交媒体灾害事故需求数据,弥补了传统模式下通过实地考察评估获取灾害需求数据的滞后性,有助于精确了解受害群众个体需求,补充了传统模式下灾害事故需求数据针对受害群众群体而非个体需求的数据组成。通过语义分析[20]识别舆论走向,提供救灾参考,并结合机器学习来获取需求信息[21];分析文本次数和空间动态分布,进一步优化应急资源调配。
但是,社交媒体事故灾害需求信息依赖于地理定位功能的辅助,可进行数据挖掘的社交媒体软件存在限制,需求信息受需求信息发布用户感官影响,数据信度效度难以保证。
2.4 社交媒体用户影响力因子数据
针对用户类型和社交媒体软件信息传播特点,根据信息发布量、阅读量、连接信息关系数量等指标数据挖掘,动态计算用户信息传播影响力因子,识别影响系数高的用户关键节点,可以优化灾害事故发生后的舆情管控与信息发布工作效果,及时消除虚假不实信息的传播扩散。
3 社交媒体数据挖掘的优势与挑战
3.1 社交媒体数据挖掘优势
以应急管理工作的预防、准备、响应和恢复重建四个阶段为例,社交媒体数据应用于应急管理的优势在于态势感知和信息共享,将其应用于应急管理不同阶段,态势感知与信息共享的应用方向与优势特性均不同。
在预防和准备阶段,通过挖掘事故灾害信息大数据,实施工程措施、保险再保险和减灾战略规划等受到较多关注。社交媒体数据为其提供信息参考,其中的典型应用为手机信令数据。通过对事前事后手机呼叫及等待的详细信息进行数据挖掘,进一步估计区域内人口分布和社会经济状况,辅助风险评估工作。手机等移动数据可以帮助决策者了解群众行为,进而模拟灾害管理计划并进行评估,进行避难场所规划,应急物资储备、救灾队伍建设和通信后勤等应急预案保障灾害响应的时效性、准确性和有效性,及时监测突发事件进程。
在响应阶段,应急管理决策者通过社交媒体数据挖掘对事故灾难损失有全局认识。目前国内主要的事故灾害损失统计来源于指标上报,但该方法存在时间滞后性。社交媒体通过提取与损失因子相关的文字和图片信息,获取事故灾难损失的分布和强度等指标,或详细分析社交媒体使用者附近的受灾情况,进行损失的快速评估。社交媒体数据和观测数据的结合可以提高前者的准确性,并提高后者的时间分辨率,有效降低死亡人数和财产损失。通过精确到个人的详细的需求信息,在进行资源分析和物资调度时,提高救援效率。
在恢复重建阶段,通过社交媒体数据挖掘获取各产业恢复情况、基础设施重建情况以及群众的心理变化等信息。社交媒体能够显示恢复重建的进程和时空模式。
此外,社交媒体还能反映和估计灾民实际位置及灾后讨论的主题等,帮助政府与民众适应灾后环境并加强灾害治理。
3.2 社交媒体数据挖掘应用挑战
在灾害应急管理应用中,社交媒体数据的机遇与挑战并存。
(1) 采集社交媒体数据不及时。目前基于关键词搜索是获取社交媒体数据的主要方法,考虑到城市应急管理,该方法仍存在时间滞后。需要充分考虑信息发布的时间滞后性,综合信息内容中的时间信息,实现时间聚类或创建时间线。开发自动化社交媒体数据挖掘系统,在突发事件发生后对社交媒体数据进行实时采集、分析,仍需要进一步研究。
(2) 提取应急管理信息存在瓶颈。社交媒体数据包含大量文本、图片和视频信息,如何从不同类型信息中提取与城市应急管理相关的信息是一个巨大的挑战,例如缺乏从多媒体数据中提取应急管理信息的专业语料库。应急管理与舆情紧密联系,目前在舆情分析中,合适的语料库是保证舆情精度的前提。如何针对应急管理需求,建立专业化的语料库以提取相应信息,是利用社交媒体数据进行应急管理的基础,专业化语料库的缺乏是限制其信息提取精度的关键因素之一。
(3) 分词的多义性问题。中文简练且内涵丰富的语言特点,要求在处理信息时,必须考虑多义及歧义等问题。目前主要的中文分词方法包括三类,分别为词典方法、统计方法和规则方法,综合性的自动机分词算法、规则统计相结合的汉语分词算法和后缀数组无词典分词算法等。对于分词结果中多义性的处理,常用的方法为贝叶斯分类判别器,结合含有词义标注的大规模语料库资源,利用多义词在上下文中的特征概率给出歧义判别结果。对于新词的处理还是目前存在的难点之一。
(4) 灾害相关推文图片与视频的处理技术仍存在难度。对于表情图片的信息提取,情感分类器是一个有效方法,通过特征抽取,构建分类器以及性能优化的步骤能达到提取图片情绪的目的。在识别推文图像内容时,可通过支持向量机方法提取信息。但是对于灾区应急管理的不同阶段拍摄的照片及视频的信息提取,如何更精确识别及提取灾情信息进行应急救援,不仅需要研究具体的图像识别及提取技术,还需要强大的数据处理能力保障,此方面的研究及灾害应急管理应用极少,尚存在技术难度。
(5) 单源社交媒体提取的应急管理信息有限,其精度往往难以达到科学管理决策的需求,如何利用文本、图片、视频以及常规观测等多源信息,研发多源社交媒体信息融合分析技术以更加全面系统地提取城市应急中的事故灾难强度、事故灾难损失和事故灾难需求等信息,仍将是未来研究的难点,也是未来的发展趋势。
4 结论
(1) 基于社交媒体数据和数据挖掘方法,可以辅助传统应急数据挖掘方式,进一步提取城市突发事件应急管理信息,弥补传统应急数据挖掘方式的局限性。
(2) 社交媒体数据挖掘针对不同类型的社交媒体采取不同的挖掘方式,针对突发事件灾害事故强度、损失、需求与用户影响力因子进行数据挖掘,辅助应急管理工作。
(3) 突发事件社交媒体数据挖掘相比传统数据获取手段具有独特的优势性,但因其研究时间尚短,仍存在应用局限性需要解决。