基于情感挖掘的基础设施社会韧性评价研究
2021-03-15冒婷婷孙新红汤育春李启明
□ 冒婷婷 孙新红 汤育春 李启明
1 引 言
突发公共卫生事件是指突然发生、造成或者可能造成社会公众健康严重损害的重大传染病、群体性不明原因疾病、重大食物和职业中毒以及其他严重影响公众健康的事件[1]。2020年,面对突发公共卫生事件迅猛而至,我国立即采取了积极有效的防疫和治疫措施,如封锁交通运输、封闭式管理社区等阻止疫情更广传播,建设方舱医院、调动医疗物资等治疗患者。但复杂的防疫治疫措施带来的社会影响给城市基础设施功能带来巨大挑战:医疗设施能否接诊所有患者、物流基础设施压力剧增、必要的交通管控与民众出行矛盾,等等。面对这场大考,基础设施能否承受极端压力,兼顾“平疫”需求,从而保障人们在面对风险灾害时期的正常生活运行,基础设施与其供应社会服务的优劣直接关系特殊情形下城市运行与社会稳定。目前,基础设施分类尚未得到统一,本文研究的关键基础设施包括医疗、交通、物流、福利(红十字)及社区基础设施这五类基础设施。面对突发事件带来的不确定性和风险概率不断增加,基础设施应对危机能力和防灾减灾能力显得尤为重要,基础设施韧性概念应运而生。不同的研究人员对基础设施韧性的内涵定义不同,但普遍认同的是把基础设施韧性概念化为系统吸收灾害事件冲击和维持或恢复系统正常运作的能力。本文研究基础设施系统在遭受突发公共卫生事件时具备的维持或迅速恢复其社会服务供应功能的能力,并将这种能力定义为“基础设施社会韧性”。定量评估基础设施社会韧性,有助于量化和提升基础设施对灾害的抵御与恢复能力,维持及改善社会服务供应功能,同时增强韧性研究的科学性和完整性。
常见的定量评估基础设施韧性的方法之一是基于系统的性能曲线,系统性能大小是代表基础设施提供的社会服务功能的优劣。由于社会服务功能水平的抽象性与难以度量,目前大多研究学者采用社交媒体数据进行舆情分析,以反映基础设施社会服务优劣。但现有的舆情分析普遍采用情感分析来反映舆情的演化趋势,缺乏对情感分析准确度的校正,也极少监测公民对基础设施社会服务供应能力的情感倾向。面向突发公共卫生事件的基础设施韧性研究较少关注基础设施的社会效益,即供应社会服务的功能,且研究对象单一集中在医疗基础设施,研究方法偏定性层面。
为此,本文针对新浪微博上网民对关键基础设施社会服务供应能力的情感倾向,利用深度学习模型进行舆情分析,结合基础设施韧性的评价模型,建立了基于情感挖掘的基础设施社会韧性评价模型。最后以典型突发公共卫生事件为例,验证了本文提出的基础设施韧性评价模型的准确性;根据基础设施韧性评价结果,给出了相应的维持或改善基础设施社会服务供应功能的措施与建议。
2 理论基础
2.1 社会韧性、集体情绪与风险感知
“韧性”的概念最早出现在物理学研究中,Holling将韧性的概念引入系统生态学中,以定义生态系统稳定状态的特征,其核心内涵是系统在受到外界扰动时,维持系统稳定性能,并且能在及时恢复性能的基础上进一步提升系统性能的能力。Bruneau[2]指出韧性包含技术、组织、社会和经济四大维度,其中社会维度关注了由于地震造成的关键服务损失而遭受的负面后果。基于韧性的内涵和特点,本文研究基础设施的社会韧性,将基础设施视为系统,基础设施供应的社会服务水平视为系统性能,定义社会韧性为基础设施系统受到突发公共卫生事件干扰时,应该具备的维持或迅速恢复其提供社会服务的能力。
基础设施提供社会服务的能力难以直接获取和评价,需通过间接的方式获取。而基础设施服务的对象就是群众,群众满意与否可以表征基础设施提供社会公共服务情况。当基础设施的社会服务能力发生变化时,人们将表达自己的情绪态度,情绪被频繁、广泛地共享,累积形成群众对该事件的集体情绪,本文用集体情绪来表征基础设施的社会服务能力。集体情绪是个人在感知到具体风险后,通过情绪表达累计得到的。风险感知是个体面对特定风险时直观的态度与感受,在经历了自然灾害、恐怖袭击、公共卫生事件冲击等创伤之后,个体通过共享的信息感知到具体灾害的风险,之后开始分享意见[3]。人们感知风险并将意见和态度发表在社交媒体平台上,社交媒体平台上存储了大量的舆情信息。
综上,当个人感知到具体灾害风险时,会通过社交媒体发表相关意见,形成舆情,舆情内含的集体情绪可以有效反应基础设施提供社会服务的能力有效反应。研究表明挖掘社交媒体舆情信息评估损害程度具有可行性,受灾害影响严重的地区,社交媒体活跃程度越高,且有较高的负面集体情绪[3]。因此本文依托新浪微博研究假设:受突发公共卫生事件影响严重的基础设施预计会受到更高的微博关注度,并且把集体情绪视为个人情绪的同步收敛,基于集体情绪的舆情传播反映基础设施社会韧性的吸收—抵抗—恢复过程。
2.2 舆情与韧性生命周期理论
从突发公共卫生事件的舆情分析相关文献可以看到,学者们对社交媒体舆情传播机制和传播模型进行深入研究。本文以突发公共卫生事件为例,基于SIR(Susceptible-Infected-Recovered)模型分析了舆情传播相似性,结合生命周期理论,证实舆情传播过程符合系统韧性的涌现过程。SIR传染病模型以较为简化的数学方式模拟传播过程经历的三种状态:易感态S(处于健康状态,但能够被感染)、感染态I(已经被感染,具有传染性)及恢复态R(已经被治愈个体)[4]。社交媒体舆情分析和其传播模型有较大的相似之处,包括易感染用户(没有发布舆情但持续关注公共卫生事件)、感染用户(分布或转发相关信息)及免疫用户(对相关信息不感兴趣)。及时评估突发公共卫生事件的舆情传播和情感倾向,对舆情的传播控制具有较强的指导意义[5],本文将突发公共卫生事件对基础设施社会服务功能的影响表征为公民对基础设施社会服务功能的舆情变化。
利用生命周期经典理论,突发公共卫生事件社交媒体舆情的生命周期划分为潜伏期、爆发期、蔓延期、恢复期、稳定期五个阶段[6],且基础设施韧性包括系统对扰动的吸收、抵抗、恢复和适应四个阶段[3]。可以看出,社交媒体舆情的传播周期符合系统社会韧性的生命周期。因此,本文以公民对基础设施社会服务功能的舆情传播过程来反映基础设施韧性过程,由于目前公共卫生事件还在蔓延和扩散,系统还没完全至适应阶段,本文重点研究吸收—抵抗—恢复阶段。
3 基础设施社会韧性评价模型
3.1 研究框架
本文提出的基于情感挖掘的基础设施社会韧性评价模型含数据获取方法、情感分析方法、社会韧性评价方法等,包括了如图1所示的若干步骤,并在下文详细说明。
图1 基于情感挖掘的基础设施社会韧性评估模型
3.2 数据获取方法
在大数据时代,社交媒体平台的使用正在普及,庞大的用户群体积极地在平台上发表意见、表达情绪、共享信息,使得这些平台储存了海量的文本数据。新浪微博是全球最大的中文社交网络平台,是热点事件发生时国人获取信息、发表观点、表达情感的重要渠道。
3.2.1 数据采集
第一步:采用Python语言中的自动化测试工具Selenium爬取微博数据。数据爬取前,需制定检索词,由于本文探究突发公共卫生事件扰动下的医疗等五类基础设施的社会韧性,便以“扰动+基础设施+社会服务”来确定每类基础设施的检索词。本文中微博采集的时间区间为2019年12月31日至2020年3月8日:2019年12月31日,武汉市卫生健康委员会通过官网发布了情况通报;2020年3月8日,29个省区市确诊病例零新增。采集的范围包括含检索词的微博信息、对含检索词微博的评论信息与转发信息三部分。
由于本文的研究对象是国内基础设施的社会韧性,需要对采集的微博数据进行必要的预处理,以方便后续的内容挖掘和情绪分析工作。
3.2.2 删除国外相关微博
第二步:删除关于国外疫情微博,聚焦国内研究对象。根据国外情况,制定了外国地名词典,把包含词典内容的微博删除,将研究对象聚焦到突发卫生事件扰动下的国内基础设施。
3.2.3 中文分词
第三步:采用Python的jieba中文分词工具进行分词。中文文本中,词与词之间没有明显的界线,需要对微博文本进行分词处理。目前使用较多的中文分词工具有jieba分词、中科院NLPIR分词等。
3.2.4 过滤停用词和特殊字符
第四步:过滤停用词和噪声数据。在进行中文分词的过程中,将会重复出现对语义无关的词,即停用词,如介词、冠词之类的词语。为了有效节约储存空间和提高文本分析效率,需过滤停用词。此外,中文微博中还有一些内容对情感分析的贡献很小,本文也将该部分噪音数据予以处理,包括:第一,删除微博中的“@用户名”和“#主题#”内容;第二,删除外部链接;第三,删除特殊字符和特殊文字;第四,删除“哈哈哈”等连续重复的语料。通过上述数据清洗和过滤,最终得到规范化、可分析的有效数据,以进行后续的文本挖掘工作。
3.3 情感分析方法
传统的微博情感分析方法分为基于情感词典的方法和基于机器学习的方法,前者实现简单速度较快但精确度不高,构建情感词典难度大;后者依赖于人工特征选择和特征提取质量。近年来兴起的深度学习方法能够很好弥补上述不足,其不依赖于人工特征,能够端到端地对输入文本进行语义理解,并基于语义表示进行情感倾向的判断。本文是采用基于Bi-LSTM的深度学习情感分析系统Senta,结合监督学习方法实现微博文本的情感分类。
3.3.1 文本表示方法
第五步:利用词袋模型进行文本数学表示。本文利用采集的数据构建突发公共卫生事件下微博舆情语料库,进行预处理后文本语料还需进行数学化处理,使用数字符号表示方法作为Bi-LSTM神经网络的输入。由于输入到模型中的文本是一个矩阵向量的形式,因此要将文本数据进行向量化,每个词训练为其对应的Embedding词向量,如[w1,w2,……]形式。
3.3.2 Bi-LSTM模型提取特征
第六步:Bi-LSTM模型进行文本深度表示。传统的递归神经模型(RNN)在中文文本情感分析中无法描述序列前后的相关性,且信息不能进行持久化存储,长短记忆人工神经网络模型(LSTM)[7]通过引入输入门i、输出门o、遗忘门f和记忆单元来克服RNN模型的缺陷。遗忘门f通过sigmoid函数输出计算结果r∈[0,1],判断对上个LSTM单元输出结果ht-1情感状态的保留情况;输入门i结合遗忘门保留部分、利用sigmoid函数计算丢弃值以及结合tanh函数得到替补丢弃值候选内容来更新神经单元,微博文本产生情感的转折变化时,更新的内容也较多;输出门o通过sigmoid函数选择输出部分,结合tanh函数实现输出值ht。通过LSTM模型可以得到与句子长度相同的隐藏状态序列{h1,h2,……hn-1},如图2所示。
图2 LSTM原理图与Bi-LSTM模型示意图
LSTM可以通过记忆单元解决长距离依赖问题,但在传统的RNN和LSTM模型中,信息只能向前传播,时间t的状态仅依赖于时间t之前的信息,为了使每个时刻都包含上下文信息,本文采用双向长短期记忆神经网络模型Bi-LSTM捕获上下文信息,进行文本特征提取。Bi-LSTM模型中前向输出向量和反向输出向量的计算与单向LSTM中的输出相同,但最终输出的文本的特征向量由前向输出向量和反向输出向量合并而得。
3.3.3 标注语料库作为训练语料
第七步:标注训练语料进行监督学习,提高置信度。本研究人工标注部分已知情感极性的微博文本语料库,加入训练集中。大量的标记样本可以供深度神经网络模型进行监督训练,训练出高效的分类器后,再对新的文本进行分类,提高情感分类的置信度。
3.3.4 情感计算及情感极性判断
第八步:情感计算及情感极性判断。由Bi-LSTM模型得到微博文本深度表达后,将输出值作为分类器的输入,得到最终分类结果。本文采用Softmax分类器进行分类,Softmax归一化指数函数是将Bi-LSTM全连接层的多个输出,映射到(0,1)区间内,且保证所有元素之和为1。Softmax函数通过Python语言编程实现。
计算softmax函数值作为微博文本的情感预测最终结果,文本情感极性的判断标准是Softmax值在0~0.4区间为负面情感;0.4~0.55区间内为中性,0.55~1区间内正面情感。
3.4 基础设施社会韧性评价方法
本文使用基础设施韧性三阶段(吸收—抵抗—恢复)分析框架[8]来定量评估基础设施的社会韧性,具体包括绘制系统性能曲线图和利用公式计算基础设施社会韧性。
3.4.1 绘制系统性能曲线图
第九步:依据真实系统性能数据绘制性能函数曲线。系统性能水平可以使用不同的度量标准来衡量,本文中基础设施系统性能量化为突发公共卫生事件期间五类基础设施相关的微博文本的集体情感值,以反映基础设施提供的社会服务功能优劣。本模型是使用真实的系统性能数据分别绘制五类基础设施的性能函数曲线图,如图3所示。
图3 基础设施系统性能曲线图
3.4.2 计算5类基础设施的社会韧性
第十步:利用公式计算基础设施的社会韧性。本模型基于系统性能函数曲线图,计算受灾后性能曲线与时间轴所围合的面积与正常情况下机能曲线与时间轴围合面积的比值作为衡量韧性的标准,计算公式如下:
式中,R代表基础设施社会韧性值,P(t)是基础设施受扰动后实际性能函数,TP(t)是基础设施常态性能函数,为常数值;展开后的公式中n代表扰动的次数,A(n)代表该次扰动下系统性能与常态性能围成的实际损失的面积值。
3.4.3 利用关注度集成基础设施社会韧性
第十一步:结合关注度集成计算社会韧性值。基础设施社会韧性评价模型最后是引入比率指标K来集成各类基础设施的社会韧性值R,比率指数是反应公众对各类基础设施的关注程度,计算公式如下,其取值范围是0~1,高比率指数意味着公众对某类基础设施高度关注。
4 实证研究
4.1 数据收集与预处理
利用Python技术收集到五类关键基础设施社会韧性的相关原创微博数据量共22350条,微博评论数共259620条。为提高数据分析效率,对数据进行预处理操作,步骤包括方法论详细描述的删除国外微博、过滤停用词等。最后收集的“微博+评论”数据共278267条。
4.2 情感分析结果
情感分析是利用深度学习模型,对收集到278267条数据逐条输出情绪分值和置信度值,并通过标记样本进行监督训练,提高模型的置信度。情感分析模型的准确率达0.862,即可采纳该模型的情感分析结果。
本文以集体情绪来反映基础设施提供社会服务的能力,对微博数据按时间汇总得到每日集体情绪。考虑到每日微博数量参差不齐,本文选取当日微博及评论总量达200条及以上的当日情绪值,认为其涌现了集体情绪;依据集体情绪涌现过程性,未涌现集体情绪的当日情绪值以附近日期的集体情绪值代替。
4.3 社会韧性评价结果
本文基于微博情感分析结果与韧性评价模型,绘制了五类基础设施社会韧性的性能函数曲线图,如图4至图8所示。各类基础设施的性能曲线图中的韧性研究时间段与具体扰动事件,社会韧性值的计算如表1所示。
图4 红十字基础设施系统性能曲线图
图5 交通基础设施系统性能曲线图
图6 物流基础设施系统性能曲线图
图7 社区基础设施系统性能曲线图
图8 医院基础设施系统性能曲线图
表1 各类基础设施性能曲线研究时间段与扰动事件
综上,集成各类基础设施的社会韧性值R=∑Ri*Ki=0.744。
5 结语
以突发公共卫生事件为例,基于情感挖掘的基础设施社会韧性评价结果表明在应对突发事件时,基础设施社会韧性处于相对较高的水平,其可以较快适应扰动事件,并采取措施恢复性能,正常提供基础设施社会服务。交通基础设施受突发公共卫生事件影响相对较小,影响中等的医院设施,社区设施采取了快速的恢复措施,包括医院基础设施在无法满足接诊容量时,参照抗击非典时“北京小汤山医院”模式快速建成火神山、雷神山等特殊性质的应急医院,集中收治患者;社区设施集中力量,结合大数据有效实现不同阶段的突发公共卫生事件防控。而相对影响较大的红十字设施、物流设施在此期间持续恢复社会服务功能,红十字福利设施问题一经爆发,纪检监察机关严肃追责问责,强化监督以及红十字总会亲自指导工作,恢复红十字社会物资管理的社会服务功能;物流设施因交通管制、突发公共卫生事件防控等要求受影响时间较长,但通过无接触配送等先进科技手段逐渐恢复运输快递的服务功能。
基础设施抵抗突发公共卫生事件扰动的全过程中,仍然存在提升空间来优化基础设施韧性。例如,通过合理安排城乡客运交通弹性运行与丰富交通运输应急管理手段来提升交通基础设施和物流基础设施韧性能力;投入必要的资源来建设韧性社区,使得社区面对突发事件时具备维持基本运营的能力;从城市规模、传染病暴发概率等多方面综合考虑,将传染病医院设施作为城市应急系统不可或缺的一项内容进行独立建设,使医院基础设施具备抵抗重大灾害的韧性能力。
以上是本文的初步研究成果,研究基础设施经受自然灾害、恐怖袭击、突发公共卫生事件等扰动事件后的韧性能力,有助于我们审视我国基础设施在面对不同类型扰动时系统功能的不足,从而不断完善基础设施性能,实现建成适应力高、恢复力强的具有“韧性”的城市基础设施的目标。至此,基础设施韧性问题后续有待于进一步深入分析与探究。