基于网络舆情敏感信息的突发事件情景分析
2021-06-07陈祖琴蒋勋葛继科
陈祖琴 蒋勋 葛继科
关键词:网络舆情;特征信息:敏感信息:突发事件:情景分析
1研究背景
常规认识中,网络舆情是对突发事件情景的反映,应该先有突发事件情景发生,再产生相对应的舆情,然而实际上因为种种原因.突发事件情景很可能并不会被迅速、及时地意识到。随着自媒体等新媒体渠道的发展,在突发事件情景被人们确知或重视以前,各种网络舆情往往已经预先突显。比如新型冠状病毒(COVID-19)疫情中,网络舆情的爆发时间相比正式重视疫情的时间具有明显优势.如果在舆情爆发之初就引起足够重视,事件结果应该会具有很大的不同。因此,对网络舆情进行研究,尤其通过网络舆情敏感信息,发现可能已存在而未被确认或重视的突发事件情景,从而及时采取相应的措施,有助于提升突发事件的响应速度,提前进行突发事件情景的应对,减小突发事件造成的损失。
2相关研究
“情景一应对”应急决策模式是应急管理学界近年来的研究热点。“情景一应对”决策范式是决策主体对已经拥有的数据、信息、知识的经验提取与综合集成.再根据当前突发事件具体的“情景”.利用经验信息去判断会出现什么样的事件“态势”、出现这些“态势”的可能性以及这些“态势”造成的危害程度等,并据此生成应对方案的一种决策方法。以“情景一应对”为指导思想的应急决策是突发事件应急响应情报体系建设的主流趋势。近年来,人工智能技术特别是深度学习的发展,为“情景-应对”应急决策模式提供了新的理论和技术支撑。杨志等对基于“情景一应对”的突发网络舆论事件演化博弈进行了分析。Xie T等基于“情景一应对”和离散事件系统理论,提出了一种公共安全事件应急决策生成方法。Qian J等研究了多维情景空间方法在地震灾害应急响应突发事件应急决策生成机理中的应用。Ergu D等研究了“情景一应对”模式下利用对数平均诱导模型来评估自然灾害突发事件应急方案和演化趋势。YangF等研究了应急响应中将自然语言描述的文本转换成虚拟情景的方法。基于隋景进行突发事件应对,前提是有效地明确了目标情景,然而由于种种原因.突发事件情景往往并不能被迅速有效地明确。
网络舆情是公众以网络平台为载体,围绕已经发生或即将发生的舆情事件发布的意见、观点、情感和态度的信息集合。随着新媒体的流行,网络舆情往往先于关联的突发事件情景本身被人们所认识,故此利用舆情监测来分析目标突发事件情景具有可行性,这为突发事件情景明确提供了一种可供参考的途径。传统的舆情监测系统多采用“被动出击”的方式发掘网络舆情,难以对舆情变化做出迅速响应,为了提高舆情监测的效率以及准确性,部分学者提出利用敏感信息抓取进行网络舆情监测。现有关于网络舆情的研究,多将网络舆情爆发本身作为独立的突發事件情景进行探讨,大量成果集中在对舆情演化规律和网络舆情事件的处置措施等方面。如部分学者通过大量调研和分析,探讨了影响舆情热度和传播的关键因素,并进一步探讨了如何对舆情事件进行应急响应。另一部分成果集中在对具体的舆情案例进行实证分析,从而通过舆情研究关注潜藏的社会问题。此外,大量学者对舆情的演化进行了研究,如胡珑瑛对网络舆情演进过程参与主体策略行为进行了研究,兰月新等利用不同的建模理论构建了网络舆情的演化模型,以期从不同的视角展现舆情传播特点和规律:夏立新等对基于事件链的网络舆情事件的演化进行了研究,实现了网络舆情的关键情景推演:王超对网络舆情演化的结构特征进行了分析,丰富了网络舆情传播规律的共性认识;Gao G等在系统动力学基础上,提出一种舆情演化的综合因果关系模型:黄微等提出和构建了网络舆情衍进指数,对网络舆情演化过程中衍生出新的子话题的现象进行了研究。
这些研究成果表明.通过敏感信息抓取能提高舆情监测的效率.影响网络舆情演化和传播的关键因素是可以挖掘的,同时网络舆情演化和传播也是具有一定规律可循的。在上述研究的基础上,本文首先基于统计和分类的方法提取突发事件情景对应的网络舆情文本的特征信息.主要是文本中高频出现的、反映突发事件各个维度特征的词汇;其次,通过舆情特征信息提炼每个情景类关联的舆情敏感信息,主要是对舆情关联的突发事件情景类别确定具有决定作用的词汇;最后,通过舆情敏感信息和情景之间的映射关系,根据网络舆情的演化规律合理进行目标区域突发事件情景画像,从而完成目标区域的突发事件情景分析。
3网络舆情的特征信息提取
以某一突发事件演化过程为主线爬取其对应的较为详尽的网络舆情信息,并通过预处理进行分词等操作,再经过实体抽取、舆情特征信息词抽取、情景关联,完成舆情特征信息的提取。舆情特征信息提取过程如图1所示。
3.1买体抽取
舆情信息包括真实信息与虚假信息两类,真实信息可以辅助明确真实存在的突发事件情景,而虚假信息则可能导致误判或者过度响应。利用舆情特征信息进行目标区域情景分析的前提,是对舆情信息的真伪进行判断,在此基础上再进行舆情重要程度的判断。进行实体抽取的主要目的是对鉴别舆情真伪、判别突发事件重要程度起决定作用的因素进行抽取。因此,主要考虑信息传播的三大要素,即信源、信道和信宿3个方面分别进行抽取。信源和信宿是舆情的施为者和关注者.属于舆情的内部实体;信道是舆情的传播渠道,属于舆情的外部实体。
3.1.1内部实体抽取
1)舆情发布者抽取,即判断舆情事件的信源。从舆情信息的来源进行舆情真伪和重要程度的鉴别,是确定舆情信息真实性和权威性最有效的途径之一。针对某类事件,若是专业人士首先发出相应言论.舆情的真实性相对比较高,则需要高度关注。如与疫情相关的舆情信息,若是医护群体首先发声,则需要高度重视。反之,若是某网络写手最先发布一条疫情信息,其真实性和可信度相对较低,需要更加严谨地求证后再进行处理。
2)舆情关注群体抽取,即判断舆情事件的信宿。从舆情关注群体进行舆情真伪和重要程度的鉴别,也是确定舆情信息真实性和权威性的有效途径。利用用户画像技术,识别舆情信息的关注群体,通过鉴别,若舆情的关注群体整体是较为理性、客观的用户,比如具有较高的知识水平的职业等,则舆情的真实性可能会比较高.需要比较高度地关注,反之则需要进一步确认后处理。
3.1.2外部实体抽取
对舆情的真伪和重要程度具有影响的外部实体,主要考虑舆情的传播渠道,即舆情传播的信道。从舆情传播渠道进行舆情真伪和重要程度的鉴别,是确定舆情信息真实性和权威性的另一途径。若是在较为主流或权威的媒体或者平台进行首发声.并在较为主流或权威的媒体或者平台进行传播的舆情,其真实性比较高,则需要高度关注,反之则需要持一定的怀疑态度去求证。
3.2舆情特征信息词抽取
利用实体抽取结果,筛选去除虚假舆情信息,对剩下的相对可靠的舆情信息进行特征信息词抽取。由于本研究主要是为了了解网络舆情与具体突发事件的关联,抽取的舆情特征信息词主要是与突发事件相关的信息。每一突发事件案例总是属于特定的事件分类,具有特定的危害等级,遵循特定的演化规律,在不同的时间段处于事件的不同发展阶段。因此,突发事件的描述主要从分类、分级、分期3个维度来刻画,舆情特征词提取也主要从这3个方面进行筛选。特征词的提取同时基于统计和分类的方法进行,从分词后的大量词汇中抽取出高频特征词并进行规范化处理,在此基础上对特征词按照事件描述属性进行分类,并将特征词与对应的突发事件情景进行关联。
3.2.1特征词规范化处理
在舆情信息中,不同的词汇表达的意思可能是相同的,比如“传染性肺炎”“不明原因肺炎”等在COVID-19疫情中,其实是前期网民对此次疫情的不同称呼,甚至官方发布的声明中也由2019-nCoV转变为COVID-19。同时,网民在进行讨论时也会涉及突发事件中心词汇的上位词或者下位词。为了不遗漏与突发事件相关的舆情信息,需要对表达同一内容的不同词汇进行规范化处理,便于识别出同一内容的不同表达方式。
通过构建舆情特征信息词表.对舆情特征词进行规范化处理。在词表中为每个特征词设置“同义词”“上位词”“下位词”字段,将与其具有同义关系和上下位关系的所有词汇统一关联到规范的特征词下,后续进行舆情特征信息描述时统一采用规范化的特征词。同时,根据舆情特征信息词表中词汇之间上下位、同位类的关系,可以计算突发事件之间的相关性.对新出现的突发事件可借用相关度高的突发事件的处置方式进行快速响应。此外,选取规范特征词时,应兼顾民众表达特性,以贴近民众用词习惯为目的,尽量选取使用范围较广、接受度较高的词.并不要求一定是学术性最强的表达。
例如.词条“COVID-19”作为新出现的突发事件类型,在舆情特征信息词表中,其同义词集合包括2019-nCoV、不明原因肺炎、新冠肺炎、新型冠状病毒肺炎……,其上位词为{病毒性肺炎},其下位词集合为{COVID-19疫苗、COVID-19变异……}。由于“COVID-19”与“非典”同为“病毒性肺炎”的下位词.相关度较高,因此在初始应对“COVID-19”疫情时首先可以借鉴“非典”的应对经验。
3.2.2特征词分类
对应突发事件情景的3个描述维度,舆情特征信息词可分为情景类别舆情特征信息词、情景分级舆情特征信息词和情景分期舆情特征信息词。对大量网络舆情文本进行人工标注,再以人工标注结果为训练集,通过机器学习进一步对更多的文本进行处理,实现舆情特征信息词的自动分类。
1)情景类别舆情特征信息词:代表舆论对事件类别认知的词语.比如“肺炎”“流感”“病毒”等,是反映事件类型的特征信息。
2)情景分级舆情特征信息词:代表舆论对事件严重程度认知的形容词.如“非常严重”“不可控”“传染”“人传人”等,是反映事件严重程度的特征信息。
3)情景分期舆情特征信息词:代表舆论对事件发展周期认知的词语.如“出现”“蔓延”“扩散”等,是反映事件发展周期的特征信息。
3.3情景关联
通过情景划分方法.能够将突发事件发展过程中情景的分类、分级、分期属性不同的节点,划分为更细粒度的突发事件子情景,并通过时间序列将子情景进行连接,描述完整的事件链。根据网络舆情演化的时间流,确定舆情特征信息词高频出现的时间,对照相应时间节点内的突发事件情景,完成“舆情特征信息词一突发事件情景”的关联。情景关联的表示方法如下:
针对某一舆情事件.存在舆情特征信息词集合P=舆情特征信息词P,、……、舆情特征信息词该舆情事件反映的突发事件情景可以划分为子情景集合。
4舆情敏感信息提取
对不同突发事件中提取的相似度大于设定阈值的子情景进行合并,用情景类进行统一描述,再通过舆情特征信息词与情景类包含的子情景的映射关系叠加,确定舆情特征信息词与对应情景类的关联强度,从而提取强关联的特征信息词作为情景类的舆情敏感信息。
4.1舆情敏感信息詞识别
利用大量网络舆情事件提取全部舆情特征信息词,同时划分这些舆情事件对应的突发事件情景.并合并同类子情景,得到全部的突发事件情景类。根据特征信息词与情景之间的对应关系,生成“舆情特征信息词一突发事件情景类”矩阵。“舆情特征信息词一突发事件情景类”矩阵示例,如表1所示。……、,则舆情敏感信息与情景类S的映射关系可以用朴素贝叶斯分类器进行计算。
样本集可以根据舆情敏感信息在“舆情特征信息词一突发事件情景类”矩阵中所属的情景类进行标注。计算每个类别在样本中的出现频率,以及每种舆情敏感信息组合对每个情景类的条件概率,最终可以得出待分类舆情敏感信息对应的情景类。
5基于舆情敏感信息的突发事件情景分析
基于舆情敏感信息的目标区域突发事件情景分析过程,如图2所示。
首先.提炼当前网络舆情中的可信舆情敏感信息,结合网络舆情演化规律,预测可能的后续舆情状态,从而利用舆情敏感信息与情景的映射函数,根据当前和后续的舆情敏感信息,得到当前情景与可能的后续情景;然后,综合考虑情景特征属性及其演化进行目标区域隋景画像,最终明确目标情景。
其中,目标区域情景画像是突发事件情景分析的关键,其过程如图3所示。
根据舆情敏感信息确定当前情景,再基于系统动力学模型,确定后续舆情状态.从而得到后续舆情敏感信息。建立当前舆情敏感信息{E,E,…,E}-后续舆情敏感信息{D,D,…,D}的关系,构造当前舆情敏感信息发展要素E和后续舆情敏感信息D之间的损失函数L(E,D),再应用基于帕累托法则的多目标优化方法,求解最小损失函数:min(L(E,D)),从而确定最可能的后续舆情敏感信息,确定后续情景。
根据当前舆情状态对应的当前情景,确定其对应的分类、分级、分期属性,结合可能的后续情景对应的分类、分级、分期属性,得到其分类、分级、分期属性可能的演化路径,综合确定各个维度最可能的目标值,从而综合确定目标情景。
根据情景属性在后续情景中出现的综合概率,分别选取分类、分级、分期属性中综合概率较高的项,作为目标情景中的属性值,从而完成目标情景画像,得到目标情景。
6基于COVID-2019疫情的算例分析
2020年初暴发的新型冠状病毒肺炎疫情,其实在2019年底就初露端倪.忽略舆论小规模的私下流传不易捕捉和验证的时间,第一次较大规模的舆情暴发点是2019年12月30日。李文亮医生于2019年12月30日率先在微信群披露不明肺炎有关情况,被截图转发引发舆论关注。
6.1舆情敏感信息提取
首先,进行实体抽取,判断舆情的可信度。该网络舆情的事件发布者是李文亮医生,其言论从专业的角度来看是具有一定可信度的。事件的接受者最开始也是医生,说明关注群体也是对事件认知比较明确的。事件的传播渠道是微信,是目前应用比较广泛的一种社交媒体。从实体抽取结果看,该网络舆情信息的可信度是比较高的,应该高度关注。
其次,进行舆情敏感信息提取。从该舆情信息中可以捕捉到舆情敏感信息“不明原因肺炎”“SARS”“冠状病毒”“确诊7例”“正在进行病毒分型”等。此时该事件的病毒类型还没有明确,但可以通过上位词“病毒性肺炎”对该事件进行初步归类,找到相似事件SARS、MERS等重大公共卫生事件。因此,需要对舆情信息引起重视,进行进一步的分析。
6.2目标情景画像
根据舆情敏感信息中与事件类别有关的词“不明原因肺炎”“SARS”“冠状病毒”等,判断相关事件分类为公共卫生事件,且疑似非典;根据与事件级别有关的敏感信息词“确诊”,依据《国家特别重大、重大突发公共事件分级标准(试行)》,发生传染性非典型肺炎疑似病例属于重大公共卫生事件,该事件级别可以定义为二级;根据与事件分期有关的敏感信息“确诊7例”,判断事件处于预警期。进一步进行舆情演化分析,一种可能是事件与非典类特别严重的传染病无关,则事件类别改变,舆情会相应消退,事件发展周期也进入缓解期;而另一种可能则是舆情影响范围进一步扩散,可能是对应事件的升级.证实发生传染性非典型肺炎或与之危害程度相当的其他传染病,疫情有扩散趋势,这样事件就会上升到特别重大公共卫生事件,即公共卫生事件一级,且事件发展周期进入暴发期。据此,按照预先应对减少损失的原则,需要对事件按照公共卫生事件二级响应进行预应对,并随时做好向一级升级的准备。之后的工作就是进一步求证,最终根据事件发展结果进行相应的应对。
6.3效果分析
在情景画像以后可以发现.该舆情对应的突发事件情景和我国曾经暴发的SARS相似。因此,可以参照其应急处置措施.启动相应的应急预案进行应对。按照此分析,COVID-19疫情的有效防控措施应该在2019年1月初启动。鐘南山院士在2月27日广州市政府新闻办举行的疫情防控专场新闻通气会上说,“假如我们在12月初,甚至是1月初能够采取严格防控措施的话,我们的病人将会大幅减少”。
新型冠状病毒肺炎疫情算例分析显示,如果重视网络舆情对突发事件情景的反映.根据舆情敏感信息快速确定目标情景,并采取相应的应对措施,能够对突发事件的应急响应产生积极的作用。
7结束语
利用当前网络舆情可能先于突发事件情景被迅速、及时地关注的特性.本文进行了基于舆情敏感信息的目标突发事件情景画像研究,从而分析目标区域的可能情景。通过对舆情敏感信息进行提炼并辨别真伪,发现已存在而未被明确的突发事件情景.有利于对突发事件做出正确的判断,加快突发事件的响应速度,减小突发事件的损失。本文主要是从理论的角度进行研究.方法的实用性还有待进一步的检验,这将是下一步的主要工作。