舆情大数据环境下突发事件主题异化预警研究
2021-10-29徐嘉豪
◆徐嘉豪
舆情大数据环境下突发事件主题异化预警研究
◆徐嘉豪
(中国人民警察大学 河北 065000)
互联网时代里信息异化现象时有发生,舆情大数据环境下有效预测突发事件主题异化,可以正确引导舆论,将突发事件控制于萌芽状态。本文以 Logistic回归为理论依据,以突发事件主题异化为对象,建立了主题异化发生的概率模型,通过对实验数据的模拟,提高预测精度,确保预测模型可行。根据理论建模和实证分析,得出科学有效的突发事件主题异化预测模型,可以为政府加强对突发事件舆情的控制以及利用提供理论依据。
网络舆情;突发事件;主题异化;logistic回归模型;异化预测
近年来,各类突发事件在我国爆发的频次不断增加,这对政府治理提出了挑战。每当突发事件发生,“三人成虎”的现象不可避免,突发事件信息在传播过程中往往出现信息异化现象,虚假负面信息在网络中蔓延,公众情绪“火上浇油”,极大增加了处置难度,甚至引起社会恐慌,如果不加以控制,很容易扩大伤害范围。研究舆情大数据环境下突发事件主题异化的机理,构建科学预测模型,为政府控制信息异化,应对和治理网络舆情,提供了理论依据。
1 舆情大数据环境下突发事件主题异化因素分析
学者刘珺曾对突发事件传播中的信息异化进行了定义:即突发事件传播中的信息异化是指,在构成特定舆论场的诸因素共同作用下,出现信息的极端和非理性传播,是一种信息传播的非常态化过程。突发事件的不确定性导致传播风险无可避免,当信息受到编造、篡改、加工,各种流言蜚语充斥舆论场,往往会出现严重的信息异化现象。本文所指的突发事件主题异化是指突发事件主题信息在产生、传播及利用的过程中,作为主体的突发事件信息制造者、信息传播者与信息客体之间关系失衡,主体的思想、行为被信息所控制支配,失去理性判断正误的现象。
一个完整的突发事件主题异化指标体系包含两个方面:必要指标和完备指标,完备指标作为衡量突发事件内容强度从侧面反映了突发事件的生长特征,一般难以量化,如突发事件主题对接收者的重要程度及接收者对突发事件主题的敏感程度等。基于网络舆情传播角度,结合众学者的研究成果,笔者建立以舆情流量、发布主体、内容要素、状态趋势、舆情受众5个维度为一级指标的突发事件主题异化预警指标体系。但是这几个一级指标都属于定性指标,因此有必要对其进行量化。本文的思路是增加二级指标,通过量化二级指标,间接量化一级指标。拐度是指舆情生命周期中拐点(主题热度发生转变的点)所处状态。时效度是一个累计指标,利用主题热度、强度、倾度等进行归一化整理,加权测算,反映特定时段舆情在其生命周期中所处的阶段水平。技术异化则通过信息超载、网络的助长性、网络技术的漏洞进行分析。具体量化值见表1。
在搜集基础数据时,以微博为例,爬虫时搜集关键词、发布日期、微博内容、转发、点赞、评论以及发布主体的基本信息。此外,相关网页的数量可以衡量关注度。舆情网站覆盖度是指包含该主题舆情信息的网站占样本网站的比重(主题舆情的站点分布);样本网站使得选取条件必须能在一定程度上代表整个网络状态和水平的网站集合。舆情地区覆盖度用主题舆情的地区分布表示,在突发舆情的监测中作用尤为突出。舆情权威度包括来源权威度(刊载媒体的权威性)、舆情署名度(舆情主题下署名信息所占比重)、发布者影响力(可设置为循环累计指标)等。
2 舆情大数据环境下突发事件主题异化预测模型
2.1 Logistic回归
突发事件主题异化预警模型是舆情大数据环境下科学评判突发事件风险的重要前提。根据突发事件信息传播的实况进行主题异化的风险等级预报。模型预报因子加入上述指标,通过Logistic回归,预警突发事件主题异化的发生概率。
Logistic回归为概率型非线性回归模型,是研究事件发生结果(Y)与其相关因素(X)之间关系的1种多变量分析方法,发生结果(1=发生),(0=不发生)。线性表达式为:
Y=log it(P)=β0+β1X1+…+βmXm(1)
运用Logistic回归应进行变量筛选,OR表示突发事件主题异化存在与不存在发生时间的优势之比,以OR值的大小判断变量X对Y的作用的大小,在数据分析过程中将作用不显著的排除在外。本文变量筛选采用向后逐步法。数据样本用5维特征向量={x1,x2,x3,x4,x5}描述舆情流量、发布主体、内容要素、状态趋势、舆情受众等属性,各属性数据的量化过程如上所述。
2.2 数据预处理
本文利用微博爬虫技术收集了重庆坠江突发事件200条微博数据,其中160条为训练集,用于建模。40条为测试集,用于验证模型。
用逐步回归法做变量筛选,数据处理在计算机软件SPSS中进行,计算分析结果见表2。
表2 用逐步回归法做参数估计
统计结果分析:影响突发事件主题异化的主要因素有舆情流量、发布主体、内容要素、状态趋势、舆情受众。其中作用大小依次为:舆情受众、发布主体、内容要素、舆情流量、状态趋势。
其中预测表达式为
Y=log it(P)=-0.8026+0.6321X1- 0.4503X2+ 0.3921X3+ 0.2586X4-0.5894X5
采用Hosmer-Lemeshow拟合优度指标对突发事件主题预警模型的适合度检验。如果模型的预测值能够与Hosmer-Lemeshow拟合优度的观测值有较高的一致性,就认为拟合较好。经计算,本文Hosmer-Lemeshow拟合优度得到的Sig值为0.920,其远大于0.05,说明该模型拟合效果很好。
3 实证研究
2017年11月22 日晚,“红黄蓝”事件在网络引起众多网民关注,成为社会公众舆论焦点。这是一起典型的突发事件,纵观整个突发事件,主题异化现象在信息传播过程中时有发生。基于此本文以此作为主题异化的实证研究。
3.1 样本选取
本文选取受网民关注且评论量较大的新闻,确保样本数据尽可能具有代表性;样本来源于微博,内容为不同发布者的声明或公告,同时跟踪同一个发布者不同时期发布的微博评论数据,以观察在事件发展过程中是否存在信息异化现象。
通过互联网信息采集技术,本文选取采集了“红黄蓝幼儿园虐童事件”相关的6条由不同角色主体发布官方微博的转发及评论数据作为研究样本如表3。
表3 “红黄蓝幼儿园”时间样本数据
3.2 样本数据处理
(1)发布时间编码
将微博发布时间作为起始时间,(转发)评论时间相对于发布时间的差值按每2天为一个时间段进行划分,按1,2,3,..进行时段编码。
(2)评论者的地区来源
微博类样本地区信息为用户在新浪微博平台上填写的所在地区,研究时对样本中评论者所在地的总数量进行编码,以此作为地区分布度的依据。
(3)关键词的处理
主要统计该主题下敏感词的数量水平。可以根据自己的需求设定若干关键词,并按其重要程度为其添加权重,主题重要度的计算可通过该舆情主题下关键词权重的累加实现。
(4)信息强度的处理
一个微博内容被浏览、回复、转载的频率反映的是信息强度的变化。0-1000量化为0,1000-20000量化为1,20000-50000量化为2,超过50000均量化为3。量化的范围不一定固定,需要综合考虑一个突发事件的整体信息强度再做权衡。
根据表1进行量化,将量化值代入公式(1),依次算出P值:
P1=0.2301 P2= 0.3221 P3=0.6035 P4= 0.3214 P5= 0.2561 P6=0.5897
综合多数预警结果,导致信息异化的关键因素之一是公众传播心理的异化。该事件相关舆情信息中负面舆情信息的占比为49.82%。事件的网络舆情热度不断上升,网民开始在网络围绕事件细节真相和政府部门处置情况进行激烈的评论,涉事人员具有背景后台、虐童细节等负面和质疑信息充斥网民的评论,夹杂着大量的愤怒、悲观情绪。而一旦人处于这样一种焦虑、担忧、恐惧的情绪之中,人们对事件的看法和行为也会丧失理性。二是政府的处置能力。“红黄蓝幼儿园虐童事件”是典型的由网民发布微博爆料引爆舆论并逐渐演变成挑战政府公信力的公共危机事件。其中,“虐童”话题本属于社会热点,广受政府、社会关注。“红黄蓝幼儿园虐童事件”涉及网民造谣情节,使得事件性质大变,愤怒、悲观、怀疑等负面情绪在网络快速蔓延。此外,网民对监管部门(北京市教委)、公安机关等政府部门对事件的处置过程提出了严重质疑,产生较大社会舆论,并对政府公信力造成严重影响。
[1]吴骏一.基于logistic回归的信用反欺诈预测模型[J].价值工程,2020,39(01):206-211.
[2]刘继,李磊.大数据背景下网络舆情智能预警机制分析[J].情报杂志,2019,38(12):92-97+183.
[3]于茜.大数据环境下的突发事件网络舆情动态监测与预警研究[J].无线互联科技,2018,15(18):29-30.
[4]文竹.大数据背景下网络舆情监测与预警模型研究[J].信息通信,2018(04):141-142.
[5]李佳. 新媒体环境下突发事件信息异化及应对研究[D].郑州大学,2018.
[6]夏一雪,兰月新,赵玉敏.大数据背景下网络舆情信息异化控制模型研究[J].现代情报,2018,38(02):3-11.
[7]丁蒙蒙. 突发事件网络舆情监测指标体系构建研究[D].电子科技大学,2015.
[8]刘可扬. 突发事件信息传播中的信息异化问题研究[D].黑龙江大学,2014.
[9]高倩,安英博,吴凤祥.基于Logistic回归的落叶松毛虫预测模型研究[J].河北农业大学学报,2011,34(06):108-110.
[10]刘珺.突发事件传播中的信息异化与化解策略[J].实事求是,2011(02):29-31.