基于贝叶斯网络的网络舆情案例匹配模型
2019-11-07杨静朱莉萨朱镇远
杨静 朱莉萨 朱镇远
摘 要:[目的]通过研究当下网络环境的具体情境,利用概率分析的方式判断具体舆情所属的案例类型,从而为网络舆情危机响应决策提供依据。[方法]使用贝叶斯网络模型作为分析方法,构建网络舆情案例匹配的指标体系和案例匹配模型。[结果]通过48个网络舆情危机中的随机43个事件作为训练数据,构建贝叶斯网络模型,使用剩余5个网络舆情危机事件作为测试组,经检验测试样本案例匹配结果与事实相符。[结论]本文通过构建网络舆情案例匹配的相关指标体系和贝叶斯网络模型,为对网络舆情进行分型,从而为舆情危机响应提供了决策依据。
关键词:网络舆情;贝叶斯网络;案例匹配;模型
Abstract:[Purpose/Significance]According to the concurrent Internet circumstance,the paper proposed a method to classify certain internet public sentiment instance based on probability analysis.Therefore it provided knowledge which was need for decision making in Internet public sentiment crisis-response.[Method/Process]Using belief network,it constructed the Internet public sentiment index system and Internet public sentiment case matching model.[Result/Conclusion]Using 43 out of 48 Internet public sentiment crises as training data,trained the belief network.The remaining 5 crises were then used as test set.All 5 crises were labeled correct according to the belief network.[Conclusion]The Internet public sentiment index system and belief network could classify Internet public sentiment crisis correctly,therefore providing solid basis for decision making in public sentiment crisis-response.
Key words:Internet public sentiment;belief network;case matching;model
互联网使得信息的采集、传播、规模达到了空前的水平,全球的信息共享交互使得思想与意识形态的交汇碰撞更为频繁,网络空间中信息获取和发布的低门槛也对舆论的监管与响应提出了新的挑战。根据近期结束的中央党校开班演讲中习近平总书记提出的重要指导思想,“巩固壮大主流舆论强势”“加大舆论引导力度”“加快建设网络综合治理体系”“推动依法治网”是我国现阶段针对政治、意识形态领域所必须持续落实和贯彻的几项重要措施。而在对网络舆论的具体引导和响应过程中,针对具体舆情,各级舆情监管部门应当如何通过其外在表征,推断其与历史舆情案例的相似度,从而有针对性、有目的性地展开实时监控响应,寻找与其相匹配的应对机制,是现阶段网络舆情研究的一大重要课题。
目前,针对具体网络舆情响应策略的研究多以案例分析为主,通过对某一具体舆情事件中监管部门的应对策略的分析,讨论针对具体舆情事件的正确响应策略。考虑到单一案例分析并不能满足舆情响应策略的共性需求,近年来,国内学者开始聚焦于网络舆情响应策略的定量分析,并取得了相应的成果。运用平均场方法,王治莹等给出了系统的微分方程组模型。通过研究模型的平衡点和稳定性,得到了政府所应选择的管控方向[1]。通过对网络舆情时间关键指标数据的仿真学习,张一文等通过建立网络舆情态势评估模型,对网络舆情态势进行了评估和预测[2]。基于2003年以来110起地方政府重大舆情危机的比对,刘锐的研究对影响我国地方政府重大舆情危机应对效果的关键因素进行了研究[3]。通过梳理2001-2016年之间发生的136个典型的涉官网络舆情案例,原光等提出8个可能造成政府回应速度差异的因素并进行实证检验[4]。徐建以網络舆情危机案例库为基础,构建包括知识表示、案例检索、推理模型等方面的网络舆情危机预警的案例推理模型[5]。李北伟等分析网络意识形态的内涵与特征,从意识形态的角度深入探讨网络舆情危机的形成因素,在此基础上提出网络舆情危机应对的素养提升机制、危机监管机制、舆情引导机制、媒体融合机制以及技术创新机制[6]。王高飞等构建了移动社交网络舆情演化的动力学模型,并结合案例对模型进行仿真分析,以探索出有效的舆情应对策略[7]。现有研究中虽然对网络舆情事件的响应策略和舆情事件分型做出了定量研究,然而在构建影响管控策略的指标体系,对舆情事件进行案例匹配这一方面的研究尚存空白。
本文针对新时代下对网络舆情响应的新要求,将贝叶斯网络理论和网络舆情案例匹配相结合,基于贝叶斯网络的不定性因果关联、不确定性问题处理能力、多源信息表达融合能力,提出了基于贝叶斯网络建模的网络舆情案例匹配模型。在通过对历史网络舆情案例的学习基础之上,训练而得网络舆情要素和各节点变量之间的条件概率。从而实现针对新的网络舆情事件进行案例分型,快速匹配应对策略,为网络舆情的危机响应提供决策依据。
1 网络舆情案例匹配贝叶斯网络结构构建
在使用贝叶斯网络作为底层数理模型的研究中,贝叶斯网络的结构是其研究的核心内容。而针对贝叶斯网络结构的构建,必须首先确定包含层级、各节点内容,网络节点间的关联关系并最终绘制表示节点关联关系的有向无环图[8]。以往的研究中,对于网络舆情信息的传播要素及运行机理已经进行了较为详尽的讨论[9-10]。本文研究过程中,将结合前人研究中的节点选择和网络结构,通过对训练数据的学习和现有舆情分型理论相结合,针对变量间的因果关系进行测度,从而最终构建网络舆情案例匹配的贝叶斯网络结构。
1.1 网络舆情案例匹配贝叶斯节点选取
网络舆情案例匹配的具体评价要素与舆情本身的传播要素关系密切,因此,在网络舆情案例匹配的贝叶斯节点选取中,本文以舆情的传播要素作为基础,构建了以网络舆情客体属性、网络舆情媒体传播、网络舆情主体结构3个变量为准则层的贝叶斯网络节点结构,如图1所示。
1)网络舆情案例客体属性
网络舆情案例的客体是引发网络舆情的刺激物,网络舆情的指向物,具体而言即是网络舆情所包含的事件本身。在大数据环境下,网络舆情客体主要有新闻事件、热点现象、公共话题3类[9]。在确定网络舆情客体对于网络舆情案例所匹配的等级的影响时,主要考虑网络舆情客体的属性,具体而言则包括网络舆情事件的级别、网络舆情事件的时间跨度以及网络舆情事件本身性质3点。舆情事件的级别在这里专指舆情事件空间上的覆盖度,一般而言空间覆盖度越广泛的舆情事件,其所匹配到的案例等级越高。舆情的时间跨度决定了其在时间上的覆盖度,时间跨度越长的舆情事件,其前后所关联到的舆情主体就越广泛,整体事件等级也越高。事件的性质决定了其在舆情空间中的讨论热度和主体的关注程度,事件性质越严重的舆情事件,其所最终匹配到的事件等级也越高。
2)网络舆情案例媒体传播
网络舆情的媒体,即是传播的渠道、手段,是从传播者到接受者之间的各种传播方式的总称。在大数据环境中,涉及媒体对于具体网络舆情案例匹配等级的影响,主要考虑媒体的总体传播效力,具体而言则包括了网络舆情信息传播量和网络舆情信息传播广度两点。舆情信息的传播量指网络空间中所有该舆情相关的原创信息、转发、点赞及评论信息之和,总体而言,传播信息量越大,同时在舆情持续期间内单位时间信息量越大,代表舆情事件所受关注度越高,舆情事件所最终匹配到的等级也越高。舆情的传播广度在此主要指舆情在多种媒体平台,尤其是传统媒体和官方自媒体中所受到的关注度,其跨平台的关注度越高,代表舆情事件被媒体的关注度更高,最终匹配到的事件等级也越高。
3)网络舆情案例主体結构
网络舆情的主体,是指能够在网络空间中表达自身情绪、态度、意见等言论的主体。根据其身份性质,可将其分为普通网民、意见领袖和监控主体3类。在考虑网络舆情主题对于其最终案例匹配的影响时,主要考虑的是主题内部结构的复杂程度对于舆情事件的影响,具体而言则可分为舆情主体的观点极化程度、舆情主体本身的情感倾向和监控主体的响应3个方面。主体观点的极化,指的是舆情主体内部所持观点数量的多少,以及多个观点中主流观点的占比的高低程度,舆情主体所持的观点数量越多,主流观点的占比越少,则说明舆情主体内部观点分化严重,难以达成统一观点,其产生舆情危机的可能性也越高,舆情事件所匹配到的等级也相应提高。主体观点情感倾向则指总体而言舆情主体的情感是偏向于正向或负向,舆情主体的情感越偏向于负面情感,则说明舆情主体对于舆情事件本身或相关舆情责任主体抱有更偏激、非理性的情绪,其酝酿舆情危机的可能性也越高,从而舆情事件匹配到更高的舆情案例等级。监控主体响应指舆情监控主体对于舆情事件是否存在响应行为以及响应的速率,舆情事件如果能够得到及时的响应,其最终产生的后续影响则更小,匹配到的舆情案例等级则越低。
1.2 网络舆情案例匹配贝叶斯网络构建
通过上述对于网络舆情案例匹配贝叶斯网络节点分析,以前后因果关系作为依据,构建贝叶斯网络结构如图2所示。
网络舆情案例匹配贝叶斯网络结构是一个有向无环的概率图[11],其中玩过网络舆情案例匹配等级是顶层父节点,其非空概率事件集包括E1、E2、E3,皆为其子节点。节点E1客体属性的非空概率事件集包括子节点I1、I2、I3,节点E2媒体传播的非空概率事件集包括子节点I1、I2、I3,节点E2客体属性的非空概率事件集包括子节点I4、I5,节点E3客体属性的非空概率事件集包括子节点I6、I7、I8。
在参考了以往网络舆情案例匹配指标的基础上,构建了如表1所示的指标体系:
各二级指标具体含义如下所示:
1)事件级别:该二级指标数据来源于专家评价。根据专家阅读舆情分析报告后的判别,将某一特定舆情事件标注为地方性舆情事件、省级别舆情事件或国家级别舆情事件。针对同一事件,不同专家所得出的定性可能存在不同,按照该事件专家意见比例将其可能性分为“低”“中”“高”3类,其对应阈分别为[0,0.33]、[0.33,0.66]、[0.66,1]。
2)事件时间跨度:该二级指标来源于数据统计。舆情事件跨度指的是舆情从爆发期至进入消散期的时间间隔,这一部分的数据处理采用和S1、S2、S3这3项三级指标同样的处理方法,以专家意见比例将其分为低中高3类。
3)事件性质:该二级指标的前4项三级指标同样来源于专家评价,最后一项事件伤亡人数来源于数据统计。不同于事件级别这一二级指标,当同一舆情事件中不同专家给出不同定性时,采取专家意见最为集中的一项作为事件性质定性,记为“是”,其余3类事件类型均记为“否”。针对伤亡人数,在20人以上的记为“大量”,5~20人记为“中”,5人以下记为“低”。
4)传播信息量:该二级指标前3项来源于数据统计,而第4项中“单位时间内信息量”为总体舆情信息量除以事件时间跨度。每日舆情信息量超过3 000条以上记为“高”,1 000~3 000条记为“中”,1 000条以下记为“低”。事件转发总数和事件评论总数的高低则由专家打分得出。
5)传播广度:该指标下前两个三级指标来源于数据统计,针对全国范围内的传统媒体和官方自媒体(如地方及以上级别电视台、紫光阁、共青团微博等),对该舆情事件有所报道的则记为“是”,反之记为“否”。
6)主体观点极化:该二级指标数据来源于数据统计,总体观点数超过6个以上的记为“多”,3~6的记为“中”,3个以下的记为“少”。而总体观点中,数量最多的前两类被视为该舆情时间中舆情信息的主流观点,主流观点占比超过70%的记为“高”,40%~70%记为“中”,40%以下记为“低”。
7)主体观点情感:观点情感指标数据来源于数据统计,无论正面或负面情感,总体舆情信息量超过总量60%以上的记为“高”,40%~60%的记为“中”,40%以下记为“低”。
8)监控主体响应:不同于S19官方自媒体的报道,监控主体主要针对的是舆情事件发生所在地的相关责任机构是否有对该事件在社交媒体中予以正面回应。有所回应的记为“是”,反之则记为“否”。舆情监控响应速率,则根据首次正面回应发生在舆情事件发生后多久来决定。8小时以内的记为“迅速”,8~24小时以内的记为“中等”,24小时以上的记为“缓慢”。
同时,将舆情案例根据所需引导管控的程度,分为以下4种类型,针对后续贝叶斯网络训练时的舆情案例等级,也采用专家评分的方式进行:
1)强制干预类舆情,该类舆情危害极大,舆情监控主体必须进行强制管控才能解决舆情事件的类型。此类案例的管控方式与结果在舆情案例库中具有极高的参考价值。
2)软控制类舆情,该类舆情危害适中,但需要政府采取正面发声进行引导,结合多种手段对事件进行干预,才能够解决舆情事件的类型。该类舆情案例的管控方式与管控结果在舆情案例库中具有较高的参考价值。
3)媒体干预类舆情,该类型舆情危害较弱,不需要政府对其直接发声进行引导,但是需要多种媒体提供辅助性干预,并适当选择意见领袖对舆情事件进行正确引导。该类舆情案例的管控方式与管控结果在舆情案例库中具有一定的参考价值。
4)无需干预类舆情,该类舆情不需要进行监控主体对其进行干预。该类舆情的具体信息和管控方式在舆情案例库中的参考价值较低。
2 网络舆情案例匹配模型实证
2.1 数据采集
针对先验概率的训练,是网络舆情案例匹配贝叶斯网络模型的基础。本文采用Netica软件对贝叶斯网络进行训练,通过针对现有舆情案例的相关数据进行学习,获得贝叶斯网络的各节点的条件概率。样本数据集和测试数据则通过以下两种方式进行采集:1)八爪鱼网络爬虫软件和人工采集,从微博、微信公众号、今日头条和部分新闻网站上对舆情事件进行采集;2)专业舆情分析网站“蚁坊软件”上的舆情事件报告。最终共采集到48起舆情事件。其中43起舆情事件作为训练数据对贝叶斯网络进行训练,并将“沈阳医院骗保事件”“重庆公交车坠江事故”“北大医院医生被打事件”“范冰冰逃税门事件”“浙江温州未成年人女德班”这5起舆情事件作为测试集进行模型验证。
同时,为了对贝叶斯网络节点中需要专家评测的数据进行采集,本研究邀请了9位对网络舆情响应和贝叶斯网络理论十分熟悉的专家构成了专家组,通过小组讨论的方式进行了专项问卷调查。专家组亦负责对网络训练结果的测评和优化。
2.2 数据处理与分析
在Netica中构建了网络舆情案例匹配的贝叶斯网络结构,将手工采集、网络爬虫、专家打分的训练集数据作为边缘概率集录入软件中,网络舆情案例匹配模型的边缘概率表如表2所示。使用Netica软件学习边缘概率后,得到条件概率集,其最终训练出的贝叶斯网络结果如图3、图4所示。
网络舆情案例的复杂关联度通过贝叶斯网络的条件概率集得以凸显,由于各层级、各节点之間处于动态关联,当出现新的训练数据时,可以根据概率进行重新学习计算。
2.3 模型验证
训练完成后的贝叶斯网络,以“沈阳医院骗保事件”“重庆公交车坠江事故”“北大医院医生被打事件”“范冰冰逃税门事件”“浙江温州未成年人女德班”这5起舆情事件作为测试集进行模型验证。以沈阳医院骗保事件为例,其具体各项边
缘概率如下所述:1)事件级别:9位专家中的7位将该事件定义为地方性事件,2位将其定义为省级别舆情事件,因此对应的S1~S3项边缘概率为高、低、低。2)事件时间跨度:该事件自2018年11月14日起爆发舆情,至11月21日国家医疗保障局召开打击欺诈片区医疗保障基金专项行动发布
图4 网络舆情案例匹配贝叶斯网络节点E1的条件概率表
会,公布了专项行动举报电话,舆情随之平息。根据专家评分法,9名专家中的9人将其认定为短期舆情事件,因此S4~S6边缘概率分别为高、低、低。3)事件性质:9名专家中的9人将其认定为公共卫生类舆情事件,且该事件中并未出现人员伤亡,因此S7~S11边缘概率分别为否、否、是、否、低。4)信息传播量:根据蚁坊软件提供的舆情报告,该事件舆情信息量达到十万级别,每日舆情信息量为3 000条以上,与之相关的事件评论转发综述根据专家评分记为高和中。因此S12~S17的边缘概率分别为否、是、否、高、高、中。5)针对该舆情事件,各地方电视台和官方自媒体均有所报道,因此S18~S19的边缘概率为是、是。6)该舆情事件中,网民共形成6类主要观点,其中最主要的前两项观点分别为“对骗保行为表示愤怒”和“反应其他地区骗保现象”,分别占比35%和22%,因此观点总数记为“中”,主流观点占比记为“中”。7)该事件中,网民的正面观点占比为27%,负面情感观点占比为47%,因此分别记为“低”“中”。8)针对该事件,沈阳市政府与2018年12月15日凌晨迅速回应,涉事医院也接连被停业,因此监控主体回应记为“有”“迅速”。
最终,根据贝叶斯网络条件概率,得出了该舆情事件的客体属性有85.1%的概率属于“严重”,媒体传播效力有50.6%的概率属于“广泛”,主体结构则有45.7%的概率属于“复杂”的结论。同时最终匹配案例类型结果显示,该舆情时间有64.3%的概率属于Case2软控制类舆情案例,该类舆情事件危害适中,需要政府在正面发声的同时结合多渠道多重手段进行干预,才能较好地平息舆情危机。该分类结果与9名专家的分类结果一致。该事件通过网络舆情案例匹配贝叶斯网络的具体分类结果如图5所示。