基于GA-BP算法的网络舆情预警机制研究
2021-04-03陈蒙李学志
陈蒙 李学志
摘 要:近年来,互联网的快速发展带来了社交媒体网络的激增,广大民众可以在网上分享信息、知识和观点。然而,一旦出现突发事件,蜂拥而来的信息会对公众造成冲击,需要对信息的发展变化做出正确的预测并及时发现潜在的危机。有鉴于此,首先,构建一个基于突发事件的网络舆情预警指标体系,通过评论家算法计算各指标的权重,求得综合评价值,进而推断网络舆情预警水平;其次,利用基于遗传算法优化的BP神经网络构建网络舆情预警模型;最后,以突发事件河南水灾为例进行实证分析。
关键词:BP 神经网络;遗传算法;网络舆情;舆情预警;预警指标;批评家
中图分类号:TP391.3 文献标识码:A文章编号:2096-4706(2021)19-0018-06
Research on Network Public Opinion Early Warning Mechanism Based
on GA-BP Algorithm
CHEN Meng, LI Xuezhi
(School of Information Engineering, Xinjiang Institute of Technology, Aksu 843100, China)
Abstract: In recent years, the rapid development of the Internet has led to the proliferation of social media networks, where vast numbers of people can share information, knowledge and opinions online. However, once an emergency occurs, the information flooding in will impact the public, so it is necessary to make a correct prediction of the development and change of information and timely discover the potential crisis. In view of this, firstly, build a network public opinion early warning index system based on emergencies, calculate the weight of each index through the critic algorithm, get the comprehensive evaluation value, and then infer the network public opinion early warning level; secondly, BP neural network based on genetic algorithm optimization is used to build network public opinion early warning model. Finally, take Henan flood as an example for empirical analysis.
Keywords: BP neural network; genetic algorithm; network public opinion; public opinion early warning; early warning index; critic
0 引 言
在互联网时代,互联网络对个人行为模式、观点、政治态度和情感倾向的影响越来越大。网络舆论在其整个传播过程中都会对社会产生巨大的负面影响。对任一实体任何意见/情绪平均倾向的计算和评估,有助于组织和个人了解当前形势或获得一个对不熟悉事物的正确认识。网络舆情预警研究已引起了学术界的广泛关注,实现网络舆情预警的关键在于建立评价指标体系和预测模型。现有的研究大部分重复性较强,过分强调指标体系的可解释性,往往导致预测精度不高。构建一个具有网络舆情预警作用的指标体系结构[1],需要综合考虑其预警水平和预测方法。为此,本文采用一种客观、严谨、可复制的方法——“批评家”方法,该方法不仅注重不同指标之间权重的影响,还兼顾预警指标冲突对预测效果的影响,结合遗传算法和BP神经网络构建网络模型,用以预测网络舆情水平[2]。
1 网络舆情危机预警指标体系
1.1 构建网络舆情预警指标体系
进行网络舆情预警的前提条件是构建一个科学合理的指标体系。所构建的基于突发事件的网络舆情预警指标体系,不仅要反映出網络舆情中存在的问题,而且能够对网络舆情事件进行预警[3]。体系中指标维度的选择会对舆情预警的全面性和准确性产生直接影响,在构建指标体系的过程中,须参考表1中列出的六条基本原则。
考虑到突发事件发生时网络舆情传播过程的变化规律,通过前期调研以及反复整改和筛选,创建一个由4个一级指标、11个二级指标构成的重大突发事件网络舆情预警指标体系[3]。该指标体系中的各项指标均在获取能力范围之内,满足表1的构建原则。
最重要的一点是,所有这些指标都可以量化。所构建的网络舆情预警指标体系如表2所示。
这些指标的数据来源于新浪微博和百度指数。微博的开放性和快速传播可以迅速地将大众观点转化为网络民意。百度提供了百度指数,用于查找特定主题和帖子的数量。我们将新浪微博和百度指数组合在一起进行研究分析,梳理出的指标体系结构具有充分的合理性和代表性。
从表2中可以看出,指标体系分为以下几个维度:
(1)第一级指标体系主要包括关注度、参与、扩散和状态四个维度。关注度是指网友和新闻媒体对话题的关注度,主要通过话题的搜索量和新闻媒体报道量来衡量。参与是指网友对话题的讨论程度,可以用“发帖”“评论”“转发”“点赞”等的数量来衡量。扩散代表了舆论在传播过程中的扩散趋势,可以用某些指标值的变化程度来解释。状态描述了公众舆论本身的一部分性质。
(2)第二级指标的详细描述。关注度由两个二级指标组成:搜索量表示网友搜索话题的数量。媒体报道量是指新闻媒体报道中与之相关新闻的数量。参与包括三个二级指标:发帖量是指网络中针对该网络舆情的发文量。评论量和转发量反映了与舆情相关博文的评论和转发的数量。点赞量是指博文被点赞的次数。扩散包含四个二级指标,用于描述索引的搜索量、发帖量、评论量和转发量以及点赞量的变化。状态由两个二级索引组成。可视化是以与舆论界相关的图片和视频的形式描述用户发布的博文数量占博文总数量的比例。真实性是指通过实名认证的用户所发布有关舆情的博文数与已发布博文总数的比值。
1.2 計算指标的权重
通过评论家算法计算各指标的权重,得到各指标的综合评价值。评论家算法基于两个基本概念——指标可变性和指标冲突——确定指标的客观权重。
指标可变性是指同一指标评价观测值之间的差异,以标准差的形式表示。指标之间的冲突性用相关系数来表示。若是各个指标之间的正相关性比较高一些,表明所涉及指标之间的冲突性比较小,指标的权重较小。若是有N个样本和多个评价指标,原始数据矩阵可表示为:
(1)
一般来说,每个指标的维度是不同的。出于统一指标方面的考虑,为了让各个指标具有可比性,需要对所获取的初始糙数据进行规范化操作。但是,不推荐使用标准化操作。原因是各个指标被标准化之后标准差都是1,没有可比性。毫无疑问,此时使用评论家方法是毫无意义的。因此,为了合理使用评论家方法,区分正、负指标,我们选择了归一化方法。
如果指标为正极,则有:
(2)
如果指标为负极,则有:
(3)
去除指标维度对评价结果的影响后,可以分别表示指标可变性和指标冲突。指标可变性为各个指标的标准差:
(4)
(5)
指标冲突是由不同指标之间的系数构成的,其中,rjk为第j个指标选项与第k个指标选项的系数。结合指标可变性和指标冲突,可以计算出各指标的信息量:
Cj=Sj×Rj (6)
最后,根据信息量确定各指标的权重:
(7)
根据指标选项的权重值,可以得出每个指标项的综合评价值,进而对其进行分级。
2 遗传算法改进BP神经网络算法
BP神经网络算法可以在内部训练和调节投入产出模型的映射关系[3]。结构图如图1所示。x1,x2,…xn表示输入层的神经元。输入层和隐含层之间的连接强度用wij表示。隐含层(hidden layer)与输出层(output layer)之间的连接强度则用?jk表示。θj为隐含层节点的阈值。γk为输出层节点的阈值。隐含层的激活函数为f。输出层的激活函数为?。Ij为神经元j的净输入值。
(8)
(9)
细胞传输的信号在没有达到最大值的情况下是不会急剧增加的。Is为输出层的输入,Yk为输出层的输出。
(10)
(11)
BP神经网络的反向传播过程和正向传播过程构成一个迭代,迭代在达到预测精度或满足目标需求时停止,此时训练过程结束。正向传播是将输入层到输出层的数据按照相应的权值和阈值进行传递。若是在计算无误的情况下未达到既定结点,将会进行反向传播。在反向传播的过程中,需要不断地动态更新输入层和隐含层的权值及阈值[4],然后继续迭代,直到满足要求,达到预期目标后才停止迭代。BP算法过程如图2所示。
目前,遗传算法的全局搜索最优特征可以弥补BP神经网络算法在具体应用过程中受初始权值影响的不足。遗传算法的主要步骤包括编码变量、生成初始集或初始解空间、分配适应度值、复制、交叉、变异、迭代,直到训练结束。采用GA-BP神经网络算法对网络舆情水平进行预测,GA-BP算法的过程如图3所示。
图3中的N表示初始解空间的数量,这些初始解空间是在确定编码方法后随机生成的。这些末端的染色体具有极高的适应性,用于进一步去学习和训练,N还将作为神经网络的初始权重参与到运算当中。这种方法可以减小对BP神经网络初始权值的影响。
GA-BP算法的运算过程包含以下6个步骤:
(1)选用一个码串来表示所研究问题的解,每个码串表示一个解。
(2)随机生成初始种群,即研究问题的初始解空间。
(3)将编码字符串转换为优化参数,根据编码的目标函数计算初始种群适应度值。
(4)根据适应度值依次进行复制、交叉和变异,这样做的目的是找到最优个体。
(5)回到步骤3和步骤4,直到满足终止要求。之前编码的个体不断进化得到研究问题的最优解。
(6)在网络模型中引入初始权值和阈值进行训练,直到达到要求的训练次数或是要求的误差上限。
3 实证分析
据官方统计,河南省郑州地区自2021年7月17日至7月20日三天的降雨量就已经达到往年一整年的降雨总量。并且自高强度降雨以来,已造成全省139个县(市、区)累计1 464个乡镇受灾[5]。在这样一个公共事件中,关于灾情更新、支援救援信息在网络中不断传播,形成一股舆情。本文选取河南水灾作为网络舆情事件的案例进行研究,7月17日至7月23日热度趋势如图4所示。
3.1 数据采集和预处理
网络舆情预警指标体系中,引入微博平台和百度指标的二级指标数据。大部分二级索引数据可以通过微博高级搜索和百度指数直接获得,也可以通过其他二级索引计算得到。有一部分索引数据需要借助于其他技术获取。下面使用的数据集是通过网络中的数据共享获取的,接下来我们将详细介绍有关新浪微博舆情数据集的构建方法。
第一步是建立并动态维护一个高度机密的活跃微博用户池,在所有用户中只占据很小的比例。若要构建微博活跃用户池,首先建立一个包含2.5亿微博用户的池,然后根据四条规则筛选出活跃的微博用户池,过滤规则如表3所示。由此形成了2 000万的微博活跃用户池,占微博用户总数的8%。
第二步是使用Python抓取活跃用户在指定时间内发布的与河南水灾相关的博文,建立微博舆情数据集,接下来就可以从数据集中过滤提取出对应的二级指标数据。基于河南水灾的发展态势,初步选取并收集自2021年7月20日至7月30日时间段的网络舆情数据作为实验数据。由于各指标间差异较大,为便于后续研究,将各指标数据按照式(2)或式(3)进行归一化处理。
3.2 设置early警告级别
对网络舆情的水平进行划分,主要目的是更好地对突发事件进行网络预警。根据前面介绍的评论家方法,计算出的权重twj(j=1,2,…,11),如表4所示。
根据各指标的权重可计算出各时间节点的综合评价指标(CEI)。每个时间节点的综合评价指标值等于每个指标在该时间节点的评价指标权重值之和。例如,第1个时间节点的CEI为:
(12)
其中,为第i个时间节点第j个指标归一化后的值;为第i个时间节点第j个指标的评价指标。
因此,可以获得每个时间节点的CEI。为便于舆情分级,将计算得到的CEI进行适当转换,使其取值范围在0~100之间。变换公式为:
(13)
根据突发公共事件可能的危机程度,划分出一些预警等级:Ⅰ级(特别严重)、Ⅱ级(严重)、Ⅲ级(较重)和Ⅳ级(一般)[2],根据实际情况将预警等级划分为5个等级,分别为1级(特别重大预警)、2级(重大预警)、3级(较大预警)、4级(一般预警)和5级(安全预警)。预警等級分类如表5所示。
3.3 预警等级预测
采用GA-BP方法,要确定网络的层数以及每层的节点数[6]。涉及到网络结构的输入层(Input layer)、隐含层(hidden layer)、输出层(output layer)。由于前面讨论的网络舆情预警指标体系中有11个二级指标,因此输入层的节点数设为11[7]。网络舆情预警等级化分为5级,因此输出层的节点数设为5。通常,隐含层节点的数量没有确定的值,在这种情况下,使用以下公式来计算隐含层节点的数量:
N= (14)
其中,N为隐含层节点数,m为输入层节点数,m=11;n为输出层节点数,n=5;a是一个常数,范围为(0,10]。显然,为了确定隐含层节点的数量,必须确定a的值。为此,神经网络从[0,10]开始遍历,通过比较BP神经网络的预测性能来选择人工神经网络的最优值。在进行拟合BP神经网络操作之前,对所有数据进行上文讨论的操作处理。数据分为两类:训练数据和测试数据。预测结果的拟合曲线如图5所示。
使用Matlab R2016a软件进行操作,训练集和测试集的预测精度和误差如表6所示。
如表6所示,当a=4时,性能最好。根据式(14),设隐含层节点数N为8。因此,BP神经网络的结构由11个节点的输入层、8个节点的隐含层和5个节点的输出层组成[8]。根据11-8-5的网络结构,神经网络具有11×8+8=96个初始权值和8+5=13个初始阈值,共计96+13=109个初始参数,亦为遗传算法的个体编码长度。利用神经网络预测误差构造适应度函数F:
(15)
其中,K为训练集的样本数,为预测预警等级,yi为实际预警等级。利用适应度函数F生成高质量的解。亦可以借助于最优的个体编码值提高网络模型的预测能力。为了充分利用所有数据集,对程序进行20次的循环,以获得平均输出,如图6所示。该预测模型可以达到较高的精度,误差极小。
4 结 论
本文通过反复整改、筛选、分析以及调研,构建突发事件网络舆情预警指标体系,通过提出评论家方法,确定出指标体系中所涉及的各个指标的权重值,进而去划分每个时间点的网络舆情预警的级别。基于遗传算法的BP神经网络构建网络舆情的预警模型,并且对今年夏季的突发事件河南水灾进行实例预测,结果表明,构建出的网络舆情预警模型在预测精度和均方误差上均达到最优水平。
参考文献:
[1] 冯江平,张月,赵舒贞,等.网络舆情评价指标体系的构建与应用 [J].云南师范大学学报(哲学社会科学版),2014,46(2):75-84.
[2] 李中亚,徐朝,袁旭峰.基于BP神经网络和遗传算法的年负荷预测与分析 [J].贵州电力技术,2014,17(2):19-21.
[3] 侯萍,催孟杰.基于BP神经网络的网络舆情预警研究 [J].电子商务,2020(12):70-73.
[4] 王卓然,王晓雨,王博,等.微型色谱柱制备及其GC谱线分离性能的优化 [J].微纳电子技术,2021,58(5):433-438+451.
[5] 徐雯.基于GA-BP网络的高校创业人数预测研究 [J].长春工程学院学报(自然科学版),2020,21(4):90-93+116.
[6] 朱晨飞,黄淑华,何杭松,等.基于BP_Adaboost算法的网络舆情危机预警 [J].中国公共安全(学术版),2017(4):95-101.
[7] 朱小波,次晋芳.基于改进PSO-BP神经网络算法在一般盗窃犯罪预测中的应用 [J].计算机应用与软件,2020,37(1):37-42+75.
[8] 孙玲芳,周加波,林伟健,等.基于BP神经网络和遗传算法的网络舆情危机预警研究 [J].情报杂志,2014,33(11):18-24.
作者简介:陈蒙(1991—),女,汉族,河南南阳人,讲师,硕士研究生,研究方向:网络舆情。