APP下载

基于BP神经网络的网络舆情预警研究

2020-01-04侯萍崔孟杰

电子商务 2020年12期
关键词:BP神经网络网络舆情指标体系

侯萍 崔孟杰

摘要:企业网络舆情传播对企业和社会产生不可忽视的影响,对企业网络舆情监测和预警的研究能够为管理部门提供理论和实践指导。从舆情热度,舆情状况和舆情趋势三个方面,综合现有指标体系的优缺点,构建一个具有三个一级指标、十个二级具体指标的企业网络舆情危机预警指标体系。将获取到的指标数据运用定性与定量相结合的方法进行无量纲化处理,并利用Matlab进行BP神经网络模型创建,建立企业网络舆情危机预警模型。选取2017年以及2018年舆论相对集中的“携程亲子园”事件以及“滴滴空姐遇害”事件进行模型的训练以及模型验证。实验结果表明,基于BP神经网络的企业网络舆情危机预警模型是有效和可行的。

关键词:网络舆情;指标体系;BP神经网络;舆情预警

中图分类号:G350;TP393

★基金项目:国家重点研发计划课题(2017YFD0401005);江苏省高校自然科学研究面上项目(18KJB520038)。

引言

随着互联网科技的迅速发展,网络深入到人们的日常生活中,网络舆情逐步转化为社情民意的主体部分,网络舆情技术随着互联网的发展,涉足面越来越广,负面网络舆情对于企业造成的影响越发凸显,企业对于自身的舆论也越来越重视,能夠提前预知大规模负面舆论的爆发,可以使企业及时采取有效的措施进行防范,尽可能的降低舆论带来的负面效应,及时止损。一个完善的企业网络舆情预警系统有着十分重要的现实意义。在负面舆论大规模爆发的前夕及时告知企业管理者,采取相应的应对措施减少负面舆论带来的不利影响,及时规避舆论恶化。国内外学者纷纷展开了网络舆情指标体系和预警模型构建的研究。在网络舆情危机预警方法方面,文献[1]利用动态层次文本聚类法挖掘网络舆情预警过程中的热点话题。文献[2,3]构建了微博舆论场超网络模型,提出了微博舆论场场强计算公式判别微博舆论场中舆情的演化。设计了基于微博舆论场的舆情演化规则。文献[4]首先根据Lyapunov指数证明网络舆情具备混沌的特征,然后对网络舆情时间序列数据进行相空间重构,最后进行网络舆情预测。文献[5]提出一种基于模糊推理理论的网络舆情观点聚合的CA(Cellular Automaton)模型,在元胞自动机模型Moore邻域结构下演化并分析个体属性以及邻域环境对网络舆情观点聚合现象的影响。文献[6]针对热点传播的问题提出改进的SIRS传播模型,该模型结合博弈论对SIRS模型中的传染体和免疫体进行演化博弈建模,对SIRS模型进行改进,得到热点话题传播的平衡点和规律。文献[7]也构建了谣言事件传播模型,研究热点事件传播规律。文献[8]为了解决网络舆情预警评价问题中样本数据的非线性和髙维性等实际难题,提出以投影寻踪理论为基础,利用文化基因算法确定最佳投影方向,建立了基于文化基因算法的网络舆情评价的投影寻踪模型。文献[9]将模糊神经网络模型用于公司产品市场销售状态的预警问题,为销售人员处理市场危机问题提供参考意见。

综上所述,国内外学者针对舆情监测预警模型主要集中在模型构建及态势评估等方面,从应用角度对企业网络舆情构建模型并量化算法的实例研究的成果较少。本文构造企业网络舆情危机预警指标体系并运用BP神经网络模型建立企业网络舆情预警模型。选取2017年以及2018年舆论相对集中的“携程亲子园”事件以及“滴滴空姐遇害”事件进行模型的训练以及模型验证。

1、企业舆情危机预警指标体系

1.1 企业舆情危机预警指标体系构建

依据2006年国务院发布的《国家突发公共事件总体应急预案》,将预警等级按照各类突发公共事件的严重程度、可控性和影响范围等因素分为Ⅰ级(特别重大)、Ⅱ级(重大)、Ⅲ级(较大)和一般[10]。本文将舆情危机预警划分为五个级别,分别是安全、一般、警告、严重,用1000、0100、0010、0001来表示。建立一个科学、严谨、高效、可行的完善的企业网络舆情预警指标体系最关键的在于指标体系中各项指标的选取,合理正确的指标有助于提升指标体系的合理性。我国的舆情预警研究的学者已经在该方面取得了显著的成果,文献[11]从传播媒体、传播范围、传播速度、情绪倾向程度及相关度等方面对舆情潜在影响力进行探索,构建了网络舆情潜在影响力指标体系并设计潜在影响力计算模型,对探讨网络舆论的潜在影响有一定的现实意义。文献[12]基于网络舆情中的舆情等级分类,划分移动社交网络中的舆情等级,同时结合生命周期理论,分析移动社交网络舆情生命周期。并通过实证研究验证指标体系是否合理。本文依据前人的研究,网络舆情预警指标的选取本着定量为主,定性为辅、科学性、可操作性等原则,最终构建3个一级指标,10个二级指标的网络舆情预警指标体系。在选取指标的同时,尽可能的以最少指标达最优预警目标的准则来选取,同时为了使模型容易构建,进行量化处理,尽可能的选择定量指标。

1.2 企业舆情危机预警指标说明

舆情热度是研究舆情的重要指标,通过搜索量、转发数、评论数、点赞数来衡量舆情热度,末端数据的获取主要来自于百度指数以及新浪微博。搜索量是指在一定的时间条件下,通过百度指数高级检索,检索指定企业名称为关键字的网络曝光率以及网民关注度。搜索量的多少反映了网民对于该话题的关注程度,通过搜索量的排序可以明确当前的热点话题。评论数是指在新浪微博中,网民对于某一舆情热点话题的评论,通过评论的内容以及评论数量的多少可以反映出该舆情事件在网民心中的关注程度。转发数转发数是指在新浪微博中,某条关于某热点事件的评论被转发的次数,如果网民转发该微博, 即表示他对于这一评论表示认同。转发数反映了该条微博在网民中的认可度。点赞数是指在新浪微博中,某网络舆情事件获得的点赞数量,该数值越大,则表明网络舆情发生的概率越大。

舆情状况主要通过网络舆情的真实性、舆情话题的敏感性、网民观点的倾向度来表示。网络舆情的真实性,话题的敏感程度以及观点的倾向度较为全面地展示了舆情的状况。真实性主要是因为网络空间的虚拟性与真实性相互融合,再加上互联网的虚拟性,许多言论难以辨分,舆情的真实性是反映舆情状况的最关键的指标。真实性采取定量分析的方法来确定,参考新浪微博的认证用户关于某网络舆情事件的微博数占全部的百分比来确定,认证用户是实名认证的,需要对自己发言的真实性负责,认证用户的言论的真实性较高。舆情的敏感性是用来衡量舆情未来发展的主要指标。敏感性越高,则该网络舆情热点话题的关注度越高,敏感性指标通过定性分析获取。倾向度是指网民对于某网络舆情热点话题所持的赞同、中立或是反对的态度。按照人们对于某事件的看法,倾向度可以分为赞同,中立,反对。该指标通过新浪微博中负面微博的占比来表示。

舆情趋势指的是舆情在接下来的一段时间内的发展趋势,主要是通过观察网络舆情的热度变化得出,而网络舆情热度变化主要通过搜索量变化、转发数变化、评论数变化得以体现,最终得出网络舆情的趋势变化。搜索量变化通过百度指数中在一段时间内对于某网络舆情事件相应关键词检索的数量变化来衡量。转发数变化通过新浪微博中关于某网络舆情事件的微博的轉发数量的变化来计算。评论数变化指的是新浪微博中关于某网络舆情事件的微博的评论数数量的变化。

2、企业网络舆情预警模型构建

2.1 BP神经网络的设置

本文采用BP神经网络进行企业网络舆情预警模型的构建,由于BP神经网络结构中包含隐含层,通常情况下,隐含层越多,网络的复杂性越高,计算难度越高。本文采用只包含一个隐含层的BP神经网络结构。

2.1.1 输入层、输出层、隐含层节点确定

依据构建的企业网络舆情预警指标体系,在该体系中选取了10个指标作为企业网络舆情预警模型的预警指标,则输入节点数为10,确定了预警等级为安全(1000)、一般(0100)、警告(0010)、严重(0001)四个等级,则输出节点为4。

隐含节点的确定采用公式(1)进行隐含节点的计算。

其中m为输入层节点数,n为输出层节点数,a为1-10之间的常数。

2.1.2 输入数据的归一化处理

由于指标选取的时候对相应的各项预警指标进行了一定的量化处理,在进行模型构建时,为了便于计算,减小误差,再一次的进行归一化处理,即通过公式将所有收集到的原始数据进行整理,同意转化为(0,1)区间内的无量纲指标值。

指标有正负方向之分,所以在进行数据归一化的无量纲指标处理时,也有着不同的方法。正向指标指标值越大越安全,所以以最小值为基准进行归一化处理,即在进行无量纲化处理时采用公式(2)进行处理;而负项指标与正向指标恰好相反,指标值越小越安全,在无量纲化处理时以最小值为基准,进行归一化处理即采用公式(3)。

2.1.3 训练参数的设置

在对数据进行归一化处理之后,设置训练参数,训练参数的设置不同也会对网络性能有一定的影响。

设置隐含层、输出层传递函数为logsig(对数S型传递函数),具有非线性的特点,设置训练函数为traingdx(学习率可变的BP算法),学习函数为learngdm(梯度下降动量学习函数),在相对应的训练参数设置中,设置显示间隔show = 25,设置网络学习效率lr = 0.05,设置动量参数mc = 0.9,设置最大训练次数epochs =1000,设置目标误差goal =1e-5,而其余的相关参数保持默认值不变。

2.2 预警模型建立

依据公式(1)进行隐含节点的确认,可计算出神经元的个数为4-13之间,通过测试发现当a=10时,神经网络的性能达到最佳,即确定隐含层节点数为10。选取2017年11月“携程亲子园虐童”事件作为本文的研究对象,以10个具体指标建立企业网络舆情危机预警指标体系。首先分析企业网络舆情指标体系中的各项指标的性质,得到分析结果如表1所示。按照携程亲子园事件的进展设定了8个时间点,方便数据采集以及观测,如表2所示。

利用烽火舆情软件进行相应的关键词检索,得出“携程亲子园”事件的舆情走势,分析相应的负面舆情占比,通过当日的负面舆情占全部舆情数的占比得出观点倾向度,舆情走势如图2所示。利用百度指数工具高级检索对“携程亲子园”限定关键词进行检索,得出搜索量以及搜索量变化指标原始数据如图3所示。

在每个时间节点以“天”为单位做平均值处理,使数据具备可比性。评论数、点赞数、真实性、敏感度、倾向度、转发数、评论数变化、转发数变化等指标数据通过新浪微博获取,在8个时间点获取的原始数据,为了使数据之间的关联性更高,各个指标之间的数据的可比性更强,在依据指标的性质的基础上进行数据的归一化处理,归一化后的数据如表3所示。

利用Matlab 2017a软件进行模型的建立,以时间1-时间7的指标数据作为模型的训练样本,选取时间8的指标数据作为检验样本来进行模型检验工作的实施。期望输出如表4、表5所示。

通过调用Matlab 2017a软件中的神经网络工具箱,参照上述的传递以及训练参数设置,进行BP神经网络的创建,对训练样本进行167次训练后,误差值为9.945e-6,達到训练目的,如图4所示。

3、模型可靠性验证

通过案例“滴滴空姐遇害事件” 进行模型可靠性验证,数据如表6所示:

利用烽火舆情软件进行相应的关键词检索,得出“滴滴出空姐遇害”事件的舆情走势,分析相应的负面舆情占比,通过当日的负面舆情占全部舆情数的占比得出观点倾向度。利用百度指数工具高级检索对“滴滴”限定关键词进行检索,得出搜索量以及搜索量变化指标原始数据。在每个时间节点以“天”为单位做平均值处理,使数据具备可比性。评论数、点赞数、真实性、敏感度、倾向度、转发数、评论数变化、转发数变化等指标数据通过新浪微博获取,对9个时间点获取的原始数据进行归一化处理,归一化后的数据如表7所示。

通过以上建立的模型将原始数据进行代入检验,与期望输出结果表8进行比较。

与期望输出结果进行比较后,发现时间6的输出出现差错,其余结果一致,准确率达到87.5%。

4、结束语

根据上述构建的BP神经网络模型,通过对于时间1-时间7的获取的企业网络舆情预警指标中的10个二级具体指标数据进行训练测试,将时间8作为模型的检验样本,在对训练样本进行192次训练后,在未达到最小梯度以及最大的拟合次数的目标要求内,达到最小误差,使得模型达到最优。通过调用神经网络工具箱中创建BP神经网络后的Simulate工具,进行检验数据的测试,将时间8的指标数据进行归一化处理后,导入为P_test,利用训练达标的模型进行数据预测,输出相应的Y数据,进行输出规则转化后与预计预警结果进行比较,发现结果一致。在建立模型后,再次通过“滴滴空姐遇害”事件的数据进行模型可靠性的验证,通过将实际输出与期望输出的结果进行比较,发现模型预测的准确率为87.5%。通过实践证明,本文设计的企业网络危机舆情预警指标体系是合理的,同时也证明了基于BP神经网络的企业网络舆情预警模型是有效的。

参考文献

[1] Gil-Garcia R,Pons-Porrata A.Dynamic Hierarchi-cal Algorithms for Documentclustering[J].Pattern,RecogNition Letters,2010(31):469-477.

[2] 黄远,沈乾,刘怡君.微博舆论场:突发事件舆情演化分析的新视角[J].系统工程理论与实践,2015,35(10):2564-2572.

[3] Ma N, Liu Y J. Superedge rank algorithm and its application in identifying opinion leader of online public opinion supernetwork[J]. Expert Systems with Applications, 2014,41(4):1357-1368.

[4] 魏德志,陈福集,郑小雪.基于混沌理论和改进径向基函数神经网络的网络舆情预测方法[J].物理学报,2015,64(11):52-59.

[5] 毛乾任,王朝斌,金洪颖,李艳梅.模糊推理的网络舆情观点聚合CA模型研究[J].小型微型计算机系统,2017,38(07):1479-1484.

[6] 魏德志,陈福集,林丽娜.基于博弈论和SIRS的热点事件传播仿真研究[J].系统仿真学报,2018,30(06):2050-2057.

[7] 李喆.基于投影寻踪模型的网络舆情评价[J].计算机仿真,2017, 34(04):391-395.

[8] Carolin Kaiser,Sabine Schlick,Freimut Bodendorf. Warning System for Online Market Research-identifying Critical Situations in Online Opinion Formation[J]. Knowledge-based Systems,2011,24:824-836.

[9] Zhao L J, Xie W L, Gao H O, et al. A rumor spreading model with variable forgetting rate[J]. Physica A: Statistical Mechanics & Its Applications(S0378-4371), 2013, 392(23): 6146-6154.

[10] 游丹丹.我国网络舆情预测研究综述[J].情报科学,2016,34(12):156-160.

[11] 贺恩锋,庄林远,徐文根.网络舆情潜在影响力指标体系构建及应用[J].情报杂志,2014,33(1):114-119.

[12] 聂峰英,张旸.移动社交网络舆情预警指标体系构建[J].情报理论与实践,2015,38(12):64-67.

作者简介:

侯萍,南京邮电大学管理学院,博士,副教授,研究方向: 网络舆情,电子商务;

崔孟杰,南京邮电大学管理学院。

猜你喜欢

BP神经网络网络舆情指标体系
2022城市商业魅力指标体系
自助图书馆选址评价指标体系研究
应用技术大学教师评价指标体系构建与应用
交通强国建设评价指标体系
“互联网+”背景下高校平安校园建设研究
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
BP神经网络算法在数值预报产品释用中的应用