基于TSFNN和集成学习的涉警网络舆情预警研究*
2022-05-19沈桂芳
沈桂芳
(安徽省公安教育研究院, 安徽 合肥 230000)
引言
中国互联网络信息中心(CNNIC)发布的第48次《中国互联网络发展状况统计报告》显示,截止2021年6月,我国网民规模达10.11亿,互联网普及率达71.6%[1].互联网普及率的大幅提高,促使各种网络社交平台迅速发展,广大民众集中于此发表自己的意见和情感.其中,涉及公安机关的舆情热点话题,由于其特殊性更易引起民众的关注,往往会迅速地在网络上蔓延,呈现出全民化趋势.涉警网络舆情与其它网络舆情最主要的区别在于,它关注的对象是与公安机关执法过程和公安民警执法行为相关的事件.公安民警代表公安机关的执法管理活动是一种国家行为,使得其言行倍受社会关注.因此,涉警网络舆情也往往更加敏感,会得到更高的关注度.
我国涉警网络舆情领域,研究内容大部分局限于理论上对涉警网络舆情的产生、应对、管理等方面的探讨,而对于涉警网络舆情预警方面的研究成果不多.
王叙然等[2]构建基于马尔可夫链的涉警舆情预警方法,并结合2016年的“雷洋案”开展案例分析.郝楠等[3]基于综合层次分析法和模糊理论,构建了基于模糊综合评价的网络舆情预警模型.王天齐[4]运用样本分析、PAD情感建模、文本情感分析技术等,确定风险评估的7个观测点与9个一级指标,设计风险评估的理论模型与部分数学模型.谈天辰等[5]构建了基于SIR模型的涉警舆情网络传播方法,并通过粒子群优化的 BP 神经网络算法对参数进行反演,有效拟合出“弗洛伊德之死”涉警舆情网络传播趋势.张黎明等[6]通过利用爬取的涉警网络舆情数据,分析涉警网络舆情事件的相关维度,利用人工神经网络算法,构建基于SPSS Modeler的涉警网络舆情预警方法.刘定一等[7]融合微博热点分析提出了基于LSTM模型的网络舆情预测方法;程铁军等[8]提出一种基于Logistic-SVM组合模型的网络舆情预测方法;林玲等[9]提出一种考虑风险偏好的直觉模糊Choquet积分网络舆情预警模型;陈培友等[10]提出了一种基于ANP-灰色模糊的群体性突发事件舆情风险预警方法.
上述方法均具有各自的优点和不足,如逻辑回归模型的自变量间存在的多重共线性会影响预测结果的准确性;灰色模型对随机波动性较大的数据预测效果较差;神经网络方法的网络结构复杂且存在易出现过度拟合的缺陷.
综上分析,本文提出一种基于T-S模糊神经网络和集成学习的方法,用于涉警网络舆情发展趋势的预测,针对涉警舆情趋势发展的复杂性和非线性的特点,提高对涉警网络舆情趋势预测的准确性.
2 基于T-S模糊神经网络和集成学习的涉警网络舆情预测模型
2.1 涉警网络舆情的指标体系构建
涉警网络舆情的特征明显与其他网络舆情有不同之处.涉警网络舆情事件具有突发性,舆情热点关注度集中,发散传播更快,尤其是涉及到民警执法行为、政府公信力的事件,网民情感倾向性往往负面较多,影响力更长久、更广泛.而选取的指标个数直接决定了构建的神经网络的复杂度,需要选取能综合表征涉警网络舆情发展态势的指标[11].指标的选取应遵循科学性、简明性、易量化等原则,在已有的研究基础上,选择以下5个指标构建涉警网络舆情指标体系:
①舆情新闻发布者类型
考虑领袖意见、网络水军等不同账号发文的影响力不同,我们把发文作者分为不同等级,赋以不同的分值,从而量化度量.官方认证、会员认证、粉丝数越多,分值越高.
②舆情新闻浏览热度
只凭一段时间内舆情新闻发布的数量来表示舆情热度还不够准确.网络新闻中有发布者、评论者和浏览者三种情况,需要考虑到发布、评论、浏览的影响力系数.同样,微博新闻影响力也要考虑点赞、转发和评论的影响力权值.
③舆情新闻发布时间段
不同的发文时间,在线的用户数量不同,则获得的关注度不同.因此,将一天24小时划分为3个不同的时间段,赋以不同的权值,用来参与量化度量新闻的关注度.
④舆情新闻发布平台类型
CNNIC发布的第48次《中国互联网络发展状况统计报告》显示,我国网民上网使用的设备占比从高到低依次是手机、台式电脑、笔记本电脑、平板电脑.因此,将新闻发布平台分为手机端、PC端及其它三种类型,并根据第48次中国互联网络发展状况统计报告给出的占比数据来赋以不同权值.
⑤舆情观点情感倾向性
考虑到广大民众对某个涉警网络舆情的态度倾向,用舆情观点情感倾向性来描述,是民众对舆情的主观情感体现.一般由正面、中立、负面三种类型的观点,可以用某一主题新闻评论的三类情感倾向求和后占比来量化,负面数值的绝对值越大,舆情预警程度越高.
2.2 构建T-S模糊神经网络
T-S模糊神经网络[12]把神经网络技术和模糊技术有效地融合在一起,同时在节点中应用了规则推理以及模糊化的概念.将神经网络引入模糊逻辑系统中,利用神经网络的自学习性,可解决模糊推理规则自动提取和隶属度函数的自动优化;同时,将模糊技术引入人工神经网络中,可以拓展神经网络处理信息范围和能力.大大提高了模糊神经网络的透明度,使得其具有较强的解释和推理能力.
设输入变量x=(x1,x2,…,xk),每个分量xi均为模糊语言变量,在规则为Ri的情况下,模糊推理如下:
选择高斯隶属度函数计算每个输入变量xj的隶属度值:
(1)
采用隶属度函数对各输入量进行模糊化计算后,再采用模糊连乘算子计算权值wi:
(2)
根据模糊权值计算模糊推理的输出值yi:
(3)
T-S模糊神经网络分为输入层、模糊化层、模糊逻辑推理层、求和层和输出层五层.输入层与输入向量xi连接,节点数与输入向量的维数相同.模糊化层采用隶属度函数公式(1)对输入值进行模糊化得到模糊隶属度值μ.模糊推理层采用模糊连乘公式(2)计算得到w.求和层与输出层采用公式(3)计算模糊神经网络的输出.
T-S模糊神经网络的学习算法如下.
1)误差计算
(4)
式中,yd是模糊神经网络期望输出;yc是模糊神经网络实际输出;e为期望输出和实际输出的误差.
2)系数修正
(5)
(6)
3)参数修正
(7)
(8)
研究涉警网络舆情指标与舆情等级之间的非线性关系,建立模糊神经网络具体研究方法流程如图1所示.
图1 基于模糊神经网络的涉警网络舆情评估研究方法流程
网络构建:分析涉警网络舆情预测的实际情况,建立模糊神经网络模型、研究网络的层次,每个层次的结点个数,确定神经元之间的连接方式等;
网络训练:采用梯度下降方法调整所建模型的相关参数;
网络测试:分析测试样本的实际分布状况,确定测试的样本数据,分析测试结果.
2.3 TSFNN_AdaBoost算法
针对涉警网络舆情样本量不足、模糊神经网络训练不充分导致预测结果准确度不高的问题,采用集成学习Adaboost算法[13]将多个模糊神经网络集成成为强预测模型,以提高预测结果精度.如图2所示.
图2 基于TSFNN-Adaboost的涉警网络舆情预警模型
AdaBoost算法是合并多个“弱”预测分类单元的输出,以产生误差更小的期望值.为了增强预测分类效果,把T-S模糊神经网络作为新的弱预测分类子单元,通过AdaBoost算法组合构建成TSFNN_AdaBoost强预测分类模型.
首先,从样本空间中机选取L组数据作为训练样本,初始化训练样本的权重,按下式计算:
Dt(r)=1/L(r∈1,2,…,L)
(9)
再用训练样本数据训练T-S模糊神经网络,当训练第k(k∈1,2,…,M)个T-S模糊神经网络弱预测分类单元时,得到n组数据的预测误差和为:
ek=∑[gk(r)-yr] (r∈1,2,…,L)
(10)
式中:gk(r)为网络的期望输出值;yr网络的实际输出.
然后根据n组训练样本的预测误差和ek计算第k(k∈1,2,…,M)个T-S模糊神经网络弱预测分类单元的权重如下:
(11)
接着,根据权重ak,调整下一轮训练样本的权重,其公式为:
(12)
式中:Bk为归一化因子,Dk(i)为经过k-1次训练调整后的权重.
最后,建立强预测分类模型.训练T次后,得到由T组弱预测分类单元组合而成的强预测分类函数,计算式为:
(13)
式中:fk(x)为第k个弱预测分类子单元函数;x为测试数据.
3 实验分析
3.1 涉警网络舆情事件回顾
以2020年12月4日发生的“12·4望江女孩溺亡事件”涉警网络舆情事件为实验分析案例.
来自百度百科阐述,2020年12月4日13时许,安徽省安庆市望江县公安局110报警服务台接报警:望江县城吉水桥边有一女子欲投河自尽.接警后,处警民警立即赶到现场处置.在民警安抚劝导过程中,女子突然扑入深水区.出警民警展开施救,后将该女子打捞上岸,经抢救无效死亡.2020年12月4日,望江县公安局通报“女孩走入河水轻生”:对网友反映民、辅警施救中存在的问题,已成立调查组,对涉事民警、辅警作出停职接受调查决定.
以“12·4望江女孩溺亡事件”作为关键词,包含在网页标题中的搜索到的相关时间的网页数,以天作为单位时间,本事件的百度搜索网页总数随时间的变化趋势如图3所示.可以很清晰明了地观察到网络上关于12·4望江女孩溺亡事件的信息量的走势,反映了网民对此事件的关注情况.
图3 “12·4望江女孩溺亡事件”百度搜索关注度趋势
3.2 数据采样与处理
指标体系选取的5个指标量化赋值见表1,从新浪微博搜索2020年12月4日至2020年12月22日这段期间的共363条数据作为样本,部分样本数据见表2.
表1 指标量化赋值
表2 12·4望江女孩溺亡事件部分样本数据
基于2.1节的分析描述,新闻浏览热度由这条新闻的点赞数、转发数、评论数体现,所以由每条新闻的这三种数值之和乘以对应系数权值获得,即新闻浏览热度=∑点赞数×0.3+∑转发数×0.3+∑评论数×0.4;观点情感倾向分为正面、中立、负面三种情感倾向,其中负面情感影响力最大,中立的一般不影响,故取正面、负面两类观点数之和乘以对应系数权值获得,即观点情感倾向=∑正面观念数×0.4+∑负面观点数×0.6.
在对舆情发展趋势进行预测前,对数据进行归一化处理.随机抽取该数据集的283组数据为训练样本,其余80组数据为测试样本.将舆情态势等级分为四个等级:特别严重(I 级,红色预警)、严重(II级,橙色预警)、比较严重(III级,黄色预警)、一般(IV级,蓝色预警).
3.3 实验结果及分析
本次研究的涉警网络舆情预测指标选择5个指标,即输入数据维数为5,输出维度为1,根据网络输入输出节点数,确定隶属函数个数为10,因此构建的模糊神经网络结构为5-10-1,迭代训练100次.
实验仿真环境为:64位Windows 10操作系统,主频2.4 GHz,内存4 GB,采用MatlabR2013a软件实现算法编程.
将TSFNN和TSFNN_Adaboost应用于涉警网络舆情预警中,进行比较来验证本模型的可行性和有效性.TSFNN和TSFNN_Adaboost预测误差对比见图4.实验运行30次,统计得出TSFNN和TSFNN_Adaboost的平均预测误差分别是0.4485和0.1201,TSFNN弱预测和TSFNN_Adaboost强预测的预测误差绝对值对比见图5,可见集成学习的T-S模糊神经网络预测误差大幅提升.
图4 TSFNN弱预测和TSFNN_Adaboost强预测输出对比
图5 TSFNN和TSFNN_Adaboost预测误差绝对值对比
4 结束语
涉及公安机关的舆情热点话题更易引起民众的关注,对涉警网络舆情的发展态势进行准确预警,有利于公安机关及时有效的应对舆情.综合分析选取了舆情新闻发布者类型、舆情新闻浏览热度、舆情新闻发布时间段、舆情新闻发布平台类型、舆情观点情感倾向这5个指标构建涉警网络舆情指标体系;针对涉警网络舆情的复杂性和非线性的特点,采用T-S模糊神经网络来预测其发展趋势;针对舆情样本不足的问题,通过集成学习将若干个模糊神经网络预测器组合成强预测模型,以进一步提高预测准确性.最后,通过新浪微博采集“12·4望江女孩溺亡事件”数据集,实例验证了本文方法的有效性和准确性.