APP下载

基于KPCA粒子群随机森林算法的舆情趋势预测研究

2019-08-12聂黎生

现代电子技术 2019年15期
关键词:BP神经网络舆情

聂黎生

摘  要: 随着互联网时代社交媒体的飞速发展,热点事件不断进入公众视野,舆情分析成为公共管理部门面临的新挑战。针对该问题提出基于KPCA?粒子群随机森林算法用于舆情趋势预测研究。实验结果表明,该算法在预测精度上较BP神经网络算法有显著提高,可以为政府部门及时掌握、引导和控制网络舆情提供决策支持。

关键词: KPCA; 舆情; 趋势预测; 粒子群随机森林; 预测精度; BP神经网络

中图分类号: TN911.1?34; TP391                  文献标识码: A                    文章编号: 1004?373X(2019)15?0079?04

Research on trend prediction of public opinion based on KPCA

and particle swarm random forest algorithm

NIE Lisheng

(College of Computer Science and Technology, Jiangsu Normal University, Xuzhou 221116, China)

Abstract: With the rapid development of social media in the Internet era, the hot issues come into the public view constantly, and the public opinion analysis becomes a new challenge to public administration departments. In order to solve this problem, the trend prediction study on public opinion is proposed on the basis of KPCA and particle swarm random forest algorithm. The experimental results show that the prediction accuracy of this algorithm is significantly higher than that of BP neural network algorithm, and it can provide the decision support for government departments to master, guide and control the network public opinion in time.

Keywords: KPCA; public opinion; trend prediction; particle swarm random forest; prediction accuracy; BP neural network

0  引  言

隨着网络社交媒体的蓬勃发展,信息传播的速度和广度以指数级规模快速扩散,社会个体在进行便利信息传播的同时也给舆情监控和公共安全增加了复杂性[1]。及早发现社会高度关切的舆情热点,及时为公共管理部门提供舆情后续传播趋势,从而使管理部门能够准确、高效地进行危机处理,有利于社会的和谐与稳定。

近年来,舆情趋势预测研究已经引起众多学者的关注。文献[2]探讨了离散粒子群优化算法发现微博热点话题的应用;文献[3?4]分别从数据挖掘和词项角度研究了微博热点话题预测及发现;文献[5]基于微博事件的情感常识层面研究了公众情感的变化趋势;文献[6]分析了舆情大数据背景下网民情绪变化机理及趋势预测;文献[7]给出了基于社交网络的舆论传播模型,并对舆论传播的动力学进行了研究。

本文运用基于核主成分分析(KPCA)与粒子群随机森林算法对舆情趋势进行预测。该算法首先提取原始舆情数据特征向量,通过KPCA线性降维并选取其中核主成分特征向量,输出非线性时间序列数据;然后利用粒子群随机森林算法输入上述序列数据,从而实现对舆情趋势进行预测。

1  特征提取与KPCA降维处理

在舆情趋势预测中,原始数据混入的噪声信号对预测结果存在冗余和不确定性,如若直接提取时间序列物理量的特征,就会导致最终的预测结果存在明显误差。从趋势预测的角度看,舆情反映在时序波形中有可能并非舆情爆发的开始时间,而是具有一定的时间延迟。对获取的舆情数据进行时域和频域特征提取,不同特征向量对于趋势预测的贡献率和关联度差异较大,最终预测结果存在误差。所以,如果物理含义不充分,或者是不存在先验知识时,必须完成特征向量降维这一环节[8]。

1.1  核主成分分析

模式识别中线性特征提取和数据表示通常采用主成分分析(PCA)的方式。当训练数据集样本数量相对较少时,很难得到精确的估计协方差矩阵,并且在非线性数据处理时往往得不到较好的期望效果。作为一种非线性特征降维算法,KPCA利用核化思想把样本空间通过非线性的方式映射到高维特征空间[F],然后对[F]执行PCA算法进行线性降维。KPCA在解决非线性特征提取问题上较PCA具有特征更多和质量更高的优点,利用核函数可以有效地保留原始数据的特征,并最大限度地抽取数据中蕴含的非线性信息。KPCA具有以下特点:将原空间中数据通过引入隐性非线性映射函数映射到高维空间;该空间中的所有样本均可线性表示空间中的任一向量。

1.2  基于核函数的主成分分析的实现

1) 构建[m×n]维数据矩阵:

2) 选择核函数,确定参数,通过计算得到矩阵[S]。

3) 对核矩阵予以优化,得到[SL]。

4) 通过雅克比(Jacobi)迭代法进行计算以确定[SL]的特征值[λ1,λ2,…,λn],并计算其对应的特征向量[V1,V2,…,Vn]。

5) 将特征值通过降序排列,得到[λ′1≥λ′2≥…≥λ′n],并相应地调整特征向量为[V′1,V′2,…,V′n]。

6) 利用施密特正交化方法,对特征向量予以正交化处理,确定[α1,α2,…,αn]的值。

7) 通过计算确定降序后特征值的累积贡献率[β1,β2,…,βn],按照之前设定的特征提取效率[g],若有[βk≥g],通过提取得到[k]个主成分[α1,α2,…,αk]。

8) 确定经过标准化处理的样本数据[X]在特征向量上的投影[F=X?α],其中,[α=(α1,α2,…,αk)]。

降维后的数据,就是数据协方差矩阵[K]个最大特征值对应的特征向量。所有包含特征向量的矩阵[F]形成一组正交基,同时在数据中保留了最佳信息。

2  粒子群随机森林算法

2.1  随机森林

随机森林是Leo Breiman和Adele Cutler在2001年首次提出的一种使用多棵树来训练和预测样本的分类器。在此之后,Deitterich将随机节点优化思想嵌入到模型中进而有效地优化随机森林。随机森林算法以若干CART为元分类器,基于“套袋”思想控制方差创建不同的决策树集合。虽然单一决策树不能提供很强的性能分离器,但是通过组合起来可以有效提高决策性能[9]。作为一种多功能的机器学习算法,随机森林可以实现回归和分类任务,亦可用于缺失值、异常值及重复值的降维处理[10]。一般而言,该方法的执行程序为:

1) 设定包含[K]个样本的集合为[A],变量的数量为[J]。

2) 每个节点通过随机方法选择[m(m

3) 从[A]中以可放回采样的方式,重复采样[N]次,形成一组决策树的训练集[Z]。根据训练集[Z]预测剩余类别,并对误差进行分析。

4) 随机选取[m]个基于每一个节点上的变量,根据这[m]个变量,计算确定其最优分裂点。

5) 每棵决策树在不剪枝的情况下最大限度地进行生长,并通过将所有决策树相加预测新数据。

2.2  粒子群优化算法

粒子群优化算法(Particle Swarm Optimization,PSO)是基于鱼群和鸟群等动物在自然界中以相互合作的方式寻找食物的行为模拟技术。该算法把粒子群当作鸟群,种群里面各个粒子代表可行域里面的可行解,通过粒子间的相互作用寻求复杂空间最优解。在进行迭代操作时,能够利用学习机制掌握历史经验,据此优化自身速度以及位置矢量,从而实现全局寻优的效果。

式中:[W]为惯性权重,用于调节对空间的搜索范围,它在种群全局搜索和局部细化能力中起着关键作用,通常在 0.4~1.2范围内;[C1]和[C2]代表将每个粒子推向Pbest和Sbest位置的加速常数,用来调整最大学习步长;[rand()]为随机函数,在[0,1)范围内产生随机数,从而确保搜索的随机性。

粒子速度更新公式由三部分构成:粒子自身运动习惯的“动量”部分,表示粒子保持之前的速度;粒子对历史经验记忆的“认知”部分[11],表示粒子的实时位置和自身最佳位置的距离;不同粒子彼此协作和共享的“社會”部分,表示粒子的实时位置和群体最佳位置的距离。

3  基于粒子群随机森林的舆情趋势预测

媒体传播方式、网民关注程度及信源敏感性质等均会影响到舆情的发展趋势。本研究选择网民关注度较高的微博话题作为实验数据,采用基于KPCA?粒子群随机森林算法预测舆情的趋势变化。

3.1  实验数据获取

实验数据通过网络爬虫系统自动提取2018年8月1日—12日新浪微博热点话题所形成的时间序列作为实验数据,采样间隔为24 h,采样点的数量为1 580个数据点,实验记录了该时间内总共6 245条微博。根据实际问题的需要,获取的微博数据主要包含博主ID、博主类型、发布时间、主题特征、阅读数、评论数、转发数及点赞数等,这些数据可用来分析舆情动态趋势特征。将收集的前5天数据作为训练数据,后1天数据作为测试数据,分成两组,通过采用单步滚动的方式进行预测以验证本文算法的预测精度。

3.2  特征向量提取与KPCA降维

由于提取数据的特征向量很多,致使原始特征空间的维数非常大,势必影响到决策的建模并降低建模精度,因此需要对原始特征集空间进行降维处理,删除那些对预测结果贡献率和关联度较小的特征向量,进而得到最优化意义下的最简约特征向量集合,以提高算法的预测效率和精度。对于特征向量的选取以及权值计算,采用时域与频域分析,从每一节数据里面提取16个特征向量(频域、时域特征量分别有6个和10个)展开核主成分分析。

为了揭示出各个微博特征对舆情发展变化的作用,通过计算确定各个特征对舆情趋势的信息增益值,留下作用较为明显的特征;这样分类学习算法就能够仅关注携带最多预测信息的那部分特征,使模型在有效性方面具有更好的表现。本实验数据的16个特征值里,保留了反映舆情趋势和富含预测价值的12个主要特征展开KPCA主成分分析,从而实现特征向量的降维处理。根据核主成分分析结果,如表1所示确定了贡献率排名前四的分量。这里面,分量1的贡献率高于90%,达到了94.49%,基于贡献率超过85%为合适的原则,选择贡献率排名第一的分量为预测实验依据。

表1  部分特征向量贡献率

3.3  实验与分析

3.3.1  粒子群随机森林预测模型构建

基于通过实验获取的数据,以及粒子群随机森林的输入输出和结构,确定训练集以及预测数据,对数据分析结果进行KPCA降维处理,获取876个能够正确反映舆情趋势变化数据点,从中选取601~800数据点为训练集,801~820数据点为预测数据,创建训练集的训练样本特征空间[s=α,β],其中训练集样本空间[α]为:

预测步长拥有25列。在步长为15,20,25,30的情况下进行实验,结果表明在步长为25的情况下,模型的预测准确性达到最佳。粒子群随机森林以100~900为树的数量,以50为步长步进,实验结果表明在树的数量等于500的情况下,预测误差是最小的。每个树节点随机采样数目设置为25,其他参数设为缺省值。

3.3.2  实验结果及有效性分析

为了验证基于KPCA?粒子群随机森林算法的预测效果,选取BP神经网络算法比较两者的预测精度。图1为BP神经网络、粒子群随机森林预测点击数和微博实际点击数对比图,并采用[R]方值、RMSE值以及MSE值作为衡量预测值和实际值拟合优度的评价指标。

微博的点击数量是舆情趋势变化晴雨表的直接反映。从图1总体上看到,舆情热度的演变具有爆发迅速、回落缓慢的特征,大致经历萌动、加速、成熟和衰退4个阶段,基本符合网络舆情的生命周期[12]。具体来看,BP神经网络在舆情萌动阶段预测结果不精确且延迟较为严重,尤其在舆情爆发时其预测值偏离真实值较大;对于粒子群随机森林算法,不仅在相对平缓的地方预测趋势和真实情况比较相符,而且能够准确揭示出真实值在波峰较大情况下的趋势。这表明基于KPCA?粒子群随机森林算法,可以从日益增长的媒体数据中挖掘舆情传播的内在规律,准确预测舆情的发展趋势,预测结果较实际数值误差较小。粒子群随机森林算法、BP神经网络算法的预测结果[R]方值、RMSE值、MSE值详见表2。对表中的数据进行对比分析可知,本文算法各指标明显优于BP神经网络模型,其[R]方值为0.934 9,比BP神经网络模型的0.832 5高出12.30%;RMSE值与BP神经网络相比,降低了50.18%;MSE值相对于BP神经网络大大降低,结果表明本文算法具有更高的預测精度,是一种有效的舆情趋势预测方法。

图1  BP神经网络、粒子群随机森林算法预测结果

表2  粒子群随机森林与BP神经网络预测结果指标比较

4  结  语

本文以复杂网络舆情的预测模型为研究对象,提出一种基于KPCA?粒子群随机森林算法,并通过实验对比了本文算法与BP神经网络算法的预测效果。从实验结果可以看出,在[R]方值、RMSE及MSE评价指标上粒子群随机森林算法整体均优于BP神经网络算法,表明本文算法能够准确反映舆情传播进程中潜在驱动机制和动态规律,可以为政府部门引导和控制网络舆情提供决策支持。

参考文献

[1] CERON A, NEGRI F. The social side of public policy: monitoring online public opinion and its mobilization during the policy cycle [J]. Policy & Internet, 2016, 8(2): 131?147.

[2] 马慧芳,吉余岗.基于离散粒子群优化的微博热点话题发现算法[J].计算机工程,2016,42(3):208?213.

MA Huifang, JI Yugang. Discrete particle swarm optimization?based topic discovery algorithm for microblogs [J]. Computer engineering, 2016, 42(3): 208?213.

[3] 张贵红,李中华.基于数据挖掘技术的微博热点话题预测[J].现代电子技术,2017,40(15):52?55.

ZHANG Guihong, LI Zhonghua. Micro?blog hot topic forecasting based on data mining technology [J]. Modern electronics technique, 2017,40(15): 52?55.

[4] 李惠,王丽婷.基于词项热度的微博热点话题发现研究[J].情报科学,2018,38(4):45?50.

LI Hui, WANG Liting. Research on topic discovery in microblogs based on term hot [J]. Information science, 2018, 38(4): 45?50.

[5] 任巨伟,杨亮,吴晓芳,等.基于情感常识的微博事件公众情感趋势预测[J].中文信息学报,2017,31(2):169?178.

REN Juwei, YANG Liang, WU Xiaofang, et al. Public sentiment trend prediction of microblog events based on affective commonsense knowledge [J]. Journal of Chinese information processing, 2017, 31(2): 169?178.

[6] 兰月新,夏一雪,刘冰月,等.面向舆情大数据的网民情绪演化机理及趋势预测研究[J].情报杂志,2017,36(11):134?140.

LAN Yuexin, XIA Yixue, Liu Bingyue, et al. Research on the evolution mechanism and trend prediction of netizens for public opinion big data [J]. Journal of intelligence, 2017,36(11): 134?140.

[7] XIONG Xi, HU Yong. Research on the dynamics of opinion spread based on social network services [J]. Acta physica sinica, 2012, 61(15):150?156.

[8] 王梓杰,周新志.基于PCA和随机森林的故障趋势预测方法研究[J].计算机测量与控制,2018,26(2):21?26.

WANG Zijie, ZHOU Xinzhi. Research on fault trend prediction methods based on PCA and random forest [J]. Computer measurement and control, 2018, 26(2): 21?26.

[9] 李强,郑宇杰.基于多视角特征融合与随机森林的蛋白质结晶预测[J].现代电子技术,2015,38(8):50?53.

LI Qiang, ZHENG Yujie. Protein crystallization prediction based on fusion of multi?view features and random forest [J]. Modern electronics technique, 2015, 38(8): 50?53.

[10] SURHONE L M, TENNOE M T, HENSSONOW S F, et al. Random forest [J]. Machine learning, 2010, 45(1): 5?32.

[11] 程慕鑫.基于小波变异的改进粒子群算法[J].华东理工大学学报(自然科学版),2013,39(1):236?240.

CHENG Muxin. Improved particle swarm optimization based on wavelet mutation [J]. Journal of East China University of Science and Technology (Natural science edition), 2013, 39(1): 236?240.

[12] 曾子明,黄城莺.BP神网络的突发传染病舆情热度趋势预测模型研究[J].现代情报,2018,38(5):37?52.

ZENG Ziming, HUANG Chengying. BP neural network for predicting the trend of public opinion on sudden infectious diseases [J]. Modern intelligence, 2018, 38(5): 37?52.

猜你喜欢

BP神经网络舆情
数字舆情
就bp神经网络银行选址模型的相关研究
基于DEA—GA—BP的建设工程评标方法研究
复杂背景下的手势识别方法
BP神经网络在软件质量评价中的应用研究 
BP神经网络算法在数值预报产品释用中的应用
舆情
舆情
舆情
微博的舆情控制与言论自由