基于神经网络的微博舆情预测方法
2016-10-29何炎祥刘健博孙松涛
何炎祥 刘健博 孙松涛
(武汉大学 计算机学院∥软件工程国家重点实验室, 湖北 武汉 430072)
基于神经网络的微博舆情预测方法
何炎祥刘健博孙松涛
(武汉大学 计算机学院∥软件工程国家重点实验室, 湖北 武汉 430072)
根据微博社交平台特征,提出了一种基于神经网络的微博舆情预测方法.该方法使用单位时间内的微博发帖量作为事件趋势的量化指标,考虑影响事件发展的因素,根据样本内的数据趋势建模,使用神经网络来预测范围外的事件的未来趋势.仿真实验结果表明,该方法可以快速地对事件发展的趋势进行量化分析和建模,能够准确地预测事件的爆发点和发帖量.
社会计算;神经网络;大数据;趋势预测;微博
微博(微型博客)是一个基于用户关系信息的分享、传播以及获取平台.微博因其碎片化、便捷性的特点逐渐成为热点事件的发源地,同时也是推动事件发展的重要力量.随着移动互联网的普及,一些热点事件在微博平台中能在极短的时间内大范围传播.人民网发布的《2014年互联网舆情报告》指出,2014年网络舆情总体热度下降,例如位居全年热点舆情榜首的马航MH370航班失联事件,已成为当今世界最大的悬疑案,微博帖文约2 500万条;而2011年7·23甬温线动车事故发生后的几天内,微博发帖量约5亿条.从2013年6月30日到2014年6月30日,网民中微博使用率下降了11.1个百分点,微博的用户流失,热度在下降,但在马航失联、东莞扫黄、山东招远血案等突发事件和热门议题中,微博在信息传播、意见表达上仍然展现出强大的功能.社会群体通过微博表达各种利益诉求,微博内容不仅包含了对事件的具体描述,而且还包括了用户对事件的观点和立场,这些内容在短时间内的大规模、快速扩散又会影响事件的发展,因此尽早地预测微博上话题的走向和趋势,政府就可以掌握社情民意的脉搏,及时发现基层治理中存在的问题和矛盾,释放社会压力,并澄清其中的谣言,对负面声音进行引导,企业也可以从中获取用户的消费兴趣以及对产品的反馈意见,及时地指定营销与公关策略.
大数据是指所涉及的资料量规模巨大到无法通过目前主流软件或工具在合理时间内获取、管理、处理,并整理成为对日常生产有积极帮助的资讯[1].微博平台就是一个典型的大数据平台,在大数据环境下对微博事件的趋势进行快速准确的预测是文中需要解决的问题.国内外学者在舆情预测领域已经取得了一些研究成果,文献[2]对信息扩散预测的研究现状做了详细的综述,并提出了从宏观角度对信息的扩散范围、广度和深度等宏观特性进行预测的方法,该方法可以应用于突发事件探测和舆情预测.文献[3]提出的线性影响力模型可用于预测电子商务网站中用户购买行为的信息扩散.文献[4]根据Lyapunov指数证明了网络舆情的混沌特征,并使用改进的径向基神经网络对两会的舆情发展趋势进行预测.文献[5]提出了一种基于灰色支持向量机的网络舆情预测模型,相对于传统预测模型,该模型能有效地提高了网络舆情的预测精度.
微博作为目前国内重要的舆论场,是一个复杂的巨系统,信息在微博中的传播受到了众多因素的影响,用户的特征提取以及网络拓扑结构的分析也十分困难,个体的随机性也为同类问题的分析带来了困难.文中针对微博信息的特征提出了一种针对微博平台的事件趋势预测方法,该方法以单位时间内微博数量作为衡量话题趋势的指标,采用神经网络预测事件趋势,并在仿真实验环境下对该方法进行了验证.
1 趋势预测方法
在微博平台中,微博的发帖量是各项影响因素的综合反映,是反映事件趋势最直观的指标,因此,文中使用发帖量来衡量话题趋势,预测框架如图1所示.在该框架中,选取影响因素和预测模型进行组合构成不同的预测方法.神经网络已在诸多领域取得了较好的预测结果,能有效解决不少传统统计学不能解决或不宜解决的问题[6].因此,文中根据微博平台特征提出了影响微博趋势的因素,以影响因素作为神经网络的输入,并选取4种基于神经网络的预测模型对微博事件趋势进行预测.
图1 微博事件趋势预测框架
1.1 影响因素库
微博用户对事件的关注程度直接体现在微博的发帖量,与话题相关的微博发帖量在单位时间内越多,说明该话题越热门.影响微博发帖量的因素很多,文中考虑实际环境下预测框架的运行效率与数据预处理的规模,主要讨论5个影响因素即微博的评论转发量、影响力、增长率、参与度、内容热度.
[7]的描述语言,在时间序列下,微博数据覆盖的时间段由若干个单位时间(ΔT)组成,某一事件的微博内容MB(t)定义为MB(t)=(Imb,Iu,Nrt,Ncm,Ni,C),其中,Imb为微博内容的标识集合,Iu为发布微博内容的用户标识集合,Nrt为微博内容被转发的次数集合,Ncm为微博内容被评论的次数集合,Ni为微博内容的影响力集合,C为微博内容集合.
微博的评论转发量Nrtcm(t)是指在第t个时间片内的微博评论转发量,转发微博评论的这部分人虽然没有直接发布微博内容,但参与了微博话题,因而是最有可能发表新博文的,表示为
微博参与度是当前时间段的微博量和微博评论转发量的比值,是用户倾向的表现,该值越小,表示用户更倾向于发表新的微博.在第t个时间片内微博参与度为Nr(t)=Nmb(t)/Nrtcm(t).
微博内容热度是微博文本内容的吸引力的反映,当微博内容热度高时,微博内容对用户的吸引力大,用户会更倾向于发表新的微博,表示为H(t)=
影响因素并不局限于这5个因素,在文中提出的框架体系下,可以对影响因素库做进一步的扩充以提高预测准确率.
1.2模型库
1.2.1SVM回归模型
支持向量机(SVM)是一种可训练的机器学习方法[9],其思想是通过一个非线性映射,把样本空间映射到一个高维乃至无穷维的特征空间中,使样本空间中非线性可分的问题转化为特征空间中的线性可分问题.SVM神经网络(SVMNN)避免了从归纳到演绎的过程,可实现从训练样本到预报样本的转导推理[10],适合解决微博舆情预测这类非线性回归问题.SVMNN结构见图2,其中K(·)为核函数.
图2 SVM神经网络结构
1.2.2Elman神经网络模型
Elman神经网络(ENN)[11]是一种典型的局部递归网络,该模型在前馈式网络的隐含层增加了一个承接层用于记忆隐含层过去的状态,并在下一时刻连同网络输入作为隐含层单元的输入,这使得局部递归网络具有动态记忆功能.ENN模型的承接层具有记忆功能,因而该模型具有适应时变特性的能力,解决微博预测问题的准确率更高.Elman神经网络结构如图3所示.
图3 Elman神经网络结构
Elman神经网络的状态空间表达式为
(1)
式中,xc为反馈状态向量,x为中间层向量,y为输出向量,w1为输入层到中间层的连接权值,w2为承接层到中间层的连接权值,w3为中间层到输出层的连接权值,g1(·)为输出神经元传递函数, f(·)为中间层神经元传递函数.
1.2.3广义回归神经网络模型
广义回归神经网络(GRNN)[12]以数理统计为基础进行非线性(核)回归分析,是径向基神经网络的一种特殊形式,具有很强的非线性建模能力和较高的容错性及鲁棒性.GRNN结构简单,学习速度快,对小样本数据能获得较好的预测结果,因此当微博舆情预测过程中学习样本较少时,可以选用该模型.GRNN结构如图4所示.
图4 GRNN神经网络结构
GRNN由输入层、模式层、求和层和输出层构成.其中:F1,F2,…,Fm为模式层神经元的传递函数;G1,G2,…,Gm为求和层的传递函数.
1.2.4小波预测模型
小波分析[13]是针对傅里叶变换在时域内没有分辨能力的缺点发展而来,小波是一种长度有限、平均值为0的波形.小波神经网络(WNN)[14]是小波分析与神经网络相结合的产物.WNN中的小波基函数可以让神经网络在时域上具有分辨能力,同时结合神经网络的自学习功能,可以有效地解决微博舆情预测问题.WNN的结构如图5所示.其中,wij为输入层和隐含层之间的连接权值,wjk为隐含层与输出层之间的连接权值,g2(x)为小波基函数,文中采用的小波基函数为g2(x)=-xe-x2/2.
图5 WNN神经网络结构
2 实验
2.1实验数据
文中实验采用了WISE2012Challenge[15]的数据集,其包含了66.3GB的去除文本内容的微博数据和12.8GB的用户关系数据.微博数据包含的37个话题(官方文档中共有42个,但有5个话题未出现)的持续周期为2009-08-14T9:7:32—2012-02-17T17:30:16,共有369 797 719条微博信息,属于37个话题的微博有4 474 563条,占总量的1.21%.用户关系数据包含了58 655 849个用户和265 108 370条用户关系,其中有2 819 324个用户被其他用户关注(占4.8%),58 478 875个用户关注了其他人(占99.7%),互相关注的用户有7 601 842个.
将所有数据看做是对一个大事件的反映,时间片单位为天,发帖量随时间的变化曲线如图6所示,将前600d的数据作为训练集,后300d的数据作为测试集,同时选取了3个有代表性的话题进行分析,各事件的发帖量随时间的变化趋势如图7所示,事件的具体情况如表1所示.
图6 发帖量随时间的变化曲线
(a)事件1
(b)事件2
(c)事件3
3个事件在微博平台中都出现了多次爆发的情况,其中事件1和事件2的时间跨度均超过了300d.这3个事件的演化方式与实际环境中事件的演化方式类似,文中采用4种神经网络模型对这4组数据进行预测.
2.2评价指标
文中采用平均绝对百分比误差(MAPE)和走势方向准确率来评价文中方法的预测效果.
表1 事件的具体情况
平均绝对百分比误差EMAP是衡量平均误差的一种比较方便的方法,可以评价数据的变化程度,其值越小说明预测效果越好,其计算公式为
(2)
式中,ar,t和af,t分别为第t个时间片内发帖量的实际值、预测值,κ为时间片总数.
走势方向准确率r是指预测结果中预测走势方向和实际走势相符的次数与预测次数的比值,走势方向准确率越高,说明预测效果越好.
2.3实验结果
4种方法对4组数据的预测结果如图8所示.在实际环境中,人们更关注爆发点(时间段内发帖量峰值时刻)预测是否准确,文中设定时间段为3d,在这3d中第2天的发帖量大于第1天和第3天,则第2天为爆发点,爆发点的走势方向是指爆发点前一天和后一天的走势情况,其预测准确率r1如表2所示.实验结果表明,ENN模型在事件趋势的峰值预测上效果最好,GRNN和WNN可以有效预测事件的爆发点和发帖量,理论上SVMNN模型可以对微博事件趋势进行有效地预测,但实际结果并不理想,其原因可能是由于未找到合适的初始参数,在实验过程中,即使通过调整归一化区间也未能获得有效的预测结果,图8的实验结果是在归一化区间[1,2]上获得的.可见,文中结合微博平台特征和神经网络的预测方法,可以有效预测微博趋势.
(a)大事件
(b)事件1
(c)事件2
(d)事件3
Table2Evaluationforforecastingresults %
3 结论
文中针对微博社交平台特征提出了一种事件趋势预测框架,在该框架下对事件发展的趋势进行量化分析和建模,并在大数据环境下验证了该方法的有效性,为社交网络平台的趋势预测问题提供了一种新的思路.今后将扩充影响因素库,考虑微博内容对事件发展趋势的影响,以提高预测准确率,并探索新预测方法的扩充模型库.
参考文献:
[1]SNIJDERS C,MATZAT U,REIPS U D.Big data:big gaps of knowledge in the field of internet science [J].International Journal of Internet Science,2012,7(1):1-5.
[2] 李栋,徐志明,李生,等.在线社会网络中信息扩散 [J].计算机学报,2014,37(1):189-206.
LI Dong,XU Zhi-ming,LI Sheng,et al.A survey on information diffusion in online social networks [J].Chinese Journal of Computers,2014,37(1):189-206.
[3] YANG J,LESKOVEC J.Modeling information diffusion in implicit networks [C]∥Proceedings of the 10th IEEE International Conference on Data Mining.Sydney:IEEE,2010:599-608.
[4] 魏德志,陈福集,郑小雪.基于混沌理论和改进径向基函数神经网络的网络舆情预测方法 [J].物理学报,2015,64(11):110503/1-8.WEI De-zhi,CHEN Fu-ji,ZHENG Xiao-xue.Internet public opinion chaotic prediction based on chaos theory and the improved radial basis function neural networks [J].Phy-sics,2015,64(11):110503/1-8.
[5] 曾振东.基于灰色支持向量机的网络舆情预测模型 [J].计算机应用与软件,2014,31(2):300-302.
ZENG Zhen-dong.Internet pubic opinion prediction model based on grey support vector machine [J].Computer App-lications and Software,2014,31(2):300-302.
[6] 刘豹,胡代平.神经网络在预测中的一些应用研究 [J].系统工程学报,1999,14(4):338-344.
LIU Bao,HU Dai-ping.Studies on applying artificial neural networks to some forecasting problems [J].Journal of Systems Engineering,1999,14(4):338-344.
[7] 何炎祥,刘健博,刘楠,等.基于改进人口模型的微博话题趋势预测 [J].通信学报,2015,36(4):2015094/1-8.
HE Yan-xiang,LIU Jian-bo,LIU Nan,et al.Based on improved malthusian model microblogging topic trend forecast [J].Journal on Communications,2015,36(4):2015094/1-8.
[8] MTIBAA A,MAY M,DIOT C,et al.PeopleRank:social opportunistic forwarding [C]∥Proceedings of International Conference on Computer Communications.San Diego:IEEE,2010:111-115.
[9] CORTES C,VAPNIK V.Support-vector networks [J].Machine Learning,1995,20(3):273-297.
[10] GAMMERMAN A,VOVK V,VAPNIK V.Learning by transduction [C]∥Proceedings of the Fourteenth Conference on Uncertainty in Artificial Intelligence.San Mateo:Morgan Kaufmann Publishers Inc,1998:148-155.
[11] CRUSE H.Neural networks as cybernetic systems [M].Stuttgart:Thieme Medical Publishers,1997.
[12] SPECHT D F.A general regression neural network [J].IEEE Transactions on Neural Networks,1991,2(6):568-576.
[13] 珀西瓦尔.时间序列分析的小波方法 [M].北京:机械工业出版社,2006.
[14] CHEN Y,YANG B,DONG J.Time-series prediction using a local linear wavelet neural network [J].Neurocomputing,2006,69(4):449-465.
[15] UNANKARD S,CHEN L,LI P,et al.On the prediction of re-tweeting activities in social networks:a report on WISE 2012 challenge [M].Berlin/Heidelberg:Sprin-ger,2012:744-754.
s:SupportedbytheNationalNaturalScienceFoundationofChina(61303115,61472290,61472291)
Neural Network-Based Public Opinion Prediction Method for Microblog
HEYan-xiangLIUJian-boSUNSong-tao
(School of Computer ∥ State Key Laboratory of Software Engineering, Wuhan University, Wuhan 430072, Hubei, China)
In view of the characteristics of microblog platform, a public opinion prediction method is proposed on the basis of neural networks. In this method, the post amount in unit time is taken as the quantitative index of event trend. Then, by considering the factors influencing events, the modeling is performed according to sample data, and the neural networks are employed to predict the future trend of the events outside the scope. Simulation results show that the proposed method is fast in terms of the quantization and modeling of the event trend, and it is effective in predicting the outbreak point and the post amount.
social computing; neural networks; big data; trend forecasting; microblog
1000-565X(2016)09-0047-06
2015-12-25
国家自然科学基金资助项目(61303115,61472290,61472291);武汉市科技攻关项目资助项目(201210421135)
何炎祥(1952-),男,博士,教授,主要从事可信软件、自然语言处理、分布并行处理和软件工程研究.E-mail:yxhe@whu.edu.cn
TP399
10.3969/j.issn.1000-565X.2016.09.007