APP下载

基于深度学习的网络舆情热度研究

2021-01-11王茜仪杜明坤

无线互联科技 2020年22期
关键词:数据处理舆情深度

王茜仪,杜明坤,张 山

(江苏警官学院,江苏 南京 210031)

0 引言

网络舆情已成为热门词汇,现在的舆情传播媒介层出不穷,网民随时随地都能在互联网上发表自己的言论、观点,分享自己的生活。有些能够快速地引起群众的强烈共鸣。还有一些通过删减、恶意剪辑造成大众误解,歪曲事实博取眼球的做法,也极易引起舆情事件。因此对网络舆情进行监控和预警就显得尤其重要。[1]

自动驾驶汽车(AV)、智能机器人、图像和语音识别、自动翻译、医疗和法律应用等的快速发展使得机器学习在过去十年中获得了相当大的成就。深度学习基于机器学习算法,能够通过反复的分析、训练来学习,并随着时间的推移不断提高其性能。

深度学习中的LSTMs在时间序列数据处理方面有很大优势,然而自然语言正好是一种时间序列,前后有逻辑关系[2],所以本文基于LSTMs对舆情数据进行分析并预警。原始RNN对短时间的输入有着有效的预测,但对于长时间的样本数据处理准确率很低。LSTMs通过添加一个可以选择留下或者遗忘某些状态的长时间序列的细胞状态,来处理长时间的样本序列。

1 实验与结果分析

本文用网络爬虫抓取美XXXX时间相关舆情数据,共抓取从2020年5月28日至2020年7月3日共37天的文本数据,通过筛选和过滤噪声操作,将得到的数据进行预处理,输入LSTMs模型中进行模型分类训练,利用训练好的模型对接下来的舆情数据进行分类分析预警。

首先选取这些结果中的一部分LSTMs预测模型进行训练。训练完成之后,再对剩下的数据进行舆情趋势预测,若输出的值超过设定的阈值,系统将进行警报,若不超过阈值则不进行警报(见表1)。

表1 部分数据

运行测试数据共37天不同内容的文本数据,并做标准化处理,得到的数据越大,说明网民关注度越高,故舆情热度越高。

从图1中可以看出,从5月28日开始有关美XXXX的舆情出现,也就是舆情的第一天,热度直线上升,一直到第三天,舆情呈现最热态势,然后开始呈下降趋势,第六天出现一个谷值。下降到第六天之后出现一个波动开始上升,升至第八天出现拐点又开始下降,第八天的舆情热度并没有超过第三天最热情况,且第八天后面呈逐渐下降趋势。预测值和实际值的峰值和谷值、拐点一致,由此可见LSTMs模型预测结果和真实舆情的发展趋势基本一致。

图1 舆情事件实际情况与预测情况对比

2 结语

本文主要介绍了LSTMs网络,对于数据处理与预测结果进行一定分析,值得关注的问题是舆情数据序列的随机性,以及预测模型从数据噪声中区分模式的能力,从而避免过拟合,最后一个问题可能是需要进行预处理,这需要每个人注意选择最合适的转换,消除一些无关因素以及趋势。在预测应用中,规则未知,而且还可能发生变化,数据中存在结构不稳定性,同时存在大量的不确定性和噪声,这可能会使寻找最优权重的过程变得混乱。此外,在某些应用中,预测本身可以影响甚至改变未来,扩大数据噪音水平和增加不确定性水平。因此,应该使算法适应这些条件,并确保不存在过拟合。从本文的结果来看,深度学习算法应用于预测可能需要更多的研究来进行创新思想的实验和调整,以实现更准确的预测。

猜你喜欢

数据处理舆情深度
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
深度理解一元一次方程
深度观察
深度观察
深度观察
舆情
舆情
舆情
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用