基于计算智能的舆情预测分析
2019-09-16刘定一应毅
刘定一 应毅
摘要:网络舆情是对整个舆情事件的具体描述、对事件的观点和立场,在短时间内会大规模、快速的扩散,因此尽早地预测舆情事件的走向和态势,相关部门就可以及时掌握社情民意,及时发现工作中存在的不足和对问题矛盾出现的影响,对负面声音进行正确引导。网络舆情的发展趋势具有无规则、随机变化等特点,互联网中的海量数据又给舆情预测带来了更严峻的挑战。文章分析主要从网络舆情预测混合算法、舆情预测算法的并行化入手,研究在大数据环境下网络舆情的趋势预测问题。
关键词:计算智能;大数据;舆情预测方法;算法研究;神经网络
中图分类号:G2 文献标识码A 文章编号1674-6708(2019)239-0126-02
1国内外研究现状
网络舆情是一种复杂、多变的系统,它的趋势发展由于有广大网民的参与,具有爆发性、演变不确定性、隐匿性、互动性等特点。在网络信息技术高速发展的今天,舆情对社会稳定发展的影响越来越大。通过对大数据环境下网络舆情预测算法的研究,及时、尽早、准确地预测互联网上舆论热点事件的走向趋势和广大老百姓生活息息相关的话题并提供信息化技术支撑,这既利于政府对舆情热点信息的及时监控和引导,也有利于社会的和谐稳定发展。
计算智能是人工智能发展的一个新阶段,是受到大自然智慧和人类智慧的共同启发而设计出的一类解决复杂问题方法的统称。与传统的人工智能相比,计算智能的最大特点是问题本身不需建立精确的数学、逻辑模型,可以直接对输入的测试数据进行处理。这一特点非常适合于解决大数据分析中难以建立有效的形式化模型,而用传统技术难以解决、甚至无法解决的问题。近年来,计算智能理论与技术研究迅速发展,在图像处理、模式识别、生物医学、智能控制等诸多领域都得到了广泛应用,取得了一系列令人鼓舞的研究成果。
计算智能在神经网络、模糊系统、演化计算/群体智能发展的基础上形成了一种新的研究方法。人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模仿动物神经网络的行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之问相互连接的关系,从而达到处理信息的目的。模糊系统(fuzzy system),是一种将输入、输出和状态变量定义在模糊集上的系统,是确定性系统的一种推广。模糊系统从宏观出发,抓住了人脑思维的模糊性特點,在描述高层知识方面有其长处,可以模仿人的综合推断来处理常规数学方法难以解决的模糊信息处理问题,使计算机应用得以扩大到人文、社会科学及复杂系统等领域。它能够较好地解决非线性问题,现已广泛应用于自动控制、模式识别(pattern recognitioy)、决策分析(decesion analysis)、时序信号处理,以及人机对话系统、经济信息系统、医疗诊断系统、地震预测系统、天气预报系统等方面。遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法。
2大数据环境下网络舆情预测算法
2.1网络舆情预测混合算法
网络舆情在大量的网络数据之中,具有延续性、交互性和演化性,有一定的可预测性。由于网络舆情发展趋势的预测具有较高的复杂性,采用传统统计学的方法具有一定的局限性,而非线性预测方法是研究的一个大方向,主要包括灰色模型、支持向量机、神经网络等。
神经网络具有自组织、自学习、强鲁棒性等特点,在很多领域取得了较好的预测效果,解决了不少难点问题。RBF神经网络(Radial BasisFunction Neural Network)拓扑结构简单、学习速度快,主要应用于自适应系统;BP神经网络(BackPropagation Neural Network)不需要建立模型,有很强的非线性数据拟合能力。神经网络经过长时问的训练,对非线性函数可以达到任意精度。由于神经网络在容错能力方面存在着一定的问题,进行算法测试容易出现极小值,导致收敛速度慢、不稳定性等缺点。将粒子群优化算法与神经网络技术相结合,提出网络舆情预测混合算法,在提高算法预测准确性的同时,可以加快算法的收敛速度。
粒子群优化算法是一种模拟鸟类捕食行为的群体智能进化算法,具有收敛速度快、操作方便简单等特点,特别适合于对神经网络的优化。在网络舆情预测混合算法中,神经网络的参数通过粒子群优化算法优化后得到。神经网络的输入数据是将原始舆情数据进行预处理后得到的时问序列数据。经神经网络计算后得到舆情事件发展趋势的预测结果。具体的算法设计与实现步骤如图1所示。
2.2舆情预测算法的并行化
随着网络舆情数据规模的不断变大,传统算法在小数据集上能有效运行的计算复杂度,在大数据集上运行变得越来越困难。
群体智能算法(如PSO、ACO)天生具有较强的实施并行性和分布式处理的能力,因此,将舆情预测混合算法(粒子群优化+神经网络)进行移植,以适应并行计算(MapReduce、Spark)的特点,提高算法的速度和可扩展性。面对海量的数据,并行化是解决算法速度和扩展性问题的最有效途径。
首先需要将舆情原始数据存入大数据系统中:半结构化数据存入NoSQL数据库(如HBase),非结构化数据存入分布式文件系统(如ItDFS)。在此基础上,将网络舆情预测混合算法移植到MapReduce框架(离线计算)或Spark组件(内存计算)上,充分利用并行计算的优势,提高算法的收敛精度和算法的求解效率,具体的实现步骤如图2所示。
3解决相关问题的策略方法与技术
3.1神经网络的参数优化与并行化
使用粒子群算法(PSO)优化神经网络的参数(连接权值和阈值)可以解决神经网络算法收敛速度慢的缺点,但是PSO优化参数的终止条件(迭代次数)需要人为设定。迭代次数过少而得不到较优的初始参数,迭代次数过多算法效率又会低下,合适的迭代次数需要经过反复大量的实验。
传统神经网络算法的并行化,主要是在Map阶段计算并输出每个权值的变化量,在Reduce阶段统计每个权值的总变化量,之后再对权值进行调整。这种方法会产生大量的中问结果,导致频繁的磁盘I/O操作,拖慢整个作业的完成时问。使用内存计算Spark组件作为神经网络算法并行化移植的目标,能大大降低磁盘操作,加快算法效率。
3.2利用计算智能技术进行网络舆情预测
人工智能使网络舆情的研究内容由舆情跟踪转向舆情预测。现有舆情预测强调是时问序列预测模型的重要性,是线性关系的预测;而网络舆情受随机因素影响较大,具有许多的不确定性,主要为非线性关系。计算智能的一大特点是可解决那些难以建立有效的精确数学模型/逻辑模型,基于计算智能中的神经网络和粒子群优化算法,提出网络舆情预测混合算法,为舆情预测提供了另一个有效模型。
3.3引入大数据技术提高算法性能并进行全数据分析
由于算法单机运行模式的限制,现有舆情分析和舆情预测只能依赖采样数据。引入大数据技术,不仅提高舆情预测算法的执行效率和可扩展性,而且使网络舆情研究可以立足于全量数据分析,从海量舆情数据中挖掘出真实可靠的、有价值的舆情信息。
4结束语
网络舆情是对舆情整个事件的具体描述、对事件的观点和立场,在短时问内会大规模、快速的扩散,因此尽早地预测舆情事件的走向和态势,相关部门就可以掌握社情民意,及时发现工作中存在的不足,对负面声音进行引导。互联网的海量数据又给舆情预测带来了更严峻的挑战,从网络舆情预测混合算法、舆情预测算法的并行化入手,可以研究大数据环境下网络舆情的趋势预测问题。