基于因子分析和Elman网络的舆情关键词热度预测①

2021-03-19肖光华王清莲

计算机系统应用 2021年3期

肖光华,王清莲

1(江苏城乡建设职业学院设备工程学院,常州 213147)

2(河海大学计算机与信息工程学院,南京 210098)

3(常州开放大学终身教育研究中心,常州 213001)

网络通信技术的进步促使社交网络成为信息传播的重要渠道.人们通过智能终端发表观点,表达意见,与之相伴产生的网络舆情问题已经成为相关机构关注的热点.以新浪微博为例,截至2019年底,微博月活跃用户达到5.16 亿,其海量舆情数据已经达到了让任何部门、机构都无法忽视的地步.当前基于舆情热度的研究多数是针对一些具体的热门事件或热门话题,无法从宏观的角度把握目标群体的整体舆情动态,以广义的舆情“关键词”作为热度的研究对象,如“手机”、“农产品”、“房价”、“比特币”、“疫情”等,对企业产品精准营销,政府部门舆情监测将更具有宏观指导意义.目前对公众开放的基于关键词的大数据分析平台主要有百度指数、微指数、头条指数等,这类平台虽然能够提供一些关键词的分析数据,但由于侧重点不同,并不能满足对舆情热度需求的个性化分析.为此,本文以微博数据为基础,提出了一种结合因子分析、遗传算法的Elman 网络模型对舆情关键词热度进行分析预测,以期为相关决策提供支持.

1 研究现状

通过相关研究文献的梳理,网络舆情热度的研究方法主要有两类:

一类是根据事物发展的规律,基于时间序列挖掘自身历史数据进行热度的分析和预测.王宁等[1]采用灰色系统理论拟合时间序列指数对诉讼案件热度进行了预测和分级管理问题.陈福集等[2]采用改进的ABCBP 模型对“天津港爆炸事件”的百度指数热度走势进行了预测研究.刘巧玲等[3]通过一种改进SIR 传染病传播模型,以“魏则西”事件发生前三天的数据来预测事件后续传播趋势.高颖[4]采用LS-SVM 算法对2018年哈尔滨市发生的“8.25”火灾事件进行回归建模从而预测其短期热度值.这些针对特定事件的舆情热度预测方法均能取得较好的预测效果,但对于舆情关键词这种宽泛的指标,并不符合特定事件舆情热度从产生、爆发到衰退的规律,时间序列越长,信息越分散,其波动更多呈“随机”状态.虽然林育曼等[5]构造了ARIMABP 神经网络模型将预测对象视为随机序列来近似逼近,取得较好的拟合效果.但对于突发值的预测往往不是很准确.

另一类是通过挖掘自身数据特征,找到与舆情热度的关联关系,从而进行热度的分析和预测.郑志蕴等[6]提出一种基于多特征的热门微博预测算法,利用信息增益算法对微博特征热度进行度量,结BP 神经网络来预测是否为热门微博.谢修娟等[7]提出一种基于密度的K-means 算法从微博内容中抓取热词,分析舆情热点.兰月新等[8]基于灰色关联度方法构建网络舆情热度模型,定性分析了网络舆情热度影响因素.这些方法通过自定义热度计算公式,采用分类和聚类算法预测的舆情热度的发展趋势,都具备较高的准确率和稳定性,但由于没有客观指标的量化分析,对于舆情关键词的热度研究存在一定的局限性.同时各特征对热度指标的究竟有多大的贡献还需进一步研究分析.

针对以上研究存在的局限,本文以新浪微博为例,设计了一种新的组合模型可有效提高网络舆情关键词热度的预测精度.首先选取并量化影响舆情关键词热度的特征指标,采用因子分析方法提取其中贡献较大的影响因子,剔除影响预测精度的噪声冗余,然后将影响因子输入到Elman 网络中计算预测结果.为进一步提高预测精度,一方面通过增加神经元个数来反馈调节模型预测结果,另一方面利用遗传算法优化网络权值和初始参数,最终实现舆情热度及其发展趋势的预测.

2 模型构建

2.1 特征量化

以新浪微博公开可挖掘数据为例,与舆情热度有关的特征一般包括博主特征、博文特征和传播特征.博主特征包括博主ID(或昵称)、博主类型(即认证身份)、关注数、粉丝数和微博数等[9],博主特征决定了它的受众范围,即热度传播的广度.博文特征包括博文的长度、博文元素(图片、视频、链接、表情符号)、博文内容(所表达的情感)以及发布时间,一般博文长度和舆情热度呈正相关态势,博文所含元素越丰富越能吸引读者的关注,内容情感的表达可以引起读者的共鸣,可以说博文特征决定了舆情热度的传播强度.传播特征包括微博的转发数、评论数、点赞数以及发布平台(PC 端、手机端等)[10],传播特征是舆情热度最直接的反映,决定的舆情热度最终传播的深度.为了能更好的分析热度影响因素,需要将特征信息中非量化信息进行量化,如表1所示,根据这些信息对热度的影响关系,从高到低依次赋分.

博文长度可根据字符统计个数直接赋分,博文内容的情感强度计算依据的是博文内容中所表达的正面和负面情感词汇统计,采用中国科学院计算机所软件室编写的中文分词工具ICTCLAS[11],对所有微博内容进行情感词汇统计.一般情感强度定义公式可由式(1)表示:

其中,E为情感强度得分,epos为正面得分,eneg为负面得分,ω为权重系数,可以按照副词的强弱程度分类[12].

表1 非量化信息赋值表

2.2 因子分析

由于各特征信息所携带的信息量对舆情热度预测的贡献率以及关联度差异较大,从而会影响最终的预测结果,同时信息中的噪声和冗余也会影响预测结果的精度.因子分析采用潜在的假想变量和随机影响变量的线性组合表示原始变量,通过提取其中具有较高贡献率的因子来进行预测分析,既能反映舆情热度的真实情况,又可以过滤影响结果的冗余信息,从而提高预测精度[13].

首先根据所采集到的特征信息,可视为随机特征向量x=(x1,x2,···,xn)T,其均值为µ=(µ1,µ2,···,µn)T,协差阵为S=σij,因子分析的模型如下表示:

其中,f1,f2,···,fn为公共因子,ε1,ε2,···,εn为特殊因子,彼此都不相关,每个因子只对当前原始变量起作用,用矩阵形式表示为:

其中,A为因子荷载矩阵.然后采用主成分法进行参数估计,通过求解其特征根(i=1,2,···,n)和相应的正交单位特征向量为(i=1,2,···,n),选取保留较多原始信息的因子数m,计算其贡献率G.

当贡献率G达到一个较高的百分比,协差阵为S可作如下的近似分解:

其中,

式中,和就是因子模型的一个解.

为了能更清楚的了解各公共因子的物理解释意义,采用最大方差法对因子荷载阵进行旋转,使因子荷载阵的结构简化,荷载矩阵中每列或行的元素平方值向0和1 两极分化.令 Γ为正交阵,做正交变换求解:

A的行元素平方和为令i=1,2,···,n;j=1,2.

定义因子荷载矩阵A的方差为:

最后,采用回归的方法将式(3)转化为:

其中,β为因子的得分系数,F为各因子的最终得分.利用提取的公因子进行预测分析不仅达到了降维的目的,而且每个因子都具备物理解释意义,更有利于舆情热度影响因素的分析.

2.3 Elman 网络

2.3.1 Elman 网络结构设计

Elman 模型结构中不仅包含输入层、中间层(即隐含层)和输出层,还包含记载中间层历史信息的承接层[14],相较于一般静态神经网络具有动态特性好,逼近速度快等特点.当然,Elman 网络自身缺少对输入输出层的反馈而忽略了其对最终结果的影响[15],可以通过增加神经元个数,利用所有层的历史信息来反馈调节模型预测结果,其网络结构如图1所示.

标准Elman 网络非线性状态空间表达式为[16]:

其中,ω为各层连接权值矩阵,f(∗)为中间层传递函数,g(∗)为输出层传递函数.增加神经元后,其改进结构状态空间表达式为:

其中,α、β、γ为反馈增益因子.

图1 Elman 网络结构图

2.3.2 GA_Elman 算法设计

虽然通过改进Elman 网络结构可以充分利用中间层信息对预测模型进行反馈调节,但也由此增加了网络参数数量,其预测结果更容易受到网络权值和初始参数的影响,而且Elman 网络采用的梯度下降算法容易陷入局部最优解[17].借助遗传算法理论上可以扩大到整个解空间范围来寻找最优解.由于遗传算法中每个种群个体都包含了Elman 网络的所有权值和参数,个体通过适应度函数计算适应度值,通过选择合适的种群规模并利用迭代的方式进行选择、交叉和变异等运算就可以找到其最优适应度对应的个体,即最优权值参数.GA_Elman 算法的主要训练流程如图2所示.

图2 GA_Elman 算法流程

根据2.3.1 节中式(13)～式(17),可知遗传算法需要对6 个网络权值矩阵和3 个反馈增益因子进行训练计算,将预测输出和期望输出误差绝对值的倒数作为适应度函数,计算公式为:

其中,n为网络输出节点数,yi为第i个节点预测输入,E(yi)为第i个节点期望输出,k为样本系数.式(19)中选择误差的绝对值和没有采用误差平方主要是为了筛除种群中适应度受到输入数据中离群点和异常值影响的个体.此外,染色体选择方法采用轮盘赌法,即基于适应度比例的选择策略[18].

3 实验分析

3.1 实验数据处理

本实验由课题小组基于Python 语言开发的爬虫工具来获取新浪公开发布的微博数据,以2020年热度始终在持续的“疫情”为关键词,爬取从2020年1月21日至2020年4月27日的每天热门微博作为实验数据,共采集到67 238 条数据.按照2.1 节特征量化的方式对数据进行预处理,以日期为标签可汇总成98 组数据,每组数据可提取13 个可量化特征.

由于新浪微博仅对博主自身开放微博“浏览量”这一热度数据,无法从公开数据中采集到,因此本文分别选择和舆情热度密切相关的全网“博文数”和博主的博文“点赞数”作为目标特征,构造2 个实验来对结果分析比对,以验证方法的客观有效性,构造方式如表2所示.

表2 实验构造方式

实验采用均方误差(MSE)和判定系数(R2)作为评价标准,其公式如下所示:

其中,yi为的目标值,pi的预测值,SST为总平方和,SSR为回归平方和,SSE为残差平方和.

3.2 博文数预测结果分析

根据2.2 节式(2)-式(4)提取各公共因子并计算累积率,如表3所示.

表3 因子成分表

表3中显示了各主成分解释原始变量总方差的情况,为了尽可能保留原始特征信息,同时又达到降维去噪的目的,经过比较实验,选择保留前6 个因子的实验效果最佳,因篇幅有限,分析比较的实验过程不再赘述.由式(5)-式(9)得到旋转后的因子成分表,如表4所示.

从表4中可比较清晰的看出各成分的物理解释意义,成分1 可以认为是博主自身的影响力因子,成分2是平台影响因子,成分3是微博自身热度影响因子,成分4为受众面影响因子,成分5为博文内容影响力因子,成分6为微博传播持久力影响因子.

表4 旋转后的成分矩阵

为了更好的检验预测效果,将清洗处理后的数据随机分成两组,前83 组为训练集,后15 组为测试集,然后分别对原始特征数据采用Elman 算法预测(记为Elman),再对提取的公因子采用Elman 算法(记为FA_Elman)和改进后的Elman 算法(记为FA_GA_Elman)进行预测结果比对,实验中遗传算法的种群规模为100,交叉概率选择为0.3,变异概率选择为0.2,迭代次数为500.其结果对比如图3所示,评价指标对比如表5所示.

图3 发博数预测结果与真实值的比较

表5 发博数预测评价指标比较

从预测结果及评价指标中可以看出,采用公因子作为训练特征其预测精度要优于直接以原始数据作为训练特征,而改进后的Elman 算法预测精度要优于标准Elman 算法,而且经过遗传算法优化后的Elman 网络在预测结果上要比标准Elman 网络稳定许多.

3.3 点赞数预测结果分析

为更好检验本方法对于点赞数预测的有效性,在数据集中综合选择了拥有较多粉丝数量且周期内发博数量稳定的前十名热门博主,对其每天点赞数量进行预测,将FA_Elman和FA_GA_Elman 预测结果进行比对.由于各博主不一定每天发布相关微博,统一取15 组数据作为测试集,其余数据作为训练集,其预测结果如图4所示.

从图4中可以看出,FA_Elman和FA_GA_Elman的预测结果与真实值比较均具有较好的拟合度,而且对于突发值也能很好地反映其真实趋势.表6给出了评价指标的对比结果以及各因子贡献率,从中可以看出FA_GA_Elman 预测精度要优于FA_Elman,同时也表明通过因子分析,可以从数据集中提取出影响舆情热度的内在因子,消除噪声干扰,从而达到良好的预测效果.以人民日报点赞数预测为例,经过训练后,其网络参数如表7所示,优化后网络参数权值范数要小于优化前的网络参数权值,说明优化后的网络具有更好的泛化性能.

4 结论

新时期,网络舆情具有信息规模大,传播速度快,参与范围广,实时交互强等特点,把握舆情热度无论对企业的经营策略,还是社会的公共安全都极为重要.本文结合了因子分析和GA_Elman 网络的特点,提出了一种能有效预测舆情关键词热度的模型,首先采用因子分析方法揭示数据背后影响舆情热度的真正内因,然后通过改进Elman 网络结构并利用遗传算法优化网络权值参数,训练输出特征目标预测值.根据不同模型的实验结果对比,本文提出的方法能有效的预测基于关键词的舆情热度,预测精度更高,具备一定的应用价值.未来将进一步扩充数据集,以期为相关研究提供个性化的预测分析方案.