基于大数据的网络舆情分析方法研究
2020-12-29刘斌
刘斌
摘要:网络舆情是网络上人们对某个问题或现象而发表言论的一种方式。可以通过对分析网络舆情提供给政府和企业的决策者以帮助。但随着网络信息的爆炸式增长,传统的数据处理方式已经难以胜任网络舆情分析的工作,需要通过如Hadoop这样的大数据平台进行处理和分析。Mahout作为Hadoop中高维度、海量、复杂数据的处理算法集。可以有效地处理网络舆情的海量数据。因此,该文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情分析方法。
关键词:大数据;舆情分析;Hadoop
中图分类号:G350 文献标识码:A
文章编号:1009-3044(2020)30-0025-02
1背景
网络舆情是人们在网络上对社会现象、问题、热点话题和观点等情绪反应。通过对网络與情的分析,我们可以预测未来将要发生什么。据此决策者的正确决策将对政府和企业提供有力的帮助。随着网络信息的爆炸式增长,需要使用Hadoop这种大数据处理平台[1-3]来代替传统的舆情分析处理方法。
Hadoop平台架构如图1所示。Hadoop作为通用的大数据处理平台包含众多组件,其中最为重要的如表1所示。这些组件可以高效处理大数据中的需要解决的几乎所有问题。
多数情况下,网络與情数据是由海量的文本消息组成,传统的算法难以处理如此高维度和海量的数据集。Mahout(图2所示)[4]是作为基于Hadoop的挖掘大规模和复杂数据的算法集,可以被用于进行网络舆情数据挖掘。数据集中的文本特征的提取也是與情分析的重要部分。TF-Gini[5]文本特征提取算法在处理短消息等小文本上具有很好的表现。因此本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行文本挖掘网络與情数据分析方法。
2 系统架构
根据传统的网络舆情分析系统(如图3所示)结合大数据处理的方法,本文设计的数据网络舆情分析系统分为三个阶段,分别为系统准备阶段、系统处理阶段和系统分析阶段(如图表2所示)。系统整体结构如图4所示。
(1)对已有的舆论数据集进行分类和聚类分析得到该主题的关键词词典;
(2)根据关键词词典在微博、微信、qq、twitter和facebook等社交媒体抓取消息;
(3)将所有得到的消息分类保存到文档集中。 处理阶段 (1)对html和其他格式消息转化为文本格式;
(2)使用TF-Gini算法选取词语特征保存到文本库中;
(3)使用Hadoop Mahout的文本挖掘算法处理文本库中的数据,将挖掘的结果保存在文本特征库中。这是系统最重要的部分。 分析阶段 (1)从文本特征库中生成可视化分析结果;
(2)根据可视化分析结果生出舆情分析报告;
(3)根据舆情分析报告,决策者可以对未来做出决策。 ]
本文的大数据网络與情分析系统主要使用TF-Gini的文本特征提取算法和Hadoop Mahout文本挖掘算法。其余部分使用如NLTK、Wordnet、HowNet等开源软件实现。
3 系统核心算法
本文大数据的與情分析系统的核心算法主要是TF-Gini的文本特征提取算法,Hadoop Mahout聚类、分类和模式识别算法。
3.1 文本特征提取算法
本文使用TF-Gini算法来来提取文本特征信息,实现大数据网络舆情分析系统。TF-Gini是经典的分类特征权重计算方法TFIDF的改进算法。用以解决TF-IDF不适合短文本分类的问题。TF-IDF计算公式如下:
3.2 Mahout聚类算法
3.2.1 K-Means聚类算法
作为广泛使用的聚类算法K-Means算法[6]的思想是:随机选择K个对象,表示集群中心。其余的对象根据其与每个群集中心的距离,划分为最小的距离群集中心,而后重新计算每个群中心。以此重复,直到聚类函数收敛。聚类收敛标准函数有两种形式:
4结束语
网络舆情分析在网络社会中发挥着重要作用。人们通过互联网表达自己观点。随着互联网大数据时代的到来,传统的舆情分析方法已经不再适用。需要使用大数据方法来进行舆情分析。本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情数据的文本挖掘方法。该方法可以解决海量网络舆情数据处理问题。但该方法并不适用于非文本数据,这也是未来研究的方向。
参考文献:
[1] 黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,27(1):94-99.
[2] TaoT.Research on method of internet public opinion analysis based on big data[J].Journal of Modern Information,2014,4,34(3):3-6.
[3] Broniatowski D A,Paul M J,Dredze M.Twitter:big data opportunities[J].Science,2014,345(6193):148.
[4] Owen S,Anil R,Dunning T,et al.Mahout in Action[M]Manning Publications,2011
[5] 任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13.
[6] WuX,KumarV,QuinlanJ R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2007,14(1):1-37.
[7] Ng A Y,Jordan M I,Weiss Y.On Spectral Clustering: Analysis and an algorithm[C]//Advances in Neural Information Processing Systems 14,2001:849-856.
[8] 赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.
[9] McCallumA,NigamK.A Comparison of Event Models for Naive Bayes Text Classification[C].Proceedings in Workshop on Learning for Text Categorization, AAAI98,1998:41-48.
[10] Agrawal R,Imielinski T,Swami A N.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data,1993,22:207-216.
[11] Mahout之聚类Canopy分析[EB/OL].(2011-10-24)[2020-03-16].https://blog.csdn.net/yclzh0522/article/details/6839643.
[12] 赵晨婷,马春娥.探索推荐引擎内部的秘密(第3部分):深入推荐引擎相关算法-聚类[EB/OL].(2011-03-24)[2020-04-13].https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/.
【通联编辑:谢媛媛】