基于大数据的网络舆情分析方法研究

2020-12-29刘斌

电脑知识与技术 2020年30期

刘斌

摘要：网络舆情是网络上人们对某个问题或现象而发表言论的一种方式。可以通过对分析网络舆情提供给政府和企业的决策者以帮助。但随着网络信息的爆炸式增长，传统的数据处理方式已经难以胜任网络舆情分析的工作，需要通过如Hadoop这样的大数据平台进行处理和分析。Mahout作为Hadoop中高维度、海量、复杂数据的处理算法集。可以有效地处理网络舆情的海量数据。因此，该文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情分析方法。

关键词：大数据;舆情分析;Hadoop

中图分类号：G350 文献标识码：A

文章编号：1009-3044（2020）30-0025-02

1背景

网络舆情是人们在网络上对社会现象、问题、热点话题和观点等情绪反应。通过对网络與情的分析，我们可以预测未来将要发生什么。据此决策者的正确决策将对政府和企业提供有力的帮助。随着网络信息的爆炸式增长，需要使用Hadoop这种大数据处理平台[1-3]来代替传统的舆情分析处理方法。

Hadoop平台架构如图1所示。Hadoop作为通用的大数据处理平台包含众多组件，其中最为重要的如表1所示。这些组件可以高效处理大数据中的需要解决的几乎所有问题。

多数情况下，网络與情数据是由海量的文本消息组成，传统的算法难以处理如此高维度和海量的数据集。Mahout（图2所示）[4]是作为基于Hadoop的挖掘大规模和复杂数据的算法集，可以被用于进行网络舆情数据挖掘。数据集中的文本特征的提取也是與情分析的重要部分。TF-Gini[5]文本特征提取算法在处理短消息等小文本上具有很好的表现。因此本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行文本挖掘网络與情数据分析方法。

2 系统架构

根据传统的网络舆情分析系统（如图3所示）结合大数据处理的方法，本文设计的数据网络舆情分析系统分为三个阶段，分别为系统准备阶段、系统处理阶段和系统分析阶段（如图表2所示）。系统整体结构如图4所示。

（1）对已有的舆论数据集进行分类和聚类分析得到该主题的关键词词典;

（2）根据关键词词典在微博、微信、qq、twitter和facebook等社交媒体抓取消息;

（3）将所有得到的消息分类保存到文档集中。处理阶段（1）对html和其他格式消息转化为文本格式;

（2）使用TF-Gini算法选取词语特征保存到文本库中;

（3）使用Hadoop Mahout的文本挖掘算法处理文本库中的数据，将挖掘的结果保存在文本特征库中。这是系统最重要的部分。分析阶段（1）从文本特征库中生成可视化分析结果;

（2）根据可视化分析结果生出舆情分析报告;

（3）根据舆情分析报告，决策者可以对未来做出决策。 ]

本文的大数据网络與情分析系统主要使用TF-Gini的文本特征提取算法和Hadoop Mahout文本挖掘算法。其余部分使用如NLTK、Wordnet、HowNet等开源软件实现。

3 系统核心算法

本文大数据的與情分析系统的核心算法主要是TF-Gini的文本特征提取算法，Hadoop Mahout聚类、分类和模式识别算法。

3.1 文本特征提取算法

本文使用TF-Gini算法来来提取文本特征信息，实现大数据网络舆情分析系统。TF-Gini是经典的分类特征权重计算方法TFIDF的改进算法。用以解决TF-IDF不适合短文本分类的问题。TF-IDF计算公式如下：

3.2 Mahout聚类算法

3.2.1 K-Means聚类算法

作为广泛使用的聚类算法K-Means算法[6]的思想是：随机选择K个对象，表示集群中心。其余的对象根据其与每个群集中心的距离，划分为最小的距离群集中心，而后重新计算每个群中心。以此重复，直到聚类函数收敛。聚类收敛标准函数有两种形式：

4结束语

网络舆情分析在网络社会中发挥着重要作用。人们通过互联网表达自己观点。随着互联网大数据时代的到来，传统的舆情分析方法已经不再适用。需要使用大数据方法来进行舆情分析。本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情数据的文本挖掘方法。该方法可以解决海量网络舆情数据处理问题。但该方法并不适用于非文本数据，这也是未来研究的方向。

参考文献：

[1] 黄晓斌，赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学，2009，27（1）：94-99.

[2] TaoT.Research on method of internet public opinion analysis based on big data[J].Journal of Modern Information，2014，4，34（3）：3-6.

[3] Broniatowski D A，Paul M J，Dredze M.Twitter：big data opportunities[J].Science，2014，345（6193）：148.

[4] Owen S，Anil R，Dunning T，et al.Mahout in Action[M]Manning Publications，2011

[5] 任国锋，李德华，潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程，2010，38（12）：8-13.

[6] WuX，KumarV，QuinlanJ R，et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems，2007，14（1）：1-37.

[7] Ng A Y，Jordan M I，Weiss Y.On Spectral Clustering： Analysis and an algorithm[C]//Advances in Neural Information Processing Systems 14，2001：849-856.

[8] 赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].電子科技，2014，27（2）：29-31.

[9] McCallumA，NigamK.A Comparison of Event Models for Naive Bayes Text Classification[C].Proceedings in Workshop on Learning for Text Categorization， AAAI98，1998：41-48.

[10] Agrawal R，Imielinski T，Swami A N.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data，1993，22：207-216.

[11] Mahout之聚类Canopy分析[EB/OL].（2011-10-24）[2020-03-16].https：//blog.csdn.net/yclzh0522/article/details/6839643.

[12] 赵晨婷，马春娥.探索推荐引擎内部的秘密（第3部分）：深入推荐引擎相关算法-聚类[EB/OL].（2011-03-24）[2020-04-13].https：//www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/.

【通联编辑：谢媛媛】

猜你喜欢

大数据

大数据环境下基于移动客户端的传统媒体转型思路

电脑知识与技术

2020年30期

基于大数据的网络舆情分析方法研究

猜你喜欢

杂志排行

电脑知识与技术的其它文章