APP下载

基于大数据的网络舆情分析方法研究

2020-12-29刘斌

电脑知识与技术 2020年30期
关键词:大数据

刘斌

摘要:网络舆情是网络上人们对某个问题或现象而发表言论的一种方式。可以通过对分析网络舆情提供给政府和企业的决策者以帮助。但随着网络信息的爆炸式增长,传统的数据处理方式已经难以胜任网络舆情分析的工作,需要通过如Hadoop这样的大数据平台进行处理和分析。Mahout作为Hadoop中高维度、海量、复杂数据的处理算法集。可以有效地处理网络舆情的海量数据。因此,该文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情分析方法。

关键词:大数据;舆情分析;Hadoop

中图分类号:G350      文献标识码:A

文章编号:1009-3044(2020)30-0025-02

1背景

网络舆情是人们在网络上对社会现象、问题、热点话题和观点等情绪反应。通过对网络與情的分析,我们可以预测未来将要发生什么。据此决策者的正确决策将对政府和企业提供有力的帮助。随着网络信息的爆炸式增长,需要使用Hadoop这种大数据处理平台[1-3]来代替传统的舆情分析处理方法。

Hadoop平台架构如图1所示。Hadoop作为通用的大数据处理平台包含众多组件,其中最为重要的如表1所示。这些组件可以高效处理大数据中的需要解决的几乎所有问题。

多数情况下,网络與情数据是由海量的文本消息组成,传统的算法难以处理如此高维度和海量的数据集。Mahout(图2所示)[4]是作为基于Hadoop的挖掘大规模和复杂数据的算法集,可以被用于进行网络舆情数据挖掘。数据集中的文本特征的提取也是與情分析的重要部分。TF-Gini[5]文本特征提取算法在处理短消息等小文本上具有很好的表现。因此本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行文本挖掘网络與情数据分析方法。

2 系统架构

根据传统的网络舆情分析系统(如图3所示)结合大数据处理的方法,本文设计的数据网络舆情分析系统分为三个阶段,分别为系统准备阶段、系统处理阶段和系统分析阶段(如图表2所示)。系统整体结构如图4所示。

(1)对已有的舆论数据集进行分类和聚类分析得到该主题的关键词词典;

(2)根据关键词词典在微博、微信、qq、twitter和facebook等社交媒体抓取消息;

(3)将所有得到的消息分类保存到文档集中。 处理阶段 (1)对html和其他格式消息转化为文本格式;

(2)使用TF-Gini算法选取词语特征保存到文本库中;

(3)使用Hadoop Mahout的文本挖掘算法处理文本库中的数据,将挖掘的结果保存在文本特征库中。这是系统最重要的部分。 分析阶段 (1)从文本特征库中生成可视化分析结果;

(2)根据可视化分析结果生出舆情分析报告;

(3)根据舆情分析报告,决策者可以对未来做出决策。 ]

本文的大数据网络與情分析系统主要使用TF-Gini的文本特征提取算法和Hadoop Mahout文本挖掘算法。其余部分使用如NLTK、Wordnet、HowNet等开源软件实现。

3 系统核心算法

本文大数据的與情分析系统的核心算法主要是TF-Gini的文本特征提取算法,Hadoop Mahout聚类、分类和模式识别算法。

3.1 文本特征提取算法

本文使用TF-Gini算法来来提取文本特征信息,实现大数据网络舆情分析系统。TF-Gini是经典的分类特征权重计算方法TFIDF的改进算法。用以解决TF-IDF不适合短文本分类的问题。TF-IDF计算公式如下:

3.2 Mahout聚类算法

3.2.1 K-Means聚类算法

作为广泛使用的聚类算法K-Means算法[6]的思想是:随机选择K个对象,表示集群中心。其余的对象根据其与每个群集中心的距离,划分为最小的距离群集中心,而后重新计算每个群中心。以此重复,直到聚类函数收敛。聚类收敛标准函数有两种形式:

4结束语

网络舆情分析在网络社会中发挥着重要作用。人们通过互联网表达自己观点。随着互联网大数据时代的到来,传统的舆情分析方法已经不再适用。需要使用大数据方法来进行舆情分析。本文提出了利用TF-Gini提取文本特征和Mahout核心算法进行网络與情数据的文本挖掘方法。该方法可以解决海量网络舆情数据处理问题。但该方法并不适用于非文本数据,这也是未来研究的方向。

参考文献:

[1] 黄晓斌,赵超.文本挖掘在网络舆情信息分析中的应用[J].情报科学,2009,27(1):94-99.

[2] TaoT.Research on method of internet public opinion analysis based on big data[J].Journal of Modern Information,2014,4,34(3):3-6.

[3] Broniatowski D A,Paul M J,Dredze M.Twitter:big data opportunities[J].Science,2014,345(6193):148.

[4] Owen S,Anil R,Dunning T,et al.Mahout in Action[M]Manning Publications,2011

[5] 任国锋,李德华,潘莹.一种改进的基尼指数特征权重算法[J].计算机与数字工程,2010,38(12):8-13.

[6] WuX,KumarV,QuinlanJ R,et al.Top 10 algorithms in data mining[J].Knowledge and Information Systems,2007,14(1):1-37.

[7] Ng A Y,Jordan M I,Weiss Y.On Spectral Clustering: Analysis and an algorithm[C]//Advances in Neural Information Processing Systems 14,2001:849-856.

[8] 赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].電子科技,2014,27(2):29-31.

[9] McCallumA,NigamK.A Comparison of Event Models for Naive Bayes Text Classification[C].Proceedings in Workshop on Learning for Text Categorization, AAAI98,1998:41-48.

[10] Agrawal R,Imielinski T,Swami A N.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data,1993,22:207-216.

[11] Mahout之聚类Canopy分析[EB/OL].(2011-10-24)[2020-03-16].https://blog.csdn.net/yclzh0522/article/details/6839643.

[12] 赵晨婷,马春娥.探索推荐引擎内部的秘密(第3部分):深入推荐引擎相关算法-聚类[EB/OL].(2011-03-24)[2020-04-13].https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy3/.

【通联编辑:谢媛媛】

猜你喜欢

大数据
大数据环境下基于移动客户端的传统媒体转型思路