APP下载

基于大数据技术的网络舆情分析系统研究

2021-11-21

无线互联科技 2021年2期
关键词:爬虫网页舆情

(遵义师范学院,贵州 遵义 563000)

0 引言

大数据技术为人们日常生活与工作带来很多便利,从当前我国社会发展可以看出,互联网已经在全国范围内得到普及。在网民的网络生活中,微信以及微博成为其中的重要组成部分,而且还有很多网民会在社交网站以及论坛中,发表自身的看法与意见。百分之八十的网民,会讨论社会中刚刚发生的新闻与热点事件,这也在一定程度上说明,网络已经成为人民群众的思想文化聚集地,以及社会舆情的传播地。基于此,本文将针对大数据技术下的网络舆情分析系统相关内容进行阐述。

1 大数据技术和网络舆情的概述

1.1 大数据技术概述

大数据技术主要是指数据量以及规模超过传统,而且无法使用主流软件对数据量进行整理与分析。政府部门及企业可以通过大数据技术对数据信息进行有效处理,并制定有效的经营发展方案以及管理方式等。大数据技术有着属于自身的特点,比如:数量巨大、种类繁多、价值低、密度低以及流通速度快。国外的Hadoop平台具有可靠性、高效性与可伸缩性特点,可以实现对数据的专门处理。这一平台包含许多不同组件,比如多种存储节点,即可以在一个节点中实现对不同节点数据信息的收集与处理。众多的廉价计算机群可以在系统有需要的时候,增加处理节点。

1.2 网络舆情概述

网络舆情通常情况下主要是指互联网中的网民针对社会发生的热点新闻事件,尤其是与网民自身切身利益相关的热点事件、国家政策等,所表现出的情绪、观点以及意见等,此类舆情具有一定倾向性特点,而舆情就是不同态度与观点的总和[1]。具有以下几个特点:广泛性特点,舆情可以在全国范围内迅速传播;参与者类型广泛且分布广泛;突发性特点,如果在某个地区发生突发事件,那么该事件可能就是社会舆情的发源地;主观性特点,主观性特点主要是因为社会舆情中的内容以及观点具有较强主观性;多元化特点,多元化特点主要表现在社会参与者有着不同的态度与观点,而且社会舆情的传播方式与表达方式也存在一定不同。在如今社会发展中,社会舆情数量以及内容每年都在增多。怎样尽早发现社会舆情,同时更好引导社会舆情,是如今政府部门面临的一个重要问题。在此背景下,就要对大数据技术进行合理应用,更好地处理与解决网络舆情相关问题。

2 大数据技术下的网络舆情分析系统

2.1 系统功能

在大数据技术背景下,网络舆情分析系统的功能主要包含以下几点。

2.1.1 数据采集功能

在网络舆情分析系统中,数据采集功能是最为基本的功能模块,主要工作就是对论坛、贴吧以及微信、微博中的舆情信息进行采集。在大数据背景下的网络舆情分析系统,不仅要对传统搜索引擎爬虫进行合理应用,使得下载网页全面性得到保障,同时还要利用聚焦爬虫,提升采集信息的有效性与精准性。还可以利用设置黑名单与白名单的方式,将有效的URL链接保留,实现对新信息的有效搜索。在Web信息抓取过程中,最主要是对网页中的两种信息进行采集,分别是文章内容信息以及版块列表信息。通过对信息的采集,为后续工作展开打下良好基础。

2.1.2 预处理功能

在网络舆情分析系统中,预处理功能模块属于数据信息的准备阶段。该功能模块的主要工作为对采集到的网页信息进行去重处理、预处理与去噪预处理,然后得到相应文本向量集[2]。新闻网页、论坛网页以及微博网页实际结构存在不同,因此,要将与文本无关的HTML源码清洗,将与舆情相关的信息,比如:信息发布时间、内容摘要信息等保留。与此同时,能够将没有意义的网页信息以及重复的网页信息及时过滤,防止噪声干扰问题出现,确保数据信息科学性。

2.2 关键技术

对于网络舆情分析系统中的关键技术,本文主要从以下几点进行阐述与分析。

2.2.1 舆情数据采集技术

舆情数据采集技术主要对舆情主体进行明确,同时选择采集起点,舆情数据采集技术是网络舆情分析系统中的重要组成部分,可以为后续数据处理工作,以及数据分析工作打下良好基础。舆情数据采集技术的主要工作原理就是,能够从初始URL中,获取其中的页面信息,然后将页面信息存储到本地系统中,并对页面结构以及页面内容进行分析,实现对其中网页链接提取,并将其作为新的URL[3]。目前所使用的网络爬虫有不同方式,比如:主题爬虫、增量式爬虫等,不同爬虫方式有着属于自身的特点与优势,具体爬虫技术的选择要结合网络舆情实际情况展开。

2.2.2 舆情数据预处理技术

在使用网络爬虫技术对网页中的信息进行抓取过程中,实际页面结构以及页面内容存在很大不同,有很多数据信息根本达不到分析要求。在此背景下,就要对舆情数据预处理技术进行合理应用,为后续数据信息分析提供保障[4]。舆情数据预处理技术主要是对网页信息进行有效处理,避免噪声、重复等情况的出现,并在网页中对正文信息进行有效处理,对于提取到的数据信息进行文本预处理以及文本向量化。比如,在文本预处理中,需要对中文分词技术进行合理应用,对采集到的文本字符串进行有效切分,将其转化为由不同单词组成的词集合。与此同时,可以将集合中包含的停用词去除,对不同词在文本中出现的频率次数进行有效统计,这就是人们所熟知的词频,词频可以生成倒排索引文件,从而促使文本预处理工作能够更好完成。

2.2.3 舆情智能分析技术

舆情智能分析技术是网络舆情分析系统中的核心技术,主要工作就是对话题进行识别与跟踪、发现热点话题,同时对文本倾向进行分析。话题识别主要是通过对预处理模块的应用,获得相应文本向量集,并使用机器进行学习。将相同类型的事件汇总到文档中,并识别其中的舆情话题。在这一过程中,可以使用Hadoop平台,将文本向量集划分成为不同的小块,并与中心文件一同发送给Map函数,从而开展相应计算工作。Map能够将小块中的数据分配到距离最近的中心点中,通过键值对方式,向Reduce传递,从而展开规划求均值工作,将最终结果作为全新的聚类中心[5]。话题跟踪主要是指,对后续更新的向量化文本进行有效检测,同时做好相似度计算工作,对与已经存在话题的相似度进行判断。如果相似度已经达到规定值,那么可以将此类文本归纳到该话题当中。如果相似度没有达到规定值,那么可以将其作为全新的话题进行归类。在这一过程中,要对话题评论数量、转载情况以及点赞情况进行分析,然后计算热度指标,结合热度指标做好排序工作,进而对热点话题进行筛选。

2.2.4 舆情预测预警技术

舆情预测预警技术主要是将舆情智能分析结果展现出来,在对某一热点新闻、事件或者舆情进行监督过程中,如果用户达到设定的报警值,那么系统将会自动生成相应舆情报告,该舆情报告会通过邮件方式或者信息方式,通知工作人员。工作人员在接到通知后,可以对问题进行有效处理。

2.3 模型设计

在具体的模型设计中,要注意以下几点问题:(1)信息抓取要确保全面性。如今的网络舆情有着属于自身的特点,比如:规模大、类型多、网页数量多等。因此,在实际模型设计中,要对信息的全面抓取进行考虑。确保能够从网页、音频、图片以及结构化数据、半结构化数据中,对信息进行有效抓取,并对存储器以及网络爬行器进行创新与优化。(2)确保应对舆情信息的时效性。从目前网络的快速发展中可以看出,网络舆情灵活多变,传统舆情分析系统模型已经不适合,当今时代发展,尤其是网页以及图片中隐藏的信息,更是无法及时被发现与抓取[6]。基于此,在模型设计工作开展中,要考虑系统应对舆情信息的实效性,实现对其中隐藏信息的有效抓取,这样才能实现对网络舆情的有效引导。(3)保证分析有效性。有效的网络舆情分析软件,可以帮助企业以及政府部门尽快获取网络中的热点事件以及相关信息。这样在舆情爆发之前,能够进行有效控制,同时将舆情影响控制在有效范围之内。基于此,在模型设计过程中,要对舆情信息分析的有效性进行全面了解,确保模型设计的合理性。

3 结语

综上所述,网络舆情分析系统对于网络舆情分析,实现对网络舆情有效引导具有重要作用。因此,为使得网络舆情分析系统设计的科学性与合理性得到保障,在实际设计工作开展中,要对大数据技术进行合理应用。将技术优势发挥出来,实现对不同数据的有效抓取,为网络的健康稳定发展打下良好基础。

猜你喜欢

爬虫网页舆情
利用网络爬虫技术验证房地产灰犀牛之说
基于Python的网络爬虫和反爬虫技术研究
基于CSS的网页导航栏的设计
利用爬虫技术的Geo-Gnutel la VANET流量采集
基于URL和网页类型的网页信息采集研究
大数据环境下基于python的网络爬虫技术
舆情
舆情
舆情
网页制作在英语教学中的应用