APP下载

互联网舆情监控系统的设计与实现研究

2020-09-10李建新

看世界·学术下半月 2020年11期
关键词:互联网

摘要:现阶段,网民对互联网技术的发展情况十分关注,究其原因,主要是在互联网高速发展的背景下,网络热点和焦点话题的传播速度非常快,很容易被别有用心之人所利用,从而引发突发性问题。而互联网舆情监控系统的设计和实现,可以对上述情况进行预防和控制。本文以互联网舆情监控系统的设计与实现为主要研究内容,首先介绍网络舆情监控相关技术,然后对网络舆情监控系统功能框架设计和详细设计进行分析,希望为相关行业提供借鉴。

关键词:互联网;舆情监控系统;舆情预警

引言:在互联网普及应用的背景下,人人都是信息的制造者和传播者,网络也因此成为了众多舆论事件的发源地,微博、BBS、贴吧就产生了大量的舆情信息,所造成的社会影响十分巨大。由于网络舆情具有传播速度快、传播渠道多、异构性和复杂性等特点,因此对舆情信息正确性和传播范围进行控制的难度非常之高,面对众多舆情信息成为引发社会事件导火索的情况,应通过互联网舆情监控系统的设计和应用,从海量的舆情信息中挖掘有价值的数据,为政府部门管理网络舆情信息,提供技术方面的支持。在此背景下,对此项课题进行研究,其意义十分重大。

一、网络舆情监控相关技术简介

网络信息分类、网络信息分析、网络信息识别、网络信息跟踪等技术是互联网舆情监控系统所运用的技术,这些技术均属于计算机文本信息处理技术的范畴。接下来本文会对网络信息提取识别技术和网络爬虫技术进行简单介绍:

(一)网络舆情信息提取和识别技术

这项技术可以分析信息,这里所说的信息是指系统通过搜集所得到的网络舆情信息,如果舆情信息类型为网络新闻数据,则需要找出信息中与新闻有关的要素,主要包括时间、内容和标题。如果信息类型为网络论坛数据,所找出的内容主要是用户信息,比如:用户的ID、回复用户的ID等等,然后在信息数据库中保存这些数据即可。

在查阅资料后得知,一种将模板和自动机器识别相结合作为基础的信息提取方法,是舆情信息提取分析的实现方式。这种方法需要将启发式规则作为依据,然后通过自动识别的方式,对网络文本中不同属性舆论信息之间的分隔符进行处理,与此同时,在相应的模板中进行配置,并将模板作为依据,对相同类型的舆论网页信息加以分析和识别,最终以话题线索的方式保存即可。对网络舆论相关数据信息的描述就是话题线索,比如:网页点击率、帖子回复数量等。相较于传统提取技术而言,这种技术较为先进,在处理多结构类型的网络舆论网页数据信息时的效果极为显著。与此同时,还能促进舆论信息准确率和效率的提升,且這一目标的实现无需对算法进行修改,有利于满足不同用户的需求,并为研究提供信息数据上的支持。

总而言之,提取到的舆论数据信息是舆情信息分析识别的主要对象,在内容和行为识别的基础上,对舆情信息是否为需求信息进行判断,将判断结果作为依据,开展有针对性的舆情数据分析,可以取得良好的效果[1]。

(二)网络爬虫技术

在互联网技术高速发展的背景下,人们可以借助网络获取所需的各类信息,但有用信息仅占信息总量的少数,再加上信息始终增加,导致信息获取难度不断提升,几乎成为一件不可能的事情,在这种情况下,网络爬虫技术应运而生,实践应用结果表明,这项技术的应用,可以降低有价值信息获取的难度。

在本文所设计的舆情监控系统之中,网络爬虫技术起到了关键性的作用,具体表现为运用这项技术在网络中抓下正在更新的数据信息,满足舆情监控系统对信息数据的需求,为下一阶段工作的开展,创造有利的条件。

二、互联网舆情监控系统的设计与实现

(一)网络舆情监控系统功能框架的设计

舆论数据信息采集、预处理和分析处理是监控系统所具备的基础功能。除基础功能之外,系统还要对舆情信息未来发展趋势、传播方式和途径进行简单预测,同时,还能设置人工监控点,负责对重点区域的舆情信息事件进行监控,并在标记预警信息后,对其进行处理,处理措施包括跟踪、识别、提取和报告。本文将现行技术和标准作为依据,整理和归纳系统,在此基础上,设计出具有可行性的系统方案,使网络舆情监控系统功能框架设计需求得到明确。

网络舆情监控系统主要由四个功能模块构成,分别为采集系统、预处理系统、分析系统和应用系统。各系统功能如下所述:

1 采集系统:采集系统应用了网络爬虫技术,具备抓取和存储网络舆情信息数据的功能,且无需人工操作,可实现自动抓取。

2 信息预处理系统:以采集信息为对象,对其进行去重、关键词筛选和分析处理[2]。

3 监控分析系统:通过文本的方式对舆情数据进行表示,同时,还能识别和分析数据库内存储的数据,并在处理完成后向分析库中传递分析结果。

4 应用系统:实现用户交互功能。

(二)网络舆情监控系统功能模块的详细设计

舆情监控系统工作流就是所谓的数据流,由4个处理环节构成:(1)采集子系统会在网络中抓取舆情信息数据,并存储到本地数据库之中;(2)信息预处理子系统会对本地数据库中所存储的数据进行预处理,主要处理方法包括分析、识别和加工,简言之,就是将无用数据剔除,并通过建立索引的方式,降低后续处理难度;(3)将舆情监控系统的特定需求作为依据,分析和处理舆情信息和数据;(4)在客户端上呈现处理后的舆情数据,设计流程如图1所示。

1.信息采集功能的模块设计

论坛、微博和贴吧等网站是舆情信息的主要来源,信息采集功能模块在设计过程中,对API与网页抽取相结合的方法进行了应用,通过采集和管理关键词、话题语义、URL管理和过滤词典管理等方式,使分类归一管理的目标达成。在数据采集完成后,会在HBase数据库之中存储,采集存储流程如下所述:首先网络爬虫技术会对网络中舆情数据进行抓取,同时将Dom作为依据,实现数据解析和提取的目的,其中,数量众多的爬虫器和获取器会在slaver机器上运行,而调度器的所在位置是master机器,其中前者数量较多[3]。

2.信息预处理功能模块设计

在获取舆情数据信息之后,需要通过预处理的方式,剔除其中的无用信息,保留有价值的数据信息即可。无用信息包括网站导航、友情链接、索引等。就事实而言,网络舆情数据信息以非结构化数据为主,且在形式上具有复杂性的特点,很难被直接应用,如果直接分析和加工处理,不仅难度较大,且处理效果极为有限。而信息预处理功能模块可以提前对舆情数据信息进行清洗和去噪,为后续处理创造有利的条件。所谓的清洗和去噪,就是指分析和提取舆情数据信息的主要内容和特征。

3.舆情分析功能子模块设计

在舆情监控系统之中,舆情分析功能子模块的作用不言而喻,具有十分重要的功能,模块应用的关键技术包括两种,一种是聚类技术;另一种是分类技术。对舆情数据信息进行深入分析和挖掘是模块的主要功能,值得注意的是,这里所说的舆情信息数据是预处理后的数据信息,在分析和挖掘后,舆情数据信息就会成为满足话题发现和热点跟踪需求的结构化数据。接下来,笔者会对该模块的主要功能进行介绍:

(1)热点信息话题的发现和分析。这项功能主要是指依据舆情信息数据内容,对其进行话题的划分,如果内容较为特殊,创新话题亦可。而追踪是指跟踪分析社会上的热点话题,这项功能的实现,所应用的关键技术为文本聚类分析方法。将标准的格式规律作为依据,归纳和区分信息内容较为相似的文档,这个过程就是所谓的聚类分析。

(2)社会网络分析。社会网络是复杂网络的重要组成部分,存在一定的特殊性,比如:微博就是典型的社会网络,舆情监控系统所采用的社會网络分析法,能够对微博用户所发布的信息数据进行分析,在话题确定后,计算数据信息中粉丝数量和关注数量的出入度和聚类系数,通过多个Map阶段和Reduce阶段的运用,将计算结果存储到分析库之中,满足客户端可视化的使用需要。聚类系数在社会网络分析法中作用较大,是对网络集团化程度的体现,同时,还能在一定程度上反映网络内聚。

4.舆情展示预警功能模块设计

实现和管理者之间的实时交互操作,向管理者反馈系统分析后的结果,是该模块的主要作用。其功能主要包括热点话题排序、敏感话题趋势。由于该模块具有可视化功能,因此,管理者可以调用分析结果,对舆情数据信息的后续发展趋势进行预测,并且,系统针对舆情信息的警示触发,具有自动化的特点。从而为管理者提前采取预防和控制措施,应对可能会出现的舆情事件,创造有利的条件。

结论:综上所述,在互联网技术高速发展的背景下,网络舆情信息数据量不断增加,如果不对其加以管控,这些舆情信息可能会成为引发社会性事件的导火索。而传统监控管理方式较为落后,需要使用大量的硬件设备,且监控和管理效果极为有限。而本文设计的网络舆情监控系统可以实现云端硬件资源的共享,在应用该系统后,用户无需借助大量硬件设备即可挖掘数据,从而节省了大量的费用。与此同时,云计算的集群处理能力也会得到充分地利用。实践应用结果表明,这种技术的应用,能够在节省管理成本的基础上,提升工作效率,具有应用的价值。

参考文献:

[1]刘小满,王小辉.基于“互联网+”的网络舆情监控系统的设计与实现[J].电脑知识与技术,2019,15(31):37-40.

[2]苏鹏,杨文顺.监控互联网舆情助推民族地区党建工作智能化[J].云南民族大学学报(哲学社会科学版),2019,36(02):31-33.

[3]黄霄汉,马兆丰.Android移动互联网舆情推送技术研究与实现[J].软件,2017,37(12):26-31.

作者简介:

李建新,1977年10月,男,河北唐山人,本科,政工师,网络舆情、党务、融媒体中心建设、思想宣传等方向

猜你喜欢

互联网
互联网+背景下数学试验课程的探究式教学改革
基于“互联网+”的京东自营物流配送效率分析
互联网+医疗保健网的设计
试论网络大环境下音乐作品的法律保护问题
浅谈大数据在出版业的应用
浅析互联网时代维基百科的生产模式
“互联网+”环境之下的著作权保护
“互联网+”对传统图书出版的影响和推动作用
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施