APP下载

基于数据挖掘技术的网络舆情智能监测与引导平台设计研究

2012-04-29赵新辉郭瑞

电脑知识与技术 2012年1期
关键词:网络舆情数据挖掘

赵新辉 郭瑞

摘要:随着互联网的普及,网络改变着人们的生活和表达方式。个人观点态度在网上的宣泄就产生网络舆情,面对纷杂的海量信息,亟需一种机制做正确的监测与引导,对网络舆情监测与引导分析方法中引入数据挖掘技术,能够科学地分析各种潜在的有利和不利的因素,本文基于数据挖掘技术提出网络舆情智能监测与引导平台的设计模型,可以有效的进一步完善网络舆情监测与引导机制,从而为网络营造一个更加安全和绿色的网络环境。

关键词:数据挖掘;网络舆情;监测引导;决策平台

中图分类号:TP393文献标识码:A文章编号:1009-3044(2012)01-0001-02

互联网的应用扩展了人们的生活空间,也改变着人们的生活和表达方式,随着信息技术的发展,作为“第四媒体”的互联网已经成为人们发布、交换、获取信息的重要渠道。网络本身具有虚拟性、匿名性的特点,已经成为人们情绪表达、宣泄及交流的重要平台,其中社会政治态度的表现就是网络舆情。网络也自然而然的成为了政治问题和社会问题的集散地,更加为政府了解民情,政府治国理政提供了重要平台。

在网络大量舆情数据的背后隐藏了很多具有决策意义的信息,那么在飞涨的信息数据中,有效利用数据宝藏,是近年信息技术领域研究热点之一。在数据生产、传输能力远远大于数据分析能力的今天,人们希望能够提供更高层次的数据分析功能,自动和智能地将待处理的数据转化为有用的信息和知识。面对这一严峻挑战,数据挖掘和知识发现(Data Mining and Knowledge Discovery,简称DMKD)技术应运而生,并蓬勃发展起来。

1网络舆情

1.1网络舆情概念

网络舆情是指通过互联网或者其他网络手段传播出的广大公众对于现实生活中存在的某些焦点、热点问题所持的有较强影响力和倾向性的言论及观点。开通微博、建立专区留言板,新闻跟帖,BBS论坛,都已经成为了群众与组织展开交流的重要手段,这些网络手段的确起到了一定的交流作用。

网络自身具有虚拟性、隐蔽性、随意性和渗透性等特点,广大用户都很乐意通过这些渠道参与到各种话题的讨论中去,尽管起到了一定的积极作用,然而一旦引导不利,产生一系列的负面的网络舆情就会严重的威胁到社会大环境的安全,甚至会对公共环境的发展起到消极作用。这就要求要加强对于网络舆情的及时监测和有效的引导,并且及时的关注网络舆情的负面危机。这对于维护社会安全发展,稳定民情民心有着重要的作用,对于促进国家的发展与进步更是有着重要的现实意义。

1.2舆情监测与引导

从当前网络舆情的传播速度来看,爆炸性消息3小时之内就能够迅速被各大论坛转载,6小时内就有可能已经出现在各大新闻网站的网页上,那么可想而知,24小时之后,关于新闻事件的追踪和跟帖就会使其成为热点事件,并且很有可能在网络上掀起舆论讨论的热潮。所以对于有关部门来说,能够在第一时间掌握哪些是热点舆情,哪些有可能在短时间内发展成热点舆论,哪些又会对社会安全造成影响是十分必要的。

舆情监测与引导系统就是在这样的背景下产生的,网络舆情监测与引导平台是针对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。通过这个系统,能够让我们有效的对网络舆情进行预警和应对。这个系统的产生在一定程度上解决了一些网络舆情带来的负面影响。

2数据挖掘

数据挖掘起源于从数据库中发现知识,它首次出现在1989年8月在底特律举行的第十一届国际联合人工智能学术会议上。在1996年出版的总结该领域进展的权威论文集《知识发现与数据进展》中,Fayyd,Piatetsky-Shapiro and Smyth给出了知识发现和数据挖掘的最新定义,将二者加以区分。

数据挖掘的定义为:数据挖掘是知识发现中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤。数据挖掘技术在技术上又有着这样的定义:从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

数据挖掘技术从一开始就是面向应用的。目前,在很多重要的领域,数据挖掘都可以发挥积极促进的作用,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业应用领域。如果把我们所有需要的知识和想要得到的信息比作一个巨大的数据库的话,数据挖掘技术就是能让你在庞大的数据库中轻而易举的搜取自己需要的信息和知识的重要技术。对于如今数据库庞大的互联网来说产生的意义十分重大,对于广大用户来说更是必不可少的技术。对于现如今的网络舆情监测来说,数据挖掘技术更是作为基础作为了重要的技术支持,它对于网络监测系统的研制也有着千丝万缕的影响。

3网络舆情监测与引导平台

网络舆情监测与引导平台的设计可以分为五大功能模块,具体指:网络舆情采集模块、网络舆情存储模块、网络舆情分析模块、网络舆情检索模块和网络舆情发布模块,共同组成了网络舆情监测与引导平台。如图1网络舆情智能监测与引导平台设计框架所示。

舆情采集模块是网络舆情分析的重要基础保障。它是指利用搜索引擎完成的在各大网页网站中收集网页信息并建立起原始网页数据库的过程,然后将收集的信息和数据等统一的存储到网络存储系统。既而,网络舆情分析系统便会对存储的一些舆情进行分类、归纳、整理,这样就能够得出近一段时间内网络舆情的变化走向,之后便把分析归纳好的信息进行存储。最后,通过舆情分析系统分析以及检索系统的一系列检索,还有存储系统里的信息及数据都可以通过舆情报告系统发送和展示给各用户。这就是简单的舆情监测与引导平台的整个工作流程。

3.1舆情采集模块

互联网的信息量是十分庞大的,随着信息技术的不断发展和进步,网页的设计也开始越来越灵活,这就使得网页结构十分的复杂化,而且网页的更新速度使得内容更加动态化,以及一些网站对站内信息限制的技术手段造成网页内容不完整性,使得传统手工采集信息的方法非常低效率和高错误率。针对这一问题,舆情采集模块主流技术是自动采集,较为流行的采集工具可以分为六大类:Wrapper的专用高级语言、以HTML为中间件的工具、基于NLP(Natural language processing)的工具、包装器的归纳工具、基于模型的工具、基于本体的工具。这些工具首先需要专家参与,人工建立某领域的知识库,然后工具基于知识库去做抽取操作。

网络舆情信息主要是从以下几个方面来进行的挖掘:①新闻类信息中所包括的中央重大政策以及一系列改革措施的颁布、国内外重要新闻、与广大人民群众利益密切相关的政策等等由此所引发的舆情,要依靠一些主流媒体、新闻网站和权力部门的相应网站为主要挖掘渠道。②社会焦点事件以及突发情况,这些主要要以虚拟社区当中的热门版块和BBS跟帖为主要挖掘渠道。③对于一些小道消息、谣传以及各种议论的集中集散地,蕴含着较强的倾向性、指向性的舆情信息,主要是以个人网页或博客为主要挖掘渠道。

3.2舆情存储模块

提供对舆情数据的存储功能。包括全文数据、统计数据、日志操作等。

3.3舆情分析模块

网络舆情分析模块可以说是整个网络舆情监测与引导平台最为核心的功能,并且具有以下的特点:关联分析、热点识别能力、聚类分析、倾向性分析与统计、信息自动摘要功能。这些功能对于舆情分析工作的完成有着重要意义。

热点识别能力在当今互联网信息变化速度突飞猛进的今天,热点识别就已经成为了整个分析模块的总的前提条件,他能给出在一段时间内以信息出处权威度、评论的数量以及和跟帖密集度等作为参数,然后统计出一定时间段来的热点和重要舆情。

在数据挖掘技术中,关联规则算法为一种较为成熟的技术。关联规则算法的形式化描述如下所示:

设I={i1,i2,…,in}表示为全部项目的集合,也称I为项目集,项目集的元素ip={p=1,…,n}表示为每一个单独的项目,Tp={ t1,t2,…,tn }表示为全部事务的集合,即T表示成事务数据库,事物数据库的的事务表示成元素Tp={ p=1,…,n },一些项目的集合组成单个事务。

采用关联规则实施数据挖掘的通常方法是:计算出支持度比提供的最小支持度阀值大的频繁项集,然后根据计算出的频繁项集,生成关联规则。对网络上繁杂的海量数据分析,需要找到相关舆情信息的内在关联规则,这样就能有效对舆情加以分析、检索和存储。

3.4舆情检索模块

检索模块可以将存储模块中的信息进行关于时间、地点、类型、网站等等有关信息进行检索,继而提供给用户。在分析模块中所提供的热点分析一般只是对已经产生的热点,或者是将要成为热点的次热点。而检索模块还可以让用户自定义关键词对采集到的信息进行自定义监控。

3.5舆情发布模块

根据网络舆情分析模块处理后的结果或网络舆情检索模块查询的结果生成报告,系统可通过短信、电话、网页浏览等各种手段及时告知,提供决策支持。整合以上所有系统的工作结果,将热点度较高的舆情发布给广大用户和相关部门最终完成这一监测系统的最终使命。

4结束语

通过以上分析加之现在的社会现状,我们不难得出网络舆情智能监测与引导机制实施的紧迫性和必要性。智能监测系统的出台和应用不仅仅是改善了网络舆情存在的环境,更重要的是,为更多社会组织、企业、政府提供了更多可以信赖的,真正反映民情的正确的网络舆情。并且为更好的解决社会问题和社会矛盾提供了一系列的保障。为国家能够有一个健康安全的舆论环境提供了重要的基础,并且真正为民众与政府和各大社会组织提供了一个健康的沟通渠道,为我们的社会进步也是有着重要的影响的。尤其是作为政府,作为公共管理的主要部门,必须要时刻关注网络舆情,对于互联网中的海量信息进行系统监测,及时发现问题,解决问题,防微杜渐,积极处理,防止一些不必要的事情发生。

尽管,网络舆情监测系统出现时间还比较短,基于其的算法和方法还都很不完善,然而我们相信方便、快捷、智能、通用将是今后舆情监测系统发展的方向,关于网络舆情智能监测与引导机制的研究也将会更上一层楼。

参考文献:

[1]曹进松.政府网络传播[M].南京:江苏人民出版社,2010.

[2]叶皓百.正确应对网络事件[M].济南:山东教育出版社,2009.

[3]郭建永.基于文本聚类技术的主题发现[J].计算机工程与设计,2008(6).

[4]中国互联网信息中心.第25次中国互联网络发展状况调查统计报告[R].中国互联网信息中心,2010.

[5]许鑫,张岚岚.突发事件网络舆情预警模式探索[J].图书情报工作,2010(11).

[6]谢海光,陈中润.互联网内容及舆情深度分析模式[J].中国青年政治学院学报,2006(3).

猜你喜欢

网络舆情数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
网络舆情事件的引导策略分析
数据挖掘技术在网络舆情管理中的研究
“互联网+”背景下高校平安校园建设研究
浅析网络舆情治理
基于社会稳定视角的网络舆情预警机制构建的思考
突发事件网络舆情的演化规律与监控
一种基于Hadoop的大数据挖掘云服务及应用