基于Web挖掘的突发事件网络舆情预警研究
2014-04-03董坚峰
董坚峰
〔摘 要〕当前网络突发事件频发,网络舆情与突发事件的相互作用增加了舆情分析和预警的难度,现有舆情预警系统无法满足需求。将Web挖掘技术引入到突发事件网络舆情预警中,构建了包括舆情采集层、舆情挖掘层、舆情分析层、预警研判层的基于Web挖掘的突发事件网络舆情预警系统模型,集成和整合了突发事件网络舆情预警全过程的重要功能,实现突发事件网络舆情采集、分析处理、危机预警的自动化、智能化和实时化。
〔关键词〕Web挖掘;突发事件;网络舆情预警;系统模型
DOI:10.3969/j.issn.1008-0821.2014.02.009
〔中图分类号〕G250.7 〔文献标识码〕A 〔文章编号〕1008-0821(2014)02-0043-05
近年来,随着我国改革开放与社会转型的推进,互联网上突发事件和公共危机话题不断凸现,网络逐步取代传统媒体成为新的社会舆论场,基于互联网的社会舆情生态环境逐步形成。据CNNIC《第32次中国互联网络发展状况统计报告》统计,截至2013年6月,我国网民规模达到5.91亿,网站和网络论坛达到294万个,手机上网用户4.64亿,全民网络普及率高达44.1%,其中博客、论坛、微博使用人数分别为4.01亿、1.41亿、3.31亿[1]。网络在为社会公众提供信息获取、诉求表达、情绪宣泄、社会参与平台的同时,也成为社会突发事件和群体性事件策源、酝酿的重要场域。网络舆情热点一方面直接发展、酝酿成为群体性事件,引发社会公共危机;另一方面,网络舆情的非理性化、情绪化倾向加速突发事件的恶性发展,增加了突发事件的预警和处理难度。在这种背景下,如何利用现代技术手段和管理手段精确研判并有效应对突发事件网络舆情,避免突发事件危机产生或者提供危机预警,是当前的一项重要工作。
1 突发事件网络舆情分析和预警面临的困难
1.1 网络舆情与突发事件的相互作用增加了预警分析处理的难度 根据《中华人民共和国突发事件应对法》的界定,突发事件是指突然发生,造成或者可能造成严重社会危害,需要采取应急处置措施予以应对的自然灾害、事故灾难、公共卫生事件和社会安全事件[2]。与一般事件不同,突发事件具有较强的突发性、破坏性、公共性、复杂性、持续性,并可能在一定情势下转化为公共危机。在突发事件的发生发展过程中,媒体和网民通过各种渠道发表各自的意见和看法,汇集而成的网络舆情经常会发展为突发事件,并左右突发事件的演变进程,同时对某些事件的演变起到了推波助澜的作用。一方面,互联网拥有自由民主、快速即时、便捷多向等优势,使其更易聚焦各类社会热点问题,尤其是那些涉及群体利益、社会公平、贫富差距的话题极易激起大规模讨论热潮,导致网络热点直接发展、酝酿为突发事件,且发展迅速,影响极大;另一方面,由于网络的匿名隐身、跨地域、无国界限制等特点,网络舆情的非理性、情绪化特点明显,导致一旦某个突发事件被网络聚焦,一些不适当的、歪曲的、情绪化的、偏激的言论甚至谣言即迅速传播,从而加速突发事件的恶性发展。在突发事件爆发过程中,强大的网络舆情与突发事件即时互动、互相强化、交流融合,使原本为时较短的突发事件成为持续时间较长的公共危机,从而大大增加了事件处理难度和处理成本。尤其是在网络舆情的推动下,突发事件更加动态化、反复化、持久化,相关舆情信息无规律化程度加剧,任何组织和个人都无法完全决定和控制网络舆情信息的内容,网络舆情监控和预警面临极大的挑战[3]。
2 现有舆情系统对突发事件舆情分析预警支持不足 网络舆情的分析预警是一个融汇计算机网络、人工智能、数据挖掘、自然语言处理等多学科知识的前沿领域,涉及网络舆情信息采集、分析、处理、分类、监测和预警的全过程。近年来,国内外众多学者和研究机构对此从不同领域和多个角度开展了探讨,并研发了各种软件产品或系统来自动或者辅助政府舆情工作人员进行舆情信息的分析和监控,如国内的谷尼、方正、TRS和国外的Review See、StatPac、Opinion Finder等系统。这些系统功能多样,围绕网络舆情分析和预警提供了多种支持(如表1所示)。
表1 国内外网络舆情预警分析系统的比较[4-8]
舆情预警分析系统研发企业主 要 功 能方正智思舆情预警辅助决策支持系统北大方正网络舆情的全文检索、自动分类、自动聚类、主题监测/追踪、相关推荐与消重、关联分析与趋势分析、自动摘要与自动关键词提取、突发事件分析、生成统计报表等功能谷尼舆情监控分析系统谷尼国际软件公司舆情信息自动获取、自动聚类、敏感话题识别、热点话题识别、舆情主题监测与跟踪、自动摘要、舆情趋势分析、突发事件分析、舆情报警、舆情统计报告等功能TRS互联网舆情信息监控系统北京拓尔思信息技术股份有限公司网络舆情实时监测、舆情热点发现和热点跟踪、敏感信息监控、辅助决策支持、舆情预警等多种功能Beehoo3.0互联网舆情监测系统中科院计算所舆情信息的采集、热点分析、重点话题检测、舆情热点的预警等乐思网络舆情预警系统深圳市乐思软件技术有限公司信息采集、信息处理(自动分类聚类、主题检测、专题聚焦等)、信息服务(如自动生成舆情信息简报、追踪舆论焦点、趋势分析,预警、决策支持等)Cision美国Cision公司博客、论坛、富媒体等网站的网络舆情实时监测,实时舆情报表生成,行业动态的趋势分析和发展预测,一站式舆情综合资讯,企业公关和媒体监测等功能Review Seer多种评论性网站的舆情信息采集、网络评论词条的语义倾向性判断、自动文摘和舆情报告生成等功能StatPacStatPac Inc支持互联网、电子邮件、平板电脑、智能手机等多种网络信息源的调查统计分析;自动生成舆情信息报告Opinion Finder匹兹堡大学、康奈尔大学、犹他大学自动分析网络语句中那些含主观性成分的内容,并针对这些主观性的关键字检测其来源与传播途径
从表1可以看出,这些系统基本上都提供了网络舆情分析和预警功能,能帮助政府或企业把握网络舆情信息、预警可能发生的舆情危机。各个软件在舆情分析和预警上各有优势,比如在舆情采集阶段使用自动搜索技术,在舆情分析阶段综合使用文本挖掘、自动摘要、主题聚类等技术,在舆情预警阶段提供了多种预警途径等。但总体来看,单个软件的功能还远未达到真正的网络舆情分析的智能化要求,都存在这样或那样的不足,暂时没有一个整体功能完备的系统。具体如下:
1.2.1 舆情信息源整合不够,信息采集质量不高对于舆情预警系统来说,其信息源来源多样,尤其是在Web2.0环境下,以微博、社交网络、即时通讯为载体的“微内容”更成为主要信息来源,而现有的舆情预警系统支持信息源明显不够,对各类信息源的整合力度也不大,不能实现全网采集,从而制约了舆情预警的效果。另外,目前舆情预警系统大多数是借助搜索引擎等爬虫工具进行信息采集,采集算法简单,信息采集呈重复性、非相关性和表层化,导致检索结果数量大且多为重复的、非相关的、浅层的,甚至是虚假的信息;采集过程也缺乏跟踪和监测,采集效率不高。
1.2.2 舆情分析过程缺乏智能性,信息分析深度不够现有舆情预警系统在信息处理方面,要么是将收集的信息经过简单整理后交给工作人员进行人工定性分析和经验判断,要么是借助舆情字典和统计学进行分析判断,信息仅仅停留在相关数据的统计层面,没有深入挖掘数据背后隐含的深层知识,更无法涉及舆情信息的语义层次,系统智能化程度不高。
1.2.3 舆情预警研判功能偏弱,无法满足决策支持现有的舆情系统进行预警时多为自动舆情分析报告和人工经验相结合的方式,鲜有设置科学系统的预警研判指标体系,从而导致提供的预警结果无法满足决策支持的需要。有鉴于此,本文结合突发事件网络舆情预警的现实需求和现有的舆情分析预警系统的不足,将Web挖掘技术引入到突发事件网络舆情信息分析和预警中,提出了基于Web挖掘的网络舆情预警的思路和系统模型,以期为政府公共管理部门开展网络舆情预警提供一些借鉴。
2 基于Web挖掘的网络舆情预警
2.1 Web挖掘Web挖掘是数据挖掘在Web上的应用,它综合使用数据挖掘、机器学习、自然语言处理和人工智能等智能信息处理技术从WWW的资源(Web文档)和行为(Web服务)中自动发现并提取人们感兴趣的、有用的模式和隐含的信息。根据挖掘对象的不同,Web挖掘可以分为Web内容挖掘、Web结构挖掘和Web使用挖掘。与传统的网络舆情分析方法,例如抽象分析、比较分析、相关分析和内容分析法等相比,Web挖掘可以得到指定时间段内网络舆情的状况和走向以及与之关联的热点问题,为网络舆情的深层次分析和智能化预警提供了技术支持和解决方案[9]。
2.1.1 Web内容挖掘Web内容挖掘是从Web文档本身的内容或者Web搜索的结果中抽取知识的过程,它可以对大量的Web文本集合进行分类、聚类、关联分析,以及利用Web内容进行趋势预测。在网络舆情分析中,Web内容挖掘可以发现与突发事件主题相关的知识内容和语义关联模式。
2.1.2 Web使用挖掘Web使用挖掘是通过挖掘Web使用数据或者访问日志来提取浏览者的行为模式,获取有价值的信息的过程。它通过挖掘用户上网时产生的网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户登录和注册记录、用户对话或交易信息、用户提问等交互式信息发现用户的浏览习惯、相似用户群体、Web页面的访问频率等知识模式,从而更好地理解用户行为和提供智能化的服务。通过Web使用挖掘,可以确定舆情热点和焦点、预测网民行为。
2.1.3 Web结构挖掘Web结构挖掘就是对WWW的组织结构、Web页面的超链结构等进行挖掘并从中提取出隐藏的有价值的知识的过程。大量的Web链接信息提供了丰富的关于Web内容相关性、质量和结构方面的信息,是进行网络舆情站点分析的重要资源[10]。通过Web结构挖掘,可以获得与舆情主题高度相关的链接以及链接逻辑结构的语义知识,从而帮助舆情分析人员确定重要舆情源和中心页面。
2.2 基于Web挖掘的网络舆情预警流程一般来说,采用Web挖掘方法进行网络舆情预警的处理流程包括舆情主题规划、舆情信息采集、舆情信息预处理、舆情信息分析、舆情危机预警处理5个步骤(如图1所示)[11]。(1)舆情主题规划。根据舆情预警需求,设定舆情主题目标,同时确定舆情分析的对象(来源)、关键词、主题等,并在实施过程中根据实际需求调整采集主题。(2)舆情信息采集。根据舆情主题规划任务从多个信息源中提取相关数据,并对目标Web数据进行网页的特征提取、基于内容的网页聚类、网页间内容的关联规则发现等,从中得到和挖掘目的相关的数据。图1 基于Web挖掘的网络舆情危机预警流程图
(3)舆情信息预处理。将先前获取的网页源码作进一步的信息处理,包括网页净化、文本分词、特征向量表示、停用词及虚词净化、词频统计、降维处理等,最终为舆情分析做好充分的数据准备。(4)舆情信息分析。利用Web挖掘算法对舆情信息进行分析,挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的信息和知识。常用的信息分析技术包括:文本挖掘、事件识别、主题发现、热点跟踪、关联分析、趋势分析、倾向性分析等。(5)危机预警处理。对挖掘出来的舆情信息进行分析、解释,生成舆情分析报告,并根据分析结果对网络舆情进行危机预警。
3 基于Web挖掘的突发事件网络舆情预警系统模型
3.1 模型概述针对现有网络舆情预警系统普遍存在的突出问题,根据Web数据挖掘在信息分析和知识发现中的优势,本文综合应用Web挖掘、语义分析、信息集成等技术,构建了基于Web挖掘的突发事件网络舆情预警系统模型,如图2所示。本模型包括舆情采集层、舆情挖掘层、舆情分析层和预警应用层等4层,集成和整合了突发事件网络舆情预警全过程的重要功能,实现突发事件网络舆情采集、分析处理、危机预警的自动化、智能化和实时化。
3.1.1 舆情采集层舆情采集层是本模型的最底层,主要负责完成网络舆情信息的采集和预处理,为舆情挖掘和分析提供所需的数据。在采集时,一方面可以利用聚集爬虫对各主要门户网站、新闻网站、时事论坛、微博和博客、BBS论坛进行信息抓取,获取最新动态;另一方面,可以结合近年来突发事件舆情多发主题,对网络曝光率和点击率较高的微博/QQ
图2 基于Web挖掘的突发事件网络舆情预警系统模型
空间、主流论坛/BBS、知名门户网站、各大网络媒体、知名人士博客/空间、主流搜索工具、国外媒体等网络新媒体上的信息进行实时监测,及时采集敏感信息。采集回来的舆情信息网页进行URL抽取、网页解析、关键内容提取等处理后整理存储到舆情信息库中。
3.1.2 舆情挖掘层舆情挖掘层主要完成对舆情信息库中内容的多维挖掘和处理,利用Web挖掘技术对网络舆情的内容、结构和使用记录进行挖掘。为了更好地实现对网络舆情突发事件的监控和预警,在本层需要综合采用多种Web挖掘方法,除前文提到了的Web使用挖掘、Web结构挖掘和Web内容挖掘外,还需要采用以下两类挖掘技术:(1)Web数据流挖掘。突发事件网络舆情在网络上的发生和演变具有极强的时空演化性,可以看成是一种连续不断到达的、时变的、有序的且快速流动的数据元素组成的文本数据流,利用频繁项挖掘或突变检测等数据流挖掘方法可以快速获取敏感网页和话题。(2)Web语义挖掘。利用XML-Ontology技术对舆情信息库中的数据进行语义抽取、标注和描述,在此基础上建立与突发事件相关领域的语义知识库,并利用工具挖掘舆情规律。
3.1.3 舆情分析层舆情分析层是本模型的核心层,也是实现突发事件舆情预警的前提。本层主要从舆情信息内容和舆情演变态势两个方面分析突发事件网络舆情的内容和发展趋势,并生成舆情分析报告。(1)舆情信息内容分析。主要实现网络突发事件的分类、应用语义分析对文本的分类、对论坛及评论中的舆情情感倾向性分析、对构成危害的敏感信息的监控和不良信息的过滤等功能。(2)舆情趋势演化分析。主要根据突发事件体现出的网页数量的变化、词频的变化、转载及扩散的变化建立合适的统计模型来分析演变态势和波动性,实现舆情演变的趋势监测功能[12]。
3.1.4 预警研判层本层主要根据在舆情分析层所得到的舆情分析报告,从舆情热度、特性、危险性等指标进行舆情信息评测,研判是否发布舆情预警信号,并提供舆情信息摘要、舆情简报等信息内容展示,为相关职能部门快速了解舆情动态、掌握热点事件突发事件的来龙去脉提供决策依据。(1)热度研判。主要从报道量、点击量、评论量、发帖/发文量、转载/转播量和搜索量等多个数据指标来判断当前网民和媒体对事件或信息的关注度,判断是否可能形成并爆发网络舆情突发事件。通常,关注度或热度越高,越容易形成和爆发网络舆情,朝着存在安全隐患和不安全的路径演变;反之亦然。(2)特性研判。主要从事件或信息的主题敏感程度、内容真伪性和来源的权威性3个角度来判断其自身特性。其中,涉及公共安全、贫富差距、国计民生、公平公正等主题为敏感主题,关注程度较高;内容真伪性主要是甄别信息内容的虚假和失真性,避免被个别人或团体非法利用和转播,以谣言和讹传诋毁政府形象;来源的权威性主要是从信息发布者的知名度、活跃度、信息质量等角度研判,越是权威的信息越容易成为网络热点。因此,舆情特性越明显,隐含的不安全因素就越高,越容易向不安全和危险性路径发展演变[13]。(3)危险性研判。主要从网络覆盖度、地域覆盖度、网民情绪、网民态度和行为等5个角度进行网络舆情的危险性研判。一般来说,网络和地域覆盖度越大,网民情绪越激动和愤怒,态度越负面,网络行为越偏激,危险性则越大,突发事件越容易产生或者激化。
3.2 突发事件监控与预警分析上述模型介绍了各功能层能完成的对网络舆情突发事件从资源采集到事件预警的功能和流程,下面重点对突发事件监控与预警实现的一些关键环节进行分析。(1)突发事件分类。由突发事件引发的网络舆情信息,从内容形式来看主要为文本,因此,突发事件分类可以转化为文本分类问题。在具体实施时,可以通过网页内容的分类分析将相关主题网页都划分到同一个类别,并通过关联分析和序列分析追踪舆情源头,有效地辅助发现并预警不良信息,及时制止舆情的进一步突变,起到辅助决策支持的作用。(2)文本数据流突发检测。文本流突发检测主要是借助Kleinberg方法来实现:在文本分类的基础上,针对某一特定主题的舆情文本,按照其到来的时间顺序定义为文本序列,利用形式化方法的无穷状态自动机对文本流进行建模。若{t1,t2,…,tn,tn+1,…}为文本序列,两文本的时间间隔为xt,xt随着单位时间内的文本数量的变化而变化。如果有突发事件,短时间内与此事件相关的文本增多,导致xt变短,就将此时的状态定义为突发状态Sb(Burst State),如果没有突发即为普通状态Sn(Normal State)。从普通状态到突发状态的转换则可以通过时间间隔xt的变化带来的改变检测到。(3)趋势预测分析。通过对某个与突发事件相关的主题在不同的时间段内被关注的程度进行跟踪,从而获取舆情随时间的发展变化趋势或规律,实现对舆情环境的监控和预警,进行适时控制和疏导。(4)敏感话题监控。借助敏感词典等工具对突发事件、涉及内容安全的话题尤其是敏感话题进行有效监控和预警。一方面,根据舆情分析结果对用户关注的舆情内容进行有效分类,从中找出与突发事件主题相关的敏感话题;另一方面,根据分类结果评估分析突发事件网络舆情发展态势并给出预警信息。(5)情感倾向分析。对网民发布的与突发事件主题相关的话题进行情感倾向性分析,了解和归纳网民的主流观点和情感趋势——赞同、反对、高兴或者悲伤,识别和统计其情感倾向及随时间的演化规律,从中获取与突发事件相关的各类征兆。
4 结束语实践证明,Web挖掘是一种自动化的信息分析与知识发现的方法和技术。将Web挖掘融入突发事件网络舆情分析与预警之中,可以充分发挥Web挖掘技术在处理海量网络数据和发现隐含知识规律的优势,实现网络舆情信息的自动化、智能化获取和深层次、多维化分析,达到突发事件网络舆情动态预警和辅助决策的目的。在网络舆情预警中应用Web挖掘的技术和方法,将是提高网络舆情预警监控系统智能性的有效途径,也是其未来的发展方向,相关研究仍需进一步的探索和证明。
参考文献
[1]中国互联网络信息中心.第32次中国互联网络发展状况统计报告[R].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201307/t2013071740664.htm,2013-07-17.
[2]中华人民共和国突发事件应对法[EB/OL].http:∥www.gov.cn/ziliao/flfg/2007-08/30/content732593.htm,2007-08-30.
[3]曲淑华,刘.群体性事件网络舆情应对策略研究[J].长春工业大学学报:社会科学版,2013,(5):146-148.
[4]丁菊玲,勒中坚,王根生.我国网络舆情危机预警研究探讨[J].情报杂志,2010,(10):5-8.
[5]董杨.中美两国网络舆情监管体系比较研究[D].长春:吉林大学硕士学位论文,2013.
[6]www.founder.com.cn[EB].
[7]http:∥us.cision.com/[EB].
[8]http:∥www.statpac.com/[EB].
[9]张玉峰,何超.基于Web挖掘的网络舆情智能分析研究[J].情报科学,2011,(4):64-68.
[10]周君.Web文本挖掘关键技术的研究与实现[D].西安:西安电子科技大学硕士学位论文,2009.
[11]梅中岭.基于Web信息挖掘的网络舆情分析技术[J].中国人民公安大学学报:自然科学版,2007,(4):85-88.
[12]万源.基于语义统计分析的网络舆情挖掘技术研究[D].武汉:武汉理工大学博士学位论文,2012.
[13]刘金荣.基于动态演变路径的网络舆情研判体系构建[J].图书馆学研究,2013,(5):32-35,97.
(本文责任编辑:马 卓)