网络舆情分析系统功能研究
2009-11-09张合斌
张合斌
摘要:网络舆情及其管理是信息化时代政府和主管部门构建和谐社会的关键工作之一,针对此进行网络舆情分析系统研究是有效开展此项工作极为重要的技术保障因素。本文以此为切入点。系统分析网络舆情分析系统的七大基本功能需求和系统设计中的四个部分,其核心部分功能的八大模块及相关主要技术等。
关键词:网络舆情分析基本功能需求核心部分功能模块
2008年中国的网络新闻得到快速发展,网络新闻的使用率较去年提升了近5个百分点,网络新闻用户达到2.34亿,互联网已经成为一个不可忽视的舆情策源地与宣传阵地。舆情是指在一定的社会空间内,围绕社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等表现的总和。互联网因其虚拟性、隐蔽性、发散性、渗透性和随意性等特点,吸引越来越多的人通过这一渠道表达自己的想法。当网民的言论达到了一定规模时,就形成了网络舆论。作为社会舆论的一种重要表现形式,网络舆情形成迅速,对社会的影响巨大。
由于网络的信息量十分巨大,仅依靠人工的方法难以应对网络海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情分析系统,及时应对网络舆情,由被动防堵化为主动梳理、引导。
网络舆情分析系统的基本功能
在我国,作为网络舆情管理的主体一般是地方政府和主管部门,其对网络舆情管理的基本要求是:及时掌控所辖范围内网站上的信息情况(包括论坛、博客、网站等),防止网络突发事件的发生进而诱发群体事件,维持安全健康的网络环境和稳定的社会环境。
因此,服务于地方政府或主管部门的网络舆情分析系统应该具备以下七大基本功能。
网站的设置功能:舆情分析系统所配置的来源网站主要包括国内知名的门户网站、论坛、贴吧、博客、所关注的境外网站以及辖区内一些有影响力的网站。
Web页面浏览的功能:网站的设置是为了方便采集信息的管理,也方便用户在Web页面上的浏览。
指定网站的搜索功能:主管部门所关注的信息类似百度贴吧的网络社区,以及辖区内具有一定影响力的网站,如各级论坛、各政府网站等;这部分的需求是通过配置指定网站的方法来实现的,指定网站配置采集可以做到信息的准确性。
全网搜索的功能:收集国内各个知名门户网站对该区域的报道和论坛中一些敏感的话题。由于全网搜索的准确性难免有所下降,应该可以通过配置关键字过滤来采集数据,保证采集回来的信息是用户所需要的。
主题事件的跟踪功能:主要通过主题词来监控一些突发事件和热点事件,如突发事件、重大事件。
敏感词自动检测功能:基于敏感词典信息过滤技术,可以有效地识别各种有害文字信息,以摆脱有害信息的侵扰,进一步监测各种严重政治性错误、淫秽色情、凶杀暴力、赌博迷信、非法、负面报道等内容的发生,可对各类有害信息及时有效地发起预警,并严防此类严重错误见诸报端。
短信提示功能:其主要作用是服务于领导。通过正常的配置,将采集的信息及时用短信的形式发给领导,使领导可以第一时间知道某些突发事件和热点事件的情况。
网络舆情分析系统的核心功能
充分考虑到使用者的功能需求。对以上基本功能进行软件工程学的分析后,可以发现以上七大基本功能的具体实现涉及舆情分析引擎、自动信息采集、数据清理、代理服务四大部分。其中,核心部分是舆情分析引擎。
舆情分析引擎是舆情分析系统的核心功能,至少应当具备八个模块进行功能分解。
识别模块:热点话题、敏感话题识别,可以根据新闻出处的权威度、评论数量、发言时间密集程度等参数,识别出一定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。
倾向性分析模块:对于每个话题,对每个发信人发表的文章的观点、倾向性进行分析与统计。
主题跟踪模块:分析新发表文章、帖子的话题是否与已有主题相同。
自动摘要模块:对各类主题、各类倾向能够形成自动摘要。
趋势分析模块:分析某个主题在不同的时间段内。人们所关注的程度。
突发事件分析模块:对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势。
报警系统模块:对突发事件、涉及内容安全的敏感话题及时发现并报警。
统计报告模块:根据舆情分析引擎处理后的结果库生成报告,用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。
舆情分析系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术。这些技术一向是国内外信息工作者关注的领域。其中基于关键词统计分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间。
网络舆情分析系统的其他功能
网络舆情分析系统的舆情分析引擎部分是其核心功能,而自动信息采集、数据清理、代理服务也是必不可少的,与舆情分析引擎作为整体进行信息处理,实现舆情有效分析。
自动信息采集部分主要是通过网络页面之间的链接关系,从网络中自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系统应能根据用户信息需求,设定主题目标,使用人工参与和自动信息采集结合的方法完成信息收集任务。
数据清理功能部分主要完成对收集到的信息进行预处理,如格式转换、数据清理、数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛BBS,需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时,可直接针对服务器的数据库进行操作。
代理服务部分主要是指使用者根据需要选择服务功能要求,每个月只需要支出很少的费用,获得一个使用期限的用户名和密码。就可以登录使用系统平台,使用过程类似网页形式的电子邮件;或者完全将监控任务委托给系统,然后根据代理服务协议,为使用者提供全方位的舆情监控服务,所获得的各类反馈信息,采用电话、电子邮件、手机短信等方式及时汇报给使用者,支持个性化的报表定制。
网络舆情分析系统的相关技术
网络舆情分析技术是系统的核心应用技术,该技术是一组管理、提炼、应用、共享所有的显性知识和隐性知识及信息资源的方法,主要包含自然语言处理技术、信息检索技术、数据挖掘技术等相关技术。
自然语言处理技术主要包括自动分词技术和自动关键词与自动摘要技术。自动分词技术是中文信息处理与分析的基础。以词典和规则为基础,综合利用了基于概率分析的语言模型方法,使分词的准确性达到一定的信度,并可根据不同的应用进行适合特定要求的分词。自动关键词与自动摘要技术:在篇章语义分析的基础上,综合考虑词频、词性、位置信息,实现准确的自动关键词与自动摘要。
信息检索技术主要包括全文检索技术和图片内容检索技术。全文检索技术,即全文引擎将传统的全文检索技术与最新的Web搜索技术相结合,同时融合了多种相关技术,具有丰富的检索手段以及同义词等智能检索方式。图片内容检索技术,即图片检索不仅提供基于图片描述的检索,还提供对图片内容的检索,以及结合描述与内容的综合检索。
结语
网络舆情分析是有效掌控网络、促进社会主义和谐社会建设的重要手段。网络舆情分析系统涉及多媒体数据共享、互联网搜索、统计分析、数据仓库和数据挖掘以及人工智能等领域和技术,是一个复杂而新颖的应用领域。尤其是随着语义网络技术的更进一步的发展,必将使其舆情系统分析的结果更准确、更科学。
编校:张红玲