APP下载

网络舆情分析系统信息清理的研究

2009-07-16吕洪波姚锦峰

新媒体研究 2009年8期
关键词:信息采集

吕洪波 姚锦峰 梁 飞

[摘要]信息采集是网络舆情分析系统中最主要的步骤之一,搜索引擎在网络上搜索主题相关信息时,不可避免的会产生相当数量的与主题无关信息。将这些无关信息清理掉,对提高话题抽取和情感分析的效率和精度意义重大,能够加快整个系统分析速度和准确度。提出信息清理的必要性,在系统中将信息清理和中文采词结合起来,提高系统运行效率和准确度。

[关键词]网络舆情分析 信息采集 中文分词 信息清理

中图分类号:TP3文献标识码:A文章编号:1671-7597(2009)0420070-01

一、引言

公众关于现实社会以及社会中的各种现象、问题所持有的信念态度及观点和(或)情绪的总和称之为舆情。舆情可以通过多种方式、多种媒介表示和表达出来。其中,通过计算机网络和通信网络,是当前最重要的方式之一。这就是所谓网络舆情[1-3]。在互联网上,网民针对那些关系到自身利益或者是自己所关心的各种公共事务,包括突发事件、社会热点问题、政府决策、公众人物言行等等,比在现实世界中会更积极地发言,这是有益的一面。但由于历史的原因,我国曾长期处于封闭状态,容易受到外来思想文化的冲击,这是有害的一面。我国当前所面临的网络舆情分析与预警的形势极其严峻,政府及相关管理者亟需对处于“未然态”的舆情信息进行挖掘与分析,把握处理危机事件的最佳时机。

因此,必须利用现代信息技术对网络舆情予以分析,从而进行控制和引导。由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情分析系统。及时应对网络舆情,由被动防堵,化为主动梳理、引导。系统中的信息采集一步中,不可避免地会有相当数量与主题无关的信息被采集到,从而影响到后面分析的速度和准确度,所以应该将其清除。本文主要阐述对无关信息的清理,提高后面分析的速度与准确度。

二、信息处理

(一)信息采集系统

信息采集是通过搜索引擎实现的。搜索引擎(searchEngine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。搜索引擎的搜索过程一般包括3个步骤:

本系统采用Win web Crawer v2.0 Final。它是强大的网站抓取工具,可从网站、网页目录、搜索结果、文件的URL清单中抓取URL的Meta 标签(标题,描述,关键字);标签间的纯文本;页面大小;最后修改日期值等信息。高速,多因子,准确抓取-直接存储数据到磁盘文件。程序有无数过滤器来限制进程,例如URL过滤器,文本过滤器,数据过滤器,域过滤器,数据修改等等。它允许用户选择重建等级,激活信息,超时限制,代理支持等许多其它功能。将主题句输入进行搜索,得到的结果依次存入数据库中。

(二)中文分词模块

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子"I am a student",用中文则为:"我是一个学生"。计算机可以很简单通过空格知道"student"是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词。

中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。ICTCLAS被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

本系统的中文分词模块就是基于ICTCLAS,能对中文句子进行分词和词形标注。如图1。

(三)信息处理模块

通过Win web Crawer v2.0 Final搜索到的信息会有大量与主题无关。可以通过相应的标题和用于搜索的主题句,将这些用于下一步分析的标签间的纯文本清除。具体过程为:将用于搜索的主题句通过中文分词程序,保留名词、动词和词组,再将采集到的每篇文章的标题依次从数据库中调出,通过中文分词程序,将名词、动词和词组分别与主题句中得到的进行比较,如果找不到相同的就采用VC程序将其从数据库中删除,从而去除了大量无关的信息[4-6]。

三、试验结果

(一)实验环境

由于数据量不是很大(小于10万条),所以使用一般的PC作为服务器。CPU使用Intel(R)Pentium(R)D2.80GHz(双核),内存大小为1GB,操作系统使用W in-dowsXP Professional SP2,数据库为SQL Server2000。

(二)性能分析

实验结果见表1。表1的说明:N信息源个数;EN清除后信息源个数;MN清除掉的信息源;个数V平均每秒处理的个数;包括信息的数据库存储。

由实验结果可见,使用该方法可以有效的清除大量无关信息,处理速度较快,能够完成网络舆情分析系统对该模块的要求。

四、结束语

信息采集中得到的无关信息不但会占用空间还会影响后面分析的速度与精度,为了提高话题抽取和情感分析的效率与精度,有必要把这些无关的信息清理掉。每次采集得到的无关信息的多少都会不同,经过信息清理得到的效果也不相同。通过信息清理去除了大量无关信息,提高了后面分析的速度与准确度,信息清理工作是成功的。

参考文献:

[1]王来华,舆情研究概论:理论、方法和现实热点,天津:天津社会科学院,2003.9(1).

[2]陈力丹,舆论学舆论导向研究[M].北京:中国广播电视出版社,1999:10-11.

[3]王来华、刘毅,中国2004年舆情研究综述[J].新华文摘,2005(18).

[4]Introuduction to Programming with C++:Comprehensive Version.

[5]Sartaj Sahni.Data Structures,Algorithms,and Applications in C++Publisher: Silicon Press;2 edition (August 31,2004).

[6]Vapnik V.Statistical Learning Theory .Wiley, 1998.

猜你喜欢

信息采集
基于Internet的网络化交通信息采集系统
如何提高卷烟零售市场信息采集的有效性
无线传感器网络在农田温湿度信息采集中的应用
浅析计算机网络技术在电子信息工程中的实践
浅析卷烟消费者研究分析工作的运用与开展