APP下载

微博地震谣言监测系统

2012-04-02

地震科学进展 2012年6期
关键词:配置文件关键字知识库

程 志

(福建省地震局,福州 350003)

据有关部门测算,一次广泛的地震谣言事件所造成的损失,不亚于一次中等强度的地震。自 2008年汶川大地震以来,我国曾发生多起地震谣传事件,每次都带来了较大的社会危害。由于互联网在信息传播上的优势,互联网媒体经常是地震谣言的滋生源。特别是新出现的微博平台,由于其极大降低了个体对社会发布和传播信息的成本,它已成为最主要的网络谣言传播平台。针对这种情况,本文提出一种面向新浪微博的地震谣言监测系统,通过对该微博平台的实时检测,实现及时发现新出现的地震谣言的目的。

1 原理分析

微博地震谣言监测系统的运行过程主要包括疑似谣言信息的捕捉、进一步甄别和告警3个步骤。

(1)疑似谣言信息的捕捉:由于新浪微博平台提供了独立的微博搜索引擎,通过它可以抓取含有指定关键字的微博内容。因此,在此基础上设计定制的网络爬虫程序定期对微博搜索引擎指定关键字页面进行网页数据挖掘,对照之前的挖掘记录排除冗余结果即可获得最新的疑似信息,疑似信息以XML格式提交给下一步骤。

(2)疑似信息的进一步甄别:使用干扰信息的过滤和高危信息匹配两种策略相结合的方式实现甄别。干扰信息和高危信息均通过与知识库匹配判定。知识库里保存两类信息特征,一是常见的干扰信息的特征,以分词组形式保存,例如,以“地震”为关键字捕捉到的疑似信息里如果包含“官场地震”、“娱乐圈地震”等分词,则判定为干扰信息予以排除;另一种是高危谣言的特征,以正则表达式的形式保存,以福州为例,如果疑似信息里一句话中按照先后顺序包含“预测”,“福州”,“将发生”,“级地震”等词,即可判定为是地震谣言。

(3)告警:系统接驳短信网关,发现地震谣言后将相关人员的手机发送告警短信。

2 系统结构

系统主要由6个软件模块及配置文件、挖掘规则文件、知识库(数据库)构成。①下载模块:定时提交特定关键字对应的URL提交给新浪微博搜索引擎,下载对应的HTML页面文件。下载的时间间隔和关键字列表记录在配置文件中。②HTML解析器:将下载到的HTML文件解析成内存中的数据对象。③HTML数据挖掘模块:根据挖掘规则文件从HTML解析器生成的数据对象提取微博列表,包括每一条微博的发布者名称,帐号,微博正文等信息,并保存至一个XML对象中。挖掘规则文件记录了下载到的HTML页面中关键的HTML元素与要生成的XML对象中的元素的映射关系。④干扰信息过滤模块:分析HTML数据挖掘模块生成的XML中的微博条目,根据分词库获得微博正文包含的分词集,与知识库中常见干扰信息包含的分词进行匹配从而过滤干扰信息。⑤高危信息检测模块:将经干扰信息过滤模块处理后的XML对象中的微博正文进行分句,将分句与知识库中高危信息的正则表达式进行匹配,产生判定结果提交给报警模块。⑥报警模块:编辑报警信息,并发送给配置文件中记录的手机号码。该模块一端接驳短信网关API,另一端对高危信息检测模块提供写入接口。

系统程序部分使用Visual C#语言编写,数据库为My SQL,使用开源的HTML Parser组件作为HTML解析器。另外,在我局之前为其他项目开发的HTML页面数据挖掘组件XBPicker中的大部分代码被复用至本系统中HTML数据挖掘模块中。

3 结论

2012年3月至4月间,系统累计试运行了20天,设定的监控地区为福建,系统共捕捉到65条谣言信息,其中仅一条为误报警。该系统首次实现了对新浪微博平台的地震谣言监测功能,具有首创意义。系统具有简单易用,检测精度较高,实时性好的特点,将地震谣言被发布至被检测到的时间间隔缩短到几分钟以内,具有较高的实用价值。

猜你喜欢

配置文件关键字知识库
提示用户配置文件错误 这样解决
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
搭建简单的Kubernetes集群
互不干涉混用Chromium Edge
成功避开“关键字”
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
忘记ESXi主机root密码怎么办
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
基于用户反馈的关系数据库关键字查询系统