网络舆情监控系统在芦山地震应急中的应用
2014-12-02张颖,林洋
张 颖,林 洋
(四川省地震局,四川成都 610041)
近年来,网络舆情对社会政治生活秩序和社会稳定的影响与日俱增,一些重大的网络舆情事件使人们开始认识到网络对公众想法、社会舆论热点反映起到的巨大作用。网络舆情突发事件如果处理不当,极有可能诱发民众的不良情绪,引发群众的违规和过激行为,进而对社会稳定形成威胁。有感地震发生后,如何快速、全面、准确地掌握网络舆情动态,从海量的网络舆情信息中获取震情、灾情信息、地震相关舆论热点、话题关注度变化趋势、错误舆论和谣言等信息显得尤为重要。掌握网络舆情信息,可以补充应急指挥、灾情上报等技术系统的产出,为抗震救灾指挥部提供进一步的灾情信息支撑;有针对性地发布信息,宣传防震知识,减少地震及次生灾害带来的人身财产损失;对形成的错误舆论给予正确的引导,以缓解公众的恐慌情绪;对散布的谣言信息实施监控,及时遏止,能够有效维持社会的正常秩序。由此可见,网络舆情监控系统对于震后舆情控制及应急处置起到重要的作用。
1 系统功能
该系统实现了对主要网络新闻媒体及论坛的信息采集与存储。当国内发生4.0级以上地震,全球发生6.0级以上地震时,系统通过EQIM的地震三要素信息,自动生成地震专题,通过自动分类、自动摘要、主题词、智能分词、信息抽取、信息过滤、自动重排、相似性检索、自动聚类等方法,进行舆情分析并存入舆情信息库。通过数据挖掘技术将处理过的信息进行二次分析,从而提供信息导航、信息预警、热点分析、传播分析、时间趋势分析、专题监控、舆情简报、信息推送、统计分析、信息检索等舆情服务,为抗震救灾指挥部提供网络舆情信息。在抗震救灾各阶段工作部署中,能够起到良好的辅助作用。网络舆情监控系统功能如图1所示。
1.1 信息监测与收集
首先,该系统根据需求配置好信息采集源,包括各大门户网站、论坛、博客、微博、社交网站等数据收集点,对各个目标网站的信息进行实时监控,及时采集新信息到本系统后,进行内容分析和过滤等操作。得到新网页的全信息集合,每个网页的信息都被完整记录下来,包括网页名称、大小、日期、标题、文字及图片内容等,根据应用的具体需求存储到不同的目标上:直接存储到文件系统中,存储到关系数据库(如SQL Server、Oracle和MySQL)中,或是存储到内容检索服务器中。
1.2 信息智能处理
该系统将信息自动过滤、自动分类、自动排重、自动聚类、内码转换等功能无缝集成在系统内部,完成对采集信息的智能处理,实现了自动处理的高度集成。
(1)自动过滤。该系统通过自动过滤技术,利用网页结构分析,自动分析有效用的网页,自动提取元数据,自动过滤掉不需要采集的网页和媒体文件,从而有效避免垃圾信息的下载以及对带宽的浪费。利用自动过滤技术,滤除网页中广告、版权等无用信息,自动识别网页真正的标题(很多网页都以New Page来标识),同时保存网页中与正文相关的表格和图片,滤掉正文中嵌入的广告。此外,对于有条件分析出标题、版次、日期、作者、栏目、分类等属性的网页,如存在Meta置标或者格式特征明显的网页,还可以分析并标注出这些信息属性。
(2)自动分类。该系统采用自动分类,借助规则分类技术实现对主题词、关键词、来源等信息内容的分类管理,也可以按统计或规则进行分类。自动分类时,创建专有的分类模型,采用树状结构以方便地进行管理和维护。根据数据创建分类模型,将已完成分类的文章作为样本,结合关键词设计的多级分类树形体系,可以适应系统发展,随时进行更新和管理,使该模型能够不断完善,提升分类的准确性。在该系统中,需要进行数据分类,调用自动分类功能并按模型进行分类,以自动分类为主以规则分类为辅完成包含特定规则的分类处理。对于分类模糊的信息,可以提示编辑进行审核,采用人工分类方式加工和维护。
(3)自动排重。该系统中,自动排重功能通过两项技术实现,一是根据URL直接去重,二是进行内容去重。URL直接去重只需要分析URL串即可实现。内容去重技术则需通过相似性检索中文处理技术,对标题或内容有重复的信息自动归类。内容去重技术,可设置是否存储重复信息,对于标题不同而内容近似的内容同样可以进行识别,对于已经判定重复的信息,系统不会丢弃,而是在做好重复标记后入库,以此实现本地查询相似报道稿件。
(4)自动聚类。该系统通过聚类技术,自动识别网络上的热点新闻事件,及时掌控论坛中的交互信息,发现网民的关注焦点和热点,自动提取用户所关注的热点领域,提高热点发现的准确性。
(5)内码转换。该系统通过内码转换技术实现统一存储。在数据库中网页信息应以统一的内码存储,因此对采集的网页信息需要统一进行内码转换处理。信息在采集时,系统自动识别多种字符集编码,包括中文、英文、中文简体、中文繁体等,并将网页统一存储为标准统一的内码(类型包括GBK,GB18030或者Unicode等)。
(6)数据存储。在舆情监控系统中,由于采集的信息都是网页、图片等非结构化信息,因此,数据存储主要采用非结构化的全文检索数据库。该系统将采集下来的信息存入舆情初始信息库,并建立索引以提供全文检索信息。同时,对初始信息进行分析,比如,过滤出用户关注的行业内容,并根据过滤的情况确定各种舆情分析库的结构和存储,生成各种应用方向的舆情分析库,如转载库、聚类主题库等。通过数据库中的信息可提供数据导出和数据导入功能,以实现与其它系统文件级的信息共享。
1.3 信息服务
(1)自动生成地震舆情专题。地震(国内东部4级以上、国内西部5级以上、国外6级以上地震)发生后,通过信息雷达从互联网采集地震相关数据存入采集数据库,系统从EQIM平台获取地震速报信息,解析速报参数并自动触发,开始对网络雷达从信息源采集的信息按照定义好的分类规则进行智能分析、筛选,建立本次地震相关的专题,根据特殊要求,也可以手动添加地震数据进行手动触发。业务流程图如图2所示。
(2)产出舆情简报。该系统采用可视化编辑器作为文档内容编辑器,当采集的文档类型为HTML页面时,用户可以直接编辑,实现所见即所得的可视化文档内容编辑效果。也可随意指定文档内容的字体、字号、字体颜色、背景颜色、段落对齐方式、项目符号、段落缩进等属性,同时可以插入超级链接、专用分页符、表格、图片、Flash、音频、视频、模板、特殊字符,可以任意调整图片的位置、大小等,充分实现混排功能,插入的图片、Flash等文件会自动上传到适当的目录。整个可视化编辑功能使用方法和Word中大抵相同,符合编辑使用习惯。该功能主要用于简报和报告的生成,从舆情系统中选择多个文章,可直接生成多种格式的简报和报告,也可输出到Word,便于编辑打印。
2 系统在芦山地震中的应用
网络舆情监控系统在芦山地震发生后,在不同的地震应急阶段,按照后方指挥部的要求,随时更新配置舆情监控系统的关键词,每四小时生成一次舆情简报,为后方指挥部提供最新的舆情动态,获取最新的灾情、应急救援、道路通行、次生灾害、伤亡情况等内容,并给出各关键词的关注程度及趋势。截至2013年4月30日12时,共收集到与“芦山地震、人员伤亡、灾害损失、抗震救灾、地震局、次生灾害、灾民安置、疫情、灾后重建、救灾物资、救援队、预警、将发生9级地震、临沂老徐”等热点关注词汇,相关的震情、灾情、抗震救灾信息396 297条。芦山地震发生后,公众对芦山地震“芦山地震、人员伤亡、灾害损失、抗震救灾、地震局、次生灾害、灾民安置、疫情、灾后重建、救灾物资、救援队、预警、将发生9级地震、临沂老徐”等热点词汇关注度均迅速上升,并呈现出不同的变化趋势。地震发生之后,国家及公众对地震监测预报、震灾预防、紧急救援三大工作体系的相关信息关注度迅速升高。近年来,随着网络媒体的蓬勃发展,上述信息在灾情发生后,通过微博等形式在网络上迅速发布并扩散。网络舆情监控系统适应当前新的趋势与局面,进一步增强对网络舆情突发事件的处理和应对能力,提高地震相关信息获取的覆盖率、实时性、智能分析能力、科学发布与展示水平。该系统实现了对新闻网页、论坛、博客、微博、新闻评论等网络信息资源的精确采集和深度解析,搭建了舆情信息检索、舆论热点的发现、跟踪定位、信息转载追踪、敏感信息监控、辅助决策支持、舆情实时预警、舆情监管等功能模块,为地震监测预报、震害防御、应急指挥、灾情上报、灾后救援、社会服务等提供多层次、多维度的舆情信息服务。芦山地震个专题监测文章总量趋势如表1所示,表中活跃指数是指在一定的统计时期内就某一关键字的信息对网民激发的活跃程度(在所有关注信息中所占百分比)。
3 结语
“4.20”芦山地震发生后,在抗震救灾的各个阶段,舆情监控系统通过监测与收集数据、信息智能处理产出的舆情简报信息,对地震应急指挥系统、灾情上报系统提供了重要的信息补充,对抗震救灾各阶段的工作重点选择起到了辅助决策作用,对网站信息的发布及科普知识的宣传给予了正确引导。
表1 专题监测文章总量趋势