APP下载

基于Hadoop的航天网络舆情监测系统的设计与实现

2017-08-23齐钢雷潘坚

科技创新导报 2017年16期
关键词:数据挖掘航天

齐钢雷 潘坚

摘 要:大数据时代,舆情监测和分析越发重要。针对单机爬虫效率低、可扩展性差、存储管理困难及信息展示不友好等问题,设计并实现了一套基于Hadoop的航天网络舆情监测系统,系统首先利用基于MapReduce的分布式网络爬虫进行数据抓取,以HDFS作为底层存储系统,在其上构建基于HBase的分布式数据库对舆情信息进行统一存储管理;通过提供定制化查询功能及相关辅助功能协助舆情分析人员实时监测舆情。测试结果表明,系统可以有效地实现对网络舆情的监测并实现定制化展示,达到了设计要求。

关键词:舆情监测 数据挖掘 航天 Hadoop

中图分类号:TP311.52 文献标识码:A 文章编号:1674-098X(2017)6(a)-0181-04

Abstract:In the era of large data, public opinion monitoring and analysis is becoming more and more important. Aiming at solving low efficiency for stand-alone reptiles, poor scalability, poor storage management, unfriendly information display and other problems, a set of Hadoop-based space network public opinion monitoring system is designed and implemented. The system first uses the distributed web crawler based on MapReduce to carry out data crawling, and HDFS is used as the underlying storage system to build a distributed database based on HBase. Through the provision of customized query function and related auxiliary functions to assist public opinion analysts to monitor public opinion in real time. The test results showed that the system can effectively realize the monitoring of the network public opinion and realize the customized display, and meet the design requirements.

Key Words:Public opinion monitoring;Data mining;Aerospace;Hadoop

大數据时代,网络舆情极强的传播力和影响力越发受到社会各界重视。因此,及时发现和掌握网络舆情的发展动向,有针对性地提出解决方案、消除负面影响,对政府机关和企事业单位意义重大[1-2]。

针对以上问题,该文设计并实现了一个基于Hadoop的航天网络舆情监测系统。该系统采用分布并行方式对互联网信息进行采集[3-4],分析挖掘舆情信息的内在联系,为政府机关和企事业单位第一时间了解自身相关舆情并进行及时预警、形成舆情分析报告并为领导决策提供智力支持。

1 相关理论研究

1.1 网络舆情概念

网络舆情是指民众通过互联网围绕着特定社会事件产生的对事件及领导者所持有的态度、情绪以及意见等的集合。网络舆情特别是一些负面舆情的形成和传播通常会十分迅速并且在极短时间内发展到相当大的规模。如果不能对此进行监测和预警,会给涉事主体带来难以估量的损失。另外随着大数据时代的到来,如何对海量的舆情信息进行搜集、处理并挖掘信息成了摆在舆情分析人员面前的一个亟待解决的问题[5]。

网络舆情监测系统的出现为舆情分析人员的分析工作提高了巨大便利,它利用自然语言处理技术以及数据挖掘技术通过对互联网信息的采集、预处理、分析来满足用户对网络舆情监测的各种需求,并可形成统计性图表、报告等,使用户能够及时发现舆情突发事件,并且第一时间做出针对性反应,进而为高层决策提供支持,是大数据技术在舆情分析领域的典型应用[6]。

1.2 Hadoop

Hadoop可以归类成一个完整的生态系统,包含从数据存储到集成、数据处理及数据分析等大量组件,可以使用户在不了解分布式底层细节的情况下开发分布式程序。HDFS作为Hadoop生态系统的基础组件可以将海量数据分布到计算机集群之上,实现一次写入,多次读取。Hadoop的主要执行框架是MapReduce,它是一个用于分布式并行数据处理的编程模型。HBase是一个构建于HDFS之上的面向列的NoSQL数据库,提供对海量数据的快速读写能力,它利用Zookeeper作为自己的分布式协调工具[7]。利用Hadoop组件可以实现功能强大的大数据支撑平台。

2 系统的设计与实现

2.1 总体架构设计

该文设计的基于Hadoop的航天网络舆情监测系统主要包括三个子系统:互联网信息监控子系统、舆情数据分析子系统和舆情服务子系统。其中舆情数据分析子系统功能结构最为复杂,该文将给出详细设计说明。

互联网信息监控子系统的主要工作是抓取互联网信息,对抓取的互联网信息进行处理、存储,为上层分析提供数据支持。系统采用HDFS作为底层数据存储介质,在其之上构建更高层次的HBase和Hive进行数据管理[8]。舆情数据分析子系统采用分布式编程设计对原始网页信息进行处理,包括文本预处理、文本聚类、摘要提取和话题发现等。舆情服务子系统为用户提供功能丰富的舆情信息展示功能,包括多种舆情信息的查看和多种统计辅助工具的使用。基于Hadoop的航天网络舆情监测系统总体架构如图1所示。

系统总体架构分为四层,分别为展现层、共性服务层、存储层和数据聚合层。

展现层为用户提供访问系统途径,考虑到舆情信息的保密相关要求,可根据实际情况只设置为舆情分析师操作用的舆情数据操作平台和为高层领导用的手机APP软件。该文将采用这种设计方式。

共性服务层提供舆情信息展现所需要的共性服务,包括标引服务、关键词服务、摘要服务、自动分类、聚类服务、自动情感分析、涉事主体识别、敏感信息识别等。

存储层包括舆情监控数据缓存服务器和舆情分析数据服务器,用于数据的存储。

数据聚合层通过网络信息获取技术获取舆情资源,并通过排重、去噪、提取、索引、整合等技术手段处理信息并存入数据库。

2.2 功能设计

该文设计的舆情监测系统是一套可提供舆情监测、舆情分析和舆情服务的软件系统,系统通过监控国内互联网获取舆情数据,并经过自动处理后,提供给舆情分析师再进行更细致的人工处理。系统具体功能结构如图2所示。

2.3 舆情信息分析子系统

舆情数据分析子系统运行在舆情分析数据服务器上,它包含一系列的智能化语义分析工具、辅助研判评估模型和统计图表制作工具等,以提高分析人员的工作效率,加强舆情工作的快速反应能力;系统同时提供多种情报简报、专报的辅助制作功能和舆情数据推送管理功能。下面将对“智能化语义分析工具集”和“舆情分析平台”做详细设计和介绍。

2.3.1 智能化语义分析工具集

智能化语义分析工具集融合最新的人工智能、信息检索、数据挖掘等研究成果,通过信息检索、提取、处理及信息模块拼装技术,以用户的需求为中心,将数据处理结果结构化的呈现给用户。

该功能模块主要实现如下功能。

标引服务:从文本中识别文章标题、作者、来源、发布时间、正文内容等。

关键词服务:从正文里面把跟这篇文章意义最相关的一些词抽取出来,为确保关键词抽取的维数不至于太高,只选取和航天紧密相关的名词、动词。

摘要服务:利用中文分词技术等自动地从原始文献中提取能够全面准确地反映某一文献中心内容的简单连贯的短文。

聚类服務:将数据集中的所有数据,按照相似性划分为多个类别,结合人工研判,得出热点话题,达到热点话题发现、实现舆情预警功能。

自动分类:按照事先设定的舆情事件类型,如:贪污腐败、生活作风、上访、四风等建立自动分类模型,实现信息的自动分类功能,便于相关话题、事件的后续追踪。

自动情感分析:识别出信息中蕴含的正负面信息,对文本信息进行情感分析,进而判断文本的情感正负属性。

涉事主体识别:按照预设的监控体系,自动识别信息关联的相关企业、产品、重大项目、人员等。

2.3.2 舆情分析平台

舆情分析平台是舆情分析师查看、分析、统计舆情数据的操作平台,其利用构建的舆情分析数学模型来辅助舆情分析师发现和分析舆情事件,并提供一系列功能支撑舆情分析师对舆情事件做出更准确的判断,提高工作效率。

该功能模块主要实现如下功能。

重大事件舆情分析:针对影响力较大的已知事件、提前部署的监控事件设定专用识别模型进行监控和识别分析,实时监测相关动态。

主要企业舆情分析:将集团公司的多级企业与监控的信息进行识别和关联,选中具体企业名称,则检索出和该企业相关的舆情信息。

重点产品舆情分析:针对主要的航天产品如长征火箭、遥感卫星、北斗卫星、彩虹无人机等,设定专用识别模型,实时监测相关的舆情信息,达到分类跟踪的目的。

重大工程舆情分析:针对航天领域重大工程,如探月工程、载人航天工程、深空探测工程等,分别设定专用识别模型,实时监控相关领域的舆情信息,达到分类跟踪的目的。

重点人员舆情分析:针对集团公司及下属各单位的重点人员(领导、总师、重要技术人员等),设定专用识别模型,实时监控相关舆情信息,达到分类跟踪的目的。

数据统计分析:根据用户需求建立统计分析模型和搭建图表表示模型,根据用户需求分析特定条件下的统计信息,为用户提供图表化的统计信息展示。

舆情报告制作:根据相关分析数据自动生成舆情简报摘要,辅助舆情分析人员撰写舆情报告。

舆情信息推送:舆情分析人员将第一时间发现的敏感舆情信息通过人工判研推送到手机APP,使舆情分析小组成员及时收到舆情提醒,及时参与讨论。

舆情数据分析子系统业务流程图如图3所示。

3 系统测试

考虑到系统信息的敏感性,系统设置要求只有当用户正确输入用户名和密码及验证码后才能登录系统,否则系统提示相关错误信息。用户成功登录系统后,进入首页的舆情信息展示页面。

舆情信息展示页面展示的是最新抓取到的符合要求的舆情信息,每条舆情信息包括抓取时间、舆情主题、舆情正负面标识、命中的关键词组和舆情信息摘要。舆情分析人员可点击舆情主题或舆情信息摘要查看详细信息。当点击“推送”后,会弹出针对本条舆情信息的推送设置信息,舆情分析师可把该条舆情信息通过手机APP推送给主管领导或舆情分析小组,达到快速商议和沟通目的。

当点击“任务跟踪”、“事件跟踪”、“企业舆情”、“人员舆情”、“产品工程舆情”、“行为特征”、“统计分析”功能选项时,系统则自动从数据库中按以上查询条件查询并显示,达到按指定条件查询并显示的目的。

当点击“简报制作编辑”功能选项时,则进入舆情简报编辑页面,舆情分析工作人员可选取系统提供的编辑模板来辅助编辑,编辑完毕后可保存为word文档格式留档存用。

4 结语

信息时代自媒体等网络载体成了人们发表言论的“主战场”,由于自媒体传播信息有着传播速度快、影响范围广等特点,及时对相关言论进行监测,在发生重要舆情事件时有针对性地提出解决方案、消除负面影响,对涉事主体意义重大。

该文分析了舆情和Hadoop的基本概念,针对舆情监测系统中存在的问题进行了说明,并设计实现了一套基于Hadoop的航天网络舆情监测系统。系统能全天候对指定网络资源进行监控,并提供了定制查询、统计分析及舆情简报辅助等功能,测试结果表明,系统运行稳定,达到了设计要求。

参考文献

[1] 张薇.网络舆情对国家安全影响分析[J].信息工程大学理学院,2016,11(13):244-245.

[2] 李振江.航天网络舆情监测系统框架研究[J].中国管理信息化,2015,11(13):193-195.

[3] 张小明,李舟军,巢文涵.基于增量型聚类的自动话题检测研究[J].软件学报,2012,23(6):1578-1587.

[4] 刘霁,周亚东,高峰,等.一种基于文本语义的网络敏感话题识别方法[J].深圳信息职业技术学院学报,2012,9(3):33-37.

[5] 贺灵,蔡易超.数据挖掘中的聚类算法综述[J].计算机应用研究,2013,24(1):10-13.

[6] 刘宏伟.分布式海量数据存储检索系统设计与实现[D].西安电子科技大学,2012.

[7] 陈彦舟,曹金璇.基于Hadoop的微博舆情监控系统[J].计算机系统应用,2013,22(4):18-22.

[8] 邹鸿程.微博话题检测与追踪技术研究[D].郑州:解放军信息工程大学,2012.

猜你喜欢

数据挖掘航天
航天梦,我的梦
逐梦航天日
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
航天股为何遭爆炒
基于GPGPU的离散数据挖掘研究