互联网信息监测系统的设计与应用
2019-12-23魏敏徐钦
魏敏 徐钦
摘要:根据南京市标准化研究院开展的《南京市重点新兴行业信息简报》《浦口区产业地标发展信息研报》制作需求,设计了一套能够利用大数据采集、存储、检索、分析等先进技术对海量数据进行全面处理的互联网信息监测系统。系统能够检索相关行业政策信息和行业动态,并对获取信息进行筛选、分类、统计,最终形成专业详实的分析报告,为相关职能部门、行业主管部门、相关企业进行科学决策提供重要支持。
关键词:行业 检索 设计 应用
Design and Application of Internet Information Monitoring System
Wei Min, Xu Qin(Nanjing Institute of Standardization)
Abstract: According to the requirement of making “Information Briefing of Key Emerging Industries in Nanjing” and “Information Research Report of Industrial Landmark Development in Pukou District”, a system which can comprehensively process massive data was designed and built in Nanjing Institute of Standardization The system uses advanced technologies like big data collection, storage, retrieval and analysis. It can retrieve policy information and news in relevant industry areas, then screen, classify and count the data and finally form a professional analysis report. The report can provide important support for relevant functional departments, industry authorities and relevant enterprises to make scientific decisions.
Key words: industry, search, design, application
1 引言
2017年11月,中共南京市委、南京市人民政府发布《关于加快推进全市主导产业优化升级的意见》,指出将7大类14个战略性新兴产业优化为“4+4+1”主导产业体系,目标到2020年,全市主导产业主营业务收入达45000亿元。智能电网、智能制造装备、新能源汽车是南京市确定的先進制造业四大主导产业的重要组成部分,也是原江苏省质监局研究确定南京市第一批质量提升行业,对推动南京市制造业提质增效升级具有示范引领作用。南京市标准化研究院及时响应全市开展的质量提升行动,通过了前期的调研和讨论,设计了一套互联网信息监测系统,针对三大质量提升行业进行全方位的动态跟踪,并研究制定了《南京市重点新兴行业信息简报》。简报从政府、行业、南京市三个层次检索最新动态信息,为相关职能部门、企业及时掌握行业动态,了解行业发展状况提供了有效途径,对三大重点行业的质量提升具有积极的意义。
近年来,南京市浦口经济开发区作为浦口区、江北新区的重要产业载体,紧密围绕南京建设创新名城、创新名城战略部署,努力打造新能源汽车和集成电路两个千亿级的主导产业链,充分激发产业地标的新活力与“芯”动能。为配合浦口区抢抓产业地标新发展机遇,优化产业布局,南京市标准化研究院应用互联网信息监测系统,为浦口区市场监管局开展主导产业舆情分析,并定期编纂《浦口区产业地标发展信息研报》。此项工作,为浦口区相关职能部门及企业及时了解行业发展现状,进行科学决策提供重要支持。
本文设计的互联网信息监测系统以云采集、云存储、云检索、云分析等云计算技术为基础的方正智思大数据分析处理平台为核心,以本地部署的应用服务为基石,为用户提供独立的网络信息搜索及分析应用服务,系统通过对互联网海量信息实时精确采集和即时深入地分析,实现对新闻、论坛、博客、评论、微博、微信、移动客户端等的全面监测,使用户在第一时间掌握网络信息动态,并能够对关注事件或线索进行持续追踪和多维分析,辅助用户全面掌握行业动态,为相关部门进行科学决策提供了事实依据和参考。
2 系统设计
2.1 系统总体架构设计
互联网信息监测系统辅助用户全面掌握行业动态,系统采用面向服务的思想,利用松散耦合的分层方式将系统整体上分为5大模块,各层之间的界限清晰,功能明确而不交叉,具有较高的可配置性和伸缩性。
(1)基础设施层
基础设施层设备部署在特定机房,通过采购相应的服务器和存储设备以及共享信息中心网络、安全基础设备,为整个系统提供基础的分布式存储、分布式计算和集群等软硬件支撑,互联网出口采用机房外网出口。
(2)虚拟化技术
基于方正云服务中心以传统的独立硬件构建为基础,采用虚拟化技术对硬件资源进行虚拟化处理,将相关应用服务部署于虚拟化系统。
(3)大数据平台系统
以云计算技术和分布式技术为基础,利用分布式采集系统全面采集各网站发布的互联网信息,搭建海量数据存储、全文检索和智能分析系统,实现对大规模互联网舆情数据的存储、检索和挖掘。
(4)应用层
以舆情大数据系统为基础,系统提供信息搜索、事件订阅、事件分析、热点推荐、信息通知、信息编辑、行业报告,以及消息管理、系统管理等前后台功能。
(5)服务层
为用户提供全面的搜索、事件分析、热点报告服务,满足用户日常舆情监测的工作需求。
2.2 系统技术支撑
2.2.1 海量信息采集
依托方正智思大数据分析处理平台分布式架构和硬件资源,系统统一调度采集任务,充分利用每个下载机的资源,提高采集的整体性能。可通过调整集群的子节点数量来提高集群的负载能力。本地重点采集网站可通过本地部署雷达采集,保障本地重点网站的实时快速采集。
2.2.2 海量级数据存储
基于方正智思大数据分析处理平台的Hadoop的分布式存储框架,采用HBase分布式数据库,构建于分布式HDFS之上,使用列存储技术,通过线性方式从下到上增加节点来进行扩展,将大而稀疏的数据表存放到方正大数据分析处理平台的服务器集群上,减少用户对于数据存储方面的投入,满足高可靠性、高性能、可伸缩的特性。
2.2.3 分布式检索
为解决大数据快速检索的问题,监测系统利用方正智思大数据分析处理平台的集群技术架构,通过扩展子集群的数量,提高系统的数据规模负载能力,以满足更大的数据量需求;通过扩展子集群内的副本数量,提高系统的并发检索的负载能力,满足大量并发检索的需求。
2.2.4 多元化数据采集
多元化数据采集技术包括定向采集、元搜索采集和漫爬采集。定向采集实现对网站内容的实时监控和精准采集。元搜索采集实时调用多个大型搜索引擎进行信息搜索,并进一步采集原始网页内容并抽取关键信息,为用户提供更为全面的网络信息。漫爬采集对全球网站扩散网络漫爬,实现互联网数据的发散型大规模采集。
2.2.5 智能分析
智能分析系统实现分布式架构,可线性扩展子节点数量,提高系统的数据负载能力,充分并合理地利用分析服务资源,提高整个系统的工作效率。智能分析包括精准的语义分析、全面的智能处理和社会化媒体信息挖掘分析。
2.2.6 数据推送传输
依据业务关注方向,数据推送系统对采集数据进行筛选加工,定期、及时将符合要求的数据推送至本地。数据推送过程中采取各类安全措施,进行数据的归并、压缩和加密,本地获取数据后进行对应的解密和解压缩,最大程度上保证了数据推送的安全性。
2.3 系统主要功能
2.3.1 信息采集
信息采集是利用计算机软件技术针对定制的目标数据源实时进行信息抽取、挖掘,从而为各种信息服务系统提供数据输入,并按业务所需来进行数据发布、分析的整个过程。系统通过跟踪各类新闻、论坛、贴吧、博客、微博、微信、移动客户端、SNS、电商网站(京东、苏宁、国美)中的文字、附件、图片、音视频等,对全媒体类型的内容进行实时监控和自动采集,满足对海量互联网信息资源的快速获取需求。对采集网页中的标题、作者、来源、时间、发布链接、关键词等数据信息进行自动归档、判别和提取。
2.3.2 全文搜索
全文搜索是對海量文本数据进行检索的重要而基础的技术手段。本系统基于系统开发公司具有自主知识产权的中文信息处理技术,利用字词混合索引、倒排索引以及分段索引等多种检索技术,实现对海量数据的快速检索。支持模糊搜索、高级搜索、以文搜文。同时,系统还具备高级搜索及订阅功能。高级检索功能支持通过设置关键词,并限定关键词位置(标题、正文)、发布时间、信息类型(信源类型)、作者、网站名称及频道名称等来进一步搜索目标信息。订阅功能通过设置订阅名称、截止有效期、关键词设置及位置、网站分组、预警间隔时间、信息增量和敏感词来确定搜索目标信息,通过以上设置可以直接在该模块中提前设置好的行业中方便快捷地查询目标信息。
2.3.3 信息监测
信息监测是在信息搜索基础上自动对各种大型网站信息进行持续24小时不间断监测,掌握当下互联网各类行业信息。在系统中通过关键词方式定义和配置所需关注追踪的行业,对需要长期或重点关注的行业添加关注订阅,系统根据用户所处的地域或关注的新闻网站、移动新闻客户端、企业、品牌网站、微博人物、微信公众号、快速地推送用户所关注的上述信息,实现实时从海量数据中心识别和匹配与此相关的所有互联网信息供用户浏览。
2.3.4 关注信息智能分析
系统为用户提供了方便快捷的信息订阅模式,用户可根据自身关注的时间或聚焦的某些行业方向进行内容的订阅,针对用户的每一个订阅事件,系统自动对事件进行有针对性的持续追踪,以及多维度的精准挖掘分析,萃取热点、敏感信息,掌握事件的发展动态及网民舆论倾向。
2.3.5 报告生成
报告生成是通过系统将信息采集的结果,自行筛选生成图文并茂的分析报告。系统支持将采集到的信息及图表一键加入到报告素材库,并根据报告模板一键生成多类型的报告。报告简明、准确、易懂,报告形式包括简报、日报、周报、月报。同时舆情专报可针对某一突发事件进行专项事件分析报告,分析内容包括媒体报道情况、网民关注情况、事件发展情况等。
3 系统的应用
本文主要将互联网信息监测系统中高级数据搜索、信息订阅、报道总趋势分析、生成报告共四大功能的应用情况做出详细介绍。
3.1 高级数据搜索功能的应用
高级数据搜索功能通过整合境内外新闻、论坛、博客、微博、移动客户端、微信类型数据,开放搜索功能,按关键词、时间、信息类型和网站分组组合即可一键搜索、快速定位关注信息。本文应用高级数据搜索功能,完成对新能源汽车产业各级政府信息、行业内动态信息的搜索。通过设置关键词“(新能源汽车) & (江苏 | 南京) & (!股票 & !债券 & !保险)”、关键词位置“标题或正文”、信息推送时间“2019-08-01至2019-08-21”、信息类型“新闻、论坛、微博、微信、移动客户端”来进行搜索,查询结果显示共有169条信息符合搜索条件。
3.2 信息订阅功能的应用
信息订阅模块提供方便快捷信息订阅服务,通过配置订阅规则实现对重点、敏感信息进行有针对性的持续追踪。在平台中通过关键词方式定义和配置所关注追踪的事件。本文应用信息订阅功能,以集成电路行业为例,通过设置订阅名称“集成电路”、关键词“(集成电路) & (!股票 & !债券 & !保险)”、关键词位置“标题和正文”、信息时间段“最近一月”、通知预警间隔时间“每天一次”、预警通知类型“邮件”对集成电路产业进行信息订阅设置。通过设置,平台自动实时24小时不间断检测,从海量数据中识别和匹配出近一个月来与集成电路产业相关信息2020条。
3.3 报道总趋势分析功能的应用
通过特定设置对系统进行信息搜索后,可针对搜索结果进行深入的统计分析。此处的统计分析是随着时间的变化、事件的整体报道趋势,即发布信息在一定时间段内的数量变化曲线。系统默认以折线图展现,统计图横坐标表示时间,纵坐标表示数量,每条不同颜色的折线代表不同的信息类型。可查看新闻、境内新闻、境外新闻、论坛、境内论坛、境外论坛、微博、博客、新浪微博、腾讯微博、移动客户端、微信类型信息的发布趋势。本文应用报道总趋势分析功能,对3.1中新能源汽车产业信息高级数据搜索功能搜索结果进行报道总趋势分析,其功能实现图如图1所示。
3.4 生成报告功能的应用
报告生成功能即对高级数据搜索和信息订阅功能推送的信息进行处置,通过设置报告类型、报告名称、报告描述和报告分组,并结合作者自身观点,生成的信息分析总结报告。生成报告功能实现图如图2所示。
“南京市重点新兴行业信息简报”围绕智能电网、智能制造、新能源汽车三大行业,从政府、行业、南京市三个层次全方面检索最新行业动态信息,并对信息进行分类、统计和分析。此项工作为南京市各级政府及企业及时掌握行业动态、了解行业发展状况提供了有效途径,对三大重点行业的质量提升具有积极的意义。
4 结束语
本文依托互联网信息监测系统先进的架构设计与科技化手段,以海量多信源数据有效共享和用户行业信息监测为导向,帮助工作人员从大量的人工搜索及分析工作中解脱出来,实现对互联网信息动态及时、准确、科学地监测,同时强大的数据支撑,也为后续分析报告的研判提供了事实依据,从而保证了研判的客观性和准确性。
参考文献
[1] 方俊青.论网络舆情监测分析系统[J].法制与社会,2013(3):187-188.
[2] Liu B.Web數据挖掘:第2版[M].俞勇, 等译. 北京:清华大学出版社,2013.
[3] 张倩倩,赵星汉,高湘飞.软件测试用例的设计方法[J].电子技术与软件工程,2018,133(11):60-61.
[4] 李敏.互联网舆情监控系统设计与实现[D].上海:复旦大学,2009.