基于大数据的智能数据采集及可视化分析系统设计与研究
2022-10-17田肖杨帅鹏贾会梅李进曌霍贺婧李贺
田肖,杨帅鹏,贾会梅,李进曌,霍贺婧,李贺
(1.南阳医学高等专科学校卫生管理系,河南南阳,473004;2.北京邮电大学网络与交换技术国家重点实验室,北京,100876;3.南阳师范学院 计算机科学与技术学院,河南省数字图像大数据智能处理工程研究中心,河南南阳,473061;4.西安恒品电子科技有限公司,陕西西安,710086;5.河南中光学集团有限公司,河南南阳,473003)
0 引言
智能数据采集和大数据分析技术解决了传统数据收集中特色数据难统一、数据汇总繁琐、分析复杂等问题,可在短时间内收集整理数据、分析数据趋势,有利于紧急事件的及时研判和提高日常工作效率。本文设计的智能数据采集及可视化分析系统能够收集和管理数据,也可以根据需求快速创建任何表单,利用大数据可视化技术进行分析展示,满足应急事件、日常办公等多应用场景的需求,极大提高工作效率。
1 系统结构设计
1.1 平台总体架构
智能数据采集及可视化分析系统技术架构如图1所示,本系统采用前后端分离模式,严守企业级架构和规范,采用主流后端技术栈Spring Cloud+Mysql+Redis+RabbitMQ等微服务、分布式、微架构。微服务架构易于开发和维护,技术栈不受限,可以根据需求合理选择,还可以按需伸缩,实现细粒度的扩展。可将系统架构具体分为用户层、业务层、信息处理层和数据存储层。
用户层提供可视化的数据汇总、分析界面;数据处理层实现智能数据收集及可视化分析系统的具体功能,包括表单创建、数据收集、数据汇总及数据分析可视化等功能;数据存储层完成对所收集数据的备份存储等。
图1 系统技术架构
1.2 用户层
用户利用系统提供大量控件自主创建表单,并支持拖拽式全屏编辑,使得采集表单更加清晰结构化。如图2所示。
图2 用户编辑页面
支持设定标签,使用标签也能进行分类,或用来标识特定属性的表单,以实现表单的快速定位。添加表单介绍可以让采集人员或填表人员更加明确采集的内容和要求.表单发布时对已创建的表单关联选择填表成员进行发布,填表成员需要登陆账号进行数据填报;支持多种分发模式:所有人可填、按部门采集、选择人员可填等。
1.3 网络传输层
本系统采用的是微服务架构,通过Hystrix库用于隔离访问远程系统,服务或者第三方库,防止级联失败,从而提升系统的可用性和容错性。使用Zuul构建服务网关,利用Zuul过滤器进行用户身份验证、压力测试、负载均衡等功能。以及使用Spring CloudConfig统一管理微服务配置。通过以上内容保证用户数据安全、完善使用体验、提高工作效率。
1.4 数据处理层
系统通过调取用户提交的表单或者用户手动导入的方式进行数据收集,经过智能化数据汇总,数据清洗后,为用户提供可视化界面,分析显示数据分布、趋势、比例等隐含内容,为用户进一步决策提供有效数据参考。
2 平台功能设计
(1)表单创建:基础模块、布局模块及高级模块多种方式相结合,包含静态文本、单行文本框、复选框、信息区、隐藏域、下拉框、列表框、单选框、按钮、日历组件、意见框、字典、会议室、明细、组织结构、图形、图像域、日期、地图、文件上传等30多种控件,满足各类信息收集需求。支持向导式建表,支持拖拽式全屏编辑,操作简单、更加人性化、合理化。
(2)表单分发:表单发布时对已创建的表单关联选择填表成员进行发布,填表成员需要登陆账号进行数据填报;支持多种分发模式:所有人可填、按部门采集、选择人员可填等。
(3)表单收集:本系统可通过PC端采集、移动端采集、Web在线采集等多种采集方式,且多端数据互联,用户操作不受约束。填表人可以通过表单提交或文件导入的方式进行数据收集。经过智能化数据汇总,数据清洗后,创表人可通过表格方式看到采集到的数据,并且数据自动填充填表人员、填表部门、填表时间等信息,使得数据更加得丰富、检索更快捷。
图3 数据可视化分析展示
(4)表单汇总分析、可视化:系统对所收集数据进行汇总分析,支持一键发布、一键关闭,并且可以选择采集的开始时间和截止时间,使得数据采集更加方便有效。数据统计是强大的汇总、分析数据的工具,帮助用户了解、对比数据情况、趋势和数据中隐藏的模式,数据可视化提供了一种非常清晰的沟通方式,可以让数据更快的呈现在人们面前,便于人们对于数据的理解。
3 平台工作流程
用户在使用本系统时首先可通过导入表单方式进行数据分析或根据需求创建表单,再选择关联填表成员进行发布,填表成员需要登陆账号进行数据填报,系统支持多种分发模式:所有人可填、按部门采集、选择人员可填等。发布者可通过系统查看表单填写回收情况,系统将所收集表单进行汇总,用户可按需选取内容进行可视化显示。实现对表单数据的快速创建、分发、收集、汇总分析、可视化等。
4 关键技术
4.1 微服务架构
本系统采用Spring Cloud框架进行开发,此框架具有Netflix、Eureka、Hystrix等一系列完善的开发组件,更精准的制定优化服务方案,提高系统的可维护性,采用去中心化思想,服务之间采用Restful等轻量级通讯,比ESB更轻量。能够为用户提供更加快速、稳定的服务。
4.2 Hystrix实现微服务的容错处理
Hystrix是由Netflix开源的一个延迟和容错库,用于隔离访问远程系统,服务或者第三方库,防止级联失败,从而提升系统的可用性和容错性。Hystrix主 要通过包裹请求、跳闸机制、资源隔离、监控、回退机制、自我修复等实现延迟和容错。实现机制如图4所示。
图4 Hystrix 实现机制
4.3 大数据处理技术
本系统利用大数据处理技术对用户收集数据进行可视化分析展示,帮助用户直观对比了解数据情况,预测发展趋势等数据中隐藏模式。在Hadoop平台下利用HDFS分布式存储框架,MapReduce分布式计算框架,Yarn资源调度平台,能够支撑大量数据的同时处理、存储,为系统提供稳定支撑。