一种基于大数据的可视化数据治理平台的研究
2022-04-21黄凯章铖
黄凯,章铖
(上海科技馆,上海,200127)
1 研究背景和目的
随着博物馆和科技馆等场馆的信息化建设的不断发展,场馆运行、管理、服务等产生的数据也不断在增加,现有的数据处理方式很难满足业务的新要求。为了后期的数据的高质量和灵活性,系统的数据治理工作显得尤为重要。本文针对上述场景,研究一种基于大数据的可视化数据治理平台,通过运用大数据技术,向用户提供可视化操作组件,从数据采集、数据处理到最后的数据输出都是用户进行按需操作。为了满足用户自定义处理的需求,平台也提供给用户自定义的操作能力,用户通过自行编辑脚本实现想要进行的数据工作。另外为了保障后期系统数据处理的质量,系统需要具备整合多系统之间数据源的处理能力,并且把数据处理为统一的数据格式,供用户进行便捷使用。系统通过基本的大数据处理算法提供给用户进行使用,即使用户对大数据处理算法不是很了解也可以输出用户想要的数据内容,可以解决用户使用的瓶颈,平台通过建立分布式架构,对数据处理能力进行智能化封装和输出,将数据处理能力统一对外进行模块输出,数据处理流程进行抽象、模型化,使平台真正变成一个通用的对象,进而可以方便用户自由的去设计业务逻辑与功能。
2 数据治理平台总体架构
本文中所研究的大数据的可视化数据治理平台是基于博物馆或科技馆等相关系统场景进行搭建的,这些场景的相关系统一直是从传统系统慢慢进行演变,现阶段就存在系统数据来源广,数据之间数据不兼容等问题。所以系统建设需要充分考虑目前系统的兼容性后未来系统升级的可拓展性,系统的构建使用平台化和模块化的设计思路进行构建,充分满足目前当前系统的数据业务需求。可视化数据治理平台的总体架构主要有四层进行组成,分别是用户展示层、应用层、支撑层和数据层。用户展示层主要是系统使用用户和使用人进行开放,本文中主要是系统管理人员和业务使用人员,通过大屏终端、PC电脑和移动终端提供系统展示能力。应用层主要是负责提供应用能力给上层进行使用,例如数据资产全景视图、运营管理数据分析和安全态势监测等能力。支撑层主要是提供数据采集能力、数据治理平台能力和数据可视化平台能力。数据采集主要是对底层提供的原始数据进行整合处理,将原始数据进行处理后,进行数据能力统一封装,处理好的数据统一提供接口对外进行提供输出数据能力。数据治理平台能力是对采集到的融合数据进行统一数据处理,包括基本的数据预处理,数据异常补全等数据处理能力。数据可视化平台是将数据治理平台的数据进行可视化的展示,数据可视化显示,数据处理可视化建模和数据可视化管理能力。数据层就是最基本的各系统之间的原始数据库的原始数据,包括各种配置文件数据和数据库数据,例如档案数据、票务数据和客流数据等等,这些数据都是各自子系统分别进行提供的,数据存储的格式和方式都可能不尽相同,所以需要为数据进行统一元数据处理。具体系统总体架构图,如图1所示。
图1 系统总体架构图
3 数据治理平台核心流程
本文研究的一种基于大数据的可视化数据治理平台主要是研究通过提供可视化的界面提供给用户进行组合数据处理,数据处理模块都通过模块化的封装提供给用户,主要涉及数据采集处理和数据算法处理等模块内容,便于用户自行进行数据数据操作。
3.1 数据处理分析流程
本文中搭建的数据治理平台的数据处理需求不仅需要数据的采集功能,而且还需要数据的融合处理能力,同时为了满足后期系统的可视化可扩展性,系统还需要满足数据融合处理具有一定的自定义处理能力。系统进行数据处理的主要流程分为3步,即数据采集、数据清洗和数据发布。数据采集,就是从系统中抽取元数据信息。现有的博物馆系统数据系统来源广泛,包括票务系统、员工内部系统、场馆实时监控系统和内部物资管理系统等等,不同系统之间使用的数据库也都不完全相同,包括SQL Server、Oracle、DB2和Mango DB等主流数据库,还有一些系统使用的是国产的数据库,数据读取都是基于标准的JDBC、ODBC接口进行数据读取。另外数据采集还包括一些文件数据的读取工作,包括文本或者XML配置文件等。系统为了支持数据采集具有扩展性,通过建立具有调度能力的控制数据通道,用户设置之后,系统自动进行数据采集。数据清洗主要是系统负责对一些异常数据、数据不一致或者空白数据等情况进行处理,最后形成一套完整的数据内容,系统数据处理也是需要兼容后期的可扩展性。数据清理也支持用户手动进行处理和数据运算处理程序。数据发布就是数据经过清洗后,生产的数据发布到对外数据处理结构中,这里的数据结构也支持自定义进行编辑,用户可以进行按需选择使用,便于后期数据进行统一处理和应用。数据治理平台的数据处理分析流程图,如图2所示。
图2 数据处理流程图
3.2 数据血缘分析
数据治理平台需要处理的数据量很大,为了保证后期数据结果的高质量和高价值,就需要保证数据处理的源头进行处理的元数据处理过程质量高。系统平台采用血缘分析发帮助进行数据治理工作,一方面当发现数据有异常状况时,可以帮助进行数据追踪,找到有问题的数据源,另一方面可以根据血缘关系清洗数据清单可以直观的保证数据的质量。系统采用血缘分析将分析元数据的产生、加工处理及流转流通链路,得出血缘关系与影响关系,辅助用户定位数据仓库建设过程中的问题及判断数据变动的影响范围,辅助用户开展数据关联分析。血缘分析主要分为三部分。第一部分主要为编写依赖于sql语法规则的sql语句解析、词法解析及语法解析等规则问题。第二部分信息传播。第三部分编写血缘计算计算模型。在分析过程中会生成血缘关系图和影响关系图,供用户进行参考。血缘关系图:解析数据加工处理过程,追溯对该对象有影响的所有表的范围,支持表级及字段级关系展现,并可查看其操作步骤。影响关系图:解析数据加工处理过程,分析该对象发生变化后会影响或牵连到的表范围,支持表级及字段级关系展现,并可查看其操作步骤。具体的数据血缘分析示意图,如图3所示。
图3 数据血缘分析示意图
3.3 可视化数据治理流程
平台通过提供可拖曳的完善的图形组件给用户,让用户自行进行选择建模使用,完成数据处理和计算分析的目的。用户不需要具备专业的数据分析编码的能力,只需要根据自身的需求进行选择模块进行建模,配置好相关的数据处理参数即可。用户进行可视化数据治理流程,首先需要平台通过内置的自助数据导入功能对元数据进行准备操作,这样可以保障数据处理操作不影响源数据,不对原始系统数据产生干扰。待系统数据准备好后,用户需要快速的浏览数据确保数据源正确,而且可以了解数据的基本分布情况。然后可以使用数据处理功能,对数据进行关联、追加和合并等操作。同时平台内置了多种度量指标计算模块和多种计算模式,通过这些模块的嵌入集成,让业务人员即使在不理解算法原理的情况下,也可快速完成数据处理的应用,进行相应的深度数据分析工作。具体的可视化数据治理流程图如图4所示。
图4 可视化数据治理流程图
4 数据治理平台实践成果
基于大数据的可视化数据治理平台的数据采集方式支持用户进行可视化的拖拽选择,可以让用户灵活实现数据采集的功能,而且还提供用户自定义采集的能力,便于用户自行拓展数据采集能力。目前平台对主流的数据采集模块进行了组件封装,具体包括如下组件库,主流数据库、主流文件、配置文本文件和接口方式接入。系统提供的输入组件能实现基本的数据输入和更新操作,另外针对输入的数据系统还提供基本的数据处理能力,包括基本的字符串处理功能。这些组件都是以图形化的能力向用户提供,方便用户进行编排和使用,另外,平台还提供图形化的集成开发环境,提供多种数据处理组件,方便编排复杂数据处理流程以及管控多种模式的数据处理任务。系统为了满足数据处理的效率,支持数据进行批处理操作,用户选择图形化的数据处理组件后,组件之间数据处理操作按照处理顺序进行运行计算。数据采集实际运行效果图,如图5所示。
图5 数据采集实际运行效果图
大数据的可视化数据治理平台提供数据预处理能力,同样也是可以通过拖拽式界面操作,用户通过组件式选择相关的数据预处理能力组件进行处理能力组合。平台数据处理模块支持数据提前预处理的功能,用户选择的数据处理组件之间都是模块化的桥接,为了保证数据处理的效率,数据模块之间如果提前进行预处理,可以节约时间。目前系统支持数据清理、数据变换等数据预处理能力。数据模块之间进行数据融合处理,不仅仅支持数据快速构建通用的处理模型进行数据处理,数据表之间为了便于用户快速的进行数据处理,提供快速分解、融合和分析等功能。另外,平台还提供了专业的数据处理计算能力,具备目前主流的数据处理算法,方便用户直接进行使用,无需进行开发和便捷。用户可以根据自己数据建模的需求进行选择相关的算法进行构建数据处理模块,系统会对基本的算法建模进行推荐和指导建议,方便输出最优的数据内容,满足用户的数据预处理需求。另外,本文中的系统平台提供的算法主要基于业界主流的Spark分布式内存计算框架开发,能够满足用户针对高数据量处理的使用场景,用户还可以自行采用Scala语言编写相关脚本来实现个性化的数据处理算法,来满足用户的特殊需求。数据预处理示意图,如图6所示。
图6 数据预处理示意图
可视化数据治理平台支持选择相关机器学习算法进行数据处理,系统中集成了基本的分类算法、回归算法和聚集算法等功能,另外还提供了一些高效的自定义优化算法,包括视觉聚类算法、稀疏时间序列算法和稀疏迭代回归等算法,大大的提升了数据处理的性能。用户通过选择相关的算法进行数据计算分析建模,根据数据处理的目的进行算法选择,平台在数据运行中产生的数据都是进行文件化和可视化图标形式进行数据,用户通过查阅相关数据数据,进行数据分析。如果数据未达到预期或者错误,用户还可以选择迭代计算和模型调优,保证最终产生的数据具有正确性和高实用性。针对具有大数据知识的专业人士,系统提供支持深度学习框架TensorFlow,提供用户编码式构建深度学习网络,这样就可以满足用户自定义调优和自主化数据处理。机器学习能力示意图,如图7所示。
图7 机器学习能力示意图
5 小结
通过对大数据的可视化数据治理平台的调查和相关专业文献的研究,本文介绍了大数据的可视化数据治理平台的关键核心处理技术、总体设计架构和工作原理,完成了相关大数据的可视化数据治理平台的实现。大数据的可视化数据治理平台通过提供灵活的可视化拖拽组件提供给用户进行使用,用户不需要对大数据处理专业算法进行非常的了解,就可以使用组合组件来满足数据处理的要求。同时平台支持自定义编写脚本来实现使用用户的算法进行数据治理。最终数据可以通过图形化或者文件化的形式为用户提供服务,满足用户灵活性和高质量的数据使用需求。