ETL技术的装备大数据治理应用
2022-11-17周浩成
周浩成
(广州城市理工学院,广东 广州 510800)
0 引言
近年来,国民经济增长迅速,信息技术得到进一步发展,社会正式进入大数据时代。大数据凭借着高速性、多样性以及规模性的特点,在许多领域有着良好的应用,但是也对传统技术产生一定的限制,导致传统技术无法满足当前时代对于数据处理方面的需求。除此之外,在装备管理等方面,大数据技术也有着非常好的应用效果,随着技术的革新发展,渐渐成为装备管理的新引擎。
1 ETL技术概念及装备大数据特点
1.1 ETL技术概念
ETL过程指的是数据净化和数据迁移,在企业数据管理策略中也占有非常重要的地位[1]。ETL过程可以在第一时间发现数据库的需求,同时迅速将所需数据从源系统中抽取出来,经过一系列的处理,将其加载到数据库内。
1.2 装备大数据特点
对于我国军队而言,装备数据属于软装备的范畴,既能够加强军队装备整体的工作效益基础,还可帮助军队提高整体作战任务的行动力。目前来看,ETL技术装备大数据分为几大特点:
第一,种类多、关联关系复杂。分析研究发现,装备管理数据分为3种:人、财、物,这3种资源相辅相成,相互交织,形成一个巨大且复杂的网络,实现自身的使命。例如,装备和器材之间的保障关系、任务、能力和装备间的映射关系以及装备之间的战场关系和数量关系等[2]。
第二,装备数据量巨大。随着科学技术的发展,装备愈发复杂,使得在应用过程中会产生大量的数据,对于后续的数据处理分析带来不小的难度。这些原位在线数据集对于改进研制、装备应用以及状态监控等提供了非常重要的参考[3]。
第三,产生频率高、更新快。武器装备每一天都会产生大量维修数据和故障数据或者入库数据等,频繁的产生将会影响到数据处理的准确性和实时性,同时对历史数据分析的定位聚焦要求更高,必须具备更加完善的计算方式。
2 数据治理的主要内容
ETL是建立数据仓库的关键,为确保和现有数据库的无缝管衔接,建立一个相互贯通的数据分析系统。在数据处理期间,必须遵循统一的制度标准,通过对数据的清洗、转换与处理,只有符合标准的数据才会被加载到数据库内。
2.1 数据抽取
数据抽取就是将结构化或者非结构化中的带有实际意义的数据进行抽取,通过简单处理,加载到数据库。目前,最为常见的抽取方式包括两种:增量抽取和全量抽取。当系统正常运转后,在不对其运转产生影响的前提下,对各阶段进行实时监控,通过对新数据的增量抓取,选择有意义的数据录入数据库。到目前为止,这种数据抽取方式能够对多种类型数据库的连接工作起到支撑作用,满足大数据的应用需求[5]。
2.2 数据融合
多源数据如果参数相同,并且可信度和精确度都存在一定的差异,则管理者获取到的数据应该属于多源数据的一致性描述,可借助其中的专家经验信息和冗余信息,利用适当的规范指数推动数据进行融合,这样一来,便可以将数据集整体的置信度提高,保障系统的政策运转。数据融合的另外一个功能就是能够将不一致的数据进行转化,并且涉及一些商务规则的运算。不一致数据转换属于整合过程,让所处于不同范围的数据进行统一。
2.3 数据加载
数据加载也叫作数据提交。对于系统后台而言,其任务终点就是准备好数据以供后续查询,所以可以将数据组织为对称、简单的框架模型,也可叫作维度模型。该框架模型的建立,大大减少查询时间,并且让开发过程得到简化。
在维度模型中,利用数据抽取和清洗服务的数据表进行划定,分为维度表和事实表。其中,维度表通常用作事实表特性的描述,为决策者提供有用信息。另一方面,事实表常见于分析业务数据的集合,并且当前所获取的数据量巨大,所以存储消耗也比较大。
数据加载就是将事实表加载到数据库内。因为数据抽取分为两种,所以在加载过程中也可分为两种:权力加载和增量加载。但是,两者对数据的处理方式一致。另一方面,数据加载过程中,管理人员进一步查询维度表,查看是否拥有代理键,如若不存在,则要对维度表进行更新,同时加载事实表[6]。
3 数据治理关键技术及应用
3.1 数据标准体系
对于数据治理而言,数据标准体系是核心,能够将不同数据源的数据基于ETL技术加载到数据库,另外ETL清洗规则也是基于数据表示所编制的。传统的数据模型、质量、标准以及元数据等数据管理活动存在限制,只可以解决数据的局部访问问题。
数据标准编制过程分为几方面:定义业务问题、建立业务词库、了解数据、界定标准度量和结果测量等。
标准建设基于制度规则,对标准范围进行扩充,使得数据标准更为精细化。需要注意的是,修改标准必须要确保及时,并且更新到业务系统内。
3.2 全量抽取与增量抽取
数据抽取过程中,基于不同数据和不同业务的需求,在某些环节,要将业务数据库内数据进行抽取,通过简单的清洗与转换,最后将有意义的数据加载到数据库内,这一过程就叫作全量抽取[7]。
全量抽取,第一步要加载数据库驱动程序,将其与需要抽取的数据源进行连接。并对连接情况进行判断,如果连接失败,需要记录失败的原因。要是连接成功,对表中记录进行查询,完成相应的数据抽取工作,并且将数据转入缓存区,对其进行清洗。
3.3 数据清洗应用
因为数据具有多样性的特点,因此业务系统难以为存储数据的真实性和准确性提供保障。
首先,分析能够对数据结果产生影响的异常数据,利用软件进行识别,做出判断,是否需要进行删除。一般情况下,识别方式有两种:物流法和统计法。在本次研究中,选取统计判别法对异常数据进行分析,在未知总体标准偏差前提下,来对正态样本异常情况做出分析,该方式较为严谨,效果较高[5]。其次,当数据严重缺失的时候,也会对分析结果产生影响,所以需要对缺失值和异常值通过有效方式进行填补。最后,数据清洗结构。通过数据清洗,可以纠正错误,删除一些重复的信息。
3.4 数据治理成果可视化展现
利用装备大数据治理,深入挖掘数据价值,能够帮助军队摸清真实情况,提高数据资产的活性,进而提高装备的精细化管理能力,为装备运用新能力提供重要参考。
第一,数据地图。其本质就是提供数据资产的真实情况。用户进行点击,就可以查阅到表的质量情况和血缘情况。第二,全链分析。主要包括数据安全、应用、存储、分析等方面,涵盖范围较广,涉及多个领域。该模块主要就是提供数据在全链上的搜索,例如输入出仓号码,就可以直接查询到所有相关的信息。基于全链分析,能够更加快速便捷的获取到相应的数据信息。第三,主题集市。基于装备业务管理分析的需求,站在数据治理的层面,来建立主题数据,通过主题集市的方式为军队提供标准化服务。根据不同的业务规则完成主题集市的搭建,对于跟业务主题存在关联的实体组成实体域,这样一来,有利于用户的快速访问,而且可以提高工作效率。
4 结语
针对ETL技术大数据治理应用,本文制定一套系统的治理方案,包括数据抽取、清洗以及加载等方面,并且建立业务模块打通装备数据流,深入挖掘数据管理分析价值,将数据流驱动装备作为业务流,实现综合分析计划和知识图谱的建立,从而为军队的决策管理提供重要参考。