APP下载

ETL数据治理在高校信息化建设中的运用

2022-11-16李玉平

无线互联科技 2022年3期
关键词:数据处理规范工作

李玉平

(齐齐哈尔工程学院,黑龙江 齐齐哈尔 161003)

1 当前ETL数据处理所采用的技术方法

1.1 利用Excel完成ETL数据处理工作

Excel有很多种可以对数据进行处理与分析,比如:数据处理函数、数据的合并计算、数据的汇总、数据的分类、数据的筛选等,这些处理方法可以实现快速的处理。除此之外,Excel还可以利用时间序列、回归分析、概率统计、均值判断等技术进行数据的处理工作。Excel的优势是操作简便,容易掌握,目前普遍被各大高校所应用。但Excel也存在明显缺陷,即在数据的采集、加载、处理等环节上还存在精度低、准确性差的问题,需要借助其他的手段进行辅助,如VBA宏编程等。

1.2 利用专业的ETL数据处理工具

在ETL数据处理方面,有一些数据维护处理工具,比如:Microsoft公司的DTS、Oracle公司的Warehouse Builder以及IBM公司的DataStage等。数据处理工具的优势是可以独立完成多数据源之间的数据维护、转换以及抽取工作,但其缺点是想要处理复杂的数据局,需要利用DBA级别的数据库技术进行帮助,尤其是针对一些数据需求复杂、时效性差、稳定性不足的数据转换任务,依靠单一的ETL数据处理工具还是很难办到[1]。综上所述,在ETL数据处理工作中,依靠一种或者集中技术,很难完成工作目标。因此,想要提高高校数据处理工作,需要在顶层数据治理的框架下,利用建立数据处理标准对数据处理系统进行研发,利用科学的人员调配提升数据处理工作的准确性、可靠性与时效性。做到在高校计算机数据处理工作中,数据可以得到复用以及数据的实时共享,弥补单一ETL数据处理工具的不足。

2 ETL数据治理主要应用以及所面临的难题

在高校中进行信息化建设,所面临的工作最难、问题最多的环节就是进行数据从复杂多样的数据源中加载、转换以及抽取出来。这是由于目前高校信息化建设中所应用数据都是来自不同操作系统、不同平台、不同时期的长久沉淀资产,很多数据都出现了准确性差、数据难考证的问题,对于高校的教学工作以及管理研究工作都增添了阻碍。

2.1 高校的各种数据统计表离不开ETL数据处理

数据报表工作的本质是ETL的一次闭环过程,主要包括数据的采集、加工以及上报3个环节。在高校中,数据报表既可以实现学校的具体工作,也可以反映学校的具体情况。教师或者学校管理人员可以根据报表的数据,发现学校、学生是否存在问题,并及时寻找解决方案。高效报表需要时效性高、专业性强的特点。但目前很多高校对于数据报表的数据库管理混乱,缺乏统一标志,导致管理者在寻找报表时,不能根据ID快速获取想要的报表,需要对文件进行逐一筛选,大大降低了工作效率。除此之外,在数据的录入工作时,如果相关人员对于计算机的掌握程度不足,会导致错误率过高,影响学校管理者的决策。

2.2 高校的信息业务逻辑离不开ETL数据处理

学校信息系统的业务逻辑需要ETL数据处理工作的帮助,对于学校的财务部门来说,其需要利用教务系统、学工系统等数据进行查阅交换,来实现缴费管理工作。对学工部门来说,想要将各种奖学金、助学金、校园贷款等成功发放,需要对数据库中的学生成绩、家庭状况等指标进行查阅,以确保学生满足学校标准。这些业务往往都是由学校的业务部门进行完成。但由于数据梳理的规范不统一,导致不同数据库对于同一类型数据的实现形式存在差异,且数据格式多样,不能及时提供业务部门所需的数据,降低了各部门之间的办事效率,加重相关人员的工作负担。

2.3 高校内部的信息系统集成离不开ETL数据处理

高校的信息集成任务一般分为数据集成、门户集成以及认证集成。目前,我国各高校的校园信息平台基本搭建完成,学校的信息平台所能提供的数据也愈发完善,信息集成的需求也就随之提高。在实际操作中,业务系统和数据中心的集成过程,需要将数据标准进行修改,然后按照统一标准进行建模工作,并按照模型的规格完成数据集成工作[2]。这种工作模式由于其开发周期过长、投资成本大且数据集成过程复杂,导致系统集成工作会占用大量时间,且一旦业务信息系统要求过高,数据集成工作就会愈发困难,甚至出现崩溃。因此,想要将数据集成工作发展完善,需要校方利用快速的ETL数据处理。

3 ETL数据治理的运用建议

3.1 高校ETL数据处理规范的制定

ETL数据处理工作即在数据源中,进行数据的抽取、转换以及加载过程,这个过程被称为project,即一次工程。一次完整的ETL数据处理过程一般分为四个步骤,即:数据的加载、数据的抽取、数据的转换以及日志系统。在每个模块中,又需要配合多种ETL操作指令,这些指令被称为task,即一个任务。想要保证每一个数据工程的质量,需要制定规范,规范的制作标准应该遵从高校的实际需要。规范需要按照三种不同形式来科学制定。首先,进行设计规范,设计规范包含数据的转换规则制定、数据集的定义、数据源的规范定义以及数据处理流程的规范制定等。目前,ETL数据处理规范大多利用XML标准文档进行操作。其规定一份完整的XML文档需要利用每一项ETL数据处理工程来描述。在XML文档中,一般包含一个根元素,即project。同时,在根元素下面,包含4个子元素,即:Log,Load,Transform以及Extract[3]。除此之外,对于高校ETL数据处理规范的开发指数,需要依据数据的实际用途进行规范。开发规范由结构规范、功能规范以及命名规范所组成。因为受到ETL数据处理平台的帮助,技术平台得以自主的开发、生成规范文件,以减轻工作人员的工作任务以及节省大量的时间。维护规范是用于用户数据平台的维护工作,为数据处理作业中的各种工作起到支撑、检查作用。

3.2 高校ETL数据处理信息平台的建设

为了增强数据的可靠性,需要进行严格的事务控制。ETL数据信息处理平台一般分为4个层面来架构数据体系。第一层是即ETL的数据处理组件库,其中拥有数据加载组件、数据转换组件、数据清洗组件以及数据处理组件。第二层是ETL数据任务执行引擎,其可以帮助用户进行数据的解析与执行工作,服务器可以根据当前的可用资源以及数据作业的任务量进行工作的协调平均,以保证数据作业可以同时进行多个任务。第三层是ETL数据作业编辑,其可以帮助用户进行数据的完整作业处理,并进行保存工作,且操作简便,用户不需要掌握负载的标称技术,一样可以完成作业,为一些计算机基础薄弱的人群带来了极大的便利,深受此类人群所喜欢。第四层可以实现ETL作业的监控与调度,在此层中,用户可以利用ETL数据任务执行引擎将数据作业过程中出现的问题以及作业完成情况如实汇报给底层的ETL数据监控中心,工作人员可以根据反馈,进行数据作业资源的合理分配。

3.3 高校ETL用户角色的岗位分工

在高校ETL数据处理工作中,数据的集成主要来自高校内部的数据报表、各个部门之间的数据流转等。在高校中,负责计算机数据处理工作任务的工作人员可以按照任务种类分为报表填报人员、业务部门的数据流转人员以及信息系统集成的技术专员。除此之外,还需要一些专业人员对平台进行日常的维护检测工作。这些人员所负责的任务往往是重叠的,因此需要做好岗位的分配,以避免出现重复工作,重复工作即使工作人员的工作压力变大,也会影响其工作效率。因此,需要针对ETL数据处理用户角色以及岗位的调整进行合理、科学的搭配。与此同时,高校的ETL数据处理具有跨专业、跨部门的工作特性,利用ETL数据处理工作人员矩阵的建立,可以帮助工作人员进行任务的分解与责任的界定,确保工作落到每一个人的头上,并将工作内容细化,以保证工作井然有序的进行[4]。ETL数据处理工作是隶属于计算机范畴内的工作,其工作量虽然不大,但是需要耐心、细致,因为一个数据的处理不当,可能会影响整体的工作效果。因此,各部门之间的管理人员,需要将工作内容明确下发,工作人员之间需要积极沟通,避免出现因沟通不畅导致工作重叠,影响工作效率,另外,管理人员需要及时核对数据的准确性,避免数据出现错误,实现多重保险。争取各部门、各环节之间的协调运转,提升工作效率,提高工作质量,使ETL数据处理工作可以在高校中平稳运行,为更多的学生创造学习空间,提升资源的质量与信息服务水平。

4 结语

ETL数据处理工作,需要运用科学的方法,制定相应的规则,并找出其中所存在的问题,搭建ETL数据处理平台,合理的调配各个岗位之间的工作,使ETL数据可以广泛地应用于各高校的信息建设当中,帮助高校提升信息化建设水平。

猜你喜欢

数据处理规范工作
来稿规范
来稿规范
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
来稿规范
不工作,爽飞了?
基于希尔伯特- 黄变换的去噪法在外测数据处理中的应用
选工作
基于POS AV610与PPP的车辆导航数据处理