浙江财经大学审计大数据管理系统构建
2022-08-24孔琳俊邹志鑫
文/孔琳俊 邹志鑫
2021 年2 月18 日,浙江省委省政府在全省数字化改革大会明确,浙江省的数字化改革要适应数字化浪潮,树立数字意识和思维、培养数字能力和方法、构建数字治理体系和机制,主动引领全球数字变革的跨越。为更好地推进数字化改革,会议要求最大程度开放数据资产,促进数据关联应用,激发数据生产要素对经济社会的放大、叠加、倍增作用;同时,还应加快构建一体化智能化公共数据平台,按照“统一规划、统一支撑、统一架构、统一平台、统一标准、统一建设、统一管理、统一运维”的要求,采用一体化数据目录,利用公共应用支撑组件,对数据和信息进行智能分析、研判评价,推动科学决策和高效执行。
浙江财经大学审计大数据管理一体化系统,正是基于学校“数据中枢”的成功实践而建立的。此系统使常态化审计数据报送机制和模式得以创新突破,解决了传统模式下审计数据报送以人为中心的痼疾,有效提升了审计信息化工作的质量和效率。
审计数据管理一体化系统架构
系统设计思路
浙江财经大学审计数据管理一体化系统建设,依照2020 年浙江省教育厅提出的针对涵盖校内20 个业务域(含教务、资产、图书馆、人事、科研、学工、财务、采购等)的高校审计数据报送要求,依托学校现有“数据中枢”建设成果,实现了审计数据统一采集、规范入库、安全存储,同时建立“省—高校两级常态化”审计数据报送机制,实现审计数据从业务源头采集直至报送和分析的全链路闭环管理。项目的总体设计思路如下:
1.依托学校现有“数据中枢”进行增量开发、迭代升级。审计数据管理一体化系统建设是在学校现有新一代全域数据中心和数据治理成果的基础上,按照审计数据上报要求,以增量开发和迭代升级的方式进行的设计。这样可以复用学校前期在数据层面的建设成果,实现对现有数据架构的横向扩展。系统在大大减轻整体开发工作量的同时,还保障了现有数据体系的持续运行。
2.针对不同数据来源,完成数据统一采集、集中管理、标准化输出。审计数据报送覆盖了学校20 个业务域的数据,其中部分数据存在于学校的业务管理系统,还有部分数据没有业务管理系统作支撑,存于线下Excel。针对这种情况,系统需要对不同的数据来源采用不同的采集架构进行统一采集,业务数据通过“数据中枢”统一采集规范入库、线下数据通过填报导入集中入库;针对统一采集的数据进行集中管理,包含数据标准管理、数据模型管理等;建设审计数据标准仓库和审计专题数据集市,对接教育厅数据接口,提供数据标准化输出。
3.构建数据核查模型,全流程、可视化监测数据质量。审计数据在报送前,需要对相关数据的质量进行核查。数据质量问题可分为结构性和内容性两种情况:针对结构性数据质量问题,在数据统一入库后,由“数据中枢”的相关软件工具进行结构化清洗;针对内容性数据质量问题,需要以报表形式对待核查数据进行集中呈现,并对数据的表间关系进行校验,构建完善的数据核查模型,对校验异常的数据做出提醒标识,由相关审核人员对数据内容进行浏览、审核、修改、确认。通过这样一套完整的可视化的数据质量监测闭环流程,最终生成高质量的审计数据专题库,完成数据上报。
4.通过报表工具对审计数据进行多维可视化分析,指导学校相关决策。审计数据管理一体化系统除了可以完成审计数据的“采集—核验—标准化—入库—报送”全链路闭环管理工作外,还可以通过报表工具对每年度的审计数据进行多维度、深层次、可视化的分析,加强审计数据在关联分析、趋势预测等方面的综合应用,切实推进审计业务的数字化转型工作,提升学校审计部门的精准管理与科学决策水平。
系统技术架构设计
基于大数据计算技术构建的数据审计核查系统,按照数据架构层次可分为采集层、梳理层、审计核查层、审计报送层四个部分,具体如图1 所示。
1.采集层。统一全量采集审计数据要求的校内各业务系统数据源、线下电子表格数据以及文件文本类非结构化数据,并针对不同类型的数据源,采用不同的采集架构。同时,考虑到常态化的审计数据报送工作要求,采集方式可配置为全量或增量两种模式。通过采集层将业务数据1:1集中至数据全量集中库,该全量库是基于Hadoop 的大数据存储架构,支持分布式部署,且支持多种类型的数据源种类。
2.梳理层。本层是审计数据资产化管理的重要层级,可以帮助实现数据的审计标准化、结构性质量提升和数据结构整合。将数据按照审计数据报送要求整合后进行统一存储,以方便后续的查询和分析。标准数据仓库作为数据集中存储、整合的核心,帮助实现数据的融合共享,可避免系统间数据的重复存储和加工。审计专题集市库主要存储基于标准数据仓库提供的原始数据和衍生数据,根据审计数据报送的业务需求进行相应的加工处理,并提供所需的结果数据。
3.审计核查层。通过大数据可视化分析平台,将审计专题集市库里面的结果数据进行可视化核查界面开发,方便审计人员对数据内容进行审计核查。如果有内容性数据质量问题,审计人员可以将其及时反馈到数据源头部门进行数据修正。审核通过完成后,数据会流转至审计定稿库,该库中的数据结构与审计数据报送要求的数据结构完全一致。同时,该层还会产生一份当年的历史数据备份,并置于审计历史数据库中,以便历史数据留存和后续查阅。还可通过该平台对整合后的数据进行深度分析,采用不同方式对数据处理结果进行展现,包括固定报表、多维分析、灵活查询等。
4.审计报送层。根据审计数据报送要求,定制开发轻量级API 接口、文本上传、数据库直连等方式,支持数据上报业务。
系统功能设计
浙江财经大学审计数据管理一体化系统的总体功能分为五大模块,分别为业务系统数据采集模块、数据填报模块、数据仓库管理模块、数据集市模块,以及数据报表模块,具体设计如图2 所示。
图2 系统总体功能模块
一是业务系统数据采集模块。主要完成对学校业务管理系统中的数据进行统一采集汇聚,包含接口管理、存储管理、任务调度管理等功能。
1.接口管理,是对业务系统数据采集的自定义接口、开发者接口的管理,具体包括:自定义接口模块用于对创建的ETL接口进行管理,可展示当前已创建的ETL接口情况,支持根据接口名称/描述、接口类型、接口状态对ETL 接口进行检索;开发者接口模块用于对开发者创建的接口进行管理,可展示当前全部开发者创建的接口信息,支持根据开发者名称进行检索。
2.存储管理,支持对已接入数据的存储过程进行管理,支持根据存储过程名称、描述说明、数据库类型进行检索。
3.任务调度管理,可对当前的数据采集调度任务进行管理,支持创建、分类、删除采集接口任务,支持按调度名称、关联接口名称、调度类型、调度状态进行检索;同时还支持通过日志查看接口任务运行状态详情。
二是数据填报模块。主要完成针对没有业务管理系统支撑的线下Excel 数据的统一填报、导入与管理,包含数据源管理、数据表管理、用户管理等功能。
1.数据源管理,主要完成数据填报模块的数据源管理功能,目前支持MySQL、MsSQL、Oracle 等结构化数据库,可直观展现数据源当前的连接状态和连接信息,并支持快速检索。
2.数据表管理,是数据填报模块最主要的功能,支持用户按照统一制订的数据规范、数据标准导入Excel 电子表格文件数据;并支持用户在线填报与编辑数据(实时保存至数据库,无需担心数据丢失),也可下载至本地编辑,然后上传至数据库中进行统一存储管理。
3.用户管理,主要实现对用户权限的管理,支持为不同的用户分配不同的操作权限,包括数据查看、编辑以及删除;并能满足多人协同工作的业务需求,可以将同一张表的不同字段赋予不同用户以不同的编辑权限,编辑权限包括增删改查等功能。
三是数据仓库管理模块。主要包括数据标准管理、数据模型管理以及数据质量管理3 个子模块。
1.数据标准管理,用以规范审计数据的结构和格式,以实现数据的准确性和一致性,包含标准检索、代码集管理、编码规则管理等功能。标准检索是通过输入关键字的方式,在审计数据标准信息项中快速匹配出相应的标准细项,用户依据需求在结果中浏览明细,程序通过算法记忆搜索热词,减少检索操作的复杂程度。代码集管理用以将审计数据要求的各类代码集进行统一管理,可以被公共属性、数据集市清单的字段引用,在查看绑定了代码集的字段时,支持查看或下载绑定的代码集。编码规则管理用以对按照设定规则自动生成的编码规则进行管理,编码规则可以和审计数据的公共属性进行绑定,对实体表中的数据进行检测,查看数据是否符合审计数据编码规则的标准。
2.数据模型管理,审计数据管理一体化系统建设的核心目标是打通数据孤岛,构建符合教育厅标准的、统一的审计数据仓库。数据模型管理模块提供数据模型相关可视化建模功能,采用自上而下和自下而上相结合的方法进行模型设计,辅助设计标准化的审计数据模型,包含数据模型管理、数据模型设计、实体表管理等功能。数据模型管理支持审计数据模型的历史版本管理,实现数据模型建设全过程的流程化和透明化,可以对不同版本的模型进行比对,查看变更明细,辅助审计人员对不同版本的模型进行管理,并可回溯到任意节点的模型设计状态,强化模型管控能力;数据模型设计根据审计数据标准,进行标准化的数据模型设计,确保从源头上保证数据的一致性。实体表管理是在数据模型建立后,需要在标准的审计数据仓库中生成数据实体表,实体表管理功能用于对数据模型生成的实体表进行管理,可展示当前通过数据模型生成的实体表列表。
3.数据质量管理,为了实现对审计数据质量的全面管理及智能监控,可通过数据质量管理模块中的“规则设置”,完成相关数据质量检核规则的设定,之后可将这些规则与需要质量检查的数据对象进行绑定,完成对数据的质量检测,主要包含对数据质量规则、报告进行管理等功能。数据质量规则管理可以对审计数据的质量检测规则进行配置,支持对多种数据结构性质量检测规则的创建,包括值域规则、枚举规则、正则规则以及唯一性规则等。数据质量报告管理,主要是在数据质量检测后,可定期生成数据质量报告,通过丰富多样的图标展示形式,进行多维度的统计,使得枯燥的数据质量更加形象生动,帮助各部门对其负责的相关数据的质量建立统一认识视角,为提升审计数据的质量情况寻找优化空间,为制定质量提升方案提供依据和指导。
四是数据集市模块。审计标准数据仓库作为数据集中存储、整合的核心,可以实现数据的融合共享,避免系统间数据重复存储和加工。数据集市模块可形成审计专题集市库,主要存储基于标准数据仓库提供的原始数据和衍生数据,并根据审计数据报送的业务需求进行相应的加工处理,提供所需的结果数据,并完成数据报送。此模块包含数据集市清单、部门数据目录、数据开放管理等功能。
五是数据报表模块。为满足审计数据的统计分析需要,保证报送数据的准确性、可信性,数据报表模块支持将审计数据集市中的上报数据通过报表的形式进行可视化展示;支持对报表之间有关联关系的字段进行校验,对校验异常的数据有提醒、标识等机制;支持对报表数据进行浏览、审核与确认。同时,可通过报表工具对审计数据进行多维度统计分析,让审计数据活起来,用以指导学校的相关决策。
系统亮点与难点
2020 年底,审计数据管理一体化系统在兼顾安全性、准确性的前提下,顺利支撑浙江财经大学14 个职能部门,完成涉及27 个业务系统、59 张表、约900项、1200 万条审计数据信息的定期报送。作为浙江省教育领域数字化改革第一批创新试点项目,审计数据报送一体化系统与学校“新一代全域数据中心”的融合,丰富了学校数字跨场景应用,进一步推进了学校的数字化改革,也为浙江省高校审计数据管理业务数字化改造提供借鉴思路。
系统亮点
1.以“数据中枢”为系统支撑。学校建设的审计数据管理一体化系统,本质上不是一个独立的新建系统,相反,为了避免单一系统“烟囱式”管理的弊端,系统从顶层规划上依托学校全域数据中心,对数据中枢平台做横向功能扩展,建设数据填报和数据报表模块。系统在学校前期全量数据治理成果的基础上,实现学校审计数据统一采集、规范入库、安全存储、审计核查、集中报送、统计分析。
2.以“用”促“管”。学校数据层面的建设,在完成数据基座和管理体系搭建的同时,也提升了用户对数据建设成果的感知度。从某种意义上讲,教育厅审计数据上报工作,提供了一个非常典型的数据应用场景,实现了审计数据“采集—核验—标准化—入库—报送”的全链路闭环管理。通过这样典型的数据应用,可以反向促进学校数据管理能力的提升。同时,该建设模式可以较快复用于其他应用场景,目前已覆盖学校思政、党建、学工等应用场景。
3.管服结合,数字赋能。该系统将管理与服务相结合,除完成数据管理工作外,还将进一步提升服务能力,利用统一的可视化平台,对审计数据进行多维度、深层次、可视化分析;系统通过对数据的质量分析以及跨部门数据的关联分析,做到“让数据说真话”,及时掌握学校业务运行的整体情况,找到业务中的薄弱环节并加以改进,以数字赋能审计业务的数字化改革工作。
系统推进中遇到的挑战
在整个系统建设推进工作中,既取得了较大进展和突破,同时也遇到了一些难点与挑战,主要有以下几个方面:
1.审计数据归属部门的确认。浙江省教育厅审计数据报送覆盖了学校20 个核心业务域的数据,包括人事、教务、资产、学工、一卡通、采购、科研、财务、招生、就业、继续教育、出国管理、校园交通管理、宿舍管理系统等。确认这些数据的归属部门和系统,包括哪些数据来源于哪个部门、哪个系统(或者还没有管理系统进行数据线上维护)、线下数据导入与填报、又由谁进行数据权责认领等等,是一项非常复杂的工作,需要从组织架构上成立工作专班对全校各部门进行统筹协调,才能有效推进该项工作的开展。
2.审计数据标准模型的建立。审计数据标准模型的建立工作,在学校现有“数据中枢”体系下,基于现有校级数据标准,需要按照教育厅审计数据标准规范进行标准化字段转换与映射,这部分工作量非常庞大,需要技术部门人力和平台工具的有效支撑。
3.“数据中枢”能力的横向扩展。审计数据管理一体化系统是依托于学校的“数据中枢”进行的增量开发、迭代升级,新增建设的数据填报模块、数据报表模块需要在原有“数据中枢”能力架构上,进行横向功能扩展,既需要满足审计数据管理的要求,又要保持和原有数据体系的一致性。这对系统的开发建设提出了不小的挑战,包括产品功能兼容性设计、数据安全性设计、用户权限体系搭建等各方面。