APP下载

谈数据治理能力在档案数字化质检工作中的应用

2024-01-02王伟

山东档案 2023年5期
关键词:维度数字化检测

文·王伟

数据治理(Data Governance)是涉及数据使用的一整套管理行为。国际数据管理协会对数据治理的定义是对数据资产管理行使权力和控制的活动集合。具体讲数据治理就是对存量数据治理、增量数据管控的一个过程,对存量数据实现由乱到治、规范贯标,对增量数据实现严格把控、履行标准规范。档案数字化是随着计算机技术、扫描技术、扫描线性CCD技术、OCR技术、数字摄影技术(录音、录像)、数据库技术、多媒体技术、存储技术的发展而产生的一种新型档案信息形态,它把传统载体的档案资源转化为数字化的档案信息,以数字化的形式存储,网络化的形式连接,并对档案信息资源进行数据治理与服务开发利用,以期满足新时期用户高效化、知识化和个性化需求。近年来,档案的数字化工作在机关和企事业单位推进较快,为机关企事业单位档案信息化建设奠定了良好的基础。目前由于档案数字化工作中数据质量检测环节不够理想,已成为档案数字化工作乃至整个档案数字化转型过程中的短板和瓶颈。解决好档案数字化转型过程中存在的数据质量问题,需要从源头提升数据资源质量,做好数据治理体系建设,以助力实现档案数据资产增值、挖掘利用、质量提升的发展战略。

一、档案数字化质量检测工作的概念

档案数字化质量检测工作是指对数字化档案信息资源的质量检测,从源头上解决数据权责不清、数据重复录入、数据质量规范参差不齐等问题,从而达到提升数据质量目的,做到事前预防、事中控制、事后检查追溯,从而实现档案数据质量、检查、分析、提升的目标。依据档案信息化的程度,可将档案数字化工作的质量检测,可分为治理前质量检测和治理后质量检测。

治理前质量检测包括,一是对计算机处理及扫描处理等技术完成后信息进行检测,对档案扫描处理以及文本和图像页的匹配等质量进行检验;二是对文本域录入与文本入域的标引、文件的页号和页数进行对比;三是对图像质量的检查,确保图像版面清晰、干净、大小一致、方向一致;四是对影像文件是否重页、缺页、漏页、页面信息不完整的检测;五是对件内文件排序规则存在问题检测等。

档案数字化工作的治理后质量检测,主要包括符合性质量检测和适用性质量检测。符合性质量是指数据符合国家标准、企业标准的程度;适用性质量是指数据适合业务需求目的、使用要求的程度。对数字化档案治理后质量检测可以从两个维度进行处理,一级维度可包括规范性、完整性、准确性、一致性、及时性、可用性;二级维度可根据一级维度进行指标细化,例如在规范性方面进行进一步质量检测,可包括数据模型、数据标准、业务规则、内容格式等细颗粒的检测。在完整性维度可细化为非空检查、内容完整性、参照完整性、接受完整性等,如图1所示。对检测后的数据质量进行评分,形成基于业务维度的数据质量分析报告和基于系统维度的数据质量分析报告。

档案数字化质量检测的重点,应在于档案数字化治理后的质量检测。治理后的质量检测由评估维度管理、质量规则管理、初步质量分析、数据质量检查、问题数据处理、质量评估报告等部分组成。通过管理数据质量评估规则,构建数据质量评估模型,建立质量规则库、提供数据标准化清洗和质量稽核服务,实现数据的标准化、规范化应用,逐步实现对档案数字化质量的检测和管控。

二、档案数字化质量检测工作现况

根据对部分省直单位档案数字化工作的调研,其数据质量检测情况和治理水平现状如下。

一是扫描文件和影像数据质量检测简单化,只完成图片本身和著录项目的质量检测,没有进行档案数字化治理后的检测,大多存在着重复存储,价值密度低,不能形成多维度档案数据质量报告和档案数据的进一步应用开发。

二是档案数字化质量检测能力不足,数据治理水平不高。这是因为在档案数字化质量检测过程中,缺乏统一的数据质量管理流程体系,缺少对档案数据质量的检查、有效管理及考核,造成大量脏数据、多源数据等现象存在,影响了应用效果。同时,缺少问题数据管控,也会在发现问题数据后,不能进行合理的问题数据处理,导致在跨部门跨领域档案数据集成与共享时的数据质量难以保证。

三是数据治理前的质量检测信息服务功能单一,对后期档案数字化综合开发利用、协同性和共享性等不足,很难改变档案单一的使用功能,无法实现档案数字化的数据图谱建设,构建图谱模型和标签模型,并进行加工建模分析,关联量化,将档案的数据资源转变为管理资源、决策资源。

三、做好档案数字化质量检测的路径和方法

一是建立数据质量管理流程体系(见图2),建立数据质量稽核制度,形成数据质量评估报告。

数据质量稽核由数据质量检查服务对数据进行指定规则检查,并分别根据不同规则特点提供不同的检查方法,包括但不限于格式检查、范围检查、相似重复记录检查、缺失记录检查等。经过数据质量稽核生成问题数据清单,并根据数据确权进行问题数据分派,方便数据操作者修改问题数据,形成闭环的问题数据管理体系。数据质量评估报告包括查看档案数字化的数据质量汇总情况及评分,查看各表质量评估的明细信息,数据质量检查的规则引用情况、问题数据检测情况、问题记录占比(包括但不限于按列、评测维度、检查方法等维度的问题记录占比情况)、问题数据修正情况等。

根据数据质量检测、监控,跟踪质量评估测量结果、发现质量变化趋势,及时对质量异常问题进行预警。定期对增量数据的质量进行分析,形成数据质量关键指标数据和检测监控报告,一旦检测到数据质量检测、监控异常情况,及时进行处理或人工干预。

二是建立一体化大数据治理与服务平台(数据底座平台)。该平台能够实现全链路、全生命周期的档案数据设计、管理、应用的敏捷化、协同化、一体化,既能从业务、职责事项、质量、安全、分布、可信来源等角度了解数据资源,又能通过数据管理建立包含标准、质量、安全、标签、来源、确权、编目、规则等八个维度的数据模型,通过数据模型驱动数据服务平台提供数据采集、交换、加工、共享、协同等数据服务,实现“知晓全局,摸清家底;管好数据,运筹帷幄;用好数据,发挥价值;敏捷开发,降低风险”的目的。

三是要践行“数字赋能、融合发展”的档案服务理念,积极推动档案部门与其他部门开展数据、技术、业务协同合作,制定统一的数据标准、接口规范、调用规则,为实现轻量化、协同化、区域化的数据对接与共享奠定基础;完善档案信息资源区域共享机制,建设互联互通、数据共享、综合利用的公共档案资源数据服务平台,构建全方位、全覆盖的服务体系,以高质量的档案数字化质量检测工作推动扩展档案数据资源的综合利用。

猜你喜欢

维度数字化检测
“不等式”检测题
“一元一次不等式”检测题
“一元一次不等式组”检测题
家纺业亟待数字化赋能
浅论诗中“史”识的四个维度
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
数字化制胜
光的维度
小波变换在PCB缺陷检测中的应用