北京数字档案馆项目数据清理情况分析
2017-04-21尹哲
尹哲
摘要:目前由于数字档案馆的投入运行,各类档案数据的存储数量急速增加。与此同时,档案数据质量随着脏数据的出现受到很大影响,针对数据质量的清理工作势在必行。本文根据北京市档案馆的工作经验整理出档案数据质量存在的典型问题,提出了数据清理的基本方法和步骤,为今后档案工作数据清理提供相关经验和建议。
关键词:数字档案馆数据质量脏数据数据清理
北京市档案馆档案管理系统经过十余年的应用,目前积累的存储数据非常庞大,其中档案机读目录1400余万条,档案数字化副本7000余万页,存储量达到80TB。由于数据库设计约束不足、数据录入错误等多种原因导致系统中存在脏数据(dirty data,是指数据集中存在较多相似重复的、不一致的、格式不匹配的、不符合逻辑的、带有空缺值的以及没有实际作用的数据)。[1]这些数据直接拉低了档案数据质量,影响档案检索查询效果。随着北京市数字档案馆项目的深入推进,为更好地配合北京数字档案馆项目建设工作,北京市档案馆在2016年开展了档案数据集中清理工作。
一、北京市档案馆现有数据情况
北京市档案馆馆藏数据主要包括:各类档案数字化副本(纸质文书档案、纸质照片档案、音视频档案等数字化副本)、电子文件(含数码照片)、档案机读目录数据、档案系统管理数据等。其中档案系统管理数据通常包括档案实体表、档案存址表、档案原缺表、利用者信息表、调归卷信息表等数据。
这些数据可分为结构化数据和非结构化数据两类。结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据。非结构化数据无法用数字或统一的结构表示,如文本、图像、声音、网页等,称之为非结构化数据。结构化数据包括档案机读目录数据和档案系统管理数据。非结构化数据包括各类数字化副本、电子文件、数码照片等。两类数据存在问题和解决的方法不同。结构化数据整体存储在数据库中,数据清理依赖数据库执行指令完成。非结构化数据是以单个文件形式存储在磁盘驱动器中,可以人工进行清理,但当数据量非常大的情况下,则需依靠定制开发计算机程序完成。在向北京数字档案馆系统迁移数据的过程中,纸质档案数字化副本和档案机读目录是存在问题最多、清理工作量最大的两类数据资源。因此,数据清理的重点也集中在纸质档案数字化副本和档案机读目录数据上。
二、北京市档案馆数据质量存在的典型问题(以机读目录和纸质档案数字化副本为例)
(一)档案机读目录数据存在以下四类问题:
1.重复数据
数据重复主要有两种情况,一种是在同一个库表中存在全部字段值完全相同的记录;另一种是在不同的库表中存在相同的记录。产生的主要原因均为数据被重复导入,数据库没有唯一性校验造成的。应保留一份数据,删除重复数据。
2.缺失数据
数据库表中很多记录缺失关键字段值,关键字段例如“全宗号”“目录号”“案卷号”“档号”“题名”“开控状态”等字段。产生问题的主要原因是目录在手工录入过程中遗漏造成的,数据库在设计上完整性约束不足也是原因之一。这些关键字段值应进行补充以保证数据检索、利用的需求得以满足。
3.错误数据
数据库表中有的记录中“档号”字段值编制错误,例如照片档案档号结构应该是“全宗号-目录号-案卷号-张号”,但是实际录入的是“全宗号-目录号-案卷号”。有的记录赋值错误,例如有的“张页数”字段中含有“+”等非法字符,其值域范围本应仅限于正整数。有的记录编制位数不足,例如“起始页号”字段值按照目前标准应该是5位,但是早期的记录只有3位或4位。这些错误的原因有的是由于手工录入错误造成的,有的是由于字段值编制标准发生变化造成的。错误的数据应通过数据清理进行修正。
4.无效数据
数据库表中的历史测试数据,暂存数据等,应通过清理工作直接删除。
(二)数字化副本数据存在四类问题
1.数据命名不规范
数字化副本文件命名有如下几类:3位流水号.tif、4位流水号.tif、5位流水号.tif、a_p流水号.tif、档号.tif。产生这种情况的原因是由于不同时期数字化加工采用的标准不同,还有一些不符合规范采用手工命名导致的特殊命名方式。不符合命名规范的数字化副本在数据管理和数据挂接中存在隐患,容易产生挂接错误等问题,应采用统一的命名标准,保证数据在案卷级和文件级挂接的可靠性。
2.数据质量不可靠
个别数字化副本存在无法打开的情况,属于数据扫描质量问题。错误的数据会导致无法挂接,系统无法正常读取数据。可以使用软件检测图像的可读性,保证数据质量。
3.数据保存不唯一
有些档案的数字化副本在系统中存在两份,彩色一份、黑白一份,黑白的是早期的数字化成果,彩色的是近期数字化成果。重复数据不利于数据管理,也浪费存储空间,选取图像质量好的副本进行存储即可。
4.存储方式不統一
数据在磁盘上的存储方式不同,存在多种形式。有在线存储管理方式和离线存储脱机管理方式两类。在线存储管理方式使用不同的系统其数据具体存储方式也不相同。建议将同类型数据集中管理采取统一的数据存储方式。
三、北京市档案馆数据清理的步骤
档案数据清理的步骤为:数据分析、确定清理工作流程和清理规则、数据清理验证、清理脏数据、干净数据整理和核对。
(一)数据分析
数据分析是整个数据清理流程的第一步。数据分析的作用是在于得到一些数据的特征,根据这些属性可以确定合适的检测算法和清理规则,因此,数据分析也是数据清理中的非常重要的一步。档案机读目录采用结构化数据库管理,因此对数据库表进行分析是第一步。通过数据库表的单表查询和多表查询功能可以发现重复数据、不完整数据、错误数据和无效数据。数字化副本一方面实体存储在服务器磁盘,另一方面其命名、存储位置等信息也是由数据库保存,所以其数据问题可以从文件实体角度发现,也可以从数据表的查询对比中发现。
(二)确定清理工作流程和清理规则
数据清理工作根据数据分析的结果及数据所属标准定义清理工作流。数据清理的标准来自于各类数据所对应的数字档案馆标准和规范,这些标准和规范同时也是数据分析问题的来源和依据。由于各类数据存在的问题不同,清理的方法也不一样,要根据实际数据情况确定需要执行的数据清理的具体流程。
(三)数据清理验证
这一个阶段主要验证数据清理的正确性、评估工作流程的效率。可以根据数据分析情况和清理规则对部分待清理数据进行测试,通过测试发现问题,提高效率和准确性。
(四)清理“脏数据”
经数据清理验证无误后,可以按照数据清理验证阶段制定的规则对数据进行清理。但在这一个阶段特别要注意数据的安全性,应首先备份源数据,再对数据源进行数据清理,避免操作不当对数据造成的严重损失。清理过程可能持续时间会比较长,应该做好记录和管理工作。数据的修改有可能需要人工参与,需要相关部门的配合。
(五)干净数据整理和核对
数据清理工作完成后,将干净的数据进行整理和核对。可以将干净的数据集中整理存储,有必要的话可以再备份一份,可以有效地保障数据的安全性。
四、数据清理工作的经验总结和相关建议
(一)数据清理工作的几点经验
1.控制清理时间。数据集中清理工作尽管工作量很大,但时间不宜过长,一般应控制在4个月以内。
2.做好过程管理。要提前制定詳细的清理计划,严格按照时间进度进行清理,并做好相关工作记录,清理过程中暂不接收导入新数据。
3.保证清理质量。数据清理工作主要依靠数据库技术、软件批量重命名技术、图形图像质量查验技术等,在具体操作之前要进行必要的测试。例如对数据库值的转换,从日期型转换成字符型就有可能出现丢失数据现象。
4.部门协同工作。数据清理是一个复杂的工作,需要多个部门共同实施。以北京市档案馆为例,在数据清理过程中,信息化部门负责牵头和管理工作,运维公司负责技术支撑工作,档案馆业务处室负责清理标准的提供和特殊数据修改的审核,各部门各司其职,协同工作。
(二)数据清理工作要把好数据入口关
数据清理工作反映出档案部门对数据应该遵从的唯一性、完整性、准确性问题还要更加重视。一方面在数字档案馆系统建设的时候对数据库表的设计更加完善,使其具备良好的约束性,例如在系统设计过程中加强对完整性、准确性、可用性和安全性检测,设计良好的四性检测方案;另一方面要加强管理,对于错误数据或者问题数据要及时发现并纠正,避免脏数据进入系统;第三是要档案各类数据标准应趋于稳定一致,如果标准发生了改变,原存储数据需及时修正。
随着大数据时代的来临,档案数据量随着信息化时代发展已经进入到海量的现状。期望一次数据清理就能够解决数十年来的问题也不现实,应该在日常管理中对数据定期进行分析,及时发现、解决问题,为北京数字档案馆项目建设提供优质的数据资源基础工作。
参考文献:
[1]蔡钟杰.数据清理关键技术在医疗保险管理系统的应用研究[D].兰州:兰州交通大学,2014:7-12.
作者单位:北京市档案局(馆)