大数据时代档案数据质量控制:现状、机制与优化路径
2022-03-29周林兴林凯
周林兴 林凯
摘 要:档案数据是大数据时代经济社会发展的重要信息资源,进行档案数据质量控制研究有助于促进档案治理能力现代化的提升。通过调查分析可知,档案数据存有政策法规缺失、数量巨大结构复杂、数据实践处于起步阶段等现状。基于现状特征构建了档案数据质量控制机制:数据监督管控机制、技术保障机制、质量评估机制,并提出增强档案数据质量控制顶层设计,筑造档案数据质量技术保护屏障,构建档案数据质量评估方法体系等优化路径。
关键词:大数据时代;档案数据;数据质量控制;质量优化
分类号:G273
Quality control of archival data in the era of big data: Current situation, Mechanism and Optimization path
Zhou Linxing, Lin Kai
( School of Cultural Heritage and Information Management Shanghai University, Shanghai 200444 )
Abstract: Archival data is an important information resource for economic and social development in the era of big data. The research on archival data quality control will help to promote the modernization of archival management ability. Through investigation and analysis, it can be seen that there are some current situations in archival data, such as lack of policies and regulations, huge quantity and complex structure, data practice in the initial stage and so on. Based on the current characteristics, this paper constructs the archives data quality control mechanism: data Supervision and control mechanism, technical guarantee mechanism and quality evaluation mechanism. Meanwhile it proposes to strengthen the supervision and control of archival data quality, building technical guarantee barriers for archival data quality, construction of archives data quality evaluation method system and other optimization paths.
Keywords: Big data era; Archival data; Data quality control; Quality optimization
1 引 言
大數据时代,随着档案管理数字转型不断推进及数据处理技术应用推广,档案数据管理逐渐成为档案工作的新常态。然而,档案部门仍然存在严重的重数量轻质量的管理思想,数据污染、数据异构、数据安全、数据孤岛等问题突出。[1]究其原因,主要在于档案数据质量控制缺失,难以适应海量档案数据管理需求。现阶段,迫切需要开展关于档案数据质量控制的研究,实现档案数据规范化、标准化管控,推动档案数据朝着善治方向发展。
档案数据属于档案信息资源范畴,具备档案的基本属性,既包括档案部门已经掌握的各类数字化档案资源、电子档案等,还包括具有长久保存价值但还没有纳入档案部门保管范围的数据,以及档案管理业务过程中产生的各类数据等。[2]档案数据质量控制,即在档案部门主导下联合业务部门、数据管理部门、档案外包机构等,在相关法律法规、标准规范指引下,采用一定手段对处在形成、运行、传输、保管、利用等过程中的档案数据进行管控,使其保持稳定的质量效果,符合档案工作需求。
学界对档案数据质量控制研究已有初步探索,主要集中于三个方面。一是对档案数据质量控制的认知。档案数据质量控制是档案规范管理的基础,[3]是大数据时代维护档案数据质量的关键,要采取一定的方式和手段加以优化。[4]二是从顶层设计上提出档案数据质量控制的规范。从构建档案部门数据治理权责体系着手,明确各部门的权责,[5]重视档案数据治理中的质量问题,制定档案数据质量标准和管理制度,维护档案数据质量。[6]三是根据可能出现的数据质量问题提出对应的技术措施。如面对数量巨大、类型众多的档案数据,可构建档案数据基因系统,促进大规模档案数据的融合与共享,[7]亦可将档案数据进行语义化重组,使得大量参差不齐的数据能够有效组织。[8]同时,在面对众多异构档案数据时,应探索使用开源类软件工具,将异构数据转化为同构数据,[9]从而保障数据质量。可见,档案数据质量控制已成为大数据时代构建档案数据治理体系的重要组成部分,但是,现有研究主要从分析档案数据质量的内涵和提升其质量的路径等方面出发,未对其现状和机制进行研究。因此,本文希望构建一套合理的档案数据质量控制机制,并提出优化路径,以期全面维护档案数据质量。
2 大数据时代档案数据质量控制现状分析
2.1 档案数据政策法规制度缺失
政策法规制度是维护档案数据质量的重要保障。新修订的《中华人民共和国档案法》第三十五条提出:“保障电子档案、传统载体档案数字化成果等档案数字资源的安全保存和有效利用。”可见,档案数据质量控制在宏观层面已经受到关注,但是,在微观层面上,目前配套的政策法规制度尚未完备,现有的政策标准(如表1所示)主要局限于系统规范、数据存储等方面,而对其形成、传输、运行、保管、利用等各方面的规范存在缺失。
2.2 档案数据数量巨大结构复杂
大数据时代,档案工作数字化转型加速升级,文件“单轨制”持续推进,档案数据呈现出数量巨大、结构复杂的特点。一方面,档案资源总量迅速膨胀。据统计,2020年全国各级国家综合档案馆馆藏电子档案存储容量达1387.5TB,其中,数码照片390.2TB,数字录音、数字录像523.5TB。馆藏档案数字化成果更是达到19588.5TB。[10]档案数据的快速增长给档案管理、利用工作带来巨大挑战,但当前,档案数据化却主要依靠人工方式完成,[11]技术水准较低,管控难度极大,容易造成档案数据错误。另一方面,与传统环境下档案数据较为单一的结构相比,大数据时代的档案数据产生环境呈现网络化、数据化的特征,大量非结构化、半结构化、结构化甚至异构数据融合共存,[12]易造成数据管理标准不一致、格式不兼容等问题,导致档案数据质量下降。
2.3 档案数据实践处于起步阶段
档案数据化的持续推进倒逼实践部门改善管理理念、更新数据处理技术,但是,档案数据实践尚处于起步阶段,技术应用尚未成熟,实践部门之间缺乏有效联动,档案数据质量控制效果甚微。一方面,档案部门依然更多地将关注点放在档案数据的数量增长上,越来越多的档案馆馆藏档案数字化程度可达到较高水平,但是,档案部门对其馆藏数字资源的管理大多只停留在简单的组织、检索、利用层面,[13]未能对其进行深度的数据挖掘、数据审查及安全维护等操作。另一方面,馆藏资源呈现出孤立、碎片化的管理格局,易造成“数据壁垒”“数据孤岛”等质量问题。如大连市在民生档案数据资源整合共享方面,其户籍档案与大连档案部门的档案是分散管理、各自为政的,“数据孤岛”现象严重,未有做到有效的整合与共享。[14]
3 大数据时代档案数据质量控制机制
档案数据质量控制应立足数据生命周期过程,综合应用标准、技术、主体协同等手段保证档案数据在整个生命周期中始终保持质量效果稳定,构建档案数据质量监督管控、技术保障、质量评估等控制机制。
3.1 档案数据监督管控机制
应对档案数据管理各个环节制订对应的标准规范,形成有效的监督管控机制,确保档案数据始终保持真实、可靠、规范、可控的特征,方可满足档案工作和用户利用的需求。
(1)前端标准规范的嵌入机制。依据档案数据质量管控要求,把相关的标准规范嵌入文件的形成过程,以便从源头出发,形成完备的档案数据来源管控机制。一是档案部门需要明确档案数字化、数据质量管理要求,制订前端控制阶段档案数据识别、数据检测、数据清洗、数据分类、数据录入、数据标引、元数据封装等标准规范,形成有效的规范机制管控来源端的档案数据质量。二是依据标准规范制订实践指南,设计数据核验计划、行动方案、监控手段,做好档案数据在生成阶段的质量检测措施,保证档案数据源头的准确性、完整性、可靠性。
(2)流转过程中的高效监管机制。必须采取高效的监管措施,形成有效的监管运行机制,确保档案数据在传输、保管、利用等流转过程中的质量,且技术要求等应根据档案业务工作需求变化而随时更新。一是要制订档案数据变更、加载、格式转换等技术要求,防范数据错误、难以读取、利用困难等质量问题。二是要制订档案数据管控标准,明确数据归档原则、归档流程、数据存储规范,掌握其归档效率、完整率等。同时,制订档案数据定期核验标准,以便于对保存期的档案数据定期核验、复查,使其能随时提供利用。三是形成合理的档案数据利用规范,明确数据开放利用范围、利用流程等,并确保其满足可机读、易访问、能下载等通用技术指标。
3.2 档案数据技术保障机制
档案数据的质量由两方面内容构成:一是档案数據自身的质量,即档案数据准确、可靠、可用的程度;二是档案数据过程质量,即档案数据在传输、存储、运行、利用等过程中的质量。[15]因此,可从元数据管控、数据运转过程两个方面入手。
(1)打造有效的元数据管控机制。有效的元数据管控机制对于保证档案数据质量具有重要的意义。因此,必须要打造切实可行的档案元数据管控机制,实现对各元数据名称和语义的规范化管控,并尽量以已有标准为指南,加深引用、复用的方式构建新的元数据管控机制。如可利用Dublin Core作为基础复用元数据标准,在复用基础上结合大数据时代社交媒体档案数据特征进行元素扩展,制订完整的社交媒体文件元数据归档技术方案,[16]实现海量社交媒体数据的归档。
(2)构建科学的档案数据运转机制。科学的档案数据运转机制,能克服档案数据在运行、传输、存储、利用过程中易受到的技术异常、系统漏洞或管理人员操作不当等不利因素影响,[17]保证档案数据质量在全生命周期中始终处于良好状态。一是注重数据审查技术的应用,加强对档案数据的检测、识别,实现对其质量的全面追踪。二是更新数据库技术和存储设备,促进不同来源、异构、碎片化、离散性强的档案数据之间的整合集成,使其在存储过程中保持关联,确保可以重复利用。如2020年4月浙江省档案馆启动省档案数据中心建设,旨在汇集全省开放档案、民生档案、专题档案等资源数据,以及档案收集管理、开发利用等工作数据,[18]为统筹整合档案数据、提供高质量数据服务做了充足准备。
3.3 档案数据质量评估机制
通过构建科学的档案数据质量评估机制,使其质量效果能满足多方面需求,从而促进档案数据服务的优化。
(1)形成实用的评估指标遴选机制。档案数据质量评估机制科学的运转,建立在指标合理设计与分布的基础之上,因此,评估指标的遴选机制必须科学合理,能够反映档案数据质量的要求,所遴选的指标应包括但不限于以下:可用性,即档案数据是否可用,是否满足可机读、可运行、重复利用等技术标准;完整性,即档案数据是否完整,数据实体、数据属性是否缺失;准确性,即档案数据所记录的事实是否准确真实;规范性,即档案数据的格式、类型、值域等指标是否合规;一致性,即档案数据是否出现变更;关联性,即保持档案数据之间的关联;可控性,即档案数据从生成到流转的各环节都可以得到有效控制。[19]并且,对相关指标具体要求、规范等还必须要形成良好的增减制度,实现评估指标遴选的动态化操作,使遴选机制更加高效与科学合理。
(2)构建多元化评估主体的参与机制。只有构建顺畅的社会主体参与渠道,并形成有效的社会主体参与机制,档案部门才能充分调动与借助社会力量,助推档案数据质量评估机制顺利实现。一是主动强化与立档单位、技术部门、大数据管理部门等组织机构的协同联动机制,从实际出发,评估档案数据质量是否满足需要。二是档案部门可基于自身网络基础设施,打通与社会公众的交互渠道,收集其利用档案数据的体验感受,形成良好的反馈机制,并根据公众的反馈建议改善数据质量,确保档案数据服务的优质性。如美国国家档案馆(NARA)分别建立了与政府、社会资本和公众的合作机制,[20]有效促进了多元主体共同参与档案数据质量控制。
4 大数据时代档案数据质量控制优化路径
4.1 加强档案数据质量控制顶层设计
档案数据质量监督管控等标准规范的制订需要立足于国家层面的顶层设计,对此,可通过推进档案数据质量控制走进法律视野,制订档案数据质量控制战略规划等方式,增强顶层设计,为档案数据质量控制的具体实践提供纲领性指导。
(1)推进档案数据质量控制走进法律视野。一是需要在法理层面进一步明确档案主管机构对档案数据的监督管控职责,精确划定档案数据保密、开放共享以及用户群体在维护数据完整与安全方面必须履行的责任和义务。二是应在法律上明确档案数据质量控制应达到能够有效保障数据质量、数据安全的效果,切实改变档案部门“重数量,轻质量”的管理思想,关注档案数据的生命周期过程,确保其生命周期各阶段能凸显自身的价值,成为社会运转的决策依据。
(2)制订档案数据质量控制战略规划。一是档案部门需要完善现有的档案数据质量控制战略规划,增加档案数据权益维护、档案数据服务平台建设规划等方面的内容,为微观层面标准规范的制订和完善提供方向引导。二是应该充分考虑到不同数据资源的特点,明确档案数据管理发展方向,制订统一的战略,充分保证数据质量。如美国国家档案与文件署(NARA)对不同类型档案数据的管理战略值得我们借鉴。该馆在2007年发布了《鉴定政策战略方向》(Appraisal Policy of the National Archives),其附件二《对特定类型的文件的特殊考虑》[21]中对不同类型的档案数据管理做了特别说明。
4.2 筑造档案数据质量技术保护屏障
大数据时代,档案数据质量需要更为先进的技术保障。在对档案元数据的管控中,应遵从元数据管理规范,采用对应技术进行元数据管控;面对档案数据生命周期各阶段的质量问题,可开发多类型的数据审查类、保管类管理工具全面维护其质量效果,从而构成坚实的档案数据质量技术保护屏障。
(1)拓展技术应用深度,强化元数据技术运用。大数据环境下,档案元数据管控需要具备完善的拓展功能以满足海量数据描述需求,并能对其进行实时捕获。一是可应用元数据自动生成技术,通过爬虫工具对网页资源的时间戳、文件类型、URL、MIME等信息进行捕获,并解析HTML网页源代码获取标签信息,从而实现海量元数据的管理。[22]如希腊网页归档项目中对网页和锚文本的关键词进行自动抽取,形成分类集群,实现了大量网页数据的归档,有效维护了数据质量。[23]二是可探索应用开源技术开发元数据管理工具。美国地质勘探局在其官网上推荐了数据管理、元数据创建等工具,并公布了可供下载的链接等,[24]我国档案部门可借此链接积极访问,利用其公开的源代码和技术架构,开发自己的开源类元数据管理工具。
(2)扩展技术应用广度,丰富档案数据管理工具类型。档案数据在整个生命周期过程中易受到多种复杂因素的影响,单一的技术难以全面保障数据质量效果,应针对各阶段档案数据质量维护的实际需求,开发相应的管理工具。欧美国家在档案数据管理工具的开发上具备较为成熟的经验,可借鉴参考。如在Planets计划支持下,欧盟各国开发了格式识别、数据库存档、硬件仿真器[25]等具备数据审查和保存管理功能的数据管理工具,对档案数据在传输、运行和存储阶段的质量效果起到了较好的维护作用。再如加拿大温哥华数字档案馆集成了档案网络存储Archivematica、档案利用AtoM、档案数字鉴证BitCurator三类数据管理工具,且都是运用开源技术开发,可直接通过网络下载,[26]我国档案部门亦可体验。
4.3 构建档案数据质量评估模型与平台
档案数据质量评估的顺利开展可借助评估模型和平台优势,设计可行的评估方法。一方面,可利用国际数据管理协会(DAMA International)提供的数据管理成熟度模型,根据模型评估优势,结合档案数据质量评估指标,设计评估方案;另一方面,构建交互平台,确保多元主体有效参与档案数据质量评估工作。
(1)应用数据管理成熟度模型。一是利用模型评价优势,促进档案数据质量评估模式化。档案部门可根据评估工作的实际需求,单独或混合使用该类模型,并结合其框架体系开发档案数据质量评估模型,形成评估工作开展的固定模式。二是利用模型优化功能,推动档案数据质量的持续提升。档案部门可利用成熟度模型评估档案数据管理现状,分析档案数据在不同阶段应达到何种质量水平,从而促进其质量提升。如可将档案数据评估维度包括的完整性、准确性、規范性、一致性、关联性、可控性等指标与CMM的五个成熟度等级(初始级、重复级、已定义级、可预测级和优化级)相结合,分别描述不同等级应达到的数据质量水平,[27]以此作为衡量档案数据质量评估的标准方法。目前,国内外已有多组数据管理成熟度模型,该类模型不仅能对数据管理现状进行评价分析,而且还可以提供改善策略,[28]档案部门可参考利用。
(2)开发功能完善的交互平台。多元主体参与到档案数据质量评估中需要以交互平台为渠道,让其可以跨越时间、空间的限制,将档案数据利用体验和改善意见反馈给档案部门。构建交互平台,一是要注重提升平台服务的响应性。要在平台中设置数据请求功能,同时还应实现及时答复各主体所给予的反馈意见的功能,并告知用户数据质量提升的改进意见、优化进度等。二是开通平台的众包功能,发动社会力量积极参与,利用群体智慧完善数据质量提升方案。如“盛宣怀档案抄录项目”构建了完善的数据众包平台,平台中设置了反馈、帮助[29]等数据请求功能,具备及时响应性,为抄录项目的顺利开展起到了极大的帮助。
5 结 语
大数据时代,档案数据在数量、来源、类型、结构的变化发展,使之面临的数据质量问题日益严峻。档案部门应放眼档案数据的整个生命周期过程,全面考虑其质量问题,完善档案数据管理的各类法规政策,制订具体的管理制度,借助先进的数据管理技术,开展档案数据质量控制研究,有效维护档案数据质量水平,从而不断满足档案工作需要。
*本文系国家社科基金项目“国家大数据战略背景下档案数据质量优化控制研究”(项目编号:21BTQ016)的阶段性研究成果。
注释与参考文献
[1]倪代川,金波.数字记忆视域下档案数据治理探析[J].档案管理,2021(01):41-44.
[2][12]金波,添志鹏.档案数据内涵与特征探析[J].档案学通讯,2020(03):4-11.
[3]陈慧,罗慧玉,陈晖.档案数据质量要素识别及智能化保障探究——以昆柳龙直流工程项目档案为例[J].档案学通讯,2021(05):49-57.
[4]于英香,张雅颉.“档案参与”科学数据监管:缘起、现状与动因[J].档案学研究,2021(02):104-110.
[5][28]刘越男.数据治理:大数据时代档案管理的新视角和新职能[J].档案学研究,2020(05):50-57.
[6]常大伟,潘娜.档案数据治理能力的结构体系与建设路径[J].浙江档案,2020(02):27-29.
[7]赵生辉,胡莹.档案数据基因系统:概念、机理与实践[J].档案学研究,2021(01):40-48.
[8]夏天,钱毅.面向知识服务的档案数据语义化重组[J].档案学研究,2021(02):36-44.
[9]何思源,刘越男.科学数据和科研档案的管理协同:框架和路径[J].档案学通讯,2021(01):49-57.
[10]国家档案局政策法规司.2020年度全国档案主管部门和档案馆基本情况摘要(二)[EB/OL].[2021-08-06]. https://www.saac.gov.cn/daj/zhdt/202108/6262a796fdc3487d93bf a7005acfe2ae.shtml.
[11]赵生辉,胡莹.“档案数据化”底层逻辑的解析与启示[J].档案学通讯,2021(04):20-27.
[13]趙跃.大数据时代档案数据化的前景展望:意义与困境[J].档案学研究,2019(05):52-60.
[14]吴黎明.大连市民生档案数据整合利用问题研究[D].大连理工大学,2020.
[15][17][19]金波,杨鹏.大数据时代档案数据治理研究[J].档案学研究,2020(04):29-37.
[16]曾萨,黄新荣.我国社交媒体文件存档元数据方案构建[J].图书馆学研究,2020(20):58-66.
[18]浙江省档案馆.浙江省档案馆启动省档案数据中心 建设[EB/OL].[2020-04-14].http://www.zjda.gov.cn/art/ 2020/4/14/art_1229005493_42564205.html.
[20]白文琳,安小米.政府电子文件协同管理:美国经验及其启示[J].档案学通讯,2020(04):103-112.
[21]NARA.Appraisal Policy of the National Archives[EB/ OL].[2021-05-08].https://www.archives.gov/records-mgmt/ scheduling/appraisal _ga=2.69520656.122467392.1620376251-856513955.1620376251.
[22]王兰成,刘晓亮,黄永勤.档案社会化媒体信息整合中元数据构建与集成技术研究[J].档案学研究,2019(05):102-107.
[23]Grotke A,Jones G.Digiboarda:tool to streamline complex web archiving activities at the Library of Congress[C].10th International Web Archiving Workshop(IWAW10),2010.
[24]United States Geological Survey.Data Management[EB/ OL].[2021-05-09].https://www.usgs.gov/products/dataand-tools/data-management.
[25]姚飞,姜爱蓉.欧盟长期保存项目Planets的体系与特点[J].现代图书情报技术,2010(02):12-16.
[26]范冠艳.基于实体档案馆信息化的数字档案馆建设实践探究——对温哥华市档案馆数字保存项目的实地调研[J].档案学研究,2018(05):129-134.
[27]吴锦池,余维杰.图书馆数据治理成熟度评价体系构建[J].情报科学,2021(01):65-71.
[29]张轩慧,赵宇翔,宋小康.数字人文类公众科学项目持续发展阶段的公众参与动因探索——基于盛宣怀档案抄录案例的扎根分析[J].图书情报知识,2018(03):4+16-25+77.