面向数智化档案开放审核的档案数据治理问题探析
2024-12-12秦岭
摘 要:档案开放审核工作是依法治档的体现,要在保障国家安全与公众隐私的基础上确保档案及时、平等地对外开放,也是响应国家关于通过提升公共服务、社会治理水平,更好地服务社会公众的要求。随着人工智能技术在档案开放审核工作中的应用,传统档案数据质量对于技术应用效率提升的影响日益凸显,新技术、新流程的应用也不断促使新型数据类型产生,因此应在开放审核工作中,对历史数据质量进行治理,加强新增进馆数据的前端控制,并对新型数据进行规范化管理,从而推进档案开放审核工作提质增效、促进档案公共服务水平提升。
关键词:档案开放审核;档案数据治理;档案数据化
档案开放审核“是指由国家档案馆会同档案形成单位或移交单位对形成时间达到一定年限且仍限制利用的馆藏档案,在形式与内容上进行全面审查核实,确定其是否可以面向社会公众开放的过程”[1]。由于传统审核工作存在标准理解执行不一致、鉴定结果可解释性较差、人工成本与耗时较高等问题,全国各地综合档案馆纷纷将人工智能技术应用于开放审核工作,如福建省档案馆利用智能分库、文本分类与分库重构档案开放审核流程[2],江西省档案馆运用数据挖掘技术支持档案开放审核鉴别,综合使用敏感词库和深度学习算法进行探索[3],江苏省档案馆利用语义工程构建语义审核模型,多维分析、深度理解档案内容,帮助人工快速锁定档案内容、提质增效[4],人工智能技术与开放审核相融合构建数智化新模式已成为主流趋势。
伴随数智化档案开放审核工作新模式的推进,以及新型技术、工具、流程的构建,数据作为核心的生产要素,对于开放审核工作中应用流程的重构与工作质量效率的提升也有着关键性的作用。传统档案数据资源的内容、格式、目录规范性、数据一致性等质量问题限制了新型技术的应用效率,新技术应用过程中产生的新型数据类型、数据层级、组织维度缺少统一规划、设计、实施、监督,在客观上阻碍了开放审核工作中形成的数据资产的进一步价值挖掘与释放,也不利于档案工作的数智化转型。
1 数智化档案开放审核中的档案数据问题分析
数据治理的需求来源于档案工作的目标与期望。[5]当前我国档案馆数据资源主要以档案元数据(目录)+纸质档案数字化副本(图像)为主,开放审核工作也从传统的对档案实体进行审核转移到以电子目录+数字化副本图像为主,而现有馆藏历史档案数据由于技术水平、标准差异及执行力度的因素,存在一定比例的数据无法直接进行利用,需对其进行质量治理;与馆藏历史档案数据相对的,是档案室等立档单位向档案馆移交的新增进馆档案,由于无法采用统一的数据质量治理标准,导致无法从源头上控制档案数据,无法实现前端控制。
同时,数智化档案开放审核工作模式突破了传统的元数据+目录的资源体系范畴,对基于OCR识别形成的档案全文文本数据进行深入挖掘与分析,形成包括目录、图像、全文、印章、图片、表格、知识、主题、关系等多维度、多类型、多层次的新型数据资源体系,客观上对于档案数据标准的兼容性、可扩展性提出了新的要求。
1.1 存量档案数据资源质量问题
由于档案数据数量众多、来源广泛、标准不一,同时在以往历史过程中缺乏高效精准的质检工具,导致档案数据存在以下问题:
(1)档案数据真实性问题。根据开放审核工作过程中的档案数据人工复核与清点,馆藏全宗中普遍存在档案元数据著录错误、元数据与档案图像挂接错误等问题,在部分全宗中可达到8%的比例。以上问题将会导致支撑档案开放审核的元数据、图像信息失真或空缺,无法满足基于档案真实数据进行审核的要求,更无法对外提供利用。
(2)档案数据完整性问题。由于档案数据标准规范不一,或在数字化加工过程中的误操作,数据信息未同步,存在档案总数不一致、档案目录数据缺失遗漏、无法找到档案图像的空目录等问题,不完整的数据将会影响档案信息的全面性与可信度,进而限制档案开放审核工作的后续进行。
(3)档案数据可用性问题。由于在不同历史阶段执行的数据标准要求不同,或在档案数字化加工中执行错误的参数,导致图像本身质量偏低(分辨率、色彩、倾斜度、重度噪声、页面缺失)、数据无法正常读取或打开,进而影响档案全文识别、语义挖掘与开放利用的效果。
1.2 增量档案数据质量控制问题
档案开放审核工作需要立档单位、档案馆、档案主管部门、国家保密部门多主体协同工作。《中华人民共和国档案法》第三十条明确规定,“馆藏档案的开放审核,由档案馆会同档案形成单位或者移交单位共同负责”,从而改变了单纯依赖档案馆作为唯一责任主体进行开放审核工作的做法。[6]然而在实践过程中,往往由档案馆采购档案智能开放审核系统,系统的流程、规则、功能主要以档案馆意见为准,立档单位虽然按照档案馆的移交进馆数据标准进行数字化加工,但在数据质量检查、数据治理优化过程中由于缺乏相应的协同平台与技术赋能手段,在实际工作中缺乏统一化、标准化的前端控制机制,从而导致新增进馆数据又成为开放审核工作中亟待解决的重要问题。因此,应充分考虑如何通过共享模式,将档案馆数智化档案开放审核工作模式中的数据质量检查、治理能力向立档单位进行赋能、共享与协同,这也是开放审核工作的重中之重。
1.3 新型档案数据类型治理问题
在引入数智化技术对于档案开放审核工作进行模式重构的过程中,新型的技术促使数智化档案开放审核工作“改变了对信息资源的把握尺度和价值追求,赋予信息管理者知识挖掘、组织、管理与再造的能力”[7]。在数智化档案开放审核工作新模式下,由于广泛采用了OCR识别技术进行全文识别,需要从档案目录、图像资源中进一步深入,获取更加丰富、深刻的档案版面版式、文件结构、语义特征,支撑档案开放审核规则的推理与溯源,需要深入档案数据资源进行细粒度的数智化档案数据治理,从而获取全面、深度的语义信息,随之而来的是开放审核工作中的档案数据类型、结构也发生了巨大变化。
(1)档案全文数据。相较于传统的目录、图像资源,在数智化档案开放审核工作中,往往基于档案全文数据进行语义特征提取与多源融合推理,因此全文识别的准确率对于开放审核工作的准确率影响较大,在实际工作开展中需对档案数据字体多样、版式丰富、重度噪声干扰与内容跨页等普遍问题进行针对性训练。
(2)图像版式数据。除全文数据外,对于档案中如文号、密章、公章、表格、图片等各类版式数据的分析,有助于获取开放审核工作所需的上下级、涉密标识、责任者、空间语义信息,并进一步实现多种审核规范的融合推理。
(3)结构化要素数据。传统的档案目录数据主要反映档案内容及形式特征,对于档案形成的背景与管理过程揭示较少,档案开放审核工作的规则中包含文件拟写、审核、发布、接收、办理过程中的业务信息,因此需对其进行检测、识别与提取,形成结构化要素数据,支持档案开放审核与对外利用。
(4)档案细颗粒度数据。反映档案件、页、段落、行、词、字等不同颗粒度层级的档案数据,细粒度的档案数据为基于档案语义内容进行检索、定位、溯源提供了自由灵活的数据组织方式,也可提供更加精细的档案资源利用方式与权限控制体系,从而提升档案数据信息利用安全水平。
(5)档案语义数据。档案语义是指“所有档案本身的数据化和描述档案的数据的含义,包括档案内容数据、背景数据和结构数据的含义”[8]。档案语义数据在全宗、案卷、件及档案内部存在不同层级、不同实体间的语义关联关系,基于多维的数据关联关系可以支撑以类似于数字人文中的“远读”视角,对于档案数据进行数据驱动的深度分析、资源整合、关系路径,从而形成对数据的深度洞察与全新的多维组织模式。
以上在数智化档案开放审核工作中产生的新型数据类型,具备多类型、多层次、细粒化、语义化、关联化的数据特征,不仅能够应用于开放审核,更能够为档案智能、高效、便捷服务社会公众提供坚实的数据基础。然而现有的数字档案馆建设大部分缺少对于以上数据的业务和技术标准,平台往往无法兼容以上数据类型,无法形成可供进一步复用、共享、挖掘的数据资产,客观上导致了档案数据资产的浪费,也限制了档案工作数字化转型。
2 面向数智化档案开放审核的档案数据治理措施
2.1 提升档案数据质量检测能力
高效精准便捷的档案信息公共服务基础是高质量的数据资源,高质量的档案数据不仅影响开放审核工作的质量与效率,同时也影响社会公众对于档案开放共享后提供服务的满意度与档案部门的公信力。因此,应面向公众对于档案利用的业务需求,梳理现有档案数据资源体系中存在的问题,建立档案数据质量治理评估指标,并针对不同的评估指标,通过数据样本标注与模型训练,提升智能数据质量检查能力,夯实档案数据基础。
根据档案开放审核工作中常见的档案数据问题,从档案真实性、完整性、可用性的角度,梳理现有馆藏档案原始数据中元数据、档案图像、元数据与图像一致性等维度存在的问题,并利用机器视觉、OCR识别、结构化要素抽取、文本比对等技术构建智能档案数据质检模型,实现对于档案原始数据中图像质量、元数据质量以及数据挂接一致性的自动高效质检,从而在档案原始数据进入数据预处理、智能开放审核等环节前及时发现数据问题,避免无效的资源消耗。同时,提供人机协同的档案数据复核与纠错,经过统计的档案数据复核结果可用于支撑馆藏档案数据资源整体质量评估,可通过独立的数据平台建立原始档案数据与质检档案数据的映射关系,避免对已有数字档案馆系统的数据结构进行变动。
2.2 构建馆室协同的数据质量检测体系
由档案馆牵头,构建包括档案馆、立档单位或移交单位等多主体共同参与的智能档案开放“预审核”协同机制。根据档案开放审核工作中不同参与主体,厘清各主体的角色与职责,充分调研、吸收并明确各单位的档案数据标准与开放审核规则,对档案开放审核工作中各业务环节的责任、操作、结果进行明确与细化,形成档案开放“预审核”标准与规范,并进行培训与考核。
档案馆将各单位的档案数据质量标准、开放审核规则进行统一维护,同时将数智化质量检测能力与开放审核智能推理能力进行标准化的微服务封装,并统一部署于政务网,各立档单位通过统一的AI能力集成接口调用智能化数据质检与档案开放预审核能力。在档案移交进馆前根据数据质量标准与智能检测能力进行数据统一质检、人工复核,从而提高档案数据质量。
在数据质检后,对待移交进馆档案发起档案预审核任务,将封装形成的标准化档案信息包推送给档案开放审核系统。档案开放审核系统对档案信息包校验、解析并获取档案目录与图像数据,根据预置的单位标识与该单位的开放审核规则,返回档案开放审核结果、理由与定位溯源信息。立档单位或移交单位人员在人工复审页面进行人工复审、终审,并向数字档案馆系统移交带有“预审核”结果的档案。上述流程确保档案在正式开放前经过严格的审核,保证档案的安全性和合规性,提高档案开放审核工作的质量和效率。
2.3 建设新型数据业务与技术标准
传统的档案OCR识别主要关注档案的文字及坐标位置信息,但以上信息不能反映档案的版式、段落、上下文关系,丢失了大量可对档案进行深度挖掘与分析的语义信息(如印章、表格、图像、公文要素),因此,需要对OCR技术升级,使OCR具备输出从档案图像页—段落—文字块—文字的多层次细粒度聚合与还原能力,并支持对于档案图像版面布局、公文要素与段落等语义信息丰富的数据资源的揭示,制定数据输出标准,从而支持深入档案内容层面,实现档案数据资源向细粒度的数据资源转化,以便进行检索、分析和挖掘。主要包括如下数据标准:
(1)细粒度、多维度的档案数据标准。具体包括档案全文文本内容、页数、文件唯一标识、档案文字内容、坐标位置、档案版式信息(标题、正文、图片、表格、印章)、页、段落、表格空间语义信息等,基于新型的档案数据标准,采用基于深度神经网络的人工智能技术,实现支持不同字体、不同版面、不同粒度的全文文本识别、版面分析、版式还原、要素抽取,并提供具有高度可兼容性和可扩展性的档案数据描述规范,支撑后续的档案数据挖掘、开放审核、专题知识库建设与检索利用等场景。
(2)面向档案语义数据构建不同档案数据层级的档案语义框架。如江苏省档案馆以国家颁布的二十项档案划控原则为基础架构,参考了《江苏省档案馆开放审核控制使用档案参照清单(2022年)》的 18 类鉴定条件,按照包含关系对每类鉴定条件向下进行解析,解析成颗粒度更细的语义鉴定条件,再根据该鉴定条件的语义框架向下解析到机器可以识别的语义元。通过基于高保真语义解析器自档案全文文本数据中获取了具有多层级语义框架数据,包括了基于中文自然语言处理常用的20余种语义框架及在此基础上扩展的200余种档案开放审核语义框架,作为支撑档案开放审核的语义引擎,发现档案全文文本中隐藏的档案语义关系,赋予档案数据的多维度关联,有效解决了档案数据分散、孤立的问题。
3 结 语
档案开放审核工作作为较早引入大数据、人工智能技术的典型性应用领域,随着数智化档案开放审核工作新模式的不断推广,档案数据质量问题、新型档案数据的治理对于档案开放审核及其他档案业务工作的影响也必将不断凸显。因此,必须正视档案数据资源在档案工作中的基础性地位,加强档案数据质量能力,推动新型档案数据治理工作开展。档案数据治理是融合多种不同参与主体的体系化活动,包括了一系列构成要素,具备多元性、全面性、关联性和协调性的特征。[9]在档案数据治理的过程中,要充分考虑档案馆、室在档案数据治理中的角色、价值、职责与能力,充分推动馆室协同,通过一体化的方式实现统一赋能,有助于从根本上解决数据治理的问题。
在档案开放审核工作及其他业务工作的数智化转型中,通过不断探索新模式、积累新经验、沉淀新知识、形成新标准,以业务需求为导向,以标准规范为抓手,以新型技术为工具,同时充分考虑档案数据资源的可扩展性与可复用性,最终实现档案内容深入挖掘,档案价值活化释放,推动档案工作向档案数据颗粒度更加细化、数据治理更加深入、公共信息服务更加高效的方向发展,在此也期望学界、业界的持续关注与深化研究,通过更多的业务切入口,实现档案数据的优化治理,推动档案工作提质增效,实现档案工作数字化转型。
注释与参考文献
[1]施浩然,吕元智.我国档案开放智能审核问题与优化策略研究[J].山西档案,2024(6):20-26.
[2]黄建峰,颜梓森,张枫旻,等.福建:运用人工智能技术搭建开放审核模型[J].中国档案,2023(7):27-29.
[3]毛海帆,李鹏达,傅培超,等.基于数据挖掘技术构建辅助档案开放鉴定模型[J].中国档案,2022(12):29-31.
[4]李军,徐志国,王楠.智能语义助推档案开放审核的研究与实践[J].中国档案,2023(11):56-57.
[5]周枫,金波.基于PDCA模型的档案数据质量治理研究[J/OL].情报科学,1-18[2024- 09-07]. http://kns.cnki.net/kcms/detail/22.1264. G2.20240506.1623.006.html.
[6]肖哲.从《档案法》的修订谈档案开放政策的进步与完善[J].档案管理,2022(1):45-46.
[7]刘石,李飞跃.大数据技术与传统文献学的现代转型[J].中国社会科学,2021(2):63-81,205-206.
[8]祁天骄,冯惠玲.档案数据化过程中语义组织的内涵、特点与原理解析[J].图书情报工作,2021(9):3-15.
[9]金波,王洁菲,添志鹏,等.档案数据治理运行机制探究[J].档案学通讯,2023(4):22-29.
(责任编辑:刘鸿浩 邵澍赟)