文件连续体理论视域下档案数据治理能力提升探析
——以NAA《数据战略2023-2025》为例★
2023-03-22袁安琦杨智勇
袁安琦 杨智勇
(上海大学文化遗产与信息管理学院 上海 200444)
1 引言
文件连续体理论是在澳大利亚基于证据和连续体的文件管理思想、文件系列体系思想的基础上,借鉴后保管主义及结构化理论建构的后现代主义文件保管新范式,它强调文件的运动具有时空延伸性,其终极诉求是建立一个自下而上的、可靠的文件保存体系,以完整保存集体记忆,促进社会民主发展。[1]数字化转型背景下,档案资源形态由模拟态加速向数据态、价值态转化,档案管理活动逐步迈向档案数据治理新阶段。而文件连续体理论所蕴含的整体性、证据性思想在档案数据治理中体现了强大的生命力。目前学界对于档案数据治理的研究主要集中于以下三方面:一是探究其概念内涵,如理论坐标[2]、三重逻辑[3]、认识维度[4]等;二是针对档案数据治理各要素提出优化建议,如档案数据质量治理[5]、档案数据权力治理[6]、档案数据安全治理[7]等;三是结合具体实践领域探究治理对策,如高校档案数据治理[8]、红色档案数据治理[9]、医疗档案数据治理[10]等。澳大利亚国家档案馆(以下简称NAA)在数据治理实践方面处于领先地位,于2022 年12 月颁布的《数据战略2023-2025》[11](以下简称《战略》)以实现数据价值最大化、数据受到信任和保护、促进数据利用、构建数据能力为目标,实现NAA 2030 年愿景——打造世界领先档案馆铺设道路,对我国具有参考借鉴价值。为此,本文以《战略》为例,着眼于档案数据治理与文件连续体理论的耦合,阐明文件连续体理论应用于档案数据治理中的价值,探索档案数据治理能力提升对策。
2 档案数据治理与文件连续体理论的耦合
文件连续体模型中的身份轴、保管形式轴、业务活动轴、证据轴代表的是文件运动过程中的4 个重要主题。档案数据治理指的是档案部门、社会组织和公民等多元主体通过协同合作,利用现代信息技术对档案数据整个生命周期进行科学有效、合法合规的全程管理,挖掘档案数据价值,满足社会利用需求,实现档案数据善治的活动和过程,[12]其核心内容与文件连续体模型四轴联系紧密,下文将以《战略》内容为支撑,针对二者耦合做简要分析。
2.1 身份轴:构建档案治理共同体
文件连续体模型中的身份轴主要指的是文件保管活动中的行为主体,包括形成者、业务部门、组织机构和制度。该模型认为“档案”并不是由单一主体所形成的单一形式文件,而是应包括多元主体所形成的多种形式的证据和记忆。[13]档案治理共同体是由档案形成者、档案保管者、档案利用者、档案监管者及相关辅助力量,围绕档案的价值生成、价值流转、价值实现所形成的责任与利益联合体。[14]《战略》在原有信息治理框架的基础上,将馆内所有工作人员都界定为数据用户,并将其划分为领导层和执行层两类,以明确其能力与职责。其中,领导层包括信息和数据治理委员会、主管助理、首席信息治理官,对国家档案馆总体运作、项目实施、战略规划等进行全面治理;执行层包括数据管理总干事、数据管理员、数据专家、数据用户(所有员工),负责监管档案数据质量、防范安全风险、确保资源共享等活动,并对日常工作中的数据使用提出优化建议。NAA 在内部培养馆员数据治理能力的同时,也注重构建与外部政府部门或其他机构的数据协作机制,如《澳大利亚数据战略》《数据可用性和透明度法案2022》《建立公共文件信任:为政府和社区管理信息和数据》《人工智能(AI)行动计划》等,从而不断满足政府的数据需求和公众的数据期望。[15]理顺多元主体在数据流动各环节中的权责关系,有利于形成共建共享、高效安全的档案数据治理模式。文件连续体理论强调跨越文件保存机构间的合作,以目的为导向的系统方法能够提升归档保存数据的规范性,并使得档案部门主动地、超前地参与到数据全生命周期治理过程中。
2.2 保管形式轴:档案态别纵深转化
文件连续体模型中的保管形式轴主要指的是文件保管活动中的资源形态,包括文档、文件、档案和档案集合。该模型中的“文件”是动态的客体,就其内容及结构的一些意义坐标而言是固定的,但其背景元数据是不断扩展和丰富的,而正是这些元数据保证了文件在时空运动时的可获取性、可用性及可靠性和真实性。[16]价值密度高、结构复杂、种类繁多的档案数据作为档案数据治理的对象,对其进行处理的技术手段应从传统数字化、数据化向语义关联、价值呈现转变,以实现善治目标。《战略》主要面向两种类型的数据:一是仍处于活跃或半活跃状态,用于通知、执行、记录和传达有关馆内业务活动、决策和批示的数据;二是按规定保管和使用的澳大利亚政府最有价值的永久保存数据。该《战略》采取的是广义的数据定义,认为数据可以是数字的、空间的、统计的、结构化或非结构化的信息(未处理或已处理),以文本、数字或多媒体等形式传达,并可以按特定目的或业务主题构建结构化的数据集,由此形成以单个或多个数据集合形式存储的、有组织的数据库。为实现数字档案目标,数据处理过程需要升级优化以提高效率,NAA 序化整理原住民数据、打造Bringing them home 姓名索引数据库、探索现代云环境Preservica 试点、更新云端数据治理清单,通过将民众与澳大利亚政府活动和决策的证据联系起来,使得澳大利亚的文化认同和民主得到加强。[17]档案数据与传统纸质档案虽然在态别和细粒度上有所不同,但是在其整理活动中均经历了从最初无序生成到最终有序聚合的过程,不断丰富档案背景信息,从而使得档案价值能够在更大范围得以实现。
2.3 业务活动轴:全生命周期价值链
文件连续体模型中的业务活动轴主要指的是文件保管活动中的行为轨迹,包括业务(事务)、活动、功能和目的,能够反映数据在不同维度中的不同作用和对同维度其他环节的影响。在实际的管理活动中,档案数据能直接反映不同场景中形成和利用主体的主要职能及在社会中所扮演的角色,体现了档案数据实现社会价值的整个过程。[18]档案数据治理是在确保数据安全的前提下,对档案数据从最初生成到最终销毁或永久保存的整个生命周期进行科学规范的管理。NAA 以数据作为基本业务推动力的理念,运用现代技术以改变收集、共享、管理和使用数据的方式,依据国家战略制定数据传输计划,并提升数据分析能力。《战略》在考虑数据连续性的基础上,提出涵盖数据全生命周期的数据价值链。在前端著录环节,NAA 捕获一系列元数据并将其与在社会及业务活动中形成的文档紧密相连;在后端归档环节,NAA 改进了社交媒体捕获流程,促进了对各种渠道的访问和互动,以丰富的档案数据资源扩大档案馆的影响力。《战略》强调以人员素质的提升促进业务活动的规范化,通过开展数字存档和网络安全意识培训来推动馆员数据能力的持续优化。[19]文件连续体理论认为“档案”的价值源自它们最初形成时的背景,是具有持续价值的文件,并且可同时具备多重价值。而档案数据因其流动性强的特点,借助信息技术手段和治理环节的前移,能够突破时空界限,在其全生命周期内实现多元价值。
2.4 证据轴:数据安全强化信任
文件连续体模型中的证据轴主要指的是文件保管活动中的价值呈现,包括痕迹、证据、机构/个人记忆和集体记忆,能够反映档案数据以其固有的原记录属性,以不同形式在不同时空范围中发挥证据价值的过程。该模型认为文件与档案的价值和意义由它们最初形成的背景所赋予,因此对于元数据和数据质量的把控是实现档案数据原始凭证价值的核心要义。数据质量是档案数据治理的关键,是档案数据规范管理与有效开发的基础,包括档案数据自身的质量和档案数据的过程质量两方面。[20]《战略》的四大目标之一是“数据受到信任和保护”,NAA 将保持其作为联邦档案数据值得信赖的管理者的角色,从识别数据问题、保障数据网络安全、严密数据防护、高效数据存储四方面采取相应措施,如基于数据治理成熟度模型方法进行风险评估、提升侧重于保护网络数据的Essential 8 活动、开发并实施数字格式连续管理方法、制定预防数据丢失的战略和路线图、制定关于数字材料长期保存和访问的研究报告、按照国际惯例保存电子文件、管理关键业务的系统日志等,以确保政府和社会能够创建、保护、保存和获取真实的信息,从而使得数据作为战略资产加以有效共享利用。[21]文件连续体理论以发挥档案证据价值和构建社会记忆为核心,而档案数据治理以保障数据安全为前提,同样需要确保档案的真实与完整。
综上所述,文件连续体理论强调文件与其形成背景的逻辑联系,弱化文件积累和管理的阶段性,将其描述成一个连续的系统性过程。而档案数据治理是数字时代下的一种必然趋势,档案数据的连续性、整体性、多维度特点,以及对于背景信息的重视都远超传统纸质档案。档案数据的流转过程贴合文件连续体的时空延伸性内核,文件连续体理论在档案数据治理中体现出了极强的匹配性。
3 文件连续体理论在档案数据治理中的价值阐释
文件连续体理论构建了一个多维坐标体系来描述文件的运动过程,这一体系包括形成维、捕获维、组织维和聚合维。数据连续性以连续体思想为指导,是指由数据的可关联性、可溯源性、可理解性及其内在联系组成的一整套数据保护措施, 其目的是保障数据的可用性、可信性和可控性。[22]文件连续体理论能够为档案数据流动提供理论依据,为档案治理实践提供系统思维,为档案价值实现提供目标指引。
3.1 形成维与捕获维:为档案数据流动提供理论依据
形成维和捕获维可视为执行维,这两维关注的是获得行为的痕迹,并确保它能作为证据;形成维与捕获维是根据组织维和聚合维所制定的规范、标准、设计要求及最佳实践模型来开展的。[23]形成维描述的是关联性较低的数据,体现了数据不断生成的过程;捕获维描述的数据具有一定的关联性并经过了初步整序,使得数据可从其形成的直接背景中“脱离”出来,并能够追溯到形成维的各个参与要素。[24]《战略》中对数据、数据集、数据库的界定体现出NAA 对数据关联性的重视,强调数据的连续管理、全程管理、前端控制,关注数据在全生命周期中的动态变化和价值增值。在数据形成之初对数据质量进行严格审查,将档案数据治理环节前移,注重保留数据生成痕迹、数据形成要素、数据生成内容,有助于实现档案数据的可追溯、可保存、可利用。[25]档案部门可借鉴文件连续体理论的连续性思维来维护档案数据的完整、真实、安全和可信,使得档案部门在组建国家数据局的大背景下理清自身职能范围,有效发挥档案数据的原始记录性及其凭证价值,融入数据全过程管理。文件连续体理论去中心化、非线性化的特点弱化了“文件”和“档案”作为文件运动端点的特性,数据能够在流转过程中持续实现其价值。
3.2 组织维:为档案治理实践提供系统思维
组织维可视为控制、规范、标准化及审查维度之一,关注“内部”事务,即机构记忆的形成、管理及提供获取。[26]组织维中的数据可能来自不同的时间和地点,其数据集合的时空延展性扩大,从而赋予数据在组织机构中更大的可获取性。《战略》在构建数据能力、提升馆员素质的同时,在原有信息治理框架基础上将馆内所有人员都视为数据用户,并划定相应的数据角色和职能。除此之外,NAA 还建立了馆内协同机制,使《战略》与信息安全政策、档案风险管理框架、数字资产登记册、业务连续性政策和计划等相适应,从而减少战略实施的阻力,提高政策制定的连贯性。档案数据协同治理能够保障数据质量、深化档案服务、提升善治效能,通过制定统一完善的标准体系,利用语义挖掘等技术对档案数据进行价值性关联和语义级开发,充分释放档案数据价值,为知识管理奠定基础。与此同时,档案数据治理强调档案部门的“元治”地位,通过不同机构之间的沟通与协调,平衡不同主体之间的冲突,围绕档案数据的全生命周期,对档案数据质量、数据安全等进行治理,提升档案数据的有序性和科学性,促进档案数据的有效供给,进而提高档案数据治理效能,实现“共治”和“善治”。[27]
3.3 聚合维:为档案价值实现提供目标指引
聚合维可视为控制、规范、标准化及审查维度之一,关注“外部”事务,即集体记忆的构成。[28]聚合维描述的是来自不同机构的数据,能满足其形成、捕获及组织过程中所涉及的主体以外的主体多元化需求,虽然档案数据在这一维度中不直接呈现的背景信息,但通过数据的时空连续性使数据集合提供了更全面真实的信息内容,充分实现数据证据价值和构建社会记忆的功能。《战略》的首要目标是实现数据价值最大化,加快NAA 数字转型进程,充分发挥数据在制定和实施政策、项目与计划中的作用,为此采取提升数据分析能力、制定符合实践和政府需要的数据收集和管理政策、通过机构电子文件的安全传输向公众开放数据等措施,这与档案数据治理的核心理念——充分实现数据价值相契合。文件连续体理论有利于档案数据证据价值最大化发挥,档案数据从生成开始就在不同维度中扩散和收束,其元数据具有连续的可追溯性,并且能与其他数据进行关联,利用背景信息的关联性来强化证据价值,借助数据连续性来提高社会记忆完整性。[29]大数据时代的档案数据因其生成速度快、价值密度高、关联性强等特点,需要突破时空界限,借助人工智能、XR、文本挖掘、语义分析等技术深层次挖掘海量数据的多维潜在价值。[30]
4 文件连续体理论视域下档案数据治理能力提升策略
《战略》等一系列体现数字化转型目标和发展愿景的文件,对我国档案机构规划、制定与实施数据战略有一定的参考借鉴价值。文件连续体理论强调的连续性、多维互动、时空延伸与档案数据治理强调的全程性、多元协同、价值实现相契合。为此,笔者在文件连续体理论的指导下,提出全程管控、主体协同、资源聚合等建议,以期提升档案数据治理能力。
4.1 全程管控:提升数据质量管控能力,化解治理风险
档案数据的流转运动是一个连续性的过程,其背景信息和价值内涵也随着数据的运动过程愈加丰富,因此将治理环节前移并进行全程管控有助于保证档案数据的完整性、可用性、安全性。因档案数据体量巨大、来源广泛等特征,提升档案数据质量管控能力既符合国家总体安全利益,又契合我国档案治理工作的现实需要。数据质量管控能力主要体现在档案数据质量评价标准与指标体系、档案业务流程的优化与再造、档案工作者的专业素质三方面。[31]在档案数据生成和收集阶段尤其要着重提高档案数据的质量管控能力,通过制定档案数据质量标准和管理制度,辅以智能技术应用将档案数据质量量化,按照既定指标对数据进行监测和管控,保证档案数据真实可靠,高质量地收集档案数据资源,为后续档案数据治理夯实基础。[32]与此同时,应通过加强法律体系建设、完善安全管理制度、构建安全防范壁垒和提升管理人员素质等手段,对档案数据的采集、传输、存储和利用全生命周期进行综合管控,构建档案数据安全治理模型,保障档案数据的可信、可获取、可溯源。另外,在整体上要把控档案数据治理流程,及时改进和持续优化档案数据治理策略,准确评估和定位档案数据安全风险,持续优化安全建设,促进档案数据善治目标的实现。[33]
4.2 主体协同:融入合作思维,共建治理体系
档案数据治理是一项涉及多元主体的系统性工程,理顺各主体在数据生成、流转过程中的职能范围和权责关系有助于构建高效的档案数据治理体系,优化治理环境。一方面,应构建档案治理共同体,优化档案数据治理组织体系。党政机关、档案主管部门、企事业单位、社会公众等均为档案数据治理的主体,应建立科学平等的沟通对话机制使各主体“尽其责、行其权”。具体而言,党政机关应该把握档案数据治理的目标导向,使其融入国家治理现代化的大局中来;档案主管部门应突出其“元治”地位,制定切实可行的档案数据治理方案,在宏观上建立档案数据跨部门流动机制,微观上完善档案数据全流程处理程序,自上而下为档案数据安全保管和共享利用打通屏障;[34]企事业单位和社会公众应认识到档案数据的价值和对其进行治理的重要性和必要性,积极参与到档案数据治理活动中来。另一方面,应完善档案数据治理法规标准体系,并加强与相关数据部门政策的衔接。《“十四五”全国档案事业发展规划》提出要全面推进档案治理体系建设,完善档案法规制度和标准规范。档案部门应将档案数据治理置于国家治理、社会治理、政府治理的整体布局中,并与如国家数据局等其他数据管理部门的政策法律相衔接,满足大数据环境下档案数据治理实践工作的需要。[35]
4.3 资源聚合:打破时空界限,释放价值潜能
档案数据治理的最终目的是扩大档案价值的实现,利用服务是档案工作的宗旨,而信息技术在数据价值创造中提供了重要的驱动力。档案部门应聚焦档案“收、管、存、用”等方面,积极借助大数据、人工智能、数字孪生、知识组织等现代信息技术,对海量数据资源进行深度分析、知识聚合,在人机物三元智慧融合中不断增强档案数据开发能力和服务能力。[36]首先,运用数据挖掘技术,对类型多样、来源广泛的海量档案数据进行格式转化、语义分析、关联聚合,充分释放档案数据价值;并借助语音识别、OCR 识别、图像分析、自动标引、智能感知等技术方法,对各种类的档案进行数据化处理、智能分类、智能著录、智能鉴定等,充分将数智技术融入档案数据治理,提升档案数据运行效能。[37]其次,加强不同系统对接,实现业务与数据的深度融合,化解信息孤岛,在业务流程中嵌入电子文件归档要求,在业务系统中同步规划、同步实施电子文件归档功能,从源头上确保实现档案数据的应收尽收、应归尽归,促进业务协同。最后,应加强与高校、科研部门、IT 公司等机构合作,运用区块链、云计算等技术构建全国档案数据协同治理平台,促进国家层面档案数据资源安全传输和集成共享,为进一步实现档案数据挖掘、可视化等提供基础。
5 结语
随着数据要素的战略地位日益凸显,如何培养数据思维、把握数据浪潮引领下的新机遇、实现档案馆自身数字化转型升级,从而充分融入国家数据治理总体性框架成为重要时代议题。数智浪潮推动之下,档案资源形态加速向数据态、价值态转化,档案管理活动逐步迈向档案数据治理新阶段。档案数据治理有利于提高档案数据质量、释放档案数据价值潜能,促进档案资源开发,提升善治效能。我国档案数据治理应汲取全球治理实践的先进经验,探究档案学经典理论的时代应用,从树立治理思维、协同多元主体、深层关联数据、融入新兴技术、整合多方资源等方面提升档案数据治理能力。