档案部门参与数据管理研究综述★
2023-11-30何思源
何思源
(1.中国人民大学信息资源管理学院 北京 100872;2.中国人民大学电子文件管理研究中心 北京 100872)
0 引言
数据管理使档案事业面临的生态环境、管理对象和工作内容发生巨大变革,业务数据化催生海量数据,要求档案部门参与数据管理,确保对国家和社会有保存价值的数据符合档案管理要求。同时,档案部门作为信息机构一员,长期积累的档案化管理经验能够为建立健全数据管理体系提供支撑,通过参与数据管理为数据社会贡献档案力量,提高档案事业在经济社会中的贡献度。参与数据管理是档案部门释放价值、顺势而为的重要选择。在此背景下,各级档案事业发展规划明确提出推动档案纳入大数据战略,档案部门如何参与数据管理已成为亟待解决的现实问题。
目前,已有学者[1-3]梳理档案与数据相关领域的研究进展,但存在一定局限,无法勾勒出档案参与数据管理相关研究的整体面貌,一是多聚焦档案部门内档案数据的管理与治理,侧重“引进来”(即数据管理理论与方法在档案领域的应用),较少关注“走出去”的问题;二是较少涉及英文文献。因此,本研究将通过系统性文献综述梳理国内外档案参与数据管理相关研究,总结档案部门参与数据管理的角色定位及路径方法,批判分析当前研究的局限和不足,展望未来研究趋势。
1 研究方法
本研究采用系统性文献综述探究档案部门参与数据管理的角色定位及路径方法。首先是文献检索;其次,根据研究问题及检索得到的文献确定筛选标准(表1),并进行筛选和去重;最后,通过引文追踪及研究者日常积累进行文献补充,得到104篇文献,如图1。在此基础上,逐篇阅读文献,对相关文献的核心观点进行标记,并进行归纳总结。
图1 文献检索策略
表1 文献筛选标准
2 研究结果
2.1 档案部门作为接收者参与数据管理
2.1.1 基本逻辑
档案部门的核心职责是档案收集、整理、保管和提供利用。对国家和社会有保存价值的数据属于档案,需要归档,因此,立足本职工作,基于现行档案管理模式,档案部门可作为接收者参与数据管理(图2)。在此场景中,档案部门通常被视作资源的保管者和守护者,符合人们对档案部门最传统和最经典的形象认知,档案部门通过归档架起数据生命周期和档案生命周期沟通的桥梁,在归档环节介入数据管理,强调数据从形成部门流向档案部门。需说明的是,在档案学文献中,尤其是数据归档语境中,“数据”通常是指以数据库等形式存在的结构化数据,因此接下来主要关注结构化数据归档的相关研究。
图2 档案部门作为接收者参与数据管理的基本逻辑
2.1.2 归档范围
在数据归档过程中,档案部门首先要明确归档范围,清晰界定管理对象。首先,就单份档案而言,需在理解数据结构的基础上,明确档案构成要素,建立识别归档对象、确定归档单元的方法论体系。一种观点倾向于从数据形成角度出发,将数据视作数据采集等数据形成活动的产物,从整体上将数据库、数据体作为归档单元进行鉴定、归档[4];另一种观点倾向于从数据利用角度出发,将数据视作查询访问等数据利用活动的产物,将呈现在用户面前的视图等数据对象作为归档单元[5]。以温哥华市地理信息系统为例,档案既可以是整个地理信息数据库,也可以是用户创建的特定地图视图[6]。有学者综合上述两种视角,提出更为灵活的“档案数据体”概念,即因系统管理需要而经档案化组织聚集在一起的数据集合[7],在物理层面(数据形成视角)是易于系统管理的数据,在逻辑层面(数据利用视角)是可识别的档案。
其次,就档案集合而言,需要明确哪些数据具有归档保存价值。一种观点是从职能角度出发,采用基于职能的业务流程分析方法制定数据归档范围和保管期限表[8]。一种观点是从信息系统出发,按照信息系统梳理所有数据,制定归档范围和保管期限表[9],中石油据此将信息系统分为生产运行类、连续监测类、经营管理类和综合管理类,每类系统有不同类型的数据,对应不同的归档范围[10]。综上,档案部门可以探索“职能—系统—数据”三要素联动的归档范围识别方法[7]。
2.1.3 归档思路
数据归档思路主要有物理归档和逻辑归档。其中,物理归档是“根本之道”,逻辑归档是新技术环境下的妥协性选择、过渡性方案[11]。目前,具有实际可操作性的成果集中在物理归档,主要有技术典藏、留存快照、降维归档、数据交换等4种思路(见表2)。对结构化数据归档而言,重要的不是保存数据的外观,而是维护数据再现的能力,无论采用何种思路,都要考虑语义保存的问题,关注规则、模型、算法等数据所依赖的语义逻辑[12],在保存数据本身的同时保存数据的相关文档(如布局、代码、算法等),并用元数据及说明文档对数据进行描述[12-15],确保数据能在未来按照既定的逻辑再现。
表2 结构化数据物理归档的方法
2.2 档案部门作为指导者参与数据管理
2.2.1 基本逻辑
后保管时代,档案部门的角色不仅是保管者,也是指导者。作为指导者,档案部门应立足档案理论、方法与工具,为解决数据管理问题提供指导和协助。可为数据管理提供支持的档案理论、方法与工具主要有来源原则、价值鉴定、连续性管理、长期保存等理论与方法及分类方案、案卷登记册及目录等档案管控工具。针对数据管理的核心目标,档案理论、方法与工具主要解决两类数据问题(如图3)。一类是基础问题——数据范围把控,关注当前应留存哪些数据供未来利用,哪些数据可以开放共享。档案部门长期关注价值鉴定,在评估数据价值方面积累了丰富经验,且具有分类方案、数据目录等一系列管控工具,对数据范围把控具有借鉴意义。一类是核心问题——数据质量管控。采用来源原则,通过分类方案呈现有机联系,通过元数据捕获背景信息,能为数据提供更多的解释性信息,构建可信数据;采用连续性管理,通过前端控制和全程管理,将质量要求前置到数据形成乃至系统设计阶段,能实现数据质量源头治理;采用迁移、仿真、封装、格式登记等长期保存策略,能确保数据在未来持续可用。
图3 档案部门作为指导者参与数据管理的基本逻辑
2.2.2 档案部门作为指导者参与科学数据管理
首先,随着时间推移,科学数据的价值存在巨大差异[21],考虑到成本收益和利用效率[22],永久保存持续增长的所有科学数据并不现实,档案工作者可凭借档案价值鉴定专业知识,为科学数据价值评估提供基本框架[21,23],尤其是关于第二价值的培训和指导[23]。根据档案价值鉴定的来源标准、内容标准、形式特征标准、相对价值标准、效益标准等[23,24],可从数据来源和背景的重要性、收益(数据的科学价值、历史价值、经济价值及数据重用的可能性)、成本(包括处理成本、保存成本、替代成本等)、数据质量(准确可靠性、非冗余性、完整性、可用性、独特性等)、相对性(与保管机构任务的相关性、与馆藏数据的互补性)、法律道德限制等方面进行科学数据价值评估[23-25]。
其次,档案工作者可借助来源原则、连续性管理、长期保存等方面的经验提高科学数据质量,促进数据重用。来源原则要求维护科学数据的背景信息和有机联系。Kathleen Fear等学者的实证研究表明,结合科学数据仓储中提供的其他信息及科研人员的经验和先验知识,来源信息及档案联(archival bond)能够帮助科研人员确定数据可信度[26]。一方面,需要充分记录数据的形成环境、处理过程、质量控制措施等背景信息[27],并通过高质量的元数据及说明文档呈现[28-29];另一方面,需要维护科学数据之间的有机联系,按照业务来源对科学数据进行分类整理[22],同时也要维护科学数据与其他科研文件材料(如标本、出版物)之间的有机联系[26]。连续性管理要求提前谋划科学数据管理。由于数据生命周期每个阶段所采取的行动都具有累积效应,因此档案工作者需要理解数据生命周期,将鉴定、记录背景信息等实践活动前置到数据生命周期早期阶段[27]。长期保存要求数据形成者采取合适的存储和保存策略,档案工作者可为科研人员提供存储库选择建议及数据管护最佳实践[23]。
2.2.3 档案部门作为指导者参与开放政府数据
首先,在开放政府数据运动中,政府需要清楚自己掌握哪些数据,并有效检索这些数据[30],档案部门可凭借其管理工具和经验辅助开放数据集的定位和挑选。基于分类方案和登记册,可从整体上把握组织机构的职能、活动、形成者、文件及构成文件的数据,结合应用程序目录、个人数据案卷登记册等其他管理工具,依据价值鉴定经验,可解决组织机构有哪些数据、数据在哪、哪些数据可以开放、哪些敏感数据不能开放等问题[31-32]。
其次,可靠的高质量文件是开放政府数据的基础。从来源原则的角度来看,背景信息维护是确保数据可追溯、真实可靠的核心要素[30]。因此,关于开放数据集的描述必须准确、清晰、精确,档案领域的方法可提供关于数据集内容及来源、生成数据的法律依据、数据提取限制等方面的描述[31],确保数据集可追溯至原始可靠的数据源[33],实现数据可信。从连续性管理的角度来看,只有在数据形成时进行管控才能有效保障数据质量,如果事后管理,数据质量将变得复杂[31]。因此,档案工作者需考虑数据全生命周期,在全程管理框架下及时参与数据管理[34],可指导系统设计者和数据形成者通过良好的元数据和互操作的系统实现数据的捕获和管理[35]。从长期保存的角度来看,档案工作者可以介入开放数据产品的管理和保存[31-32],为开放数据的长期归档保存提供建议,确保这些数据在未来仍然可用、可分析。
2.3 档案部门作为协同者参与数据管理
2.3.1 基本逻辑
20世纪80年代,有学者率先提出档案管理与数据管理协同的理念[36],但并未引起广泛关注,直至近些年,独立于档案管理体系的数据管理体系兴起,档案管理与数据管理的边界出现交汇和冲突,档案部门与数据部门协同开展数据管理的问题才渐渐得到重视(如图4)。
图4 档案部门作为协同者参与数据管理的基本逻辑
从历史维度看,档案管理与数据管理同根同源,有着共同的历史烙印[37]。从理论维度看,档案管理与数据管理的核心概念与话语体系在底层逻辑上共通[38],具备协同基础与合作空间。虽然档案与数据的概念纷繁复杂、角度各异,但二者始终存在紧密联系[36,39];而且档案管理与数据管理在目标理念、管理流程、质量要求等方面[37,39-42]也具有一致性。从现实维度看,档案管理和数据管理在体制、制度、业务、行业组织及从业人员的教育背景、技能、技术与工具等方面呈现相对割裂的状态[11,36,39,42-43]。这种现象带来一系列现实问题,包括业务要求冲突[37,41];档案部门与数据部门的管理重叠与管理真空并存,信息资产存在流失风险[39];资源重复投入与配置失衡,冲击较为弱势的档案管理体系[37,39,41];阻碍信息资源统一发现与共享利用[39]。
协同既有其历史与理论根基,也有其现实必然性。有学者在档案管理与数据管理的协同方面展开探索性、框架性研究,提出囊括共同问题、制度、主体、业务、资源、服务、系统等内容的协同框架[42,44],据此系统考察了国内外科研档案和科学数据协同治理的实践现状[45],明确了档案部门作为协同者参与数据管理的基本要素。由于现有文献主要关注主体、制度、业务等方面的协同,接下来主要围绕这三个方面作进一步分析。
2.3.2 主体协同
主体协同关注责任主体间协同关系的建立与维护。在实际协同过程中,受制于认知、体制、制度、能力等因素,档案部门与数据部门在协同意愿、职能关系、沟通联系、协同内容等方面存在问题[46]。为解决这些问题,首先,需要建立协同治理组织架构。理想状态是建立信息资源(包括档案和数据)综合治理机制[45,47],但更现实的方式是将档案部门纳入数据议事协调机制[47-48],或将数据部门纳入档案议事协调机制[48-49]。其次,需要灵活选择一体式、委托式、业务集成式、资源交换式等具体协作模式[44]。再次,利益主体不可避免地存在矛盾冲突,在目标、预期、术语等方面[42,50]存在差异,所以相互理解[50]和利益均衡[46]尤为重要。最后,需要关注外部环境,注重产学研用深度合作,构建共生演化的良性协同治理生态[11]。
此外,实现主体协同还需要厘清职责边界。第一种情况是档案局、档案馆和大数据管理机构的协同。数据管理侧重数据共享利用等现实需求,具有应用导向,关注数据内容及所含信息的现行和经济价值[40,51];档案管理侧重高价值信息的鉴定与保存[40],注重维护数据的原始性及业务凭证/证据与文化/记忆/历史等方面的价值[40,52]。因此,档案局和档案馆需要将管理重心置于业务数据和文化数据治理[49]。第二种情况是组织机构内设档案部门(如档案室)和数据部门(如数据中心)的协同。考虑到档案管理侧重非结构化数据、数据管理侧重结构化数据的现实[36,53],可将文档与内容管理作为立足点,将档案部门定位为非结构化数据、历史数据和凭证性数据的管理部门,将档案管理系统定位为非结构化数据管理平台,将档案工作者定位为“内容管事”[42,49]。
2.3.3 制度协同
制度协同涉及法律法规和制度规范两个层面。在法律法规层面,王玉珏等[48,51]和陈怡[54]基于我国立法现实,对比分析《网络安全法》《数据安全法》《个人信息保护法》等数据法律与《档案法》等档案法律在规制对象、责任主体、管理环节等方面的异同,发现二者在归档、长期保存、分级分类、跨境流动、数据保护等方面存在衔接不畅的问题,并提出针对性对策。
在制度规范层面,统一的政策、策略和程序是避免冲突的必要举措[52],档案和数据制度规范需要强化相互衔接、参照和映射,为解决共性问题提供具体方法[44]。从内容层面来看,制度协同包括政策合作、政策协调和政策整合三个阶段,政策合作侧重单项制度标准的合作,政策协调侧重多项制度之间的关联,政策整合旨在产出一体化制度体系[42]。从形式层面来看,制度协同的理想状态是内容层面的相互包含,次之是形式上的相互引用,若上述两点均无法实现,制度制定主体需要提供档案和数据制度规范如何保持一致的指导说明[32]。
2.3.4 业务协同
业务协同是指站在全局视角管理档案和数据,整合被视为不同领域的档案管理和数据管理,采取措施融合二者所用工具和技术[36],在分析异同、找准协同点的基础上实现共赢[55]。
首先是收集阶段的协同,需重点考虑三个方面:一是收集范围的协同。档案部门和数据部门应联动梳理各自的资源管辖范围,尽可能避免数据资源的重复或流失[42,55]。二是收集方式的协同。对档案部门而言是物理归档的数据,对数据部门而言就是逻辑归档;反之亦然[55]。三是收集流程和要求的协同。从优化工作流的角度出发,档案部门和数据部门可将数据收集流程合并[56],并在整体框架下共同进行数据质量管控,维护数据的可知、可用和可控[40]。
其次是管理阶段的协同,需重点考虑两个方面:一是分类协同。档案部门和数据部门可以共同构建基于职能的档案和数据一体化分类体系[42],或结合来源与事由等不同分类原则,对档案与数据进行统一多维分类[45]。二是著录(元数据)协同。档案部门和数据部门在多级著录、多实体著录、受控词表的使用等方面存在共性[49,57-58],能为相互协作、资源整合奠定基础。例如,《信息技术 数据溯源描述模型》(GB∕T 34945-2017)中的数据、活动、执行主体等实体,与《信息与文献 文件管理流程 文件元数据》(ISO 23081-1:2017)中的文件、业务、责任者等实体基本一致。
再次是保存阶段的协同。一是长期保存协同。档案部门与数据部门需在长期保存目标、制度规范、策略与方法等方面实现优势互补[42],在安全存储领域建立数据互备份机制,提升数据安全管理效能[56]。二是处置协同。双方需要分析档案保管期限表与数据更新/删除/退役周期的关系[36],据此构建协调一致的处置标准,确保同一业务对象的档案保管期限等于或高于数据保管期限[42]。
3 讨论与展望
当前研究内容较为丰富,对接收者、指导者和协同者等场景下档案部门参与数据管理的路径方法进行了有益的探讨,但仍然存在一定局限,需要进一步拓展完善。
3.1 接收者视角:结构化数据归档方案有待升级
关于接收者的相关研究,主要存在3点局限:一是结构化数据的归档对象仍较为模糊。采用数据形成和数据利用的不同视角可能产生关于归档对象的不同认知。当前研究提出的“档案数据体”[7]是与数据环境相适应且具有灵活性的概念,但究竟如何在数据驱动的业务系统中识别“档案数据体”、如何应用“档案数据体”这一概念,并不清晰。二是当前研究提出的物理归档方法普遍存在成本过高、语义缺失等问题,尤其是长期保存和方便利用之间存在突出矛盾,归档后的开发利用尚未得到解决。三是逻辑归档的实现机理和路径方法尚未明确。与世纪之交的集中与分布保管模式之争类似,不能仅停留在何种归档思路更科学合理的层面,而是要结合实际情况明确在何种情况下采用何种归档思路。就逻辑归档而言,亟需解决基于元数据的统一目录、档案化管理要求、档案实体和管理权分离情况下档案部门的监督保障机制等。因此,需要进一步研究如何在高度结构化、集成化的数据环境中识别归档对象、界定档案构成要素,探究凭证性维护、语义保存和开发利用之间的平衡机制,在收集更多实证数据的基础上深入探索逻辑归档的应用理论与实践方案。
3.2 指导者视角:多场景下档案部门指导数据管理的实现机制及效果有待探索
关于指导者的相关研究,主要存在2点局限:一是虽然论证了档案部门作为指导者参与数据管理的潜在可能性和必要性,但并未深入探索如何实现及实现效果等应用层面的问题。理想与现实之间不可避免地存在落差。例如,Elizabeth Shepherd等学者基于《国际档案著录规则(总则)》[ISAD(G)],延续其多级著录的特点,重点对系列级、案卷级的著录项进行扩展和优化,形成目前已知、唯一的基于档案著录标准的结构化数据集著录标准[59],并曾应用于隶属于英国国家档案馆的国家数据集数字档案馆(National Digital Archive of Datasets,NDAD),但NDAD已于2010年停用,且英国国家档案馆没有继续采用基于ISAD(G)的数据集著录标准[57]。该案例表明档案理论、方法与工具应用于数据环境可能面临各种现实问题、挑战和阻力。二是在多数指导者相关研究中,研究者面临(或预设)的场景是,数据形成部门面临数据管理相关难题,在没有数据部门的情况下,档案部门以其积累的经验辅助形成部门进行数据管理,侧重形成部门和档案部门的交互。但现实中可能会存在数据部门、图书馆、IT部门、信息中心等其他指导者角色,当前研究较少探讨不同的指导者角色之间的关系以及如何处理这种关系。因此,需要进行深入的识别和分析,研究档案部门如何指导数据管理活动,尤其是当数据管理涉及多种指导者角色时,需进一步探索如何处理档案部门的指导者角色与其他指导者角色的关系、如何实现不同指导者角色的合作与协调等问题。
3.3 协同者视角:多要素协同推进路径及协同意愿与动机研究有待深化
关于协同者的相关研究,主要存在3点局限:一是研究重心在主体和制度要素,资源、服务、技术等要素的协同受到的关注较少。档案部门作为协同者参与数据管理的研究仍处于起步阶段,但随着研究的深入,需逐步探索其他要素的协同。二是业务协同的研究深度不够。业务要素在协同要素中居于核心位置,虽然当前研究探讨了业务协同的方向性和原则性内容,但尚未深入管理生命周期、质量管控、分类、元数据、存储与保存等方面的具体协同与融通策略。此外,档案资源与数据资源汇聚整合的方式方法、档案与数据融合应用的成效及价值规律等内容也都有待深入的实证研究和理论提炼。三是缺乏利益相关者视角下协同意愿和动机研究。当前研究对协同动因的分析多站在国家宏观层面或档案部门的角度,缺少数据部门的视角,而实践中的协同需要多主体配合。研究表明,从数据部门的视角来看,协同能给数据管理带来什么并不明确,数据部门参与协同管理的动机和意愿不如档案部门[55]。因此,需要在主体、制度等要素协同的基础上,以业务协同为轴心,兼顾资源、服务、技术等其他要素,统筹考虑档案部门与数据部门的利益诉求,考察数据部门等其他利益相关者的协同态度和意愿,为档案部门作为协同者参与数据管理提出更务实的针对性策略。
4 结语
档案与数据、档案管理与数据管理有着天然联系。档案参与数据管理已经引起一些国家档案馆的关注。美国国家档案与文件署发布的《机构首席数据官与文件管理项目的协调》指出“以前认为文件管理和数据管理是不同领域……现在应将其视为相关领域,并在机构信息管理框架内进行协作、互惠和更紧密的整合”[60]。档案工作者和文件管理者在实际工作中推动数据管理并非新鲜事,档案领域可以为数据管理提供有用的建议[61]。如冯惠玲教授所言,“文件和档案管理是数据管理中具有特殊使命、特殊功能的重要方面军,我们必须理直气壮地以‘在其中’的姿态证明自身的意义和价值”[62]。未来需要结合档案部门的接收者、指导者、协同者等角色定位展开持续深入的研究,在数据社会发出档案声音、贡献档案力量。