人工智能技术在数字档案鉴定中的应用与启示
——以瑞士纳沙泰尔州档案馆ArchiSelect 项目为例
2022-11-19李剑锋国防大学政治学院
李剑锋/国防大学政治学院
档案鉴定是档案管理的核心环节,是对档案价值的复杂性及其可持续性做出判断的一项专业活动。传统的档案鉴定工作依托档案工作者人工评价、选择和审查来完成,随着近年来数字档案数量的急剧增加,这种鉴定模式受到冲击。一方面,档案鉴定理论从年龄鉴定论发展到目前被广泛认可并采用的宏观鉴定论,需要档案工作者了解更多的社会背景,以及文件形成者的职能、任务和活动[1],以更全面的知识体系和综合素质完成档案鉴定工作。然而,“任何人终其一生的努力,也难以获得与档案内容和性质相对应的所有知识”[2]。另一方面,随着数字转型深入推进,未来的档案将更多的以数字形态存在,大量结构化与非结构化的数字信息有待鉴定,人工鉴定模式将难以为继。正如特里·库克所言,“即使是专业的档案工作者也很难承担数量如此巨大的文件鉴定工作”[3],数字档案鉴定工作已成为数字环境下档案工作者面临的巨大挑战。
近年来,人工智能(下简称AI)技术的发展为包括数字档案鉴定在内的档案管理走向自动化、智能化提供了无限可能。就国外而言,档案、AI等领域的研究者围绕人工智能在档案领域的应用前景、技术定位、分类模型、实践效果等方面展开了研究,主要涉及机器学习、自然语言处理方法等AI技术在电子邮件自动归档[4-7],以及隐私和敏感信息的鉴定[8][9]等。就国内而言,档案学者主要聚焦于AI技术智能划分数字文书档案保管期限[10]、不决定存毁的价值鉴定模式[11]、档案文本自动分类系统设计[12]、档案智能挑选和智能划控[13]等,在理论和技术应用上取得了一些研究成果,但是针对数字档案特点且适用于AI技术的鉴定方法、鉴定模式、系统模型构建等方面的研究还较少。实践方面更多处于观望阶段,对AI技术的深度理解和应用还有待提升和探索。
瑞士纳沙泰尔州档案馆主导完成的ArchiSelect项目[14],针对大量复杂多样的结构化和非结构化数据文件,通过传统档案鉴定理论和AI技术融合运用,实现批量数字档案的自动化鉴定。本文在分析该项目档案智能鉴定的基本思路、鉴定指标、技术路径的基础上,给出依托AI技术实现我国数字档案智能鉴定的几点思考。
1 ArchiSelect项目档案智能鉴定的实现
ArchiSelect项目是瑞士纳沙泰尔州档案馆和日内瓦工商管理学院联合完成的一项跨学科创新研究,旨在应对档案管理员在不了解数字档案性质和背景情况下,必须实施数字档案鉴定的极端挑战,其在充分考虑各种场景、各种可能的情况下,寻求利用AI技术促进档案鉴定过程向智能化、自动化发展的解决方案,达到提升数字档案鉴定效率的目的。
1.1 设计思路
针对数量日趋庞大的结构化和非结构化数据和文件,ArchiSelect项目组设计了自顶向下的档案鉴定模型轴和自底向上的数据挖掘轴,通过相应的映射规则,将档案价值衡量指标和数据挖掘结果关联比对,构建智能化软件模型,辅助档案管理员完成数字档案鉴定,如图1所示。具体包括:(1)自顶向下的档案鉴定模型轴,涵盖传统档案鉴定理论知识,并利用定性方法确定档案鉴定要素的评价机制。(2)自底向上的数据挖掘轴,利用AI技术实现所接收的文档和数据的内容、元数据等信息的识别、捕获和采集,并对此过程进行定量处理,以获取数字档案鉴定所需的真实数据。(3)映射规则,是将鉴定指标和数据整合关联并赋分的规则,以此形成智能化处置的依据。
1.2 功能实现
1.2.1 自顶向下的档案鉴定模型构建
ArchiSelect项目系统梳理了不同地区、不同语言、不同标准规范的相关鉴定理论文献,对不同来源档案的性质和特点进行了分析研究,在总结欧洲、北美和澳大利亚关于档案鉴定自动化项目成果的基础上,基于档案鉴定理论和档案的真实性、可靠性、完整性和可操作性等属性,构建了支撑整个项目的档案鉴定理论框架。项目为判定结构化和非结构化数字档案的潜在价值,设置了“维度—变量—衡量标准”三级档案鉴定指标。对接ISO 15489档案管理标准有关属性,项目设定了3个维度(一级指标)、42个变量(二级指标)和42个衡量标准(三级指标)。
维度层面。A r c h i S e l e c t 项目设置了可信度(trustworthiness)、可用性(exploitability)和表征性(representativeness)3个维度,其下分别设置了两个层级更为细化的维度内容,逐层细化,操作性逐层增强。(1)可信度,是用户根据客观事实判断文档的可信程度,主要依赖于文档的可靠性、真实性和历史痕迹3个第一层级维度内容进行判断,并进一步对应细化为操作可追溯性、完整性、合法性,特征辨识、防篡改,职能行为可追溯性、稀缺性、相关性8个第二层级维度内容。(2)可用性,是对文档可以被利用程度的判断,从技术可达性、认知可达性和法律可达性3个第一层级维度内容,以及其对应的可访问性、特征呈现、可读性、密钥长期可用性,可查找、可理解性,信息可获取性7个第二层级维度内容,判断是否有保证档案能正常读取的软硬件保障、是否有帮助了解认知文档的相关描述信息、是否存在知识产权和隐私保护。(3)表征性,是文档在所属机构的代表性程度,从形成文档的机构背景和社会文化背景2个第一层级维度内容进行判断,并通过形成者重要性、文档重要性,内容稀缺性、传承和艺术价值5个第二层级维度内容诠释文档在机构的代表性。
变量层面。变量是判定数字档案价值时赋分的对象,由鉴定维度进一步细化而来。项目共设置了档案迁移记录、元数据完备性等42个变量[14],分别归属于3个维度的第二层级维度内容。按照自动化标准、独有性标准、文档内外属性标准和成熟度标准,将42个变量进行分类。(1)自动化标准,是能够自动测量变量值的评判标准,可分为全自动(完全可依靠计算机完成)、半自动(部分可依靠计算机完成)、条理化的人工判断(人工可根据体系的、条理的依据进行判断)、人工主观判断(无依据可循,完全依靠人工主观意志来判断)。(2)独有性标准,也称排他性标准,是指变量的专有性,表明该变量是属于某个维度独有,还是几个维度共有。(3)文档内外属性标准,是用于区分测量的某个变量是属于文件和数据集内在还是外部的,是形成时产生的还是使用时产生的。(4)成熟度标准,是档案管理和适用性的成熟程度,可由低到高按照“变量与档案管理的成熟度无关”“数据集或文件没有做任何处理”“对部分数据集或文件进行了标识和处理”“文件已按照归档程序进行了归档处理”分为4个层次的成熟度,并依次以百分比标记成熟度值为“0、25%、50%、100%”。如,三级维度“可理解性”所属变量“创建背景描述”,可按照“无可用信息”“有文档创建背景信息”“有完整的文档创建的背景信息,并与其他文档材料(指导方针、策略、法律、规则等)相关联”由低到高判定变量的成熟度。
衡量标准层面。衡量标准与变量密切相关,是对变量实现可操作化的具体描述,是用来测量相关变量应对不同的实际情况得出不同结果的判断标准。ArchiSelect项目中设置了与变量对应的42个衡量标准,保证每个变量至少有一个衡量标准与之对应。如,“元数据完备性”是第二层级维度内容“完整性”对应的一个变量,该变量所对应的衡量标准是“是否能获得鉴定该文件所有所需的元数据”,具体描述了“元数据完备性”这一变量的赋分标准。自动化操作程度高的衡量标准更易于实现档案价值的判定向定量化转换。
ArchiSelect项目中所有的维度、变量和衡量标准都是可扩展的,且可以根据需要进行完善更新,从而形成“维度—变量—衡量标准”三级档案鉴定模型的指标体系。项目组建议优先选择可高度自动化执行的变量,再考虑选用无需高成熟度的变量,兼顾与鉴定相关程度高的变量以及机构特殊需求相关的变量,从而构建档案鉴定模型。
1.2.2 自底向上的数据分析方法
ArchiSelect项目基于纳沙泰尔州档案馆的原始数据DataOAEN数据集,着重从数据的多样性、容量、颗粒度、处理可能性等角度展开深度分析。项目组开发设计了文档预处理、文档分析、文档检索、决策模型构建与机器学习、系统配置管理等主要功能以及33项具体功能,主要解决自动化鉴定过程中的真实数据来源问题。
项目组充分利用机器学习、数据挖掘、命名实体识别、相似度计算等AI技术和算法,对应鉴定模型变量内容,获取结构化和非结构化数字文件和数据集中对鉴定有用的信息,以满足自动化、智能化鉴定的需要。主要做了以下尝试:一是利用开源工具Tika,从不同的数字文档分析其格式、检测提取元数据和识别文本内容,形成全文检索,并通过分析各相关要素生成对于不同内容要素的信息统计;二是利用命名实体识别(Named Entity Recognition,简称NER)技术,识别出DataOAEN数据集中人名、机构名、地名、活动和日期等实体信息内容,并以可视化词云的形式呈现结果;三是利用相似度计算,探寻特定账户下电子邮件的相似性,创建了电子邮件主题和附件文档之间的关联线索,根据事件发展串联起了事件发展各阶段形成的文档;四是利用机器学习算法,基于来自档案馆DataOAEN、谷歌、公共实体的3个不同训练集,对DataOAEN数据集中的会议文件进行自动鉴定准确性测试,结果显示随着训练集中会议文件占的比重越大,测试结果的准确率就越高。
1.2.3 档案鉴定指标与数据的结合
为了实现数字档案的自动化鉴定,ArchiSelect项目设计了一个软件工具,通过逐一映射将档案鉴定模型中的各个变量与利用数据挖掘等方法得到的数据进行匹配,并根据映射规则对匹配程度进行赋分。如,“可信度”的第二层级维度内容“完整性”,在对其所属的“元数据完备性”这一变量赋分时,可设定映射规则:“元数据中至少包括日期和作者两项信息”得1分、“元数据中至少包括日期或作者中的一项信息”得0.5分、“没有日期或作者信息”得0分;对于每个变量,可根据自身特点设定映射规则进行赋分;通过统计各变量的赋分总和,形成辅助档案管理人员完成数字档案自动化鉴定的依据。
这里的数据主要有两种来源,一种是利用AI技术对文档原始数据进行自底向上分析挖掘得到的,包括格式、内容、元数据、系统信息等;另一种来自于外部系统,这部分数据来自文件归档计划、数字文件系统等。
2 ArchiSelect项目对我国数字档案智能鉴定的启示
2.1“守正创新”:探寻经典鉴定理论与AI技术的深度结合
ArchiSelect项目摆脱了人类仅利用传统鉴定理论无法完成未来海量数字档案鉴定的窘境,也避免因过度依赖AI技术,数字档案的价值完全交由机器来判定,脱离人类经验和认知而导致“失控”状态。通过传统鉴定理论与AI技术的结合运用,减少AI技术造成的偏差、偏见,降低AI技术算法因黑箱、算法歧视、数据隐私等不确定因素造成的不信任感,解决人工智能可信监管难题。面对广阔复杂的社会背景和海量的数字档案,档案工作者必须考虑档案专业理论与AI技术的高度融合,更加准确高效地完成数字档案鉴定。既要充分利用AI技术(特别是机器学习),在遵循既定规则的基础上,从测试中不断归纳数字档案共性以完成鉴定;又要以共性反哺既定规则,完善和发展档案鉴定规则以获取更准确的鉴定结果。
2.2“模块组配”:立足需求灵活构建数字档案鉴定模型
模块化、可扩展性的数字档案智能鉴定模型,更有利于推广和应用。ArchiSelect项目所设定的42个鉴定变量,可针对不同鉴定对象,选择符合鉴定对象需求的鉴定变量,灵活组成相应鉴定模型。一方面,对于不同的立档单位、不同类型的数字档案,ArchiSelect项目这种变量模块化组合的方式,使得鉴定模型的针对性和适用性更强,更好地发挥AI技术的作用,鉴定结果也更加准确。另一方面,鉴定理论一直在随着时代的前进而发展,鉴定模型的可扩展性充分考虑到了未来鉴定理论可能发生的变化,并为应对这种变化预留了“接口”,可根据需要通过扩展鉴定变量的方式,优化完善鉴定模型,满足未来的鉴定需要。
2.3“顶层设计”:加快AI技术应用的立法和伦理规范工作
尽管ArchiSelect项目对AI技术进行了深度应用并在鉴定方面获得了较好的成果,但是在法律和伦理层面,对于AI技术的应用还有不少争议,还缺少法律对AI技术在档案领域应用的支撑和伦理道德上的规范。一方面,如果在档案鉴定过程中,出现档案价值判断错误,导致隐私或敏感信息泄露等问题,应由谁来承担法律责任?另一方面,人工智能将档案鉴定工作从人文理性推向技术理性,如果任由这种技术理性“自由开放式”发展,人类历史的记录交由算法来决定存毁,显然这是人类无法接受的,也有悖于人类创造发展人工智能的初衷。因此,从国际人工智能和档案鉴定工作的研究现状来看,虽然已经取得了很大进展,但大量工作停留在实验层面,并未在实践中得到广泛应用。更多的工作应该集中在通过开发更强大的伦理框架和更好地理解人工智能对档案工作的影响上,以提高对AI技术的信任,提升档案工作者对于人工智能的信心,积极促使人工智能理论成果向指导档案鉴定实践转化。同时,也需要针对AI技术的应用进行立法,明确相应的法律责任,规范AI技术的应用,规避当前AI技术发展带来的潜在法律风险和伦理道德问题。
2.4“理技兼通”:培养档案理论与AI技术兼备的综合性高素质人才
ArchiSelect项目是档案与人工智能领域合作的产物,是两大领域研究者智慧的结晶,也是当下最常见的一种合作模式。然而,现阶段大部分档案工作者对AI技术还停留在浅层次的了解与学习上,懂得AI技术的研究者对档案工作的内在机理又不甚了解,可能会导致其无法选择运用最合适的技术手段满足档案工作者的需求。随着AI技术在档案领域的广泛深入应用,档案工作者需要依托人工智能来处理业务,提升服务质量和效率。这就要求档案工作者不仅要掌握档案相关理论,更要深入学习掌握各AI技术发展状况和技术原理,提升档案工作者的技术能力,实现向“理技兼通”的综合性高素质档案管理人才转型。转型的关键在于对档案工作者的人工智能培训。国外档案学者提出一种全新的跨领域学科计算档案学,并指出计算档案学能将计算机方法和资源应用于大型文件档案处理、分析、存储、长久保存和利用,目标是提高档案鉴定、整理、著录、长久保存和利用的效率、效果和准确度。该学科强调的是将以人工智能为代表的计算机科学和档案学科进行有机结合。当然,人工智能的研究也强调档案工作跨学科交流在未来的重要性。档案工作者应与数字人文主义者加强合作,利用人工智能技术创建和部署适合的档案鉴定解决方案,还应与计算机科学家共同思考人工智能对档案鉴定工作的影响。未来,只有成为“理技兼通”的综合性高素质档案管理人才,才可以更快、更准确地找到AI技术与数字档案鉴定工作结合的切入点。