数字环境下新技术在档案保存与公开中的应用

2021-11-22辽宁省大连市沙河口区中心医院医务部张春景

办公室业务 2021年13期

文/辽宁省大连市沙河口区中心医院医务部张春景

目前需要做什么才能确保档案在未来和不断发展的数字环境中得到用户的信任？在新修订的《档案法》中，增设“档案信息化建设”一章，进一步推动了档案信息化工作。笔者认为应与国内和国际不同的部门和学科的学术研究团体合作，利用跨学科专业知识来围绕这些重点进行研究。档案界的学者应以创造一个数字档案馆的研究环境，来帮助解决国家数字档案馆的重大问题和挑战。

一、迎接数字档案不断发展的本质

（一）数字环境的发展。在发展快速的数字环境中，像国家档案馆这样的档案机构正在寻求走向一个可持续发展的数字未来，并继续成为我们记忆中值得信赖的“监护人”。随着环境的变化，档案馆提供未经篡改、可靠的公共档案的任务始终不变。世界各地的收藏机构现在都在集中精力进行数字化建设，以保证他们跟上时代的步伐，并保证对所采集、保存、背景化和展示的档案赋予其合法性。在人工智能辅助档案收集的时代，突出档案的适应性、价值和可持续性的需求越来越高。数字化的挑战使“信任”成为焦点，但同时也是一个机会，将档案馆信任的基础作为一个机构的权威，转变为对档案实践的透明度和问责制。

数字化是我们最大的挑战。然而，我们并不孤单。在最近的一篇短文中，Luciano Floridi教授讨论了我们日益复杂的环境不可持续的脆弱性，这只是数字给现代社会带来的挑战之一。在该文中，弗洛里迪提出了认识数字脆弱性风险的方法，并通过强调数字世界的所有成员，在保护信息方面发挥出的关键作用。文章最后认为，从好的一面来看，数字脆弱性有一些特别有用的东西，即它促使了信息社会对脆弱性的了解，并通过从上到下更开放、更负责任的方式，协同工作，为控制数字故障做好更充分的准备。

在档案界，数字档案正在从根本上改变着档案的面貌以及档案工作者和档案机构的作用。数字环境的发展是导致档案学科迅速转变的一个因素，或者用托马斯-库恩的话说这是一场科学革命，“从一个相对固定的科学框架转向需要对其原则、方法和实践进行深刻了解的变革”。更具体地说，数字环境的发展给档案领域带来了各种复杂的情况和挑战，正需要档案人员运用新的技术和方法。

（二）新兴技术的使用。毫无疑问，新兴技术的使用，如Snapchat、Google Docs、神经网络、区块链、散列算法、密码学和云计算深刻地改变了档案的性质与信息的创建、记录、捕获、编码、策展、共享、提供和使用方式。这些转变要求在捕捉信息方面要有全新的技术和方法。越来越多的数字档案的保存、背景化和展示，使得档案工作者必须把新兴技术作为自己的行业工具来配备。我们需要了解数字景观，以及在新一代技术下社会将如何创造和分享档案。当重新思考档案的性质和如何将数字档案应用到实践时，就可以借鉴文化遗产、学术界和相关行业的创新，与基础设施、方法、工具、技术和用户需求的探索性研究结合起来。只有通过在档案保存实践中嵌入新一代技术，帮助我们在捕捉、保存、情境化和展示数字档案的过程中管理我们的权利和责任，才能实现新一代数字档案馆的愿景。因此，在这个越来越依赖人工智能的时代，我们需要彻底考虑数字档案的保存、描述、表现和使用有关的实际问题。

在未来，人工智能和新兴技术将成为我们日常记录实践的一部分，在使用的过程中，围绕信任的问题就成为了根本。例如，社会对算法决策的依赖性越来越大，这从根本上改变了证据的格局。利用数据创建和训练算法的人工智能正变得越来越广泛和多元。人工智能的不确定性和无限制性要求我们重新思考如何保存系统和决策的证据。因此，人工智能要求我们重新思考在这种情况下，“档案”是什么。在应对这些挑战的过程中，国内对馆藏管理、档案学科、档案部门和围绕档案的跨学科进行了高质量的研究。在这些研究中，以寻求发现创新的新模式和方法、技术和工具为目的，避免数字时代档案保存的风险。

二、信任、风险和不确定性

数字化转型改变了档案馆作为权威机构的传统界限，并在保护档案和数据方面带来了新的挑战。在快速变化的档案保存环境中，了解并有效管理所有相关风险是档案工作的核心。

（一）分布式账本技术建立信任。数字档案具备的基本挑战之一，是我们如何保证今天进行归档的记录与20年甚至100年后向公众发布的档案是一样的。目前尝试使用的分布式账本技术(DLT)，如区块链，正作为一种工具来维持对数字档案的长期信任。DLT使用加密技术和分布式存储模型，通过制作多个公开可用的证明实例，即创建可验证的证据，证明一个存档对象没有被篡改。这就意味着，如果一个数字文件以某种方式被改变，就可以通过数字档案现在与它在分布式分类账本登记时不同的情况来识破。目前，DLT已在国内大型互联网公司得到广泛应用，但在数字档案领域应用较少。随着信息化的快速发展，国家电网、神华集团、华能、华电、中石油等已逐渐认识到档案内容真实的重要性，并陆续使用DLT对企业档案进行集中存储和统一管理。

在数字世界里，我们会提供原始数字文件的编辑和重新格式化版本。一个过时的文字处理文件可能会被转换为PDF格式，以达到兼容的目的；个别的电子邮件可以从电子邮件档案中提取；高清晰度的视频可以减少到com-pressed格式，以减少对下载带宽的影响。这些程序中的每一个程序，虽然不会从根本上影响对象的内容，但仍会创造出与原件不同的加密内容。

我们的重点是确保数字档案的可持续性，以保证用户对数字档案的信任，因此，在数字档案中建立一个以DLT为中心的可审计性和透明度系统，强调用于操作原始数字对象的功能的可追溯性。其核心原则是：每个用于操作数字文件的函数都在分布式账本中注册，只有可验证的函数才可以被使用。这样一来，一个数字对象的演示副本可以通过所有用于创建或操作它的函数集，在其整个生命周期内追溯到它的原始版本。相信，使用这种技术可以改变数字档案的可持续性，同时也可以让档案馆共享档案的管理权，并通过共享来保证他们所持有档案的完整性。

（二）贝叶斯网络处理保存风险。对数字保存产生的风险应该运用新的方法。在一个不断变化的数字环境中，定性风险评估方法不能为数字档案馆提供足够的保证。在尝试使用一种统计方法来量化数字保存风险时，我们发现贝叶斯网络可以解决这个问题。

贝叶斯网络是建立在贝叶斯推理之上的概率模型。1980年，随着人工智能的发展，Pearl提出了贝叶斯网络，将贝叶斯网络成功地应用于专家系统，成为不确定和推理的一种流行方法。贝叶斯网络技术已广泛应用在模拟军事对抗、信号检测、金融风险分析等。

对于档案领域来讲，数字化保存亦是一项长期的活动，由于许多风险事件和故障发生的频率太低，我们无法收集到许多硬数据来为经验方法提供依据，这导致我们难以用定量技术对风险进行预测。然而，档案行业在多年的数字保存中积累了丰富的经验，而且从行业和档案馆的知识中获得的信息，在此基础上应用贝叶斯方法。应用贝叶斯方法建立一个预测模型，当发布用于研究的数据文件时，恶意用户可能试图破坏机密性，贝叶斯风险评估用于预测披露风险，使我们能够判断某一特定数据是否安全，当被认定为不安全时，采取保护措施。结合不同的信息来源，在有硬数据的地方使用硬数据，在没有硬数据的地方用我们的最佳判断来补充。这种方法还使档案工作者能够在面对不确定和不完善的信息时进行操作，并能适应不断变化的环境。

在未来，我们应努力建立一个新的数字保存风险模型，它将以数据为基础，以适应数字环境的不断变化。数字保存风险模型将包括广泛的威胁因素，从格式的多样性到系统的依赖性、软件、技术能力和组织政策，进行风险建模。这意味着我们可以有效地规划干预措施，平衡风险的可能性增加对数字档案保存的影响。通过预测性的风险模型，能够以经验为基础做出有关保存行动的决策，同时能够阐明不同保存方案的效益和成本。利用数字团队的专业知识，通过应用风险情景来验证正在开发的模型，并利用这项工作来发展研究合作，以进一步扩展该模型。特别感兴趣的是将如何开发统计模型，能够帮助了解和量化风险，并投入资源、成本以取得最大效果，以及这些风险模型如何与更广泛的档案部门结合起来。此外，对这些问题的回答将更有助于了解和处理与档案相关的法律、社会和道德环境。阐明风险并指出对“风险偏好”需要放在哪里，这无疑是围绕数字档案保存基础设施的重要一步。

（三）记录链接解决不确定性。数字档案馆的又一挑战是如何有效地处理档案馆收藏档案的模糊性和不确定性，同时为混乱、不完整和不一致的历史数据创建一种模糊链接的方法。为了回答这个问题，我们一直在积极尝试用记录链接让用户能够做出稳健的、数据驱动的访问决策。

不同数据源的数据的合并过程称为记录链接（record linkage）就是利用统计学原理，识别不同文件中的相关记录是否描述同一个体的一种数据处理技术。目前国外记录链接技术已广泛应用于医药、商业管理、官方统计等领域。

应用记录连接技术不是试图清理和标准化数据，而是旨在通过量化和绕过大规模集合中发现的“模糊性”的形式，利用模糊匹配，通过对两条记录的多个识别符号进行匹配，并对不同识别符号分别赋予权重，将匹配结果加权重求和就得到两条记录代表相同个体的概率。

在档案链接算法中使用概率，为遗产藏品开辟了新的获取途径，并提供了一个从业者对档案描述的视角。我们最初的工作是在本馆的藏品中建立链接，现在也可以扩展，因为现在可以建立一个由人、地点、事件和思想组成的连接网，即对这些因素进行赋值进行权重加和，而不是一个仅由档案背景连接的纸盒目录。然而，还有更多的工作要做，来扩展和发展这一方法，以管理模糊的大数据，并将结果呈现给用户。我们仍然需要探索让新老用户都能获得这些链接的方法，将链接数据方面的进步与现代可视化和数据挖掘技术相结合，以提供新的见解。

三、公开性、透明度

向用户开放档案是国家档案馆职责的一个重要部分，这也带来了许多机遇和挑战。作为数字档案的保管者，无论是数字化还是原始数字记录，在保持数字档案馆公开性和透明度方面要做到：一是控制开放规模、安全地在法律范围内提供数据的使用和再利用；二是在开发新的服务和创新的内容时，档案工作者的决定和程序要透明。

（一）通过改变我们对访问的思考方式，实现大而复杂的数据分析。传统的档案利用概念主要反映了用户在阅览室或研究室进行的文献研究。今天，阅览室仍然是一个物理空间，用户主要是去探索模拟记录和物质手工艺品，但同样，也有各种数字空间，如网站、在线目录或档案馆、文化机构和其他公司的其他数字基础设施，用于制作或存放数字档案。毫无疑问，数字化改变了档案收藏的获取方式，带来了新的机遇和挑战。

为了寻求在访问、分析和研究方面的创新，我们正在开发数字基础设施，以解锁档案内容，并实现数据分析方法的应用。通过应用自然语言处理和结构感知搜索等技术，实现了对复杂的大规模收藏的高级研究。例如，英国国家档案馆开发一个新的网站供研究人员使用，通过新的数据集列出几年以上的所有立法，以及一套高级工具，使其易于查询立法内容，并实现结构和时间感知搜索。此外，当我们将数字服务转移到云端时，可以让研究人员方便地访问政府网，他们可以对我们的政府存档网站、政府部门视频和社交媒体活动进行大规模的再搜索。将光学字符识别(OCR)技术与新的先进技术相结合，用于捕捉和保存政府在网络上发布的信息，使大规模数字收藏(包括PDF格式的数字化文件以及出生的数字)可用于研究和探索。

（二）利用算法和人工智能公开大规模的档案。档案馆的收藏规模是我们的挑战之一，当涉及到档案开放，包括数字化的收藏品供研究和实验时，当规模的挑战与如何抄写印刷和手写历史档案的问题结合在一起时，围绕数据的获取和使用的问题就需要新的方法。将OCR和手写文本识别(HTR)与高性能的计算技术相结合，使用户能够以新的方式解开档案中印刷和手写的历史内容。在手写历史内容方面，应用HTR技术的挑战之一是准确性。这就解决了如何最好地将HTR与人工干预(潜在的众包)相结合，以产生大规模的内容转录的问题。随着记录转化为数据潜力的开放，档案研究者将目标放在了跨学科研究中，能够通过多种方式操纵该数据，以追踪档案和档案之间的模式，重新组合我们的数据以讲述新的故事。

预计未来将越来越多地依靠算法来帮助我们完成从保存到展示的过程。在涉及算法和人工智能辅助决策的所有档案保存的过程中，必须注意确保公平、问责和透明，这一点至关重要。在一个大规模数据分析和人工智能辅助档案学科的时代，打开人工智能系统的“黑匣子”也将帮助我们解决重要的实践和伦理问题，如档案与社会正义。这些领域与整个过程中使用的训练数据和统计数据的不确定性有关。对决策中使用算法和人工智能所发生的结果在所有阶段和所有层次的依赖关系的理解，将帮助我们对这种背景下的档案的伦理含义产生新的认识。