APP下载

档案数据管理的连续性策略:从源头治理到持续优化

2023-09-10韦丹萍

兰台内外 2023年22期

韦丹萍

摘 要:本文从三个关键方面展开讨论,探讨档案数据管理的连续性策略,以提高数据管理的效率、准确性和安全性。首先,聚焦于档案数据的采集、存储和管理机制;其次,引入风险评估和预警机制,帮助识别和预防可能的问题,并建立应急响应机制,提高数据恢复的效率和效果;最后,关注关键档案数据的等级保护,旨在提升数据的安全防范能力,包括建立档案数据的等级保护策略和加强数据安全的管理与制度建设。通过综合运用上述策略和技术,可以更好地應对档案数据管理中的挑战和风险,提高数据管理的效率和质量。本文的研究成果对于推动档案数据管理领域的发展,提升信息管理的水平具有重要的理论和实践意义。

关键词:档案数据管理;连续性策略;源头治理;持续优化

近年来,随着大数据、云计算、物联网和移动互联网技术的广泛应用,以及数据挖掘、自然语言理解、数据可视化分析等人工智能技术的发展,档案管理正面临着一次前所未有的转型机遇。这个转型的方向是数字化、在线化和智能化,也是现代化档案管理的必然趋势。2020年修订的《中华人民共和国档案法》及2018年国家档案局第13号令颁布的《机关档案管理规定》,明确要求将档案信息化工作纳入单位信息化发展总体规划,并“保障电子档案、传统载体档案数字化成果等档案数字资源的安全保存和有效利用”。随着数据规模的不断增长和数据类型的多样化,如何有效地采集、存储、管理和利用档案数据成为一个亟待解决的问题。同时,数据安全和风险管理也成为档案数据管理不可忽视的重要议题。本文旨在探讨档案数据管理的连续性策略,提高数据管理效率、准确性和安全性。通过采集策略、跨模态检索、风险评估和等级保护等措施,全面应对档案数据管理中的挑战和风险。

一、建立和优化档案数据的采集、存储和管理机制

1.确立多源异构数据融合的采集策略

无论是从保存历史、支撑研究,还是服务社会的角度,档案数据的完整性和质量都是不可忽视的基本要素。大数据时代,数据来源多样,格式异构,这对档案数据的采集提出了新的挑战。传统的采集方式往往难以应对这种多源异构数据的环境,既降低了数据融合的效率,也影响了数据质量。在这种背景下,借助智能采集终端,实现多源异构数据的融合,以及知识图谱的嵌入,不仅解决了数据采集的效率问题,也提高了数据的质量。智能采集终端具有强大的数据处理能力,能快速、准确地采集各种格式的数据。并且,这些终端还能实现数据的预处理,如格式的标准化,大大降低了数据融合的难度。同时,智能采集终端还能对采集的数据进行知识图谱的嵌入。知识图谱以图谱形式展现出数据之间的关系,为数据添加了丰富的语义信息,不仅方便了数据的理解和利用,也解决了传统数据融合中缺乏知识层面的问题。以中国科学院文献情报中心的中文社科引文数据库(CSSCI)为例,该中心采用智能采集终端,不仅将来自数十种不同源的数据快速、准确地采集并融合,还将这些数据嵌入知识图谱中,大幅提升数据的质量和利用价值。因此,建立一套以智能采集终端为工具,以多源异构数据融合和知识图谱嵌入为特点的档案数据采集策略,对于档案数据管理的连续性策略具有重要意义。

2.建立档案数据的跨模态检索机制

档案数据涵盖了多种形式的信息,包括文本、图像、声音、视频等。这些不同类型的数据之间存在丰富的关联性和互补性,因此,仅局限于单一数据类型的检索会限制对档案数据的全面理解和利用。通过建立跨模态检索机制,能够在不同类型的数据之间实行关联检索,实现数据的整合和映射,意味着可以同时查询不同类型的数据,获取更全面的信息。例如,在档案管理中,需要同时查询与某个事件相关的文本记录、相关的图片、音频或视频资料,以全面了解该事件的背景和细节。跨模态检索机制还能够提供更精确的结果,增强检索的准确性。通过融合多种数据类型的特征和信息,得到更全面、更准确的检索结果。例如,通过结合文本和图像数据检索,可以更准确地定位到特定的档案资源,而实现这一检索方式则依赖于异构数据的有效整合和映射。档案数据形态丰富,包括但不限于文本、图像、声音、视频等,因此,如何从这些异构数据中提取有价值的信息,以实现有效的跨模态检索,便成了一个挑战。

针对这一问题,引入哈希技术及多视图深度神经网络为档案数据的跨模态检索机制提供一种可行的解决方案,如表1所示。哈希技术将高维特征嵌入低维的搜索方法,因其能在大规模数据空间快速开展最近邻搜索而备受关注。然而,这种二进制码的检索方式虽然能提升检索速度,但可能对精度产生影响。为平衡这种精度与效率的矛盾,借助多视图深度神经网络则显得至关重要。由于多视图深度神经网络能够更好地保留数据的多样性特征,为哈希学习提供更丰富的信息,它能够有效地提升检索的精度,进而提高跨模态检索的效率和准确度。将哈希技术与多视图深度神经网络相结合,不仅可以提升档案数据的检索效率和准确度,更能实现对档案数据的快速、精准访问,如在音视频、图像、文字等异构档案资源的管理中,这种结合策略能够提供更精准的检索结果。

因此,档案数据管理可以结合哈希技术和多视图深度神经网络能够充分发挥两者的优势,实现跨模态数据的关联检索,提升检索精度和效率。同时,在保留数据多样性特征的基础上,通过哈希技术的低维度表示快速搜索,兼顾了存储空间和计算效率。这种结合能够提供更准确、高效的档案数据管理和检索方案,提高数据管理的效率和质量,进一步提升档案数据的利用价值和管理效能。

二、引入风险评估和预警机制,提高档案数据管理的应变能力

1.设立风险评估流程,提前发现可能的问题

在档案数据管理的全过程中,必然会遭遇各种形式的风险和挑战,如数据丢失、数据错误、数据安全威胁以及技术故障等,这些都可能对档案数据的完整性、可用性以及准确性产生重大影响。因此,设置一套有效的风险评估流程,以帮助预先发现、理解并准备应对这些风险,显得尤为重要。只有这样,才能在问题尚未发生前就做好准备,并在问题发生后能够迅速采取恢复措施,最大程度地减少损失。

对此,形式化语义网络(Formal Semantic Networks)的应用便能发挥其独特的优势。作为一种通过结构化方式呈现文本,创建一种全局的知识视角的技术,形式化语义网络为决策者和分析人员提供一种深入理解和分析信息的平台。不仅如此,它还通过简化和抽象文本,降低了大规模模型的复杂性,从而使得决策者和分析人员能够更好地管理和理解信息。在档案数据管理的风险评估中,形式化语义网络能够有力地揭示文本中的主要概念,便于专家识别和理解潜在问题,进而找出可能的解决方案。举例来说,通过对档案数据的语义网络展开解析,可能会发现数据丢失、数据混淆等风险因素,进而能够提前制定对应的预防策略。

同时,在档案数据的采集阶段,已经嵌入知识图谱,知识图谱提供了丰富的语义信息和关联性,为数据采集阶段奠定基础,可以用于构建档案数据的元数据,对数据标注和描述,使得数据具备更丰富的语义信息,在开展风险评估时,借助知识图谱的语义关联性,更加准确地识别和理解风险因素。同时,通过与形式化语义网络的结合,可以进一步提高风险评估的效率。形式化语义网络通过将文本实行结构化表示,能够清晰地展示文本之间的关系和层次,从而更好地揭示可能存在的风险问题。

2.完善数据备份标准,提高数据恢复效率

档案数据具有长期保存和长期利用的需求,而数字化档案的备份可以有效地保障档案信息的持久保存。通过备份,即使原始数据发生意外丢失或损坏,也能够及时恢复档案数据,确保档案信息的可持续利用。国家制定了一系列与档案数据备份相关的法规、标准和指南文件,如《档案法》《档案信息系统安全保护基本要求》等。这些文件具有普遍约束力,明确了档案数据备份的重要性和管理要求,为档案管理部门和相关机构提供了制度性的指导。尽管这些文件在某些条款中提及了数字档案异地异质备份工作的关键点,但它们提供的指导性意见仅限于宏观方向,在实际备份工作的具体流程和安全体系构建方面,这些文件并未给予各档案部门的专业性的具体指导。

数字档案异地异质备份工作的重要性在于其能确保数据的连续性和完整性,提高应对各类风险的能力。然而当前,我国在数字档案异地异质备份管理中存在若干问题,如层级有序化、选址标准、开放权限和法律权责等问题尚未得到有效解决。借鉴美国、英国、澳大利亚和丹麦等国的经验,可以在层级有序化、选址标准、开放权限和法律权责等方面得到启示。例如,可以参考美国国家档案和记录管理局的层级管理准则,澳大利亚国家档案馆的选址标准要求,英国国家档案局的开放权限政策以及丹麦国家档案局的法律法规。这些国家针对数字档案备份管理构建了一系列标准,全面覆盖了管理、技术、存储和维护等多方面,为我国提供了宝贵的参考。在完善数字档案异地异质备份管理体系的过程中,应认真研究档案数据备份标准,以期构建一个高效、安全、符合我国实际的数字档案异地异质备份管理体系。

三、实行关键档案数据的等级保护,提升数据安全防范能力

1.制定并实施档案数据的等级保护策略

《档案信息系统安全保护基本要求》等相关政策文件的出台,表明国家对于档案信息系统的安全保护给予了高度重视。为了应对日益增长的信息安全威胁和挑战,建立并实施档案数据的等级保护策略成为必然选择。同时,档案数据涵盖了大量的敏感信息,包括个人隐私、商业机密、国家安全等重要内容。如果这些数据被恶意访问、篡改或泄露,将会对个人、组织和社会造成严重的损失和影响。通过制定适当的等级保护策略,可以建立严密的数据安全机制,限制数据的访问权限,加强数据的加密和保护措施,确保档案数据的机密性和完整性。

等级保护的核心思想建立在对数据价值、恢复成本,以及数据丢失对业务流程影响等因素的深度理解之上,通过对数据开展价值和敏感性分类,并对不同级别的数据实施相应级别的保护措施。首先,对档案数据开展等级划分,作为等级保护策略实施的基础,需要参照数据的实际价值、恢复难度,乃至数据丢失可能对业务运营产生的潜在影响制定,尤其对于关键性数据,如核心业务数据,需要提供更高级别的保护。其次,在数据等级划分明确后,通过合理的访问控制策略和权限管理机制、加密算法对档案数据实行加密、建立日志记录和审计机制,监测和记录档案数据的访问和操作,对档案数据开展分类和标记,根据其敏感性和重要性确定不同的安全等级和保护措施等,形成综合的档案数据等级保护方案。

2.加强数据安全管理和制度建设

确保档案数据的安全,需涉及一系列的措施,其中加强数据安全的管理和制度建设便显得尤为重要,尤其是设立专责的数据安全管理部门和角色,以及建立和更新数据安全管理制度和操作规范,旨在防止数据被泄露和非法访问。

对于数据安全的管理,首当其冲的是设立专责的管理部门和角色,全方位地管理和监控数据安全,不仅能够加强对档案数据的保护,防止数据的非法访问或滥用,还能及时应对可能出现的数据安全问题,最大程度上减少潜在的风险。在组织内部,数据安全应该由专门的团队来负责,其职责不仅应包括日常的数据保护工作,也应包括对数据安全状况的持续评估和改进。例如,美国国家档案与文件署(NARA)采取跨政府部门主体合作机制、与社会领域资本合作机制(PPP)以及与用户沟通的机制,以促进各个主体之间的协同合作,从而有效地提升数据安全的水平。这种组织内部的协同机制有助于加强数据保护工作的整体效能,并确保数据安全的持续性和稳定性。同时,建立和更新数据安全的管理制度和操作规范,也是维护数据安全的重要组成部分,其目标在于建立一套完整的數据保护机制,旨在规范数据的处理流程,防止因操作失误而导致的数据泄露。为了应对日益严重的安全威胁,这些制度和规范应定期更新和调整,以确保其在新的环境下依然能够有效地保护数据安全。

四、结语

综上所述,本文围绕档案数据管理的连续性策略展开深入研究。通过建立和优化档案数据的采集、存储和管理机制,实现数据的全面管理和保护。同时,引入跨模态检索和知识图谱的技术手段,提高数据的利用价值和检索效率。在风险评估和预警机制方面,加强风险识别和应急响应能力,确保数据管理的稳定性和安全性。另外,实施关键档案数据的等级保护,提升数据的安全防范能力,保障档案数据的完整性和隐私保护。本文的研究成果为档案数据管理领域的发展提供了重要的理论和实践支持。通过综合运用各项策略和技术,可以更好地应对档案数据管理中的挑战和风险,提高数据管理的效率和质量。然而,仍然存在一些待解决的问题,如进一步提升数据的融合和利用能力,以及如何应对新兴技术带来的挑战。因此,未来的研究可以继续探索新的方法和策略,不断推动档案数据管理的创新和发展。

参考文献:

[1]杨 鹏.大数据时代档案数据权利治理研究[J].档案学研究,2023(02):36-42.

[2]赵 跃,孙寒晗.“数据”范式演进中的档案数据治理多维解析[J].档案管理,2021(03):107-109.

[3]周林兴,林 凯.大数据时代档案数据质量治理:因素、框架和路径[J].档案学研究,2023(02):111-119.

[4]金 波,添志鹏.档案数据内涵与特征探析[J].档案学通讯,2020(03):4-11.

[5]耿志杰,郭心竹.基于SFIC模型的档案数据长期保存协同治理探索[J].档案与建设,2022(03):12-16.

[6]曾 萨,黄新荣.档案信息系统云安全等级保护需求与策略[J].档案管理,2019(06):30-33+36.

(作者单位:广西北投交通养护科技集团有限公司)