APP下载

面向现代化的档案数据治理:价值内涵、关键要素与实践应用方向

2024-06-27袁蕾涵任越

档案管理 2024年2期
关键词:数据管理语义

袁蕾涵 任越

关键词:大数据;档案数据;数据治理;善治;语义技术;精准服务;智库型服务;文化遗产

1 引言

随着大数据、云计算、移动互联以及社交媒体等信息技术在社会经济发展过程中运用不断深入,引发了全球数据爆发式增长。大量数据产生和聚集推动着社会、企业、个人不断向数据化过渡。数据化浪潮不仅推动了新技术发展,也深刻影响着人们的生产生活方式,而数据作为核心因素,其价值越来越受到人们的认同和关注。在此背景下,国家对数据治理的关注度也在不断提高。2015年10月,中共十八届五中全会将大数据上升为国家战略;2016年3月,《国民经济和社会发展第十三个五年规划纲要》将“实施国家大数据战略”作为专章写入;2023年新一轮机构改革中国务院机构改革方案提出组建国家数据局。[1]政策文本的多次提及以及国家数据局的成立使得数据治理活动作为一项行政行为与学术议题被各界所广泛关注。在全面推进国家治理体系和治理能力现代化的今天,档案事业作为国家治理体系的重要组成部分,在支持国家治理、社会记忆留存方面具有不可替代的作用。2021年,《“十四五”全国档案事业发展规划》提出“主动融入数字经济、数字社会、数字政府建设,推动档案全面纳入国家大数据战略”。[2]转变传统档案管理方式,强化档案数据治理,找准档案部门在国家总体数据治理活动中的职责定位,重塑数据时代档案工作形象,已成为当前档案事业改革发展的一项重点工作。

2 面向现代化的档案数据治理价值表现

信息社会背景下,数据大量产生的同时也带来了数据的管理与利用问题。档案作为一种重要的战略性信息资源,档案部门也应主动融入数据治理大潮,积极应对档案数据化变革在管理理念、模式等方面带来的挑战,在数据管理理念和信息技术的支撑下不断提升档案数据治理能力,深入挖掘档案数据价值,主动服务国家各项事业现代化建设需要,促进数据时代档案工作的提质增效。

2.1 档案管理智慧化转型的必然趋势。数据作为当前推动社会各项事业加速发展的一种重要资源,促使各界纷纷开始关注数据治理问题,以期发挥数据在提高生产力方面的重要价值。数智技术作为伴随数据大量产生而兴起的技术,推动着信息资源管理的数据化变革,使信息资源管理具备了知识挖掘、管理与再造的基础和工具。同样在档案领域,档案治理对象在信息技术变革的过程中,经历了从传统模拟态档案向数据态档案信息的转变。来源广泛、结构多样的细粒度档案数据资源快速增长汇集,成为驱动档案事业数据化转型、档案数据治理深入推进的基础性资源。相较传统纸质档案的人工管理,数据态的档案管理在数据清洗、语义组织、数据挖掘、关联分析、知识图谱、人工智能等数智技术的支持下可以大大提升档案管理利用的效率和质量,通过对大量多元异构档案数据进行细粒度、可视化、内容级深度开发,实现档案数据之间的信息关联和知识发现,档案管理因此呈现出明显的知识管理、智慧管理趋向。与此同时,档案数据治理现状与档案数据治理现代化要求之间尚存差距。档案数据保管分散,数据孤岛情况普遍存在,档案数据价值挖掘不充分,难以满足社会多样化需求,档案数据质量与安全保障问题显著,档案数据风险日益加深。因此,强化档案数据治理已然成为实现档案管理智慧化转型的必要之举。

2.2 档案利用服务高质量发展的内在需要。公众数据权利的普及与数据获取能力的不断提升,使得公众对档案利用服务的需求也呈现出多元升级的趋势。传统档案服务模式下,一方面,档案信息开放共享相对困难,难以满足公众的精细化、多元化档案利用需求,服务效率相对较低;另一方面,档案部门难以精确掌握用户的需求,缺乏个性化服务,难以满足公众对便捷化、知识化服务的需求,而档案数据化服务在细粒度的数据聚合和智能化技术的支持下,数据检索速度得到了极大提升,能够精准识别用户需求,快速高效地对用户信息诉求做出回应,并结合用户兴趣推送个性化的信息服务。同时,随着数据存储管理智能化水平不断增强,数据实时采集、重组整合、关联分析等技术在数据管理中的广泛应用,能够形成关于某一主题相关数据的关联网络,通过对这些数据关联的提取分析,能够更加直观地分析数据背后所蕴含的深层次问题,进而提供精准化、知识化、智库型的高层次服务,帮助决策者提前掌握事件发展走向,进而做到事前预测、风险规避、精准决策,这对于掌握社会发展需求、防范治理危机有着巨大价值。最后,在可视化技术和虚拟现实技术的辅助下,还可以为用户提供沉浸式的可视化服务,全面提升用户的体验感和满意度。

2.3 档案数据内涵属性的本质要求。大数据时代,档案数据作为档案学科与数据学科交融的产物,其内涵既包括档案的数据化,也包括数据的档案化,二者之间相互联系、内在统一,共同构成了档案数据的底层逻辑架构。档案数据化作为数据时代档案事业的创新举措,通过将数据管理理论与技术方法融入档案资源建设和档案管理工作中,以推动档案信息资源的深度开发与档案管理流程的智慧化升级。其一,档案数据化作为数字化的延伸形式,旨在运用全文识别、图谱关联、多维重组等现代信息技术手段将文本、图像等传统档案、数字档案转换成可被机器识读、分析、计算的结构化、细粒度字节。同时,借助大数据、人工智能技术对这些有价值的数据进行知识化开发、可视化呈现,展现档案数据在资政育人方面的巨大价值,提升档案数据在国家数据资源体系中的核心竞争力。其二,当前档案数据类型仍多以非结构化、半结构化类型存在,导致档案数据难以进行深度的知识化、资源化处理,限制了档案数据治理融入总体数据治理的实现。这需要强化对于档案数据的结构化、标准化处理,减少数据异构、数据孤岛等问题,激活档案数据的内在价值。数据的档案化则是通过将档案学理论和档案管理方法渗透到数据管理活动之中,对海量数据中具有保存价值的数据进行档案化管理,发挥档案部门在数据规范化、安全化、价值化管理中的独特优势。一方面,在大档案观指导下,应从全局角度扩大数据的采集归档范围,将社交媒体数据、地理信息数据等新型数据资源纳入归档范围,确保有价值的数据做到应收尽收,避免档案数据资源的流失;另一方面,数据管理与档案管理均强调管理业务流程的连贯统一。因此,有必要在文件生命周期理论和文件连续体理论的指导下,强化业务部门与档案部门之间的协作,促进办公业务数据系统与档案管理系统之间的衔接融合,实现数据从产生到保管利用的全流程管理,以确保数据的语义关联性、要素连续性、结构完整性以及价值时效性。同时,将档案工作过程中形成的严密保管方法体系运用于数据长期存储与安全管理之中,综合考虑数据的存储方式、存储载体,实施安全分级、内外网隔离的管理制度,运用区块链、加密技术等,构建立体化的档案数据安全保障系统,以确保数据的实体与信息安全。[3]

3 面向现代化的档案数据治理关键要素

3.1 主动融入国家大数据战略。国家数据局的成立使得我国数据管理组织结构得到了进一步的优化完善,在此背景下作为传统政务信息资源管理部门的档案机构,需要把握机遇,发挥自身优势,积极融入国家大数据战略之中。

一方面,为国家总体数据治理提供文件档案的管理思维和方法。当前对于数据管理的具体措施规划较为模糊,尚未实现对数据全生命周期管理各流程的全面覆盖。档案部门在近些年来对电子文件管理相关问题的实践和研究过程中,积累了大量可用于数据管理的经验。宏观层面,档案管理活动与数据管理在质量要求上存在很多重合部分,将档案管理要求融入数据管理规则当中能够有效保障数据质量,打通数据治理与档案管理之间的边界。首先,档案部门应基于自身职能设置特点主动作为,从党政协同构建数据事业的角度,积极与数据管理部门就数据战略规划的制定展开合作。其次,档案部门应融入各级数据治理协作组织框架当中。在数据管理过程中提高对档案数据的关注,扩展数据治理活动在反映国家、社会记忆方面的功能的同时,从档案管理方法、规则等方面为数据管理活动提供实践指导、绩效评估以及人员能力培训。最后,推动数据治理工具的档案思维融入。档案部门应主动参与到数据管理平台和系统的构建过程中,以便在功能设计时将档案管理的要求嵌入其中,实现与档案管理功能之间的良好衔接。微观层面,首先,档案部门应在公共数据归档方面发挥主导作用,依托档案归档经验制定公共数据归档方案,建设公共数据归档平台,并对公共数据归档的各项工作进行监督指导。其次,需要结合档案鉴定工作经验,对政务数据进行价值鉴定,这既包括鉴定数据价值以确定其保管期限,也包括对保存期满的数据进行鉴定以进行合理处置。同时,档案部门还应主动承担起数据的开放审核工作,在档案开放鉴定工作制度的基础上,完善数据开放审核标准机制,推动政务数据的开放共享。最后,档案机构积累了一系列有关电子文件安全保存的经验做法,档案部门应针对数据丢失、数据可用性维护、涉密档案保管等问题,从战略规划、技术手段、基础设施建设等方面为数据的长期保存提供档案智慧。[4]

另一方面,档案机构融入数据治理活动,能够促进档案工作的扩展和升级。数据技术的快速发展带来了国家社会各行各业的数字化转型,这在给档案机构带来挑战的同时,也为档案机构带来了职能扩展的可能。其一,数字政府建设背景下,档案部门可以充分挖掘数字转型过程中政府开展各项业务优化升级的新需求,将档案服务嵌入政府工作内容当中,主动提供优质数字档案资源、政务文件归档管理服务等,展现数据时代档案部门的新形象。其二,数字技术的快速发展,也带来了数字鸿沟、数据壁垒等一系列问题。各级各类档案馆具有的公共服务属性,需要档案部门积极行动消除机构自身存在的数据壁垒,在档案服务过程中更加关注弱势群体,提升公众的数字素养和自身的数字服务能力,不断推动档案数字化服务的公平普惠。其三,档案部门应充分发挥在文化大数据体系建设中的积极作用。档案部门应将文化大数据建设作为一项重点工作纳入整体工作规划之中,在加强档案文化资源数据化建设的同时,积极与不同类型的文化机构展开合作,推动不同文化数据资源的整合开发,促进中华优秀文化的全景呈现。

数据治理活动在主体层面具有多元共治、权责清晰两大特征。在治理过程中,除涉及档案部门外,还包括产生档案数据的各种业务部门、数据中心、信息机构等社会组织以及档案用户等。当前档案部门与数据管理部门之间依然存在一些职责交叉的问题,因此准确定位档案部门和数据管理部门的职能,明晰各自职责划分是档案部门融入国家大数据体系的重要基础。通过构建合理的协同治理参与机制,将档案部门纳入促进大数据发展部际联席会议和地方大数据、政务信息资源管理等各类协调机制。加强职责分工和具体工作的协商与协同,建立和完善议事协调机构或主办部门组织的部门间职责分工协商机制,建立健全档案部门与数据管理部门间具体工作的协作机制,营造良好的治理环境。[5]

3.2 健全完善档案数据治理方法要素。档案数据自身的复杂性要求在其管理过程中充分运用数据科学的理论、方法、技术实现对档案数据各要素的科学管理,构建起与大数据发展需求相适应的档案数据治理要素体系,以最终实现对档案数据的整体善治。由于档案数据的归档阶段较为模糊,基于数据生命周期嵌入业务流程成为档案部门介入档案数据治理的必然选择,[6]档案数据治理的模式正逐渐向全过程管理转变。首先,要加强对档案数据的前端控制,档案部门应该主动作为,积极与档案数据的来源机构进行合作,在机构业务系统设计之初就将档案管理的数据质量要求与价值判断标准融入其中。其次,优化机构业务系统与档案数据管理系统之间的衔接,通过前置档案管理节点,实现档案数据生成归档的一体化管理,掌握档案数据治理的主动权,有效避免档案数据异构、档案数据质量参差不齐等问题,确保档案数据在形成阶段的高质量,进而为后期各项档案数据治理活动的开展奠定基础。对于影响档案数据治理成效的重点环节也应特别关注,确保各要素环节与档案数据治理活动相匹配,以档案数据治理各环节的科学规范保障档案数据的最终善治。例如,在档案数据的质量控制方面,既需要从制度保障、技术支持等角度全面考虑,将“四性”即真实性、完整性、可用性和安全性检测标准嵌入数据管理系统当中,加强对数据的评估、清洗、修复,也需要关注数据的标准化、结构化问题。一方面,依托智能识别、内容标引等方法对档案数据进行结构化、规范化转化;另一方面,规范数据的存储格式、访问接口,推动不同来源、不同类型档案数据的整合共享。最后,可通过建设数据监控系统,对档案数据治理的各环节形成数据进行收集、记录,通过可视化的形式展现档案数据全生命周期的运行状态和管理效果,形成可追溯的档案数据治理过程数据。

除了加强档案数据治理的过程管理,还要强化技术工具在档案数据治理过程中的运用。档案数据的产生、传输、存储、加工都离不开数据技术的参与,在推进治理能力现代化进程中,数据技术成为优化治理生态、优化治理创新、提高治理水平的重要推手。因此,必须将技术思维融入档案数据治理各项活动当中,不断优化数据技术与档案数据治理活动的融合水平。当前,数智技术快速发展,各种数智工具层出不穷,在为档案数据治理活动提供诸多便利的同时,也带来了许多风险与挑战,档案数据对于安全性和真实性有着极高要求,这就决定了并不是任何一项技术都可以运用于档案治理活动中,在实际运用前必须对技术工具的可靠性、稳定性进行试验论证,以保障档案数据治理活动的安全高效开展。同时,由于档案数据的结构多元、类型多样,对于档案数据治理工具的选择也不是一劳永逸的,在选择技术工具的过程中必须结合不同档案数据治理实际进行个性化运用。在数据管理技术的运用方面,应加快推进优质成熟技术在档案数据治理活动中的转化应用,发挥数据技术在档案数据精细化、高阶化、智慧化管理中的关键作用,积极开发与档案数据治理活动适配度高、操作便捷高效的档案数据治理技术应用工具,更好地服务档案数据治理活动的整体需要。[7]

3.3 借助语义组织激活档案数据价值。档案数据的语义组织包括对档案文本的标注和对档案数据元数据的著录。经过OCR识别后形成的数字档案仍然无法被计算机所理解,需要利用人工标注或自动标注对档案文本中的人事物等具体信息进行详细描述,识别出这些词语所指代的具体概念,将其转化为计算机可理解的结构化数据。对档案文本内容的标注越细致,越便于揭示档案内容之间相互关联,档案文本的知识发现、聚合挖掘的深度和效果也更显著。档案元数据包含档案背景数据和结构数据,档案元数据对于确定档案文本的来源机构、业务流程、文件汇集以及所处生命周期阶段有着重要作用。档案元数据通常是由计算机系统自动生成的一种结构化的XML语言,需要通过语义增强将其从XML文档转化为RDF文档,实现从隐式语义表达向形式化语义表达方式的转化。在完成档案数据语义转化后,借助本体建立起档案内容、结构和背景数据之间的语义关系,从而构建起一个相互关联且可识读的数据网络。

从档案数据资源语义著录的层级来看,著录的层级越细致,获取的著录数据层级越明晰,档案数据之间的语义关联越完整。利用多级著录使档案数据的检索变得更加灵活智能,无论是利用哪一层级的著录数据进行检索都能实现档案数据检索的全方面扩展。在多级著录的基础上,档案数据的语义关联网络呈现出纵横分布的趋势。由档案全宗、类别、案卷、文件四个层级语义关联建立起的纵向网络作为档案数据语义网络的主线,能够实现档案数据的跨级检索。[8]基于同级档案数据在内容、背景、结构语义上的同级关联建立起的横向网络能够通过对基于某一主体的所有相关档案数据进行整合关联,全面梳理不同档案汇集中档案数据资源之间的相互关联,构建起全景式的档案数据语义关联网络。同时依据档案数据的内容、来源机构、所处业务流程和生命周期阶段在档案数据语义组织过程中形成了不同的链式关联,将这些关联链组合起来能够发现更多语义中心和关系网络,从而形成非唯一中心的多维关联网络。不同层级的任何一个语义单元都能成为语义中心,使档案数据互组织关联更加灵活,知识发现图景更为全面,实现对业务活动全流程的支持。

4 面向现代化的档案数据治理实践应用方向

4.1 档案数据治理赋能档案信息精准服务。档案信息精准化服务是一种以用户为中心的服务模式,数据治理为档案信息精准化服务提供了基础支持。档案馆不仅保存着大量档案数据,在其服务器中也存储着大量用户基本数据和行为数据。通过对这些数据进行整合分析,可以有效识别出用户的大致情况以及兴趣需求。在知识挖掘技术的辅助下,挖掘馆藏档案数据中蕴含的隐性知识,将这些知识元进行关联组合,构建档案知识库,实现档案信息知识与用户需求的绑定,为用户提供个性化、精准化的档案信息服务。同时档案馆还可依据用户移动设备发出的实时信号,为用户提供基于场景的信息服务,打造沉浸式的档案信息服务体验。通过对用户需求的精准把握,档案馆能够有针对性地进行馆藏资源建设,规划档案信息服务未来发展方向,从而不断提高档案馆信息服务效能,提升公众对于档案信息服务的满意度。云计算技术在数据管理活动中的普遍应用使档案信息的一站式服务成为可能。当前,云计算技术已经得到了各地政府的重视,许多城市已建设起了自己的云计算中心,档案部门作为重要的信息存储机构,应主动与各类云计算中心开展合作,充分利用云计算技术促进档案信息的互联互通。利用政务云平台实现档案信息在机构内部纵向层级与横向部门之间的顺畅流通,从而为公众提供档案信息的跨区域、跨层级、跨部门查阅利用,用户借助互联网即可获取到自己所需的档案信息。

4.2 档案数据治理赋能档案智库型服务。在建设中国特色智库政策背景下,各种信息管理机构都在积极开展智库建设实践,档案馆也应把握机遇在馆藏档案数据资源的基础上,利用数据管理技术积极开展智库型服务。档案数据资源所具备的真实性、序列化、前瞻性与公共决策需求具有契合性,且档案数据资源经过深层次开发能够提供公共决策所需的外部信息和内部信息,因此档案数据具备为公共决策提供信息服务的基础,具有极高的资政价值。档案知识数据是开展档案资政服务的基础和核心,利用跨库存取、异构数据融合、数据库整合技术,借助数据挖掘和知识发现采集知识点,能够有效获取档案资政所需的档案信息资源。资政服务更需要精准的解决方案以及有效的数据成果及观点,档案馆可以结合政府和企业相关业务活动开展的现实需求,利用数据映射、数据过滤等手段对档案原始数据进行预处理,构建档案数据集,并对档案数据集进行语义化规范定义,进而通过语义互操作、本体映射等技术,实现对档案数据语义之间映射关系的串联,挖掘档案数据资源中蕴含的知识价值以及内容之间的关联,开展基于档案数据资源的知识化组织。在此基础上,利用聚类分析、知识关联等方法对不同档案数据资源在内容、特征、属性等方面所具有的关联关系进行处理,完成档案数据的知识重构,形成针对决策需求的各类档案数据集类型和知识网络,从而实现档案数据资源与决策需求的精准契合。最后通过信息挖掘、语义分析等技术,构建档案知识空间,呈现档案资源中所蕴含的深层次知识要素,从而为决策者提供专业、系统、智慧的科学决策咨询服务。[9]例如,江阴市公安局创新实践档案数据规模化深挖应用,通过整合海量档案数据资源,依托智能分析手段深挖数据关联,赋活档案数据价值。2020年,江阴公安通过档案内容溯源,一举侦破14年前的命案积案;在“团圆”行动中,从本地被拐和走失案件中梳理出发案脉络和人员信息,近年来已帮助60余个被拐家庭团圆。[10]

4.3 档案数据治理赋能文化遗产开发保护。古建筑、古遗址等实体文化遗产往往能够体现一个时代的社会风貌,本身具有很高的历史价值、艺术价值。但这类遗产也很容易受到破坏,且这种破坏通常具有不可逆性。因此,有必要全面采集这些珍稀古遗产、古建筑的物理数据及空间数据,为其构建完整的数字化档案。一方面,可以有效实现事前预防。当这些遗产不幸受到破坏时,借助这些事先收集的数字档案,能够快速准确地提供相关数据记录,为文化遗产的评估与事后修复提供支持。[11 ]另一方面,文化遗产的数字化能够有效平衡保护与传承之间的矛盾,拓宽文化遗产传播时空范围,革新中华优秀传统文化传播模式。例如,在河南石窟寺数字化项目中,京西时代的团队精挑细选河南古建院的古建图纸,将文物数字化技术与3D建模技术相融合,将建筑文物3D模型拆解为多个组件,通过数字技术将其重新组合,创新性地应用于景区文创产品、虚拟导游、沉浸式体验等多个场景。这一创新做法不仅展示了古代建筑技术的巧妙应用,更体现了文物IP应用的商业策略与文化责任的完美结合,使文物在数字化的翅膀下,焕发出无穷的艺术、文化和商业潜能。[12]

对于那些可移动的文化遗产,例如历史档案、稀有藏品等,其保存面临着更大的风险。由于其载体通常具有一定的使用年限,随着时间推移其变得非常脆弱。同时,由于其具有很高的文化价值、经济价值,也很容易发生失窃事件。在合理规划下对文化遗产数据进行充分采集和存储以形成完整的数字档案,是降低战争、偷窃以及自然灾害对可移动文化遗产影响的有效方式。日常应该加强对这些文化遗产相关数据的采集与建档,积极利用这些数据开展文化活动,扩大这些文化数据的流通共享范围,以避免文化遗产在突发灾害或危机中永久性消失。例如,由故宫博物院和北京观唐大有文化创意有限公司共同打造的“行走的故宫文化——故宫《石渠宝笈》绘画数字科技展”,以故宫《石渠宝笈》为主线,将传统书画作品与数字技术融合,通过采用MR混合显示技术、AI智能人脸识别等数字科技手段,按画作内容分类的逻辑打造了“观山、赏花、浴马、入宴”等主题数字体验区,打破文化、艺术、科技界限对经典画作进行创意诠释,将名家画作意境转变为美轮美奂的感映空间,实现“实物画作”“数字影像”“互动科技”的完美结合,呈现从虚到实,循序渐进的观展体验,让观众沉浸在中国传世名画的意境之中,与古人进行一场超越时空的文化对话体验。[13]

5 结语

数据作为一种全新的生产要素,正深刻影响着社会生活的各个层面,而档案数据作为其中最具权威性和凭证性的原始信息,对国家、社会各项事业发展有着更大价值,当前推进档案数据治理意义重大。未来,档案部门应紧跟国家现代化建设发展要求,在日常工作中厚植数据观念,借助数智技术不断挖掘档案数据价值,积极与数据管理部门、政府信息部门之间展开合作,主动思考档案部门如何在国家总体数据治理活动中重塑扩展机构职能,充分发挥档案数据在公共信息服务、政府决策辅助、数字文化建设中的重要作用。在融入国家总体数据治理活动的过程中不断提升档案数据治理能力,进而助推我国档案事业实现跨越式发展。

猜你喜欢

数据管理语义
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
语言与语义
列控数据管理平台的开发
“上”与“下”语义的不对称性及其认知阐释
基于云计算的数据管理技术研究
认知范畴模糊与语义模糊
“深+N季”组配的认知语义分析