APP下载

谈档案数据集成的应用

2023-03-30宾桥广西旺港高速公路有限公司

浙江档案 2023年11期
关键词:可视化

宾桥/广西旺港高速公路有限公司

丁海斌/广西民族大学管理学院 广西数字档案管理研究所

赵锦涛/北京理工大学人文与社会科学学院

档案数据集成应用是指把数据集成技术引入到档案数据管理中,贯穿档案管理全过程,打破管理、存储、利用之间相互分离的格局。目前,档案数据集成类型的研究可以从理论研究与应用研究两个维度来看。理论研究主要集中在档案数据内容集成与集成方式优化[1-2]、档案数据安全集成[3-5]、系统集成[6-7]等方面;应用研究侧重数据集成技术在档案数据和档案工作中的应用[8-10],如大型建设工程、交通运输、医疗行业等。从档案数据集成理论研究层面看,档案数据内容集成注重构建相关模型对文本内容进行集成建模,采用文本挖掘的方法对档案数据文本内容进行分析。从具体的应用层面看,档案数据集成应用研究主要集中在历史文化、大型工程项目、医疗行业、金融企业及其他企事业单位等领域。档案数据集成在档案领域的应用研究内容为后续深入研究奠定基础。但是,对于档案数据应用的研究范围还不够广泛,全面的类型分析与深入的案例分析还较少涉及。因此,本文在档案工作实践基础上,对档案数据集成应用的类型与案例进行深入分析,通过对档案数据集成具体应用总结,窥探档案数据集成未来在不同行业档案管理中应用的具体走向。

1 档案数据集成应用的类型

从档案数据本体类型而言,档案数据集成应用经常处理的对象是图数据、表数据和文本数据三种类型。虽然三种类型集成的数据对象不同,但其目标与过程基本一致,其目标均是实现数据规范与一致化,保障档案数据开发与利用更加数智化、便捷化。

图数据集成是指将不同来源的图数据合并成一个完整的数据集。在档案数据集成中,图数据集成可以用于整合来自各个档案库的档案资料,使得这些档案数据能够进行联合搜索和查询,提高数据利用价值。图数据集流程通常按照三个层次完成(见图),其中特征提取贯穿整个环节。表数据集成是指对来自多个数据源的数据表进行整合,形成一个完整的数据集。在档案数据集成中,表数据集成可以用于整合不同档案库中的表,实现数据联合搜索和查询,以提高数据利用效率和准确性。文本数据集成是指把来自多个来源的文本数据整合成一个完整的数据集。在文本数据集成中,需要对来自不同数据源的文本数据进行抽取、转换和加载,最终形成一致、统一的数据集,方便数据分析、搜索和挖掘。

2 档案数据集成应用的指向与作用

档案数据集成应用指向主要有两个方面:档案的日常管理与开发。特别是电子档案的利用与开发,在这个方面集成化档案数据具有此前无可比拟的优势。其应用与作用集中体现在档案数据安全管理、档案数据集成效率、档案数据资源开发等方面。

2.1 保障档案集成数据的安全管理

近年来,安全已成为所有部门的主要关注点,包括银行、电子健康记录(EHR)、供应链管理(SCM)、智能应用程序(SA)和物联网(IOT)[11]。在数据集成开发与应用过程中,在用户接入层添加访问控制模块、身份验证模块以及数字签名模块;边缘服务层添加入侵检测系统、数据完整性验证模块以及加密存储模块,从而保障档案数据的安全管理。在用户接入层,设计访问控制模块按照用户身份或者其所属的某项定义组的权限来限制用户接入系统,身份验证模块的设计将保证合法用户接入系统,并依据系统设定的用户权限进行访问,在一定程度上保证系统用户的安全合法性。在边缘服务层,入侵检测系统的设计将实时监控边缘存储系统网络节点的流量,提升系统安全性。同时,边缘服务层采用区块链进行数据安全存储,区块链底层密码学技术可用于用户数据的存储加密。

2.2 提高档案集成数据的效率

目前,档案数据场景信息日益丰富,档案数据呈现容量大、种类多等特点,保障大规模数据分析结果的准确性,要对数据进行大规模的训练。分布并行计算、压缩技术等,能够提高AI算力[12-13]。分布式并行计算能够将大规模训练任务分解成为多个子任务,分配到多台计算机上进行并行计算,能够提高大规模数据处理任务的效率[14-15]。在流式数据场景下,需要处理的数据是非连续性数据和动态数据。因此,对数据进行预处理,采用归一化方式处理后,方便进行综合分析。其次,通过对大模型采用剪枝、量化和低秩分解等方式,减少模型的计算量,把其控制在一个可承受的能力范围内,从而保障在较小的计算资源下完成大规模的训练任务,从而节约计算资源、提高数据处理效率。

2.3 优化档案集成数据的利用与开发方式

大数据挖掘与分析方法是实现数据智能化利用的重要手段。根据数据功能的具体类型与特点选择相应算法,发现潜在、有用的信息和知识。目前,主要数据挖掘方法包括:神经网络、决策树、模糊集等机器学习方法,相关技术发展逐渐成熟,提供的算法模型能够完成对大规模数据的处理[16-17]。可视化技术展示更注重视觉表达、交互方式和人们心理感知。可视化展示通过把抽象变为具象,使数据表征不仅需要被用户理解,而且能够凸显出差异性、趋势性等特征。从应用层面来讲,可视化功能需要保障重要特征表示、对模拟和测量数据模型进行质量监测等,以此实现智能化利用。

从未来发展的角度讲,集成化档案数据将成为人工智能在各行业中应用的基本经验基础。人工智能需要三个基本条件:算法、算力与数据(机器思维的经验基础)。在各个行业针对本行业业务实践开发人工智能系统,其数据主要来源于本单位、本行业形成的档案数据。而集成化的档案数据则为人工智能的利用提供便利条件。

3 档案数据集成的实践案例

档案数据集成处理的基础数据以图、表、文本为主。目前,随着信息技术的发展,档案数据集成应用重点是综合集成方式的应用,不同于某个具体场景使用专门或者单一集成方式。因此,本文以笔者参与的国家档案局科技项目“面向全程溯源的公路建设项目档案数据集成技术及其应用研究”(2021-X-04)中广西松铁公路建设项目档案管理系统作为具体实践案例,阐述多类型档案数据集成的应用方式。

3.1 广西松铁公路建设项目档案数据集成方式概述

广西松铁公路档案数据集成框架旨在搭建数据来源与数据应用之间的桥梁。在归档过程中,把多源异构的档案数据通过基础硬件集成到处理框架中,根据不同数据特征进行数据清洗、抽取和挖掘,实现数据汇集融合;根据数据不同特征和研究与利用的需要进行归一化处理,使其进入到不同异构自治的数据源中,以数据字典为基础实现对档案数据对象的描述,形成互相关联的数据网络。当应用层发起获取数据指令时,存储在不同数据库中的数据根据需求特征描述,实现统一集成后,响应数据请求,从而实现公路设计、施工、运营全生命周期信息资源管理,最终为公路项目建成通车后的运营阶段管养精细化、标准化提供可靠依据。

在松铁公路项目档案数据集成管理系统中,主要运用物理集成方式——数据仓库方式。首先,建设形成数据中心,将所有归档的数据存储在数据中心,当上层应用发出数据调用的请求,数据仓库会自动响应提供所需数据,能够保证系统响应性能。其次公路项目框架的底层设计是中台化管理和基础设施云化的模式,保障业务、数据、技术均归于中台管理,形成数据中心管理各大功能,档案数据上云服务保障数据处理的响应速度。同时,把工程全生命周期管理方式应用在业务流程、数据管理模式中,以元数据字典与电子文件标准为依据保障形成与保存的数据质量。最后,结合GIS+BIM数据展示对档案数据信息重新“链合”关联,形成完整的数据交付体系,实现基础数据集成、制度集成、业务集成、人员集成等多层面集成,保障形成高质量的档案数据。

3.2 数据集成基础上广西松铁公路项目档案管理系统功能

3.2.1 功能一:实现档案数据信息的可视化

该项目以GIS技术和BIM模型为项目设计、施工方案、施工质量监督和进度控制提供极大地便利条件。在项目竣工前,GIS和BIM模型对已经形成的海量文档电子文件与声像电子文件集成,能够推出一个全新的可视化集成系统,为公路营运提供充足的项目建设信息。

首先,业务系统信息可视化应用。该项目档案主要涉及施工单位、监理单位、业主单位以及系统管理员四个主体的档案采集、整理以及利用等,每一个主体单位按照各自不同的流程把需要归档的资料进行填报、审核、盖章、上传,通过特定的元数据整理、分类与集成,最终形成结构化数据库。在数据库中能够明确看到每个过程中的责任人以及相关文件详细内容。将可视化模型引入到档案数据信息检索,把文书档案、图形、声像数据等档案数据关联到三维的可视化空间中显示出来,并向用户提供信息检索查阅的过程。通过此种方式不仅可以解决档案可视化收集、业务可视化管理、内容可视化组织、知识可视化挖掘和信息可视化利用等问题,同时为档案维度溯源项目建设奠定坚实基础。其次,管理与监测信息可视化应用。基于BIM+3DGIS技术,通过对基础地理信息集成构建沿线基础地理信息三维空间场景。再根据地理信息数据集成模型,仿真出设计模型、施工模型等。应用勘察设计阶段建立BIM模型、集成项目施工阶段的管理信息、工程档案信息、视频信息,实现公路空间基础地理信息、质量安全监控数据、项目管理信息等数据整合、交换和共享。

3.2.2 功能二:实现多维度档案数据立体溯源

档案数据集成方式能够明确记录该数据在生命周期内数据工作流程,同时通过科学规范的元数据,档案管理系统能够更加清晰地映射各个主体以及要素之间的关系,使归档材料的形成过程可复制、可再现、可验证。多维度档案数据集成和溯源的关键点在基础层的数据信息,包含文书档案、图表、图形、声像数据等传统档案数据和GIS地理空间信息、构件形状尺寸等空间地理信息。

由于,公路建设项目资料所涉及的内容众多且主体多元,因此在档案数据采集、存储和集成过程中,会采用数据溯源安全模型,通过对文档、声像数据等添加一些无法修改的参数,例如:时间戳、加密密钥等,从而保护溯源链安全,实现档案数据的可信性和不可抵赖性。通过标注法和反向查询法,实现多维度档案数据的全程溯源。

其次,通过GIS技术和BIM模型,在元数据原理指导下,利用唯一性标识编码技术,项目建设期所形成的各类文本型电子文件和声像文件信息进行挂接和信息数据共享,对这些数据实行有效的管理、显示、查询,档案信息数据转换为更为直观的可视化信息,通过完成地形地貌三维可视化、基于航拍数据及BIM融合的3D数据模型监控和设备运行维护的可视化、档案信息综合利用可视化、设备设施管理可视化等相关工作,能够实现项目档案数据溯源。

3.2.3 功能三:实现多源时空数据利用与共享

在公路建设项目档案数据集成中,经常会涉及多源异构时空数据的集成和协同问题。由于公路项目档案类型多样化,不仅有传统的纸质档案也有新型电子档案、实时监测生成的信息。其形成的模型是以三维空间为主,数据来源复杂且规范性较差、存储的结构性差异较大。同时,各层级信息之间存在信息孤岛等问题,难以实现快速地共享与集成应用。数据有效共享依赖数据高效集成。在该系统建设中加入元数据管理技术,通过构建统一的元数据仓库,对各类数据对象进行描述、标识、分类等;其次,运用ETL技术对档案数据进行清洗加工,并将处理结果存储在目标数据库中。该系统通过对元数据的控制和统一的标准能够使用户检索更加便利。也使档案数据管理员更加条理化,增加数据的辨识度,管理系统对于数据识别与储存更加快捷。同时,实现数据动态更新与实时反馈,适应公路项目建设过程中各种动态调整,提高数据的时效性、灵活性、利用率和价值。

3.2.4 功能四:建设智能化管理一体化平台

公路项目智能管理一体化平台建设是松铁公路建设项目档案管理系统的总体布局,以公路建设项目为依托,引入建设与管养护一体化理念,以BIM技术为纽带,覆盖从项目建设开始至竣工后养护全过程的档案数据,统筹规划建设管理、运营管理和养护管理三方面的数据。用计算机技术构建工程项目数字化管理环境,以数字化为基础,聚合不同阶段各类工程要素,实现网络实时传输功能。一体化数据平台的建设能够提升项目运营管理能力、数字化管控能力,充分释放公路产业品质和潜能。在公路建设项目档案数据集成中,重点把BIM模型和工程项目管理过程中形成的结构化和非结构化数据进行集成和管理,打造一体化、智慧化的大型数据库。建立全线BIM模型,对其进行深度开发实现碰撞检查、工程量计算等应用场景;其次,将BIM模型集成的数据上传至项目管理平台实现项目质量、安全、进度、投资等可视化追溯与控制;最后结合GIS技术实现IOT(物联网数据)数据与BIM的关联,建设一体化智能管理平台。

4 结论

经过数十年的发展,档案信息化呈现档案存在形式数据化、运行模式实时性强、技术应用高新化、价值模式数智化、管理方式一体化与集成化等特征。档案数据集成应用使得档案数据可以实现可视化档案数据展示、数据交互分析、多维溯源以及一体化管理等功能。从未来发展的角度讲,集成化的档案数据将成为人工智能在各行业中应用的基本经验基础。在先进信息技术推动下,档案数据集成应用的场景和范围会不断地构建和延展,创造出新的信息组织形式、传播模式和应用方式。

本文以广西松铁公路建设项目档案管理系统为例,探究发现依托数据集成平台建设,可以有效地打破各业务系统之间的信息壁垒,可以实现档案数据的高度集中,可实现多源时空数据的共享利用,可以集成与呈现有广阔应用市场的可视化档案,可为档案数据的多维溯源奠定坚实基础,并可以在将来实现更多方面的电子档案数据赋能。此外,各个行业针对本单位、本行业形成的档案数据以及业务实践开发人工智能系统,建设形成集成化的档案数据则为人工智能的利用提供了更加便利条件。因此,未来研究与实践工作要以数据集成方法与技术为指导,以档案工作实践为导向,不断完善集成化档案管理系统的内容,使之更具友好性、集约性和全面性。

猜你喜欢

可视化
无锡市“三项举措”探索执法可视化新路径
基于CiteSpace的足三里穴研究可视化分析
自然资源可视化决策系统
三维可视化信息管理系统在选煤生产中的应用
思维可视化
基于Power BI的油田注水运行动态分析与可视化展示
自然资源可视化决策系统
基于CGAL和OpenGL的海底地形三维可视化
可视化阅读:新媒体语境下信息可视化新趋势
“融评”:党媒评论的可视化创新