黄河档案数字化研究
2021-09-26孙贇王冠华刘文毅
孙贇 王冠华 刘文毅
如今互联网时代高新技术迅猛发展,各行各业都迎来巨大变化,新技术给档案工作也带来了新变化,各级各类档案馆深入贯彻国家信息化发展规划,及时跟进大数据和AI的发展应用,推进数字化档案馆建设。新的技术为黄河流域生态保护和高质量发展的工作提供了新手段,黄河档案资料的利用也提出了新要求。文章阐述了大数据时代黄河档案信息数字化面临的问题,分析现状以及平台建设的内容助力黄河流域生态保护和高质量发展。
黄河是中华民族的母亲河、中华文明的摇篮,黄河流域生态保护和高质量发展上升为国家战略,对黄河档案的管理和利用是实现国家战略的重要一环。为了黄河档案的信息化、数字化得到长远的发展,档案管理部门把大量纸质档案进行了数字化加工,成绩斐然。但因为没有统一的标准和执行规范,黄河档案管理部门重复和过度建设线上平台,并且相互之间不能互联互通,严重阻碍了黄河档案信息资源的共建共享。对此,我们提出构建以大数据为基础的黄河档案信息资源共享平台,运用共享数据库技术、数据检索技术、及人工智能技术等现代化先进技术手段将纸质文件、电子资料、声音视频文件进行高度数字化处理,打造网络共享平台。在保障数据安全、成果无误的前提下,以网络共享形式传输有关黄河的信息资源、宣传工作成果,以实现黄河档案信息的便捷利用和资源共享。
一、档案数字化现状分析
传统的档案主要通过纸张进行存储,长期保存有一定的风险,资料被查阅时,翻阅档案原件或者利用不当,都会磨损甚至损坏档案原件,很难保证档案资料的长期保存,以至于一些珍贵档案借阅程序复杂,影响其利用价值。早期的数字化项目旨在对数据进行编码以进行系统分析,现在正在尝试无需前往档案馆操纵实物,试图以一种开放式的查询方式来分享独特的档案资料。随着对数字档案馆研究和认识的不断深入,全世界都在大力促进档案资源的信息化建设。
如今,档案储存的载体已从纸张向硬盘、光盘等电子储存设备转变,在查找档案时不会影响到档案原件,而且还能借助于现代信息技术,对缺损、不易辨别档案进行深度修复。特别是美国国家档案馆发现其收集的电子文件种类日益丰富,除了文本文件、数据库文件之外,还有电子邮件、地理空间数据、数字影像等结构复杂的数据,同时大众也希望能够通过在线方式获取数字档案。爱因斯坦的数千份文件被进行了数字化处理,普林斯顿大学出版社已经以数字格式出版了近3000篇文章,占爱因斯坦论文的10%。紧随美国之后,欧盟、澳大利亚、新加坡等国也先后着手推进档案信息数字化、网络一体化建设。我国同样高度重视档案资源信息化,2020年两会期间,档案信息化受到社会各界高度关注,有代表提出重视历史档案资料的组织和整理,提倡结合数字化、信息化的方式,保护性利用历史档案资源。
二、黄河档案共享面临的问题
目前数字档案馆中已被数字化的资料仅占档案记录的一小部分,数字化程度还比较低。部分档案馆缺乏资金支持,数字化能力有限,需要政府及社会基金予以支持。档案资源管理系统需求设计、功能要求各不相同,编写平台的编程语言存在差异,流程环节没有统一,无法做到交互共享形成各自为政的分割局面。各单位缺乏整体合作意识,都在着眼本单位的档案资源体系建设,形成数据孤岛,同一份数据存在于多个业务系统内且内容不一致,缺少统一的数据标准、数据管理流程及可靠的管理工具,出现质量问题时往往无法有效追溯并修正。部分档案馆服务理念滞后,缺乏资源的协调与合作,跨部门、跨系统的合作较少,合作的力度不足。黄河档案资源标准化体系建设不完善,同时数据来源繁多,格式类型千差万别,海量数据也造成管理的压力,同时也影响到资源的有效使用。
同时数字化档案资源还面临网络安全的威胁,网络环境下,存在档案数据泄露、滥用、恶意破坏、病毒攻击以及隐私侵犯等风险,并且部分平台缺乏安全的共享渠道[3]。网络安全保障与大数据和云计算技术发展不够同步,法律法规也还不够健全,数据隐私保护不够成熟,目前还无法做到全方位保护。设备损坏、操作失误以及恶意窃取等都会对云平台中的数据造成安全威胁,各类档案以及大数据平台均面临的数据信息安全问题,备受争议。
三、黄河档案信息资源共享平台建设
建设黄河档案信息资源共享平台是档案数字化的关键一步,也是档案工作融入国家大数据发展战略的主要目标,打破时间、空间上的障碍,使得资源技术共享成为现实,充分利用档案信息资源为黄河流域生态保护和高质量发展提供便捷的数据支持。
(一)共享平台的管理
数字档案馆分为平台建设、平台运维、资料提供、资源利用四个方面的人员,在不同阶段发挥着重要作用。黄河档案信息资源共享平台需要有效化的管理,分为用户端和管理员端更好的为档案数据共享做好服务工作。登陆用户端,可以浏览黄河发展演变、地质、时空、环境、生态、水利、历史、文化、遥感影像等9个分类档案资料,实现了信息共享。平台建立了一套存储格式标准体系,分级分类存储,利于管理和调用。每个分类的档案可以实现内容的检索,从而进行查看自己感兴趣的内容,同时用户可以将用户的意见反馈给管理员端。
用户可以通过在平台注册账号登录共享平台,实现个人浏览,平台根据验证信息对不同用户类型提供相应服务,管理员通过账号和密码可以登录管理界面,不仅可以对管理员账户进行增改删查,而且能对档案内容按照分类的增改删查,还能实现对意见反馈内容的查询,同时该平台涉及后台数据库,包括用户表、意见表、内容表和分类表等。
(二)共享平台实现的功能
黄河档案信息资源共享平台可以实现一下功能:信息接收功能、档案存储功能、数据选择归类、数据转换、质量控制、数据融合、安全脱密和数据监控预警功能等。同时基于大数据、智能检索的数字档案馆应当具备外部汇交资料的接收和交换能力、对原有资源进行数字化处理、格式转换、脱密保障等功能[5]。通過预留接口和数据转换可以吸收所有外来资料,资料上传之前不需要处理,上传之后进行统一处理、格式转换。采用超融合服务器,对接收的档案资料进行储存、备份,强化数据库运营管理,优化记录逻辑与物理顺序间对应关系,提高数据存取速度。对元数据进行统一管理管理,提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。支持数据质量核查,照检查规则配置中的编码规则进行检查,并进行数据完整性、精确性、关联性核查,保证数据质量,数据核查结果进行可视化处理,及时反馈问题。平台灵活运营让数据共享交换变得随时随地、按需和便捷,充分调度计算设施、存储设备、应用程序等资源,满足用户多元化、复杂的需求,降低了开发、管理的难度。
(三)共享平台的数据安全
数据安全是共享平台的关键,确保档案数据安全和网络传输安全是实现档案数据共享的前提。数据安全也是黄河档案信息资源共享平台务必加强的地方,抓好数据安全与服务、发展的内在关系,强化安全管理,提高安全意识,健全防范机制,通过采用各种技术和管理措施,确保网络数据的可用性、完整性和保密性。从外部威胁防御、内部风险控制、数据追责溯源、数据共享与交换、终端安全、云安全等多层面入手,在保证数字档案馆平台安全运营的前提下,尽可能为用户提供优质的服务。利用具有高效接口兼容多种数据格式,采用在线和离线相结合的方法接收不同格式保存的数字资源,打造了数据库防水坝、数据库审计、数据库透明加密、数据库防火墙、数据脱密、等一系列数据安全措施,建立有效安全体系、提升安全防御能力。
四、数据检索
建设一套完备的数据采集、储存格式标准体系,数据经过标准化统计分类,分级分类储存,利于管理和调用。在档案共享的基础上,对相关信息进行关联,探索高效的关联方式,在查询过程中,输入某一名词则其他相关资料或事件也会出现。再结合深度学习和机器学习来训练模型,使信息检索更加精准便利、提高档案数据的使用效率。可以通过指定文件所在目录进行高效检索,并内置文件解析器,可对Text、HTML、XML、RTF、MS OFFICE文档 (Word、Execl、Powerpoint)、ODF和PDF等二百余种文件格式自动解析检索。运用基于webservice的数据推送和数据提取接口,以及线点ICF数据交换协议进行数据采集和索引。全面优化的相似度算法,更准确地找到与检索词相关内容,根据不同数据结构和用户要求,设计权重分布,从而优化结果排序。数据内容在储存的过程中以文件的形式被保存,优化对核心要素的识别,保障在短时间内对档案资源内容的高效检索。
五、结语
黄河档案属于历史档案,并且档案形式多样,基于其特殊性,其利用和共享的程度一直较低。研究黄河档案数字化建设,推进档案信息化进程,保证公众可以借助网络途径在档案馆中便捷地获取需要的电子档案信息。这种方式打破了传统档案查询空间地域的限制,极大地提升了档案资源的传输和利用效率。实现了黄河档案管理的数字化共享,有利于推动黄河档案信息资源的开放共享,实现档案资源的自身价值,推动黄河流域生态保护和高质量发展。
作者單位:河南省有色金属地质矿产局第七地质大队
基金项目:河南省档案科技项目2020-X-30——“云上黄河”档案馆研究
河南省档案科技项目2020-X-29—— 河南省地质档案数据资源共建共享研究