“零库存”档案馆概念下档案数字信息中心的架设
2023-12-11韩峰黑龙江省档案馆
韩峰/黑龙江省档案馆
随着“大数据”时代的到来,档案馆的职能开始向着两个不同的方向演化,即档案存储职能和社会服务职能,“零库存”档案馆的概念因此被提出[1],并将二者落实所需的物理空间用“档案存储中心”和“档案馆”分别加以定义。档案馆行使档案的查询接待、展览参观及休闲服务职能;档案存储中心负责档案的存储和管理,是档案保存的场所。随着近年来档案数字化建设及档案馆智能化管理的不断发展,数字档案的管理与纸质档案的保存出现了任务分离。数字档案管理技术在与大数据的发展与融合中增添了许多新的内容和标准,而纸质档案的存储则着力于对历史档案的保护、修复及库房智能化管理等内容,二者需要承担的责任有着天壤之别。笔者试图将二者分开,着眼于建立档案数字信息中心。
1 “零库存”档案馆概念中档案数字信息中心的界定
在“零库存”档案馆的概念下,档案数字信息中心指数字档案存储与管理的物理场所,负责档案数字信息的收集、生成、管理、维护和分享利用。档案数字信息的来源途径广泛,包括纸质档案数字化后生成的图像文件、著录文件及相应的数据库;电子文件档案及其数据化操作后生成的数据库;从大数据中采集的档案数字信息;直接以数据流方式接收的数字档案等。这些信息资源通过数据化、编码操作等手段形成具有一定结构的数字信息,作为馆藏档案数字信息的基础。
2 档案数字信息中心面对的任务
档案数字信息中心的建立,首次将档案数字信息的管理工作放在核心位置,使档案数字信息的存储和管理脱离了既往档案馆原有的工作模式,推动档案工作与大数据的有机融合。
2.1 档案数字信息的接收、存储和共享利用
档案数字信息中心建立以后,其直接任务即是对大量数字信息进行管理,并提供查询利用。
2.1.1 纸质档案图像文件的数据化处理。档案数字信息中心建立之初,档案信息资源绝大多数来自馆藏纸质档案的扫描图像文件,这些以图片形式保存的文件需要编码操作之后设置相应的结构,以加入数据库中来。为便于后期数据库的查询利用等操作,应先将图片档案进行著录,再将著录文档与图像相链接,生成打包文件并进行编码操作,形成数据信息,并与其它数据信息进行关联,进而提供利用。
2.1.2 档案数字信息的存储。随着档案中电子数据比例的提升,以及电子文件单套制归档政策的实施,档案数字信息的存储地位被提升,并提出了新的要求。首先,档案数字信息的存储需要安全性保障。涉密数字信息被盗用以及存储系统被攻击等情况的发生具有较大可能,需要专业人员随时对存储系统进行监管、维护和升级。其次,档案数字信息的存储需要较强的稳定性。档案数字信息系统发生故障或被人为侵入后很容易造成数字信息的不稳定,导致部分信息不能提取或信息内容被篡改等问题,这就需要设计师在系统设计时注意加载自查程序和报警设置。再次,档案数字信息的存储具有可用性。档案数字信息被存储起来的目的是提供查询利用,这就需要经常性地进行系统自查和利用服务回访,不时检验档案数字信息存储系统的可用性,并不断进行更新和升级。
2.1.3 共享式接收与生成档案数字信息。融入大数据技术以后,档案资源建设进一步向智能化方向迈进,档案数字信息的增加应更多地依赖共享式接收与生成,这就要求档案智能化接收系统的更新迭代。这一系统的建立可以让档案执法部门从源头上对立档与接收工作进行有效监督,并进一步减少人为控制因素,避免徇私舞弊,以保障此项工作按照有关标准与规范有序进行。与此同时,这一系统投入应用以后,也使得档案部门能够参加档案的生成过程,理解某份档案形成的初衷,提高利用价值。
2.1.4 从定点服务到共享利用。首先,档案数字信息中心的另一重要职责是为档案馆建立数据的查询利用端口,让利用者通过档案馆的查询端口进入档案数字信息数据库中进行查询,笔者称之为“定点服务”。其次,档案数字信息中心的建立就是要整合不同层级、不同区域的数字信息,实现资源的融合与共享。在笔者的架设中,档案数字信息中心应以省份为单位,组建唯一的数字信息中心,避免叠床架屋浪费资源,也避免层级划分给查询利用造成阻碍。再次,与大数据技术的融合使得档案数字信息拥有大数据的部分特性,档案价值的体现不再以稀缺性、独有性为依据,而是要通过共享来挖掘档案资源更多的潜在价值[2],让档案价值在流动中得以实现,笔者称之为“共享利用”。这就需要查询系统在设置的过程中充分考虑为档案馆提供服务的现实需求,也要考虑社会大众在其他端口进行查询时的需求满足和安全设置之间的协调,更要考虑涉密档案及控制档案面对有特殊需求的组织及个人时,需以何种方式进行网上签证和监管。
2.2 档案数据的整合、管理和维护
档案数据是指“数据化的档案信息及具备档案性质的数据记录”[3],其中包括承载档案信息的数据,也包括在档案业务工作中产生的累积性数据[4]。对这些数据的整理、编码和日常维护是档案数字信息中心的重要任务。
2.2.1 提高数据的价值密度。通过各种渠道形成的数据被存储于档案数字信息数据库中,这些数据具有多重关联,计算机将这些关联内容进行存储,以保证数据信息的完整性,有些信息价值密度低[5],白白占有存储资源。从这个角度讲,档案数字信息中心并不等同于大数据中心,不应原封不动地保存所有数据,而应随时随地对存储数据进行筛查、鉴定、删减,以提高存储数据的价值密度。
2.2.2 对数据进行多维整合。除了由纸质档案转化而来的数字信息,以及按立档要求收集来的电子文件信息以外,数字信息库中存储的大部分数据具有多维化特征。单从信息的内容来看,即是五花八门,鱼龙混杂,各种内容的信息共存于同一数据库之中,需要通过整合与分类加入不同的目录树中,以便于查询利用。从数据类型来看,这些信息更是种类繁多,不仅有结构化数据,也有非结构化数据,且后者占据着更大的存储空间。这种多维结构的数字信息需要进行后期编码整合,通过统一的结构化操作纳入到数据库中来。
2.2.3 实现“让数据说话”的数据治理模式。“数据不仅仅是档案内容的一种呈现方式,更是对其本身进行合理管制的一种手段,即通过数据的自动运行设置内隐处理模式”[6],让数据说话。这种数据治理模式也是档案数据管理的智能化手段,包括档案数字信息的智能分类、智能鉴定、智能组卷、智能编目及智能签证等智能化功能[7]。利用文本分类和深度学习技术可以对档案数字信息进行智能化分类与归档,通过模块操作,让数据在运行中自动匹配分类号;利用信息抽取和智能匹配技术实现对大量档案的智能化批量处理和精确鉴定[8];通过深度学习,命名实体识别等技术,让数据在运行中自动编写页码、生成档号;通过将智能签证功能嵌入档案流转过程中,运用模式识别、信息抽取和特征匹配等技术进行签字提取、图样比对等操作[9]。
3 档案数字信息中心的机构设置
档案数字信息中心以数据处理、信息的管理与维护,以及网络运行服务等为工作内容,将互联网、大数据等技术融合到档案数字信息的管理中来,其机构设置应与之相匹配。
3.1 档案数字信息采集部
档案数字信息来源途径广泛,用“采集”加以概括更能体现此项工作特征。此外,随着无纸化办公和电子文件单套制改革的实现,档案部门对档案的接收征集工作将发生很大变化。成立专门的档案数字信息采集部,内部根据信息的类型和途径设置相应的科室,如纸质档案图像接收科、大数据信息监察采集科、部门档案接收科等,有利于优化管理机制,以适应新的工作内容。
3.2 档案数字信息分类归档部
从大数据信息中采集到的档案数字信息,事先没有立档单位进行分类归档,需要在加入数据库前进行专门的分类归档处理,以适应管理及提供利用的需要。成立专门的档案信息分类归档部,在数字信息采集完成后迅速对其进行整理和归类,并利用数据智能化处理手段,自动形成目录,以保障档案数字信息的可用性。
3.3 档案数字信息编码解析部
档案数字信息在初步整理与归类后,还需要专业人员深入信息内部,对其进行解读,添加注释和备注文件,并将这些信息编码到相应的数据库文件中,以实现数字叙事模式[10],在利用者查询利用时自动呈现。这一工作需要受过专业训练的工作人员来完成,对于历史档案尤其如此。因此,成立档案数字信息编码解析部有利于保证工作质量。
3.4 档案数字信息鉴定与签证部
通常情况下,档案数字信息的鉴定需要专门的档案业务专家来完成。但当面对大量需要处理的鉴定内容时,档案业务专家能够即时处理的工作量极为有限,开发数据智能处理手段尤为重要,让业务专家的工作与数据智能处理系统有机结合,确保数据智能系统能够处理常规情境下的鉴定任务,并自动签证,与此同时,通过即时的“困难情境”提醒,让时间和精力有限的业务专家来处理系统难以驾驭的鉴定内容,以节省人力和操作成本。这就需要成立专门的档案数字信息鉴定与签证部,集中精力研究与处理档案鉴定过程中出现的各种难题。
3.5 外文及少数民族文字档案数字信息研发部
直接以档案数字信息形式接收的内容中包含有一定数量的外文及少数民族文字数字信息,随着中外交流的增加及中心业务的不断展开,这部分信息还会大量增加,设立专门的外文及少数民族文字档案数字信息研发部有利于此项工作的顺利进行。此外,在将非汉语纸质档案的扫描及著录信息与数据库进行挂接时,也需要专业人员进行相关操作。
3.6 档案数字信息存储技术部
档案数字信息的存储一直以来面对着各种技术难题。首先,对历史遗留下来的各种存储设备中保留下来的此类信息的读取和复制,以及如何解决这部分信息与数据库的相容性等问题是最核心的问题。其次,档案数字信息普遍存在着保存质量的问题,对信息读取的失真,以及对这些信息的复原和改良成为难题。再次,对于从大数据中采集来的档案数字信息的存储和维护目前还处于尝试阶段,各种问题接踵而至,需要对其进行专门研究。成立档案数字信息存储技术部,作为这一任务的专职承担部门,将发挥重要作用。
3.7 档案数字信息网络运营部
档案数字信息中心的建立,将打破传统档案馆各自为政、囤货居奇的现状,分享与共赢将成为未来档案部门生存和发展的重要使命。此外,随着社会生活的不断变化,人们大部分需求将逐步在网上实现选择与调配,查档利用也不例外。如何让用户足不出户即可进行查档利用,并逐渐打破区域壁垒,使利用者获得更多调用权限,成为档案数字信息中心需要面对的重要课题,为此,需要在保障信息安全的前提下,开拓更为广阔的信息利用渠道,让更多的组织和个人受益,让档案工作真正为民众服务。这就需要成立档案数字信息网络运营部,集中处理数字信息在网络运营过程中产生的信息安全问题、信息利用监管问题、路径选择问题、区域共享问题、客户端认证问题等。
4 档案数字信息中心人员的组成和培养
档案数字信息中心根据其任务的独特性,对信息内容的各项管理与操作大部分需要工作人员具有较高的专业水平。
4.1 招录计算机专业背景的考生
招录大批具有计算机及网络技术相关专业背景的人才是档案数字信息中心的基础。改变以往的招录方向,为新兴科技人才的录用敞开大门,以推动档案数字信息工作的良性发展。此外,计算机及网络技术更新迭代频繁,需要对这些招聘上岗的人员及时进行知识技术的更新,适时培训和充电是保持专业能力的不二法门,这就需要档案数字信息中心能够与相关科研院所建立长期合作关系,为计算机专业人才的定期培训提供支撑。
4.2 选聘历史专业背景的研究生
档案数字信息中心的工作内容包含着大量面向史料整理开发方面的业务工作,延揽历史学专业人才将有利于相关工作的顺利推进。随着业务的不断深入,这一领域更加需要拥有研究视野的人才,提高学历要求,选录历史专业具有研究生以上学历的考生将成为更佳选择。与此同时,加强与其他专业部门的交流与合作,提高科研实力,寻求机构与人才的双赢。
4.3 扩大外文及少数民族语言文字类专业考生的专业招聘范围
选聘外文及少数民族语言文字类专业考生应扩大专业选聘范围,增设更多小语种外文专业及国内少数民族语言文字类研发岗位,引进古文字、死文字等研究领域的研究人才,加大有关人才的延揽力度。人才上岗后,增加在岗在职培训机会,并为这些人才提供更多出国深造及语言文字研究实践的机会。
4.4 优化人才考评及流动机制
首先,为增强工作人员的业务能力,需要在一定时段内对人员定期进行业务考评,根据考评结果评定级别,确定绩效奖励方式。其次,建立健全人才流动机制。可在行业机构内部率先实行,不同省域的档案数字信息中心可以建立联动机制,让人员的内部调动成为可能。与此同时,也要建立机构外部的流动机制,允许相关人才到高校、研究院所及相关企业进行就职。