省域档案数据资源归集的思考与实践
2023-08-22高乐季文云浙江省档案馆
高乐 季文云/浙江省档案馆
走向依法治理、走向开放、走向现代化是时任浙江省委书记习近平同志于2003年5月视察浙江省档案馆时对档案工作作出的重要指示,“三个走向”为做好新时代档案工作提供了根本遵循。然而长期以来,由于信息技术条件的限制,档案作为一种宝贵资源却一直深藏在各馆的库房或局域网内,其利用模式相对简单并有较多局限,档案的治理水平、开放水平、现代化水平已难以满足群众日益增长的用档需求。档案数据资源归集是档案工作“三个走向”的基础性、关键性环节,推动档案数据资源的全量归集,能够更好地为社会主体提供档案资源共享和档案利用服务。
本文通过阐述浙江省档案数据资源归集利用现状,分析其中存在的问题、短板,进而提出解决路径,为省域层面的数据归集提供参考。
1 档案数据资源的归集现状
1.1 数字档案馆建设领跑全国
2012年7月,浙江省档案局制定发布《浙江省数字档案馆建设管理暂行办法》,此后全省梯次推进数字档案馆建设,截至目前,全省各级数字档案馆(室)实现全覆盖,其中全国示范数字档案馆11个,国家级数字档案馆54个,数量位居全国前列。随着数字档案馆(室)建设的深入,全省大多数档案馆的馆藏数字化率已达70%以上,部分档案馆甚至已经达到100%。
1.2 数字档案公共服务便民惠民
2017年11月,浙江省档案馆启用“浙江档案服务网”,全省100家综合档案馆共同组成网上联合查档大厅,提供查档指引、网上查档等服务,此后迭代升级“掌上”“网上”查档出证服务,将“一网查档、百馆联动”服务延伸至“浙里办”,再贯通至长三角查档一体化平台、全国档案查询利用服务平台,逐步打通查档服务“最后一公里”,实现民生档案利用跨省“一网通办”。
1.3 档案数据归集先试先行
2021年8月,浙江省档案馆印发《浙江省档案工作数字化改革方案》,提出加快档案资源向数字化、数据化转型,此后分阶段下发《关于开展档案数据资源归集共享试点工作的通知》《关于开展档案数据资源归集共享提质扩面工作的通知》,制定试点工作方案、汇集标准、数据安全保密要求、平台运行管理办法、工作应急预案等系列制度规范,稳步推进档案数据归集共享工作。截至2023年7月底,已完成全省档案馆数据归集6000余万条。
2 档案数据资源的归集困境
2021年之前,浙江省档案数据的归集大部分局限于各馆(室)层面,各类档案资源也只是粗放的统一收集,没有省级层面的数据库,档案信息资源多而散,档案数据各自为阵,没有形成集聚效应。究其原因,主要有三个方面:
2.1 档案种类繁多导致归集难
档案数据资源归集的前提是模板统一,但是目前尚没有统一的标准的归集模板可供使用,每类档案都必须设计一个涵盖大部分档案信息的模板,才能在检索利用时快速定位,工作量大且杂。
2.2 档案执行标准不一导致归集难
虽然国家层面陆续出台了档案数字化工作标准文件,但这些标准都是行业标准,不具备强制性且用词上多以建议性质为主,这就导致各个档案馆在执行过程中对标准尺度的把握不一,例如在扫描分辨率、存储格式、OCR处理选择等不尽相同。
2.3 档案数字化质量不高导致归集难
就目前而言,受限于经费、工作人员业务水平等原因,纸质档案的数字化过程中数据质量参差不齐,经常出现目录错误,原文缺页、重页等问题。
3 档案数据资源的归集对策
3.1做好顶层设计,明确归集原则
第一,共享性原则。档案数据资源归集的最终目的就是为了“走向开放”,各档案馆归集的档案数据资源原则上应予以共享。共享类型分为无条件共享(即可提供给所有部门及社会群体使用的档案)、限制条件共享(即可提供给相关部门或仅能够部分提供给相关部门使用的档案)和不予共享(即不宜提供给其他部门或社会群体使用的档案)。第二,安全性原则。2021年9月,我国颁布实施《中华人民共和国数据安全法》,对数据的使用安全提出了明确要求。档案的数据安全是档案开发利用的前提,其安全涉及硬件、软件、网络、人员等要素,应尽可能规避数据在拷贝过程、传输过程中的安全问题,保障各档案馆内网数据的安全和上传数据的安全。第三,准确性原则。档案数据的准确性是档案开发利用的前提和基础。档案数据来自各个档案馆、各个部门,其数据执行标准不一,数据质量参差不齐,归集前必须逐一复核,严格按照统一模板梳理清洗,确保数据格式统一准确。
3.2 聚焦实际需要,理清归集思路
档案数据资源归集是一项复杂的系统性工程,必须经过充分调研、总体设计、反复论证,确保归集工作安全有序推进(见图1)。
图1 档案数据资源归集工作思路
3.2.1 建立健全体制机制。省级层面制定《浙江省档案数据共享中心档案目录数据库结构标准》《浙江省档案数据共享中心平台运行管理办法》等系列制度规范,为全省归集工作提供遵循。各档案馆在接到归集通知后,组建专班、厘清家底,建立健全馆长负责制、市县联动制、进度督查制、解难会商制等工作推进机制,在数据归集上共同发力,加快数据资源归集“一盘棋”合力推进、“一体化”互助联动。
3.2.2 明晰归集利用思路。档案数据资源的归集利用,归集是前提,利用才是目的,待全省数据归集任务完成后,要及时根据不同的档案内容、用户和场景,划定不同的共享方式和利用范围,以期实现更加高效的档案资源共享和更加便捷的档案利用服务。
3.2.3 设计开发数据归集系统。归集系统是数据归集共享的关键,其设计的合理性关乎归集的速度、质量以及后续开发利用的可行性和便捷度。浙江省档案数据归集系统采用的是前后端分离可独立部署维护的spring cloud微服务框架,实现档案资源归集服务的可伸缩、可灵活扩展。系统架构见图2。
图2 归集系统架构图
基础设施层方面,归集充分利用政务云平台资源,依托云服务器、政务网络、政务云存储、云安全等政务云基础设施,系统网络与互联网逻辑隔离,确保数据安全。
数据层方面,利用多种类型的数据存储模式,关系数据库用来存储档案目录数据,对象存储服务(oss存储)用来存储档案全文数据,键值数据库用来存储缓存数据,提高数据访问性能,确保各个微服务之间参数利用高效畅通。
业务支撑层主要是为业务服务层提供支撑的基础能力,包括服务发现配置中心、服务流控防护、消息队列和统一安全管理。服务发现配置中心主要是服务发现和服务健康监测、动态配置服务及其源数据管理等。服务流控防护主要是监控微服务流量并相应控制,在极端情况下熔断相应微服务以起到保护服务器的作用。消息队列主要解决应用耦合、异步处理、流量削锋等问题。统一安全管理平台4A(认证Authentication、授权Authorization、账号Account、审计Audit)是以身份为中心,实现账号、认证、授权和审计统一管控的安全访问平台。
业务服务层方面,按功能纵向划分业务服务,将归集按照功能拆分为目录归集、全文归集、档案资源管理和归集过程监控等粒度更细的服务,每一个服务都作为一个独立的应用,可独立进行开发、管理和部署,也可根据系统的压力灵活地增加相应的服务器,有效解决大批数据集中上传导致的系列问题。目录归集主要是对全省共享档案资源目录的归集,采用消息队列进行流量削峰方式应对大量的数据库并发操作。全文归集主要是将全文上传至oss存储,归集过程支持高并发多线程分片传输,对传输失败的任务支持断点续传。档案资源管理主要是将上传的目录和全文按一定规则匹配关联,挂接规则可自定义,从而更好地满足不同挂接情况,且挂接规则可保存,避免相同类型的档案多次挂接重复配置规则。归集过程监控可查看目录归集、目录全文挂接的排队情况,以及全文的上传情况。
接入层方面,通过网关将并发的用户请求通过规则后平衡、分摊到多台服务器上进行执行,以此达到压力分摊、数据并行的效果,有效地提高归集服务的效率和稳定性。
应用层方面,设置业务部门入口和市县档案馆入口,从源头区分用户的使用权限,从而更好地为用户服务。
4 档案数据资源归集的思考
4.1 做好对比筛选,分批分类推进
当前,在各个档案馆的数据资源中,既有数字化的纸质档案、接收进馆的电子文件、音视频档案等,也有用户利用信息、服务数据等数据资源。数据归集工作开始前,必须结合实际发展需要和现实条件明确归集的种类和范围,选取利用率较高的档案、数字化质量较高的档案,成熟一批归集一批,然后开放共享一批。浙江省档案数据资源归集设置了7类档案数据,分别是民生档案、开放档案、声像档案、编研成果、档案展览、镇馆之宝,其中民生档案以馆藏婚姻、土地承包、山林定权、房产、移民、知青、国有转制企业职工、户籍、学籍、公证、独生子女、出生医学证明档案等12类老百姓最为关心的档案为主;开放档案以明清档案、民国档案、革命历史档案和新中国成立后档案为主;声像档案以照片、音频、视频档案为主。
4.2 归集前必须统一模板,方便后续开发利用
当前,各个档案馆的数据资源来自不同的单位、不同的时期,且大多数单位囿于时间、技术、人员条件限制,选择将档案数字化工作外包给档案数字化服务机构承担,然而不同外包服务公司对于档案数据质量的把控不一,往往出现数据格式、信息代码和元数据项不统一等现象。因此,数据归集前必须统一归集模板,以免在后续的数据清洗过程被清除,确保每一个数据在同一适配规则下都能被检索、被利用。浙江省档案数据资源归集在充分调研各馆数据现状的前提下,提供了统一的数据规范和数据模板,并组织召开业务培训会,对档案数字化外包服务进行规范,确保省内拥有外包资质单位都能严格执行《档案服务外包工作规范》,确保今后档案数据数字化格式相对统一。
4.3 保持系统稳定,确保数据安全快速上传
无论什么传输系统,稳定性都是评判系统好坏的关键因素之一。一个好的系统不仅可以提高工作效率,还可以激发工作人员的积极性。由于各个档案的数据资源容量都达几TB,这就非常考验系统的承压能力和稳定性,如果系统不好,用户体验不佳,归集工作推进的难度将成倍增加。浙江省档案归集系统通过采取多线程上传模式,让单个大文件分片上传,提升文件上传性能。通过部署多个数据归集微服务实现负载均衡,提升服务性能。通过消息队列服务,实现目录导入和批量挂接的排队执行,避免短时间大量工作导致系统崩溃。
5 结语
档案数据资源是档案工作“三个走向”的基础,浙江省档案馆从档案数据资源的归集类目、归集模式、归集路径进行了探索实践,走出了新时代、新技术背景下档案工作革新的出路,为全国省域层面的档案数据资源归集提供了有益探索。档案数据归集是一项持续性工作,需要持续发力、久久为功,只有全量汇集一个省的数据,才能真正彰显大数据的优势和效率。