国家图书馆民国时期档案文献的数字资源建设与知识服务*
2023-08-03冀晓萌
冀晓萌
(国家图书馆,北京 100081)
数字技术的不断创新和发展给图书馆馆藏建设和知识服务提供了更加广阔的空间和前景。作为图书馆馆藏的重要组成部分,民国时期档案类资源的数字化加工整理对于整个图书馆的馆藏体系建设和数字服务水平提高具有非常重要的意义。近年来,民国时期档案资料的保护与开发愈发受到重视,在这种背景下,如何做好馆藏民国时期档案类资料的数字资源建设与服务,成为图书馆面临的重要问题之一。随着《革命历史档案著录细则》《民国档案目录中心数据采集标准民国档案著录细则》等各级图书馆和档案馆标准规范的相继出台,为档案类资源的数字化加工整理工作提供了可靠的技术支持和标准化的操作指南。
“革命文献与民国时期文献保护计划”项目实施以来,以国家图书馆为主的建设单位已完成约1万页日本细菌战罪行调查档案,1.2万页日军在中国战区暴行调查档案,3.3万页相关文字档案的数字化回归工作[1]。笔者围绕国家图书馆馆藏民国时期档案类资源的数字资源建设和服务,探讨民国时期档案类资源的特点、采集难点及方法,探究民国时期档案类数字资源的建设与利用,以期为图书馆馆藏档案类资源的数字化服务提供借鉴和参考。
1 民国时期档案类资源数字化采集
民国时期档案类资源是重要的馆藏历史文化遗产之一,对于保护文化遗产和研究历史具有重要意义[2]。但是档案资源的特点和采集难点也是不可忽视的问题。
1.1 民国时期档案类资源的特点
(1)多样性:民国时期档案资源丰富多样,涉及政治、经济、文化、军事、社会等各个领域。这些文献或档案资源反映了当时社会的多种面貌,包括各类人群、地域、文化等方面,数量庞大。
(2)稀缺性:民国时期,中国社会发生了许多重大变革,如政治制度的更替、社会经济的转型、文化思潮的转变等,由于历经战争和政治动荡,很多民国时期的文献或档案资源已经失落或流散,因此保存完好的文献或档案资源具有稀缺性[3]。
(3)区域性:民国时期政治的特殊性,导致不同地区的政治、文化、经济情况差异巨大,因此在档案类资源的收集和整理中,需要考虑地域特点和文献特征。
(4)具有研究价值和历史价值:民国时期档案资源的研究价值广泛,包括历史、政治、社会、文化等多个学科领域[4]。这些资源在一定程度上反映出历史的真实面貌,可以帮助我们更深入地了解中国近现代历史的演进和发展。
1.2 民国时期档案类资源的采集难点
档案资源的采集是数字化工作的重要环节,对于数字化工作的质量和效率有着至关重要的影响。然而在民国时期档案类资源的采集过程中,却面临着诸多难点:
(1)分布范围广。民国时期的档案文献并没有明确的统一分类和组织形式,而是分散在各个国家、地区、机构和个人手中,这些档案文献既包括政府部门的公文档案,也包括私人收集的文献资料。因此,要将这些零散的文献整合、分类、加工成系统化的数字化文献库,采集时需要耗费大量的人力和物力。
(2)保存状况不同。民国时期档案资源的保存状况各异,有的档案资源保存完好,易于采集和数字化处理;有的档案资源保存较差,存在印刷不清晰、涂抹污损等问题,需要进行修复、整理等工作后才能进行数字化处理;一些文献内容存在缺失、不准确等问题,需要进行补充和校对,这都增加了工作量和采集的难度[5]。
(3)多样性和复杂性。民国时期的档案资源种类繁多,涵盖政治、经济、文化、军事等各个领域,且存在纸质档案、照片、音频、视频等多种形式,这些文献类型的特点和数字化加工方式都不尽相同,需要采用不同的采集设备和技术。此外,很多档案资源以外文形式存在,需要先翻译再进行数字化采集,为保证翻译结果的准确性和可信度,需要专业人才提供支持,从而加大了采集的难度和复杂度。
(4)采集环境要求较高。翻拍方式易受天气、光照等外部因素的影响,如果缺乏专业的档案采集环境如光线较暗,容易导致拍摄出的照片不清晰,进而影响数字化质量。
1.3 民国时期档案类资源的采集方法
(1)电子资源采集:直接采集已数字化的电子版资源。调研档案资源的分布情况、馆藏内容和数量、现有的数字化资源等信息,根据实际情况,可直接对已数字化的电子资源进行采集。
(2)实地采集:实地采集是指到现场相机翻拍、扫描、复印等方式采集文献资源。翻拍是指将文献放在专业的拍摄平台上,用高像素的相机进行拍摄,通常适用于纸质文献和图片等实物资料的数字化采集;扫描则是指将文献放在扫描仪上进行数字化采集,适用于较小尺寸的文献、图册、图表、手稿等多种文献形式的数字化采集。采集者需要具备相关的知识和技能,如对文献资源的鉴定和分类、拍摄和扫描技术等,尽可能保留档案的原始外貌。
此外,针对海外回归的民国时期档案资源,需要先对外文进行翻译,再进行数字化采集。翻译的工作需要有专业学科背景的人员支持,才能保证翻译结果的准确性和可信度。同时,对于一些难以识别和处理的文献形式如手抄本等,也需要利用专业技术进行数字化采集,如通过图像处理技术对图像进行分割、识别和校对等处理。
2 民国时期档案类资源数字化加工
2.1 数据加工原则
民国时期档案类资源因其具有多样性、稀缺性等特点,在数据加工时需要进行整体考虑,确保以下加工原则。
(1)完整保留档案原貌:尽可能保留原始档案的完整性和真实性,不进行过多修改和处理。以1:1的比例采集保存档案图像,原档案幅面较大,无法整体采集的,可将原件分画幅采集,确保拼接与原图基本一致,无重影、拼接处无明显歪斜变形等。
(2)数据质量要求高:数字化加工后的档案资料需要适配多种服务端口,这就需要在加工时按数字资源保存、出版印刷及发布服务的需求可能性,生成长期保存级、出版印刷级与发布服务级图像。保证图像清晰度、文本识别准确性、数据完整性和一致性等方面,以确保数字化加工档案的可靠性和可用性。
(3)数据制作内容准确无误:元数据著录的信息做到准确无误,标引字段信息符合元数据著录规范。在翻译外文档案资源时,需对翻译过程进行统一管理、质量跟踪。译文文档格式与原文文档格式应保持一致。应聘请专家团队严格审校,确保无政治性、学术性、知识性、技术性错误。
2.2 数据加工重点
2.2.1 元数据加工重点及质量把控
元数据是以源文献为中心的知识组织方式,档案数据信息需对数字资源对应源文献的内容及特征进行描述。参照国家图书馆及档案馆的元数据著录规范,档案资料的元数据内容应包括档案数据信息表和数据信息表,即每个档案创建一条元数据,记录每份文件的基本信息,生成“数据信息表”。以由国家图书馆民国时期文献保护工作办公室编著的《二战时期西南太平洋战区日本战俘讯问档案汇编》一书为例,著录字段信息包括:加工编号、标识符、题名、创建者、日期、语种、主题/描述、类型、权限等。其中日期应著录对象数据标注日期(原样著录)与标准格式日期(YYYY-MM-DD)两种,名称需著录英文(原样著录)和中文译文,主题/描述可根据文献具体情况选择著录英文关键词或中文提要。在生成元数据的过程中,需要查看元数据文件命名是否正确,存储结构是否符合规范,是否依照规定的字段结构进行信息著录,元数据是否存在无法对应对象数据等问题,字符、符号等文字错误率一般情况下不超过0.3‰。在元数据检查时,通常采取抽样方法,抽取一般不低于50%样本,如发现元数据数据信息表个别标签取值有误,需核对档案基本信息,按规定字段结构重新赋值。
2.2.2 对象数据加工重点及质量把控
根据《数字资源加工标准规范》以及项目调研实践,数字化加工民国时期档案类资源一般情况下包括长期保存级、出版印刷级与发布服务级图像3个应用级别。针对不同应用级别的对象数据,按不同标准进行图像处理与格式转换,一般情况下,影像均以灰度扫描,要求图像清晰,亮度适中,以保证尽量多的清晰内容为原则,扫描后的图像不做纠偏及去污处理,扫描后的图像要求真实反映原卷,在原件正确的前提下页码连续,不能有缺页、错页、数据内容缺失等现象。参照“二战时期西南太平洋战区日本战俘讯问档案数字化服务”项目,该项目提交3种格式的对象数据,包括TIFF格式的长期保存级、JPEG2000格式的出版印刷级以及PDF格式的发布服务级。需要确保各级别对象数据图像扫描文件夹和文件名命名正确、数据格式和图像扫描分辨率符合要求、图像清晰,不存在黑边框、歪斜情况,图像扫描错误率一般不超过1‰。
3 民国时期档案类资源的服务与揭示
3.1 汇编成册出版
汇编成册出版是将数字化的档案按照一定的分类、目录和排版规则进行编辑,形成电子书籍或者纸质出版物。通常需要进行文本编辑、图片处理、版面设计等工作。这种方式可以将档案数字化为易于传播和保存的形式,同时也方便人们进行查阅和研究。相比其他数字化揭示方式,汇编成册出版更加贴近传统的纸质出版物形式,更加容易让人接受。同时,也可以在纸质出版物的基础上制作电子版,增加档案的传播范围和可访问性。
国家图书馆近年来一直面向全国组织申报文献整理项目,并组织专家评审会对申报项目进行评审,根据文献内容、整理数量、类型、珍稀程度以及整理难度确定经费资助额度。相关的出版情况发布在“革命文献与民国时期文献保护网”上。其中有关档案类的出版项目见表1。
表1 近年来国家图书馆组织出版的部分民国档案类文献项目
国家图书馆出版社将出版的民国文献大致分为6大类,分别为文献资料丛编、期刊资料分类汇编、外文类影印图书、名人日记信札、抗战及对日战犯审判文献和其他[6]。如,《二战时期西南太平洋战区日本战俘讯问档案汇编》收录了约2000份讯问报告,揭示了二战时期日军在西南战区各部队的隶属关系,提供了军工企业的生产情况以及武器装备的详细数据,具有重要的史料价值和现实意义,有利于深化和推进对二战历史的研究[7]。
3.2 专题数据库
建设民国时期专题数据库,通过对民国时期档案类资料的数字化加工和处理,提高数据的利用价值。专题数据库的建立不仅可以大容量存储档案资料,便于管理和查询,还可以通过网络共享,提高数据共享效率。通过电脑网络或手机移动端,公众可以随时随地访问这些数字化档案,实现远程查询、浏览和下载。相比于传统的纸质档案,专题数据库具有信息检索速度快、容量大、便于管理等优点,因此在档案资料数字化展示和传播方面得到广泛应用,极大地拓展了档案资料的利用价值和范围。
目前,“革命文献与民国时期文献保护计划”项目建设的民国时期文献专题数据库包括“日本细菌战资料库”“东京审判资料库”“日本战争罪行审判史料编译”等,致力于向社会公众推广、普及抗战历史知识,为读者研究使用提供便利。
3.3 数字化展览展示
数字化展览通常需要借助一些数字展示技术,如数字投影、数字屏幕、触摸屏等。这些技术可以将数字档案以多种形式如图片、视频、音频等呈现给观众,使档案内容更加生动直观。同时,数字化档案的展览还可以借助一些虚拟现实和增强现实技术,搭配文物或民国时期的历史文化资料,形成多元化的展览效果,为观众打造更加沉浸式展示体验。另外,数字化展览具有更高的互动性,观众可以进行数字化操作、实时交互等,更具有参与感和趣味性,吸引更多的观众和用户,提高民国时期档案资料的传播效果。如,国家图书馆在出版《远东国际军事法庭庭审记录》一书后,又举办了“历史的审判”展,将整理出版、数据库建设和展览展示有机地融合起来,形成了比较完整的文献传播链条。
3.4 知识服务
知识服务是近年来图书馆界的研究热点之一,指面向服务对象需求,对数据进行深度挖掘、分析、过滤、提取与组织,最终形成有价值的知识供服务对象使用,帮助服务对象完成目标明确的任务或工作[8]。对于民国档案类文献而言,依托数字化加工整理后的档案资源,通过对数字化档案资料的语义标注和知识抽取,建立基于知识图谱的知识服务平台,提供自然语言查询和问答服务等功能,为用户提供更加智能化的知识服务。用户通过输入关键词等语言,通过平台自动地从数字化档案资料中提取相关的信息和知识,快速地回答用户的问题,提供更加高效、准确的知识服务,从而扩大民国时期档案类资源知识服务的范围。
4 结语
国家图书馆是民国文献馆藏最多的公共机构。保护好包括档案在内的民国文献,是图书馆的职责所在。数字人文时代的到来为文献保护工作带来了新技术、新思路和新挑战,图书馆馆藏民国时期档案类资料的数字资源建设与服务,既是图书馆馆藏体系和数字服务水平的重要组成部分,推动数字技术与传统档案文献管理相结合,促进馆藏档案资源的保护、利用和传承,也可以为推动相关的学术研究提供真实、可靠的文献保障。