浅析民国档案数字化资源建设
2019-09-10李慧
李慧
摘 要:文章回顾我国20世纪90年代以来民国档案资源数字化建设发展历程,肯定这一过程取得的成就。同时也分析当前民国档案查阅存在的问题,提出采取一定的知识聚合措施,展望全国民国档案资源利用的发展前景,最大限度发挥民国档案的历史价值和凭证价值。
关键词:民国档案;数字化;知识聚合
资源数字化是踏入信息社会的必由之路,档案资源也不例外。民国档案馆藏多数集中保存于第二历史档案馆,也有部分散落在各省市县档案馆,因而民国档案资源的数字化工作主要以全国民国档案目录中心和中国第二历史档案馆为主体。馆藏的多数集中性和少量分散性对全国的民国档案资源的建设工作提出了双重要求:既要处理好第二历史档案馆与地方民国档案馆藏机构的关系,协调各级档案馆工作、加强合作交流,建设全国民国档案目录中心,保证资源全面性、準确性;也要重视自身民国档案资源馆藏建设,广泛运用新技术,提高检索效率,提供内容丰富的数字化档案资源。
一、民国档案数字化资源建设
1.全国民国档案目录中心
1983年,国家档案局在“档案事业七五计划” 中首次明确提出建立以中国第二历史档案馆为主的民国档案资料目录中心的任务,该工作稳步推进。1992年4月,全国民国档案资料目录中心正式成立,目录中心围绕全宗级、案卷级和文件级三个层级,逐级推动民国档案目录工作建设,档案资源信息量、内容细致度、工作服务深度不断加深,为民国档案数字资源的进一步发展奠定稳固的基础。
(1)全宗级目录资源建设阶段。1992-1997年,全国民国档案资料目录中心主要围绕全国民国档案的全宗级目录采集开展工作。开展规范性采集标准的制定:《民国档案目录中心数据采集标准》《全国民国档案案卷级目录采集方案》,采集全宗目录卡片14522张、完成《全国民国档案全宗通览》初稿、建设“全国民国档案全宗目录数据库”,为下一个阶段的工作做好准备。该工作从效率和质量两个方面入手,以全国民国档案目录中心为核心、辐射到全国各省市县的三级目录中心,提高了报送的效率。
(2)案卷级目录资源建设阶段。1998年10月,中国第二历史档案馆提出进行民国档案的案卷级目录采集工作。。随后在1999年9月,国家档案局和中央档案馆下发《关于印发<全国民国档案案卷级目录采集方案>的通知》,对全国的各级档案馆的案卷级采集工作的具体任务和完成时间做出具体要求,标志着案卷级采集工作的正式开展。《通知》要求在2004年完成民国档案案卷级目录数据制作报送工作,在“十五”期间建立一个拥有1400多万个条目的全国民国档案案卷级目录数据库,并投入运行。为了提高报送目录的规范性,案卷级目录报送明确要求需要按照《民国档案目录中心数据采集标准》进行,该标准由以下四部分组成:《民国档案著录细则》《民国档案主题标引细则》《民国档案分类细则》和《民国档案机读目录软磁盘数据交换格式》。
(3)文件级目录资源建设阶段。全宗级和案卷级目录难以全面、准确地揭示民国档案的内容,造成误检率较高和一部分文件难以被检索到的情况出现,进行民国档案的文件级目录整理是进一步开发民国档案信息资源的必经之路。1999年国家档案局和中央档案馆下发《关于印发<全国民国档案案卷级目录采集方案>的通知》,要求全国民国档案的案卷级采集工作在2004年前结束,大部分档案馆在2005年开始进入文件级目录资源建设阶段。2016年制定的全国档案事业发展“十三五”规划纲要也明确提出:“加强明清、民国和革命历史档案目录中心建设;开展国家重点档案目录资源基础体系建设,建立国家层面的国家重点档案文件级目录数据库和专题库” ,从国家层面肯定建立文件级目录数据库的重要性。三层级目录数据库依次推进,构建了较为完备的民国档案数字化资源建设体系。
2.第二历史档案馆资源建设
我国的民国档案主要馆藏来源是中国第二历史档案馆,民国档案数字化资源建设离不开第二历史档案馆的丰盈馆藏。官网显示:第二历史档案馆馆藏有1354个全宗,258多万卷。第二历史档案馆以自身馆藏资源为开发重点,围绕档案的数字化和服务公众开展工作。
(1)馆藏资源数字化。第二历史档案馆馆藏数量巨大、种类丰富,全方位展示民国时期的社会风貌。部分档案由于形成时间悠久、保存不当,存在破损问题,难以直接利用。为完整保存档案原件,提升利用率,第二历史档案馆自上世纪90年代以来,依托国家政策与财政支撑,实行馆藏民国档案数字化工作。考虑到馆藏数量巨大,数字化工作分层级开展,按照“先整理,后扫描”原则,首先针对价值大、利用率高、破损度高的档案进行数字化,满足公众普遍利用需求。经过多年的数字化工作,第二历史档案馆已形成一大批电子版和缩微胶卷、档案专题汇编出版物和一些反应民国时代特征的丛书。
(2)数字资源开放化。依托数量丰富的数字档案馆藏,第二历史档案馆进一步向公众开放民国档案资源,档案开放工作主要分为实地馆藏查阅、官网资源展示阅览两种。实地馆藏查阅需要官网预约,登记身份信息。在规定时间和人数范围内,严格按照操作规定进行指定范围的档案查阅工作,档案查询部分检索项包括全宗名称、案卷标题和文件标题三个层级。系统根据检索关键词和已上传数字档案资源匹配,检索出结果,提供的档案资源以JPEG的形式展示,并且提供下载服务;官网资源展示指用户借助虚拟展厅进行数字档案资源展览,浏览南京临时政府、民国北京政府等不同展厅,展厅资源主要为数字化档案图片。
二、进一步开展资源建设的必要性
民国档案数字资源建设以目录中心和第二历史档案馆建设为着重点,协同推进档案数字化工作,数字化资源的数量和质量明显增加和提高,不可否认为档案管理部门和用户档案查阅带来便利性。但是,当前数字化发展之路,也存在一些问题,尤其对于用户而言,检索体验还存在改进空间。
1.档案著录级别有限
第二历史档案馆提供的档案查阅服务针对案卷级和文件级层级,查阅结果仅为原文数字化扫描件。检索系统通过检索词与该层级匹配,文本信息的查找和筛选还需借助于人工阅读。实地检索发现,国民政府时期档案书写习惯不同于当前:文字竖写、从纸张左边向右书写、存在部分涂改、字体辨认不便。原件的数字化操作并不能解决以上困难,用户查阅档案的内容针对性有待提高。
2.检索词要求过高
笔者通过实地查阅第二历史档案馆馆藏档案发现,档案查阅者提供的检索词详细程度直接影响检索效果,精准检索的查准率最高,在缺乏线索的情况下,查阅效果及其不佳。以查阅先人档案为例,后人知道的线索非常细致、琐碎,诸如先辈的姓名和部队番号等,但是在档案文本中这些检索词并没有以可检索项的形式出现,信息隐藏在数以万计的文件里,难以直接检索。
3.用戶查阅范围受限
第二历史档案馆档案提供的档案查阅范围是基于馆内开放的数字化资源,会有选择的提供给查阅者开放权限。查阅者可以通过基本检索、目录检索、专题检索三种方式进行档案查阅。用户进行查阅时需要提供诸如身份证等证件,然后由馆内工作人员进行人像拍照,用于制作档案阅览证,阅览证有一个月的时间限制,凭阅览证,可以在一个月内多次查阅自己所需要的档案。例如,查找一个军人的照片,档案馆工作员会根据自身的理解,选择相应开放范围权限,其它可能相关的散落在开放权限以外的档案就没有查阅的权限,主观自主性较大。
三、知识聚合的价值
大数据时代,依靠数据挖掘技术,深入挖掘档案信息中隐含的档案资源是当前的重要课题。档案知识聚合是在档案聚合主体、档案聚合客体和档案聚合的协同作用下,对档案数字资源进行知识提取,选择适当的知识表示方式进行处理,挖掘各个知识单元之间的显性和隐性关系,对这些单元进行知识重组和处理。档案资源的知识聚合主要是语义聚合。
档案知识聚合的主体是承担档案资源开发的部门,这一部分的力量最为主动、重要。数字化历程是档案知识聚合发展中不可缺少的一个环节,当前发展的较为充分。知识聚合对于档案部门而言,魏扣等认为档案知识聚合分为基础层、聚合层、应用层、评估层。借助档案知识聚合,将非结构化的档案信息转化为计算机可识别的结构化信息,扩大用户查检结果。
1.挖掘隐性档案资源
档案蕴含信息资源通常可分为显性知识和隐性知识,以馆藏档案为基础的数字档案信息也可分为两种:显性档案资源和隐性档案资源。显性档案资源可在档案文献直接查找,隐性档案资源的加工则要借助于馆内工作人员自己的知识储备和专业知识自行归纳总结。当前民国数字档案的管理流程如能与后续知识聚合过程相结合,笔者认为可形成良性互动,如图1所示。
2.资源建构
目前,不同类别档案蕴含的信息以信息孤岛形式呈现,难以进行资源整合。中国古代档案文献编纂依据不同版本的书籍进行互校,保证记载文字真实性、充实性。借助于档案内容的语义知识聚合,深入挖掘档案文本隐含的档案信息,考究不同资料中对同一时间节点或是事件的记述考证,建构更为详尽的档案资源体系。
3.提高档案查检效率
检索效率和检索效果直接影响用户查阅体验,利用检索词查阅的档案原件,检索词难以囊括该份档案中出现的每一个词,检索的难度较大。在对数字化档案资源进行知识聚合处理后,文件中的每一个字段都可以被提取为检索词,用户可以进行模糊检索,档案的查全率和检索效率大大提高。当前,法国国家档案馆与斯坦福大学图书馆合作推进的“法国大革命数字档案馆”项目,将法国1789年大革命时期的印刷品、勋章、硬币等进行数字化处理并建成数字图像库,可从艺术家、主题、风格、地点等多个维度进行检索利用,检索维度的增加,检索的效率随着提高,比传统的单一检索维度高效,对于档案检索亦是如此。
4.提供精准服务
当前,档案馆提供的数字化档案查阅服务还处于被动服务的地位,档案馆只能“人云亦云”,按照用户需求提供相应档案,用户的需求直接影响提供档案的类型及服务效果,档案部门的影响力较小。档案馆向不同用户提供的是无差别的,个人针对性较小,档案馆很难帮助他们更好地检索所需要的档案、难以根据发掘自身馆藏特色,为查阅用户提供个性化的档案资源,提供档案的类型及内容同质化严重。
放眼国际,一些国家及行业正在积极探索为用户提供更深层次的个性化定制服务。以日本为例,为推动电子文件的长期保存,国立公文书馆早在2004年就提出了数字档案馆项目概要,其中基于EAD的数据库系统分层搜索允许用户按照档案材料的分层结构查看数据库,这个值得国内借鉴。此外,可以尝试对档案进行信息检索模块的深层次加工,对档案本身的文本信息也进行著录、提炼、加工,提供给用户原本档案里所不具有的信息具有启示意义。
历史档案馆可以在充分借鉴其他信息检索发展比较迅速的行业的基础上,结合档案自身特点发展自身的精准服务。当前,电商追踪用户的购物检索,依据用户此前的搜索浏览记录,系统自动分析用户的购买意向、种类、价位,不仅节约时间,还可以增强用户体验。档案馆在保证档案信息完整、安全、长期可存的基础上,借鉴电商的技术经验,为多次进馆查阅档案的用户提供精准服务。一部分馆内工作人员开始尝试对已数字化的档案信息进行信息提炼和加工,将其中蕴含的隐性知识揭示出来,试点开放。
5.档案资源共享
2002年,文化部和财政部共同组织实施国家重大文化惠民工程——全国文化信息资源共享工程(以下简称“文化共享工程”)。档案事业作为社会主要文化事业的重要组成部分,融入“文化共享工程”,可以让民国档案这一部分的中华文化优秀文化在全国范围内实现无障碍的共享。虽然当前的档案数字化工作仍在持续推进,但是数字化资源和档案资源的聚合并不存在完全意义上的逻辑先后顺序。换言之,对于一些已经初步完成民国档案数字化工作的档案馆可以先少量地进行“共享试点”工作,局部探索。
四、结语
无数改变中国近代历程的事件在民国上演,此时的社会既有中国千年历史发展的文化烙印,也有西方世界的外部冲击,民国档案对研究我国近代化历程具有无可替代的作用,应得到最大程度挖掘。国内民国档案数字化资源建设已持续20多年,虽取得一定成就,但仍有一些问题,对民国档案进行更加细致的档案知识聚合可有效解决部分问题。宏观而言,不论是前期进行的數字档案资源建设还是后期我们呼吁推进的档案知识聚合,其最终目的都是民国档案在全国范围内的开放式检索和共享,真正发挥民国档案的价值;微观而言,馆内工作人员逐步挖掘档案信息中的隐性知识,加强档案信息的知识聚合、推进馆藏细致颗粒化的进程,便于用户查找档案信息,在此基础上,进一步探索个性化定制服务,最终满足用户的各种利用需求,完成档案机构为人民服务的历史使命。相信在全国民国档案目录中心和第二历史档案馆自身馆藏协同发展的基础上,进一步探索数字资源的知识聚合研究,开发、挖掘隐性档案资源,一定会逐步实现民国时期档案信息资源的开放共享和第二历史档案馆的馆藏信息自由流动的目标,让民国档案伸手可及,揭开民国的神秘面纱。
参考文献:
[1]潘 涛.全国民国档案资料目录中心十年建设历程之回顾[J].浙江档案,2002(06):20-21.
[2]张建平,姚 红.全国历史档案资料目录中心的建立与发展[J].中国档案,2000(06):35-36.
[3]潘 涛.民国档案全宗级目录数据的采集[J].陕西档案,2004(06):31.
[4]曾凡刚.省档案局副局长曾凡刚同志在全省民国档案案卷级目录采集报送培训班上的讲话[J].黑龙江档案,2002(04):1+4-5.
[5]丁梅君,王鲁刚,刘 红.民国档案案卷级目录报送工作的几点说明[J].湖北档案,2002(06):26-27.
[6]陈晓敏.对民国档案文件级整理工作的思索[J].山西档案,2006(01):35-37.
[7]全国档案事业发展“十三五”规划纲要[J].中国档案,2016(05):14-17.
[8]魏 扣,李子林,郝 琦.档案知识聚合模式选择研究[J].山西档案,2018(02):31-35.
[9]魏 扣,李子林,郝 琦.档案知识聚合的实践模型构建研究[J].北京档案,2018(08):7-10.
[10]张娟慧.谈企业档案管理中的信息检索[J].赤峰学院学报(汉文哲学社会科学版),2006(01):95-96.
[11]李子林,王玉珏,龙家庆.数字人文与档案工作的关系探讨[J].浙江档案,2018(07):13-16.
[12]何文金.数字档案馆彰显决策支持价值[J].中国教育网络,2011(09):62-64.