明清档案数据库的建设与思考
2010-11-09毛建军
□毛建军
明清档案是明清两朝社会活动的原始记录,是我国历史档案的重要组成部分。明清档案内容繁多,大致包括内阁大库档案、军机处档案、内务府档案、宗人府档案、国史馆档案、清宫中各处档案和清各部院衙门档案等。据调查统计,现存于我国大陆、台湾及世界各地的明清档案约有2200万件。①随着计算机技术的发展,明清档案的研究手段和实践有了新的突破和发展。其中尤以计算机技术与明清档案研究的结合最为突出。计算机巨大的储存空间和强大的数据处理能力,给明清档案的数字化带来了全新的机遇,明清档案的保存和利用也迎来了数字化新时代。
一、明清档案数字化
明清档案数字化就是采用计算机技术,将常见的文字或图形符号转化为数字符号的过程。明清档案数据库则是指以计算机可读的字符代码形式或以明清档案扫描影像形式存贮的数据库。明清档案数据库以明清档案文字内容为揭示对象,其目的在于保护和揭示明清档案信息,从而最终实现明清档案的保存和利用。明清档案数据库能够实现全文阅读、全文检索或智能分析服务,具有传统文献所无可比拟的优势。
明清档案数字化是档案学发展的必然选择。明清档案数字化以其特有的资源特点必将给档案学研究和中国文化的传播带来全新的机遇。其重要性和意义在于:①有利于明清档案的抢救和保护。由于种种原因,我国明清档案正处于濒危阶段。明清档案数据库以数字化的形式存贮和利用,是抢救明清档案的最好形式。②有利于全方位开发利用明清档案。明清档案数据库是一个存储在一起的相关数据的集合,具有高度数据集成的特征。明清档案数据库实现了检索自动化,可千百倍地提高检索速度。③有利于促进古籍文献资源共建共享的形成。随着国际互联网的迅速发展,明清档案实现了网络共享,可以在任意时间、任意空间传播,数字化明清档案的网络共享大大提高了明清档案的利用效率。
二、明清档案数据库的建设
在短短的20年间,国内外利用计算机技术编制了大量明清档案数据库。对明清档案数据库资源做调查分析,既有利于指导下一步的明清档案数字化工作,促进明清档案数字资源的整合,又有利于社会各界合理利用明清档案数字资源,充分挖掘明清档案信息。
(一)日本明清档案数据库的建设
日本收藏有大量的中文古籍。随着古籍数字化进程的开展,日本各大科研机构也开始将明清档案数字化,并提供网络化服务。其中在明清档案数据库的开发与建设方面,以京都大学图书馆建置的中国清代民国公私文书数据库最具成就。中国清代民国公私文书数据库收录了京都大学法学部旧日本法史研究室所藏康熙至民国年间的295件中国公私文书的图像数据。内容包含田地、房屋、鱼池等典卖关系文书(卖契、典契、税契等);租佃关系文书(承揽契、租契、纳租督促文书);所有权确认官给文书;税契税粮的官给文书;借钱、遗嘱、解决纷争的私文书;以及各种官方公文等。
(二)台湾明清档案数据库的建设
目前,台湾地区明清档案数据库已开发出许多资源,其开发建设单位主要为台湾地区的研究机构。其中以台湾“中央研究院”历史语言研究所建置的内阁大库档案数据库和“国立故宫博物院”清代宫中档奏折及军机处档折件数据库最具特色。
“中央研究院”历史语言研究所建置的内阁大库档案数据库收录目录数据16万条,提要数据11万条,全文影像3.8万条。“中央研究院”历史语言研究所现有内阁大库档案总计31万多件,是研究中国制度史的重要史料。内阁大库是清代内阁典藏书籍、表章、档案的场所,馆藏档案内容包括诏令、题奏、移会、贺表、三法司案卷、实录稿本、各种黄册、簿册等。内阁大库档案数据库的建设始于1996年,目前已基本建成。研究者可通过互联网检索提要,全文影像则需要在史语所傅斯年图书馆阅览室使用。数据库可实现简易查询、索引浏览和全文检索查询,检索途径有责任者、职衔、事由、登录号、主题等。
“国立故宫博物院”清代宫中档奏折及军机处档折件数据库收录“宫中档奏折”15万余件,“军机处折件”19万余件,内容涵盖清代国政大事、国家政策、军事外交、典章制度、风土人情、文化习俗、律法刑案、工艺美术等丰富多样的数据类型。数据库可提供文献编号、具奏人姓名、具奏人官职、具奏时间、事由、朱批日期等档案相关内容的检索。检索结果以标题索引与原版影像呈现。
其它台湾地区明清档案数据库见下表:
(三)大陆明清档案数据库的建设
中国大陆地区是明清档案收藏最为丰富的地区。由于计算机技术发展略滞后于日本和港台地区,在明清档案数据库开发建设上起步较晚,但后来居上。目前中国大陆地区的明清档案数据库的建设已取得丰硕成果。中国大陆地区参与明清档案数据库开发建设的单位主要为公共档案馆和数字化出版企业。公共档案馆明清档案数据库的建设以中国第一历史档案馆开发制作的《清代档案文献数据库》为代表;数字化出版企业以爱如生数字化技术研究中心研制的《明清实录》和《清帝朱批奏折》最具特色和影响力。
《清代档案文献数据库》是中国第一历史档案馆重点清史档案文献数字化工作项目,是目前国内外首次运用先进的中文数字化技术进行大规模历史档案文献数字化的成功案例。中国第一历史档案馆馆藏档案1000余万件,共74个全宗。其中,明代档案3000余件,主要是天启、崇祯时期的兵部档案。清代档案占绝大部分,内容涵盖了清代的政治、经济、军事、文化、农业、工业、外交、科技、教育、宗教等诸方面。《清代档案文献数据库》由北京书同文数字化技术有限公司提供技术支持,于2005年底正式启动。目前第一期建设成果《大清历朝实录》、《大清五部会典》已经完成。《大清历朝实录》共计3645万字,原文图像127971页。《大清五部会典》共计2610万字,原文图像85582页。数据库以原文图像与全文数字化文本相挂接作为基本模式,两种页面可相互切换,使读者能够即时将全文检索的结果与原文对照。数据库强大的全文检索功能,实现了字字可查、句句可检,全文检索内置汉字关联,其中包括简繁、正异、通假、正讹、中日、避讳字等各种汉字之间的关联,并附带中西纪年历换算工具。《清代档案文献数据库》是档案文献工作者和古籍数字化科技工作者共同创造的成果,代表了我国档案数字化的最高水平和发展方向,标志着我国清代档案史料的刊布进入了信息化新阶段。②
名称 数字代码 汉语拼音代码 汉字代码公开级 0 GK 公开国内级 1 GN 国内内部级 2 NB 内部秘密级 3 MM 秘密机密级 4 JM 机密绝密级 5 JM 绝密
北京爱如生数字化技术研究中心是中国颇具规模的古籍数字化专业公司,中心先后研发了80种兼具学术性和实用性、风格多样的古籍数字化产品,包括大型数据库、系列数据库、数字图书和数字工具等。在明清档案数字化资源开发方面,北京爱如生数字化技术研究中心也取得了丰富成果。《明清实录》汇辑《明实录》和《清实录》两部巨著共计27种书、7356卷,各据其通行钞本制成全文数据,另附原版影像。总计全文5千万字,影像30万页,数据总量约10G,同时配备有全文检索系统。《清帝朱批奏折》共选录大陆和台湾两地档案机构历年来影印公布的清代朱批奏折10万件,时间跨越康熙、雍正、乾隆、嘉庆、道光、咸丰、同治、光绪八朝,内容涉及政治、经济、军事、外交、社会、文化等多个方面。《清帝朱批奏折》采用古籍数字化技术,将奏文及批文全部数字化,制成可读可查的全文数据,并配备检索系统和功能平台,提供分类检索、条目检索、全文检索、高级检索及原文对照、圈点眉批、分类收集、下载打印等功能。
除了以上大型明清档案数字化成果以外,国内一些公共图书馆和科研单位也积极参与明清档案的数字化工作。如大连市图书馆开发的《清代内务府档案数据库》、中国社会科学院历史研究所开发的《徽州契约文书数据库》等也都兼具实用价值和精品特色。
三、思考与建议
明清档案数字化是对已存文献的再现和加工,是21世纪明清档案整理和研究的发展方向。尽管明清档案数据库的建设已经取得了相当大的成绩,但还存在一些值得思考的问题。
一是资源重复建设问题。由于目前还没有一个统一的组织机构去管理和协调明清档案数据库的建设,加之明清档案收藏单位和研究单位又十分复杂,因此,国内外重复开发和建设了大小不一的数据库,造成了巨大的人力、物力和财力的浪费。这种重复开发不仅给开发单位带来了巨大损失,而且也增加了读者检索和利用上的困难。明清档案数据库的建设是一项系统工程,需要一个全国性协调机构或组织来全面实施数据库的规划,以避免重复开发和资源浪费。
二是数据库兼容问题。明清档案数据库的建设至今还没有一个统一的数据库著录和运行系统标准,系统建置也是各行其是。这势必造成未来统一数据库的兼容问题。明清档案数据库的建设必须依照相应的标准和规范进行建设。规范化的明清档案数据库必须是在相同软件支持下做出的,在格式、内容、标引、著录以及字体等方面都按国家标准的数据库。
三是资源共享问题。明清档案数据库的利用在资源共享上还存在资源封闭和利益保护的弊端。从目前已建成的明清档案数据库资源来看,在使用方面设立了许多障碍,如限制局域网使用,给读者带来了诸多不便。因此,实现明清档案数据库资源的共享势在必行。
需要指出的是,目前明清档案数据库的建设最迫切的任务是做好资源整合工作。从已开发的明清档案数据库的资源来看,明清档案的资源已相当可观。因此,整合利用好这些资源是件很重要的工作。在充分调查国内外明清档案数据库资源的基础上,相信不远的将来会有一个完善且高效的明清档案数据库呈现在我们眼前。
注释:
①张会超:《明清档案编纂出版的思考》,《档案管理》2007年第4期:第43-44页。
②王光越:《中国第一历史档案馆“全文数字化清代档案文献数据库”建设成果〈大清历朝实录〉、〈大清五部会典〉》,《历史档案》2008年第1期:第133-137页。