面向数字人文的清东陵文献典籍数字化建设策略
2023-04-02孙会清李赫张霞王琛
孙会清,李赫,张霞,王琛
(1.华北理工大学 社会科学研究院,河北 唐山 063210;2.华北理工大学 图书馆,河北 唐山 063210;3.华北理工大学冀唐学院,河北 唐山 063210)
文化遗产是传统文化的重要组成部分之一,具有稀缺性、脆弱性和不可再生性等特点。文献典籍作为文化遗产的重要组成部分,不仅为专家学者从事文化遗产研究提供第一手珍贵和原始的参考资料,也为文化遗产的建筑物和文物的保护、复原和重建研究提供相对可靠的依据和重要的实践基础[1]。因此,文献典籍的收集和整理是对文化遗产进行保护、开发和利用研究的基础和起点。文献典籍与其他文物类型一样,其数字化建设能够有效解决保护与利用之间的矛盾。在广义上和本质上文献典籍数字化也属于文献整理的一种方式,并且是未来文献整理的发展方向。
清东陵于2000年被列入世界文化遗产名录,是我国现存规模最宏大、体系最完整的封建帝王陵寝建筑群,蕴含了极高的历史价值、艺术价值和科学价值。深入挖掘世界文化遗产清东陵的文化价值,促进文化遗产的高质量供给,对弘扬和发展中华优秀传统文化具有重要的意义。清东陵文献典籍的收集、整理和组织等文献体系建设是清东陵文化研究的基础保障性因素。作为世界级文化遗产,与清东陵文化研究有关的文献典籍不仅遗存数量和类型众多,而且被不同机构收藏,或者以文本片段、图像等形式散存于诸多类型的文献典籍当中,目前还未形成系统性的专题研究成果和体系,清东陵文献典籍的数字化建设也存在着空白,亟待进行专题性研究。针对以上现实问题,依据保护和利用并重的原则,按照我国文献数字化建设的相关国家政策、规范和标准,需要对清东陵文化现存各种类型和形态的文献典籍进行全面、系统、完整和科学地收集、整理、分类、标引和组织,在此基础上应用现代数字人文(Digital Humanities)技术进行清东陵文献典籍的数字化建设研究。
一、清东陵文献典籍的收集策略
如何将分散于各处、数量庞杂、卷帙浩繁的清东陵文献典籍收集、整理齐全,形成全面、系统、完整和科学的文献典籍体系,前提是需要制定出科学、系统和有效的清东陵文献典籍收集方案。首先,需要明确界定清东陵文献典籍的内涵和外延,在此基础上根据清东陵文献典籍的不同类型分别制定和形成具体的、有针对性的、具有可操作性的收集策略。
(一)清东陵文献典籍的内涵和外延
从广义上讲,凡是用文字、图形、符号、声频、视频等手段记录知识的一切载体都统称为文献。在古代,图书被称作 “典籍” ;反过来说, “典籍” 泛指古代图书,也称之为 “古籍” 。因此,一般意义上的古籍是指除了简帛古籍、敦煌遗书、佛教古籍、碑帖拓本及古地图等特殊类型藏品以外的,未采用现代印刷技术印制的、习见的、普通形制的古代汉文书籍[2]。可见,从概念的内涵来看, “文献” 包含了 “典籍” , “典籍” 是 “文献” 的一种; “文献典籍” 则是一个复合概念,特指以古籍为主体但不限于古籍的多种类型形式的文献。
在中国历史上,清朝统治时期是从顺治元年清朝入关到宣统三年清帝逊位(即公元1644年—1911年),横跨时间268年。清世祖顺治皇帝的孝陵是清东陵的第一座陵寝,始建于顺治十八年(即1661年)。自1663年葬入第一帝顺治至1935年葬入同治皇帝的最后一位皇贵妃,历时272年。清王朝覆灭之后,清东陵仍历经军阀混战、日军侵略、抗日战争等战争洗礼和磨难,期间还遭受多次盗劫和抢掠,直至新中国成立后清东陵文物保管所成立,清东陵才得到我国政府的专项管理和保护[3]。因此,为了对清东陵文化研究提供全面、完整、系统的文献保障,将清东陵文献典籍的收集时间范围界定为从顺治皇帝即位(1644年)开始至新中国成立(1949年)为止。新中国成立以后至今,现代、当代清东陵文化历史学家和研究学者创作出版的图书和撰写发表的报刊论文,是基于清东陵历史文化研究产生的创作作品、取得的研究成果,不纳入清东陵文献典籍的收集范围。
综上,基于 “文献” 和 “典籍” 的一般性定义,结合清东陵文化研究的实际需求,将清东陵文献典籍的内涵界定为:在历史上形成的与清东陵的陵寝规制、皇家葬俗、工程建设等有关的并且具有重要历史、思想和文化价值的文献资料。将清东陵文献典籍的外延界定为:自清朝入关到新中国成立(即1644 年-1949年)期间留存的,一切记录清东陵的陵寝规制、皇家葬俗以及与清东陵陵寝选址、规划设计、施工验收、维护修整等清东陵工程建设过程的各个阶段相关的事件和人物的古籍以及书册、谕旨、档案、图纸、碑刻铭文和照片等形式的文献[4]。
(二)清东陵文献典籍的收集
1.清东陵古籍文献的收集
首先,通过《中国古籍总目》、《中华古籍书目数据库》以及《鼎秀古籍全文检索平台》等公开发布的权威性古籍书目类工具书、古籍文献专题数据库,检索和查找清东陵古籍文献的存藏情况。其次,各级各类图书馆和档案馆历来是各种文献重要的和主要的收藏来源,也是全国开展古籍普查登记的重要组成单位,成为清东陵古籍文献收藏的重点调研对象。通过这些古籍收藏单位网站设置的 “珍贵古籍名录” 专栏,可以浏览和了解其收藏清东陵古籍文献的情况。在故宫博物院收藏清代宫中的古籍文献中也包括大量清东陵陵寝的工程做法、图纸、账本等文献典籍[5],可从中筛选出一批清东陵古籍文献。再次,通过咨询清东陵文史研究专家,或者查阅现代及当代的清东陵文化研究专著和论文等研究成果,以及调研和走访相关古籍收藏单位和个人,可以有效查找、鉴别和确定部分清东陵古籍文献的存藏线索。还可以采用购买、捐赠和复制等多种方式进行长期性的清东陵古籍文献的征集,从而不断完善清东陵古籍文献体系。
2.清东陵档案文献的收集
档案是 “过去和现在的国家机构、社会组织以及个人从事政治、军事、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录”[6]。档案文献具有原始第一手资料、更加贴近真实史实等特点,而且内容记载丰富、能够提供细节性的资料。在国家、省、市、县各级各类档案馆中收藏有大量清代宫廷档案资料,其中有大量未被刊布的档案内容还未被挖掘、整理和公开出版,可填补某些研究领域的文献空白,或者成为一些史实的新的凭证。基于档案文献具有的重要研究价值,应将清东陵档案作为清东陵文化研究文献典籍的重点收集对象。
中国第一历史档案馆作为国家级档案馆,目前保存清代档案数量约一千余万件,包括清入关前天命九年(1607年)至宣统三年(1911年)300多年时间里形成的文书档案,以及溥仪退位后于1921-1931年间形成的档案[7],不仅是研究和纂修清代历史的第一手宝贵资料,也是收集清东陵文献典籍档案类资料的最重要的来源和渠道。其中,在《清实录》《内务府来文·陵寝事务》《内务府来文·礼仪》《内务府来文·修建工程》《内务府奏销档》《内务府奏案》《内务府舆图》《上谕档》《军机处议覆档》《朱批奏折》《溥仪档》《新整溥仪档》《宫中杂件》《钦定工部则例》《工部案卷》《录副奏折》《诸陵规制尺寸略节》等档案中都记载了大量与清东陵有关的人物和事件,尤其是大量内务府档案,对清东陵文化研究具有极高的、可供挖掘的文献价值。《定陵工程黄册》《定陵工料奏销黄册》《顺水峪定陵妃园寝销算黄册》《菩陀峪金井安放帐》《菩陀峪万年吉地销算黄册》《普祥峪万年吉地销算黄册》是部分陵寝工程完成后核销所有耗费工料、钱粮明细的决算册;《工程备要》等定东陵工程籍本详细辑录了上谕、奏疏、施工监理、施工预算、施工决算以及工程作法等与陵寝工程各个环节相关的内容,能够翔实反映普祥峪定东陵、菩陀峪定东陵的具体建设过程和细节[8],这些档案文献对清代陵寝建筑研究具有非常重要的参考价值。
另外,中国第二历史档案馆的北洋内务部档案中收录了与清东陵被盗案相关的部分史料,可作为清东陵档案类文献资料的重要补充来源[9]。
3.清东陵样式雷图档的收集
自乾隆朝雷家玺规划设计陵寝开始,清朝各陵寝的设计、修葺或重建,均由样式雷世家承担。由清代雷氏家族设计、绘制和写作的建筑图样与文字档册,统称样式雷图档[10]。样式雷图档不仅包括画样和烫样,还包括记录皇帝皇后的旨意、管理机构堂官的堂谕从而形成的《旨意档》、《堂谕档》,以及在施工过程中形成的预算资料、工程日记、工程做法等多种资料,蕴涵了关于清东陵陵寝建筑选址勘测、规划设计以及施工的理念、过程、方法、人物、事件等详情细节资料,具有独特的建筑、艺术、美学研究价值和珍贵的文献价值,2007 年被入选《世界文化遗产名录》。当前主要保存清代样式雷图档的收藏单位有中国国家图书馆、北京故宫博物院、中国第一历史档案馆、清华大学建筑学院和台北故宫博物院,还有其他零散保存样式雷图档的机构包括中国国家博物馆、日本东京大学、法国巴黎吉美博物馆等[11]。样式雷图档除了收集其纸质原件之外,还可以对其拍照或者经过3D 处理采集信息后转换成数字化信息进行收集。
4.其它类型清东陵文献的收集
清东陵文献典籍除了清东陵古籍文献、档案文献和样式雷图档等常见的主体文献类型之外,还包括一些具有重要研究价值的其他特殊类型的文献,同样需要重点进行收集、整理和利用。例如,耗时达3年多完成、居清陵之冠、甚至 “为目前所知历代帝王陵寝最华美者” 著称的裕陵地宫,在地宫内部的明堂券、穿堂券、金券以及各个洞券内刻有大量佛教题材的石雕图像和佛教经文。据档案记载,平水墙下的围墙上均匀地雕刻着数以万计的佛经咒语中有藏文29464个字、梵文647个字。这些经文和图像雕刻,图案复杂,内容繁多,工艺绝伦,体现了中国古代传统墓葬文化与祈福文化的思想内涵,反映了在清代满汉民族融合背景下经济、政治、宗教、艺术和哲学发展现状,具有独特的历史、文化、艺术、美学等学术研究价值与商业应用开发价值[12]。
另外,据不完全统计,清东陵当中有顺治帝的孝陵神功圣德碑碑文(1千余字汉文)、康熙帝的景陵圣德神功碑碑文(4千余字汉文)、乾隆帝的裕陵圣德神功碑碑文(2千余字汉文)及其他碑文共计近2万字汉文[13]。其中,自雍正皇帝胤禛以弘扬康熙 “在位六十余年,功德隆盛,文章字数甚多,一碑不能尽载” 为由将镌刻康熙大帝一生文治武功的圣德神功碑亭诏建两碑,一刻清文,一刻汉字,每个碑文长达4300多字,并自此成为定制[14]。由此可见,清东陵碑文也是不容忽视的重要文献收集和整理对象。
除了清东陵陵寝建筑中雕刻形成的经文、佛像和碑文之外,还有与清东陵有关的舆图(如《清东陵风水形势全图》)、照片(包括清东陵实景和清东陵文物)等,具有很大的历史和文化研究价值,也应作为特殊文献、采用相应的特殊手段进行收集、整理和利用。此外,还应深入民间进行清东陵口述史资料的抢救、挖掘、收集与整理研究。
二、清东陵文献典籍数字化建设策略
数字人文是进一步提升文化遗产数字化建设和利用水平的重要途径。数字人文通过将现代信息技术应用于人文研究领域,为人文研究学者提供基于数据的、面向内容的、智能化的和精准的知识服务,帮助人文研究学者从数据中发现现象或事物的本质和彼此间的逻辑关联, “为人文社科研究插上了数字羽翼”[15]。
从清东陵文化研究的具体需求出发,按照数字化、结构化、知识化和平台化四个依次递进的环节和流程,提出对清东陵文献典籍进行内容描述、组织和揭示,并且应用嵌入个人知识环境的各类分析和处理工具以及提供平台化服务的清东陵文献典籍数字化建设策略。具体环节和流程如图1所示。
图1 清东陵文献典籍数字化建设环节和流程
(一)数字化:整理和组织形成清东陵文献典籍数字化素材库
根据清东陵文献典籍实际存藏现状,对清东陵文献典籍进行整理和组织,形成基本数字化素材库,是清东陵数字化建设的第一个基础性环节。
首先,根据清东陵文献典籍的不同类型和特点,分类施策进行整理和组织。其中,对于那些专门记载清东陵相关情况并且尚未被全文数字化的清东陵文献典籍,根据文献研究价值的大小和版本存世稀缺程度的高低,分步骤对其进行全文数字化加工和整理;对于零散记载清东陵相关情况或零散存在于已建成的古籍全文数据库中的清东陵文献典籍,通过汇集散佚在文献典籍中的相关内容和知识点,形成文献汇编专题数据库;对于那些已经被收录进入权威性的古籍全文数据库的数字化清东陵文献典籍,收集数字地址链接并形成导航。对以上各种类型的清东陵文献典籍数字资源进行有效整合,编制形成清东陵文献典籍数字化书目目录和各类型数字化清东陵文献典籍索引,成为清东陵文献典籍基本数字化素材库的原始素材。选取人工录入和机器扫描相结合进行编码设计的策略作为加工形成清东陵文献典籍基本数字化素材库的数字化方法。
在以上过程中,分别采用数据对象和元数据对应的存储方式进行资源整合。其中,对于古籍、书册、谕旨、档案等形式的文献资料进行著录标引形成元数据,建立索引实现主题检索功能;对于图纸、碑刻铭文和照片等形式的文献资料,通过光学扫描技术(OCR)形成高质量的图像信息文件。同时,针对清东陵文献典籍的文献资源内、外部特征设计描述元数据,从而通过题名、责任者、主题词、学科、中图法分类号、所属地域、版本信息、成书时代、文字说明等分别建立索引,支持用户的高级检索、族性检索和个性化检索。在这一环节中,还应遵循我国古籍文献数据加工流程、古籍版本选择、古籍文献文字处理等方面已有的数字化建设标准,如《古籍著录规则》(2008年)、《学术出版规范 古籍整理》(2015 年)、《古籍元数据规范》(2014年)、《古籍数字化工作手册》((试用本),2015年)[16]等,加强对清东陵文献典籍标引和分类工作的标准化和规范化,从而具备标准性、兼容性和可扩展性。
(二)结构化:进行数据转换形成清东陵文献典籍语料库
使清东陵文献典籍实现从数字化文本到结构化语料库的转换,是构建有序化的清东陵文献典籍知识库的重要基础。首先,由领域专家对清东陵文献典籍数字化素材进行主题分析,研究并归纳不同文献典籍多特征词汇底表。然后,构建基于清东陵文献典籍的自动分词、自动词性标注、自动命名实体识别和自动断句模型,完成数字化文本的分词、词性、命名实体和断句的自动标注。其中,以古汉语自动分析技术为基础进行词语切分,结合人工标注和校对,以实体标注方法,对清东陵文献典籍中所记载的词语、时间、地点、人物、事件等要素的命名实体以及词性、地点GIS等信息进行标注。最后,创建实体同现表、人名表、人物表、时间人物表、地名表等数据表[17],最终得到一个多层级标注的、结构化的清东陵文献典籍语料库,成为后续构建有序化的清东陵文献典籍知识库的基础。在对元数据进行数据清洗、对语料进行整理、入库与标注的过程中应注意保持语料的统一性和规范性,如,参照《我国数字图书馆标准与规范建设》标准中有关元数据与知识组织标准,并遵循《GB/T 20530-2006文献档案资料数字化工作导则》、《GB/T 26816-2011信息资源核心元数据》[18][19]等相关文献数字化建设标准,对清东陵文献典籍数字化建设流程进行标准化和规范化管理,使其具备开放、合作、共享和可持续发展等功能特性。
(三)知识化:形成有序化的清东陵文献典籍知识库
知识库是一种通过对知识客体分类、整理、加工、揭示、控制等知识组织方法进行存储和管理形成的数据集合体,是事实、规则和概念的集合[20]。利用计算机与网络技术将清东陵文献典籍变为可浏览、可检索、语义关联与知识重组的知识化的数字信息集合,形成有序化的清东陵文献典籍知识库,是这一环节需要实现的目标。
首先,由清东陵文史研究专家指导专业人员利用语义标注工具对清东陵文献典籍进行知识抽取与语义化处理,考虑同义词、概念的歧义、概念的上下位关系,借助人工参与及现有的分词工具,设计清东陵文献典籍研究文档分析器嵌入知识库系统当中,进行语义提取、组织和处理,构建形成结构化的数据集合。然后,通过构建领域本体的知识库组织方式实现语义检索,利用本体对相关资源进行语义标注,建立词汇间的语义关系,并存储对象类、属性以及对象之间的语义关系,提供深度的语义层面知识,展开语义知识组织,满足书目控制和规范控制等需求[21]。最后,在对清东陵文献典籍的内容进行描述、组织和揭示的基础上建立更多的语义关联,采用知识本体、关联数据等方式组织、开放资源并提供平台化服务,提供能够嵌入个人知识环境的各类分析处理和可视化工具[22]。最终使清东陵文献典籍知识库具备基于知识的语义检索功能以及文本挖掘、语义分析和知识发现等数字人文功能。
(四)平台化:构建清东陵数字人文知识服务平台
构建数字人文知识服务平台是实现为人文研究学者提供人文研究支持和知识服务的核心目标。该平台将基于清东陵文献典籍知识库为领域学者与公众用户提供面向数字学术的各项知识服务的软件应用模块,实现各项数字人文技术功能[23]。除了具有全文检索功能外,具有研究支持功能、具有知识共享和人—机交互功能、具有基于超链接的浏览阅读环境,以满足不断发展的学术研究和大众阅读的要求,并通过提供API接口,使得网络上的资料、工具与平台相互连接,促进资源的整合和互联[24]。
由于清东陵文献典籍包括清东陵古籍文献、清东陵档案文献、清东陵样式雷图档以及陵寝中的经文、佛像、碑文、舆图、照片、口述史资料等多种类型的文献,需要在分类的基础上对以上各种类型的文献典籍进行整合,以库、类、目的树形结构进行存储和展示。经数字化整理之后形成的知识库数据集合,应具备基于分类导航和分类检索的数据统一检索与获取功能,为用户提供科学、高效和便捷的知识服务。参照和结合传统的文献典籍分类方法和现代国际通行的图书资料分类法,构建符合现代用户检索思维和习惯的知识体系和文献检索系统,从而便于用户快速全面地了解清东陵文献典籍收录情况,充分挖掘和利用清东陵文献中的知识信息。
三、结论
文化遗产数字化是利用现代信息技术对文化遗产进行深度保护、传承、开发、利用与传播的重要手段。将数字技术与人文学术研究深度融合,使文化遗产数字化平台具有内容分析、社会网络分析、计量分析等功能,实现文化遗产资源提供、文化遗产知识关联和文化遗产知识服务三方面功能的互鉴和可持续扩展,是进一步提升文化遗产数字化建设和利用水平的重要途径[25]。通过借鉴数字人文学术的研究范式、研究方法和研究成果,提出建设清东陵文献典籍数字化建设的策略,使清东陵数字人文知识服务平台为清东陵文化研究提供新的研究视角、研究方法和研究工具,以增加清东陵文化研究的内涵、潜力、广度和深度,以期为后续进一步开展清东陵数字人文知识服务平台的具体技术实施方案进行探索、打下基础。