古籍数字版本的权威定本问题探究
——以《老子·道德经》为例
2021-12-28李慧芳
常 娥 李慧芳
(东南大学图书馆 南京 210096)
1 研究背景
古籍版本研究是一门古老而又年轻的学科,其古老在于古籍版本研究最早可追溯到先秦时期孔子、子夏等人对于书籍版本的异同研究,至今已有两千多年的历史[1]1-11;其年轻在于当前网络数字环境为古籍版本研究赋予了全新的时代内涵。随着古籍数字化工程的建设与发展,古籍本身的载体除了传统的甲骨、竹简、丝绸、纸张外,又增加了新的载体,增添了古籍数字版本这一重要的形态。但由于古籍数字化建设缺乏国家标准,图书馆、出版社、研究所以及商业公司等各单位间缺乏科学统筹和协商合作,多为独立开发,导致古籍数字版本种类繁多,质量良莠不齐。经笔者统计发现,《文渊阁四库全书》有3种数字版,《二十五史》的数字版本多达7种[2]。由于目前各种古籍数据库错漏讹误较多,缺少学术引用信誉,因此学者们在研读、参考和引用时,大多会将数字版古籍与纸质版古籍进行核对,最终引文注释的出处仍使用纸质版古籍,这大大削弱了古籍数据库本来应该起到的作用。
造成这一现象的原因在于,在近30年的古籍数字化建设进程中,学者们的研究重点主要集中在古籍数字化的意义、问题与困难、进展报告、检索技术以及研究支持功能开发等层面[3],较少关注古籍数字版本问题。因此,从理论上对古籍数字版本及其衍生的一系列现象进行深入研究,进而讨论古籍数字版本权威定本及引用问题显得十分必要,比如研究古籍数字版本与传统版本有何区别、古籍数字版本的优势与劣势、古籍数字版本如何高度还原传统纸质版本的特点等等。有鉴于此,文章在阐释古籍数字版本基本概念和分析古籍数字版本特点的基础上,以6大数据库中的《老子·道德经》数字版本为例,对其进行比较和评鉴,提出了古籍数字版本权威定本及引用的方法和策略。
2 古籍数字版本的内涵与特点
2.1 古籍数字版本的概念
“版”与“本”二字合为一词,始于宋代,最初指用雕刻文字的木版印制而成的图书本子,俗称雕版印本即刻本,其目的是区分当时流行的写本、拓本(碑本、石本)等[4]。随着活字印刷技术的发明和普及,印制图书的“版”已不限于木质雕版一种,除雕版印本之外,其他各种类型的印本如活字本、铅印本、石印本、胶印本以及各种影印本等,逐渐被包括在版本范围之类,甚至连早期的稿本、抄本等各种手写本也均成为图书的不同版本类型。虽然迄今为止,关于版本的概念学界还没有形成统一的认识,存在着“印本说”“合称说”“总称说”“形态说”等说法,聚讼纷纭,但学者们普遍认同“版本”一词的含义在逐渐扩大,已成为一部图书各种表现形态的总称[1]1-11。古籍数字化工程改变了古籍原本的实物版本形态,一部图书的表现形态既可以是实际物品,也可以是数字信号,因此数字版本成为一种新型古籍版本表现形态。
伴随着数字化技术手段的不断更新与变化,古籍数字化经历了较长时间发展。起初,商业公司将古籍扫描成图像制作成光盘发行销售,称其为“光盘版”或“电子版”古籍。杜泽逊先生指出,“电子版”的提出开拓了数字时代古籍版本学研究新视野[5]。后来,随着网络技术、扫描技术和OCR技术的不断发展,科研机构、图书馆、商业公司等开始将古籍资料加工成计算机可编辑的文本字符形式,并利用计算机网络进行传播和利用,以文本字符为基础产生了word、pdf、txt、html等多种格式的古籍版本。综合借鉴古籍数字化领域研究成果,文章认为所谓古籍数字版是指利用拍照、扫描、OCR识别等技术将纸质古籍资料转变成计算机可读取、显示与编辑的版本形式。古籍数字版本有广义和狭义之分,广义上的古籍数字版本,既包括缩微胶卷版、扫描图像版古籍,也包括文本字符版古籍,可以称之为光盘版、电子版、网络版古籍等;狭义上的古籍数字版本,一般仅指文本字符型的古籍版本,强调计算机对古籍文字内容的可编辑性,以及可实现全文检索的功能,主要以古籍全文数据库或网页形式存在。
虽然古籍原典含有其数字化拷贝不能承载的信息,古籍数字版本永远不可能取代原典,但从利用古籍文字内容进行学术研究来看,古籍数字版本是可以作为古籍的一种版本形式被引用和评鉴的,因此古籍数字版本有其独立存在的意义。古籍全文数据库拥有的强大检索功能是纸本古籍所不具备的,如果能确定古籍数字版本的权威定本,并在古籍版本流传谱系中对其进行历史定位,学者们可以直接进行研读、参考和引用,这无疑将极大推进人文社科研究进展。
2.2 古籍数字版本的特点分析
统计表明,目前我国公藏机构已拥有超过20亿字的数字版本古籍,常见古籍基本可以在互联网上找到数字版本[6]。近年来,以国家图书馆为代表的文化机构,通过与国外典藏机构合作,将流散海外的古籍文献数字化,其代表性项目有“国际敦煌项目”“海外古籍善本项目”等[7]。但由于种种原因,我国至今尚未完成一份完整的古籍数字化资源普查报告,无法准确统计被数字化古籍的存量。可以肯定的是,目前古籍数字版本类型非常丰富,很多古籍,尤其是善本古籍的数字版本远不止一种格式。相比于传统版本,古籍数字版本具有鲜明特点,归纳起来有以下几点。
第一,古籍数字版本格式多样。常见数字版本格式除txt、doc、html外,还有exe、pdf、wdl、pdg、ebk、edb等,不同古籍全文数据库平台格式各异。尽管古籍数字版本格式繁杂,但就古籍全文数据库处理版本选择问题的模式而言,目前主要存在两种形式[8]:一是影像版古籍,又称图像版,主要利用扫描技术,通过保存古籍影像的方式保留古籍文献原貌,为数据库提供古籍文献版本的直观依据;二是文本版古籍,主要利用OCR识别技术,将影像版古籍转化为文本字符,从而便于全文检索和更新内容文字排版等。无论是影像版,还是文本版,将古籍原典进行数字化的过程类似于一种电子“誊抄”过程,而无论哪家机构都不能保证百分百“誊抄”正确。
第二,古籍数字版本复杂多样。由于古籍数字化建设初期缺乏统一规划与部署,同一版本原典会被不同机构选中并进行数字化。不同机构采用不同分辨率的扫描技术,OCR识别准确率亦不尽相同,最终形成了同一版本原典的不同数字版本,例如纸质版《老子·道德经》(河上公注)在不同古籍数据库中有多种数字版本。此外,由于某一种古籍本身具有多种纸质版本,同一机构选择其不同版本进行数字化,从而形成了该古籍的不同数字版本,例如在“古籍基本数据库”中有13种《老子·道德经》的数字版本。两种原因相叠加,使得古籍数字版本变得更加复杂多样。因此,针对古籍数字版本乱象丛生的现象亟需解决权威定本问题,以进一步提升古籍数据库的应用价值。
第三,古籍数字版本承载信息量减少。承载古籍的甲骨、金石、竹简、木牍、绢帛和纸张等具有物质形态,这些物质形态本身也能传达很多信息。例如竹简的长度不一,含义不同,长简用于写经典,短简则用于记杂文,而木牍则多用于写书信[9]。纸本古籍的版本信息更加丰富,有稿本、刻本、抄本之别,每种版本所传达出来的外部信息差异甚大。以刻本为例,以时代、地域和刻版形式等不同视角可以观察出不同的信息。遗憾的是,这些版本信息在目前的文本版古籍数据库中基本上无法获知。因此,研究数字版古籍如何最大限度地保留传统版本所承载的各类信息是非常必要的,这也是比较和评鉴各种古籍数字版本、确定权威定本时需要重点考量的因素。
第四,古籍数字版本具有不稳定性。相比于纸本文献,数字文献最大优点在于一篇文档可以随时修订、补充和完善。但是对于古籍数字化文档而言,这极易造成古籍所承载的历史记忆信息被修改。由于古籍数据库在开发制作时存在粗疏、校对不严谨、缺乏专业性等问题,古籍数据库在提供强大检索功能的同时,也失去了原纸质版本的稳定性,变得不那么可靠。严谨的学者在使用古籍数据库时,通常会与原纸质版本进行核对,这实质上是针对古籍数字版本的校勘行为。同一种古籍的不同数字版本所承载的信息有同有异,选择精良版本、经过校勘考辨等进一步提高某种数字版本的质量和可信度、标注出数字版本的版本信息,这将成为古籍数字化未来着力发展的方向。
3 古籍数字版本的比较与评鉴——以《老子·道德经》为例
3.1 《老子·道德经》版本流传简介
《老子·道德经》,又称《道德经》《道德真经》《老子》《五千言》《老子五千文》等,是中国古代先秦诸子的一部经典著作,传说是春秋时期的老子(李耳)所撰写,是道家哲学思想的重要来源。《老子·道德经》分上下两篇,原文上篇《德经》、下篇《道经》,不分章;后改为《道经》(前37章),第38章之后为《德经》,并分为81章。由于《老子·道德经》写于2000多年前,主要靠手写传抄流传,难免有被改动,或者错写、漏写的地方,导致当前流传于世的《老子·道德经》版本约有300多种,目前比较有影响力的三个版本为王弼通行本、马王堆帛书甲乙本以及郭店出土的楚简本。
《老子·道德经》在流传过程中,由于增、删、改等错误抄写,导致不同版本间存在差异,最直接的表现为总字数上的不同。据统计,马王堆帛书,甲本为5 344字,乙本为5 342字(外加重文124字);今本,河上公《道德经章句》为5 201字(外加重文94字),傅奕《道德经古本》为5 450字(外加重文106字),现代《老子·道德经》通行本,以王弼所注,总字数为5 162字(外加重文106字)[10]。
3.2 《老子·道德经》数字版本比较
古籍数字版本优劣问题已引起学界关注,有学者就分析了古籍数字版本的各种查找、排版、统计以及是否有读书笔记注释功能等。只是既有研究大多从图像版、文本版的宏观整体层面进行分析与对比,缺乏细致深入的古籍数字版本评鉴,有鉴于此,文章以《老子·道德经》为研究对象,开展细致深入的古籍数字版本比较与评鉴研究。
文章选择国内6大知名古籍数据库进行摸底调研,包括“中国基本古籍库”(简称“基本古籍库”)、“鼎秀古籍全文数据库”(简称“鼎秀古籍库”)、“大成故纸堆”(简称“故纸堆库”)、“中美百万图书全文数据库”(简称“CADAL库”)、“中华古籍资源库”(简称“中华古籍库”)和“国学大师网”(简称“大师网”)。笔者发现《老子·道德经》数字版本主要呈现出3大特点:第一,就数字版本所选纸质底本来看,不同古籍数据库间并不相同,原因在于《老子·道德经》纸质版本资源丰富,可选择范围广泛;第二,就数字版本总体形式来看,《老子·道德经》的数字版本主要有图像版和文本版两种形式,图像版是各数据库的首选数字版本形式,而文本版制作成本高昂,主要存在于商业数据库中;第三,各古籍数据库收藏《老子·道德经》的数字版本数量差异较大,例如“基本古籍库”包含13种数字版本,“中华古籍库”包含49种数字版本。
通过摸底调研,笔者最终发现《老子·道德经》(河上公注,四部丛刊景宋本)可以满足文章研究的数据可获得性要求。文章对《老子·道德经》数字版本的评鉴研究主要从文本版质量和图像版质量这两个方面展开,具体分析维度包括文本版字符异文错讹情况、是否可变换排版、有无标点符号,图像版本图像清晰度、完整度、有无封面等几个方面,详细比较结果如表1所示。
表1 《老子·道德经》数字版本分析评鉴表
根据评鉴研究结果,各古籍数据库的图像版本质量较高,基本实现了扫描图像清晰、完整且平整规范,无翻折痕迹等,其中“故纸堆库”完整扫描了《老子·道德经》的封面页,使得其图像版本形态更加完整。文本版由于制作成本高,主要存在于“基本古籍库”“鼎秀古籍库”“大师网”中,其中“基本古籍库”文本版的质量最高,不仅用不同字体颜色区分原文章句和注释文本,并且可以变化文本字符的排版方式,便于阅读。为了对比分析《老子·道德经》不同文本版的异文错讹情况,文章采用人工方式将《老子·道德经》数字版本中的原文章句与纸质底本进行逐字符比较,分别就增、删、改动文字情况进行统计。针对古籍数字化繁简体字符问题,由于目前学界大多支持采用繁体字制作古籍文本,以尽可能保留原典信息。因此繁简体、通假字等变化,文章在统计过程中均视为文字改动。
统计结果显示,“基本古籍库”中的文本质量高,错字率为3.65‰,其次为“鼎秀古籍库”,错字率为6.92‰,而“大师网”中的文本质量较低,错字率为37.88‰。笔者进一步分析各数据库中的文本版《老子·道德经》的文字改动情况,发现大多为繁简体、通假字的改动,主要包括“旣改既”“巳改已”“衆改眾”“兊改兑”等,文章重点统计了《老子·道德经》各数字版本文字改动频次在2次及以上的异文情况,具体如表2所示。
表2 各数字版本《老子·道德经》的文字改动情况统计
4 古籍数字版本权威定本方法与策略探讨
传统古籍版本鉴定是指辨识、鉴定古籍以确定其刻印或抄写的年代、版本源流及其价值的工作。古籍数字版本形态完全不同于传统纸质古籍,因此对其进行鉴定不能照搬传统古籍版本鉴定方法。鉴于每一个古籍数字版本的生成均可以找到其对应的传统纸质古籍,因此文章将古籍数字版本和与其对应传统纸质古籍的接近程度作为古籍数字版本权威定本的核心考量因素,综合上述《老子 ·道德经》数字版本比较结果,提出确定古籍数字版本权威定本及引用的方法和策略。
第一,图像版古籍可视为数字权威定本,可以用作文献引用。目前计算机扫描技术已经非常成熟,采用光电、拍照等方式将古籍纸质原典转化为数字版本时,可以清晰记录下古籍原典所包含的各种版本信息,例如版面、印章、批点、划线等,因此制作图像版古籍是最接近纸质古籍原典的数字化方式,可用作文献引用。图像版古籍的版本权威性可以根据数字化扫描底本的版本价值来判断,如果是善本古籍,其图像版可视为其数字权威定本,例如《老子·道德经》(河上公注,四部丛刊景宋本)的图像版可视为数字权威定本。为了增加图像版古籍的信任度,使其成为像纸质古籍那样可靠的信息来源,除了扫描正文页外,还应该扫描封面、封底和版权信息页,并标注数字版本信息。标注古籍数字版本信息应包含两个方面内容,其一为原始古籍的版本,其二为数字化以后的版本,以备文献核查与引用。
第二,文本版古籍暂不适合做数字权威定本,无法用作文献引用。由于文本版古籍生成的特殊性,OCR转换过程中不可避免存在增、删、改、字库不兼容等情况,产生错讹,加上文本版制作成本高,并不是每一个古籍数据库都有文本版,因此尽管文本版古籍底本可能为善本,但是仍然不适合做数字权威定本,亦不能单独用作文献引用。根据比较结果,《老子·道德经》(河上公注,四部丛刊景宋本)在各大古籍数据库中的文本版错字率均高于万分之五,因此学界不得不面对的现实是,目前文本版古籍质量仍有待提高。文本版古籍的存在价值在于快速检索全文,节省用户查找和阅览古籍资料的时间,可以与其图像版古籍结合使用,形成图文对照,提高学术引用正确率。
降低文本版古籍的错讹率,使其能够被学术研究所引用并形成文献学意义上的古籍版本,是古籍数字化领域未来值得持续探索的研究方向。文本版古籍数字权威定本的形成,除了依赖于汉字字库的进一步发展和文字识别录入准确率的提高外,还需要研究数字文本固化保存技术,例如数字签名、区块链技术等,以防止文本内容的删改。
5 结语
古籍数据库规模庞大,种类繁多,百万字文本资料的检索可在瞬间完成,是文史研究的重要工具。然而,目前古籍数据库文本字符准确度明显不足,在论文、著作中引证古籍文献时,学界仍要求使用公认权威版本的古籍纸书,更突显了数字化古籍版本问题。针对目前各种古籍数据库错漏讹误较多、缺少学术引用信誉的弊端,古籍版本学亟需解决数字化古籍的权威定本问题,使其能够被学术研究所引用并形成文献学意义上的古籍版本。有鉴于此,文章提出了古籍数字版本概念,并分析了古籍数字版本特点,最后以《老子·道德经》为例,比较分析了包括“基本古籍库”“中华古籍库”“鼎秀古籍库”等在内的6大主流古籍数据库中数字版本情况,认为善本古籍的图像版可视为该古籍的数字权威定本并用作文献引用,而文本版古籍尚无法认定为权威版本。但由于文本版古籍在信息深入检索和知识挖掘上具有图像版古籍无可比拟的优势,因此可通过更加严格的质量控制,使其成为数字版本权威定本。