APP下载

古代小说文献研究与数字化之思考

2023-03-22冯大建

文学与文化 2023年4期
关键词:数字人文数字化

主持人语:本栏目所收的一组文章,都曾在今年春季的“古典新识”论坛上宣读,其共同点是关注古籍阅读、整理、研究的“新”问题,从不同角度思考古典研究在数字化浪潮下的变化趋势。近年来,中华书局古联公司在这一领域贡献尤多,朱翠萍从业界的角度介绍了古联公司数字化、智能化工作的经验及其对数字人文研究的理解。赵建成则从学术深度研究的角度,探讨学者在这一背景下的思考与可能贡献。冯大建以小说文献学为例,思考当下文献数字化工作的局限性,并尝试从底层标准设计的角度加以思辨。张昊苏选取了一个微观问题,尝试探索结合数字人文方法与传统文献考辨的可能性。四篇文章针对同一主题,但立说角度不同,各有见地,实可相互映发。(冯大建)

内容提要:相较于诗文文献研究,小说文献研究与数字化工作仍显滞后。小说文献研究,对“小说”“文献”两方面均有价值。从研究方法上说,小说文献的特殊性、复杂性在古典文献研究中均较少见,故其可以丰富既有文献学的方法,并与最近兴起的抄本研究形成呼应。理想的小说数字化工作应立足于以下两方面:在学理层面,对小说文献所涉及的根本性问题加以反思,拟定义例,建立标准,达成共识;在操作层面,采取联盟协作方式,打造学者共同参与的共同平台。数据库设计应在初期充分考虑小说文献研究可能涉及的需求,分阶段按重要性逐步完成。

关键词:古代小说文献 数字人文 数字化

数字人文研究的发展,离不开文献的数字化。可通过互联网便捷访问、多维度检索的文献数据库迅速发展①,使利用算法、统计的人文研究成为可能。不仅传统的诸如“四库”“永乐大典”等超大型类书、丛书全数被数字化,小学甲骨、敦煌文献、佛教经藏、方志碑刻等学科领域,也有大量的专题库。世界各地的大学、图书馆与大型文化出版机构是近20年来文献数字化工作的主力,工作类型以建设影像、全文或目录类数据库为主,并开发了诸多数字人文工具。如果再加上研究团队与个人建立的小型专题文献库,数字化文献工作的成果蔚为大观。但与蓬勃发展的通用型数字文献成果相比,古代小说文献数字化工作的进展颇为滞后。虽然大量中国古代小说作品已经可以在互联网上全文阅读,但其中能够对中国古代小说研究的新发展提供助益者却寥寥无几。就现有数据库来看,专题小说文献数据库、小说文献数据质量均存一定缺陷。小说文献数字化的滞后,一方面与古代小说这个研究对象的复杂性有关,另一方面或许也与小说文献研究自身的研究范式、方法均需要深入讨论并建构有关。小说文献的数字化建设,首先依托于小说文献的系统整理与深入研究,而小说文献的整理水准,则有赖于对小说文献若干核心问题的反思与探索。

近期,南开大学古代小说研究同仁正在探讨古代小说文献学理论与实践的若干问题,并试图立足于当下既有的小说文献研究成果,研发课程、开发教学软件①,探索古代小说文献研究人才培养的方式方法。在教学科研的过程中,我们也发现需要对古代小说文献研究的根本问题进一步深入思考,只有在此基础上,才能够对古代小说文献数字化工作提出一些合理的展望与研究思路的探讨。

一 古代小说文献研究的成果与困境

古代小说文献研究,既是中国古代小说史与作品研究的基础性工作,也是古典文献研究的重要组成部分,具有“小说”“文献”研究的双重价值。

按照一般认知逻辑,“小说文献”应是古典文献学的分支之一,属于“专科文献学”范畴。但从现有文献学教材、论著,及文献研究者的兴趣来看,经史诗文等传统的文献“正宗”研究积累丰厚,而小说文献研究则处在经典“文献学”研究视野边缘。除中国学术史发展特点与治学传统观念之影响外,小说文献自身的特殊性也是重要的原因。中国古代小说文献非完整性、零散性、随意性、不均衡性、易变性等特点②,可谓其中要因。

从学术史的角度看,古代小说文献的“发现/建构”起源较晚。虽发展已逾百年,但较之目录校勘的古典文献学术传统,为时尚短。其肇始自清末民初鲁迅、胡适、孙楷第、郑振铎等前辈学者对传统“小说”文体的重视与研究,是现代“文学研究”范式确立的产物。自诸位前贤之后,20世纪后半期的文献整理成果蓬勃发展,重量级成果频出。古代小说文献在影印、整理、编目、史料汇编、理论汇编等层面积累了多种重要成果。大型小说丛刊如天一出版社《明清善本小说丛刊》(1985)、中华书局《古本小说丛刊》(1987—1991)、上海古籍出版社《古本小说集成》(1990—1994);書目著录如袁行霈和侯忠义《中国文言小说总目》(1981)、程毅中《古小说简目》(1981)、江苏社科院《中国通俗小说总目提要》(1990)、李剑国《唐五代志怪传奇叙录》(1993)、宁稼雨《中国文言小说总目提要》(1996)、石昌渝主编《中国古代小说总目》(2004)、朱一玄等编著《中国古代小说总目提要》(2005);还有大量分体、断代的古代小说作品总集丛刊、叙录提要出版;史料汇编如朱一玄《水浒传资料汇编》(1981)和《聊斋志异资料汇编》(1985)、侯忠义《中国文言小说参考资料》(1985)、黄霖《金瓶梅资料汇编》(1987)、刘荫柏《西游记研究资料》(1990)、朱一玄《明清小说资料选编》(1990);理论汇编如黄霖和韩同文《中国历代小说论著选》(1982)、孙逊和孙菊园《中国古代小说美学资料汇释》(1989)、丁锡根《中国历代小说序跋集》(1996)等;域外小说文献方面也产生了一些重要成果,韩国、越南、日本汉文小说集成丛刊陆续出版。这些大型小说文献研究成果的形成,大大推动了中国古代小说研究的深入发展。

但随着古代小说研究的深入发展,整体去观察小说文献研究与成果的作用,特别是与各类数字化文献的使用相比较,仍然能够发现一些遗憾之处。大体可归为如下六个方面:

其一,纸质载体,翻阅不便。上述文献中的大型丛书,虽已为研究者提供了较大便利,但就数字时代的文献环境来说,却有滞后不便之处。在面对重要研究对象之时,当然需要“细读”,但立足于全文检索和文本挖掘的“遥读”也同样重要。

其二,聚焦热点,忽略冷门。相关文献整理出版偏重于“热点”,以关注名著、关注重要版本、关注特定历史时期为特点;二三流作品,乃至经典小说的次要版本都较少被整理工作关注;点面不均,有待进一步发展。

其三,标准不一,版本可商。部分通行影印丛书,在影印的质量、版本选择等方面,都还有可商榷之处;整理本过于注重“通行”,文献细节处理,有随手、粗率之处;整理本往往不能完整保存原书版本特征,只适合进行普及,不适合历史性研究,有时甚至可能误导文献研究方向。

其四,文本核心,信息支离。对于文献整理而言,重在初步的作品、资料的文本呈现,但更丰富的出版、图文等历史以及出版信息往往被剥离,仍需核对原本方可资于研究;另外,小说文献校勘虽然也不离“四校”之原则,但勘误核异却有自己之特殊性,特别是服务于研究的学术性文献工作,不能简单以对错通异为准,而需要尽可能地保留历史版本信息。

其五,偏重应用,缺乏理论。小说文献的整理往往偏重于应用,而对小说文献的一些根本性问题,比如小说文献应该包括哪些内容、好的小说文献整理应该注重哪些特点、小说数据库应该以何种标准建设,还缺乏更深入的思辨。

其六,数据欠丰,呈现受限。当下古代小说数据库为数较少,且标准缺乏、质量不佳,数字化校勘工具软件更是欠缺,数字化文献汇编综合检索与利用有待实现。知识图谱等进阶性研究,亦无从发展。这也与小说文献研究自身发展的系统性不完整的情况有关。

事实上,小说文献有自己的特殊性和复杂性,这在古典文献研究中是较为少见的,故其可以丰富既有文献学的方法,并与最近兴起的抄本研究形成呼应。比如,自从郭店楚简《老子》甲、乙、丙出土后,就提示研究者:《老子》一书的争议性并不仅仅在于上下经的顺序、具体分章与异文的差别,也在于其本身有可能是多种道家文本重新组合成的思想论著。这一进程与古代白话小说的“世代累积”现象不无相似之处,校勘成果必须与成书研究相配合,才能够理解不同文本的衍生关系。小说文献学研究可以为古典文献研究方法提供更多特殊用例。从研究结论说,既往某些对小说史的一般认知,及对小说名著的特点认识,由于对小说文献的考辨、甄别不够细密,因此有进一步提升的空间。对小说文献理论的思辨,有助于文献学和小说史两个领域的发展,而小说文献学研究的自我检讨与完善,也是小说文献数字化发展的基础工作。

二 古代小说文献研究:何以?何为?

“小说文献”之字面意义虽不难理解,但边界却不清晰。严格来说,“小说文献”首先应该包括小说文本之各种版本,以及与小说研究有关系的各类文献,并通过版本、目录、校勘、辑佚、辨伪等传统文献学方法加以研讨。但广义去看,小说“文备众体”——文言与笔记、文集交错,白话与戏曲说唱同源,分属两个文献系统,校勘方法颇有差异。近来,除传世文献外,出土文献也逐渐受到了关注①;除国内文献外,域外文献也更应该得到重视。若考虑到小说之内容、思想与其产生时代之纠缠,则文献范围更为广泛,故此,小说文献研究的首要问题即是对核心与边界的界说。

何为“小说”,历来并无定论;小说应如何分类,也没有严格的标准。从《汉书·艺文志》开始,目录著作开始著录“小说”,但传统目录学中的“小说”分类与现代文学研究的“小说”对象之间,并不吻合,有时偏差很大。首先,是今古理论框架之差异。古人对小说的认知与古代小说实践的发展常常存在着某种“错位”,这种错位被陈洪先生描述為动态的“瓶与酒的关系”,新瓶纳旧酒、新酒入旧瓶,名实之间始终是动态的匹配过程。其次,对于古代小说作品的身份认定从根本上还是以今天的“文学小说”概念为依托的,故此,今古研究者之学理框架之间也存在错位的问题。小说史研究也好,目录研究也好,“何为小说”始终都是重点讨论的基本问题,“小说”作品的边界游移,则小说文献之边界也就难以明晰。

此外,传统目录学方法在著录小说文献时也会面临一些困难。比如,小说基本信息的著录体例,应该和传统的诗文文献的著录方式有一些区别,它需要更复杂的信息来呈现,应拟定特殊的体例。再比如,在提要撰写时,传统目录提要或是概括全书主要宗旨、历史价值,或是介绍版本沿革与特殊性质,但在小说提要中都有一定困难。几种当代小说提要著作虽试作探索,但也各有问题。以《红楼梦》提要为例,如欧阳健、萧相恺编《中国通俗小说总目提要》重在内容提要,但首先难以解决的是脂、程两大版本系统的矛盾——不论作者、回目、情节梗概、主旨,都因版本不同而有明显之差异。朱一玄编《中国古代小说总目提要》、石昌渝编《中国古代小说总目》等,还用相当篇幅讨论了红学研究争议、当代整理本与译本等问题。我们当然可以理解提要作者努力寻求学界共识的努力,但仅就提要写法来看,仍不得不承认小说提要目前还是缺乏严格标准的。

另一方面,小说文献研究还需要关注小说文体在文化传统中的地位、古代小说独特的出版机制等问题。

小说文体在中国古代的文之传统中地位不高。“由于中国古代人对小说一贯轻视和贬斥,造成了许多问题。”①小说出版和传播的特殊性也与此有密切关系。特别是宋元以后,通俗白话小说的出版,与诗文经典差异颇大。作品被“任意”删改、作家或戏作或逐利而匿名出版,文体地位卑下也导致很多作品与相关文献资料的散失缺乏。由于白话小说的特殊性质,作家作品的文献空白点特别多。常见的材料多见于诗文集、笔记中的小说描述,但相对零散,也欠缺详细的边界划定、资料整合(尤其是“非名著”的资料)。再如,与小说相关的“文献”,也为数甚多且散见于多种叙事文类作品中。小说与其他文体——特别是戏曲、说唱、宝卷等俗文学文类的互动文献,如“三国故事”“西游故事”,究竟应该如何看待,都使小说文献边界划定更令人困惑。如部分学者曾批评鲁迅《中国小说史略》未顾及各类“变文”“词话”,以至小说史论说有孤立之病;近年来的《中国小说通史》亦将弹词等文体纳入“小说史”书写,旨在提供更广阔的研究视野。可见“小说文献”独立成学,应当划定更为明确之界限,但“小说文献”与其他文体、学科纠缠连接的那些材料,也应得到充分之关注。

这些都是古代小说文献研究的特殊困境。其中,小说文本的复杂版本问题又是一大难点。理想情况下,当然应将所有的版本异文都纳入研究视野,但传统作品研究往往侧重于精研小说的核心版本,细致比勘不同版本的工作相对滞后,所涉文献亦有缺位。但当小说研究进一步纵深发展时,就需要通过各版本的精细化比勘来细化对小说作品的真实发展历程的认识;除需要关注小说主文本外,还要进一步关注小说的“副文本”。比如序跋、批评、圈点插图等刊刻信息体现不够,在众多整理本与汇编中这些原始出版、传播与技术性信息“留存”不多,不能不说是种遗憾。传统的作品整理重在形成一个精要的“通行”本,甚至忽视校勘学规范采取“择善而从”;而今天的研究则需要众多易于检阅、保留准确丰富“元数据”的原始风貌本。

这些特殊性也导致小说文献研究思路、方法上的个性化问题。小说版本中出现的大量异体字、俗字、错别字等现象,是影响文献研究结论和版本关系分析的重要证据,按理说不应径改为规范字,但具体应如何处理,目前学界讨论仍欠深入。理想的小说文本的多版本校勘应加以精细且系统的核较、比勘,但不少小说涉及的版本数量太多,异文数量庞大且难以穷尽,而对异文的解释也相对简略,这就出现了“事倍功半”的现象:从事小说版本研究,难度较高,标准欠缺,收益较低。对“世代累积型”的小说,由于不成于一人一时,就无“定本”可言,且“繁简本”差异并非简单的异文有无可以概括,或此有彼无,或存在整章回、整段情节的巨大差异,校勘工作难度极大。既有的大量研究,常常是可以依照一个“标准版”(或代表性版本)来进行,这就使得学界对小说版本校勘有敬而远之的态度。作为个体研究者来说,这种选择当然有合理性,不过,确有一些习焉不察的问题被遮蔽于相对粗放的文献选择之下。

简单来说,小说文献研究的深入思考与小说文献数字化工作其实是同步同向的。“小说文献”应该包括哪些内容,就界定了理想的小说数据库应该收录哪些信息,以及小说文献研究者应该如何建立自己的知识结构;解释了“小说文献”应该用哪些方式加以重点研究,小说研究者在数字化时代的需求也就呼之欲出了。也就是说,小说文献数字化的体系性建设,必须立足于对小说文献特殊性的充分认知和理论思辨之前提。换言之,小说文献的数字化建设应该建立在对小说文献研究这个学术领域的深入反思的基础上。小说文献研究的对象与方法都应该以一种“标准化”的思路做深入的系统梳理。

三 古代小说文献的数字化需求与反思

如前所述,当前古代小说数字化工作处于相对滞后的地位。虽然大量数据库中都收录有小说作品,但可用于研究征引的小说研究的各种专题数据库较少,且各有问题。比如,北京爱如生数字化技术研究中心开发制作的“中国俗文库”虽已相当完备,但也有数据选择方面的问题。而且,对普通研究者来说,该库也有并未普及的问题(全球用户24家,大陆地区用户仅7家)。

约言之,各类收录小说文献的数据库,往往存在如下共同问题:

第一,数据质量欠佳,权威性不足。很多数字小说文本固然可以在线阅读、复制,但缺乏版本依据,也就缺乏作为学术文献征引依据的权威性。即使是那些能够对作品书影通过OCR技术手段自动整理而形成的数字文本,也面临同样问题——任何技术手段都不足以保证学术文献所要求的准确度。

其二,基础数据缺乏。小说收藏广泛分布在国内外诸多图书馆中,对不同版本的书影电子化工作尚未完成,故缺乏高水准、系统性强的底本库。不仅高质量底本库缺乏,数字化的权威作品目录库也不完善。当然,小说文献自身一些信息的不完整,也造成了数据库设计的困难。比如说,大量小说没有明确的出版时间,则对于要进行精确标注的数据整理而言,就必须设计出能够容纳这种模糊性的索引模式;而这种模糊的容错性策略设计,恰恰是数字化工作的难点。

其三,小说文献数据库技术与标准有待完善。现有的小说数据库,虽能够提供全文检索和部分高级功能,但仍不能够完全满足学者的使用需求,亟需从底层设计层面进一步完善。

故此,若积极推进数字化小说文献的发展,除小说文献研究自身的理论建构与实践探索外,在技术层面或可从以下几个方面做基本标准与规范的界定,进而推动小说文献数字化的研发与建设。

首先,应该对小说文献数据的结构提出标准化要求。学界和业界对数字化文献的结构化信息和原数据整理标准,已有比较全面、深入的技术研发。但在文献数据层面上,大部分采用的还是双层结构,即原书图版与整理文本两层。用户可对整理后的数字化本文进行复制剪切,并进一步对照原书的书影图版进行核对。但这样就导致数字化文本的整理工作面临巨大的分歧:是依照通行原则简化纠错呢?还是依照学术原则保留“原汁原味”的文字痕迹?故此,文献数据库的数据应该包括三个层次,即(1)原始圖版层:高质量扫描原书图版——以保存所有的纸张、印刷等版本刊刻信息;(2)原始文本层:严格按照影印版生成的繁体数字化文本——保留原文的内容细节、异体字乃至错别字,以用于学术研究引用;(3)通行文本层:对照标准字符集生成的一个带标点的通用文本——便于快速检索、阅读等作品研究与传播。三层数据精密对照而彼此无碍,从而方便学者按需取用,形成高学术水平的数字化文献。

其次,应制定一套符合小说数字化文献特征的文本标记和存储的技术框架标准。以文本标记技术标准为例,关于文献中标准字符集中未收录的异体字如何显示?对于小说文献的空白、破损、模糊、涂改补充如何标记?对于小说文本的夹注眉批、圈点如何呈现?对于小说文本的序跋印章款式等如何呈现?在这些方面,应该由大学与专业文献服务商密切合作,由专业学者与技术专家共同讨论出一套标准、通用的小说文献存储的“技术框架”和“标准语法”。首先与原影印情况应完全一一对应,然后才是整理版的情况。要言之,即对小说文献的各类原始文献信息都能够有标准的记录方法,才能够真正实现小说文献“准确”地高质量数字化。这虽然看似是技术问题,但却需要众多小说文献研究者共同讨论、全面考察小说文献的校勘特点方可完善。而这种技术标准的统一,也便于将来建立的各类小说作品专题库之间数据的交流与共享。

再次,应该研发适应学术研究的软件工具。比如,小说文本的比勘工具就是急需的。学界对小说版本比勘需求较高,但如何在有限的屏幕空间内完成多版本、大批量比对功能?与诗文文献个别字句差误不同,小说文本体量巨大,不同版本之间差异巨大,不仅有简繁本的问题,还有改编系统与原本系统之间的差异。再如,小说图版与文本的便利化的校点工具可能也是迫切需要的。特别是当我们处理一些较为“冷门”的版本时,完全可以通过同版本系统的通行文本与该版本的图影对照,从而快速校订出比较准确的文字内容来。工欲善其事必先利其器,相关工具的开发、开放,有利于降低工作强度,也可吸引更多专业人才参与小说文献数字化的建设工作。

最后,就实际操作方案来说,可考虑以如下步骤具体推动小说文献的数字化建设。可考虑多院校、多机构共同建立小说文献研究专题社区——特别是技术标准社区,推动小说文献整理标准、方法与规范的形成;努力打造文献平台与研究平台的合一,可通过“以用促建”的方式,为学界同行提供技术支持与数据共享;以专题库为突破,推进高质量作品库建设。依据前定之学术标准,使不同方向的小说文献研究者发挥专长,在同一平台分享、讨论,推动小说文献研究与小说文献数字化工作的共同发展。

结语

综上所述,我们建议,理想的小说文献工作,应该在清晰思辨小说文献基本问题的基础上,统合现有小说文献成果,努力形成贯通的文献方法论,并以此解释小说史上若干重要现象。理想的小说数字化工作应立足于以下两方面:在学理层面,对小说文献所涉及的根本性问题加以反思,拟定义例,建立标准,达成共识;在操作层面,采取联盟协作方式,打造学者共同参与的共同平台。小说文献的数字化数据库建设应在充分讨论学理的基础上,由学界与业界共同推进技术标准的研发;初期充分考虑小说文献研究可能涉及的需求,分阶段按重要性逐步完成。这一问题其体甚大,并非少数学者所能完成,期待学界有识者能够共襄盛举,就上述核心标准问题共同商讨、整理,以提升小说文献研究的水平,并通过卓有成效的数据平台建设,为学界提供具体讨论的参考物。在小说文献层面有所突破,对当下古典文献学研究亦有裨益,其价值当不仅限于小说一体之研究。

(冯大建,南开大学文学院副教授)

猜你喜欢

数字人文数字化
数字化:让梦想成为未来
家纺业亟待数字化赋能
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
数字人文时代公共图书馆经典阅读推广研究
数字人文目标下图书馆信息服务模式研究
数字学术与公众科学:数字图书馆新生态
跨界与融合:全球视野下的数字人文
跨界与融合:全球视野下的数字人文