APP下载

e-校勘
——中国红色文献整理研究的新路径

2022-12-06刘晓禾

新世纪图书馆 2022年10期
关键词:考据结构化红色

刘晓禾

0 引言

目前学界关于“红色文献”的含义看法较为一致,即主要指“1921年7月中国共产党成立起至1949年10月新中国建立之前由中国共产党机关或各根据地所出版、发行、制作的各种文献资料,其中包括党的领袖的著作、党组织各类文件及根据地出版的各种书籍和报刊杂志等。”[1]这些饱含红色基因的文献,是长久以来在中国共产党的领导下,党和人民创造的宝贵思想和文化财富,是共产党人初心和使命的见证。党的十八大以来,习近平总书记也多次强调,“要把红色资源利用好、把红色传统发扬好、把红色基因传承好”。因此,全面做好红色文献深入挖掘、整理、研究和传播工作,对于做好当前政治宣传和红色教育工作,以及赓续红色血脉意义重大。

校勘作为传统古典文献的基础整理研究方法,其发展历史“萌芽于春秋,勃发于汉,大盛于清,近代开始成为专门之学”[2]40,并且其在内涵上也有广义和狭义之分。广义的校勘学,前人称之为校雠学,主要包括版本、校勘、目录、考证、辑佚等内容,也就是当下的文献学研究版块。现代所谓校勘学,即狭义校勘学,指专门研究古籍整理的文字比勘的科学方法和理论的学问。校勘的首要目的在于“归其真正”“克复其旧”。红色文献之所以需要校勘的逻辑初衷,即由于其本身在产生、流传过程中也会存在有待校勘的类似古典文献中出现所谓“书三写,鱼成鲁、虚成虎”等错讹现象,简言之,红色文献校勘就是为了解决其本身在传播过程中出现的诸多误、脱、衍、倒或乙、错简等因素导致其史料价值难以实现的问题。

进入新时代以来,互联网、大数据、人工智能等技术的应用发展对于传统的人文社科研究带来了巨大的挑战,各种基于先进技术的研究理念、手段、路径层出不穷。如李振宏评价基于计算机、互联网的史学研究说:“如今的历史学研究,不光是搜集资料的方式或手段由于电子文献检索的推广而变得极为便捷,以往竭泽而渔、将材料一网打尽的梦想轻而易举地变为现实,而且数据库方法也渗透到逻辑分析的领域,影响到学者思维方式的改变。古老的历史学科,似乎正在展开一个学术科学化的发展方向。”[3]97校勘学既然隶属于历史学研究或者人文社科研究范畴,当然也避免不了上述背景的影响。基于此,就红色文献的校勘工作来讲,笔者认为时代发展带来的技术革新潮流是不可逆的,应当重新审视信息技术推广条件下传统校勘学研究的思维和价值,理想的出路即在于勇于面对变革,充分共享时代资源所带给科学研究的红利,并在校勘理论和实践层面寻求新的发展契合点是不断推动红色文献校勘工作走向深入的当务之急。要之,尝试提出基于电子资源(Electronic Resources)的“e-校勘”是符合中国红色文献整理研究时代和现实需求的。

1 e-校勘作为一种方法的缘起

“e-校勘”的提出实际来源于“e-考据”的启示。“e-考据”首见于中国台湾学者黄一农的《两头蛇:明末清初的第一代天主教徒》一书中。传统观点认为,“e-考据”就是充分利用电子资源进行考据的一种历史、文学研究方法,其核心的三个要素即为电子资源、考据、方法。黄一农在其《从e考据看避讳学的新机遇:以己卯本<石头记>为例》一文中对于学界就e-考据的定义、价值等作了进一步澄清:“许多人将‘e考据’片面理解成只不过是利用大数据以进行关键字检索,不知其要旨远超过此一技术面的层次。”[4]205-206“质言之,e考据是文史工作者在将传统的知识与研究方法作为基础的前提之下,辅以对大数据的充分运用,以尽可能耙梳材料并深化考据的一个现代化手段。”[4]206黄一农的“e-考据”概念,“也是意在提醒人们充分利用因特网和丰富的电子文献数据库,借鉴前人的科学考据方法,将历史学研究提升到一个新的阶段。”[3]99

由此观之,“e-考据”在方法论层面上依旧强调考据主体以传统的考据方法为重点和前提,但是重要的辅助手段即在于对数据库及互联网电子资源的检索利用,以有效节约时间精力成本达成研究的目的。换言之,e-考据肯定了传统科学研究方法的价值,同时也对研究主体本身研究素养的积累提出要求,而基于大数据的历史信息检索只是手段,在整个研究流程中仅是作为辅助出现的。因此,黄一农也明确指出:“真正的e考据应是在大数据的从旁辅助下从事考据(考据虽非许多文史研究的终极目的,但却常是许多研究无可或缺的基础),而绝非仅仅依靠数位资料的检索!”[4]206

实际上,近几年国内学者也关注到了基于“e”的文献校勘问题。如在理论研究方面,清华大学人文学院刘石、李飞跃指出:“大数据技术在自动比对的广度和精度上都非人力所及,自动断句、标点、比对、文献关联性、风格相似性分析等技术手段,不仅可辅助完成一般校勘任务,也有利于发现文献的源流及相互的影响”[5]。刘禀诚以《〈红色中华〉全编(整理本)》为例分析了红色文献整理主题素养[6];牛青从概念、分类、特征3个角度阐述了红色文献内涵,介绍了校勘的定义和常用的方法,详述了红色文献校勘的主要内容,提出从引入区块链技术、优化校勘团队人员组成两个角度解决红色文献校勘实践中存在的问题[7]。在实践研究方面,如苏芃从自身校勘实践出发,已总结认识到古籍数据库对校勘研究的潜在价值[8]。但无论是黄一农还是苏芃,上述成果均看到了信息技术对于人文研究的价值和作用,理论建构中研究方法都是依托电子数据库等资源来展开,并且强调信息检索仅是“引得”,最终还需回归到规范文本之中。

鉴于此,围绕黄一农“e-考据”定义中核心的方法、大数据、考据、现代化手段等关键词的内涵和外延,以及苏芃关于数据库对于汉语古籍文献校勘的思路来讲,都可为红色文献e-校勘实现的理论建构及实践提供参考和指引。

2 红色文献e-校勘的载体及理论方法

2.1 红色文献e-校勘的载体

古代校勘理论要求,校勘者首需广搜异本以资比勘佐证,其中“异本”的内涵且不单指单一文献的众多版本,实际还应包括各种与之相关、相类的文献资料。如王鸣盛指出:“独处一室,覃思史事,既校始读,亦随读随校,购借善本,再三雠勘,又搜罗偏霸杂史、稗官野乘、山经地志、谱牒簿录以暨诸子百家、小说笔记、诗文别集、释老异教,旁及于钟鼎尊彝之款识、山林冢墓祠庙伽蓝碑碣断阙之文,尽取以供佐证,参伍错综,比物连类,以互相检照。”[9]吴葆勤曾发文强调:“传统校勘流程向数字化平台迁移……当然要以古籍版本的全文数字化为前提。”[10]传统的校勘学理论中,广博的资料积累是校勘实践的基础和前提,因而,若要实现基于“e”的文献校勘当然也就离不开数字化的校勘客体全文文本资源。

从载体维度讨论,笔者认为e-校勘应是依托非结构化的数字全文文本而并非结构化的数据库来进行的,这与e-考据存在明显区别,并且这也是由于红色文献本身包含书籍、文件、报刊、书信、会议记录、日记、音视频、照片等繁多种类的非结构特性所决定的。一方面,从结构化数据和非结构化数据的特征来看,结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达,而非结构化数据库中数据字段长度允许不等,并且每个字段的记录又可以由可重复或不可重复的子字段构成数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(全文文本、图象、声音、影视、超媒体等信息)[11]。另外,在非结构化数据结构化的处理过程中,“虽然成功降低了数据的复杂度,但同时也承受了大量的数据损失”[12]。另一方面,结构化的数据库存在双重局限。如姜义华指出:“目前各种数据库所选录的数据,不仅存在既有资料本身的局限,还有建立数据库时建立者自身标准的局限”[13]。依笔者看,e-校勘作为人机协同“校异、订讹、存真”的文献整理研究手段,以非结构化思维处理红色文献数字化问题,可以充分保证文献数据的完整性和原始性,是符合上述文献校勘首需“广搜异本以资比勘佐证”内在要求的。因此,红色文献e-校勘实现的载体重点就是要形成以中国红色文献为中心的庞大的非结构化文献数据全文文本库。

然而,形成非结构化的红色文献电子全文文本库及在此基础上的人机协同异文挖掘,只是为了给学人皓首穷经的传统资料积累模式转为文本数字挖掘架桥铺路,而并非完整、理想的e-校勘全流程。如在西方学者眼中,校勘应当包括emendation(比对)和criticism(评判)两个阶段,与中国传统方法相对应而言,emendation(比对)即颜师古所谓之“曲核古本”,criticism(评判)即段玉裁所谓之“断其立说之是非”。不难看出,在校勘流程上西方学者的做法和中国传统做法具有很明显的相似性,但不得不说明的是,无论是emendation(比对)还是“曲核古本”,都是单纯文献异文挖掘初级流程。如倪其心指出:“(文献校勘面临的错误可)分为两大类:一类是有形可见的,一类是无迹可寻的。”[14]金宏宇解释道:“后一类指校勘时并未发现异文,但实际上其中确有错误,这是无迹可寻、较难发现的错误,属疑误,如文理不通、名物制度上矛盾、历史事实上抵牾等等;前一类是校勘时发现异文,其中必有正误,这是有形可见、容易发现的错误,即那些误字、脱文、衍文、倒文或乙文、错简等。”[2]40可见,校勘的全流程中全面深入的异文挖掘无疑对于解决“有形可见”的问题大有帮助,但对于“无迹可寻”的错误重点还需要校勘者综合使用多种方法实事求是“订讹规过”。因而,依托非结构化的红色文献电子全文文本库的索引便利,引入成熟的中国传统校勘学方法并结合文献回归,将对于红色文献e-校勘的成果产出大有裨益。具体校勘全流程如图1所示。

图1 校勘全流程对比

2.2 红色文献e-校勘的理论方法

中国古代文献校勘长久以来积累形成了丰富的校勘学思想和方法。从思想层面来讲,“克复其旧”“经世致用”是校勘的目的;主张“多闻阙疑”、实事求是是校勘的原则。而从方法层面来看,前后曾有以叶德辉为代表的“死校”和“活校”,梁启超在叶氏基础上总结的“校勘五法”,陈垣继承与发展梁启超校勘实践而创立的“校勘四法”,胡适校勘工作“三部曲”,张舜徽基于陈垣的校勘学方法创建等,其中尤以陈垣“本校、他校、对校、理校”四法为著。周一平针对中共党史文献的特殊性也曾提出了“物校法”(实物校文献)和“实校法”(实地考察校正文献)[15]。依笔者看,无论任何一种方法,只要能在e-校勘流程中发挥作用、解决问题,那么都应该是值得学习推广的。

需要说明的是,以陈垣“校勘四法”为例,红色文献借助e-校勘的理念和手段,可以轻易地完成本校、他校、对校的目标任务,但在解决相关需要理校的问题时作用会受到影响,就需要校勘者根据本校、他校、对校所发现的异文情境做进一步考察研究,当然这也充分肯定了校勘者在文献校勘过程中的价值和地位。

如以毛泽东所著的红色经典文献《新民主主义论》为例讨论,据不完全统计,仅1949年10月以前在各类中文报纸、期刊、论著中收录版本有23种,单行本达64种,秘密印刷发行的伪装本达6种,另外还有少数民族版本、外文版及节选本若干[17]。以1940年《解放》[17]版与1940年《中国文化》[18]版对校,可以发现红色经典文献《新民主主义论》在题目的选用上就可见明显差别:《中国文化》版作“新民主主义的政治与新民主主义的文化”,而《解放》版作“新民主主义论”。此外,清晰可见《中国文化》版中小节前并未有小标题名称,但在《解放》版中十五部分均设置有小标题。需要说明的是,假设这两种对比是建立在e-校勘路径下的OCR等识别手段形成非结构化电子全文文本库之上,那么通过借助Windows下开源的Diff文本差异对比等软件或其他类似技术处理就可以轻松获取异文信息。若通过本校、他校、对校等手段很难彻底解决因揭示红色文献《新民主主义论》题目设置差异、新增小标题之缘由而产生的问题时,就需要校勘者回归原始文献,在规范文本的基础上实事求是进行综合理校。

图2 1940年《中国文化》版

图3 1940年《解放》版

3 红色文献e-校勘的主体素养

前述提及,传统校勘的基础是要广搜异本以资堪比,e-校勘亦如是。在此种情形下,由于文献本身版本及相关、相类文献众多导致的电子全文文本库信息量庞大是可预见的。因此,实现e-校勘对于校勘主体的素养首先要求具备强大的信息管理、甄别能力。其次,应当有传统校勘学所要求的专业知识积累。诚如颜之推所言:“校定书籍,亦何容易,自扬雄、刘向,方称此职耳。观天下书未遍,不得妄下雌黄。或彼以为非,此以为是;或本同末异;或两文皆欠,不可偏信一隅也。”[19]可见,广博的知识积累和专业的学术素养是文献校勘成果产出达到理想状态的重要保证。第三,对于红色文献这一特殊文献类型校勘而言,主体还需要对于中国近代史、中共党史、新中国史、社会主义发展史等内容有丰富积累,并且还要有“阙疑伺考”的审慎态度对待校勘是非。以上所述是红色文献e-校勘顺利实现之主体素养要求,三者间相辅相成,将有益于推动红色文献整理研究并发挥红色资源的教育功能不断走向深入。

4 e-校勘应用于红色文献整理的价值探讨

e-校勘是符合新时代中国红色文献整理研究现实需求的新路径,与传统校勘学方法论相比具有重要优势。首先,从载体维度而言,传统的校勘难以穷尽式地搜罗异本以备考证,简单依靠结构化的数据库作为校勘依据也存在数据库建立者本身在资料收集、选取过程中主观筛捡导致资料不全的弊端,并且在非结构数据结构化的过程中也会发生字段限制、信息缺失等问题,因此,在e-校勘理念下,通过互联网海量数据穷尽式地搜集校勘文本相关相类信息将成为可能,并且将原始的非结构数据通过科学检索手段及回归文献的方法将大大提高文献校勘的效率和准确性。其次,从方法维度讲,e-校勘利用严谨的计算机数据挖掘技术来分析整理信息,这在很大程度上减少了人力的付出,同时也大大提高了校勘产出的科学性。第三,从未来发展趋势而言,e-校勘依托开放的网络环境来进行,而这恰恰增加了校勘专业由上到下、由学者到民众参与转化的可能性,有助于促进形成“大校勘”格局,可有效提升校勘质量,真正达到“克复其旧”的目的。

5 余论

综上所述,e-校勘基于e-考据的启示,在红色文献整理研究方面提出了新时代人文社科研究技术、理念变革背景下催生的新的校勘路径,对于充分挖掘利用红色文献的史学研究和政治教育价值具有重要作用。但不得不承认的是,在红色文献e-校勘的全流程中仍然存在现行条件下无法解决的技术问题,如部分文献中存在手写体文字识别困难、油印字体晕染后采集错误率高、部分文献竖排左行版式矫正等等。因此,本文所讨论的e-校勘仅是作为一种以红色文献整理方法为中心的理论设想,具体操作还有待进一步技术发展的探索研究。

猜你喜欢

考据结构化红色
文献考据与史诗研究路径
——论《江格尔》重要问题的研究方法
红色是什么
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
红色在哪里?
阿拉善博物馆馆藏内画鼻烟壶考据
诗词解读莫轻视考据
追忆红色浪漫