人机共读：数字时代重读唐宋词文本的期待

2020-11-17汪超

文学与文化 2020年3期

汪超

内容提要：处在数字时代，在传统阅读的基础上，应用数字化技术辅助阅读、研究唐宋词，或可从四个方面着力。首先，检索、统计。在“全读”文本中发现问题之后再运用工具辅助检索。可尝试建设开放的、学者个性化的检索系统。其次，文本分析。借助计算机分析文本异同，实现异文的搜索、转换、排列，并与其他数据库关联。第三，文本标注。依托各种数据平台提高挖掘语意、标注文本的正确率。最后，知识图谱。知识图谱是一种知识表示和管理的方式，唐宋词相关的知识数据化后，也可以加入其中。我们面临的是一个知识呈现变革的时代。知识的存储、组织方式变化，并不改变知识本身，人机共读的时代正在向我们走来。

唐宋词研究是词学研究领域的“熟土”，故而近年贤人智者纷纷转出三唐两宋，前往其他断代拓荒。所谓“熟土”，一则经过前人深耕，难以出新；二则历代选本、旧注、旧评、年谱、考证等前人遗产堆积厚重，异说纷纷，头绪芜杂，难以厘清。但唐宋词毕竟是词体巅峰之作，又是词学研究之“原乡”。一般说来，词学研究绕不过唐宋词文本的阅读，即便研治宋代以后之词与词学，没有唐宋词文本打底，恐怕也是难以想象的。“回归文本”并非新鲜的话题，如何走回文本却人言言殊。传统治学中的阅读文本之法，是大家都较为熟悉的；而处在数字时代的我们如何结合传统读法走回唐宋词文本，是本文想讨论的问题。

毋庸讳言，唐宋词经过前代学者的披沙拣金，经典化已经完成，形成了阅读惯习，经典作家、经典词作的文本较为封闭而有限。再加上权威判断的效应，我们为唐宋词、唐宋词家贴上了形形色色的标签。《花间集》“雕红镂翠”，柳永词“通俗、创调”，苏辛词“豪放、爱国”，诸如此类，唐宋词丰富的面貌被简单化了。前人关于唐宋词的成说、研究实绩甚多，对于我们来说，既是需要翻越的山峰，又是可以继承的财产。所以，重读文本就要避免“各照隅隙，鲜观衢路”。其实唐宋词经历过几次载体转换，发生过文本来源、传播方式的变化，例如宋元之际词乐渐失，人们从听、唱词改为看、读词；明清以来唐宋词经典化完成，人们以选本、别集、丛刊看词；现代词学兴起，林大椿《唐五代词》、唐圭璋《全宋词》出版，人们有了全集型断代词总集作为阅读选择。阅读《全宋词》的模式持续到20 世纪90年代，《全宋词》光盘化、数字化。二十年过去了，数字化工具所能实现的功能已经远超王兆鹏师当年提到的“《全唐五代词》、《全宋词》、《全金元词》和《词话丛编》等内容，具有查询、索引、统计和辅助等四大功能”①严迪昌、刘扬忠、钟振振、王兆鹏：《传承、建构、展望——关于二十世纪词学研究的对话》，《文学遗产》1999 年第3 期。，但我们的阅读方式并未发生根本的改变。数字化的《全宋词》检索系统反而造成初学者以检索代替阅读，“文本阅读”动力不足的窘境。现在，数字人文在不少领域有明显贡献，但有些项目设计的应用内容是古代文学专业学者并不需要，甚至应当“警惕”的。笔者非数字人文专家，撰此文的目的主要有两层：一是唤起词学、古代文学研究的同仁注意数字人文的应用，参与数字人文应用于涉古研究之方法讨论；一是为数字技术研发人员提供使用体验，供其开发新产品时参考。

那么，我们如何在传统阅读的基础上，应用数字化技术辅助阅读唐宋词呢？

首先，检索、统计。检索既是各类数据库的基本功能，也是研究者须臾不能忘怀的资料探访途径，不少专家对此忧心忡忡。笔者以为，检索应该建立在“全读”的基础上，在“全读”文本中发现问题之后再运用检索工具加以辅助，那么其结果与“检索体”论文绝非一回事。

“全读”文本为什么重要？“全读”《全唐五代词》《全宋词》《全金元词》便于了解一代之词①把《全金元词》放进来一起讨论，是因为金代与南宋几乎并存，仅考察南宋词而弃金词于不顾，不能反映一个时代的全貌。因此，本文所论唐宋词，皆自动包含“金词”。，可以把握词的历时发展，据说前代学者如吴熊和先生就每年翻阅《全宋词》一过。这种不断的重复，看似笨功夫，实际上最易发现文本间的相互联系、特殊问题。例如特殊词体的出现，黄庭坚《阮郎归·效福唐独木桥体作茶词》在全读的过程中就不容易忽略。一些特殊的文本关联容易浮现，比如词人以“雨”与“泪”的意象合作，呈现出相思的内心世界的惯技；比如词人“眉间”“心上”相联接的互文脉络等。“全读”的过程自然也会发现不少难以卒读的词，禅修丹道诸作大体如是。《全金元词》所收金词有大量全真高道之作，《全宋词》中释、道作品的比例本不如金元时期大，但也有属于此类者。唐圭璋先生在《全金元词》序言中提到这些作品，曾说是为存词律的目的而保留。可是，若从宗教文学的角度看，这些作品未必全无价值。哪怕从词史本身看，这些作品的出现时间、文本形态、文本风格等都值得再探索。“全读”的过程或许是印象式的，正可以借助数字化手段将此印象确定化。当发现特殊文本现象时，检索全文显然会为我们带来更多相似的文本。事实上，举凡词之体式、句式、用字、用韵等等，多可借助计算机处理，形成结果。这些均是人所周知的，不赘言。

目前的检索系统往往是封闭的，使用者不能自行修正、上传、保存个性化的资料。笔者希望有一个用户友好型的词学检索系统，能弥补不足。比如全集型总集虽然追求“全”，但限于编纂实际，其结果往往只是理论上“全”。单个作家的作品全集，也是如此。所以，我们所说的“全读”，自然也是相对之“全”。《全唐五代词》晚出，且近年又出新版，学界有关唐五代词的文献发现无多，若无重要考古发现，唐词佚作想来不易再现。《全宋词》近年来有两宗大收获，一是佘筠珺《静嘉堂文庫本『新編通用啟劄截江網』に見える宋詞—『全宋詞』輯補一百四十首》（《风絮》第14 号，2017 年12 月），所辑140首名姓不彰者之作；一是汤华泉《〈全宋词〉拾补九十二首》（《词学》第40 辑，华东师范大学出版社，2018 年），其中有黄庭坚、葛长庚、姚勉、王之道等人词作，并有散阕。此前，彭志《〈全宋词〉〈全金元词〉辑补二十家三十七首》（《社会科学论坛》2016 年第7 期），还辑有汪藻、余玠、徐安国等人词作20阕，金人词作17 阕。三年间，270 余阕宋人遗篇重见天日，难免让我们对域外汉籍和释、道、方志诸书有所期待。事实上，《全宋词》一直都在被补苴，小到句读，大到辑佚、辨伪，中间则如其他一些细节修订，如钟振振教授的《全宋词》词人小传修订工作已有一系列成果，并主持有国家社科基金重大项目《全宋词人年谱、行实考》。因此有学者呼吁重编《全宋词》，并为之做出基础工作。②刘荣平：《论〈全宋词〉的缺失局限与重编的可行性》，《厦门大学学报》，2019 年第5 期；刘荣平、曹铃玉：《〈全宋词〉订补论文论著索引（新编）》，《厦大中文学报》，2018 年。所以，当我们重读唐宋词时，一方面不妨取订补诸作参看；另一方面，若能将这些资料上传到可以修订保存的学者个性化检索系统，就可以及时更新《全宋词》数据。

除去更新《全宋词》数据，若有系统可存储、调用其他文体作品、研究资料，研究者的实际需要或能得到更大的满足。如果这个系统的数据是智能化的，可以实现人机对话，并且与其他数据库发生关联，其功能势必更加强大，对唐宋词研究的作用也可想而知。

其次，文本分析。文本分析的工具与平台，目前较常见的有莱顿大学宋史学者魏希德教授开发的码库思（Markus），这是与哈佛大学的CBDB、复旦大学的CHGIS 关联的，一般介绍总要提到它的半自动标注功能。还有一个中文文本平台是ctext.org，它提供研究者可以比对的文本。这些比对的内容可能是它自身搜罗的，也可以链接到其他图书资料系统。但是，ctext 平台上面有先秦到民国时期的诸多文本，却几乎没有词文本。所以从某种意义上说，并不是数字人文需要词学研究，而是词学研究需要数字人文。我们可以在词籍数据化之后使用这些工具、平台。当然也希望技术界能开发新的、功能更强大的文本分析平台。

人文学者进行文本分析，是学术生产的重要步骤之一。计算机是否可以辅助这一步骤呢？举个例子，词学研究目前的几种“全集型”断代词总集多沿《全宋词》之体例，是白文本，有时并不便于理解。因此，别集笺校整理本也成为研究者的重要参考。历年来，重要词籍多有数个整理本，而词籍新的整理本仍然层出不穷。辛弃疾词在已有邓广铭《稼轩词编年笺注》这一经典注本的情况下，近年来仍然有郑骞《稼轩词校注》、朱德才与薛祥生《辛弃疾词新释集评》、谢永芳《辛弃疾诗词全集》、谢俊华《辛弃疾全词详注》、吴企明《辛弃疾词校笺》、辛更儒《辛弃疾词编年笺注》等众多全注本。后两种分别由上海古籍出版社、中华书局两家业界顶级出版社先后在三个月内出版。再加上徐汉明《辛弃疾全集校注》、辛更儒《辛弃疾集编年笺注》，稼轩词的整理本更是为数众多。这还不算为数更众的辛弃疾词选本。其他唐宋名家词籍或许不如稼轩词整理本突出，但经典词家的笺校本数量都不少。不过，对于读者而言，如此众多的整理本难免令人心生畏惧、望洋兴叹。它们既是知识遗产，也是学习负担。同一部词籍，即便有异文，其大部分内容应该是接近，甚至相同的。传统的校勘法通过逐字逐句的阅读来发现异文，校勘一部词籍往往耗数月之功，《吴梅日记》中记载其校读白石词，就是如此。而当我们坐拥为数众多的整理本时，异文的问题就更加复杂。“整理”就意味着排他，例如校勘获得异文之后，必然要有所选择，“选择”就意味着“放弃”。版本越多，意味着异文出现的可能性越大，整理者修改、擦除异文的可能也就越大。这种擦除，造成误删的几率也不低。夏志颖认为姜夔《暗香》的“不管清寒与攀摘”之“摘”若作“折”字，“从版本、字义、词意三方面”均存在“可能性及优胜之处”，但“折”字在今日的著述中还是被淘汰了。①夏志颖：《姜夔〈暗香〉、〈疏影〉三议》，陈水云主编《词学国际学术研讨会论文集》，马来亚大学华人研究中心，2012年，第589 页。选此弃彼难免误伤无辜，也就形成了更多的“异本”，若要全部比勘一遍，不但平白浪费光阴，校书如扫尘，而且仍然可能出现“摘”字胜出的现象。若寻求数字技术的帮助，让计算机帮我们判读异文，当唐宋词文本数据化之后，判读异文就可借助技术手段实现，相同的部分就不必重复阅读，异文所在可以轻松搜索、转换、排列。如果再与其他数据库关联，相关的学术文章中涉及异文判断的，均有可能在未来开发的文本系统、平台中得到反映。

不过，从目前的情况看，撇开版权问题，仅就技术条件而言，对整理本的数字化还是有障碍的。OCR 软件辨识繁体字本身就存在问题，再由于异体字、手写体等文字形态的存在，有时校核OCR软件的识别结果，耗时比人工输入文本还要长。从单个研究者来看，时间成本过高，似乎并不合算，但这些数据是可以反复、多角度使用的，因此必然摊薄成本。若出版社也能参与其事，提供与印刷本相同的电子本，这一问题也就不成其为问题了。

另外，刘石、孙茂松教授曾提到20 世纪80 年代以来，“厦门大学周昌乐教授课题组针对宋词风格‘豪放与婉约’的分类问题，研创了基于字和词为特征的风格分类模型、基于频繁关键字共现的诗歌风格判定方法以及基于词和语义为特征的风格分类模型”，“北京大学杜晓勤教授研发的‘中国古典诗文声律分析系统’”等相关先行成果，其实现的方式也是基于标注来进行文本分析的。①刘石、孙茂松：《大数据时代的古典文学研究》，《光明日报》2018 年10 月15 日，第13 版。

苏轼生活在抄本向雕版转换的时代，虽然较前人更易获得雕版印刷的文本，他仍然手抄《汉书》，以学习提高。我们借助文本分析来判断异文，目的在减轻人力，但选择异文的工作仍然是机器无法取代的，也是数字人文研究结果呈现后，人的智慧发挥作用之时。

第三，文本标注。王兆鹏师曾设想“把固态文献变成活态文献，让旧文献生成新知识，让海量文献生成大数据，从大数据中发现新问题”。②王兆鹏：《新世纪以来词学研究的进展与瞻望》，《学术研究》2015 年第6 期。他举《全宋词》为例，认为未来数字化之后，可以根据读者意图排列组合，“可以按题材来排列，以考察同一题材的不同表现方式及其演进；可以自定义按词中的物象来排列，如分天文、地理、动物、植物、人物、器物等，以分类考察词作中的自然世界、人文世界和情感世界”，期许词学研究的新空间、新格局。③王兆鹏：《新世纪以来词学研究的进展与瞻望》，《学术研究》2015 年第6 期。其实文本的排列组合要依靠文本标注实现。前文提到过码库思的文本自动标注功能，它依托其他数据平台提供的地名、人名系统，可以为古籍文本初步句读。码库思之所以能实现该功能，也是因为文本标注的技术。数字技术研究者建构“依存句法树库”，依据汉语语法，挖掘语意，点断句子。但古文文本经常由于地名、人名的差异被点破，所以依托有近50万条人物关系数据的CBDB 和有较为详细的古代地名的CHGIS，可在很大程度上避免此类问题。

笔者感兴趣的是词作中的地名文本与作者行迹图对应时，创作地、词作地名不相符时的文本。如果要人工寻找，恐怕也是个不小的时间消耗，但交给计算机处理，这样的文本应该很快就可以找出来。其后，研究者再进行人工分析，看这些差异究竟是如何产生的。到底是用典、用事，还是作者在异地怀念曾经的居停之所？又或者是别的情况。此类的话题是建立在研究者有相关知识储备的基础上的，机器承担了文本搜寻的工作，但又较原始、简单的检索功能更进一步。

当然，数字化并不是万能的，它的功能都是建立在人类提供数据的基础上的。所以，数据若不完整，也肯定会出现文本分析错误。如“依存句法树库”根据现代汉语语法拆分语词，文言文断句有误差是很正常的。唐宋词有别于日常生活表达的句法又哪里会少？“锦浦，春女，绣衣金缕”（韦庄《河传》），如果没有标点，这种纯名词组合的句子，哪个是主语？哪个是谓语？恐怕有些连专业基础略差的研究者也未必搞得清楚，自然要经过特殊处理。更何况我们还有众多生僻的词调在等着开发数字技术的程序员们！明明都叫《诉衷情》，为什么文本有的只有一段，有的又分两段？不同的作者写的《采桑子》为什么字数不相同，有的平仄位置不一样？为什么有些《浣溪沙》和《摊破浣溪沙》文本又十分相像？为什么《念奴娇》《百字令》《酹江月》《大江东去》《壶中天》《湘月》看上去像是“六胞胎”？《词谱》自然是可以依据的，哪怕《催徽头子》《玉团儿》《落梅风》《早梅芳》这种只有个位数作品的词调也可以总结规律，提供给“依存句法树库”。可是意外仍然是不可避免的，只能依靠不断积累，不断扩充，让计算机自动学习词学的内容之后，情况才会略好。如果专业学者都不参与，孤立于数字浪潮之外，那么终将被数字革命所抛弃。

最后，知识图谱。知识图谱是知识服务的新热点，它是一种知识表示和管理的方式，主要是各种实体及其关系网络的呈现。它的数据主要是散落在网络上的元数据。我的理解是，把唐宋词相关的知识数据化，也可以加入其中，从而为我们获取、整理前人遗产服务。这里说的前人遗产包括整理本中的笺注、集评，各类唐宋词鉴赏，词话、词学论文和论著等。

我们阅读唐宋词文本以读词籍整理本为主，常见的词籍整理本笺注模式是现代词学兴起后，在继承清人校勘之学的基础上形成基本规范的。如李冰若的《花间集评注》（1935）评、注结合，着意集评；华莲圃（华钟彦）的《花间集注》（1935）倾力于注。稍后唐圭璋先生《南唐二主词汇笺》（1936）则于笺注之外，融合编年。于是，后来诸唐宋词名家词籍整理本多是校勘、笺注、集评、编年等形式的组合。唐宋名家词的整理本，从某种程度上说，是整理者“文本细读”的结果。这一结果包含前人的阅读经验和文化遗产。

唐宋词的鉴赏、论文、论著和词话就更是建立在前人阅读经验的基础上。其中出现的评论、话题、概念进入知识图谱的架构后均可以自动组合。计算机与人之间可以实现对话，是一种智能型的知识组织方式。计算机通过学习，还可以主动提供一些相关的资源。

打个比方，张以仁写《温飞卿词旧说商榷》自然是极有功力的。①张以仁：《温飞卿词旧说商榷》，《花间词论集》，“中研院”中国文哲研究所，2004 年。他需要清理、罗列前人时贤对同一首作品的若干意见，然后分析，一一辨误。如果未来放在知识图谱中，这些资料会由计算机分类、呈现，人需要做的只是分析和辨误。

现在相关工作很多是由信息管理、图书情报专业的学者完成。他们的目的在提供方法，关注焦点并不在内容本身，所以引以为依据的知识来源是网络各种数据库、百度百科、维基百科等。而这些数据源头不清，相信古代文学学者较难信服。但是，如果专业学者参与，将词籍数据化，对文本妥善标注，自建数据库，再与网络资源关联，关联后进行数据清洗，确定其可靠性，这样一来，就可以有效解决文献可信度的问题。

其实以上各种方法，只是数字技术很小的一部分，我们面临的是一个知识呈现变革的时代。知识的存储、组织方式变化，并不改变知识本身。就像唐五代的前辈手抄词籍，宋金的前辈将手抄本、稿本变成雕版板片，明清的前辈把词别集汇成丛刊、丛编，现当代的词学学者将这些内容又归拢成各种整理本，这种变化应该是类似的。不管我们愿不愿意，人机共读的时代正在向我们走来。