古典文学研究中数据分析法的应用现状及效果探微

2022-03-06张云

名家名作 2022年25期

张云

信息技术的发展推动了古典文学研究的进程，主要表现在数据采集、数据检索等方面，如《文渊阁四库全书电子版》《四部丛刊电子版》《中国基本古籍库》等都是古籍数据化的成果。随着大数据、云计算、图像检索技术的发展，2005年李铎就提出人文学科要进入“数据分析”［1］时代。古典文学是古代文人的精神产品，具有复杂性、多样性的特征，形象化、概括性强，在应用数据分析法时会出现应用误差。而数据分析法在古典文学中的应用现状如何，针对古典文学自身属性特征怎样应对出现的应用误差，是古典文学研究者值得思考的问题。

一、数据分析法在古典文学研究中的应用现状

数据分析法是对数据特征、数量关系和数量变化进行分析与研究的一种方法，最初应用于社会科学研究。其后，人文科学尤其是经济史研究中数据分析法的引入，使该研究法迅速兴起、绽放光彩。因为更容易找到量化研究的对象，随之而来的计量语言学逐渐衍生，为文学的数据分析研究奠定了基础。在这样一个引入和发展的过程中，社会科学研究所使用的微积分、方程解析等方法并未引入文学研究领域，文学研究中的数据分析尚停留在基础统计阶段，虽有建模研究的尝试，但是在古典文学数据关联性的深度挖掘与分析方面仍有欠缺。

基础数据统计分析是古典文学研究中比较常见的应用方法。袁行霈在《中国诗歌艺术研究》中广泛应用了这种方法：“在李贺现存的240多首诗中，共用了2494个不同的字。其中：‘冷’字19次，‘凝’字16次，‘啼’字29次。”“《花间集》里出现的频率和用法：‘冷’字42次，‘凝’字26次，‘啼’字35次。”通过数据分析，得出如下结论：从以上例句可以看出，花间词人在词语的选择和运用上是多么接近长吉［2］。此外，杨公骥在《中国文学》一书中统计《诗经》的章节用字量为2950个左右，其中动词达300个以上，比例超过十分之一，以此推断出这些动词的运用对中国古代文学丰富表现力的影响。刘尊明在词学研究中也多用数据统计分析，就柳永词用调研究而言，其通过统计分析柳永词“孤调”的数量和占比，得出“柳永大胆用调、积极创调等方面的创作成就”。袁行霈、杨公冀、刘尊明通过古典文学字词，用调频率的统计发现问题、分析问题，这种方法是数据分析法在文学研究中最常见的一种应用方式，在当下文学研究和论文写作中也有广泛应用。

除了基本的数据统计分析之外，刘石在《大数据技术与古代文学经典文本分析研究》中提到要利用计算机、统计学的技术手段，发掘文本组织的特征及相互关系，利用定量统计、分析的方法，选择先秦至明清时段古代文学经典文本进行相似性、关联性、规律性研究，有望解决古典文学研究领域长期存在的疑而难决的“作品归属、作品辨伪、异文辨析、修辞特色、风格生成、题材变迁、因革影响等方面的问题”［3］。

此外，一些学者也从数据建模角度进行了积极有益的尝试。王兆鹏在《宋词排行榜》中选取了“选本、互联网页、评点、研究论文和唱和”［4］五个指标并进行了一级权重划分，在此基础上对不同时代的词选影响力进行了二级权重划分，最终形成了系统的数据分析研究模型。以此为基础，推导得出宋词排行榜。此外，王兆鹏也运用文献计量的方式，在唐诗排行榜方面做了同样的尝试。在文献计量学中，存在主观赋权和客观赋权两种评判方式。为统计唐诗在后代传播、接收过程中的关注度，结合文学研究的特点，王兆鹏从四个维度对数据进行了加权处理，通过主观赋权的评判法计算出唐诗排名。王兆鹏选取的四个维度分别是“历代选本入选唐诗的数据、历代评点唐诗的数据、20世纪研究唐诗的论文数据、文学史著作选介唐诗的数据”［5］。通过四个维度的数据加权与计量排名，王兆鹏给出了唐诗中七律、五律、七绝、五绝的排行榜答案：崔颢的《黄鹤楼》为七律之首，杜甫的《登岳阳楼》为五律之首，王维的《送元二使安西》为七绝之首，王之涣的《登鹳雀楼》为五绝之首。

这种研究方法无疑是对基础统计分析的一次升华，也是对数据分析法的一次有益尝试。

随着古典文学研究领域专家学者与计算机或统计学领域专家学者的深入研究，尤其是随着知识图谱在古典文学领域的应用，各类古诗词数据平台逐渐丰富、成熟。自“《全唐诗》检索系统”“《全宋诗》分析系统”的建设伊始，近些年涌现出一批诸如唐诗别苑、Know-Poetry、搜韵、唐宋文学编年地图等诗词知识图谱平台，为古诗词领域碎片化知识的关联整合、诗词信息的检索提供了更加便捷的路径。其中，“唐诗别苑”由北师大研发，可以通过关键字对诗作、诗人、地理、风格、题材、意象等信息进行检索呈现；搜韵网则收录约90万首古今诗词作品，可以通过关键词、字词位置、作者、朝代、体裁、韵部等字段检索；两者都为更精准地获取数据提供了便捷高效的指引。

但无论是频率统计还是数据建模，都只是侧重数量方面的研究，数据关联度的挖掘仍存在一些不足。1998年《哈佛商业评论》刊载的“啤酒与尿布”案例可谓是数据关联研究方面的典型。沃尔玛员工发现“啤酒”与“尿布”经常出现在同一购物篮，而且这种关联往往出现在年轻的父亲身上。于是，沃尔玛调整策略，将“啤酒”与“尿布”同置，极大地提升了销量①根据《哈佛商业评论》原文进行简化改写，保留原文事件和观点，简化细节，以此说明。。类似这种关联，给文学研究提供了一个新的视角：是否有一些貌似不相关的内容背后有某种关联因素可供文学研究挖掘。而大数据技术的发展为关联度的研究提供了更广泛的可能。郑永晓在《加快“数字化”向“数据化”转变——“大数据”“云计算”理论与古典文学研究》中阐述了大数据关联研究的价值：“基于大数据的思维特别注重事物间的关系，在分析文学与外部因素关系时，有可能发现其他此前我们从未注意的现象与文学的关系……”［6］但是，目前就文学研究中大数据价值挖掘与应用的案例和实践研究成果仅仅是揭开了冰山的一角，未来仍有广阔的研究空间有待后来者进一步研究和发掘。

总体来看，古典文学研究领域的数字化进程目前仍停留在古籍数字化、数字检索化和数据平台搭建的阶段。利用数据平台分析古典文学遇到的风格生成、文体特色、题材变迁等文学问题因无前车之鉴，因此任重而道远。

二、数据分析法的应用误差与效果提升探微

数据分析研究通常比平常的对比分析研究、鉴赏评论所得出的结果更稳定。因为数据分析法的研究对象是固定的数据量，而且随着基数的增加，结果的稳定性会更高。但是，数据选取、数据处理、数据分析、应用范围的差异很可能出现截然相反的研究结果。

数据是数据分析法赖以生存的基础。如果没有准确、恰当的数据，准确的研究结论就无从谈起。陈尚君统计《全唐诗》共收诗49403首，辑校《全唐诗补编》收逸诗6327首，唐诗总计55730首，残句3060条，涉及唐代诗人3700位左右。但尚永亮在《数据库、计量分析与古代文学研究的现代化进程》中，对《全唐诗》《全唐诗补编》《全唐诗逸》《中国文学家大辞典·唐五代卷》等相关文献数据做了重新统计，得出现存唐诗50454首，作者3228人的结论［7］。

二者的差异与基础数据统计材料的选取有直接关系。可见，数据来源和选取对数据分析结果的准确性会产生较大的影响。除此之外，能否选取恰当的样本数据也是影响研究结果的一个重要因素。曹操的诗歌在明代以前并不算出名，然而随着明代古诗地位被重新确定，文论家、读者、商业刊印者等目标受众或褒或贬、或抑或扬的评判都对曹操诗歌作品的文学地位产生了相应的影响。

类似随时代变迁而诗文地位不同的情况也发生在陶渊明、杜甫身上。《宋书》《晋书》《南史》等史传中都把陶渊明放入《隐逸传》之中，很少提及其文学成就；钟嵘在《诗品》之中只将陶渊明的作品列入“中品”；刘勰在《文心雕龙》之中也未提及陶渊明，因此这个历史时期陶渊明都不是以诗文而闻名。至梁代，昭明太子萧统对陶渊明有了较高评价，并且亲自为其作传；此后历经唐、五代，至北宋年间，陶渊明的诗歌地位才得以上升。苏轼创作《和陶诗》共135首，对陶渊明诗歌逐一和作，对陶渊明诗歌地位的提升有重要作用。

在这个过程中，政治、历史、文学风尚等诸多因素的博弈产生了所谓的“名家”“名作”。如今做计量研究，如何剥离过往诸多因素的影响，在不同的代表性选本中抽取恰当的样本作为数据基础是一个不小的考验。因此，能否对选择样本的影响因素进行充分的研究，理清最能够代表样本的目标选本，将直接影响到数据分析结果的可信度。

数据清洗和分类处理是数据分析的前提，清洗和分类的科学性也将影响数据分析结果的信度与效度。所谓数据清洗，就是根据数据统计分析的标准，对前期获取的大量文献数据进行有效性检测和树立，筛选并提出冗余和无效信息的处理过程。因此，数据清洗工作的完善程度也将直接影响数据分析结果的精度与质量。

除此之外，李炳海在《中国古代文学的定量、定性和定位研究》中强调：“以类别划分为基础的定量分析是发现问题的开始。……以类别划分为基础的定量研究，可以使问题由模糊变得明朗……分类方式的确定在很大程度上制约定量研究的成败，这里归根结底是一个视角问题，是学术眼光和思维方式在发挥作用。”［8］由此可见，数据分类处理是否得当也可能造成研究结果的误差出现。

20世纪80年代中后期，美籍华裔陈炳藻从数理统计的观点出发，对《红楼梦》的用字规律做了统计分析。通过《红楼梦》前80回与后40回用字相关度的分析，得出了这样的研究结论：《红楼梦》前后120回内容均由曹雪芹所作。但此后深圳大学的钱学烈和复旦大学的李贤平利用同类方法再次统计分析，得出的结论却是：前80回与后40回的作者并非同一人。这两项研究结果可谓大相径庭。两者同样是对具体字词使用频率进行的统计分析，之所以结论不同，是因二者所采用的统计分析方法不同。因此，降低数据分析法研究误差的方法之一就是慎重地选择数据分析的方法。

韦勒克、沃伦在文学研究中进行了“内部研究”与“外部研究”的划分。从文学的内部研究角度来看，计量方法的适用范围并不十分广阔，主要集中在意象分析和语言风格分析方面。袁行霈的《中国诗歌艺术研究》在对温庭筠词作艺术的研究中就对温词的意象进行了统计分析：“温词里写‘眉’十二次，有以山喻‘眉’者，如‘眉黛远山绿’；写‘鬓’八次，如‘鬓云残’‘鬓如蝉’；写‘钗’六次，写‘钿’六次，写‘屏’七次，‘玉钗’‘玉钩’‘玉炉’共有十九次之多。”通过这些意象的统计对温词中着力描述妇女生活的特性进行了分析和印证［9］。

在语言风格方面，前者已有提及，袁行霈在《中国诗歌艺术研究》中将李贺诗词与《花间集》的语言风格进行了统计数据对比分析，通过“冷”“凝”“咽”“啼”“垂”“寒”“幽”“死”“泪”“老”十个用词风格进行数据对比，分析了二者之间的关联。以上二者是计量方法研究范围的一个典型例证，超越此范围的研究应用仍存在一些困难，需要做进一步的验证。因此，超范围的使用可能会带来研究成果的误差。

此外，由于文学独特的审美特性，也不能仅凭统计分析结果就想逼近审美判断。刘石、孙茂松在《大数据时代的古典文学研究》中也提道：“文学性问题的提出和分析处理不可能完全交给机器，也就不可能完全交给技术专家。相反，从问题的设置到语料的选取再到分析结果的解读、意义的阐释、体系的构建等，都将由古代文学和文献学相关领域高水平的专家学者完成。”［10］研究结果的误差一方面体现了文学研究“横看成岭侧成峰”的现象，另一方面也让研究者重新审视其现状与意义。虽然从理论上看，每一次数据分析都可能存在误差，但是对误差产生原因的深入理解和判断、对新方法的引入与应用都有可能帮助他们在数据分析研究中最大限度地接近真相、还原真相。