APP下载

引书的自动识别及文献计量学分析

2021-12-28黄水清彭秋茹王东波

情报学报 2021年12期
关键词:毛诗注疏典籍

黄水清 ,周 好 ,彭秋茹 ,王东波

(1. 南京农业大学信息科学技术学院,南京 210095;2. 南京农业大学领域知识关联研究中心,南京 210095)

1 引 言

自1955 年Garfield[1]系统地提出引文分析思想以来,经过60 余年的发展,引文分析法已成为文献计量学中系统而成熟的分析方法,并被推广应用于知识发现领域[2]。然而,在以汉语文献为对象的计量分析中,引文分析法多针对现代汉语文本,而对古籍文本的研究相对较少。汉语古籍文本承载着丰厚的传统文化,是历史和现实之间的桥梁。与现代汉语文本一样,单篇(部、册)的汉语古籍文本并不是孤立存在的,文本与文本之间存在着千丝万缕的联系。古人在撰写著作的过程中常常旁征博引,只是形式上不符合当代学术期刊的引用规范,即古籍文本之间存在事实上的引用关系。引书就是古籍文本中旁征博引的表现形象,是古籍文本中的被引文献,其引用形式虽不及现代文献规范,但作用基本类似。

目前,关于引书并没有真正的从引文分析法入手开展研究的成果,而是多采用“因书究学”的研究方法。“因书究学”着重于研究知识传承、学术脉络等,忽视了引书在“量”(如引文量、共引量、共现量等)方面的特征。李梦姣[3]对《文选》人工逐卷标注引书,在此基础上总结和分析了《文选》的引书特点,并从文献学意义上探讨《文选》引书的价值。张丽[4]梳理了《分门古今类事》的引书,包括作者、内容、性质、流传以及版本在内的各项内容,并对不同版本之间引书的异文情况以及部分引文进行了校订,并且考察了其中所引的佚书。类似的研究还有许多,这些研究把单部古籍的引书研究得非常细致透彻;然而,知识不是孤立存在,而是共生的[5]。古籍文本之间通过引书建立起了千丝万缕的联系,有必要进行整体考察。马创新等[6-7]利用XQuery(XML query)和SQL(structured query lan‐guage)查询抽取了《十三经注疏》中的注疏文献及上下文,统计了其中注疏的数量分布,分析了注疏的特点以及耦合和同被引现象,进而评估了注疏文献的影响力。从数据上看,马创新等[6-7]抽取得到的注疏文献量大大低于本文针对对应典籍识别出的引书条目数。马创新的研究是结合信息处理手段对古籍文本的注疏进行量化分析的有益尝试,但总体处于初步阶段,只涉及注疏这样一种引书类型,并没有真正把引书作为研究对象。由上述引书的研究可以看到,大多数的研究仍聚焦在微观知识层面的引书统计、考证、归类、辨析等,具有一定的研究深度;然而,很少有利用引文分析方法,从整体角度探寻古籍之间的联系。前人的研究奠定了引书研究的基础,对本文的研究具有一定的借鉴意义和价值。

数据的获取是引文分析的第一步,也是最基础的工作。不同于现代汉语文本中的参考文献有统一的著录格式,古籍文本中的引用以多种形式散布于文中。前人的研究中,获取引书条目主要依赖于人工逐卷逐字的阅读。然而,面对浩如烟海的古籍,纯人工操作显然单薄无力。对于大规模甚至超大规模的古籍文本语料来说,想要深度挖掘其中的相互引用关系,通过人工逐本逐卷标注显然是不现实的。引书条目中的引书名称,从自然语言处理的角度来看,属于命名实体的范畴,因此,可采用命名实体自动识别技术抽取古籍文本中的引书名称,有效地解决大规模古籍文本引书语料难以构建的问题[8]。目前,对于中文命名实体的抽取,不论是之前依赖人工标注的基于统计的机器学习方法,还是现在的从数据中自主学习的深度学习方法,国内都已经取得了较为满意的结果,且涉及的领域较多。在针对现代文本的命名实体识别中,近两年的研究主要集中在直接使用深度学习方法或者基于统计的机器学习和深度学习识别效果的对比。王东波等[9]对比了Bi-LSTM-CRF、CRF(conditional random field)和 Bi-LSTM (bidirectional long short-term memory)三种模型在识别数据科学招聘实体中的表现。相较于另外两种模型,融入CRF 的Bi-LSTM 模型的准确率、召回率以及F值的均值均超过91%,能够更有力地保证识别的效果。黄炜等[10]基于Bi-LSTM 和Bi-LSTM-CRF 模型,进行了两组关于识别涉恐信息实体的对比实验。从实验结果来看,加入考虑字符之间关联性的Bi-LSTM-CRF 模型取得的效果更优,准确率与召回率均高达90%以上。在对古代汉语文本的命名实体识别中,基于CRF 模型在过去的研究中已经取得了较好的效果,例如,李娜[11]在对方志类古籍别名的自动抽取实验中,CRF 模型的精确率达到了93.52%。基于深度学习的模型,在古汉语中也有初步尝试。高甦等[12]采用Bi-LSTM-CRF 对《黄帝内经》中的5 种实体进行识别,在对各个模型识别性能比对的过程中,F值最高的是Bi-LSTM-CRF 模型,比CRF 模型的F值上升了接近10%。上述分别基于CRF、Bi-LSTM、Bi-LSTM-CRF 模型在不同领域进行的各项实体抽取研究均取得了良好的识别效果,为本文利用这三种模型进行引书条目的自动识别研究奠定了基础,也是本文选择这三种模型进行实验的原因。

在古籍文本的引书语料构建完成后,即可借助引文分析法对古籍文本的引书开展量化研究。相较于文献学、训诂学等单纯的“因书究学”引书研究方法,引文分析法能够把隐藏在古籍文本中的引用关系量化,并揭示文本与文本之间的隐性关联。同时,随着对引文研究的深入,这些研究成果逐步形成了体系。除了引文分析法之外,还有引文内容分析、引用行为分析等。其中,在引用行为的研究中,又可细分为引用动机、引用功能和引用偏好等研究。引用行为,实际上属于信息行为的一种。关于引用行为的研究,一直存在两个互相竞争的理论,一个是规范理论(normative theory),另一个是社会构建论(social constructivist view)。前者主张引用是为了认同前人的工作,是一种知识的传承[13];后者则主张引用仅是一种为了说服读者、增强其观点可信度的工具[14]。目前,学术界对引用行为的实证研究主要根植于这两种不同的研究方法。其研究对象仍以期刊论文为主,关于中文图书类的引用行为研究较少,尤其是对古代汉语典籍的相关研究比较缺乏。在以现代汉语图书为研究对象的关于引用行为的研究中,主要通过两种方法开展研究。一是利用具体的引文内容特征,通过研究引文内容的位置、引用次数、引文的上下文等来揭示引用行为。例如,章成志等[15]对39 本学术专著人工构建引用语料库,并分别从引用位置、引用次数以及引文上下文特征3 个层面分析学术专著的引用行为。二是通过访谈法或问卷调查法直接解读作者的引用行为[16]。由于现代图书和古代图书的相似性,现代中文类图书的研究方法对古籍的研究有可借鉴之处。但由于本文的侧重点在于引书的文献计量学分析,尚未涉及对引书具体引用内容的分析,因此,关于引用行为的研究只是从通过可量化的引用指标和相关背景知识方面进行初探。

本文把引书当作一种特殊形式的引用文献,将引文分析法应用于引书研究。首先,利用古文信息处理技术从古籍文本中获取与引书有关的数据。把引书名称当作命名实体,在人工标注训练语料的基础上,通过机器学习等方法,自动识别出古籍文本中的引书条目。然后,对引书做量化分析,计算引书的各项引文计量指标,展示古籍文本之间可量化的引证关系,并依据各项引文计量指标探析影响古人引用动机及引用偏好的因素,分析古人的引用行为,以期为引书的相关研究带来新的启示。

2 实体界定与模型介绍

2.1 语料简介与实体界定

本文选取阮元主持重刻的《十三经注疏》中的《论语注疏》《毛诗正义》《春秋左传正义》三部古籍的数字化文本为语料,所有的数据处理和研究都是在此语料上进行和完成。《十三经》作为儒家的经典,历朝历代研究解读的不计其数,在所有解读《十三经》的典籍之中,以清朝著名学者阮元主持校刻的《十三经注疏》 流传最为广泛[17]。其中,《论语注疏》《毛诗正义》《春秋左传正义》的引书条目不仅数量众多,而且引用内容广泛,引书类型丰富,对经典文献的引用也较多。同时,《论语》《诗经》《左传》三部儒家经典著作分别为语录体典籍、诗歌类典籍、史书类典籍,体裁不同且各具代表性。因此,本文把这三部经典著作作为研究对象是极为合适的。

与现代文献中的引文不同,古籍文本中的引书不但没有引用标志,也没有统一的著录格式,更没用统一的列举位置。刘姝[18]把古籍文本的引书分为明引和隐引两种类型。明引明确标明了引用(引书的书名、作者),而隐引则与施引文献的文字连为一体,较难分辨出引用的迹象。由于隐引较难识别,本文只统计明引形式的引书条目,即直接标明了引书的引用类型。

2.2 模型选择与简介

在1995 年MUC-6 会议上,命名实体作为一个明确的概念被正式提出[19],对命名实体识别(named entity recognition,NER)的研究从对象到方法都在不断地推陈出新。从早期的简单统计模型到现在的基于机器学习的方法,命名实体识别的性能在不断地提升。CRF 模型是无向图模型下的一种马尔科夫网络,因其是在某种特定条件下的马尔科夫随机场,所以称之为条件随机场。与最大熵模型和隐马尔科夫模型相比,条件随机场模型作为通过自定义特征模板能同时利用实体左右两边的边界特征,而且还可以重叠多重特征,利用内外部多重信息,采用丰富特征集的办法来提高识别精准度。在引书条目实体的识别过程中,也需要考虑实体左右边界特征的影响,因此,本文选取了在以往实体识别任务中表现一贯良好的CRF 模型来完成识别实验。

近年来,随着神经网络的发展,需要大量人工标注的传统机器学习方法逐渐被效率更高的深度学习模型所替代或部分替代。循环神经网络(recur‐rent neural network,RNN)在每个隐藏层之间建立起关联,能够有效地捕捉上下文信息,并且尤其擅长序列标记任务,但实际上RNN 在长期依赖关系的学习中表现并不良好。在RNN 的基础上,能够记忆更长数据序列的长短时记忆网络(long shortterm memory,LSTM)、双向长短时记忆网络(Bi-LSTM) 应运而生。LSTM 单元主要由存储单元、输入门、输出门以及遗忘门构成。通过模型的训练对各个门或者单元的参数进行控制及更新,最终使LSTM 单元能够高效地利用长距离的历史信息。相比于LSTM 只能利用上文信息,Bi-LSTM 能够同时利用文本的上下文信息,拥有前向层和反向层两个不同方向的并行层,可储存来自两个方向的未来的上下文信息,能让文本特征信息有充分表达,更有助于命名实体的有效识别。由于识别效果良好且效率高,因此大量研究选择了Bi-LSTM 模型。本文的研究是以字为单位进行的引书条目实体识别,在模型训练过程中,需要考虑前后字之间的联系和相互作用,因此,本文选择此模型来处理实体识别任务。

尽管Bi-LSTM 模型识别命名实体的效果较好,但当输出标签之间存在较强的依赖关系时,其性能会受到一定程度的影响。Huang 等[20]提出了Bi-LSTM结合CRF 层的Bi-LSTM-CRF 模型。Bi-LSTM-CRF模型结合了Bi-LSTM 模型和CRF 模型的特性,在考虑实体上下文特征的同时,也能兼顾输出独立标签之间前后的依赖关系,强依赖的问题得到了较大改善。该模型应用于命名实体识别任务后,能够提升命名实体识别的性能。Bi-LSTM-CRF 模型的整体框架如图1 所示。该模型主要包括输入层、Embed‐ding 层、Bi-LSTM 中间层、CRF 层、输出层等。在将单个字序列标注以后,作为模型的输入,中间通过正反两个方向的LSTM 网络层对其建模,再利用CRF 层对其前后关系建模,最后输出对应的标签序列。

图1 LSTM-CRF模型的主要结构

为了客观检验CRF 模型、Bi-LSTM 模型以及Bi-LSTM-CRF 模型在引书条目实体识别过程中的实际效果,本文以《论语注疏》《毛诗正义》《春秋左传正义》 为研究对象,分别采用CRF 模型、Bi-LSTM 模型、Bi-LSTM-CRF 模型识别和抽取引书条目,并对比实体识别效果,从中筛选最适用的引书实体识别技术方案。

3 实体识别实验

3.1 语料的预处理

文本中的实体,是以词语或短语的形式对世间万物的指称,包括命名性指称、名词性指称和代词性指称[21]。命名性指称是指通过名字表示实体,如人名、地名等。名词性指称是指通过名词或者名词性短语表示实体,如职称、职位等。代词性指称是指通过代词来指代实体,如“你”“我”“他”。本文研究的命名实体集为《论语注疏》《毛诗正义》《春秋左传正义》三部典籍中的引书,属于名词性指称的一种。为了构建实验语料,首先采用人工方式对《论语注疏》《毛诗正义》《春秋左传正义》中明引条目进行标注,并规定标记符号为“ 【】 ”。具体标注后的样例如下:

○正义曰:夫人孙意,传文不明,故云鲁人责之。盖责其诉公於齐侯,而使公见杀,故惭惧而出奔也。【《公羊传》】曰:“孙者何?孙犹孙也。内讳奔,谓之孙。”【《穀梁传》】曰:“孙之为言犹孙也,讳奔也。”杜用彼为说。昔帝尧孙位以让虞舜,故假彼美事而为之名,犹孙让而去。

对标注了引书条目的语料依次进行文本格式转换、合并以及数据预处理等工作,再去掉标点;然后,选用5-tag 作为标记集拆分成字,形成训练语料 。 5-tag 标 记 集 采 用 {B-seg, M-seg, E-seg, S-seg,N-seg}标注方式,即B-seg 表示实体的开始,M-seg 表示实体的中间部分,E-seg 表示实体的结尾,S-seg 表示单字实体,非实体用N-seg 表示。具体样例如表1 所示。

表1 训练文本样例

3.2 抽取性能评价指标及参数设置

引书实体名的自动识别模型选用准确率P(pre‐cision)、召回率R(recall)和调和平均数F(F-mea‐sure)作为测评指标。具体计算方法为

准确率(P)=识别正确的实体数/机器识别出的实体数×100%

召回率(R)=识别正确的实体数/人工标注的实体数×100%

调和平均值(F)=(2×P×R)/(P+R)×100%

在实验过程中,分别选用了CRF、Bi-LSTM 和Bi-LSTM-CRF 三种训练模型,三者的区别在于部分参数有所不同。其中,Bi-LSTM 和Bi-LSTM-CRF 两者的参数相近,后者仅在前者基础上加入了一层CRF模型。在模型中,具体参数值的设置为:dropout_rate=1,learning_rate:=0.001;一次训练所选取的样本数batch_size=32;迭代次数epoch_num 设置为200 轮;梯度阈值Clip=5;采用Adam 梯度下降算法。

3.3 实验结果及分析

本文分别采用CRF、Bi-LSTM、Bi-LSTM-CRF三种模型对《论语注疏》《毛诗正义》《春秋左传正义》的引书条目进行实体名识别。为了防止实验结果出现偶然性,在实验中,将语料按照9∶1 的比例分为测试语料和训练语料,使用十折交叉验证的方法来测试所构建模型的性能,以期从中获得最科学合理的自动抽取模型。测试结果如表2~表4 所示。

表2 基于CRF模型的引书条目实体识别性能

对比表2~表4 可以看出,Bi-LSTM-CRF、Bi-LSTM 模型的性能基本相同,而CRF 模型则存在明显差距。具体而言,两种深度学习模型的引书识别性能表现优异,无论是Bi-LSTM-CRF 模型还是Bi-LSTM 模型,各组实验的识别准确率、召回率和F值均超过了94%。与CRF 模型相比,基于Bi-LSTM所构建的模型在准确率上平均提高了5.43%,在召回率上平均提高了13.93%,F值提高了9.92%。相较于 Bi-LSTM 模型,Bi-LSTM-CRF 模型全部 10 组实验的均值有小幅度上升,其中准确率提升了0.07%,召回率基本持平,F值提升了0.03%,但最优模型的F值反而下降了0.01%。可以认为,在深度学习模型中加入CRF 层对引书的实体识别并无实质影响,Bi-LSTM-CRF 模型与Bi-LSTM 模型的F值百分比小数点后两位的差异是语料或统计误差,实际上两个模型的性能差不多。将CRF 加入Bi-LSTM模型,目的是改善标签之间强依赖关系对实体识别的可能影响,当引书实体名的各字符之间关联性不强时,引入CRF 层的意义就不大了。

表4 基于Bi-LSTM-CRF模型的引书条目实体识别性能

表3 基于Bi-LSTM模型的引书条目实体识别性能

以上数据说明,在引书的实体名识别方面,深度学习模型的性能比传统机器学习的性能要优越很多,在Bi-LSTM-CRF 和Bi-LSTM 两种深度学习模型中,融入CRF 的模型有时能提高序列化模型的性能,但总体性能无明显差异。总之,在无任何人为特征添加的情况下,仅基于“字”这一基本构成元素,Bi-LSTM-CRF、Bi-LSTM 两种实体识别模型均可选择。综合实验结果与技术先进性两方面考虑,Bi-LSTM-CRF 模型可作为首选。

4 古籍引文分析

4.1 引书总体情况

对识别出的引书条目进行汇总,计算得出三部典籍总计发生了12369 次引用行为,统计结果如表5 所示。从统计数据来看,引用的总次数越多,引书的种类就越丰富;反之,引用的总次数越少,引书的种类也越少。同时,数据也显示,古籍文本本身的篇幅长短会影响引书的规模和种类。此外,体裁和内容上的不同也会影响引书类型。

表5 引用概况

《论语》全书20 篇492 章,累计1.1 万余字,而《论语注疏》的篇幅总计达到23.6 万余字。《左传》全书约19.6 万余字,《春秋左传正义》汲取各家之营养,全文共计200 多万字。《诗经》收录诗歌305篇,共3.9 万余字,在孔颖达旁征博引之下,《毛诗正义》成为了一部将近800 万字的鸿篇巨著。在内容体裁上,《论语》是一部记录孔子一行人言语形为的语录体著作,是儒家思想最初阶段最重要的源泉。孔子学识渊博,《论语》一书的内容几乎无所不包,涉及社会、政治、经济、文化等各个方面。因此,诠释《论语》必然要具备广博的学识。由于《论语》的文体主要是语录和对话的形式,而《论语注疏》中的引书更多的是对其中的对话背景信息进行补充,其次才是解释某一词语在特定情境下的含义。《诗经》内容丰富,用词考究,反映了包括政治、祭祀、天文、地理、动植物等在内的社会生活的方方面面。为了更好地服务于科举考试,孔颖达熔铸百家之长,尤其注重“礼教”和“训诂”,对《诗经》的内容进行了尽可能细致入微的呈现,使得《毛诗正义》成为《五经正义》中最具价值的一部著作。《左传》与《公羊传》和《谷梁传》一起为解释《春秋》而著,是一部编年体史学著作。与《公羊传》和《谷梁传》重解经不同,《左传》重记事,以故事的形式讲述了《春秋》涉及的史实;而《春秋左传正义》则从政治角度通过大量引用历史类文献,对某些历史人物和事件其进行诠释和辨正。

4.2 引书分布特征分析

4.2.1 引书的分布特点与核心古籍

古籍文本的引书呈现二八律,即引书分布不均匀,小部分的引书承担了大部分的被引量。在三部古籍中,引用次数排前10 位的引书在总引用次数中占比较大,均超过了70%,《毛诗正义》更是达到了79%(表6)。另外,统计数据显示,《论语注疏》中引用总次数的一半来自6%的引书,而20%的引书被引次数之和占总被引用总数的81%;《毛诗正义》中引用总次数的一半来自2%的引书,9%的引书被引次数之和占总被引用次数的81%;《春秋左传正义》中引用总次数的一半来自3%的引书,8%的引书被引次数之和占总被引用次数的80%。并且,三部典籍中单种引书被引次数占比极高的引书多有重复。以上数据说明,古籍中也存在“核心”文献,处在核心区的古籍相较于非核心区的古籍更具影响力。

表6 引用次数前10位的引书占比

4.2.2 引书中各类别文献引用情况

按照经史子集四部分类法,《论语注疏》《毛诗正义》《春秋左传正义》三部典籍中的引书均以经部文献最多,其次是史部文献,然后才是子部和集部文献。属于经部的引书在《论语注疏》中占比达75%,在《毛诗正义》中占比达88%,在《春秋左传正义》中占比达80%。分析三部典籍的原文发现,部分对史部、子部、集部的引用也是出于解经释经的目的。这些数据充分证明了《论语注疏》《毛诗正义》《春秋左传正义》的绝对经学属性。出现这种情况,主要有三方面原因。第一,参与编撰三部典籍的皆为当时的博学大儒,主持编撰的两人均是著名的经学家。孔颖达为孔子的第三十二代孙,师从大儒刘焯,家学渊源又勤奋好学,经学功底深厚。邢昺为北宋经学家,对儒学有极大的造诣,其经学思想上承孔颖达,曾被选为太宗诸子讲群经。因此,相较于其他类型的文献,他们对于经部文献更为熟悉。第二,唐宋的统治者都把儒家思想作为主导思想,儒学盛行。第三,与注疏的特点有关。“以经释经”是训诂学的传统体例,上述三者的引书数量分布恰好体现了“以释经义”为核心的基本原则,全面体现了注疏的重点和方法。

为了更直观地显示出《论语注疏》《毛诗正义》《春秋左传正义》三部注疏文献中引书的引用情况,本文特绘制引书词云图,如图2 所示。通过词云图,可以清楚地看到三部注疏文献总引书量较大,具体引书情况各不相同,但高被引引书有所重合。

图2 《论语注疏》《毛诗正义》《春秋左传正义》引书词云图

4.3 引书引文耦合分析

引文耦合[22-23]是指两篇或多篇文献具有共同的引用文献,耦合强度反映了文献与文献之间关联关系的强弱。典籍之间同样存在大量的共同引书现象,因此也可以使用引文耦合方法来探究。通过对《论语注疏》《毛诗正义》《春秋左传正义》共同引书的计算,得到三部典籍的耦合强度矩阵,如表7所示。

表7 引书引文耦合矩阵

耦合强度用施引文献共同引用的参考文献来衡量,共同引用的参考文献越多,耦合强度也越大,表示两者关系越近。在三部典籍中,单从共同引用的引书量来看,《春秋左传正义》和《毛诗正义》的耦合强度最高,三部典籍之间的平均耦合强度为54.67。但由于三部典籍的引书基数的大小不一,因此,仅考虑数量的耦合强度存在一定的偏差。加入对引书基数的考虑后可以看出,在三者之间,《论语注疏》与《春秋左传正义》的关系比《论语注疏》与《毛诗正义》之间的关系要更近,《毛诗正义》和《春秋左传正义》之间的关系又比两者分别与《论语注疏》的关系要近。从成书时间线来看,《诗经》成书于春秋中期,《左传》成书于春秋末期,《论语》成书于战国初期。一般来说,同时代背景的典籍可能在各方面有更多的共同点。在补充、解释典籍时,时间相近的典籍由于社会环境等的相似,引用的书目也会更趋于一致。从注疏风格来看,《毛诗正义》和《春秋左传正义》同属唐疏,而《论语注疏》属宋疏。同一时代的注疏风格较为相近,而且前两者的注疏人相同,因此,前两者之间的关系更为亲密。从典籍自身特点来看,《毛诗正义》《春秋左传正义》《论语注疏》三者都广泛征引了经史子集各个门类的著作,但前两者在篇幅上远胜于后者,因此前两者之间的耦合强度会更大。再看《论语》《诗经》《左传》三部原著本身,《左传》用叙事散文的形式记载了具体的史实,《诗经》用诗歌的形式反映了社会风貌,而《论语》则主要以对话的形式体现孔子的思想。就内容和形式来说,孔子及其弟子的言行势必要从具体的事件当中发生,诗歌的编排也要出于一定的现实事件,那么《论语》和《诗经》分别与《左传》在内容上存在关联也是合理的,因此,《论语注疏》和《春秋左传正义》以及《毛诗正义》和《春秋左传正义》在撰述时必然有可能大量借鉴相同的资料。

为了能更清晰地展现三部典籍之间的关联,本文选取了引用次数前30 位的引书,绘制了三部典籍的引用关系网络图,如图3 所示。

图3 引用关系网络图

三部典籍的引书数据还有一个有趣的现象。《论语注疏》对《论语》以及《春秋左传正义》对《左传》的引用比例较低,而《毛诗正义》引用《诗经》的比例达到了13%。王力先生曾说,“孔颖达作疏的长处在于五经融会贯通,特别善于以本书证本书”[24]。《毛诗正义》正体现了这一点。不同于三传之间互为补充的《春秋三传》,作为中国古代诗歌开端的《诗经》是独立存在的一部诗歌总集,在内容上并没有其他同时代的作品与其互为补充。在注释《诗经》时,《毛诗正义》通过“以诗释诗”来达到阐明主旨、解释词义、融会贯通的作用。在《毛诗正义》对《诗经》本身的这些引证中,既有对内容的背景补充,也有对内容情感的阐释说明等。由此可见,《诗经》的前后内容之间是具有一定关联性的,前文与后文相互呼应。

4.4 引书文献影响力分析

4.4.1 同被引矩阵

引书被引频次越高,说明该书参考价值越大。三部典籍有很多共同的引书,而且这些共同的引书在总引用次数中占比很大。本文选取被引次数合计大致占到总被引次数90%的引书,作为全部引书的典型代表,对其做同被引分析。基于同被引数据,生成同被引矩阵,如表8 所示。同被引矩阵是表示两篇文献之间相似度程度的矩阵[25],即两者的数字越大,表明两者的关系越近。

表8 引书同被引矩阵

在所得到的18×18 矩阵中,同被引次数的范围为4~1407,最大同被引次数1407 由引书《礼记》与《诗经》所形成。同被引次数在1000 以上的还有:《礼记》与《尔雅》,《礼记》与《周礼》,《诗经》与《尔雅》,《周礼》与《尔雅》,《诗经》与《周礼》。从上述数据可以看出,高同被引对几乎都是“三礼”《诗经》《尔雅》三者之间的组合。另外,根据同被引矩阵计算出引书的平均同被引次数如表9 所示。其中,《礼记》的平均同被引次数最大,为476.18;而《孝经》的平均同被引次数最低,为39.06。

表9 引书平均同被引

从平均同被引次数的高低来看,排名前4 位的引书分别是《礼记》《诗经》《周礼》《尔雅》。综合来看,礼制类古籍在对这三部典籍来说都具有较大的影响力。本文所选取的三部典籍均为钦定的官修经书,本意就是为统治者巩固统治、教化天下所著,而能反映儒家礼乐文化的“三礼”,恰恰是维护封建等级制度的手段。再者,典籍的内容或多或少能反映当时的社会背景。春秋战国时期,各国纷争不断,兼并战争四起,势必会出现较多破坏礼法的事件。而“《礼》以节人”,孔子也要求统治者“克己复礼”。由此可见,三部典籍引用较多的“三礼”来做补充解释也不无道理。又有言说“礼”是诗教的根本,《诗经》在相当程度上也能体现周代的礼乐文化。先秦诸子在说理论证时,也多引用《诗经》中的句子以增强说服力。而小学类引书的作用是解释经传的字义,研习经典,在于理解其中的奥义,而以解释字词为主的小学类书籍无疑是理解经典意义的“桥梁”。

4.4.2 同被引引书的聚类

利用SPSS Statistics 软件中聚类分析的分层聚类法,将上述引书同被引矩阵导入SPSS 中,聚类方法选择组间连接,度量标准选择Pearson 相关性,标准化选择Z得分,由此得到聚类谱系图,如图4所示。18 种引书被分成了3 大类、6 小类。

图4 引书聚类谱系图

区别于一般性的古籍分类目录,图4 的各类目融入了典籍影响力因素。图4 从上至下6 小类引书的平均同被引分别为458、48、47、253、290、190。由于样本量过小,带来了图4 中个别类目的区分度较小的问题,但总体上图4 的各类目之间的界限还是比较清晰的。

通过计算谱系图4 小类中各类典籍的平均同被引次数,按数值高低排序得到图5。从图5 中可得知,从左至右,六类典籍的影响力逐渐减弱。可以看出,排在前面的典籍为“三礼”、《诗经》和小学类典籍《尔雅》《说文解字》,此三类典籍的重要性已在前文讲述过,在此不再赘述。之后为《尚书》《左传》《公羊传》《国语》《汉书》《史记》等,它们的共同之处在于同为史书,都是历史事件的汇编,保存着重要的史料。排在最后的《春秋》和《孝经》也是存在共性的,其中,《春秋》虽为第一部编年体史书,但记事语言极为简练,一字褒贬、数字成言,其后出现的“春秋三传”都是对其进行补充和解释的书籍。《孝经》为古代论述孝道的著作,南宋以后才被列为十三经之一。而其本身仅二卷十八章,是十三经中篇幅最短的一部。两者篇幅都较短,且内容上与别的典籍具有重复性,在历史上的影响力也可作等量齐观。由此可见,与传统分类目录相比,融入影响力的分类方法可以方便地识别出影响力类似的典籍,当研究具体问题时更有针对性。

图5 引书影响力大小

5 古人引用行为探析

包括引书在内的引文,是引用行为的外化形式,受到施引者的引用动机、引用偏好等影响。而引用行为则是学者在学术行为中借鉴他人的研究成果以表达自己思想的行为,是信息交流行为的一种[26]。信息交流行为又隶属于信息行为。引用行为功能多种多样,形式也复杂多变。但是,作为信息行为的一种,引用行为存在共性,比如遵循价值决定规律、穆尔斯定律等。以下将通过所得到的多维度引书计量指标,从成书目的和成书背景两个角度,具体探讨学者特征、组织环境等对引用行为的影响。

5.1 成书目的

《论语注疏》《春秋左传正义》《毛诗正义》三部典籍皆与科举制度有着千丝万缕的联系。自隋代有科举之事起,科举考试既是统治者选拔人才的有效途径,也是统治者实现其政治目的的有力手段。自汉代以来,在经学领域存在诸多流派,发展到唐朝初期,儒学仍然存在南北殊途、各类注释书籍纷纭甚至混乱的局面,朝廷为了统一政权的需要,势必要先统一思想。因此,朝廷急需一个统一的人才选举规范,便组织人员给科举考试编写教科书之举。唐朝的科举,分设进士科和明经科,其中,明经科的主要考察《五经》的经义。《五经》包括《周易》《尚书》《诗经》《礼记》和《春秋左传》,是儒学思想的重要载体。因此,孔颖达等奉诏主持编撰了《五经正义》,本文所选取的《毛诗正义》《春秋左传正义》正属于其范畴。唐朝灭亡以后,在历经了五代十国的分裂而建立起来的北宋王朝深知文化教育对于国家长治久安的重要性,于是统治者确立了“尊孔崇儒”的基本国策。作为儒家思想最原始载体的《论语》,地位空前提升,再次引起了极大的重视。于是,邢昺等奉宋真宗之诏,修改旧疏,成新疏《论语注疏》。

为了能更详细地解读经典以更好的为科举考试提供参考资料,注疏者们俯察历史,广泛取材,吸收经史子集各个门类的著作。从表5 可看到,注疏者们征引了大量的文献;而从表6 来看,征引的文献大部分为经部著作。这些数据可以证明,唐宋学术熔铸百家,且《毛诗正义》《春秋左传正义》《论语注疏》具有绝对的经学属性。这也和三部典籍的本质分不开。作为官修书的经学,这些典籍属于官方意识形态,其目的是维护统治阶级的思想意识,编纂的初衷不是追求“新”思想,而是为政治服务。Garfield[27]曾列出15 种典型的引用动机,此处的引书明显符合其中的2 种:提供背景资料;标识某想法的原始文献。此外,“依经立义”是古代惯例[28],金克木先生曾说,“按照古代惯例,无论什么新思想都得依傍并引证古圣先贤,最好是利用古书作注”[29]。中国文化以儒学为主,而儒学的代表为经学著作,因此,古人有着引经据典的写作习惯。在大多数情况下,把经典著作搬出来引用,能使自己的主张更具说服力,增强权威性。在这个意义上,古人的引用动机更符合社会构建论的主张。

5.2 成书背景

与对任何事物的研究一样,对古籍的注释也受到社会环境和研究者主观因素的制约。一定的学术文化总是依托于特定的社会政治背景之中。在封建社会,儒学一直都是社会的正统思想。自汉武帝提出“罢黜百家,独尊儒术”,儒家的正统地位已基本确立,同时期国家实力也有了显著提升。东汉末年至魏晋南北朝时期,儒学受到挑战,地位不保,相继了出现了多起灭国现象。后来的统治者从中吸取了经验教训,自唐朝开始,统治者极力提升儒学在国家各个层面的地位,以求兴邦安国。本文所研究的三本古籍,均为王朝建朝初期为解决儒学内部“章句繁杂”所著,编撰的并非一家之言,而是几个时代的注家共同的成果。《毛诗正义》在编撰过程中,以成书于汉代的《毛传》和《郑笺》为基础,或在其注解的基础上加以阐明,或对两者的不同进行辨正,或提出一些新的看法。《春秋左传正义》以杜预《左传注》为底本,在综合刘炫等义疏的基础上,搜集大量《公羊传》《谷梁传》、“三礼”以及《尔雅》等资料,对《春秋左传》进行了翔实的注解。《论语注疏》的成书主要经历了如下几个阶段:①何宴融合了东汉和魏晋南北朝时期的注释,形成了《论语集解》;②皇侃对《论语集解》进行疏解,加工整理成《论语义疏》,极具玄学色彩;③北宋邢昺等奉诏重新为《论语》作疏,删除《论语义疏》中的涉玄之语,增加对《论语》内容的解释,形成《论语注疏》。

除了成书的社会环境类似以外,为首的两位注疏人也在不同时期分别经历过政权由分散走向统一。孔颖达,公元574 年生于北朝,贞观年间奉唐太宗诏完成《毛诗正义》和《春秋左传正义》疏解。同样由乱世入统一王朝的邢昺出生于公元932年的后唐。宋真宗咸平二年(公元999 年),68 岁的邢昺奉诏改旧疏,并于公元1001 年编成。两人不仅在人生经历上有共同点,思想上更是一脉相承。邢昺的《论语注疏》秉承孔颖达《五经正义》的注疏原则,注释翔实。从上述引书的分布特征来看,三部典籍的引书都是经部文献居多,平均占到了总引用文献的81%以上。上述学者均为儒家学者、经学大师,其自身的学术主张本就为儒学,在知识结构方面经部文献是其本源,多引经部文献符合所谓的行为习惯。由于施引者的学术背景,再加上儒学在中国封建社会中正统地位,经部文献无论是从施引者对其的熟悉度,还是保存的完整性和传播的广泛性来看,都比其他类型的文献更具有易获取性,正是“省力法则”的体现,也符合所谓的穆尔斯定律。而实际引用结果也证明了这一点。

6 结 语

本文将古籍文本中的引书看作被引文献,在解决引书条目自动识别问题的基础上,利用引文分析法研究引书分布规律,进而探讨了古籍文本之间的关联和影响力,并从不同的角度探析了古人引用行为,构建了古籍文本引书计量学研究的初步框架,为引书的研究提供了新视角。

本文在三个方面存在局限。首先,在数据处理上,对训练集的人工标引可能存在误差,特别是未对隐引进行标注;其次,在引文指标方面,仅关注了量化指标,没有对引用做深入的文本内容分析;最后,本文的研究对象仅为《十三经注疏》中的三部典籍的引书,得出的结论具有一定的片面性。

在未来的研究中,可扩大研究对象,增加样本典籍的数量,使数据更充实,以期得出更具普遍性的研究结论。同时,在研究内容方面可以考虑对引用内容进行挖掘,更加深入地研究古籍文本中的引用行为,为引书研究提供更有价值的视角。另外,也可以考虑在数据样本覆盖面足够大以后,构建一个全面的古籍文本引文数据库,相当于构建中华古籍的SCI。

猜你喜欢

毛诗注疏典籍
晚清来华德国人的中医典籍译介及其学术影响
安大简《诗经》虚词异文考略
《典籍里的中国》为什么火?
“瓟斝”与“点犀”新解*——兼论中国典籍中名物词的英译
《大学》“明明德”的理解与阐释
敦煌写本《文选》李善注引《毛诗》考异
《毛诗》与三家《诗》异同研究综述
王国维《汉魏博士考》补正两则
《心经》翻译及注疏的学术史考察
典籍翻译模式的构建与启发