APP下载

先秦注疏文献的内容分类研究*

2020-11-27徐润华梁社会

湖州师范学院学报 2020年9期
关键词:注疏左传示例

徐润华,梁社会

(1.金陵科技学院 人文学院,江苏 南京 210038;2.南京师范大学 国际文化教育学院,江苏 南京 210097)

先秦文献专指秦朝统一之前、诞生于春秋战国时代的一大批优秀文学作品。随着时代的发展,古籍文献的数字化、语料化的需求越来越大,这也使得对先秦文献进行信息处理方面的研究具有了更加积极的意义。先秦文献信息处理应该是中文信息处理的一个分支,但在使用现代汉语信息处理方法来处理先秦文献的时候,效果并不理想。几乎每种先秦文献都有非常丰富的注疏文献,这些注疏文献是历代学者对先秦文献的人工分析的积累,可以转化为结构化的形式加以利用。通过挖掘注疏文献中的这些知识,我们就可以对先秦文献做词语切分、专名标注和词义标注等信息处理工作。

一、先秦注疏文献概况

注疏是注文和解释注文及文字的合称,旧时称解释古书意义,即对经书字句注解的为“注”,又称“传”“笺”“解”“章句”等;疏通注文意义、即对“注”进行注解的为“疏”,又称“义疏”“正义”“疏义”等。本研究选取了25本先秦文献的注疏文献,有些注疏文献其实是一种注释文献,和“十三经注疏”中的“注疏”之意有不同:注释文献往往只是对原文的“注”,没有“疏”这个层面的信息,如《老子集注》;有些注释文献只是对原文部分内容的注解而非全部,如《管子轻重篇新诠》。包括“十三经”在内,25本先秦文献的注疏文献信息如表1所示。

表1 25种先秦文献的注疏文献

二、先秦注疏文献的内容分析

注疏文献是对经文所做的注解,因此依托于经文原文的内容。但它依然有着自己相对独立的行文组织方式和结构特点,我们以《左传》注疏《春秋左传正义》为例,分析注疏文献的具体内容。

注疏文献虽然是针对原文进行注解,但并非所有的注解都是直接针对所援引原文的语句进行,每篇注疏文献都会有一定的篇幅用来对原文作者、写作背景等信息进行注解。例如,在《春秋左传正义》这本《左传》注疏文献的开头部分,有如下内容:

卷二 隐元年,尽二年

杜预 孔颖达,31284字

隐公○陆曰:解,佳头反。旧夫子之经与丘明之传各卷,氏合而释之,故曰《经传集解》。

[疏]正义曰:五经题篇,皆出注者之意,人各有心,故题无常准。

杜氏

[疏]正义曰:杜氏,名预,字元凱,畿之孙,恕之子也。陈寿《魏志》云:“杜畿,字伯侯,京兆杜陵人也。”

上述内容中,按从前往后的顺序,“卷二 隐元年,尽二年”“杜预 孔颖达”“31284字”是和文献相关的一些信息,如涉及年代、作者姓名、字数等。“隐公○陆曰:解,佳头反。旧夫子之经与丘明之传各卷,氏合而释之,故曰《经传集解》”是对写作背景的一些介绍,“[疏]正义曰:五经题篇,皆出注者之意,人各有心,故题无常准”是对介绍内容的一些补充解释。“杜氏”是作者姓名,“[疏]正义曰:杜氏,名预,字元凱,畿之孙,恕之子也。陈寿《魏志》云:‘杜畿,字伯侯,京兆杜陵人也。’”是对作者信息的详细介绍。

然而,不引用原文,而是对原文作者、背景等信息进行介绍的内容在注疏文献中毕竟所占比重小,并且只会出现在注疏文献的开头部分;注疏文献中的其他大部分内容采用的都是援引原文并针对该原文进行解释的写作模式,以下为注疏文献《春秋左传正义》中的部分内容示例:

【传】元年,春,王周正月。言周以别夏殷。○别,彼列反。夏,户雅反。三代之号,可以意求。不书即位,摄也。假摄君政。不脩即位之礼,故史不书与策,传所以见异与常。○见,贤遍反。

[疏]“不书即位,摄也”。○正义曰:摄训持也。隐以桓公幼少,且摄持国政,待其年长,所以不行即位之礼。史官不书即位,仲尼因而不改,故发传以解之。公实不即位,史本无可书。庄、闵、僖不书即位,义亦然也。旧说贾、服之徒以为四公皆实即位,孔子脩经,乃有不书,故杜详辨之。

注疏文献是一种半结构化的文献,其内部构成方式呈现出明显的规律性。上例中,“元年,春,王周正月”“不书即位,摄也”都是援引自《左传》原文的引文,引文后面的内容是对该引文所做的注释。《春秋左传正义》基本由“传”和“疏”构成,“传”和“疏”均以段落为界,每段文字由引文和注释构成,引文常常间断为若干小句。

三、先秦注疏文献的格式范式

通过对《左传》注疏《春秋左传正义》的分析观察,可以看出注疏文献在行文结构上所具有的一些特点:基本上是由“对原文的援引”和“对引文的注解”这两部分构成;“对引文的注解”分为“注”和“疏”两部分,“注”紧跟引文之后,“疏”则另起一段文字;一段引文及“注”的内容,加上一段“疏”的内容,形成了注疏文献的最基本构成单位。

但是,上述这些特点,仅仅是根据对《春秋左传正义》的分析观察而发现的,而《春秋左传正义》并不能代表全部注疏文献的结构行文特点。因此,本研究又选取了《论语》的注疏《论语注疏》以及《孟子》的注疏《孟子注疏》中的一些具体例子,来分析观察各种不同的注疏文献中所具有的不同特点,并总结出其中的共同之处。

首先选取了《论语注疏》中的部分内容,示例如下:

卷一·学而第一

何晏 邢昺,8920字

子曰:“学而时习之,不亦说乎?马曰:“子者,男子之通称,谓孔子也。”王曰:“时者,学者以时诵习之。诵习以时,学无废业,所以为说怿。”有朋自远方來,不亦乐乎?……

[疏]“子曰学而”至“君子乎”。

正义曰:此章劝人学为君子也。“子”者,古人称师曰子。子,男子之通称。此言“子”者,谓孔子也。“曰”者,《说文》云:“词也。从口,乙声。亦象口气出也。”……

注“愠怒”至“不怒”。

正义曰:云:“凡人有所不知,君子不怒”者,其说有二:一云古之学者为己,己得先王之道,含章内映,而他人不见不知,而我不怒也。一云君子易事,不求备于一人,故为教诲之道,若有人钝根不能知解者,君子恕之而不愠怒也。

接着选取了《孟子注疏》中的部分内容,示例如下:

卷十一·告子章句上

赵岐 孙奭,19803字

告子章句上(凡二十章)

告子者,告,姓也;子,男子之通称也;名不害。兼治儒墨之道者,尝学于孟子,而不能纯徹性命之理。《论语》曰:“子罕言命。”谓性命难言也。以告子能执弟子之问,故以题篇。

[疏]○正义曰:此篇首论告子言性,所以次于《万章》问孝之篇者,以其为孝之道,其本在性也,故此篇首以告子之言性,遂为篇题,次于《万章》,不亦宜乎。此篇凡三十六章,赵氏分之以成上下卷。此卷凡二十章而已。……

注“告子者姓”至“篇题”。

正义曰:云“告子名不害”者,《尽心篇》有浩生不害,疑为告子,姓告名不害,以浩生为字。赵注又云:浩生姓,名不害。又为二人。其佗经传未详甚人。云《论语》子罕言命,尽《论语》第九篇首云也,故以题其篇。

观察分析《论语注疏》和《孟子注疏》的结构特点,可以发现,这两部注疏文献的基本行文结构和《春秋左传正义》一致,都是以“原文引文+‘注’+‘疏’”作为基本构成单位,其中“注”紧跟引文之后,“疏”部分则单独成行。

但是,它们之间也有着不同之处:《春秋左传正义》中,引文和“注”构成一行,其所对应的“疏”单独构成另一行;而在《论语注疏》中,引文和“注”所对应的“疏”有可能不止一行,上例中,“[疏]‘子曰学而’”至“君子乎”。……”这部分内容和“注“包曰:同门曰朋”。……”这部分内容以及“注“愠怒”至“不怒”。……”这部分内容,全部都是针对“子曰:“学而时习之,……”这一段文字所进行的“疏”;在《孟子注疏》中也有类似的情况,在“告子者,……”这段引文及“注”内容之后,“[疏]○正义曰:此篇首论告子言性,……”和“注“告子者姓”至“篇题”。……”这两部分内容全部都是针对前面引文和“注”所进行的“疏”。

“疏”不局限于只注解“注”,“疏”往往是对“原文引文和相应‘注’内容”进行整体或局部的注解,因此,对于同一段的“原文引文和相应‘注’内容”,所对应的“疏”可能有多个,分别注解不同范围的内容:或者第一个“疏”注解全部,接下来的“疏”分别按顺序注解各个部分;或者多个“疏”都是只注解“原文引文和相应‘注’内容”的某一部分而已。而这样的情况,正是在《论语注疏》和《孟子注疏》中所表现出来的注疏行文结构的又一特点。

根据对多部注疏文献的观察和分析,可以总结归纳出注疏文献的一般结构范式,如图1:

图1 先秦注疏文献的格式范式

四、先秦注疏文献的内容分类

注疏文献是半结构化文本,其中的内容都是按照特定的结构方式来组织排列的,但对于计算机来说,半结构化的信息仍然不便于直接使用。只有对注疏文献进行结构化处理、进行内容再分类后,才能被计算机理解并应用到对原文信息处理的辅助工作中去。注疏文献的格式调整只是注疏结构化的基础工作;总结出的注疏结构范式只是解决了理论层面上的问题;只有把理论转换为规则、应用到实际的分类算法中去,才能真正实现对注疏文献的信息处理任务。

注疏文献的分类工作指的是,将半结构化的注疏文献结构化,将注疏文献中的相应内容按照“原文引文”“注”“疏”等类别进行再分类,以便于计算机对注疏文献的进一步理解。分类工作以注疏文献的一般结构范式为基础,考虑各种特殊情况,大致步骤为:全文查找(确认原文引文(确认注和疏,流程如图2所示:

图2 注疏文献的分类流程

(一)引文和“注”的分离

分离的关键是如何发现引文,因为“注”紧接在引文之后,一旦找到了引文,剩下的内容自然就是“注”。一种相对简单、较为容易操作的发现引文的方法是全文查找,按照原文小句的先后顺序,在注疏的全部内容中进行查找和匹配。

引文和“注”的分离过程中所面临的最大难点是繁体字、异体字的对应问题。同一个字,在原文中和在引文中可能繁简不一致,也可能用字版本不一致,在《左传》原文和其注疏文献《春秋左传正义》之间,就存在着许多这样的情况,以下表2为其中部分实例:

表2 《左传》与《春秋左传正义》的用字不同

解决这个问题除了要使用繁简字、异体字对应表之外,还要在查找、匹配原文的过程中,引入相似度计算的约束。查找过程中,不能要求必须百分之百匹配成功,如果原文和引文的相似度数值能够高出某个阈值,那么也可以认为查找到了原文。下面三个例子中,左边的小句和右边的小句都不是完全相同,但通过相似度计算,仍然可以匹配成功:

將虢是滅, 将虢是滅,

何愛与虞? 何愛于虞?

且虞能親与桓、庄乎? 且虞能親于桓、庄乎,

(二)“注”和“疏”的分离

正确分离的关键,在于对“注”“疏”格式的正确理解和形式化。分离时,主要使用上文所归纳得到的注疏文献的结构范式,与此同时,考虑一些特殊情况下的例子。

第一,“注”可能没有:

【传】四年,春,卫州吁杀式桓公而立。公与宋公为会,将寻宿之盟。未及期,卫人來告乱。夏,公及宋公遇于清。宿盟在元年。

宋殇公之即位也,公子冯出奔郑,郑人欲纳之。及卫州吁立,将脩先君之怨于郑,谓二年郑人伐卫之怨。

[疏]注“谓二”至“之怨”。○正义曰:二年伐卫见经,故以属之,…… ……

上例中,划横线部分为引文,该部分引文没有相应的“注”。

第二,“疏”可能没有:

惠公之季年,败宋师于黄。黄,宋邑。陈留外黄县東有黄城。○败,必迈反,败他也。后仿此。公立,而求成焉。九月,及宋人盟于宿,始通也。经元义例,故传直言其归宿而已。他皆仿此。冬,十月,庚申,改葬惠公。公弗临,故不书。以桓为大子,故隐公让而不敢为丧主。隐摄君政,故据隐而言。惠公之薨也,有宋师,太子少,葬故有阙,是以改葬。○少,诗照反。

[疏]“有宋”至“改葬”。○正义曰:上云“惠公之季年,…… ……

上例中,划横线部分为引文和“注”,该部分内容没有相应的“疏”。

此外,针对同一部分的引文和“注”,“疏”可能有多个,分别注解不同范围的内容。往往第一个“疏”注解全部,接下来的“疏”分别进行注解。此种情况,上文已有相关实例介绍,这里不再重复例举。

“疏”的格式相对比较复杂。并非“疏”所在的整个段落全部都是注解内容,需要先对“疏”的格式进行分析:从整体上看,存在一段“疏”或者多段“疏”之别;从内容上看,“疏”后面有可能紧跟注解范围,也可能没有;从形式上看,注解范围和注解内容之间有时存在明显的边界,有时没有。如图3所示:

图3 引文和注疏之间的对应关系

针对“疏”的各种格式,以下分别举例说明:

(1)“疏”后面无注解范围。示例:

乾下乾上。乾:元、亨、利、贞。

[疏]正义曰:“乾”者,此卦之名。谓之卦者,…… ……

(2)“疏”后面紧跟注解范围,注解范围和注解内容之间无边界标志。示例:

“春秋”者,鲁史记之名也。

[疏]“春秋”至“名也”。人臣奉主,品目不同。…… ……

(3)“疏”后面紧跟注解范围,注解范围和注解内容之间有边界标志。示例:

司马牛问仁。子曰:“仁者,其言也讱。”孔曰:“讱,难也。牛,宋人,弟子司马犂。”曰:“其言也讱,斯谓之仁已乎?”子曰:“为之难,言之得无讱乎?”子曰:“行仁难,言仁亦不得不难。”

[疏]“司马牛问仁”至“讱乎”。

正义曰:此章言仁之难也。“子曰:仁者,其言也讱”者,…… ……

(4)同一部分引文和“注”对应多段“疏”。示例:

子曰:“学而时习之,不亦说乎?马曰:“子者,男子之通称,谓孔子也。”王曰:“时者,学者以时诵习之。诵习以时,学无废业,所以为说怿。”有朋自远方來,不亦乐乎?包曰:“同门曰朋。”人不知而不愠,不亦君子乎?”愠,怒也。凡人有所不知,君子不怒。

[疏]“子曰学而”至“君子乎”。

正义曰:此章劝人学为君子也。“子”者,…… ……

注“包曰:同门曰朋”。

正义曰:郑玄注《大司徒》云:“同师曰朋,同志曰友。”…… ……

(三)注疏文献的分类示例

以上文所述的分类方法为基础,对《左传》的注疏文献《春秋左传正义》进行分类,理想的分类结果如下所示:

分类前的注疏文献内容:

三月,公及邾仪父盟于蔑,邾子克也。克,仪父名。未王命,故不书爵。曰“仪父”,贵之也。王未赐命以为诸侯,其后仪父服事齐桓以奖王室,王命以为邾子,故庄十六年经书“邾子克卒”。○“故不书爵”,一本无“故”字。奖,将丈反。

[疏]注“王未”至“克卒”。○正义曰:庄十三年齐桓会诸国于北杏,邾人在焉。及十六年而书“邾子克卒”,故知由事齐桓乃得王命也。贾、服以为北杏之会时巳得王命,盖以北杏之会邾人在列,故谓其巳得命也。…… …… …… ……

分类后的注疏文献内容:

【“经”的原文】: 三月,公及邾仪父盟于蔑——邾子克也。

【“注”援引“经”的原文】: 三月,公及邾仪父盟于蔑,邾子克也。

【“注”对“经”原文的解释】: 克,仪父名。

【“经”的原文】: 未王命,故不书爵,曰:“仪父”,贵之也。

【“注”援引“经”的原文】: 未王命,故不书爵。曰“仪父”,贵之也。

【“注”对“经”原文的解释】: 王未赐命以为诸侯,其后仪父服事齐桓以奖王室,王命以为邾子,故庄十六年经书“邾子克卒”。“故不书爵”,一本无“故”字。奖,将丈反。

【“疏”援引“注”的原文】: [疏]注“王未”至“克卒”。

【“疏”对“注”原文的解释】: 正义曰:庄十三年齐桓会诸国于北杏,邾人在焉。及十六年而书“邾子克卒”,故知由事齐桓乃得王命也。贾、服以为北杏之会时巳得王命,盖以北杏之会邾人在列,故谓其巳得命也。…… …… …… ……

上例只是一个较为理想的正确分类结果,在实际的注疏文献的分类过程中,“注”和“疏”的分离效果较好,但引文和“注”的分离效果不佳。因为在分类过程中,发现引文的方法是全文查找,而这种方法有着比较明显的局限性:例如,原文句子“不书即位,摄也。”中的小句“不书即位”需要在注疏文献中查找引文,可以同时找到8个完全匹配成功的“不书即位”;同样,原文句子“不书,非公命也。”中的小句“非公命也”在注疏文献中可以找到6个完全匹配的实例。当遇到这种情况的时候,简单的通过全文查找来确认引文的方法就会显得无能为力,这就要求我们必须在这种相对粗糙方法的基础上,进行更深一步的研究,探索出更为有效的发现引文的方法,使得引文和“注”能够更准确的进行对应。这也是本研究接下来要继续探索和改进的方向。

猜你喜欢

注疏左传示例
《左传》“摄官承乏”新解
《左传》疑难考辨一则
《左传》“讥失教也”句献疑
“口”字大挪移
2019年高考上海卷作文示例
《大学》“明明德”的理解与阐释
《心经》翻译及注疏的学术史考察
飞吧,云宝
《诗经原始》中评点的特质
宋元明清时期《金刚经》的流传及其特点