林业古籍断句模式语料库建设方案探讨——以《树艺篇》为训练文<br/>

林业古籍断句模式语料库建设方案探讨——以《树艺篇》为训练文

2015-08-15赵阳

科技视界 2015年3期

赵阳

（南京林业大学人文学院，江苏南京210036）

古籍断句，是古籍整理实践中重要的组成部分。通过标点原文，能够区分出原文字句段落，厘清上下文关联，从而引导读者理解内容。这是非常有助于古籍的传播和阅读的。中国林业类古籍的整理主要功在收集，但其中仅有少量的文献被标点。那么如果希望更多的林业古籍被有效利用，就必须加大古籍整理的力度。中文信息处理技术的介入，提高了该领域的工作效率，这其中尤以自动化标点的实现最为紧要。目前已有不少这样的研究成果：有古籍断句的系统结构图以及基于模式匹配的断句方法；有基于前后n-gram模型的古汉语断句算法和一种可用于古文自动断句的以两个统计量互信息和测试差为特征的条件随机场模型；另外2011年国学网还开放了一个古籍断句评测系统。但是林业古籍有其专业性，有该领域独特的表达和术语，与一般的古籍是存在区别的。这就需要我们对林业古籍自动化断句方式进行研究。而这其中的关键，就是建立断句模式语料库。

1 断句模式语料库建设的必要及文本对象的选择

断句模式语料库，是实现林业古籍自动化断句的基础，是建立识别特征的规则、数量、质量的关键所在。这里对断句模式语料库的研究，特别强调林业古籍本身特征的提取，而不完全依赖于计算机识别程序的运用。因为计算机识别程序，有其基本的功能模块，也能进行专门的文本处理，但是如上所述，林业古籍与一般古籍的确实存在区别，所以应该设置出更具针对性的模式语料库，然后再结合计算机模式识别程序进行操作。这里语料库建设不是古籍原文的整体输入，而是从事理逻辑、叙事层次、语义层次、语词特征等性质入手，建立起识别规则和模式，同时要兼顾古籍整理标点中的诸多规定和限制，最终形成一套可以按照一定规则进行优化、合并，归类的体系。这对林业古籍自动点校的实现是非常重要的。

在文本对象的选择上，本文选择《树艺篇》为实验对象。《树艺篇》被列入子部农家类，共33卷。整部书先列总目，后分列谷部、蔬部、草部、草药部，木部、果部共六类。本论文主要以木部为研究对象，其中木部包含有合欢、榆杨柳、绵柳、白杨、黄杨等14种中国常见的树种。木部的资料收集时间上跨越性较大，上及汉代，下迄明代。从材料性质上看，不仅涉及到树木的基本介绍、还有技术性指导，甚至还有文学材料的介入；因此，选择本书作为研究个案，具有较好的代表性。另外这部书到目前为止，没有任何单行本或者合集的方式做过点校，相对选择已有过点校本的古籍来说难度更大，从语料学角度看，具有代表性，从实践意义来说，具有较大的开拓价值。

2 林业古籍断句模式语料库建设的难点

断句模式语料库的建设，必须结合林业古籍本身特点来设计，这里提出以下几点难点问题：第一，重视林业古籍中的专门词汇的分割。词汇的分割一直也是人工古籍标点的难点之一，有语言学者提出“语言中存在大量的复音词语。它们无论是合成词、联绵词还是短语，都作为一个造句单位使用，不容许割裂。如果在中间加上标点，就把它们一分为二，也就是点破了词语，从而破坏了意义的完整，改变了整段乃至全篇文字的意旨。这也是句读标点中常见的错误。”①而古籍中的词汇由于时代的变迁，词汇的含义及使用都发生了变化。这样的特征，再加上林业类词汇有其专业性，所以词汇的分割正确与否，直接关系到全文的连贯性。第二，注意词句位置及归属。词句的位置及归属判断直接影响到阅读者对文章的理解。一般古籍，可以借助上下文理解，或者借助史料背景去解决词句归属的难点，而林业古籍，从现代图书分类来看，属于技术类文本，所以出现词句位置判断失误或者误判归属的问题会更多。这其中必须加强对关键词的判断，如若关键词判断失误，那么接下里的断句也会产生较大的偏差。第三，注意林业古籍中的引文、补遗、注释等文字。这类文字是引自各种方志类书，不同朝代，不同性质，甚至有些引用文献都已亡佚。以《树艺篇》为例，书后有章钰手写目录，统计193种文献。如木部榆这一条的论述中，所引各种文献若干条，涉及到《尔雅》、《广志》、《云山志》、《九华志》、《武夷志》、《九江府志》、《兴化府志》、《松江府志》等等，这其中涉及到很丰富的背景知识，有典章制度，官制，地理、风俗习惯，典故等等，所以这是一个非常值得关注的问题。

3 林业古籍断句语料库的标注识别规则

传统计算语言学基本离不开语料统计，但是面对复杂的文本，还需要有针对性地结合一些规则。这里结合林业古籍的特征以及上述难点，在古籍人工点校和计算机处理的双重技术支撑下，考虑在普通古籍语料库模式类型基础上，着重以下几条识别规则。识别规则实际上与标注方式有关，关键是将林业古籍文本的特色融合到标注过程中，在此基础上取得最优的标注效果。

3.1 词汇特征识别规则

在林业词汇中，不少专业词汇与普通古籍中的词汇可能字面一样，但是却有独特的含义。所以在林业古籍文献的语料库中，有必要将专业词汇列入分词识别规则中，否则会大大增加标点的误差率。目前有关命名实体化的方法日渐成熟，这里在技术上借鉴半监督的中文信息处理手段，来实现林业专业术语的标注。林业类词汇可以分为直接表述性词汇和简介表述性词汇。直接表述性词汇包括植物类，植物部位词，加工模式词等，而间接表述性词汇包括色彩词、形状词、时间词、地点词等。林业类专业词汇的特别处理，有助于标注的效率。如《树艺篇》中有一段文字：“图经曰合欢夜合也生益州山谷今近京雍洛间皆有之人家多植于庭除间木似梧桐枝甚柔弱叶似皂荚槐等极细而繁密互相交结每一风来辄似相解了不相牵缀其叶至暮而合古一名合昏五月花发红白色瓣上至秋而实作荚子极薄细采皮及药用不抱时月。”这段话中，“合欢”、“梧桐”、“皂荚”、“槐”、“合昏”、等是直接表述性词汇中的植物类名称（简称ZM），“花”、“枝”、“叶”、“瓣”、““荚子”、“皮“等属于植物部位词（简称ZB）。”植“、”交结“、”牵缀“、”采“为加工模式词等（简称JG）。这些专业词汇可以作为断句的辅助依据。一般来说，如果ZM（ZB）后面是JG,那么考虑在ZM（ZB）前面做断句；如果JG后面是ZM（ZB），一般在ZM（ZB）后面做断句。

3.2 事理逻辑断句模式

林业古籍中的语言叙述的事理逻辑，与现代语言中的科技语体有部分相似。他的描述基本无赘语，简约而规范。以《树艺篇》中的“柳”为例。柳树是中国传统的树种，早在先秦时期就有相关记录。《树艺篇》中有关于柳树栽培技术的叙述：“种柳正月二月中取弱柳枝大如臂长一尺半烧下头二三寸埋之令没常足水以浇之必数条俱生留一根茂者余悉掐去别竖一柱以为依主每一尺以长绳柱栏之若不栏必为风所摧不能自立一年中即高一丈余其旁生枝叶即掐去令直耸上高下任人取足便掐去正心即四散下垂婀娜可爱若不掐心则枝不四散或斜或曲生亦不佳也”。这里有一些关键性的词语 “种”、“取”、“烧”、“埋”、“浇”、“留”、“掐”、“竖”等词，还有数量单位 “尺”、“寸”、“条”、“根”、“柱”、“丈”等。这里主要依赖于概念分类和概念之间的关系的判断，在一大段话中，根据动词出现的位置，在前后考虑这里有可分割的片段，以此形成逻辑子语言来提供判定。比如在动词前或者后是否存在某相关概念，而关键词语概念之间是否存在一定的关系。这样的片段逻辑模式积累到一定程序，可以去归纳类型，最终在此基础上构造逻辑模型。

3.3 引文识别规则

在古籍文本中有丰富的引文资料存在，衡中青等学者针对引文的标点问题构建了一种引书挖掘系统。他提出若是作者直接称引的可以将文本生成电子文本后，计算机直接抽取；若是没有任何标注的引文，可以使用模式识别方法加n-gram分词法。②这种方法并不是针对断句功能建立的，他主要是用于后期的文献计量分析，不过对断句模式有一定的启发。我们可以建立引文识别的逻辑语言模式：如“某某曰”、“某某记”、“某某志”，那么在此前或者此后，就应该考虑断句。这里特别注意的是，因为林业古籍中有时候会重复引用同一部文献，那么在上面已经引用过的情况下，后面的书名可能是简称。《树艺篇》中引文俯拾皆是，尤其要注意。