语料库数据性质面面观

2020-07-02井冈山大学孙仕光

语料库语言学 2020年1期

井冈山大学孙仕光

提要：通过对语料库数据进行分析得到可靠的语言知识的前提和基础是全面、深入地了解语料库数据的性质，并选用与数据性质对应的数据分析工具。本文通过梳理一些关于语料库数据的研究，尝试对语料库数据特点作出系统性总结。本文发现：语料库数据很多情况下不服从正态分布，语料库数据具有层级嵌套结构，语料库数据具有一定程度的非平衡性、非随机性、非代表性和非独立性，语料库数据潜在地包含固定效应和随机效应因素。针对这些特质，目前较为恰当的语料库数据统计分析工具有秩和检验、混合效应/层级模型等。

1.引言

现如今，语言学研究大多以实际发生的语言数据为依据。作为自然、真实的语言事实，语料库数据是语言知识不可或缺的来源。然而，对于语言学研究以什么样的数据为研究对象，语言学者的认识和做法经历了变迁和反复。这里面既有认识论哲学基础的原因，也有时代技术发展水平的原因。在乔姆斯基的生成语法出现以前，语言学家们主要依据经验主义认识论，收集少量的语言实例，然后进行分析、分类、描写。乔姆斯基认为这种数据收集方式类似收集蝴蝶标本，无法充分描写语言，这种研究方式也不能发现内在的语言知识（能力）。乔姆斯基和他的追随者的认识论基础是以笛卡尔为代表的理性主义传统，他们的语言研究依靠的数据是基于直觉、内省的合乎语法性或可接受性的判断数据。但是，在因特网、语料库技术产生之后，因特网和语料库中的语料证明这种直觉式的、内省式的、脱离具体语境的语言数据大部分是不可靠的（Manning 2003；Bresnanet al.2007；冯志伟 2011），语言能力（language competence）和语言运用（language performance）也是难以区分的。比如，Bresanet al.（2007：69，76）指出了内省数据的缺点：由于缺乏语境，对生造的、脱离语境的句子的内省判断会低估语法的可能性空间；这种语料数据也不能反映多重的、互相冲突的语言限制条件的相互作用，包括人类大脑处理能力的限制条件。Wasow（2009：255）指出，生成语法理论，在其历史中的大部分时间里，始终处于与实际语言数据的矛盾和紧张关系当中。具体来说，一方面是生成语法理论的截然分明性，表现为语言范畴的离散性，即语言范畴非此即彼；语法规则的刚性，即语言规则非真即伪；语言现象非合法即违法，非有即无；另一方面是实际语言数据中的渐变性、梯度性（gradient），表现为语言现象出现的概率性；语言范畴边界的模糊性、流变性；语法规则的概率性、柔性（语言限制条件可以被违反）。学者们（如Manning 2003；Levy 2005；Bresan 2007）越来越认识到语言现象和语言规律的渐变性、概率性特征，确定性的语言现象和语言规律不过是发生概率为0或1的特殊情况。语言现象的概率性以及语言的统计性规律靠直觉判断语言数据或有限的实验心理语言学数据是发现不了的，只能通过大规模的、密集的自然语言数据去发现。

语言工程技术界也支持从语料库中发现语言知识。基于语料库和概率的语言处理模型往往比基于刚性规则的语言处理模型表现要好得多。基于多年语言工程实践经验，谷歌研究主管Norvig（2012）批驳了以乔姆斯基为代表的生成学派无视语言事实，把语言理论凌驾于语言事实之上的倾向，指出科学是收集事实和建构理论的统一体，两者相辅相成，共同前行。在科学史中，劳神费力地收集、积累事实是主流的科学发展模式，语言科学在这方面和其他科学也并没有什么不同。我国计算语言学专家冯志伟（2011：4）也指出，语料库是客观的、可靠的语言数据资源，从语料库挖掘知识和抽取信息应当成为现代语言学的基本研究方法。语言学的一切知识，都有必要放到语料库中来检验，决定其是正确的，还是片面的，还是错误的，甚至是荒谬的，从而决定其存在的必要性。他认为“内省”的研究方式只能是基于语料库研究方法的补充，而绝不能是语言学研究的主流。

在运用语料库数据挖掘语言知识之前，我们需要认识到语料库数据具有一些特殊性质。不了解这些性质，生搬硬套地直接利用一些数据统计分析工具去分析语料库数据，可能会导致错误的结论。目前，无论是在国内还是国外的语料库研究中，这种现象比比皆是。其原因主要是研究者不了解这些性质，或者不熟悉应使用的统计方法。Kilgarriff （2005）、Evert（2006）、Gries（2015a）对语料库数据特点作了一些研究和讨论。在语料库研究方法和工具方面，Bresnan （2007）、Gries（2015b）等也在大力呼吁：针对语料库数据的特殊性质，要利用先进的混合效应/多层线性模型来分析语料库数据。通过阅读文献，我们发现，在国内的语料库研究中，针对具体语言问题的研究较多，但是针对语料库数据性质及其相应研究工具和方法的研究偏少，这方面仅有的几个研究包括葛诗利（2010）、许家金（2014）等。因此，本文旨在通过梳理一些相关研究，尝试对语料库数据的性质、特征作出系统性总结，以供学界参考。

2.语料库数据具有一定程度的非平衡性

通常语料库的平衡性是指语料库（语言样本）对语言总体的语料类别及其比例结构的反映的准确程度。在本文中，我们可以把这种平衡性看作是狭义的语料库平衡性问题，因为我们还需要从其他方面来考察语料库数据的平衡性问题，包括语言项目在语言总体或语料库中的频率分布的平衡性问题、语言数据点数量在（跨）各个说话者之间分布的平衡性问题、语言数据点数量跨语言项目之间分布的平衡性问题，语言项目跨文本之间频率分布的平衡性问题等。所有这些平衡性问题可以统称为广义的语料库数据平衡性问题。

2.1 语料库中各个语类及其比例结构的平衡性问题

目前，语料的分类标准、语料库中各类别语料的比例结构的确定尚缺乏科学、客观的依据，尚没有科学的方法度量、保证语料库的这种平衡性。黄昌宁和李涓子（2002）认为，语料库的代表性和平衡性是一个迄今都没有公认答案的复杂问题。Hunston（2002：28-30）指出，很难客观地确定语料库中各类语料的比例。目前，大多数语料库所声称的平衡性并不是真正严格意义上的平衡性。这种平衡性是相对而言的，是指尽可能广泛地覆盖多种语料，或尽可能多地涵盖可能影响语言变异的各种语言外部变量，如语式（口语、笔语）、性别、年龄段、社会阶层、受教育程度、专业领域等。既然语料的分类标准、语料库中各类别语料的比例结构尚缺乏科学、客观的依据，那么这种平衡性只能是宽松意义上的平衡性。也可以说，目前语料库的所谓的“平衡性”与其说是一种事实，不如说是语料库建构者的一种信念和目标。

2.2 语言成分项目频率分布的不平衡

在语言整体中，或者在语言样本（语料库）中，语言成分项目［如音素或字母组合、词汇、Ngram（Haet al.2003）］的频数（率）分布是不平衡的：少数几个语言成分以极高的频率出现；而大多数成分可能只出现一或两次。语言成分的这种不平衡性的分布属于幂律分布（power-law distribution）（Zipf 1949；Baayen 2001）。如图1中美国英语语料库中的词汇频率分布1。

图1 当代美国英语语料库（COCA）的5000单词频率按照位次顺序的分布

图1中的纵轴是单词出现频率，横轴是各个单词按照频率从大到小排列的位次。我们可以看到这种分布明显不同于正态分布。在这种分布中，每个语言成分的频率（fi）与其频率的位次（ri）的乘积都接近某个常数（C），即fi×ri≈ C,这就是齐普夫定律。无论语料库大小，语言成分的频率分布都遵循齐普夫定律。即使是现有最大的语料库（10亿词汇以上），其词汇频数（率）分布中，很大比重的单词也只出现一、二次。继续增大语料库的规模，还是会有大量的新词汇以极低的频率出现。

2.3 语言数据点数量在各语料产出者之间的不平衡

语料库中的语料数据是由众多的说话者提供的，每个说话者提供的语料数量多少不一，造成了说话者之间的数据点数量分布的不平衡。比如，在Bresnanet al.（2007）的研究语料中，共有424人提供了总共2,360个与格结构（包括双宾结构和介宾与格结构）用例（索引行），在提供数量最多的前387人当中，与格结构的数量分布如下：

这表示每个说话者提供的语言项目（观察、数据点）是不平衡的。

2.4 语言数据点数量跨语言项目之间分布的不平衡

不同的语言项目有不同的语法行为倾向，比如give更倾向于出现在双及物结构中，而sell 更倾向于出现在介宾与格结构中。也可以把这些倾向理解为语言项目对语法行为的特异性影响。当我们要研究一些变量对语法行为的影响时，如果从语料库检索到的语言项目对应的索引行数量不平衡，那么不同语言项目对语法行为的特异性影响就会以不同的数量被带入到统计分析中。比如，我们要研究的问题是多个预测变量对与格变换（双及物构式和介宾与格结构之间的转换）的影响，当我们从某个语料库中搜索语料时，我们会发现每个与格动词对应的索引行（包括双宾结构和介宾与格结构）数量是不一样的，也就是说，每个语言项目对应的数据点数量是不平衡的。例如：

give 出现在552个索引行中（包括332个DO结构和220个PO结构2）；

send 出现在267个索引行（79个DO结构、188个PO结构）中；

offer 出现在215个索引行（186个DO结构、29个PO结构）中；

sell 出现在126个索引行（28个DO结构、98个PO结构）中。

这种数据的不平衡会导致各个语言项目的特异性效应以不同的权重影响因变量（响应变量即语法行为），干扰、混淆了我们对主要的预测变量对响应变量的影响的观察。各个语言项目对应数据量的不平衡是语料库数据中普遍存在的问题。同语言数据量跨说话者之间分布的不平衡一样，这种项目之间的数据量分布不平衡也必须得到控制或处理，才能观察到我们感兴趣的主要预测变量的效应。目前，混合效应统计模型是应对这个问题的有效方法。

2.5 语言项目跨文本分布的不平衡

一些语言现象会因为专业领域或个人语言风格的原因而集中分布在语料库中个别语篇中。比如，一篇讨论折纸艺术的文章会异乎寻常地大量出现fold、cut、paper等单词；一本厨艺书会大量出现fry、braise、sauté、pickle等词汇；某个作者特别喜欢使用被动语态，他的文献里面会频繁出现被动语态。所以，一些语言项目和语言现象存在跨文本之间数量（频率）分布的不平衡。假设一个语料库包含500个同等篇幅长度的语篇（文本），我们要观察A、B两个语言现象在这500个等份语料中的分布。图2呈现的是A语言现象的跨文本之间的分布，我们可以看到A语言现象的分布很不均匀，呈现聚集效应。

图2 语言现象/成分的聚集分布（Gries 2015a）

图3呈现的是B语言现象跨文本之间的频率分布。我们发现，语言现象B的频率分布较语言现象A的频率分布均匀得多。

图3 语言现象/成分较为均匀的分布（Gries 2015a）

图2中语言现象A的跨文本分布的不平衡又称为语言现象（项目）的聚集分布效应或欠分散效应，非均匀分散分布效应（clustering effect,underdispersion）。有很多统计量来度量这种不平衡，在此不再详述。我们需要知道的是，单纯地报告某语言形式的频率会有误导性。所以，在报告语言形式的频率时，需要附带报告这个语言形式的散布程度（Gries 2010：11），以明确是否具有聚集效应。

3.语料库数据具有一定程度的非随机性

本节讨论语料库建设过程中的语料随机抽样问题。语料库研究中大多数的研究问题是针对词汇、多词单位、语法构式或型式、词—词搭配、词—语法构式搭配等。如果严格按照统计理论，当研究问题的数据测量单位是单词级别时，就需要一个与之对应的以单词作为抽样单位的语料库；当研究问题的数据测量单位是短语级别时，就需要一个与之对应的以短语为抽样单位的语料库，依此类推。但是实际中的语料库绝大多数是以语篇作为单位抽样得来的，如整篇文章、整本书，或者书、文章中连续性的一部分。这就造成了抽样的单位级别和数据测量/分析的单位级别不一致的状况，抽样的单位级别（颗粒度）大于数据测量的单位级别。Evert（2006：184）认为，这两种单位的不一致等价于破坏了以数据测量单位为抽样单位的语料抽样过程的随机等概率原则。比方说，我们要研究的语言现象是单词级别，对应的语料库应该是以单词作为抽样单位抽样得来的。但是我们为了省事，把语篇作为抽样单位，这种行为就等同于破坏了以单词为样本元素的语料库的抽样过程的随机等概率原则。其原因与上文提到的语言现象的聚集分布效应有关。比如，一篇包含大量的fold、cut、paper等单词的折纸艺术文章碰巧被抽取到一个语料库中，那么这些以超常频率出现的词汇出现在样本中的概率陡然增大了，从而违反了抽样的随机等概率原则。对于我们要研究的单词级别的语言现象而言，这种以语篇为抽样单位的语料库影响了这个语料库的代表性。在这个语料库中，我们要研究单词的频率时，统计值就被放大了。语料库的抽样单位和语言研究问题测量单位的不一致造成的后果是：不仅语言结构成分/特征频数在实际语料库抽样分布中的变异比其在理想语料库抽样分布中的变异大，而且语言成分/特征频数在实际语料库各部分之间的变异要比在理想语料库各部分之间的变异大（Evert 2006）。

4.语料库中数据点之间存在相关性

独立性是概率论中的一个概念。若事件A的发生不影响事件B发生的概率，即P(B|A)＝P(B)，并且事件B的发生也不影响事件A发生的概率，即P(A|B)＝P(A)，则称事件A、B互相独立；否则A与B不独立或相依、相关。当事件A、B互相独立时，即P(AB)＝P(A)*P(B)。大多数统计分析方法要求数据的各个观察值之间具有独立性（Garson 2012：46）。

与严格控制的心理语言实验数据相比，语料库数据中数据点之间存在更多的相关性或非独立性。语言数据点之间的相关性包括：（1）语言本身固有的序列相关性；（2）在言语过程中，由于说话者大脑的启动效应产生的相关性；（3）由于语料库数据的嵌套结构造成的相关性。

第一，我们先来看序列相关性。从数学的观点和信息接收者的角度来看，语言是一个由语言成分构成的链，这些语言成分以不等概率、前后依存的随机方式依次出现，一个语言成分出现的概率依赖于前面先出现的几个语言成分。这种链称为马尔科夫链。这里面所说的语言成分的单位（颗粒度）大小不一，有语素、单词、短语、句子等之分。比如，各个单词的出现概率之间互相依赖（单词搭配及搭配强度）；冠词后面出现名词的概率比出现形容词、动词的概率大；辅音后面出现元音的概率比再次出现辅音的概率大，等等。这种序列相依性是语言本身固有的。换句话说，语言作为符号序列，具有序列相依性（sequence dependency），后面出现某一语言成分或语言特征的概率依赖于前面的语言成分及其语言特征。在一些语料库语言研究中，这种序列相依性会造成的数据点之间不具有独立性。

第二，我们来看看言语过程中的启动效应造成的语言数据点之间的相关性。这种相关性指的是在人的言语过程中，语言成分出现的几率遵循“有钱人变得更有钱”的效应（rich-get-richer effect）（Church & Gale 1995；Barth & Kapatsinski 2015），即：一个语言项目在过去的使用频率比其他语言项目越高，它在未来被再次使用的概率相较其他语言项目就越大，这样就形成了正向反馈回路（循环）（见图4），导致了语言项目使用频率的指数式增长，这就是上文第4部分所讲的语言项目频率的幂律分布的原因。也就是说，语篇前面各个语言成分出现的频率会影响语篇后面各相应语言成分出现的频率，所以，语言成分出现的观测之间就丧失了独立性。从生理机制上来看，这是因为频繁使用的词汇比使用不频繁的词汇在大脑中的激活状态更高，或激活阈限更低，更能迅捷地进入大脑激活状态（Oldfield & Wingfield 1965），再次得到使用的可能性更大。

图4 语言成分出现频次的正向反馈回路（循环）

第三，也是最后一点，我们要讨论一下嵌套造成的相关性。语料库近似是一个“语言总体”的分类抽样样本。语料库的分类在很多情况下不只限于一个层级，是多个层级的，如图5所示。

图5 语料库数据的层级嵌套结构

从数据结构的角度来看，具有这样多层分类结构的语料数据是层级嵌套数据，其中，语言项目嵌套于语篇（文件）/作者之中，语篇/作者嵌套于次级语域（subregister）中，次级语域嵌套于语域（register）中，语域又嵌套于语式（mode）中。语料的分类因素，如语式、语域、作者身份等，都会对语言现象产生影响，比如Röthlisberger（2015）发现语式、文体等因素都对与格转换产生显著影响。

所以，嵌套的第一种情况是同一语式（或同一语域、次语域）之内的一些数据项目（索引行或句子）会在一些语言特征上面存在相关性。比如，我们要研究被动语态现象，我们得到的一批数据项目都来自于口语语料，而另外一批数据项目都来自于笔语学术语料。一般来说，在口语语料中被动语态句式比较少；而在笔语学术语料中，被动语态结构比较多。那么来自于口语语料的那一批数据项会在“是否是被动结构”这个特征上存在相关性；同样的道理，来自于笔语学术语类的数据项也在这个特征上相关。总之，嵌套于同一语类（语式、语域、次语域）的语料中的各个数据项目会在某个（些）语言特征上表现出相关性。

第二种情况是多个观测（数据点，如索引行）嵌套于同一个作者（或说话者、语篇）造成的相关。我们研究某个语言现象时，这个语言现象的成分单位或测量单位级别一般是语素级、单词级、多词单位级、短语级或句子级中的一种。但是语料库中的语料一般是以语篇为单位来抽取的。这样，数据测量单位和语料抽取的单位就产生了不匹配、不一致的现象。由于这两种单位的不一致，在针对某个研究问题收集数据时，多个观测会来自于同一语篇或同一作者。从数据的结构性质来看，这些来自于同一语篇的多个观测是嵌套于这个语篇的。由于主题、启动效应和作者个人一贯的文体风格等原因，同一语篇或同一作者的语料中的各个语言数据项会在一些语言特征上具有相似性、相关性，因而违反了很多统计检验分析要求的观测之间具有独立性的前提条件。有学者把这种嵌套于同一作者、语篇造成的相关性叫作单位相依性（unit dependency）（Rietveldet al.2004：352）。

第三种嵌套情况是多个索引行嵌套于同一语言项目而产生的相关。一般来说，在语料库中，一个节点词汇对应多个索引行或数据项目。在某个句法现象中，这些含有相同词汇的索引行之间会存在相依性，这也违反了统计检验要求数据项之间具有独立性的假设。当我们要研究的是一些因素对某一类词的句法行为的影响，而不是对某个特定词的句法行为的影响时，这些个别词汇多个数据项之间的相关性会对统计分析结果造成偏差。这些个性化的相关性如果不得到控制，也会影响统计检验的效力。比如，我们要研究双及物结构和介宾与格结构中接受者（recipient）和客体（theme）的信息地位、生命性等因素对与格变换的影响，用与格动词如give、send、offer、tell等作为搜索词搜索，得到语料库中全部的具有双及物结构和介宾与格结构的索引行。每个索引行是一个数据项或一个观测。我们发现每个与格动词都会出现在多个索引行之中。同一与格动词的多个索引行之间会或多或少呈现句法行为的一致性或相关性，反映了这个词句法行为的个性倾向。比如，give更倾向于出现在双及物结构中，而sell 更倾向于出现在介宾与格结构中。所以，同一动词的多个索引行之间不具有独立性。这就违反了很多统计分析、检验要求各个观察之间具有独立性的前提条件。

5.语料库数据特点对语料库数据分析方法的影响

语料库数据的上述特点，即数据点之间的不平衡性、相关性和层级嵌套结构特点，会影响和限制对语料库数据分析方法的选用。很多数据分析的方法，比如方差分析或简单线性模型，都建立在一个重要的前提条件之上，即数据点之间必须相互独立。然而，在很多的语言学研究中，数据点之间存在关联性或相关性。相关性会影响研究者对语料库分析方法的选用。比如，我们想要知道甲乙两个语料库中实义词、功能词的分布是否有所不同，我们收集了数据并制成如表1所示的列联表。

表1 甲乙两语料库中实词、功能词的分布

这种类别的频次数据看上去好像可以用于卡方检验分析。但是在语言中，一个观测（单词）的类别（是实词还是虚词）会影响下一个观测（下一个单词）是某个类别（是实词还是虚词）的概率。也就是说，这种情况中的观测之间不具有独立性。这就违反了卡方检验要求观测之间独立性的前提条件，所以，这个列联表中的数据不能用于卡方检验分析。

语料库数据的不平衡性也会限制对统计分析工具的选用。由于语料库语言数据分布的齐普夫性质，中心极限定理不能保障样本统计值的抽样正态分布。所以，用一般的基于正态分布前提假设的统计模型去估计单词等语言成分的出现概率是不可靠的，即使使用估计值的置信区间也无济于事（Evert & Baroni 2006）。例如，有实验表明，语料库中一些极其常用的词汇，如the、of等，其抽样分布比较接近于正态分布，所以对这些词汇，各种检验方法的效果都比较理想；但是大多数不那么常用的词汇，其抽样分布严重偏离正态分布，难以符合很多统计方法的要求，统计效果不好（葛诗利 2010：256）。肖忠华（2015：10）也指出，目前语料库研究中许多常用统计方法假设数据呈正态分布，而在语言运用中正态分布并不普遍。语料库语言研究中另外一个很常见的问题是比较语料库之间单词频率的差异，由于语言项目频次分布的上述特点，用t检验来比较频率差异是不合适的，而采用不依赖于任何分布的非参数Wilcoxon-Mann-Whitney 秩和检验结果就较为客观、准确（Kilgarriff 2001；葛诗利2010）。为了获得得更为精细和准确的统计结果，上述二位学者建议对语料库之间词汇特征差异的比较尽可能采用秩和检验。

针对语料库数据的层级嵌套、相关性和不平衡性的特点，语言学界现在有了另外一个比较好的应对方法——混合效应多层模型。混合效应多层模型不仅能处理各个层级的分组效应，比如语式、语域和次语域这几个由上到下的分组变量各自带来的效应，还能处理个体效应，比如每个说话者或每个词汇带来的效应。混合效应模型能有效处理各层分组内部数据项之间的相关性。相比一般线性模型，混合效应模型在处理不平衡数据时表现更加优越（Pinheiro & Bates 2000）。所以，这种模型能够应对语料库数据的特点。混合效应/多层模型的理论和建模手段已经成功地广泛应用于一些学科，像心理学、社会学、生物学等。最近几年来，混合效应模型开始在语言科学领域，包括应用语言学、心理语言学、社会语言学以及语料库语言学等分支之中得到应用。比如，在心理语言学领域，混合效应模型正在取代传统的方差分析的优势地位。Gries（2015b）指出，语料库语言学也能够像心理语言学那样从应用混合效应模型/多层模型中获益。

6.结语

语料库数据具有一些特殊的性质。语料库数据是一种自然观察性数据，并且由于自然语言数据本身固有的性质和抽样的原因，语料库数据具有一定程度的非平衡性、非随机性、非独立性和非代表性，其展现的语言特征在很多情况下不服从正态分布。语料库数据具有层级嵌套结构，因此，潜在地包含固定效应因素和随机效应因素。语料库数据的这些性质使得它不适合用基于正态分布的参数检验方法去分析。我们在解读语料库研究结果时也要持谨慎的态度。针对语料库数据的这些特质，秩和检验、混合效应层级模型等方法是目前比较好的分析语料库数据的工具。从长远来看，还需要开发新的统计手段来分析语料库数据（Evert 2006：189）。本文呼吁我国语料库研究学界重视对语料库数据性质、特点的研究和探讨，重视开发、引进和普及更合适的语料库分析工具和方法，以提高基于语料库的语言研究的质量。

注释

1.此图是本文作者根据当代美国英语语料库（COCA）（库容：4.5亿单词）的频率最高的前5000个单词的词频数据（http://www.wordfrequency.info/top5000.asp）绘制的词频-位次分布图。

2.DO结构即双宾结构，PO结构即介宾与格结构，下同。