语料库研究的常用方法

2016-11-16孙若红

沈阳师范大学学报（社会科学版） 2016年2期

关键词：互信息频数语料库

孙若红，刘岩

（沈阳师范大学外国语学院，辽宁沈阳 110034；沈阳工程学院公共外语教学部，辽宁沈阳 110136）

语料库研究的常用方法

孙若红1，刘岩2

（沈阳师范大学外国语学院，辽宁沈阳 110034；沈阳工程学院公共外语教学部，辽宁沈阳 110136）

语料库语言学中的量化不仅仅是语言特征的简单计数，而是对复杂的数据进行精确的数学分析，从杂乱的数据中寻找规律，力求比较确切地揭示不同体裁的文本、甚至是不同语言之间真正存在的差异。语料库相关研究中应用的基本方法主要有词语索引以及频数的标准化、卡方检验、Z值、T值和M I值计算等常用的统计方法。

词语索引；频数的标准化；卡方检验；Z值；T值；M I值

语料库语言研究的主要特点是定量与定性分析相结合，因为语料库收集了大量的自然语言文本，能够为定性分析提供客观的数据支持。但语料库语言学中的量化不仅仅是语言特征的简单计数，而是对复杂的数据进行精确的数学分析，从杂乱的数据中寻找规律，力求比较确切地揭示不同体裁的文本、甚至是不同语言之间真正存在的差异，而不是因抽样导致的偶然现象，这就要用到各种不同的研究方法。因此，本文主要介绍语料库相关研究中应用的基本方法，如词语索引以及频数的标准化、卡方检验、Z值、T值和MI值计算等常用的统计方法。

一、词语索引

词语索引是最基本的语料库分析手段，大多数研究都是通过观察和分析导出的索引行来找出语言规律并对其进行解释的。那么，常用的语料库检索工具有哪些？索引行是如何呈现的？从索引行提供的语言数据中我们能观察到什么？

（一）常用的语料库检索工具

建成语料库仅仅是完成了语料的收集、整理和加工，基于语料库的调查研究必须依靠各种检索工具。目前，我国语料库研究者应用较多的检索工具主要有WordSmith Tools和AntConc，当然还有很多功能各异的专用工具或针对专门语料库设计的检索软件。WordSmith是英国利物浦大学语料库语言学家M.Scott在MicroConcord基础上重新设计的检索工具，由英国牛津大学出版社出版。该工具主要有词表（WordList）、检索（Concord）和主题词提取（KeyWord）等三大功能，提供单词或短语出现的语境和频率、文本的主题意义等信息，使研究者可以从不同角度分析词汇的运用。WordSmith受版权保护，如不购买，只能使用功能受到限制的演示版。AntConc则是一款免费软件，设计者为日本早稻田大学的Laurence Anthony，其功能与WordSmith类似，既支持简单检索，也支持利用正则表达式进行的复杂检索。

（二）索引行及其提供的语言信息

词语索引是一个被搜索词语及其所处语境的集合［1］。索引软件一般以被搜索词语为中心将索引行显示在电脑屏幕上，出现在屏幕中间的被搜索词语称作节点词（node word），有时也被称作关键词（key word）或搜索词（search word），它们左边和右边的词汇构成了它们所处的语境（见图1）。索引行能为我们提供关于语言使用的多种信息：如“典型性”“中心性”、近义词意义的差别以及意义与型式之间的关系等。

图1　词语索引行样本

传统的语言描述注重区分某种语言中“正确的”和“不正确的”话语，但却很少关注实际语言运用中哪些话语经常出现，哪些话语极少出现。语料库虽然不能而且也无法决定哪些话语是“正确的”或“不正确的”，但它能够提供关于语言使用的“中心性”（centrality）和“典型性”（typicality）方面的信息。所谓典型性是指某个单词或短语常用的意义、搭配或用法，如recipe for的典型意义是其隐喻意义，而不是字面意义。介词for后面的词汇多为名词或名词短语，它们的意义既有消极的（如disaster、trouble等），也有积极的（如successful learning、happiness、successful relationship等）或中性的（如game-bird stuffings），而且含有消极意义的名词或短语略多一些。当recipe for具有隐喻意义时，其前面的词汇通常是BE和限定词a。可见，虽然短语recipe for有一系列不同的意义、搭配和语法语境，但它的典型用法是用于“something is a recipe for something bad/good/neutral”这一型式中。

“中心性”是指某一范畴的最常用的用法，而不是单个的词汇。例如：在英语中，现在进行时表示现在（如he is listening to music at the moment）、未来（如he is leavingfor NewYork tomorrow）或不表示具体的时间（如she is always complaining）。但是，现在进行时表示未来或不表示具体时间的用法相对较少出现，所以指“现在”才是该时态的中心用法。

除了“典型性”和“中心性”等语言规律外，观察语料库中近义词的典型用法可以澄清它们之间意义上的差别。这是词典无法办到的，因为词典是分别定义词语的，而不是采用对比的方法。例如：词典对big、large和great三个近义词的定义是类似的，甚至用其中的一个词去定义另外两个词。虽然这些词表面看来意义相似，但它们的典型搭配却在很大程度上存在差异。Biber利用Longman-Lancaster Corpus对上述三个词右1搭配词的研究证明了这一点。big常用于表示实际大小，large最常用于表示数量，而great除与deal搭配表示数量外，还表示“强度”、“大小”等更广泛的意义［2］。

（三）索引行的抽样

语料库研究的优势之一是样本量大，客观性强。但是，由于语料库的规模不断扩大，我们也面临着如何处理大量语料的问题。例如：DISCUSSION在BNC中出现的频数为8 356次，索引行数为8 349行；在COCA中，其出现的频数和索引行数同为33 945，而逐一分析成千上万个索引行是不可能实现的。这时，我们需要借鉴Sinclair所倡导的对索引行进行抽样的方法。首先，任意抽取30个索引行，观察词语的使用型式；然后，再抽取30行，观察是否有新的使用型式出现；以此类推，直到没有新的型式出现为止。

BNC中DISCUSSION的前30个索引行显示，紧跟在其后面出现的词为event，of，with，by，paper；在之后的 30行中，又出现了 on，about，to，that；在61-90行中，除了已出现的部分词语外，又增加了in，document，whether。仔细分析上述90个索引行，可以总结出下面的规律：当DISCUSSION后面出现名词时（如event，paper，document），DISCUSSION作定语，限定后面的名词；DISCUSSION后面的of，on，about介词短语说明讨论的对象；with短语说明讨论的参与者；by短语引出的是讨论的主体；that和whether引导同位语从句，说明讨论的具体内容。另外两个词to与in的出现与DISCUSSION无关，to的出现是动词cut的要求，“cut…to…”表示“缩减到何种程度”，而in则出现在了短语in principle（原则上，基本上）当中。请看图1中的索引行例证。

以上分析表明，Sinclair提出的索引行抽样方法是切实可行的。我们可以通过观察少量的索引行形成初步的假设，之后再增加索引行的数量反复验证并修正假设，直到最终得出符合语言事实的结论。

二、语料库的常用统计方法

基于语料库的对比中介语分析（CIA）主要有两个研究维度：一是中介语与目的语之间的对比分析，二是中介语之间的对比分析。那么，在进行对比中介语分析时如何将定性与定量分析技术结合起来，以使研究结果更科学、更有说服力呢？

（一）描述统计

语料库中样本的存储方式是非常灵活的，可以把每个文本作为一个独立的文件存储，也可以对文本进行分类，把属于同一类型的文本作为一个文件存储。因此，对语料库所做的描述统计是指对其中每个文本、每一类文本或整个语料库的总体特征的统计。这些特征包括：文件的大小（bytes，字节数）、文件的形符数（tokens，单词的数量）、类符数（types，不同单词的数量）、类符形符比（type/token ratio）、平均词长（average word length）、句子数（sentences）、句长（paragraph length）、句长标准差（standard deviation of sentence length）、段落数（paragraphs）、段落长度（paragraph length）、段落长标准差（standard deviation of paragraph length）以及按字母数计算的单词数量（如1字母单词、2字母单词）等。应用Wordsmith的词表工具可以进行上述统计分析。

（二）频数统计的标准化

运用语料库的方法统计不同文本中某些语言特征的频率时，确保数据的可比性是非常重要的。例如：DISCUSSION一词在英国国家语料库（BNC）中出现的频数为8 356次，而在美国当代英语语料库（COCA）中出现的频数为33 945次。那么，是否可以说DISCUSSION在美国当代英语语料库中更常用呢？显然，这样的结论是错误的，因为COCA的容量约为BNC的4.5倍，DISCUSSION出现的机会更多，简单地比较原始数据无法准确地描述该词在两个语料库中的使用情况。这时，我们可以将原始数据“标准化”，也就是计算DISCUSSION在两个语料库中出现的“标准化频数”，之后就可以比较了。标准化频数的计算方法为：用检索项的实际观察频数（如8 356、33 945）除以总体频数（文本或语料库的总词数），然后再乘以1百（1千、1万、百万）得到检索项平均每百（千、万、百万）词的出现频率。

（三）频数差异检验

在基于语料库的对比中介语分析中还常常需要检验数据之间的差异是偶然的，还是具有显著性。在语料库语言学中，最常用的方法是卡方检验（chi-squared test或x2）。与其他显著性检验相比，卡方检验的主要优势在于它无需假定数据是正态分布的，而多数语言数据也恰恰不服从正态分布［3］。卡方检验的主要缺点是：当频数很小时，它的可靠性很差。所以，在计算卡方值时不能用比例数据，如百分数等。

卡方检验比较的是某个语言特征在语料库中的实际观察频数和预期频数之间的差异。预期频数与观察频数越接近，观察频数为偶然结果的可能性越大。相反，预期频数与观察频数之间的差异越大，观察频数越可能受到了非偶然因素的影响。

计算卡方值非常方便、实用的工具是梁茂成、李文中、许家金等开发的 Chi-Square Calculator。DISCUSSION在BNC和COCA中分别出现8 356次和33 945次，那么，这两个频数之间是否存在显著差异呢？只要打开上述工具的工作表，分别输入BNC和COCA的总字数，然后在数据表中输入DISCUSSION在两个语料库中的频数，就会得到如图2所示的卡方值及其对应的显著性水平的p值。

图2　DISCUSSION在BNC和COCA中出现的频数比较

图中的卡方值为70.2619，p值为0.000，说明DISCUSSION在两个语料库中出现的频率具有显著差异。

（四）Z值、T值和MI值

学习者的心理词汇不仅仅由单个的词组成，还包括更大的短语单位。因此，识别语篇中词语的共现形式和短语对自然语言处理和语言教学具有重要意义。但是，在连续的语篇中，每个词都是与其他词一起出现的，如何确认哪些共现的词语属于显著搭配而不是偶然共现呢？最常用的三个计算搭配显著性的方法是互信息值（MI值）、Z值（Z-score）和T值（T-score）。

在语料库中，一个词与另外一个词的互信息值表明两个词关系的紧密程度。换句话说，一个词只与某个词共现，而不会出现在其他词附近时，其互信息值就会非常大。反之，一个词与另外一个词共现频率很高，但与其他词的共现频率也很高，其互信息值就会很小。例如：solve与problem的共现频率高，互信息值也高，但the与problem的共现频率很高，互信息值却很低，说明the也以很高的频率出现在其他词附近［4］。Hunston提出互信息值大于“3”的搭配词为显著搭配词［5］。在BNC中，与suggestion一词构成强搭配的部分动词及其互信息值如下：refutes（9.20）、refuted（7.52）、refute（7.15）、rejects（6.15）、reject（5.11）、rejected（4.82）。这表明refute和reject的各种形式都是suggestion的显著搭配词。

图3　按Z值高低排序的搭配结果

Z值比较的是被研究词汇（节点词）周围一定语境范围内（例如：节点词右各5个词）所有搭配词的实际出现频数与它们的期望频数之间的差距。Z值越高，某一词汇与节点词之间的搭配力就越强。研究者通常把Z值定为“2”，也就是说，Z值超过2的搭配词是有显著意义的搭配词。图3是利用BFSUCollocator提取的LOCNESS语料库（TheLouvainCorpusofNative EnglishEssays）中that一词的搭配情况。

从图中可以看到，Z值较高的that的搭配词主要是动词，如argue，agree，assume，admit等，再观察含节点词和搭配词的索引行，我们发现这些动词都出现在节点词that的左侧，体现了that作为连接词引出宾语从句这一常见用法。

通过计算互信息值和Z值可以从语料库中提取“多词单位”，即我们通常所说的惯用语和多词名词短语。互信息值和Z值的另外一个作用是提取语料库中词语的一般搭配形式，进而将某一词语的不同搭配进行分组，以便确定该词的不同意义。例如：在BNC中，strong的显著搭配词主要有winds，swimmer，supporter，ties，resemblance，attachment，correlation和形容词immensely等，这些词与strong的共现频率相对较高，MI值均大于3。powerful的显著搭配词主要有lobby，tool，weapon，ally，header，locomotives和形容词immensely等，它们与powerful的共现频率和MI值也相对较高。除了形容词immensely是strong和powerful的共同搭配词外，其他搭配词似乎没有规律可循。尽管如此，上述搭配词还是体现了strong和powerful的一些细微差别，有助于提高学习者词语使用的准确性和地道性。

如果说MI值测量的是两个词语之间联系的密切程度，那么T值测量的是词语搭配的确定性，因为T值计算出的搭配词以高频词为主。T值约定俗成的临界值为“2”。Z值和T值的差异则体现在以下两个方面：1.两者在计算方法上有细小的差异，前者更为简单。2.Z值用于检验小样本时不够准确，只适用于大样本的检验；T值即可用于小样本的检验也可用于大样本的检验。但是，在语料库语言学研究中，个体数量小于30的小样本非常少见，属于大样本。所以，Z值在实际研究中更为常用。

三、结语

MI值、Z值和T值都可用于计算词语的搭配强度，但它们有各自的优缺点。MI值和Z值容易将低频词视作某一词语的强搭配词，即偏重低频词，而T值有偏重高频词的问题。因此，我们很难说哪种搭配统计方法更合理。在实际运用中，应结合研究的需要选择适当的统计方法，或兼顾不同的统计方法。

［1］Sinclair，J.Corpus，Concordance，Collocation［M］. Oxford：Oxford UniversityPress，1991：32.

［2］Biber，D.et al.Corpus Linguistics［M］.北京：外语教学与研究出版社，2000：44-52.

［3］McEnery，T.&A.Wilson.Corpus Linguistics［M］. Edinburgh：Edinburgh UniversityPress，1996：61-84.

［4］卫乃兴，李文中，濮建忠.语料库应用研究［M］.上海：上海外语教育出版社，2005：121.

［5］Hunston，S.Corpora in Applied Linguistics［M］.北京：世界图书出版公司北京公司，2006：71.

Methodology of Corpus Research

Sun Ruohong1，Liu Yan2
（1.College ofForeign Languages，ShenyangNormal University，ShenyangLiaoning110034；2.Department ofForeign Languages ShenyangInstitute ofEngineering，ShenyangLiaoning110136）

The quantitative research of corpus linguistics doesn’t mean the simple counting of language characteristics.Rather，it refers to the precise mathematical analysis of data.The purpose of such research is to reveal the differences in language use between different genres oftext or even different languages.The frequentlyused research methods include concordancing and statistical methods like standardized frequency，chi-square test，Z-score，T-score and MI-score.Concordance lines provide a variety of information about language use like“centrality”，“typicality”and the sense differences between synonyms.MI-score，Z-score and T-score are usually used to calculate the strength of collocation，but they have their own advantages and disadvantages.MI-score and Z-score are biased towards low-frequency words，while T-score are biased towards high-frequency words.Therefore，in practice，research needs should be taken into account in the selection of statistical methods，and another way out is to employ different statistical methods.

concordancing；standardizedfrequency；chi-squaretest；Z-score；T-score；MI-score

H 313

1674-5450（2016）02-0072-04

2015－10－25

教育部人文社会科学研究规划基金项目（11YJA740078）

孙若红，女，天津人，沈阳师范大学教授，主要从事语料库语言学及英语教学研究。

【责任编辑：赵践责任校对：詹丽】