英语主语位置与句法复杂度的研究
2014-04-02于洋
于洋
摘 要:本文选取ICE-GB语料库书面英语部分(ICE-GBW),运用计量语言学理论和方法,对英语句子中主语位置和句法复杂度进行研究。研究结果表明句法复杂度与句子结构符合Wimmer & Altmann模型,句法复杂度是主语位置的函数,且可用线性回归方程来表示。
关键词:语料库;主语位置;句法复杂度;计量语言学;数学模型
1 引言
Quirk[1]指出句子是句法研究中最重要的语言单位。在句法研究中语言学家在不同的理论框架下采用定性、思辨(普通语言学)或代数、集合、图论、数理逻辑(形式语言学和数理语言学)等静态方法研究句子的结构、句子成分和它们之间的关系。刘海涛[2]采用另外一种句法研究采用动态的方法,利用真实文本的量化数据来描述或揭示语言系统及其组成单位相互关系,使用概率论、随机过程、微分方程、函数论等统计的、非离散的数学定量方法来表示这些语言现象之间的动态关系,系统地描述并用公式化的定律来解释这些现象。这种方法属于计量语言学范畴。语言结构的长度与其句法复杂度呈正相关,是计量语言学中一个重要的测量指标,基本反映了语言系统自调整和自适应的属性。在计量句法分析上,句子成分的位置是另一个重要的计量概念。Fan, Grzybek and Altmann[3] 研究了单词长度(按音节划分)和其相对应的句子位置的关系,研究发现处于句尾的单词的平均长度大于句首单词的平均长度。
本文运用计量语言学的理论和方法,研究句子中主语位置与句子复杂度的关系。在本研究中,主语是指主句的主语,在并列句中是指第一分句的主语。句子复杂度的测量方法有三种:第一,基于直接成分的数量, K?hler[4]认为在句子层面上,直接成分就是分句;第二,基于短语的数量;第三;基于单词的总数。本文将使用第二种方法,统计短语句法功能成分的数量。主语是句子的主旨或者主题,一般承载已知信息,句子围绕主语展开。信息在句子中分布一般是已知信息在前,新信息在后,动词在已知信息和新信息之间。如在Peter got a new job yesterday句中,对听者来说Peter为已知信息,而a new job yesterday则为新信息。新信息通常需要更加详尽的说明,因此导致英语句子的尾重。
2 数据处理
本研究使用了ICE-GB当代英国英语语料库书面英语部分(ICE-GBW),包含200个文本,总计400,000单词。这些文本有句法和词性标注。
在本句中,PU,CL(main,intr,pres)为语法分析单位的起始代码,不是句子的成分。由于本文采用具有句法功能的短语(下述用PSFE表示)数量计算句子复杂度,因此单词、标点符号及其标注代码忽略不计。上述句子中一共有17个PSFE(除了最开始的句法分析单位(PU,CL(main,intr,pres):
A,PP(); PC,NP(); NPPR,AJP(attru); SU,NP(); DT,DTP(); NPPO,PP(); PC,NP(); VB,VP(intr,pres,perf); FNPPO,CL(depend,zrel,montr,pass,edp); SU,NP(); VB,VP(montr,edp,pass); A,PP(); PC,NP(); NPPR,AJP(attru); NPPO,PP(); PC,NP(); DT,DTP().
例如:A,PP()为介词短语其句法功能为状语;PC,NP()为名词短语,句法功能为介词补语;NPPR,AJP(attru)为形容词短语,句法功能为定语;SU,NP()为名词短语,句法功能为主语等。句子的主句主语(SU,NP())从句首算起处于句子PSFE的第四位,所以其位置值为4,由于本句有17个PSFE,其句子复杂度值为17。
3 结果与分析
ICE-GBW中句子总数为20,530。这些句子包括了381,819个PSFE,具有36种不同的句法功能,图1为这些PSFE的分布。
ICE-GBW句子的平均句子句法复杂度值为18.5981,由PSFE的总数381,819除以句子的总数20,530得出。句子句法复杂度的中值为17,众值为14。其复杂度值的区间为1到95。句法复杂度值处于1到10之间的句子占总句子数的27%,为5,471;句法复杂度值处于11到25之间的句子占句子总数的50%,为10,318;句法复杂度值处于26到99之间的句子占句子总数的23%,为4,741。在20,530个句子中,33个句子的句法复杂度为1, 2个句子的句法复杂度值95。句子句法复杂度和句型数量的关系可
4 结论
本研究结果表明,ICE-GBW中PSFE有着36种不同句法功能,前十位频次最高的(按降序排列)为:DT, VB, PC, A, SU, NPPO, CJ, NPPR, OD, CS。尽管主语的位置极其重要,但却排在第五位。句子句法复杂度和句型数量的关系可以用Wimmer & Altmann数学模型来表示。主语可以出现在句子中46个不同的位置,但是最主要的位置仍然是句子的前部。句子的主语位置是句子复杂度的一个指标,主语位置越靠后,句子的句法复杂度就越高。这种关系可以用线性回归模型来表示。这种现象除了修辞和文体的原因外,主要是受英语句子尾重和新旧信息在句子分布原则所影响。
参考文献
[1] Quirk, R., Greenbaum, S., Leech, G. & Svartvik, J. A comprehensive grammar of the English language[M]. Longman Group Limited: New York. 1985:47
[2] 刘海涛,计量语言学:语言研究的科学化途径[N],光明日报,2012-02-14
[3] Fan, F., Grzybek, P., Altmann, G. Dynamics of word length in sentence [M]. Glottometrics 20, 2010:70-109
[4] K?hler R. Quantitative syntax analysis [C]. Walter de Gruyter GmbH & Co. KG:Berlin/Boston, 2012
[5] Wimmer, G. & Altmann, G. Towards a unified derivation of some linguistic laws [M]. In: Grzybek, P. (ed.). Contributions to the science of language: Word length and related issues: 93-117. Boston: Kluver. 2005