APP下载

基于依存树库的语言计量特征对比分析——以乔治·华盛顿和唐纳德·特朗普就职演说为例

2019-06-03王巧林李雯雯

关键词:唐纳德词类乔治

王巧林,李雯雯

(北方民族大学 外国语学院,银川 750021)

美国自建国以来,总统就职演说成为历史沿袭的重要标志之一。历届总统的就职演说,可谓是“绮丽以艳说,藻饰以辩雕”,具有较高的文学和艺术审美价值[1]。历届总统借助就职演说这把利剑分析事实、评价历史,并用精湛的言辞技巧向民众传达未来的施政纲领,以获得更多的民众支持。目前,我国学者对美国总统就职演说的研究在数量、层次和深度等方面较为有限。在CNKI中国学术期刊网络出版总库中以“美国总统就职演说”为关键词进行检索,发现较多的研究是对个别总统演说词的修辞隐喻、主题词、文体风格[2-6]等方面的研究与分析,从依存句法角度对美国总统就职演说的语言特征进行量化对比分析的尚有不足。

因此,本文基于语料库研究方法,以依存语法为理论框架,从依存距离分布和主、宾、定、状语的词类构成角度,对美国首任总统乔治·华盛顿和现任总统唐纳德·特朗普的就职演说进行量化对比分析,旨在探索依存距离的长短能否反映文本复杂度,哪些词类可以充当主语、宾语、定语和状语,哪些词类在充当主语、宾语、定语和状语时有助于对文本内容的理解。

一、语料与方法

语料库是自然语言处理必不可少的工具,树库是经过句法标注的语料库。基于依存树库研究方法可以在大规模真实语料的基础上,通过实证研究方法帮助我们更好地研究语言的结构特征,发现人类语言的普遍规律。因此,本文运用定量与定性相结合的研究方法,基于依存树库对美国首任总统乔治·华盛顿和现任总统唐纳德·特朗普就职演说的语言特征进行了量化的对比分析。

本文所选语料为:1.1789年4月30日美国首任总统乔治·华盛顿就职演说的英语版本(http://www.presidency.ucsb.edu/inaugurals_words.php.);2.2017年1月21日美国新任总统唐纳·特朗普就职演说的英语版本(http://www.presidency.ucsb.edu/inaugurals_words.php.),分别以纯文本形式建立语料库1和语料库2,其语料信息如表1所示:

表1 乔治·华盛顿和唐纳德·特朗普就职演说词描述

二、数据与讨论

工作记忆是限制人脑理解和语言处理的关键因素,Yngve用深度假说来阐释句法复杂性即句子理解难度与人类认知机制之间的关系[7]。依存关系中依存距离是衡量语言复杂性的一个指标。依存距离是指一个依存关系中的两个词之间的序号之差,在一定程度上可以反映出句子的理解难度。人类在分析和理解句子时,句中的词被不断地储存进工作记忆中,只有当一个词的支配词出现时,这个词才能被从工作记忆中删除[8]。这就表明,依存距离越小,人类在处理信息时认知负荷越小,句法复杂性越低;而依存距离越大,人们在处理信息时的认知成本或认知消耗越大,当认知负荷超过人类短期工作记忆容量(7±2)时,就会造成句子理解困难。因此,本文通过计算语料库1与语料库2中每种关系的依存距离并画出时序图,以便我们更清楚的了解树库中整体依存距离分布状况:

图1 语料库1和语料库2的依存距离分布

语料库1和2的依存距离时序图呈现了整个树库的依存距离分布,可以清楚地看到语料库1波动幅度较大,一部分数值在0轴上下波动, 一部分数值在50-100之间波动,分布相对分散,依存距离正值最大值为147,负值最大值为-105;而语料库2波动幅度相对较小,绝大部分数值围绕0轴上下波动,大致在0-20之间密集分布,只有少部分数值起伏较大,依存距离正值最大值为70,负值最大值为-57。由此,可以得出语料库1的文本难度要高于语料库2。这是因为依存距离在0轴上下分布越密集,支配词与从属词之间的线性距离越小,它们更倾向于相邻地在句子中依次出现,此时,句子更容易加工;而波动幅度越大,分布越分散,就表明支配词与从属词在句子中的线性距离越大,即从属词与支配词之间有更多的词存在。随着句长增大,依存关系之间的组配关系变得逐渐复杂,进而造成句子理解难度增大。这与Gibson的依存定位理论(Dependency Locality Theory, DLT)相契合,即:从属词和支配词线性距离越大,整合难度就越高,对工作记忆容量的消耗越大[9]。在此基础上本文也计算了语料库1与语料库2的平均依存距离,分别为4.25和3.24,表明乔治·华盛顿的就职演说词比唐纳德·特朗普就职演说词的平均依存距离更大,理解难度更高。

除了对语料库1和语料库2的依存距离和平均依存距离统计之外,本文也对其绝对依存距离分布模式进行统计,发现语料库1的绝对依存距离值为1的数量为755个,占整个树库的54.08%,略占优势,当绝对依存距离值≦12时,数量为1 330个,达到整个树库的95.27%,占绝对优势;语料库2的绝对依存距离值为1的数量为757个,占整个树库的55.87%,略占优势,当绝对依存距离值≦8时,数量为1 297,达到整个树库的95.72%,占绝对优势。因此,通过计算语料库1和语料库2的绝对依存距离分布模式,本文得出唐纳德·特朗普就职演说词比乔治·华盛顿的就职演说词具有更小的依存距离,理解难度更容易。近年来的一些研究揭示了人类句法机制偏爱依存距离倾向于最小化的线性语序[10]。齐普夫于1949年在《人类行为与省力原则—人类生态学引论》中提出“省力原则”,这一原则是人类进行言语行为和一切社会活动的根本准则。人们在进行言语表达时越来越倾向于使用较小的依存距离,这种依存距离最小化的倾向是基于“省力原则”的。依存距离最小化是人类语言的普遍规律,已在几十种语言中被证实[11]。可见,乔治·华盛顿和唐纳德·特朗普的就职演说词都遵循了依存距离最小化的规律。但是,当绝对依存距离超过30时,语料库1比语料库2所占的百分比大大增加,语料库1所占比例为1.43%,而语料库2仅占0.15%,说明语料库1中的平均依存距离要远远大于语料库2,提升了句子结构的复杂性和加工难度。

句子的平均依存距离和句长有关[12],句子的平均依存距离能够预测句法难度[8,13]。通过整个树库依存距离的分布,可以得出句子越短,依存距离越小,句子信息更容易处理;反之,句子越长,依存距离越大,尤其当依存距离超过100时,会造成严重的理解困难。乔治·华盛顿的演讲词中句式复杂,大量运用排比和复杂句式,使得依存距离长,理解难度大;唐纳德·特朗普的演讲词中句式灵活多变,依存距离短,理解难度小,表明唐纳德·特朗普的就职演说词的难度比华盛顿的难度低,更倾向于使用简化的语言。总统就职演说的听众涉及社会各个阶层,语言过于复杂或口语化,都会影响其演讲效果。因此,本文认为在政治演讲语篇中,适当减小依存距离符合省力原则和依存距离最小化规律,易引起听众的共鸣,能达到让听众刻骨铭心的效果。

除此之外,本文还对主语、宾语、定语和状语的词类构成进行统计与分析,如下表所示:

表2 句法成分的词类构成(主语)

表3 句法成分的词类构成(宾语)

表4 句法成分的词类构成(定语)

表5 句法成分的词类构成(状语)

从表2可知,语料库1与语料库2中构成主语的词类大体一致,但其词类的分布频率却相差较大。语料库1中构成主语的名词和代词出现的次数相同,为30次,占比均为34.48%。并且构成主语的词类,除了名词和代词所占比重较大之外,Wh-词的地位也不容小觑,占22.99%的比重。而在语料库2中,代词出现70次,名词出现52次。Wh-词仅出现了3次,所占百分比分别为37.41%、50.36%和2.16%。在两个语料库中,Wh-词出现的频率相差较大,这是因为Wh-词(which, that, what, who)越多,代表长难句越多,句式结构越复杂。因此,Wh-词所占的比例在一定程度上可以反映出文本的难易程度。

表3显示,语料库1与语料库2中,宾语的主要词类构成是名词,其次是代词。但是通过表2可以发现语料库1中Wh-词(which, that)有较强的充当宾语的能力,比重为25%;而语料库2中,Wh-词仅出现了一次,占比1.02%,可忽略不计。从Wh-词构成宾语所占比重,同样可以得出语料库1长难句多,人们在处理信息时的认知负荷大;语料库2句式相对简单,易于理解。

表4表明,语料库1和语料库2中,作定语的词类构成,包括形容词、代词和介词短语(of结构),三种词类的比重都较大。但语料库1中,形容词作定语比语料库2高出近10个百分点,语料库2中形容词性物主代词的使用比语料库1高出近16个百分点,而介词短语在语料库1中比语料库2高出5个百分点,可见,乔治·华盛顿演讲词的限定语十分丰富,用词严谨,理解难度相对较大;而唐纳德·特朗普的演说词,用词相对简单,通俗易懂。邓耀臣与冯志伟]曾指出人类的惰性和大脑信息处理能力的有限性使说话者在言语交际过程中倾向于选用短小、简单的词汇表达特定意义以节省力量消耗,这种行为直接导致这些短小词汇在语篇中的使用频数增高[14]。

从表5状语的词类构成来看,语料库1与语料库2介词短语作状语和副词作状语都有着举足轻重的地位。语料库1中,介词短语作状语的比重为56.05%,略占优势;副词作状语所占比重为27.39%,动词仅占3.18%。而语料库2中,副词作状语占51.37%,介词短语作状语的比重为40.41%,动词占2.05%。从状语的统计数据可以看出副词在充当状语这一功能上并不完全占有优势,这一点在乔治·华盛顿和唐纳德·特朗普的总统就职演说词中存在较大的差异。在语料库2总统就职演说中,副词和介词短语作状语成分几乎可以平分天下,而在语料库1中,介词短语作状语比副词作状语出现的次数更为频繁。副词常限制修饰动词、形容词性词语,表示程度、范围、时间等意义;汉语介词与英语介词都是一种表达关系意义的虚词,它们的作用都在于引出与动词或形容词、名词、代词等相关的对象(施事、受事、与事、工具)以及处所、时间等[15]。副词和介词短语都起到修饰限定和解释说明的作用,但是副词的概念相对模糊、笼统而介词短语能较清楚的引出较具体的内容。从这一点上,可以推断出乔治·华盛顿的就职演说词更为清晰明了,对演讲的具体内容交待地较为具体详实。

因此,通过对构成主语、宾语、定语和状语的词类统计与分析,就主语和宾语词类构成统计而言,可以推断出乔治·华盛顿的就职演说词难度高于唐纳德·特朗普的就职演说词;在定语的词类构成上,乔治·华盛顿的就职演说用词严谨,唐纳德·特朗普的就职演说用词相对简单、容易;在状语的词类构成上,乔治·华盛顿的就职演说词更为清晰明了,对演讲的具体内容交待地较为具体详实。

三、结语

本文基于依存树库对美国首任总统乔治·华盛顿和现任总统唐纳德·特朗普的就职演说从依存距离分布和主语、宾语、定语和状语的词类构成上进行计量对比分析。得出以下结论:1.句子越短,依存距离越小,文本信息更容易处理;反之,句子越长,依存距离越大,文本信息处理难度越大。乔治.华盛顿的演讲词句子复杂,使得平均依存距离长,理解难度较大;唐纳德.特朗普演讲词中句式灵活多变,平均依存距离短,理解难度较小。2.在构成主语和宾语的词类中,Wh-词在一定程度上可以反映出语篇的难易程度,Wh-词出现的频率越低,语篇句式越简单,信息越易加工;Wh-词出现的频率越高,语篇句式越复杂,信息越难加工。形容词、代词、介词短语在作定语时所占比重都较大,但乔治.华盛顿的演讲词中形容词作定语使用频率高,而唐纳德.特朗普的演讲词中形容词性物主代词使用频率较高。从状语的统计数据,可以看出副词在充当状语这一功能上并不完全占有优势。通过计量特征的对比分析,本文得出语言的计量特征对比分析有助于对文本内容的理解以及对文本复杂度的判断。

猜你喜欢

唐纳德词类乔治
谁借的书最多?
用词类活用法扩充词汇量
核外交:唐纳德·特朗普有可能毁了数十年来的核军备控制
基于语料库“隐秘”的词类标注初步探究
从成语中学习词类活用
老板的故事 唐纳德·斯特林 吝啬鬼侧写
乔治的宇宙大爆炸
游乐场(上)
基于“字本位”理论再谈汉语词类问题
乔治和他的斧子