二语字幕影视中高复现率低频词族的效用分析
2021-11-22王怿旦
王怿旦,金 蕾,李 炅
(江苏第二师范学院 外国语学院,南京 210013)
二语字幕影视节目是一种对语言学习很有用的情境化资源,它比阅读和听力更能有效地调动学习者的积极性,也是改善二语听力、词汇学习和阅读理解能力等强有力的教学工具[1]。二语学习者可以将字幕用作学习支架,利用字幕来提高其注意力、加强语言感知与语言表现、改善认知加工过程、巩固先前知识以及分析语言等。[2]二语字幕影视节目对国内外语言学习者而言也非常重要,因为在他们的学习环境中能直接接触的真实语境相对较少,而字幕影视恰恰是呈现目标语内容的很好资源,能够在短时间内提供大量二语视听及文本输入,并提供了视听觉、形义的有效关联或映射[3]。许多字幕影视节目对于中低水平学习者来说难度偏大,其中一个主要原因就是他们缺乏理解目标影视所需的词汇量。与阅读方面已存在大量分级读物之类资源不同,二语字幕影视方面供不同水平语言学习者使用的资源非常有限。
词汇知识是语言理解和使用的基础,是基本的自下而上的处理,语篇理解在很大程度上取决于对文本中单词知识的掌握,作为其重要指标的生词密度亦是理解度、成功推理等的重要预测因素,反过来,特定文本中既定生词密度也可用于计算所需词汇量大小,这对确定语言学习者词汇学习目标具有重要意义。研究表明,不同类型影视达到5%生词密度(即给定语篇中未知单词的比率)所需词汇宽度或词汇阈值为4 000~5 000词族加上专有名词和边缘词,而达到2%生词密度则为6 000~10 000词族加上专有名词和边缘词。[4]对于大多数二语学习者来说,4 000~5 000词族是可以实现的词汇学习目标,而6 000~10 000词族则难度较高,但不管达到哪个词汇量都需要时间。只有学习者能够理解字幕影视,字幕影视对于语言学习才具有较强的意义;只有学习者达到目标词汇量,字幕影视节目才能成为二语学习的重要输入来源。提高对字幕影视理解的一种方法是在学习前准备中预学目标字幕影视节目中的高复现率低频生词,低频词的认知难度较高,预学掌握字幕影视节目中这些低频词汇可以帮助学习者更好地理解真实的二语输入,并使得他们有信心在课堂内外使用字幕影视进行语言学习。本文主要就二语字幕影视学习中预学掌握高复现率低频词族对生词密度及语篇理解与词汇负荷(1)本文中,词汇负荷主要指在语篇中满足生词密度所需的接受性词族(即学习者能理解其意义的词族)数量或词汇量。的效用展开探讨。
一、研究问题与对象
本文旨在调查预学掌握高复现率低频词族会在何种程度上影响二语字幕影视节目或剧集中的生词密度,其对降低二语字幕影视节目生词密度与词汇负荷以及提高对字幕影视节目理解力的效用如何,即是否对受众的生词密度、词汇负荷、字幕影视理解等方面起到显著的积极作用。
本文选取《律师本色》(ThePractice)(第二季共14集)和《法律与秩序》(LawandOrder)(第一季共14集)两个英语字幕影视节目,对其28集的字幕文本进行分析。二者都属于律政类影视剧,它们以法院为背景就律师的日常工作生活展开叙述,节目的关联性必然会使得剧集中一些词汇重复出现,也包括一些低频词。每个剧集的时长均在40 min左右。其中连读缩略形式被改写成Nation[5]3-13所制BNC(British National Corpus,BNC)词表单词的形式以便于分析。例如,gonna、needa、sorta、shoulda、outta、gimme、betcha这些变体形式被分别改为going to、need to、sort of、should have、out of、give me、bet you。学习者即使掌握了符合BNC词表的拼写形式,也不意味着了解了上述形式,如学习者可能知道don’t know和because,但他们可能不懂dunno和cos。如果单词缩略比例高的话,就会影响词汇理解和语言学习。实验材料字幕文本中缩写形式占比较低,这些词占总词符的0.37%,因而它们不会对理解产生很大影响。若不做出拼写上的变动,这些词就会被归类为14 000常见词族以外的“非列表词”。
语言使用中出现率最高的2 000词族构成了对高频词与低频词的传统分界线,这是源于1953年Michael West制定的通用服务词汇表(General Service List,GSL),GSL涵盖了英语中前2 000词频最高的词族,是通用英语中最具影响力的高频词汇表之一。[6]31-36Schonell研究发现,这2 000词族涵盖了大约99%的日常表达,即掌握这2 000词族就足以进行日常交谈。[7]31-64就英语而言,这2 000词族以外的都被视作是低频词。但有些学者也做出了更细致的区分,如Nation分别将学术词汇、专业词汇从低频词中划分出来列为两个独立的类别。[8]252-267Cobb将Nation的BNC列表中的前三个层级(即3 000个最常见的词族)定义为高频词汇,其余则为低频词[9];也有少数学者建议将3 000~9 000词层级的词族划为中频词[10],高频词和中频词以外的则为低频词。本文采用Cobb的划分方式,将3 000词层级以外的词族列为低频词,主要是因为3 000词层级范围的高频词既能体现一定的词汇丰富度,对于学习者而言又是较为基础的词汇,掌握难度不大,而其余扩大非低频词或缩小高频词范围则会在一定程度上使学习者对词汇难度产生认知偏差。另外,Laufer研究表明,3 000词族是独立阅读真实材料所需的基本词汇量[11]126-132;Nation进行的一项语料库分析研究发现,英国国家语料库 (BNC)中前1 000个最常用的词族覆盖了书面文本的78%~81%,第二个1 000词层级又增加了8%~9%,第三个1 000词层级增加了3%~5%,后面的层级增加比例显著下降[12]。Schmitt基于对英国国家语料库(BNC)、当代美国英语语料库 (COCA)的频率列表的分析,对先前语料库回顾性研究以及对一些知名词典编纂者的咨询,也主张将高频词汇扩展到最常用的3 000词族。[13]高频词汇被视作二语学习者重要的知识来源,而高频词以外的低频词也为二语学习者提供了语言发展的重要支撑。目前,虽然有研究分析了低频词的使用情况,但是尚无针对高复现率低频词族展开分析。
二、研究工具与步骤
Range软件被用来对字幕文本进行分析。本文使用Nation[12]制定的14个层级的1 000词列表与Range软件确定影视节目中每个单词的复现频次及这些单词分属列表的层级。该列表是基于词族在BNC内的复现频率和频段范围。Range将14 000个词族以外的低频词归为专有名词、边缘词(如oh、ah、uh、aww、bah、mmm、shh、ouch、wow、 whew、uh-huh、hurrah、yippee等)以及非列表词(复现频率低于最常见的14 000词族)。其中,专有名词列表条目有13 000多,Range还将部分列入了非列表词族。Range软件和单词列表可以从Paul Nation的网站(http://www.victoria.ac.nz/lals/staff/paul-nation/nation.aspx)免费下载。在列表中不见的专有名词被重新归类为专有名词,并添加到专有名词总数中。
使用Range软件分析两个字幕影视节目在1~3 000层级词族以外的高复现率低频词族(包括非列表词即复现频率低于14 000词的词族),这些词族的复现频次与比例,以及影视节目中与之相关的每个层级的减量式生词密度,包括每个节目全部剧集与其中某一随机剧集的减量式生词密度。Nation[12]研究表明,与一般的词族相比,专有名词和边缘词学习负荷较低、易于掌握,学习者也能快速识别出专有名词和边缘词,所以本文在计算生词密度时也将专有名词和边缘词包括在内。
本文选择用于预学的词族复现频次标准设置为10 次,一是因为二语习得研究表明,新词10 次接触会显著增强该词的心理表征质量,在阅读与听力中,习得新词则最少需要10 次复现频次;二是因为在10 次的情况下,高复现率低频词族的数量(1%左右)是短时间内可以教授或学习掌握的数量。因此,本文将3 001~14 000层级中复现频次10次以上,列表词族与非列表词视作节目类高复现率低频词族,同时还将14集《法律与秩序》与14集《律师本色》中重叠的高复现率低频词族作为综合性律政类高复现率低频词族。
三、结果与讨论
根据字幕文本分析显示,14集《律师本色》中,51个低频词族出现了10次以上,平均复现频次为18次,其中复现频次最高的达到36次,51个低频词族的覆盖率达到1.28%。这些低频词族大多是与主题密切相关的法律专业词汇,如retroactive(追溯既往的)、force majeure(不可抗力)、malfeasance(不当行为)、attainder(剥夺公民权利)、rescission(撤销)等,一般只在法律领域使用,较少出现在日常语言中;但一些在日常语言中也有使用,如tort(侵权)、negligence(过失)、litigation(诉讼)、antecedent(先例)等。另外,约1/4的词项未涉及法律领域。而随机剧集中,51个词族中有15个在字幕文本中出现,复现频次2~7次不等,单集覆盖率达到1.17%。
表1为14集《律师本色》与随机单集的各层级词族占比与减量式生词密度情况。表1表明,14集《律师本色》共有71 896个词符,第2列显示其中各层级词符占比情况,如属于列表第一层级最常见1~1 000词族的词符占词符或形符总数的84.43%,第2、3层级的词族占比分别为4.22%和2.18%,而专有名词和边缘词分别占2.76%和1.16%。第4、5列显示的是包含专有名词和边缘词在内的减量式生词密度,即达到这些生词密度是基于观众理解掌握这些专有名词和边缘词。
由表1可以看出,最常用的4 000词族词汇量加上专有名词和边缘词能达到5%的生词密度,最常用的8 000词族词汇量加上专有名词和边缘词能接近2%的生词密度。第5列显示,如果学习者已经掌握51(占比1.28%)个高复现率低频词族,那么最常用的3 000词族词汇量加上专有名词和边缘词就能达到5%的生词密度,最常用的6 000词族词汇量加上专有名词和边缘词就能达到2%的生词密度。
表1还显示,单集《律师本色》在14个词表层级中的词族(含专有名词和边缘词)在包含或不包含高复现率低频词族情况下的减量式生词密度。该随机单集共有5 132个词符。第3列显示其中各层级词符占比情况,如属于列表第1层级最常见1~1 000词族的词符占词符或形符总数的85.01%,第2、3层级的词族占比分别为5.02%和1.21%,而专有名词和边缘词分别占2.08%和0.54%。第6、7列显示的是包括专有名词和边缘词在内的减量式生词密度。表1表明,最常用的4 000词族词汇量加上专有名词和边缘词能达到4.86%(<5%)的生词密度,最常用的10 000词族词汇量加上专有名词和边缘词则能达到1.85%(<2%)的生词密度。第7列显示,如果学习者已经掌握51个高复现率低频词族,那么最常用的3 000词族词汇量加上专有名词和边缘词就能达到4.72%(<5%)的生词密度,最常用的 7 000词族词汇量加上专有名词和边缘词就能达到1.72%(<2%)的生词密度。
表1 14集《律师本色》与随机单集的各层级词族占比与减量式生词密度
在14集《法律与秩序》中,复现频次10次以上的低频词族有52个,平均复现频次为17次,其中复现频次最高的达到32次,52个低频词族的覆盖率达到1.31%。这些低频词族也大多是与主题密切相关的法律专业词汇。52个低频词族中的21个也在《律师本色》中出现,这表明两个影视节目中的词汇有显著的重叠。在随机选择的《法律与秩序》单集中,52个中有16个词族在字幕文本中出现,复现频次2~6次不等,单集覆盖率达到1.21%。
表2为14集《法律与秩序》与随机单集的各层级词族占比与减量式生词密度情况。表2显示,14集《法律与秩序》共有71 312个词符,第1列表明其中各层级词符占比情况,如属于列表第1层级最常见1~1 000词族的词族占词符或形符总数的85.12%,第2、3层级的词族占比分别为4.34%和2.94%。总体而言,随着层级升高词族比例持续下降,而专有名词和边缘词分别占1.2%和0.44%。第4、5列分别显示了包括与不包括52个高复现率低频词族(含专有名词和边缘词)情况下的减量式生词密度。表2表明,若掌握专有名词和边缘词,最常用的 4 000词族词汇量能达到5%的生词密度,最常用的9 000词族词汇量则能达到2%的生词密度。第5列显示,如果学习者已经掌握52个高复现率低频词族(占比1.31%),那么最常用的3 000词族词汇量加上专有名词和边缘词就能达到5%的生词密度,最常用的5 000词族词汇量加上专有名词和边缘词就能达到2%的生词密度。
表2 14集《法律与秩序》与随机单集的各层级词族占比与减量式生词密度
表2还显示,单集《法律与秩序》在14个词表层级中的词族(含专有名词和边缘词)在包含或不包含高复现率低频词族情况下的减量式生词密度。该随机单集共有5 218个词符,其中低频词族占比1.21%。第6列显示其中各层级词族占比情况,其中前3个层级是占绝大部分。从第6列可以看出,在不含高复现率低频词族的情况下,达到5%的生词密度需要掌握最常用的4 000词族词汇量加上专有名词和边缘词,达到2%的覆盖率则需要掌握最常用的10 000词族词汇量加上专有名词和边缘词。如果学习者已经掌握高复现率低频词族,那么最常用的3 000词族词汇量加上专有名词和边缘词就能达到4.63%(<5%)的生词密度,最常用的7 000词族词汇量加上专有名词和边缘词就能达到1.81%(<2%)的生词密度。
14集《律师本色》与14集《法律与秩序》中的高复现率低频词族中,有近2/5重叠,这21个词族平均复现频次为27次,其中复现频次最高的达到54次,对于学习者而言,在学习时间较短的情况下,这样的律政类综合性词族词汇量大小适合、易于掌握,因此以下将进一步对此类词族的效用展开分析。
表3显示了这28集的《法律与秩序》和《律师本色》中综合性律政类高复现率低频词族在总词符中的占比以及在包含专有名词和边缘词或包含专有名词和边缘词及高复现率低频词情况下的生词密度。
表3 所有剧集中各层级词族占比与综合性律政类高复现率低频词族的减量式生词密度
21个词族占1.03%的覆盖率。从第3列可以看出,在不含高复现率低频词的情况下,达到5%的生词密度需要掌握最常用的5 000词族词汇量加上专有名词和边缘词,达到2%的生词密度则需要掌握最常用的10 000词族词汇量加上专有名词和边缘词。从第4列可以看出,如果包含高复现率低频词,那么最常用的4 000词族词汇量加上专有名词和边缘词就能达到5%的生词密度,最常用的8 000词族词汇量加上专有名词和边缘词就能达到2%的生词密度。
表4对比了《律师本色》14集与单集中的减量式生词密度。14集的《律师本色》中,21个综合性律政类高复现率低频词族共出现1 446次,占《律师本色》中总词符的1.01%,这比节目类低频词族的占比少了0.27%。对于节目类低频词族与综合性律政类低频词而言,3 000或4 000词族词汇量就能够达到5%的生词密度,而若要达到2%的生词密度,节目类低频词族需要6 000词族词汇量,综合性律政类低频词则需要8 000词族词汇量。综合性律政类低频词族21个中的7个出现在了《律师本色》的随机单集中,共计15次,占单集词符的0.76%,这比节目类低频词族少0.25%。对于节目类低频词族与综合性律政类低频词族而言,3 000或4 000词族词汇量单集就能够达到5%的生词密度,而若要达到2%的生词密度,节目类低频词族需要7 000词族词汇量,综合性律政类低频词族则需要8 000词族词汇量。
表4 《律师本色》14集与单集中的减量式生词密度
表5对比了《法律与秩序》14集与单集中的减量式生词密度。14集的《法律与秩序》中,21个综合性律政类高复现率低频词族共出现1 483次,占《法律与秩序》中总词符的1.05%,这比节目类低频词族的占比少了0.26%。对于节目类低频词族与综合性律政类低频词而言,3 000或4 000词族词汇量14集就能够达到5%的生词密度,而若要达到2%的生词密度,节目类低频词族需要5 000词族词汇量,综合性律政类低频词则需要8 000词族词汇量。综合性律政类低频词族21个中的8个出现在了《法律与秩序》的随机单集中,共计17次,复现频次1~4次不等,占单集词符的0.92%,这比节目类低频词族少0.29%。对于节目类低频词族与综合性律政类低频词族而言,3 000或4 000词族词汇量单集就能够达到5%的生词密度,而若要达到2%的生词密度,节目类低频词族需要7 000词族词汇量,综合性律政类低频词族则需要8 000词族词汇量。
表5 《法律与秩序》14集与单集中的减量式生词密度
可见,低频词族对生词密度影响主要体现在其覆盖率与词汇要求方面。
首先,在14集《律师本色》和14集《法律与秩序》中,节目类低频词族的覆盖率分别为1.28%和1.31%,综合性律政类低频词族的覆盖率分别为1.01%和1.05%。随机单集中,节目类低频词族的覆盖率为1.17%和1.21%,综合性律政类低频词族的覆盖率分别为0.76%和0.92%。通过低频词族与常见词族列表的比较可以看出掌握高复现率低频词族的积极意义。在《律师本色》中,节目类低频词族中的51个词族占词符总数的1.28%,这比3 001~14 000词族列表中任何一个层级的比例都高。单集中,《律师本色》节目类低频词族覆盖率为1.17%,也不比3 001~14 000词族列表任何一个层级的比例低。由此可见,对于整季14集和单集这两组,只有列表的前3个层级词族在词符中占比较高。《法律与秩序》的节目类低频词族的覆盖率比4 001~14 000词列表中任何一个层级的都高,在词符中占比也更高。《法律与秩序》中,52词项占词符数的1.31%,低于4 000词层级的覆盖率1.76%,但比5 000词层级覆盖率0.89%更高。事实上,节目类低频词族提供了与4 001~6 000词族(1.43%)近似的覆盖率。在《法律与秩序》单集中,节目类低频词族的覆盖率达到1.21%,超过了3 001~4 000词族的覆盖率(0.97%)。21个词族组成的综合性律政类低频词族在所有剧集中的覆盖率1.03%要高于5 000词列表的覆盖率(0.98%)。它在14集《律师本色》的覆盖率1.01%高于5 000词列表的0.98%,单集覆盖率为0.76%高于7 000词列表的0.64%,但低于6 000词列表的0.87%。14集《法律与秩序》中,综合性律政类低频词族的覆盖率为1.05%,高于5 000词列表的0.98%;《法律与秩序》单集中,综合性律政类低频词族的覆盖率为0.92%,高于6 000词列表的0.87%。低频词族的覆盖率越高,生词密度就越小,二语学习者对字幕影视节目的理解力就越强。因此,借助不同类型低频词族和词族层级列表覆盖率之间的比较,表明预学高复现率低频词族对理解有积极意义,其效果甚至优于掌握3 001~14 000层级中一个或多个层级的词族。
其次,对低频词族的掌握可以显著降低生词密度,进而大大降低学习者的词汇负荷。不同类型低频词族可以在3 000词层级将生词密度降低到5%或非常接近5%。调查结果表明,加入节目类低频词族后,14集《律师本色》在3 000词层级的生词密度从5.25%降至3.94%,而引入综合性律政类低频词族后降至5.02%;《律师本色》单集在加入节目类低频词族后,在3 000词层级的生词密度也从6.03%降至4.72%,而引入综合性律政类低频词族后,则降至了5.04%。加入节目类低频词族后,14集《法律与秩序》在3 000词层级生词密度从5.96%降至4.65%,而引入综合性律政类低频词族则降至5.05%;《法律与秩序》单集在加入节目类低频词族后,在3 000词层级的生词密度也从5.84%降至4.63%,而引入综合性律政类低频词族后,则降至了5.07%。加入节目类低频词族后,14集《律师本色》与《律师本色》单集各自在6 000和7 000词层级达到2%的生词密度最佳阈值,分别为1.52%与1.72%;加入综合性律政类低频词族后,均在8 000词层级达到2%的生词密度最佳阈值,分别为1.93%与1.95%。加入节目类低频词族后,14集《法律与秩序》与《法律与秩序》单集各自在5 000和7 000词层级达到2%的生词密度最佳阈值,分别为2.00%与1.81%;加入综合性律政类低频词族后,均在8 000词层级达到2%的生词密度最佳阈值,分别为1.95%与1.97%。结果表明,在3 000词层级,高复现率低频词族的加入可以使学习者从一个难以达到足够理解的生词密度降至一个能实现或非常接近足够理解的最大阈值5%,这比先前研究中字幕影视达到5%需要的最低词汇量要求(4 000词族)还要低一个层级。可见,掌握高复现率低频词族是提升对字幕影视理解的有效手段。而要达到生词密度2%最佳阈值,掌握高复现率低频词情况下,词汇量要求从5 000~8 000不等,而在不包含高复现率低频词族的情况下词汇量要求高达7 000~10 000词,相比之下,词汇量要求范围层级明显下降,高复现率低频词显著降低了学习者的词汇量要求。节目类低频词族对降低生词密度的效果要优于综合性律政类低频词族,主要原因在于前者是后者的基础,其涵盖范围更大,对学习者学习认知的要求更高、理解负荷更小。而二者都能在很大程度上降低字幕影视的生词密度,特别是在3 000词层级,差别并不明显,都能使生词密度低至5%左右,在这个层级预学综合性律政类低频词族具有更强的优势与效率。
总之,高覆盖率低频词族往往是学习者尚未掌握而又要在学习中有必要增加的词汇,其针对性、实用性强,将低频词学习显性化、强化,能使字幕影视节目更易被二语学习者理解接受。它能够降低足够理解字幕影视所花费的时间、词汇量并增强理解,能够降低字幕影视发挥作用所必需的词汇量,同时也可以使学习者接触难度更高的材料。因此,在二语字幕影视教学过程中,教学材料设计者、教师,甚至学生都可以基于Range或 Text Mechanic等词频分析软件对字幕文本预处理,快速有效地构建高复现率低频词族词库并展开预教或预学,使学习者提前掌握这些重要词汇,达到足够理解所需的词汇量,从而在观看二语字幕影视过程中更多侧重内容意义。另外,在使用这些词族词库的过程中,还可对其不断进行细化与完善,如可根据词汇负载和难度进行分级等。
四、结语
预学掌握高复现率低频词族,是一种降低生词密度、促进理解的有效手段,它能为字幕影视学习领域和环境提供非常有针对性和有用的词汇教学路径。掌握最常用的3 000词族,加上高复现率低频词族,二语字幕影视节目的生词密度会显著降低,有效降低学习者的词汇负荷,从而为他们实现足够理解及附带性词汇习得提供有力支撑。值得注意的是,二语字幕影视节目中高复现率低频词族对生词密度的效用可能会因节目、剧集不同而有所差异,综合性低频词族的适用性要强于节目类低频词,一些高复现率低频词族特别是节目类低频词可能对某节目或剧集特别有用,而对另一节目或剧集的用处会相对较小。此外,二语字幕影视与阅读、听力等一样,都是具有一定个体性的学习活动,而且词汇量只是影响理解的要素之一,即使学习者拥有足够的词汇量、达到极低的生词密度,也并不一定能完全理解,也可能会因视频对话/字幕速度、生词的语境或视频支持度、听觉词汇量与视觉词汇量的不协调性、背景知识、体裁、冗余信息量等对影视节目的理解产生困难。未来研究可进一步扩大数据范围并拓展至实证研究。