学习理论与信息技术的完美结合——Routledge系列频率词典评介
2010-05-13王仁强
王仁强
Routledge是一家享誉全球、历史悠久的人文社会科学类图书、期刊和在线资源出版公司。自2005年以来,该公司陆续推出系列频率词典——Routledge Frequency Dictionaries。目前已出版德语、西班牙语、葡萄牙语、法语、汉语和美国英语等六个语种的频率词典,即 A Frequency Dictionary of German:Core Vocabulary f or Learners(Randall Jones&Erwin Tschirner,2005),A Frequency Dictionary of Spanish:Core Vocabulary for Learners(Mark Davies,2005),A Frequency Dictionary of Portuguese:Core Vocabulary for Learners(Mark Davies&Ana Maria de Oliveira Preto-Bay,2009),A Frequency Dictionary of French:Core Vocabulary f or Learners(Deryle Lonsdale&Yvon Le Bras,2009),A Frequency Dictionary of Mandarin Chinese:Core Vocabulary f or Learners(Richard Xiao,Paul Rayson&Tony McEnery,2009),以及A Frequency Dictionary of Contemporary American English:Word Sketches,Collocates,and Thematic Lists(Mark Davies&Dee Gardner,2010)。即将在2010年内出版的还有阿拉伯语和捷克语两个语种的频率词典。Routledge系列频率词典的主编是英国 Lancaster University的Paul Rayson教授和美国Brigham Young University的Mark Davies教授。编委会成员包括Geoffrey Leech、Michael Barlow 、Adam Kilgarriff、Barbara Lewandowska-Tomaszczyk 、Josef Schmied 、Andrew Wilson、Hongying Tao和 Chris T ribble等来自英国 、美国、德国 、波兰和新西兰的著名外语教育和语料库语言学专家,可谓阵容强大。由此可见,Routledge系列频率词典是一个多语种(涵盖联合国六大工作语言)、跨学科的国际合作项目,及时评介其编纂特色(包括其理论基础和技术实现)以及可能存在的问题与不足,不仅有助于编者进一步改进词典,便于用户更好地使用词典,同时也有助于词典学学科建设。
一、Routledge系列频率词典的编纂特色
频率词典通常作为一种相对客观的语言描写工具书,广泛应用于语言教育(尤其是外语教育)、心理语言学研究和自然语言处理等领域[1]。Routledge系列频率词典在目标定位上显然有些独出心裁:其基本定位是可供语言学习者直接使用的频率词典,并在宏观结构和微观结构的处理上尽量满足学习者的需要,具有鲜明的个性特征。
(一)定位科学,理论扎实
Routledge系列频率词典有一个非常醒目的副标题“Core Vocabulary for Learners”(供学习者使用的核心词汇),明确揭示其目标定位:在收词立目方面,并不像其他频率词典一样,试图收录一门语言的全部词汇或者绝大多数常用词汇(比如2008年11月国家语言文字工作委员会发布、商务印书馆出版的《现代汉语常用词表》就提供了56008个现代汉语常用词的频率信息),而只收录(中初级)学习者急需的5000个左右的核心词汇。
那么,这个学习型系列频率词典的定位是否科学?其收录5000个左右核心词的理论依据是什么?系列频率词典在总序中明确指出,其主要依据就是著名的语言习得理论专家Nation的研究结果。Nation的研究表明,英语中最常用的4000~5000个单词可以覆盖书面语篇词汇的95%,而最常用的1000个单词可以覆盖口头交际语篇词汇的85%。[2]Nation还强调,优先学习英语高频词对于二语或外语词汇学习特别关键。[3]Nation的研究结果也得到基于其他语种研究结果的支持。比如,Jones的研究表明,最常用的3000个德语核心词就能够涵盖各种语域的德语文本中75%至90%的内容。[4]简言之,集中精力学好5000个左右的常用词,对于中初级外语学习者解决“费时低效”的问题显得尤为重要。有鉴于此,本系列词典除了德语筛选了4034个核心词(其中涵盖部分兼类词条)之外,其他词典都选择了5000个核心词作为收录对象。这种收词定位使得Routledge系列词典不仅有助于外语学习者高效使用该系列词典,而且对于教学大纲和教材编写、中初级学习词典编纂以及语言学研究(包括心理语言学、二语习得等)都有重要的指导意义。
(二)语料新全,技术先进
正是由于高频词对于外语学习者的重要性,实际上早在20世纪20年代就有学者开始了词频表的研制工作,较有影响的如Thorndike在 1921年编写的 Teacher’s Word Book 和 West在1953年编制的General Service List of English Words,等等。但是,正如Ljung的研究所指出的那样,早期词频表因为历史局限大多是基于教材或者经典读物进行筛选的,跟实际语言应用中的词频信息存在一定偏差。[5]
Routledge系列频率词典全部都是基于最新研制的各个语种大型平衡语料库编写的(详见表1)。其中,2006年出版的A Frequency Dictionary of Spanish采用的是 Mark Davies教授在2001年获得的美国国家人文基金会(National Endowment for the Humanities)资助下于2002年完成的“Corpus del Español”(西班牙语语料库)。该语料库涵盖了12世纪到20世纪的语料,共计1亿词,其中20世纪的2000万词被用于常用词表的筛选,包括口语和书面语(其中前者占三分之一,后者占三分之二),而书面语又对小说和非小说作出区分。2006年出版的A Frequency Dictionary of German采用的是“Leipzig/BYU Corpus of Contemporary German”(莱比锡-杨百翰大学当代德语语料库),该语料库共有420万词,其中口语、文学、新闻和学术语料各占100万词,此外还包括课堂教学话语20万词,该语料库力争做到在语域、体裁、地域和年龄等方面具有代表性。2008年出版的A Frequency Dictionary of Portuguese采用的是Mark Davies教授在2004年获得的美国国家人文基金会资助下研制的“Corpus do Portuguüs”(葡萄牙语语料库)。该语料库涵盖了13世纪到20世纪的语料,共计4500万词,其中20世纪(尤其是20世纪70年代以来)的2000万词被用于常用词表的筛选,包括口语和书面语(其中前者占10%,后者占90%),而书面语又对学术、新闻和小说语料作出区分,同时还注意争取做到葡萄牙和巴西语料的地域均衡。2009年出版的A Frequency Dictionary of French采用的是最新研制的2300万词的法语口笔语语料库,全部是20世纪50年代以来的语料,其中口语和书面语语料各占 50%。2009年出版的 A Frequency Dictionary of Mandarin Chinese采用的是最新研制的5000万词的现代汉语语料库,主要收录20世纪80年代以来的语料,包括口语、小说、非小说和新闻语篇四个子库,其中口语子库包含340万词。而2010年最新出版的A Frequency Dictionary of Contemporary American English采用的则是4亿多词的“The Corpus of Contemporary American English”(当代美语语料库),该语料库收录的是1990年至2009年每年2000万词的语料,并均分为口语、小说、通俗杂志、新闻和学术语篇五个子库。
表1 各个语种语料库对比
Martin曾经指出,在语料库建设中对实际运用的语言进行分层抽样(即考虑语域、体裁、地域、时间等参数)并有效揭示词汇使用频率是频率词典编纂所面临的两大技术难题。如表1所示,Routledge系列频率词典所采用的大型平衡语料库在设计理念和技术实现方面与前人相比都有所突破。而且,每个语种的最终词表都不是直接采用语料库中的绝对使用频率进行筛选,而是采用的标准化频率(normalized frequency)。标准化频率有助于对不同规模的子库进行科学对比,计算离散系数和使用频率。与此同时,在频率词典中也给出总体的标准化频率。显然,通过这种方式筛选的频率词表才是真正能够满足学习者需要的词表。
(三)内容丰富,信息量大
从总观结构上看,系列词典至少包含了以下内容:频率索引、字母顺序索引、词类索引和分类主题词表。我们不妨以 A Frequency Dictionary of Mandarin Chinese(2009)为例,说明频率索引的微观结构:
1599 人士[人士]/rénsh ì/(3)n person,personage,public figure好几位社会知名人士出席了这位政治家的追悼仪式。Several noted public figures were present at the statesman’s memorial service.
442 0.48 212 w
频率索引包括词频、词目、词类、英语释义、一个典型例证、例证英语译文、使用语域范围等内容。词频1599是“人士”这个词的词频,方括号“[ ]”内是它的繁体汉字形式,双斜线“∥”内是拼音,“(3)”表明这个词在HSK(汉语水平考试)中属于3级词汇,“n”是它的词类标注,“person,personage,public figure”是该词的英语释义,“好几位社会知名人士出席了这位政治家的追悼仪式”是典型例证,“Several noted public figures were present at the statesman’s memorial service”是例证的英语译文 ,数字“442”是该词的标准化频率,“0.48”是其离散系数(离散度范围在0~1),数字“212”是使用率,“w”表明它的凸显使用域是书面语(该词典只标注口语和书面语)。
字母顺序索引的微观结构通常包括词目、词类、英语释义和词频信息,从而方便学习者根据拼写(或拼音)查询相关信息。为方便对比,再以“人士”为例:
人士/rénsh ì/n person,personage,public figure1599
词类索引包括主频率索引和字母顺序索引中收录的全部词目,同时在每个词类中的条目则按照频率降序排列。词类词表索引方便学习者针对特定词类进行学习。
而分类主题词表则穿插在作为词典主体内容的频率索引中,数量在21~31个,并以内容表达和使用频率有机结合的方式进一步丰富和拓展频率词典信息容量。主题内容既包括天气、食品、家庭、运动、身体、职业、时间、动物、交通、颜色等语义域频率词表,又包括各门语言中初级学习者常见的语法难点项目,还包括不同语域中的常用词(其中部分词超出频率索引5000常用词范围,方便学习者拓展词汇量)。比如,A Frequency Dictionary of Mandarin Chinese就包括水果、饮料、食品、服装、颜色、天气与装备、城市设施与商店、旅游、方向位置、城市、房屋、家用电器、电脑网络、校园生活与课程、职业、体育活动、人体(包括外貌、部位、头部细节和感觉官能)、数字系统、时间表达(包括星期、月份、季节、时辰)、中国节日、十二生肖、动物、亲属与家庭关系、心情、英语外来词、语言学习(包括句子分析和标点符号应用)、口语常用词、小说常用词、非小说常用词和新闻常用词,共计30个主题词表。表2就是该词典中按照使用频率高低排列的“fruits”主题词表,其中只有“苹果”、“西瓜”和“葡萄”三个词在5000常用词范围以内,其他均为扩展词汇。主题词表既可以作为教师延伸课堂词汇教学的绝佳材料,也可以方便学习者课余自学。
表2 A Frequency Dictionary of Mandarin Chinese中的“Fruits”主题词表
(续表)
(四)结构清晰,检索便捷
ˇCermák&Kˇren在对世界各国频率词典编纂的历史和现状进行梳理之后发现,很少有频率词典在提供降序词频表的同时还提供字母顺序词表。[6]令人感到欣慰的是,Routledge系列频率词典同时提供了三个相互关联的索引:不仅提供降序排列的词频索引,而且还提供了词类索引和字母顺序索引。词类索引可以说是Routledge系列频率词典的重要创新之一。比如,A Frequency Dictionary of Mandarin Chinese的词类索引中分别罗列了5000常用词中的1798个名词,1611个动词,562个形容词和342个副词等,这样的词类索引就非常方便学习者有选择地集中学习特定词类中的高频词。此外,分类主题词表虽然穿插在主词频索引中,但在词典前页材料中设有目录,而各个分类主题词表内部一般也按使用频率排序。检索路径的多样化可以大大提高检索效率和学习效率。
二、Routledge系列频率词典可能存在的不足
如上所述,Routledge系列频率词典是一个跨语种、跨学科的国际合作项目。由于各种主客观原因,Routledge系列词典存在如下问题:
首先,尽管作为系列词典编纂基础的语料库就某个语种而言都是最新的大型平衡语料库,但是正如表1所示,各个语料库在规模、子库分类(口笔语子库/语域子库)和语料的时间跨度等方面存在较大差异。比如,在语料库规模方面,最大的当代美语语料库有4亿词,小的如德语语料库只有420万词,前者的规模差不多是后者的100倍。对单部词典而言,即使是规模最小的德语语料库对于5000个核心词的合理筛选也不存在多大问题:Martin的研究表明,常用词频率词典编纂所依据的语料库在规模上不得低于50万词次。[7]尽管如此,这种规模和结构不一致的情况可能会在一定程度上影响基于系列词典所进行的跨语言对比研究的效度。
其次,在主频率索引的宏观结构和微观结构中,虽然单部词典作到了体例一致,但系列词典在是否提供例证英语翻译、离散系数和凸显语域的表现方式以及兼类词的处理等方面却存在不统一的情况。下面不妨以兼类词的处理为例。鉴于在倾向于分析性的语言中,词项的语法兼类与词频通常成正相关,因而频率词典无法回避的问题就是词项兼类问题的处理。研究表明,系列词典在兼类问题的处理上存在差异。比如,在汉语和当代美语频率词典中,兼类词按照其所属词类使用频率高低分立词项,即在宏观结构层面上处理兼类词问题。比如,现代汉语“过”在宏观结构上处理为助动词(词频为“75”)和动词(词频为“289”)两个条目:
0075 过[過]/gu ò/(1)aux[aspect marker indicating experience]
你去过迪斯尼乐园吗?Have you ever been to Disneyland?
5631 0.79 4464
0289 过[過]/guò/(1)v cross(road);spend(holiday,etc.);go beyond(time);go through;exceed过马路要小心。Be careful when crossing the street.
1511 0.77 1161
但是,法语、德语和葡萄牙语频率词典在微观结构上均把类似情况处理为兼类条目,但这三部词典内部处理策略也不一样。法语和葡萄牙语频率词典标注相关词目的不同词类,但不分词类进行释义。例如,在 A Frequency Dictionary of French中,词频序号为94的“bon”兼属形容词、副词、感叹词和阳性名词,但只提供了其形容词用法的英文释义:
94 bon adj,adv,intj,nm good
· Ce n’est pas le bon moment-it’s not a good time.
81 18375
而《A Frequency Dictionary of German》则把兼类词项的词类差异作为其微观结构内部的一级划分,为兼类词分别标注词类、释义和配例,如词频序号为5的“ein”兼属冠词和代词两个词类,于是在微观结构中进行二分后再分别释义和配例:
5 ein
1 art a
·In dem Auto sitzen eine Frau,ein Mann und ein Kind.
2 pron one(of)
·Der Kunstler ist einer der bekanntesten Deutschlands.
26,608
虽然两部词典对这个问题的处理各有利弊,但是比较而言,《A Frequency Dictionary of German》的处理似乎利大于弊,更具推广意义。
再者,主题词表虽然丰富实用,但从系列词典的角度看,依然存在两个方面的问题。一是主题词表的数量和范围不统一:在数量上,多的有31个主题词表,少的只有21个主题词表,让人不得不怀疑其选择标准。如果说语法难点项目主题词表的选择存在差别情有可原,但是在语义类别主题词表的选择上就不应该存在如此大的差异。二是主题词表内部成员的频率信息排序标准不一。比如A Frequency Dictionary of Contemporary American English采用的是语料库中相关词项的绝对频次高低,数字越大的频率越高,位置越靠前;而 A Frequency Dictionary of Mandarin Chinese则按相关词项在语料库相对频率高低顺序排列,数字越小的频率越高,位置越靠前。虽然单部词典自成体系,不存在问题,但从系列词典来看,就显得体例不一了。
最后,虽然Routledge系列频率词典定位是学习型频率词典,并具有广泛的应用价值,但由于其没有进行义项划分以及缺少丰富的例证,因而不论是系列词典主编还是具体的编者都不得不承认,它们既无意取代也无法取代普通学习词典,但无疑是有益的补充。
附 注
[1][7]Martin W.T he Frequency Dictionary.∥Hausmann F J.et al.An International Encyclopedia of Lexicography,1990(2).
[2]Nation I S P.Teaching and Learning Vocabulary.Boston:Heinle&Heinle,1990.
[3]Nation I S P.Learning Vocabulary in Another Language.Cambridge:Cambridge University Press,2001.
[4]Jones R L.An Analysis of Lexical Text Coverage in Contemporary German.∥Wilson A,A rcher D,Rayson P.(Eds.)Corpus Linguistics around the World.Amsterdam/New York:Editions Rodopi B.V.,2006:115-120.
[5]Ljung M.A Study of TEFL Vocabulary.Stockholm:Almqvist&Wiksell International,1990.