语料库驱动词典学、语料库词典学与语料库辅助词典学
2016-05-14撰薛梅
撰薛梅
摘要近年来,随着语料库在各项语言研究及词典编纂实践中的广泛运用,出现了“语料库驱动词典学”或者“基于语料库的词典学”的说法。文章论述了语料库与词典编纂的辩证关系,讨论了语料库在注释专科术语词条时的局限性,认为“语料库辅助词典学”的说法较为准确地描述了语料库与词典学的关系。
关键词语料库词典编纂术语注释
一、 前言
半个世纪之前,第一个电子语料库付诸使用,语言学界与词典学界的争论也随之而来。有的学者很快接受了这种便利的新资源,但也有相当一部分学者对这种新资源持怀疑态度。Lees(1962: 100)认为语料库分析“纯粹是浪费时间、耗费政府钱财”,而Itkonen(1976: 65)也称此为“多此一举”。Lees(1962: 110)称: “英语本族语者在十分钟之内说出的语法点要比几百万字的随机文本多得多。”
许多早期从事语料库理论和实践研究的学者,例如Francis(1979)反驳了Lees和Itkonen的保守观点。时至今日,语料库已经广泛地用于各类语言学研究和词典编纂。词典学家们能够从大型语料库中更迅速、便捷地获取和挑选数据。与之前的方法相比,语料库提高了词典学家们的工作效率,也有助于提高词典的质量。这和Lees在半个世纪前对语料库的看法截然不同。许多学者,例如Sinclair(1987),Atkins & Rundell(2008: 45—96),Hanks(2012a,b)和Bergenholtz & Agerbo(2014)都展示了如何利用语料库编纂词典。他们所提出的利用语料库编纂词典的许多方法都受到了批评。这些批评对于一个不断发展的学科来说很正常,更无法否认语料库对词典学研究和实践的价值。
不过,所谓的“词典学界掀起了语料库革命”(Hanks 2012a)的说法有些言过其实,甚至会阻碍某些词典编纂活动。Lees和Itkonen的说法尽管武断,但至少就专科词典学而言还是有几分道理的。在专科词典学领域,需要考虑利用语料库编纂专科词典的局限性,而不是直接否认语料库的作用。随着新科技或者新范式的出现和发展,许多研究者经常会否定之前的研究方法,即使他们曾从中获益良多。他们往往会盲目相信新科技的神奇和便利,无法即时预见新范式的局限性。往往经过一段时期之后,大家才意识到这些局限性,而此时这些新范式已经根深蒂固。
二、 语料库与词典学
运用新科技建构语料库并从中获取数据编纂词典时,大量的新术语由此而生。要充分描述新的社会现实,这些新术语绝对必要。然而,有些术语却问题蔓生,根本无法如实描述学科研究现状。或许在引进这些新词之前学者并未认真探索其真实含义,例如“语料库词典学”“语料库驱动词典学”和“基于语料库的词典学”等词语。
词典学实践所涉及的远不止是实证基础(Tarp 2014a)。从这一角度而言,语料库并不是词典学的另一种表现形式,而是完成词典编纂过程中的某一任务的方法之一。因此,Bergenholtz(1996)指出,不论语料库在词典编纂过程中完成的任务多么重要,用“语料库词典学”一词描述整个词典编纂方式是不恰当的,因为语料库不过是用于编纂词典的若干实证资料的一种而已。例如,我们编纂词典时也会用到档案、问卷、日志文件,但是没有“档案词典学”“问卷词典学”“日志文件词典学”之类的说法。
Krishnamurty(2008)指出,“语料库驱动词典学”的说法可以追溯到John Sinclair。“语料库驱动的方法自上而下,先从语料库中挑出未编辑的实例,确认这些例子的共同特点和各自特点,然后按照词典的编纂目的将它们分类、组合。”(Krishnamurty 2008: 231)这段引文中的观点极有参考价值和科学性。然而,“驱动”一词使用不够恰当,因为语料库是一个被动的实体,无法驱动或者决定词典中应该包括什么。例如,描写性词典、规定性词典、建议性词典(指的是遵循建议原则而编纂的词典,参见Tarp & Gouws 2008)挑选数据和呈现信息的方法就各不相同。
语料库为词典编纂提供语言证据,但是词典编纂也讲求系统原则。例如,用以挑选《马达加斯加语—德语词典》(Bergenholtz et al. 1991)词目的语料库中,词语talàta(星期二)出现的次数极少,未达到词典收录的词频标准,但是出于系统性原则考虑,该词必须和其他表示星期的词语一起收入词典。因此,“语料库驱动”的说法低估了词典学家在词典编纂过程中的积极角色。“基于语料库的词典学”的说法也有问题。现代化的数字词典的编纂在许多环节中需要语料库辅助完成,但是也有许多环节和语料库毫无关系。显然,“基于语料库的词典学”的说法过于笼统,有待商榷。
电子语料库对于挑选或者佐证诸如词目、等价词、搭配、成语、惯用法等的实例、释义或者特点之类的词典编纂活动非常有用,但是无法解决所有问题。以上所讨论的三个术语反映了当前词典学研究中表述混乱的现状。但这些术语已深植于词典学界观念之中,不太可能废弃。尽管如此,本文建议使用更为精准的术语确切地描述词典编纂与语料库之间的关系。例如,“语料库辅助挑选”和“语料库辅助佐证”的说法要好于“基于语料库的挑选”或者“基于语料库的佐证”,因为除了语料库以外,词典词目的挑选和佐证也来自其他实证基础。
三、 学科专家与专科词典的编纂
专科词典的编纂传统悠久而丰富,但许多普通词典学的研究者常常忽略这一点。Hoare(2009)指出,英国皇家图书馆里的大部分词典都是专科词典。其他研究的调查结果也是如此,例如,Leroyer(2011)对2008—2009年的网络版词典标题的调查研究也得出相同的结论。迄今为止,已经编纂的专科词典几乎覆盖了所有的学科和人类的文化活动,正如Tarp(2014b: 214)所言: “词典尤其反映了过去四千年的社会、历史文化变迁,无论是从语言发展的角度,还是从手工业、经济生活、文化、教育、自然社会科学、人文、体育,甚至诸如消遣、娱乐、节假日之类的种种奇异现象的角度。”
这些词典学研究和实践都证明词典学是一门独立的学科,且具备跨学科的特点,强调学科之间的相互合作(FuertesOlivera & Tarp 2014)。上述的许多专科词典都是由各个领域的专家独立完成或者联合完成的。例如,西班牙前财政部长José Canga Argüelles在1826年和1834年出版了两部专科词典。第一部词典的序言题为“供高级公务员使用的财政词典”。在序言中,该书的作者写道:“这部词典可以看作是财政学的小型书库……一开始编辑这部词典,我的目标是归纳财政学的知识,为财政部的高级公务员提供信息。”(Canga Argüelles 1826: vii)
这部被作者称为“财政学书库”的词典依照传统由专家编纂。这一传统在欧洲始于启蒙时期(Tarp & Bothma 2013)。18世纪的词典学家区分了语词类词典、事物类词典和事实词典(DAlembert 1754: 958)。但是,有些作者,例如英国著名的词典学家Samuel Johnson不认可这种分类(Tarp 2015: 183)。在《科技词汇》(也叫《人文与科学英语通用词典》)一书的序言中,Harris(1704)解释道: “我的目标是编纂一部不仅是词而且是事物的词典。读者不仅能查阅到有关科技词汇或者人文科学中用到的艺术术语的阐释,也能查阅到人文科学知识,这一部分知识对整个人类来说最有用、最有益处。”
Malachy Postlethwayt于1749年出版了著名的《商贸通用词典》。他解释说,要通过发展贸易和航运来推动大英帝国的崛起,但是从事相关行业的人员缺乏相关的专业知识,他们没有时间阅读相关的书籍,更没有钱购买此类书籍。
“国内外贸易涉及的事务千变万化。那些经验丰富、技术娴熟人士传播的知识散落于万卷书册,要从中查询所需信息远非易事”,因此“按照字母顺序将这些具备广博内涵的知识编纂成一部词典来满足人们查询信息的需求是再自然不过的事情了”。(Postlethwayt 1749: 2)
如上所述,以此为目的,欧洲自启蒙时代以来出版了大量的专科词典。这些词典的作者和合著者大多是各个学科领域的专家、前卫的研究者,有些甚至是诺贝尔奖获得者(Besomi 2011: 16)。例如,三位经济史学家Astigarraga, Zabalza & Almodovar(2001: 29)分析了Iberian Peninsula出版社在18至20世纪期间出版的政经方面的词典和百科全书之后,认为Canga Argüelles在1826年和1834年编纂的两部财政学词典毫无疑问是“19世纪前半期西班牙经济学家所编纂的最有价值的经济学类词典”。最近由专家编纂的专科词典有《新帕尔格雷夫经济学大词典》和《牛津经济学词典》,也都声望很高。
即使有专家编纂专科词典的传统,有些词典学家和术语学家还是瞧不起,甚至是否认学科专家编纂的词典。例如,Frawley(1988)建议专家们不要编纂词典,只需为专科词典提供信息即可。他认为词典编纂是“词典学家和语言学家的范畴,因为他们知道如何使用词汇、表述词汇的含义”(Frawley 1988: 196)。术语学家Riggs(1989: 90)对此持相同意见,认为那些“只懂专业的专家既不是词典学家也不是术语学家”,他们即使努力学会了“词典的格式,也不知道如何正确地编纂词典”。最近,León Araúz, Faber Pamela & Montero Martínez(2012: 95)也提出了类似看法: “术语的释义经常由各领域的专家解决……然而,将释义等同于专业背景,并将其视作专业人士的专权,也会令人质疑词典和资源的质量……显然,了解专业知识和如何解释、描述专业术语是两码事。工程师或者科学家可能是各自领域的专业人士,但是他们很少能用一般语言讲述专业知识。”
这三位学者认为无须专业人士的参与,术语学家就可以完成专科词典中词条的释义工作。他们建议使用“框架式术语”,强调“概念结构”和“各类专科知识的多样性”,以及“运用多语语料库提取语义、句法信息”。(Len, Faber & Mart′nez 2012: 97)在词典编纂过程中,如果术语学家或者词典学家有所疑虑,则可以咨询学科专业人士。
本文不讨论“框架式术语”,也不讨论用这种方法得到的复杂释义是否有用。本文认为以质疑专家撰写释义的能力为由排斥专家参与词典编纂的做法不可取。即使有的专家不具备撰写术语释义的能力,训练专业人士撰写专业术语的释义要比训练一个外行(无论他们是词典学家或者术语学家)容易得多。另外,就时间而言,专业人士比词典学家和术语学家的工作效率更高,这一点稍后讨论。
四、 语料库在提供专科词典词条释义方面的局限性
专家和外行在判断专科词典和外部资源中的释义的时候所持的方法和标准不同。以deemed cost为例,《会计词典》将术语deemed cost定义为:
Deemed cost is an amount used instead of cost or depreciated cost at a specific date. Any following amortisation or depreciation is made on the assumption that the enterprise initially recognised the asset or liability at a cost equal to the deemed cost.
Kilgarriff(2012)在评介FuertesOlivera & Bergenholtz的合著时曾经质疑这个释义。他建议使用谷歌搜索语料库获取如下释义:
“Deemed cost” is a surrogate for cost at a given date. For example if a building is purchased at $100000 this is cost and also the deemed cost at that given date...
Kilgarrif(2012: 27)对搜索到的释义非常满意,评论道: “如上所示,用谷歌搜索很容易获取百科全书式的词条。词典学家还能做什么呢?”
当然,不是会计行业的专家可能很难看出上述两种定义有何不同,也很难判断哪个定义在具体的词典中更好用。Kilgarrif似乎也有此疑惑。通过谷歌搜索获取的释义在特定的语境下可能是正确的,但是并不适用于词典学家和会计专家联合编纂的会计词典。Kilgarriff用谷歌搜索获取的释义太过宽泛,其含义超过了《会计词典》的《国际财务报告标准》(IFRS)要求。
Kilgarriff(2012: 29)说: “我们需要利用语料库获取事实求证。”下文我们列举三位经济学家的意见。其中两位经济学家是著名的《牛津经济学词典》的作者。在最近的一篇文章中,三位经济学家Hashimzade, Myles & Myles(2014)谈论了网络释义的优劣和相关性。下面是搜索到的对corner solution的释义:
A corner solution is a special solution to an agents maximization problem in which the quantity of one of the arguments in the maximized function is zero. The more usual solution will lie in the nonzero interior at the point of tangency between the objective function and the constraint...
这三位经济学家认为在网络上获得的corner solution的释义和第二版《牛津经济学词典》中的释义相似:
A solution to a system of equations where some variables are zero...
但是,Hashimzade, Myles & Myles(2014: 19)认为这两个定义都不是corner solution的一般定义,“这两个关于corner solution的释义都不正确。在适当的语境下,这两个释义或许正确。语境缺失的话,释义就不正确了,还有误导性”。
三位经济学家给出了以下释义,应用在《牛津经济学词典》第三版和第四版中。
corner solutionIn the context of a constrained optimization problem this is a solution that does not change in at least one direction in response to any arbitrarily small perturbation to the gradient of the objective function at the optimum.
Hashimzade, Myles & Myles(2014)其实对上述释义也不太满意,但是认为这条释义从经济学理论的角度来说优于上面讨论的其他两个释义。很明显,只有该领域(会计学)的专家可以根据目标用户的需求特点决定这类释义正确与否,充分与否。那种“使用语料库获取事实”的方法根本无法通用,特别是在专科词典学中。
五、 语料库与普通词典中术语的释义问题
不仅专科词典会涉及术语的释义问题,普通词典也会有此类问题。例如Bergenholtz & Kaufmann(1997)分析了收录在不同的德文和英文普通词典中的许多和分子生物学相关的术语的释义,包括一些平时常用的术语,如gene, chromosome, enzyme, bacteriophage等等。著名的英语学习词典《牛津高阶英语词典》和《柯林斯COBUILD高级英语词典》中包含了普通语言中用到的主要的法律术语。这两部词典公开声称运用了权威的语料库,例如英国国家语料库,牛津英语语料库和英语语料库。但是,如Nielsen(2013: 151)所言: “两部词典都未包含英国法律1999年新引入的民法程序术语,例如claim form取代了writ of summons,statement of case取代了pleading。这两部词典收录的是早在十多年前就被取代的术语。”
英国民法1999年以claimant取代了plaintiff。如果目前(2015年6月)查阅在线的《牛津英语词典》,会发现词典里收录了claimant和plaintiff,并附加说明这两个词的释义取自《牛津高阶英语词典》。但是,这两个词条列举的普通释义义项(见截自屏幕的图1与图2)都不包含法律意义。词典的这一做法暗示用户可以继续使用法律界在20世纪末就已摈弃的法律术语。
造成这一问题的原因是多方面的。例如,语料库的文本过于陈旧,普通语言中可能仍然在使用那些过时的、废弃的法律术语,新的术语要一点点地融入普通语言。词典收录“陈旧”的术语对文本阅读仍有用。但是,如果词典要帮助文本输出,则需添加信息说明这个法律术语已被摒弃,并提供参见新的术语,即使这些新的术语在语料库中并未达到被选录的词频标准。
根本上而言,这是由于词典编纂者不了解1999年的“新民法”(虽然网络上可以获得相关信息)造成的。这个问题普遍存在于许多普通词典中。对于此类问题一般有两种解决方法,但都不完美。词典学家在编纂《丹麦语网络词典》时使用了第一种方法。该词典的大部分编纂人员并不是语言学家,而是各个专业(例如数学、物理、化学、分子生物学、法律和经济学)的学生(Bergenholtz 2013: 5)。经过一段时期的词典学训练(主要是从语料库中挑选词义,撰写释义)后,学生们一般可以撰写和本学科领域相关的术语的释义,也包括在普通语言中使用的专业词汇的释义。他们所撰写的释义质量也很高。但是,这些经过训练的学生在撰写其他领域的术语释义时,依然困难重重。
释义撰写有困难,也可采纳第二种方法——咨询专家。但是,这种做法也有很多问题。因为很难找到理解问题现状,并能用普通语言简洁解释术语的专家。在编纂《丹麦语网络词典》时也遇到过这类问题(Bergenholtz 2013: 5)。如果找不到专业人士参与词典编撰,那些错误的、有误导性的释义就会在普通词典中长期存在。普通词典既然收录了这些术语,就应该尽力提供专业含义。语料库无法解决这些问题,所以人的因素就至关重要了。
六、 专家参与编纂词典
下文讨论奥胡斯大学词典学研究中心在编纂专科词典和普通词典时是如何选条和撰写术语释义的。例如,在编纂《音乐词典》时,除了一般概念的阐释,音乐家Inger Bergenholtz承担了所有的工作,包括挑选术语词条、撰写释义、改编释义使其适合音乐学院的学生和对音乐感兴趣的外行理解。词典选条时,作者并未依赖语料库,而是如Bergenholtz & Tarp(1995: 93)所荐,参照了音乐教材和音乐手册上的目录。该词典的理念是帮助用户阅读文本和拓展知识,因此词条内提供了长短两类释义。简短的释义是可视的,用户阅读文本时只需参照简短的释义。详细的释义则以折叠的方式隐藏,供那些想了解更多知识的用户使用。图3展示的是词条cello完全展开的内容。
另一个例子是奥胡斯大学词典研究中心编纂的《基因工程百科词典》。这部纸质词典是丹麦、古巴的词典学家和专家共同合作的成果。该词典为多功能性词典,目标用户包括半专家,见识广泛的外行(Tarp 2005)。编纂者在挑选术语时参考了已出版词典的词条、索引及西班牙语和英语分子生物学文本。这些文本是根据Bergenholtz & Pedersen(1994)提出的标准挑选的。选条(对等语)由经过词典学专门训练过的专家完成(Bergenholtz, Kaufmann & Tarp 1994)。下文以词条gene中的释义为例进行讨论。这一词条包含了用以帮助文本产出和翻译的语言信息,不过在例子中并未显示。
geneA gene is a DNA sequence encoding a protein. tRNA or rRNA. For eukaryotes a gene can also be defined as a transcribed DNA sequence or transcript unit. In prokaryotes two or more proteins are often encoded in the same transcription unit, and such a transcription unit plus its associated regulatory sequences is termed an operon.
这条释义和其他的释义都是分子生物学专家和词典学家反复讨论后撰写的,力图符合目标用户的特点。词典学家认为应该使用大众化语言,但是专家们却担心大众化的语言会影响释义的科学性。最后,双方达成一致,根据目标用户的特点来决定用哪种表达方式撰写释义。在词典编纂过程中,专家们并未查询语料库来撰写释义。当然编纂过程中,词典学家曾利用语料库协助选条、挑选搭配和使用实例等。
相对而言,《丹麦语网络词典》是专为外行编纂的普通词典。下面是该词典中丹麦语单词gen(基因)的两个释义,一个释语偏科学化,另一个释语偏大众化。
gen
1. arveligt anlg, som knytter sig til knscellernes kromosomer i mennesker og dyr
2. tendens til eller disposition for noget bestemt
gene
1. hereditary systems related to the chromosomes in female or male sex cells in human beings and animals
2. tendency or disposition for to like to do something
这两个释义中,第二个释义是分析语料库得来的,第一个释义是词典学家根据所具备的专业知识撰写的。这种注释方法似乎和上文所讨论的英语词典的释义方法不一样。
七、 结语
本文开头质疑了Lees和Itkonen对语料库的否定看法,认为事实并非如此,语料库对于词典学有巨大的实用价值,许多词典编纂都要求以语料库为实证。然而,本文也发现Lees和Itkonen看似武断的说法也有几分道理,因为语料库分析的结果也有可能不准确、有误导性。虽然这些问题多出现于普通词典领域,但是也和专科词典研究息息相关。简而言之,专科词典选条和释义有两种方式: 一方面,词典学家可以在语料库中搜寻相关的术语和释义;另一方面,可以让专家(经过基本的词典学训练后)来做此类工作。只有当专家根据个人从事的专业领域的知识来评判语料库中的数据时,语料库才能在词典编纂的挑选数据阶段有所帮助。
词典学家或者术语学家通过查询语料库来确认某个术语是否正确的做法是不可取的。学科专家们可以立即判断该术语是否正确或者是否与某个学科有关,但是外行(例如词典学家或者术语学家)则可能意识不到某些术语应该属于某一学科范畴,因此会忽略许多术语词汇及相关的搭配组合。另外,语料库里的释义有可能过于陈旧、不正确或者不相关。专门建立一个即时的专科语料库也不太可行,因为释义常常受语境所限而不全面,只有专家才能判断实情。经常有言论称,使用语料库是为了证实收录在专科词典中的术语和释义的真实性。很明显,用户总是想要知道他们是否可以信任这类词典里的信息。然而,语料库既无法确保这些术语适用于某一部待编词典,也无法判定其中释义的质量优劣。
一般说来,编纂一部专科词典最好在两年内完成,以避免在完工之前前期工作成果已过时。对于那些在两年内无法完成的大型词典的编纂,建议分模块进行,例如按词典功能分步编纂,或者是按信息类型分步编纂,同时按照学科变化(诸如科技创新、发现和现行法律的修订等)来修订已经完成的部分。但是,只有具备基本专业知识的专家才能完成这样的工作。毋庸置疑,语料库可以协助词典学家完成相当一部分词典编纂任务,但是,人在词典编纂过程中的积极因素不容忽视。“语料库驱动词典学”或者“以语料库为基础的词典学”的说法和看法有待商榷。相较之下,“语料库辅助词典学”的说法更为准确地描述了语料库运用于词典学的现实。
参考文献
1. Astigarraga J, Zabalza J, Almodovar A. Dictionaries and Encyclopaedias on Political Economy in the Iberian Peninsula(18th, 19th and 20th Centuries). Storia del Pensiero Economico, 2001(41): 25—63.
2. Atkins B T S, Rundell M. The Oxford Guide to Practical Lexicography. Oxford, New York: Oxford University Press, 2008.
3. Bergenholtz H, Rajaonarivo S, Ramasomanana R, et al. Rakibolana MalagasyAlema. Antananarivo: Leximal, 1991.
4. Bergenholtz H, Pedersen J. Zusammensetzung von Textkorpora für die Fachlexikographie.∥Schaeder B, Bergenholtz H.(eds.)Fachlexikographie. Fachwissen und seine Reprsentation in Wrterbüchern. Tübingen: Narr, 1994: 161—176.
5. Bergenholtz H, Kaufmann U, Tarp S. Vore mnd i Havanna: Udarbejdelse af konception til en spanskengelsk genteknologisk ordbog. Journal of Linguistics, 1994(13): 291—304.
6. Bergenholtz H, Tarp S.(eds.)Manual of Specialised Lexicography. Amsterdam: Benjamins, 1995.
7. Bergenholtz H. Korpusbaseret leksikografi. LexicoNordica, 1996(3): 1—15.
8. Bergenholtz H, Kaufmann U. Terminography and Lexicography. A Critical Survey of Dictionaries from a Single Specialised Field. Journal of Linguistics, 1997(18): 91—125.
9. Bergenholtz H. The Role of Linguists in Planning and Making Dictionaries in the Modern Information Society.∥Deny A, Kwary N W, Musyahd L.(eds.)Lexicography and Dictionaries in the Information Age, Selected Papers from the 8th ASIALEX International Conference. Surabaya: Airlangga University Press, 2013: 1—9.
10. Bergenholtz H, Agerbo H. Extraction, Selection and Distribution of Meaning Elements for Monolingual Information Tools. Lexicographica, 2014(30): 488—512.
11. Besomi D.(ed.) Crises and Cycles in Economic Dictionaries and Encyclopaedias