“众源方式”在英语词典编纂中的应用——*以《牛津英语词典》第一版为例
2013-04-02秦晓惠
秦晓惠
一、引 言
“众源方式”(crowdsourcing,一般译作“众包技术”)是由“crowd”和“outsourcing”组成的合并词,最早由杰夫·豪(Howe 2006)提出,最初指企业(the crowdsourcer)通过公开呼吁调动和利用大众(the crowd)的创意和能力,是劳动力组织的一种全新模式。“众源方式”早期主要应用于商业领域,如软件业、服务业等,现已广泛应用于文化、地理、教育、医学、语言等社会各个领域。在“众源方式”项目中,广大志愿者和业余人员,愿意利用空余时间工作,满足于获得小额报酬,或者暂无报酬,仅仅获得精神满足。从更广泛的意义上来说,利用群体智慧完成某项任务或某个项目,都可以称作“众源方式”。
二、“众源方式”在词典学中的应用
约翰霍普金斯大学的语言技术中心及言语处理中心(Human Language Technology Center of Excellence&Center for Language and Speech Processing)是“众源方式”在语言学中应用的最前沿研究中心。该中心致力于以“众源方式”为技术核心的亚马逊土耳其机器人(Amazon Mechanical Turk)的研究,主要探讨其在大规模自然语言处理和机器翻译中的应用,重点强调了其在高效、低价收集海量数据,建立大型语料库等方面的优势(Callison-Burch&Dredze 2010)。本文拟探讨“众源方式”在语言学,尤其是在词典学上的应用。“众源方式”的概念虽说近年才被提出,但其核心理念在词典学上却可以追溯到19世纪。1838年由格林兄弟(Brothers Grimm)着手编纂的《德语大词典》[1](Deutsches Wrterbuch)可以看作“众源方式”在词典编纂中最早的应用。作为欧洲大陆第一部真正意义上的历史主义词典,该词典招募了83位志愿者,承担阅读文献、收集词条引语的任务。
受《德语大词典》的激励和启发,基于民族自豪感和自尊心的驱动[2],《牛津英语词典》第一版(Oxford English Dictionary1stEdition,1857—1928)于1857年由英国语文学会(Philological Society)的理查德·特伦奇(Richard Trench)正式发起。在宣读题为“关于我们英语词典中的若干缺陷”(“Some Deficiencies in Our English Dictionaries”)的报告时[3],特伦奇提出编纂一部呈现英语词汇全貌的《新英语词典》[4]的设想——即展现英语文献中出现的每个英语词来源、发展和现状的完整历史[5]。西方语文学及英语词典史上的登峰造极之作《牛津英语词典》由此缘起。这部基于历史主义原则的鸿篇巨制,经历了70余年的编纂历程。期间虽历经坎坷,主编几易,但无数默默无闻的志愿者出于对英语的热爱,贡献了数百万个词条信息,成为《牛津英语词典》最坚固的基石[6]。
1.理查德·特伦奇(Richard Trench)与“众源方式”
1857年,特伦奇在提出《新英语词典》编纂设想时指出:“通过一大批人携手加入到这项事业中来,拉开一面大网,把无数隐匿于英语文献中的词汇收罗其中。”(转引自Murray 1979:136)同年,在特伦奇的号召下,语言学会正式启动了“阅读计划”(Reading Program),号召义务读者(Volunteer Reader)通过阅读已有英文文献来记录“非同寻常”的词汇。大众的反应很热烈,到年底时,已有76位志愿者完成了121本著作的阅读和引语摘录。特伦奇宣读报告两年后,语文学会正式通过了《语文学会对出版〈新英语词典〉的建议》(Proposal for the Publication of a New English Dictionary by the Philological Society),将文献阅读范围限定于18、19世纪主要作家以及更早期所有作家的作品。
2.赫尔伯特·柯尔律治(Herbert Coleridge)与“众源方式”
1860年,时任威斯敏斯特教堂(Westminster Abbey)教长的特伦奇由于教区事务繁忙,无法分身,便将编纂工作托付给了赫尔伯特·柯尔律治(大诗人塞缪尔·泰勒·柯尔律治的孙子),这位实际意义上的大词典首任主编(尽管一些正式出版物中这一身份很少被明确)。他年轻有为但却体弱多病。尽管他只主持了词典项目一年多便因受风寒病故,但是对未来编纂工作的影响却是深远的。他起草了《编纂语文学会的新英语词典时应遵循的规则》(Canones Lexicograhici;or,Rules To Be Observed in Editing the New English Dictionary of the Philological Society),奠定了大词典的编纂基础。他将“阅读计划”中所涉及的书籍分为三部分:(1)1250年到1526年第一本英译《新约全书》问世期间出版的书籍[7];(2)1526年到1647年弥尔顿去世期间出版的书籍;(3)1647年到1858年该词典项目正式启动之前出版的书籍。这三个时期在他看来分别代表中古英语(Middle English)、早期现代英语(Early Modern English)和现代英语(Modern English)(Berg 1993:101,164)。
柯尔律治制订了最早的词目表,列出了所有他认为应该收录的语词。他还规范了引文卡片的格式:纸张为书写纸的一半大小,词目词须写在卡片左上方,引语须写在其下方,后接引文出处和出版信息,且每张卡片只限抄录一条引文。这种基本格式除后来有部分细微调整外,一直沿用于大词典整个编纂过程。他还为后人留下了自己独创的有形资产——54格橡木鸽笼式分类资料架(pigeonholes),竖排6格,横排9格,用来按字母顺序存放义务读者的引文资料卡。整个资料架长260英尺,可容纳10万张引文卡[8]。这项宝贵的遗产被第三任主编、也是整个词典项目的核心人物詹姆斯·默里(James Murray)继承发扬,当然规模扩大了几十倍。
3.弗雷德里克·弗尼瓦尔(Frederick Furnivall)与“众源方式”
1861年,柯尔律治去世后不久,语文协会秘书长弗雷德里克·弗尼瓦尔接任主编。弗尼瓦尔爱好广泛,精力充沛,却缺乏条理。尽管由于他的反复无常和判断失误,大词典工程几乎搁浅,但整个项目能够幸存和完成却在很大程度上归功于他的执着和热情。他的贡献之一在于将“阅读计划”的范围扩展,认为“不光是有价值的词,所有的成员包括那些弱势词和小词”都应被囊括到在建的词库中:“将我们的门大大敞开!所有的书证,不是一条两条,而是所有的都要进来!”(转引自Murray 1979:137)他排除了只重古典作家的偏见,将报刊出版物纳入“阅读计划”的书目,认为报刊同样是有价值的语料来源。他留下的宝贵财产之一是1864年建立的早期英语文稿学会(Early English Text Society),旨在为大词典提供早期和中古英语的文献作品。他本人也不断为大词典提供引文例证,到1888年,他本人贡献的引文卡数量达到了3万张(Gilliver 2000:238)。他还扩展了编辑队伍,建立了一个新级别的编辑人员队伍——他称之为“义务分编”(subeditor),主要承担引文卡分类整理等基础性编纂工作。巨大的工作热情不代表高效的工作成果。由于弗尼瓦尔兴趣多变、无组织才能,大批的义务读者和义务分编开始失去信心,并撤出了词典项目。大词典命运未卜,直到詹姆斯·默里出现,才将它从濒临破产的边缘挽救回来并将其推向最终的胜利。
4.詹姆斯·默里(James Murray)与“众源方式”
1879年,詹姆斯·默里正式成为第三任主编。直到1915年去世,他的大半生都奉献给了大词典项目。他自学成才,学识渊博,沉稳勤奋,是大词典主编最理想的人选。在他的管理和监督下,“阅读计划”和志愿者的参与得以系统化和科学化。默里接手后的第一项任务是整理前两任主编收集的海量引文例证卡。经过20年的积累,这些卡片陈旧不堪,残缺不全,杂乱无章,其混乱的状况令人震惊[9]。默里在住所的后花园建了一个铁制的活动房,用来收纳从各地运来的卡片,这就是著名的“缮写室”(Scriptorium)[10]。他将鸽笼式分类资料架扩展到了1029只。在对卡片分类整理的过程中,默里发现,义务读者更热衷于罕见语词引文的收集,而忽略了普通英语词汇的收集[11]。同时,一大批重要作品有待被分配选读。为挽救局势,默里起草了对整个“阅读计划”具有里程碑意义的《请求广大英语使用者为语文学会的新词典阅读书籍和选取摘录的呼吁书》(Appeal to the English-Speaking and English-Reading Public to Read Books and Make Extracts for the Philological Society's New Dictionary,以下简称《呼吁书》)。《呼吁书》附上了须查阅书目的清单,统一了选词标准,规范了卡片的体例和引证的格式,使得资料收集工作有了质的改变。《呼吁书》被分发到所有英语国家的书店和图书馆中,激发了无数读者对英语的热爱,他们贡献的数百万词条引文信息为大词典编纂提供了最重要的材料基础。
有功于大词典的志愿者有来自大学、研究院、协会的教授、学者,有各个学科领域的顶尖专家、功成名就的知名人士,更多的则是来自各行各业的普通从业人员。他们不仅担任义务读者的角色,还承担了分编、次分编(re-subeditor)及清样校对等工作,无私地贡献时间和精力。默里对分编者和次分编者的责任做了明确规定:前者主要负责将引文卡按字母顺序排列,将同一词条按不同词性分类,对引语例证进行初步的语义分类;由于新的卡片源源不断地输送进来,分编分类安排好引文卡片后,次分编负责评估新卡片信息并对原有的安排进行适度调整。很多默里的好友、知识界的权威人士都承担了清样校对的工作,其中最出色的代表当属菲茨爱德华·霍尔(Fitzedward Hall),一位来自美国、隐居于英国的隐士[12]。自1881年起,他二十年如一日,每天至少花四个小时认真检查和校对大词典的清样,其他时间则用来阅读文献和收集例证。1901年霍尔故去后,默里在第六卷的序言中写道:“我们不能不对他的辞世怀有最深的遗憾……他为这部大词典迄今为止所出版的所有分册的编写工作都提供了非常有价值的帮助。”另一位来自美国的具有传奇色彩的义务读者威廉·切斯特·迈纳(William Chester Minor),是大词典最多产的义务读者之一,他也是位犯有杀人罪的精神病罪犯[13]。与霍尔不同的是,他的主要贡献是文献阅读和摘录引文例证。默里曾这样热情洋溢地称赞迈纳:
这个最高的荣誉……无疑非布罗德莫的迈纳医生莫属。在过去的两年中,他送来了不下1.2万条例证。这些几乎都是我和布拉德先生正在编写的词条所需的例证……迈纳医生在过去的十七八年中所做的贡献是如此巨大,单从他的例证,我们便可描述过去四百年的语词使用情况。(Winchester 1999:182)
三、“众源方式”的延续
由特伦奇发起,经柯尔律治和弗尼瓦尔推行,默里规范完善的“阅读计划”和大众参与方式得到了充分的沿续和发展[14]。1928年,历经71年艰苦卓绝的劳动,这部卷帙浩繁的十卷大词典的最后一卷终于编订完成。1933年由克雷吉和奥尼恩斯主编,根据默里的编写思路和方法编纂的一卷大词典补编(OED First Supplement)问世。之后,由于战争等各种原因,“阅读计划”一度搁浅,所有的引文例证也被封存。1957年,罗伯特·伯奇菲尔德(Robert Burchfield)主持大词典的补编本编纂工作,重新启用了“阅读计划”。大词典补编四卷(OED Second Supplement)分别于1972年、1976年、1982年及1986年陆续出版。1989年,二十卷本《牛津英语词典》第二版正式出版。该词典借助现代计算机技术,对上述三个版本的词典文本进行了电子化整合,并加入了5000条新词新义。目前,应用互联网技术的大词典第三版(也称OED Online)的编纂工作正在进行。历经不同的编纂时期,“众源方式”的技术和手段也不断发展,日趋成熟。如果说在第一版中大众主要通过“信件”邮寄“引文卡片”,储存在“鸽笼式分类资料架”的方式参与编辑,今天,在第三版中,“众源方式”已经发展为通过“电子邮件”发送“电子文档”,储存在“引文数据库系统”。而通过这种方式,世界各地的义务读者每年为该项目提供约60万条引文例证(Berg 1993:164,165)。“众源方式”在这部英语词典编纂史上最伟大的作品中得到了完美的沿续和发展。
附 注
[1]19世纪,比较语文学在欧洲大陆兴起。德国格林兄弟的《德语大词典》和法国 mile Littré的《法语大词典》(Dictionnaire de la langue franaise)是语文学在词典学领域的代表性成就。《牛津英语词典》号召志愿者参与的设想就是借鉴《德语大词典》的做法,因此笔者认为该词典是“众源方式”在词典编纂中的最早应用。
[2]事实上,《牛津英语词典》项目的提出在很大程度上是为了赶超欧洲大陆在比较语文学上的成就,重新恢复英国的国家荣誉。
[3]特伦奇分别于1857年11月5日和19日向语文学会宣读了该文。1860年由伦敦John W.Parker&Sons再版。
[4]《牛津英语词典》最初以“根据历史原则并主要基于语言学会所收集的资料而编纂的新英语词典”(“A New English Dictionary on Historical Principles,Founded Mainly on Materials Collected by the Philological Society”)之名出版(1884—1928),1933年再版时正式更名为Oxford English Dictionary。
[5]在后来的编纂过程中,由于语言的无界性、新词的不断涌现、版面的限制、时间的压力等一系列因素,无法实现这一理想的目标。也可以说,《牛津英语词典》的编纂过程是理想与现实不断磨合的过程。
[6]义务读者前后一共为大词典项目贡献了500多万条引语例证,其中180多万条被大词典收录。
[7]将引文例证的年限定在1250年后的做法后来被摒弃,大词典选用的例证最早是公元9世纪的。
[8]柯尔律治对大词典的规模显然估计不够,这个数字跟后来实际引用的180万条例证相比少得可怜。
[9]默里曾在装引文卡的麻袋里发现了几只老鼠。很多麻袋因为潮湿而发霉,很多资料因为义务读者的离世而丢失。
[10]尽管其他人倾向于把这个潮湿的小房子称为“工棚”,默里仍决定将其命名为“缮写室”,用古代僧侣整理神圣手稿的屋子名称来美化它。
[11]默里曾提到:“这样一来,abusion一词,我们在引文卡资料中就找到了约50条例证,而(很常用的)abuse一词的例证还不到5个”(转引自Murray 1979:178)。
[12]霍尔曾在伦敦国王学院出任梵文和印度法学教授职务。1869年因卷入一场严重的学术纷争而被赶出语文学会,并被指责为学术骗子。霍尔与家人逃到了东英吉利一个名叫威克汉姆集市的村子落脚。一年后,家人离开了他。他的余生就过起了隐士的生活,以后的32年中几乎足不出户。
[13]迈纳曾是美国军医,参加过内战,后因精神分裂被送到伦敦疗养。1872年因病情发作开枪打死一名无辜的工人,之后由布罗德莫精神病院监管。在囚室的20余年间,坚持不懈地为大词典工作。
[14]为了加快词典编纂进度,牛津大学出版社分别于1888年、1901年和1914年指定亨利·布拉德(Henry Bradley)、威廉·克雷吉(William Craigie)和查尔斯·奥尼恩斯(Charles Onions)三位主编。
1.Berg D L.A Guide to the Oxford English Dictionary.Oxford:Oxford University Press,1993.
2.Callison-Burch C,Dredze M.Creating Speech and Language Data with Amazon's Mechanical Turk.Paper Presented at the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon's Mechanical Turk,2010.
3.Gilliver P.OED Personalia.∥Mugglestone L.(Ed.)Lexicography and the Oxford English Dictionary:Pioneers in the Untrodden Forest.Oxford:Oxford University Press,2000:232—252.
4.Howe J.The Rise of Crowdsourcing.Wired Magazine,2006(6):1—5.
5.Murray K M E.Caught in the Web of Words:James A.H.Murray and the Oxford Engish Dictionary.Oxford:Oxford University Press,1979.
6.Winchester S.The Professor and the Madman:A Tale of Murder,Insanity,and the Making of the Oxford English Dictionary.New York:Harper Perennial,1999.