网络词典词库配置的主体间性思考
2014-10-21张雅卢华国
张雅 卢华国
[摘 要] 首先介绍网络词典的发展现状,然后结合有道词典论述版权购买类、网页抓取类和维基架构类三类词库的优点和局限,最后从设计的主体间性入手探讨如何发挥编者、技术人员和用户三类设计主体的优势以实现网络词库配置的整合和优化。
[关键词] 网络词典 有道词典 词库配置 主体间性
[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2014) 05-0087-04
Inter-subjectivity Approach to Lexicon Configuration in Cyber Dictionaries:
with Particular Reference to Youdao Dictionary
Zhang Ya Lu Huaguo
(Department of Languages and Culture,Nanjing University of Information Science and Technology,Nanjing,210044)
[Abstract] Starting from a brief account of the status quo of cyber dictionaries, this paper describes the strengths and weaknesses of three types of lexicons, i.e. copyright-based, webpage-extraction-based and wiki-based ones, which are illustrated by Youdao Dictionary, and then investigates how compilers, technicians and users can take most advantage of their combined expertise to optimize the lexicon configuration of cyber dictionaries.
[Key words] Cyber dictionaries Youdao Dictionary Lexicon configuration Inter-subjectivity
1 引 言
网络词典是电子词典的一种,又称在线词典,是指构建在网络平台上,通过使用某种计算机网络语言将机器可读的词典文本转换为可在网络中检索的辞书,并向用户提供实时查询服务的数字化参考工具[1]。根据用户访问方式,可以分为网页版和软件版两类。使用前者就像访问普通网页一样,需要输入相应网址,进入词典主页后才能进行词典检索,检索结果以网页形式呈现给用户;使用后者就像使用普通软件一样,需要用户首先在本地安装客户端软件,然后打开软件进入词典界面进行检索,软件从远程服务器获取符合检索条件的信息并通过词典软件界面展示给用户。
由于以网络为数据载体,网络词典拥有非常广泛的用户。尼尔森网联研究2012年发布的一项针对我国10个城市的调研数据显示,在16—45岁的网民中有将近九成接触过网络词典产品,网络词典已经达到相当高的覆盖率,并在调查金山、谷歌等7个品牌之后,发现有道词典的覆盖率达到58%,位居7个被调查品牌之首,平均每周被使用12次,累计达36分钟,明显高于同类其他网络词典[2]。有道词典之所以能够在众多品牌中占据首位,原因之一在于它的词库资源丰富且不同类型的词库之间具有一定的互补性。然而,这些词库也存在一些问题,给使用者带来不少困惑。接下来,本文将从词典设计主体间性的角度入手探讨有道词典的词库配置策略及其对网络词典设计的启发。
2 有道词典的三类词库简介
有道词典宣称集中了中、英、日、韩、法5种语言的词库,但是在这5种语言之间资源配置并不均衡,其中英汉词库资源最为丰富。本文将主要介绍有道词典在英语词库资源配置方面的特色,仅在讨论与英语学习相关时涉及有道词典所收录的汉语词库资源。从获取方式和来源看,有道词典英语方面的词库资源主要有以下三类[3]。
第一类是版权购买类词库,包括3本版权词典,分别是《21世纪大英汉词典》(以下简称《21世纪》)、《新汉英大辞典》(以下简称《新汉英》)和《柯林斯英汉双解大词典》(以下简称《柯林斯》)。《21世纪》是一部大型综合性词典,由李华驹担任主编,中国人民大学出版社2002年出版,收录单词和词组约40万条,以语词条目为主,兼收各科常见术语专名。《21世纪》对多义词释义尤为详尽,按使用频率高低编排义项[4]。《新汉英》是一部综合性汉英辞书,由中国教育出版集团有限公司2008年出版,收录约15万词条,词典信息主要由汉英基本释义、例句、短语等构成[5]。然而,除有道官网介绍外,笔者从互联网上,包括中国教育出版集团有限公司网站上都无法获得关于该词典的更多信息。至于《柯林斯》,有资料宣称该词典系哈珀·柯林斯出版集团第一次选择互联网上平台首发旗下词典,在词汇量上完全覆盖之前收录的《柯林斯COBUILD高级英汉双解词典》(由张柏然等翻译,高等教育出版社2006年出版),是柯林斯旗下最大的学习型词典[6]。笔者从网上无法获得更多关于该词典的信息,试查、比较之后也没有发现与《柯林斯COBUILD高级英汉双解词典》有什么差别。
第二类是网页抓取类词库。该类资源的获取以有道首创的“网页萃取”技术为实现前提。具体讲,就是通过搜索引擎获取海量网页数据,然后借助自然语言处理中的数据挖掘技术对其进行分析,从中提取所需要的信息并自动生成一个庞大的、可自动及时更新的“动态资源库”。借助网络服务或桌面软件,用户可以方便地查询这一资源库。通过“网页萃取”技术获取的信息有网络释义、双语例句、专业释义、短语、权威例句和原声例句六个类别。笔者使用后发现:前四类信息主要是通过在英文与其中文翻译之间建立匹配关系,把存在匹配关系的单词或例句提取出来,后两类信息只需把含有目标词的句子提取出来。具体说来,专业释义主要是通过在学术论文的中英文摘要和关键词之间进行匹配,提取目标信息,网络释义和双语例句则是源自整个网络上的中英文资料,取材范围比前者要广得多。短语不仅需要在中英文之间匹配,而且还要判断目标词与其他词是否构成共现关系。权威例句和原声例句的提取则相对要容易一些,前者源自英美主要新闻报刊网站,后者则是对英文广播、影视或公开课资源中含有目标词汇的句子的提取。endprint
第三类是维基(Wiki)架构类词库。该类资源是对免费网络资源互动百科的直接借用。与维基百科和百度百科一样,互动百科也是建构在Wiki技术之上的免费网络百科全书。在传统的网站集中发布模式下,普通用户因为只能浏览信息而不能随意发布信息,所以处在一种被动接受的位置。Wiki技术的创生是对这种传统模式的颠覆。作为一种崭新的信息发布方式,Wiki技术使得任何人都可以对自己在互联网上看到的页面进行编辑,而且编辑结果在网络上同时向他人公开,并允许被再次编辑和修改,从而实现网页的可擦写功能。互动百科正是基于以Wiki技术为核心的合作软件构建的网络百科全书。它对用户没有任何门槛限制,用户不仅可以免费使用维基百科,更重要的是可以参与编写。互动百科不设专职编辑队伍,其编辑器风格类似office 2007,采用“所见即所得”的编辑模式,页面操作非常简单,用户只要会点鼠标、会打字就可以参与百科全书的编写工作。互动百科具有高度的开放性,为热心网友搭建了展示技能和知识的平台,使用户能够自己动手,体验分享知识的乐趣[7]。
3 三类词库的优点和局限
版权词典(以纸质词典为主)由辞书专家编写、知名出版社推出或引进,在词典信息质量方面有保障,有着较高的权威性。然而,版权词典中的信息往往滞后于语言的发展变化。《21世纪》虽然是一本大型综合性辞书,收录单词和短语40万条,但是该词典出版已有10年,无法反映语言中的最新变化。实际上,即便是2008年版的《新汉英》和官方所谓的2012年版《柯林斯》也不可能收入时下流行的新词新义。版权词典这方面的局限是由其自身特点所决定的。首先,无论版权词典的收词量有多大,终究受到一定限制[8],所以版权词典通常只能选择性地收录那些相对稳定的新词新义。此外,版权词典还呈现出编纂周期长、更新频率低的特点,这进一步影响了词典对新词新义的收录。由于编纂周期长,版权词典编纂时收入的内容无论有多新,出版时这些内容已经显得陈旧。再则,版权词典一旦出售发行,编者即失去对位于用户端的词典数据的直接支配。词典数据因而呈现出封闭性,无法随时接受更新。另一方面,词典数据的更新往往涉及词典设计的方方面面,是一项费时费力的工作。出于对成本的考虑,编者常常将词典数据更新的范围和频率限制在可接受的范围内,即只有当需要更新的语料积累到一定程度之后,编者和出版社才会考虑对词典数据进行全面更新。而使用者只有重新购买版权,才有机会接触词典中更新的内容,这对电子词典的开发者而言又是一笔新费用。因此,有些开发者不愿购买同一词典的更新版本,而是走模糊路线,对版权词典的出版年限语焉不详。
网络不仅是新词新义产生的一个重要来源,而且为新词新义提供了非常重要的传播渠道。换句话说,新词新义无论经由何种途径产生,都会在网络上留下踪迹。由于依托搜索引擎,网页抓取类词库可以及时捕捉语言中的新现象,并实时加入“动态资源库”,供用户查询。这种做法可以很好地弥补版权词典在新词新义收录方面的短板。例如,笔者尝试在有道词典中输入并查询在各类媒体上较为常见的两个词“吃货”和“fiscal cliff”。结果显示,前述版权词典均没有收录相关释义或翻译,而网络释义则给出比较满意的答案(“foodie”和“财政悬崖”)。然而,由于主要依靠计算机技术并缺少语言专家的判断和选择,网页抓取类词库对目标信息的匹配和提取有时错误百出,让人啼笑皆非。例如,对于网络用语“忽悠”,网络释义给出了四个对应词:hooyoo、flicker、poof和E。其中,排在第一位的是hooyoo,系从70个网页提取而来。追踪这些网页后,笔者发现hooyoo多被用作网站的名字,与“忽悠”的“欺骗”意义没有任何关系。排在第二位的flicker仅与“忽悠”的陈旧义项“飘忽不定”有关,排在第三、第四的poof和E则不知所云。专业释义和双语例句均存在类似错误。该类词库所提供的某些短语(如please advise)只是偶然出现在一起的组合,根本算不上语言学意义上的短语。此外,虽然原声例句和权威例句的正确性能够得到保障,但是从辞书的角度看,这些例句只能作为听力和阅读的补充材料,在词汇难度和示范价值方面与版权词典中精选的例句相去甚远。
认知语言学家认为语言信息和百科信息难以截然分开,对语言的理解和使用都非常重要[9]。这也为学习型词典中百科信息分量的增加所印证。版权词典虽然在收词和释义方面对百科词条和百科信息日益重视,但是其容量毕竟有限,只能以语言信息为重,兼顾最基本的百科信息。例如,版权词典对历史人物的介绍就只限于生卒年和主要功绩等最主要的信息。此外,由于版权词典更新速度慢,其中的百科信息常常显得陈旧和过时。因此,已经过世的历史人物在某些版权词典中可能依然“健在”,这难免会对只依赖一本词典的用户产生误导。维基架构类词库由于汇集了广大网民的智慧,在百科信息方面可为版权词典提供延伸和补充。与专家式的传统辞书编纂不同,维基架构类词库开放、自由的编辑模式被称为“自下而上式”的编纂模式[10]。由于编者队伍在理论上可以无限扩展,互动百科扩充和更新的速度让任何其他传统辞书及其网络版都望尘莫及。然而,高度的开放性也带来了高度的无序性,这给互动百科实施有效的质量控制带来了无法解决的困难。例如,由于词条撰写者对同名人物的编辑操作不够细心,著名语言学家王力在互动百科中被赫然标注为“海军少将”,而且介绍中缺乏最基本的生卒年信息[11]。至笔者行文时,相关错误还没有得到纠正。与维基百科相比,互动百科有一定的审核机制,即只有经过审核的词条方可提交。然而,审核通常限于政治类等敏感信息,专业且隐蔽的信息只能依赖网友发现和纠正。互动百科无法从根本上做到防患于未然,这是由其开放性、自由性所决定的。
4 词典设计的广义主体观
现代设计理论认为,产品设计需考虑一系列的外部和内部因素,是外部因素的内在化[12]。作为文化产品的词典亦不例外,其设计背后的理据也是多元和复合的,大致可分为外部理据和内部理据两类。前者包含了很多方面,始终围绕着“人”这个核心,其中最重要的就是词典用户及其需求,代表了词典设计的限定性;后者也包含多方面,始终围绕“物”这一广义概念,包括词典设计的技术、载体和工艺,代表了词典设计的可能性。可以说,词典设计就是内外理据融合的过程[13],把前述可能性转化为现实,离不开设计主体创造性的活动。然而,长期以来人们对词典设计的理解经历了一个由片面到全面的发展过程,对词典设计主体的认识也经历了同样的变化。endprint
传统上,词典被视为静态的文本,是特定的词典信息类型按照特定的呈现方式进行编排的结果;词典文本的设计是编者就信息类型和呈现方式做出系列选择的过程。因此,词典编者才是唯一的词典设计主体。由于接受美学的影响和商业利益的驱使,词典不再被视为静态的文本,位于接受端的用户开始受到重视。为了能够吸引更多用户、取得更大的商业利润,词典编者必须设法了解用户的检索需求、技能和使用习惯,并据此设计出符合用户要求的词典产品。词典用户地位的上升使他们能够对编者的设计决策产生不容忽视的影响。正是在这个意义上,我们认为词典用户实质上成为词典设计的另一主体。
对于现代词典编纂而言,数据库的建设、语料的提取离不开技术人员的参与,这直接影响着词典可呈现的信息类型。负责排版、印刷和装订的技术人员对于纸质词典产品的最终面貌和功能有着重要的影响。对于电子词典设计而言,编程人员同编者之间的有效合作是充分发挥技术优势、保证电子词典质量的前提。这里当然不排除编者同时又是技术人员的情况,但是现代社会高度专业化的分工使得技术人员已然成为词典设计过程中一个不可或缺的独立群体。
如果我们接受词典设计的广义主体观的话,那么就会发现上述三类设计主体分别与有道词典的三类词库对应:在版权购买类词库(通常是纸质词典)的编纂过程中,虽然重视用户需求并使用了现代技术,但是在宏观层面和微观层面上对信息的选择和呈现的过程主要是一个由编者不断做出决策的过程,在这里编者是设计主体;网页抓取类词库的形成主要依赖“网页萃取”技术,词典或语言专家的影响被最大程度地排除了,在这里技术人员是设计主体;在维基架构类词库中,没有专家和权威,任何人都可以编写新的词条、编辑和修改已经存在的词条,从而实践“人人为我、我为人人”的乌托邦理想,在这里用户才是设计主体。
5 设计主体间性视角下的思考
就“人”这一最活跃的要素而言,词典设计从本质上讲是一种交际行为。狭隘的设计观将这一过程分为两个彼此分离的“主—客”片段,即“编者编纂词典”和“用户使用词典”,因而在一定程度上阻碍了编者和用户两大设计主体之间的沟通,影响了词典设计创新的力度和方向。而广义的设计观则将词典设计置于“主—客—主”框架中,将其视为包括技术人员在内的多极主体围绕词典文本展开的对话行为。
一方面,广义的设计观反对将词典设计视为编者的独白,认为词典设计不能缺少任何一方的参与,因而倡导多级主体之间的对话;另一方面,该设计观坚持编者在词典设计中的主体地位,认为编者的作用不是用户或技术人员可以替代的。随着用户重要性的提升,用户参与编纂的范围扩大、直接程度提高,维基技术的应用甚至使得普通词典用户能够打造“属于自己的”辞书(如互动百科)。这对“唯编者独尊”的词典学旧范式产生了冲击。同时也应该看到,词典设计毕竟是一项严肃的专业性很高的学术活动,双语词典的设计则更需要设计者在语言和跨文化交际等方面拥有深厚的知识储备,对设计者的词典学素养要求很高。因此,强调“用户友好”“用户至上”并不意味着赋予用户主导词典设计的权利。此外,广义设计观主张技术人员根据需要在不同阶段介入词典设计,但是反对词典设计的“唯技术论”。没有词典专业人员参与而设计的词典要么是披着现代技术外衣,质量却得不到任何保障,要么是纸质词典内容的简单电子化和网络化,并不能真正发挥现代技术的优势。因此,“最好的效果很可能来自于专业编者同信息技术专家之间持续、密切的合作”[14]。
回过头来看有道词典的词库配置,其中的问题便一目了然。从上文可知,三类词库既有优势也有局限:虽然版权购买类词典的正确性有保障,但是词典信息的容量和更新频率均受到限制;网页抓取类词典和维基架构类词典虽然能够弥补版权购买类词库的上述不足,但是所提供信息的正确性难有保障,常常会误导用户。有道词典对三类词库的配置使其呈现出一定的互补性,但是不能克服词库自身的局限。从根本上讲,单一词库的局限性源于单一设计主体的局限性。由于每类设计主体都存在局限,仅以某类主体作为词库设计主体,无视或排除其他主体的作用,必然导致设计出的词库具有难以克服的局限。有道词典只是把三类词库进行简单的拼接,并没有真正实现它们之间的优势互补,本质上体现的还是一种“技术至上”的片面设计观。
无可否认的是,网络词典在开发、维护和更新方面比其他类型的词典更依赖现代技术。因此,技术人员在网络词典设计中发挥着非常重要的作用。但是要解决网络词典在词库配置方面的问题,就必须克服“技术至上”的片面设计观,通过整合或优化词库资源之间的配置,使词典设计的交际行为在编者、用户和技术人员之间得以有效展开。由上文可知,第二类和第三类词库提供的词典信息良莠不齐,因而对网络词典使用者的鉴别力提出了很高要求。然而,对词典的编者而言,它们都提供了很好的加工素材。网页抓取类词库以“网页萃取”的现代技术为基础,对散落在网络上的语料进行了初次筛选,所提供的信息大大缩小了编者语料搜集的范围,从而减少他们的工作量。维基架构类词库能够充分发挥“人多力量大”的优势,在短时间内构建起辞书的雏形。词典编者可以发挥自己的专业优势,对这两类词库中的信息进行筛选、甄别,最后推出辞书的正式版本,并通过网际互动,了解用户的需求和辞书的动态变化,把这些信息反馈给技术人员,以实现词典数据的维护和实时更新。在这种新型的网络词典设计模式中,用户不只是产品的消费者和反馈信息的来源,技术人员也不再只是被动的参与者,三类主体在网络词典设计中都能充分发挥各自的优势,真正实现由编者主导、各方参与的词典交际行为,如此设计出的网络词典也能更好地满足用户的使用需求。
6 结 语
网络词典发展迅速,拥有最广泛的用户,其中有道词典的词库配置在同类词典中具有一定代表性。有道词典的词库主要有版权购买类、网页抓取类和维基构架类三种,分别对应编者、技术人员和用户三类设计主体,各自既有优点又有局限。只有充分发挥三类主体在词典设计中的作用,才能整合或优化词库资源之间的配置,设计出能够更好地满足用户使用需求的网络词典。endprint
注 释
[1]魏向清,王东波,耿云冬.中国辞书发展状况报告(1978—2008)[M].北京:商务印书馆,2014:223
[2]http://www.nielsenccdata.com/marketSecondCh/show.ht?id=117
[3]除了下文即将提到的三种,有道词典还包含同英英释义、近义和同根词三种词库,英英释义是对免费资源WordNet的借用,后两种来源不明,故本文不做讨论。
[4]http://www.crup.com.cn/Item/94240.aspx#
[5]http://www.youdao.com/help/dict/source/
[6]http://cidian.youdao.com/5.0/help/deskdict5beta/features/16.html
[7]卢华国,张雅.移动学习时代的移动词典[J].现代教育技术,2010(6)
[8]姚红.数字化时代的词典出版[J].出版发行研究,2007(9)
[9]Taylor, J. R. 2003 Linguistic Categorization 3rd [M]. New York: Oxford University Press
[10]de Schryver,Gilles-Maurice. Lexicographers dreams in the electronic-dictionary age [J]. International Journal of Lexicography,2003(2):143-199
[11]http://www.baike.com/wiki/%E7%8E%8B%E5%8A%9B
[12]柳冠中.设计方法论[M].北京:高等教育出版社,2011:24,37
[13]感谢导师魏向清教授有关讨论对本部分的启发。
[14]Svens€閚, B. A Handbook of Lexicography: The Theory and Practice of Dictionary-making[M] New York : Cambridge University Press, 2009:439
(收稿日期:2014-04-18)endprint