系统科学视域下日汉词典数据库编纂实践研究
——以低频词条编纂为例
2023-12-14李飞菲
李飞菲
(山西大学 外国语学院,山西 太原 030006)
双语词典是国家语言能力建设及公民语言能力养成过程中不可或缺的基石,是培养高质量外语人才的助力器。具体到日汉词典方面,据不完全统计,新中国成立后我国先后出版的各类日汉词典共有约215部[1]。除纸质词典外,尹学义[2]、张静[3]通过回顾我国日语类词典的发展历程,指出该类词典呈现出“品种多样化、编写工作科学化、辞书内容中国化、辞书出版系列化”的特点,并强调大型辞书稀缺且辞书“电子化”将是大势所趋。可见,辞书编纂亟需借助语料库等手段提升科学性和实用性。
释义是词典编纂的中心工作[4]228,亦是词典编纂和词典学研究的核心任务。关于日汉词典的讨论,国内学界围绕日汉词典释义准确性展开的讨论最为集中。杨心知[5]、孟海霞[6]讨论日汉词典的释义编纂原则时,强调了等值原则的重要性;王永全[7-8]、王锐[9]、罗益民[10]、白晓光[11]、张科蕾[1,12,13]等从词条的收录途径、释义表述、义项设置、例句表述等角度,指出现有词典中词条信息的不足之处并提出改善建议。还有学者从调查出发,分析了我国日汉词典用户人群的特征及需求。如张勇[14]调查了我国日语专业学生使用日语词典的情况及需求,主张词典编纂须增强词典使用者意识;王星、曹大峰[15]对日语教师、国内学生和留日学生等用户进行了大规模问卷调查,归纳了不同用户在使用习惯、使用策略、使用需求等方面的特征,旨在打造基于外语教学理念和外语习得特点,编纂满足不同用户需求的日汉词典。综上可知,现有研究已指出我国目前日汉词典的电子化程度仍需提升,词典的词条收录范围、词条标签规范性、词条释义准确性仍存在较大改善空间。但尚未有学者从系统科学的视角出发,讨论如何推动日汉词典编纂工作的有效开展。
系统“是由相互联系、相互作用的许多要素组成的具有特定功能的复合体”[16]12。 系统科学的独特之处在于用系统观点考察世界,是把对象当做系统进行研究所建立的知识体系,是以客观世界普遍存在的系统现象、系统问题为研究对象的学科[17]4。索绪尔观察、分析了大量语言现象,得出“语言是个系统”这个高度概括的结论[18]。词典要描写的正是音、形、义三位一体的语言文字符号系统。换句话说,词典是系统地描写语言,包括语言的各种属性[4]105。这一结论不仅对语言研究本身具有划时代意义,而且对于词典数据库的编纂同样具有指导意义。词典数据库是词典修订和生成的现代化工具。由此,词典数据库的建设可看作是系统科学思想的一个例证。词典数据库作为一个有机系统,符合系统的原理和基本特性。本文以外语教学与研究出版社多语种外汉词典数据库(日汉)建设项目为依托,借助DPS词典编纂平台,通过在Entry Editor词典编辑器中对八万余条低频词条的编纂实践(1)DPS词典编纂平台由法国IDM软件公司开发。该平台主要由DPS网站和Entry Editor词典编辑器组成。DPS网站主要服务于项目管理人员,完成项目协同管理工作。Entry Editor词典编辑器主要协助词典编纂人员实现编纂内容的协同。,尝试讨论系统科学的整体性原理、层次性原理、目的性原理及开放性原理如何指导日汉词典数据库建设,旨在推动我国日汉词典编纂工作更为系统科学的开展。
一、日汉词典数据库项目建设与系统整体性原理
系统整体性原理指的是,系统是由若干要素组成的具有一定新功能的有机整体。各个作为系统子单元的要素一旦组成系统整体,就具有独立要素所不具有的性质和功能,形成了新的系统的质的规定性,从而表现出整体的性质和功能不等于各个要素的性质和功能的简单加和[19]205。整体性原理的定义同时也揭示了系统中整体与部分的三种关系,即整体大于部分和,整体等于部分和,以及整体小于部分和。当各部分之间存在协同作用时,将会发挥“部分和大于整体”的效应。日汉词典数据库建设过程中的系统整体性主要体现在以下方面:从外研社多语言外汉词典数据库一期项目的整体建设规划来看,该数据库由日汉、俄汉、德汉、法汉、西汉以及韩汉等子数据库组成。日汉词典数据库作为外汉词典数据库建设整体的一个部分,具有其它语种外汉词典数据库不具有的性质和功能,是可以独立存在的要素。它与其它各部分构成外汉词典数据库整体。数据库的建成将解决目前国内多语种线上词典总体数量少,缺乏兼具权威性、准确性、时代性的大型线上词典资源的现实课题。从日汉词典数据库收录词条来看,本数据库依托权威词表及语料库进行选词,共计收录10万余词条。按照词条使用频率,可将其分为低频、中频和高频三大部分,其中低频词条约有8万条。作为日汉数据库建设的重要组成部分,低频词条多为以往词典中稀缺的专有名词及术语,覆盖多门学科。该部分词条的加入大大提升了词典的实用性,覆盖了更为广泛的日语学习人群,特别是为从事垂直领域的专业人士及翻译人员提供了极大的便利。日汉词典数据库的建成,将为我国不同水平的日语学习者提供使用方便快捷、释义清晰准确、例证丰富充实,集语言翻译、知识解说及读音速查于一体的大型线上词典资源。
二、日汉词典数据库结构设计与系统层次性原理
由于组成系统的诸要素的种种差异包括结合方式上的差异,从而使系统组织在地位与作用、结构与功能上表现出等级秩序性,形成了具有质的差异的系统等级。层级概念就反映这种有质的差异的不同的系统等级或系统中的等级差异性。这就是系统的层次性原理[19]217。词典的结构就是按照一定的体例和形式把这些词汇信息组织起来,形成词汇范畴清楚、知识层次明确、编排有序、相互关联、便于查验和使用的有机整体[4]40。章宜华、雍和明将词典编纂的结构分为宏观、中观及微观三个层次。宏观结构是词典框架结构的主干部分,用来实现词目编排的体系,由千千万万个微观结构支撑;中观结构是贯穿于中观结构与微观结构之中,用于构建词汇信息和语言知识的各种关系网络;微观结构是指宏观结构框架中各词条内部的信息组织结构,这些词条信息是分层次逐步展开的[4]59。以词典的微观层次为例,图1较为全面地展示了一个词条收录信息时可能出现的不同层次标签。方框内的数字表示每个词条收录信息的不同级别,英文为编辑器中的标签名称,中文为该标签代表的含义。词条编纂过程中,Entry Editor词典编辑器能够根据预先设置好的标签级别自动识别标签添加是否规范。词条信息的组织结构主要由词头注释层次(图1中的“1 HEAD”标签)和语义诠释层次(“1 BODY”标签)等部分构成,每个部分由不同层次的元素构成。根据不同词条收录的信息类型,对应添加不同层级的标签,由此完成一个独立且完整的词条信息收录。
图1 词条信息组织结构层次示意图
(一)词头注释层次
词头注释层次是词典数据库微观结构构建的出发点。该层次包括了词目词、声调、该词目对应的当用汉字、语种以及词源等,反映了收录词目的拼写、语音等范畴的基本信息。其中,词源作为一种知识信息,反映了该词条是如何形成并最终呈现目前这种形式和意义状态,是双语词典中的重要内容之一。当代日语中,外来语是指从西方国家的语言向日语中借入的词语,约占日语的10%,且大多在日常用语中。2005年第三版《三省堂简洁片假名语词典》收录了45 000条外来语和7 500个首字母缩写词[20]。日语中外来语的重要性可见一斑。此前的日汉词典中存在未给出外来语对应的原词标注、缺少外来语词源信息等不规范编纂方式,给用户进一步查询带来困扰。本次编纂对象低频词条中有大量以外来语形式存在的专业术语,语种及词源部分的添加有助于词典用户理解释义及其使用场景。本数据库词条编纂过程中,重视“词源”作为考察该词条的历史、来源的重要途径作用,强调标注外来语词源信息,参照《辞书编纂常用汉语缩略语(GB/T 15933-2005)》国家标准统一了外来语语种的缩略语用法。例如,英语简称为“英”,西班牙语简称为“西”等。同时,对“外来语词源”和“非外来语词源”的表现方式加以区分,便于词典用户理解及进一步查询。
“外来语词源”方面,以“ノイズリダクション”一词为例。该词为建筑学术语词汇,中文释义为“降噪量,噪声抑制”。该词词头部分除以片假名标注“词目”外,还要在“声调(tone)”标签中添加“[5]”,在“语种(lang)”标签中添加“英语”的缩略语“英”以及在“词源(etymo)”标签中添加“noise reduction”,以示这是一个源自英语单词的日语外来语。同理,当外来语词源为法语、德语等其它语种时,参照上述标准进行标注以辅助词典用户理解及使用。除以上述外来语形式存在的词条外,还有部分以日语中的汉字形式存在,但需要标明来源的“非外来语词源”词条。如“能格”一词,其中文释义为“作格”,是一个语言学名词,从语义的词源追溯来看,源自于英语“ergative case”,但从日语语词形式来看,并未使用片假名进行书写。关于这类词条词源的标注,统一在“notes”模块,以“源自英语词汇ergative case”的形式进行说明,与“外来语词源”区分标注。
(二)词义诠释层次
系统的结构和功能的层次性与系统的发展密切相关。系统的层次区分是相对的,相对区分的不同层次之间又是相互联系的。系统的多个层次之间在相互制约的同时,也发挥着相互影响的协同作用[19]219。词义诠释层次中包含有词类模块、派生词模块以及固定搭配(或习语)模块。各模块下设不同层次,用来阐释包括释义、用法、参见等信息范畴的内容。以“词类模块”为例,下设词类标签和义项模块。词类标签部分,考虑到日语中存在多种与中文无法一一对应的词类,本标签统一使用日语标注词类,方便用户查询。在词典信息的微观结构中,语义是核心内容[4]59。如图1所示,义项模块中除了“释义”标签,还配有“学科”“修辞”“语法”“参见”“例证模块”进行辅佐说明。既有研究中提到我国现有日汉词典中存在的缩略语立目地位问题以及信息处理不规范等问题[13]。本数据库通过添加“修辞”标签中的“缩”表明该词条的缩略语性质,同时,在给出中文释义的基础上提示未缩略原语,便于用户查询理解。
例如,“巧遅”一词词头注释层次中提示了该词条假名拼读,音调为[1]调以及对应的日汉字;词义诠释层次的“修辞(style)”标签提示了该词使用场景为“书”,即书面语,“参见(refer)”标签提示与该词条关联度较高、与其互为反义词的“拙速”一词,同时,提供了基于该词的惯用语 “巧迟不如拙速”中日文作为参考。“修辞”“参见”“固定搭配”等标签及模块,作为独立存在的要素各自有其代表的含义和作用,分别提示该词条包含的不同信息,同时又能发挥同等层次间以及多层次间的协同关系为整个义项模块服务。词典用户在查找词条释义的同时,还可获取修辞、惯用语、相关词条等信息,最终达到准确理解释义的目的。
三、日汉词典数据库词条释义原则与系统目的性原理
系统目的性原理是指“组织系统在与环境的相互作用中,在一定的范围内其发展变化不受或少受条件变化或途径经历的影响,坚持表现出某种取向预先确定的状态的特性”[19]238。由元素和结构组成的系统整体通常都是具有某种目的性的,是为了维持系统的某种功能或实现系统的某种作用而存在的。系统的目的对系统的元素和结构起着约束作用。正是在系统的引导下,系统的行为才有了方向,朝着有序的状态发展[21]。词典编纂的主要目的就是解释词义。双语词典与单语词典在释义本质方面存在差异。日汉词典数据库最终将生成以日语条目词为主和汉语词义在内的两种语言。其释义原则当参考双语词典的要求。陈伟梳理了多位学者关于双语词典释义的观点。例如,章宜华认为单语词典的词目词编纂主要以“释义”为主,而双语词典以“译义”为主。“双语词典不涉及到释义,不必用释义的形式去分析词目词的语义成分,而是用目标语与翻译原语词(词目词),即译义。”词典学家兹古斯塔(Zgusta)亦指出,双语词典的基本目的是在一种语言的词汇单位与另一种语言的词汇单位之间找出意义相等的对等词[22]7。由此可以说,日汉词典数据库的基本目的是通过翻译这一方式,在中日两种语言文化的符号系统空间寻找对译词,以实现两种语言系统文化及思维对话的功能。为实现上述目的,双语词典编纂需遵循等值原则。章宜华等指出,需要按照不同的对等关系对双语词典中的有关语词加以区分,一般可以分为完全对等、部分对等和零对等三类[4]236。
(一)完全对等
完全对等是指源语词和目的语在语义、语用等方面完全吻合的情况。以“イエローケーキ”一词为例,三省堂大辞林词典中该词条释义的中文含义为“从铀矿石中分离提取铀时,通过粗精炼等方式提高铀含量的一种中间产品。一种黄色物质,也叫铀浓缩物。”(注:笔者译)显然,如果在日汉词典编纂时直接采用上述日语释义的中文含义,仅仅是完成了翻译过程,是对日语条目词词条内容的“释义”。从“译义”角度讲词典用户尚未获得该词条的中文对译词。这种黄色铀浓缩物的中文名称为“黄饼”。因此,词条编纂时应采用“黄饼”作为释义内容更能帮助词典用户获取有效信息,同时,添加学科标签“化·材”(化学及材料科学的缩略语)辅助用户理解。
(二)部分对等
部分对等是指源语词与目的语词项之间在语义和功能范畴方面有限的对等关系。中日两国分属不同语言谱系。日语受到汉字文化圈的影响,存在大量从书写上与中文相同或相似的词汇,是为中日同形词。对于词典编纂人员来说,该类词汇的释义确认过程既有便利之处也存在“陷阱”。例如,“甲虫”“耕地”等词,遵循完全对等原则,直接给出“甲虫”“耕地”的对译词即可。但当遇到同形类义或同形异义词时需谨慎确认。例如,“美辞丽句”一词,仅从汉字所传达的信息来看,似乎意指“美丽的词藻,华丽的句子”,但其日文释义意为“只做表面修饰的华丽辞藻,毫无内容和诚意”(注:笔者译)。因此,除了“美辞丽句”之外,补充“花言巧语”作为释义更能传达该词条的语用信息。
(三)零对等
零对等是指由于社会、文化、政治和语言差异导致源语词和目的语中无法配对或对应的现象。本次低频词条编纂实践中收录了日本传统文化、民俗、建筑、政治等诸多学科的百科词汇,对于源语词中有汉字的词条释义,多采用保留原汉字并加以解释的方法。例如,“一刀流”一词保留原日语词汇中的汉字,将其释义标签编辑为“(日本剑术流派之一)一刀流”。“松納め”一词,源于日本新年时在门前装饰门松的习俗,属于日本特有的民俗类词汇。该词释义之一是“取下门松,撤掉门松”。其二则是 “(日本新年庆祝活动的最后一天)纳松”,即以撤掉门松装饰这一日作为新年庆祝活动的结束。
四、日汉词典数据库词条信息确认与系统开放性原理
系统的开放性原理指的是系统具有不断地与外界环境进行物质、能量、信息交换的性质和功能。系统向环境开放是系统得以向上发展的前提,也是系统得以稳定存在的条件[19]228。大数据时代信息量呈几何级数增长,借助互联网平台这一获取外部信息的有效途径,综合运用搜索工具以及熟练掌握多种搜索资源、灵活使用搜索技巧,对提升词条信息查证效率及准确性具有十分重要的作用。本次日汉词典数据库的词条编纂实践以业内稀缺的低频词条为主,涉及多个学科领域的各类专业词汇和术语。保证该类专业词汇和术语的词条信息准确性既是词典数据库建设的核心任务,也是词典编纂人员基本素养和关键能力面临的新挑战。
图2介绍了词条编纂过程中常用的外部资源,以“エンドルフィン”一词为例说明借助外部资源查证释义的过程。首先,通过安装后即可脱离互联网环境使用的EBWin词典,查询该词条的声调、词源以及日文释义等信息。EBWin是一种壳式软件,借助聚合类词典外壳,可以安装包括讲谈社日中词典、三省堂大辞林词典、新明解国语词典、广辞苑词典等多种符合格式的词典。查询词条时可以选择一个或多个词典同时显示查询结果,便于释义比较。除桌面词典外,也可以使用Weblio等在线词典进行搜索。搜索结果显示,多部词典给出的该词条释义基本相同。例如,广辞苑词典该词条释义的中文含义为“哺乳动物大脑和垂体中具有类似吗啡作用的肽”(笔者译)。三省堂大辞林词典该词条释义的中文含义为“哺乳类动物大脑和垂体中的肽,表现出与吗啡相同的镇痛作用”(笔者译)。上述中文释义可以看作是对该词条的概念解释,还需要进一步确认该词条的中文对译词。将该外来语的词源“endorphin”在术语在线网站(2)术语在线(https:∥www.termonline.cn/index)是由全国科学技术名词审定委员会主办的术语知识服务平台,聚合了全国科技名词审定委员会历年来发布的规范名词、科技新词等近百万条术语,是进行术语查证的权威网站。搜索,显示对应术语为“内啡肽”。该词条作为术语已收录在《生理学名词》《心理学名词》《生物化学与分子生物学名词》中,中文定义为“具有阿片样活性的多肽类物质,主要分布于脑和垂体等处”等。由此可见,“エンドルフィン”直接对应“内啡肽”这一术语,可将词条编辑为“エンドルフィン[3]英endorphin名生化·生理·化·心 内啡肽”。除术语在线网站之外,中国知网的“知识元检索”“文献检索”模块都能够发挥验证专业名词及学科术语的作用。
图2 日汉词典数据库词条编纂常用外部资源
除上述以外来语形式存在的专业名词和学科术语外,低频词条中还存在尚未作为术语收录的词条。例如,“スタジアムジャンパー”一词属于和制英语,由英语中的“stadium”和“jumper”复合而来。三省堂大辞林词典中该词条的中文含义为“前后身与袖子颜色不同,胸前或后辈印有徽章或标志的运动夹克,棒球选手热身时穿着的衣物,后在普通大众中流行”(注:笔者译)。将该词在搜索引擎中进行图片搜索,可知该词条所指的服装并非普通的“运动服”,应为“棒球服”。此外,还可以借助筑波大学语料库、少纳言、中纳言以及北京语言大学语料库中心等多种语料库的搜索功能,确认词条的词类、释义、搭配、例句等。
日汉词典数据库建设是一项系统工程,从数据库整体规划到结构设计,从收录词条的释义原则到释义确认路径,既是局部要素不断优化的过程,亦是词典编纂逐渐走向综合发展的过程。数据库结构设计从词典用户视角出发,设计了“词头注释”和“词义诠释”层次,囊括了声调、当用汉字、语种、词源、词类标签、义项模块以及固定搭配等词条信息,优化词条结构,规范词条信息标签。词条释义以等值为原则,做到以对译词“译义”开展编纂工作,积极调用词典搜索、术语搜索、学术搜索、网络搜索以及语料库搜索等外部资源,提升词条释义准确性。本次日汉词典数据库建设通过整合现有资源,在语料库及高效的编纂软件技术支持下,旨在建成富有权威性、准确性、时代性的大型线上词典。系统科学的整体性、层次性、目的性及开放性等原理还将继续指导日汉词典数据库完善建设工作,为后续建成多模态大型线上融媒体词典奠定扎实的基础。