国际计算机辅助词典编纂系统管窥*
2012-08-07华烨李亮
华烨 李亮
(华烨 广东外语外贸大学外国语语言学及应用语言学研究中心 广州 510420)
(李亮 广东外语外贸大学词典学研究中心 广州 510420)
一、引 言
计算机具有文字容量大、处理速度快和检索方便等技术优势,国内外早已把它当作词典编纂不可或缺的工具。词典编纂平台或计算机辅助词典编纂系统在国际上叫作“Dictionary Writing System”(词典编写系统,简称DWS),有时也叫“Dictionary Production/Publishing System”(词典生成/出版系统,简称DPS)。它是专门用于词典编纂的计算机软件——编辑器,设置有词典语料库以及语料库导入和词典数据导出接口,可以实现词典语料、词典编纂、词典编辑、数据存储和成果输出等一条龙服务功能。
在国内,20世纪90年代就开始了词典编纂平台的研究和开发,有关该问题的研究论文和开发成果也不少,比较有代表性的有:南京大学双语词典研究中心开发的“基于语料库的双语词典编纂系统——CONULEXID”、广东外语外贸大学词典学研究中心开发的“基于语料库的WEB词典编纂&自动生成系统”、外语教学与研究出版社与北京大学合作开发的“基于语料库的双语词典编纂平台”,以及北京大学的“词典编纂的计算机辅助开发与管理系统”、教育部语言文字应用研究所的“基于语料库的数字化辞书编纂平台”,商务印书馆的“辞书编辑编纂系统”。这些系统大多以大规模语料库为基础,利用语言信息处理计算机技术等,研究词典信息的获取、微观数据项的标注和生成、数据结构关系和检测、数据的获取和词典的生成等,以突破传统的辞书编纂概念,建立一种新型的辞书编纂模式。商务印书馆还进一步探讨数字辞书出版和百种精品工具书数据库,实现了词典间的互文或整合,形成了以词条为单元的词汇知识系统。
此外,还有其他不少单位正在尝试开发词典编纂平台,但大多是科研机构的一种科研尝试或为了某一词典项目而开发的专用工具,只在内部使用,至今还没有一家能投入商业运营。而在西方,由于语料库的建设和使用比较早,一些词典出版机构从20世纪七八十年代就有了词典编纂、编辑的专用平台,如牛津、朗文、柯林斯系列词典都是在专用平台上编纂和编辑的。同时,还有一些电子出版机构或软件公司开发了一些商业编纂平台,现在已经广泛应用于词典编纂领域。比较有代表性的有:法国IDM的 DPS、俄罗斯的ABBYY Lingvo Content、南非的TshwaneLex、SIL国际的 Lexique Pro和法日合作的彩蝶Papillion等。下面就对其中几个做一简要介绍。
二、法国IDM的词典生成系统DPS
1.DPS系统概述
IDM词典生成系统(Dictionary Production System,简称DPS)是法国多媒体传播工程公司(Ingénierie Diffusion Multimédia,简称IDM)开发的。DPS可以使各类参编人员在主编的指令下协同一致、有条不紊地进行词典的编纂、信息检索和审校工作。
IDM公司从1999年开始,先后与朗文和牛津出版机构合作,开始了词典生成系统的研发,完成了词典标注文本从SGML向XML的转换,大大提高了词典编纂和出版的工作效率。该公司现有五款与辞书有关的产品,分布在500多家用户中,主要涉及词典编纂和词典的出版与传播(网络形式与光盘形式),其中包括:“Dictionary Authoring XML Editor/XML词典文本编辑器”和“extensible Dictionary Configuration Chain/词典文本格式转换链接器”等,构成了系统的词典编纂、编辑和出版工具。
2.DPS系统的结构和功能特点
该系统采用模块化设计,由“用户编辑模块(Authoring XML Editor)”、“搜索模块(Search Engine)”、“工作分配和流程管理模块(Work Allocation and Workflow Manager,简称工作流模块)”和“校对模块(Proofing Tool)”等组成了一个系统的词典工具框架。每个模块具有特定的功能,又能相互补充和配合,可大大提高词典编纂的工作效率。可见,该系统具有网络化、协作性、可索性和可控性,因为它有强大的搜索引擎和明确的工作流方式,强调通过“中央数据库”来实现成员间的协作编纂。从词典编纂的角度讲,它具有多语种、多功能的特点,可用于单语词典、双语词典、义类词典(thesaurus)、引文词典或百科词典等的编纂。系统全面支持Unicode编码、XML格式和多种文档类型定义(DTD)格式,可以方便词典信息的导入、导出和传播。目前,该系统在世界上拥有500多个客户,并被朗文等专业词典出版公司所采用(McNamara 2003)。
用户编辑模块可进行双屏双文档同步显示、XML元素属性的安全和快速修改、自动保持元素间相互参照的更新与安全保障、段落的自动编号和文本块的拖放式移动、批注和附加标签、XML模板的自定义等。
搜索模块可以进行简洁高效的语言查询、多个词典数据库的同步搜索、XML格式的输出;另外,它还支持多语种检索、模糊查询,能做到XML与关系型数据库的完美整合。
工作流模块是由进程(process)、步骤(step)和任务(task)三个方面构成的工作流,能够进行任务的分配控制、任务的进展监测、任务文档的宏观管理、日程事务的安排等。
校对模块能够帮助编纂人员从“用户视角”进行阅读和理解,包括三个阶段:编纂阶段(composing)、关键审读阶段(critical reading)和付印前审读阶段(pass for press validation),能够生成PDF文档,并与Adobe公司的InDesign排版软件进行无缝衔接。
3.DPS系统的界面结构及功能特点
DPS系统的各大模块都有相对独立的操作界面,限于篇幅这里只对用户编辑界面做简单介绍。编辑模块是基于微软的MSXML 4.0开发的,其界面是用XML格式构建的。新安装的编辑器由于没有加载任何词典文本,界面上各功能区没有任何编辑对象。加载文本后,在四个功能区,有三个区域显示出编辑内容(见图1)。
从左到右的四个功能区分别是:1)词目总览区,显示编辑文档内所包含的全部词条的词目词;2)词条预览区,显示编辑区域当前词条的编辑现状和修改结果;3)XML树形结构信息编辑区,是编辑主要操作区域,编辑可以直接增删和修改词条内容;4)当前被选中的树形结构节点的属性显示区。
图1 DPS系统的界面功能分区
由于有些词条的内容比较多,一个页面难以展示全部内容,因此四个区域都设有水平滚动条和垂直滚动条,方便操作者查看编辑内容。第三区域为主操作功能区,其上方有三个按钮,用于隐藏或显示主功能区外的其他功能区;由于有些词条的内容比较多,一个页面难以展示全部内容,因此四个区域都设有水平滚动条和垂直滚动条,方便操作者查看编辑内容。在第三功能区上方有三个按钮,左边按钮可以隐藏或显示词目总览区,中间按钮可以隐藏或显示词条预览区,右边按钮可以隐藏或显示树形结构节点的属性显示区。这样设计是为了方便使用者在编写过程中扩展主要编辑界面,并在需要时调出其他界面。此外,用户把鼠标放在四个区之间的“间隔条”上的时候,鼠标会变成“水平双向箭头”,按下左键便可以任意调节当前区域的宽度,十分方便。
在默认情况下,“词目总览区”将会加载在编的全部词条的词目,用鼠标左键单击“词目总览区”的任一词,第二和第三功能区会即刻显示出该词条的信息内容,编者便可以进行阅览或编辑。
4.DPS系统的编辑功能特点
在编辑器中央的最上方,并行排列有五个工具按钮,分别是:NEW、PRINT、PROTECT、TEMPLATE和FIND,鼠标移至这些按钮上方可显示快捷键提示;其下方是五个主菜单项目,分别是:FILE、EDIT、CONFIG、STATS和HELP,这些都是为词典编纂和编辑设置的文本操作功能。
1)“NEW”按钮是新建XML的节点,用于“新建词条”,即增加“词目总览区”所没有的词条。点击该按钮,会弹出一个小窗口,按照窗口内容提示操作即可完成词条的增添。
2)“PRINT”按钮是用来进行打印输出的,点击该按钮会弹出一个对话框,询问是“Print tree/打印树”还是“Print preview/打印词条预览”,选择其中之一,点击打印按钮就能调用系统的打印机输出所选内容。
3)“PROTECT”的功能是“保护词条”,是对某些词条在某些时刻进行内容锁定,避免编者在某些情况下因误操作而导致编纂数据改动或丢失。
4)“TEMPLATE”用于模版调整,即对整个词条编纂模板设置进行修改,以调整词典的微观结构及其内容分布,使其词汇知识的组织结构不断完善。
5)“FIND”的功能是对现有编纂内容进行多种检索,可以向上向下检索,也可以指定大小写敏感性,还可以对每个词条的“释义”或“例证”之类的局部结构进行检索。
在主菜单中,“File”只有一个子项目“Save”,是对当前文档进行“另存为”操作;“Edit”按钮有11个子项,可以对当前文本进行“复制”、“粘贴”、“撤销上一步操作”、“剪切”、“删除”等常规编辑操作;“Config”是对编辑器的启动和运行参数进行调整,包括几个功能区的显示形式;“Stats”是对所有词条信息的统计;“Help”提供对一些重要操作方法和常用快捷键的描述,这样有利于操作者提高编纂效率。此外,在主菜单和五个功能按钮的左侧有一个“+”按钮(见图2),它的功能是提供所有词条的“语体信息统计”,如有多少个医学、生物学、数学、通讯等词目的信息,以及显示当前编写操作是处于整个工作流中的哪一个步骤。
5.存在的问题及建议
通过分析可以看出,该词典生成系统过分强调网络化和中央数据库,可能导致较小的词典或较小的词典编纂团队在集约式的环境下无法便捷地操作;在编辑界面方面,主菜单和工具按钮显得过于单薄,一些常用的工具按钮没有凸显出来。建议适当增加在单机和小团队情形下的编纂需求,如设计出“离线版”或“迷你单机版”等;增加常用按钮如“剪切”、“复制”、“粘贴”等,提供不同风格和颜色的界面(“皮肤”)供编者选择,这样既能满足个性化需求,又能避免长时间操作可能产生的视觉疲劳。
三、俄罗斯泰比词典编写系统[1]
1.泰比系统概述
泰比词典编写系统的英文全称为ABBYY Lingvo Content,是一款专为词典编纂、修订和管理而设计的词典编写系统,词典数据可以导出为不同的格式出版,无论是纸质词典还是电子词典(含光盘、网络和掌上词典)。其用户面向出版机构和个人,主要功能有:分析、处理和存储语言数据、词典编纂任务的分工、词典的审校(拼写和参考文献等)、词典编纂各阶段的支持、各种版本辞书的出版。其词典数据能以各种格式导出,用于纸质词典、电子词典(含手机词典)和网络词典的出版。
“ABBYY”(泰比)有“敏锐的眼光”的含义,该公司的重点发展领域是文档识别和语言技术。2003年,泰比开发出词典编纂系统,开始应用于自己公司的词典项目,后来便投入商业运营。截至2011年1月,泰比已经是一家拥有1000名员工的国际化公司,产品销往全球130多个国家,在9个国家设有办事处。迄今,泰比已经出版了40部词典,包括普通词典、专业词典、词汇手册等,其中《当代英俄词典》收词超过10万条,并提供了大量生活中常用的例句。
2.系统的功能和结构特点
该系统采用客户机/服务器架构,能进行分布式运算。系统的界面友好、功能较强,能够编辑、更新、补充词典内容,并能输出不同格式的文件,如DSL和LSD格式(这种格式运用于泰比电子词典软件)。主要功能特点有:
1)基于XML技术,采用DTD格式定义,容许用户设定词典编纂结构,能保证词典文本结构的可调性和一致性;支持多语种编纂和多部词典同时管理。
2)实行工作流管理模式,能保障存储数据的安全性,并能跟踪词条的版本变化情况,如哪一个人编哪些词典或词条,词典编纂的进度和质量如何等,还可以跟踪和监控词条的相互参照关系。
3)词条编辑功能可使编辑人员在校对词典稿或修订词典时,根据需要利用拖动的方法直接调整词条内的义项次序。
4)有词条编纂工作的历史记录,主编或编辑人员能查看文本的修改、补充、删除的内容;如果有必要还可以进行数据还原。
5)有词条信息过滤功能,可利用日志——过滤工具和一些必要参数,如语词的拼写、意义、标签和处理状态等,找出特定的内容,并对它们进行处理或分配给其他编写人员处理。
6)能对词典数据,包括词目词、例证、复合词、习语、同义词、反义词、参见、标签、有声句子、有声文件等数据,进行多角度、多层面的统计。
系统既可以用来编纂全新的词典,也可以从多部现有词典中提取所需信息,然后再按新的设计方案补充新的内容,从而合并成一部新的词典。旧信息的提取是通过一个精密搜索和过滤引擎实现的,用户若想编一部经济学词典,就可以根据文本类型来提取现有词典的经济类词汇或义项,然后加入到新编的词典中;当然,也可以把多部专科词典合并成综合科技词典。(提取界面见图2)
图2 新旧词典对比和信息提取窗口
图2左边窗口是新编词典的内容,右边窗口是几部旧词典,通过选择功能可以把A组中的营销(词典)和政治(词典)、B组中的法律(词典)移入左边的窗口;然后,按下创建(Create)按钮,便把相关信息提取出来,合并到新词典中去。
3.泰比系统的界面结构及功能特点
泰比系统的界面与IDM公司的编辑模块有些类似,也分为词目总览区、词条预览区、XML词条树形结构编辑区和标注编辑区(见图3)。所不同的是,右下角的“特殊符号插入面板”,这是一个很贴心的人性化设计。泰比系统的四个工作区也有水平滚动条和垂直滚动条,可以进行各个区的宽度和高度的手工调节;这样,编者在面对大量信息项时能根据需要进行临时性界面调节。
在界面窗口的上部是主菜单和一列工具按钮。菜单从左至右是:文件、词条、编辑、词典组、工具、用户管理、选择项、帮助。可以看出:a)该系统设置了更多的菜单和工具按钮,表明其功能更多、更细;b)工具按钮不仅有文字,还有图形按钮,这体现了人性化和用户友好的一面;c)词典组(Dictionary Group)的设置表明该软件确实能进行“多部词典的同时编纂”和管理;d)标题栏上依稀可见的“server”字样和工具栏上的“Assign to”(带有头像图示),表明该软件是“具有高权限的控制端”或者“已经登录为高权限的客户端”,并且在高权限的情况下可以进行“词条分配”之类的“群组操作”,体现了分布式编纂的工作方式,这与产品说明中的“可以进行用户组的创建与协调”是一致的。
4.泰比系统的编辑功能特点
词目总览区显示出词典的总词表及其编辑状态,点击其中任何一个词项便可激活编辑功能,并查看其信息内容;词条预览区显示当前词条在词典中的版面格式,对词条内容的增删或修改都会在这里得到反映;词条树形结构编辑区显示词目词及其主义项和次义项的相对位置,如果有必要,可以用鼠标拖曳的方法调整义项次序;标注编辑区是主要的文字编辑平台,可以在这里进行词条内容的编写,义项、例证和同义词等的增减,参见其他词条,用专用符号注音等。
图3 泰比词典编纂系统的界面结构
在已经加载词条的情况下,编者可以进行以下的文字操作:a)在词目总览区进行词目的选择和跳转;b)在跳转到相应的词目之后,就能看到“词条预览区”和“树形结构区域”已经同时发生了变化;c)如果需要对某一词条的某个微观结构项进行编辑或具体修改,则直接用鼠标单击树形结构区的相应节点;d)在节点被激活并处于等待编辑状态之后,编者便可在标注编辑区输入或修改词条信息了;同时,如果编者希望看到更加详细的XML的结构信息代码的话,则可以用鼠标点击“XML节点编辑区”,在这里编辑相关信息即可。一般来说,由于泰比的结构与IDM编辑器类似,它应该也有丰富的右键功能,如对树形结构节点的合并、新增、删除、对调、刷新等。同一词条的微观结构中的各种信息项,可以用鼠标进行拖动来实现相对位置的调整,十分方便。(参见图3中的树形结构编辑区)
此外,服务器端也具有类似“考勤系统”的功能,即记录各个编纂者的系统登录时间与注册时间,且形成历史记录。词条编纂、编辑版本的历史也有“记录”,便于出现问题时进行必要的回溯追踪。
5.存在的问题及建议
目前,该公司主页上的产品介绍已不再包括这款软件,我们怀疑是该公司放弃了词典编纂系统的商业开发,因为ABBYY公司的产品线很广,员工的数量有千余人,其ABBYYLingvo系列电子词典和OCR识别软件都十分畅销,导致了“词典编纂软件”的开发力量不断向“电子词典”的开发转移。希望他们能重视词典编纂平台的改进,开发出有特色的词典编纂系统。
四、南非TshwaneLex词典编纂系统
1.TLex系统的研制背景
TshwaneLex(简称TLex)是由南非TshwaneDJe公司研制的一款基于XML的词典编纂系统。该公司专门从事语言技术研究和开发,包括翻译记忆软件、语料库及索引软件、数据库编辑器、词典编写系统、词典出版系统、数据转换和术语管理软件等。特别是其词典编纂与词典出版系统,有许多替代人工操作的专业性能,能缩短词典编纂时间、节省费用、提高辞书质量。主要性能包括:内置语料查询系统、实时预览、用户设置、智能互参、自动跟踪升级、自动词目逆序排列、自动排序统计、导入Word文档或排版系统、多用户支撑管理等。该软件似乎有成为国际专业词典编纂行业标准的可能,它几乎能支持世界上大多数语言,已经与牛津大学出版社、朗文公司、麦克米伦公司、培生公司、西班牙皇家医学院、加拿大司法部等众多出版机构和政府部门建立起了业务关系,编纂出各种类型的词典。
2.TLex系统的功能和结构特点
TLex词典系统由三大部分构成:词典编纂系统(TLex Dictionary Production System)、电子词典出版系统(Electronic Dictionary Publishing System)和在线词典发布系统(Online Dictionary Publishing System)。词典编纂系统具有强大、友好、实用的特征;在线词典出版系统能够对现有的词典进行静态页面和动态页面两种方式的发布,也能提供专门收集用户反馈的页面功能;电子词典出版系统是一个相对独立而灵活的模块,可以把现有词典制作成光盘或发布在网络上供用户下载,而且实现了与微软的Office产品的良好整合,也可以驻留在Windows的系统托盘区随时弹出。
词典编纂系统的详细功能包括:语料查询功能和提取、实时词条预览、多种界面风格和可自定义界面、智能的“参见系统”跟踪、自动编号与排序等,还能够以多种格式将特定部分或全部词条导出为微软的Word文档或主流排版软件,如InDesign、Quark、XPP等。多用户和多语言的支持,音标输入便捷,独特的Ruler Tool功能可以进行各方面的编纂平衡性的监测,内建的脚本语言可以进行各种批量操作。
3.TLex系统的界面结构及功能特点
TLex系统界面结构比较复杂,其文字说明是英语和法语两种。编辑界面有四大功能区(见图4):1)词条总览区(左侧),提供词目词列表,供编者浏览和选择;2)树形结构编纂区(中上),编者可以在下拉菜单上选定预先定义的值,然后按树形结构上的微观信息项进行编纂;3)节点属性编辑区(中下),可以编辑和调整相关信息项;4)词条预览区(右侧),查看当前编纂词条的真实效果。这些设置与上述两个编纂系统大同小异,只是具体操作项目多一些。
在界面窗口的上部是主菜单和一列工具按钮。菜单从左至右是:文件、编辑、视图、词目、词典、格式、工具、窗口、帮助。工具按钮主要是文本编辑所必须的一些功能,包括多媒体图片、艺术字体等,甚至可以直接转换到Word文档。可以说,词典编辑平台的文字处理功能是十分强大的;另外,“词典”(Dictionaire)下拉菜单表明该系统也可以同时管理和操控多部词典。
图4 TLex词典编纂系统的界面结构
4.TLex系统的编辑功能特点
根据我们下载的试用版本的测试情况来看,TLex的编纂操作是从“新建工程”开始的。编者首先要选择是“单语词典”还是“双语词典”,以及“词典的名称与描述”、“词典的DTD文件路径”、“词典的声音和图像的存放位置”等。然后,就要选择用“单语编纂”还是“双语编纂”模式。如果是双语模式,则调出“左右两个区域”的窗口布局;如果是单语模式,则只是传统的四大窗口的布局。
其次,TLex还可以让编纂者选择界面的“横向模式”或是“纵向模式”;前者显示范围宽,一个词条的信息可以一览无余,对于专注于单个词目或较少相关词目而言比较有利;后者显示面窄(只有横向的一半),但词条数目多,需要借助滚动条查看,对于关注一系列词条的对比分析比较有利。
一旦进入编纂状态,TLex则与其他的词典编纂软件极其相似,即在“词目总览区”进行词目的浏览和选择,在“树形结构区”或“节点属性编辑区”进行编纂,同时在“词条预览区”实时查看编纂或修改的效果。不同的节点之间的关系可以用鼠标拖动来进行调整,也可以点击右键来选择“删除”或“刷新”等选项。值得一提的是,该系统有一“相互参见对照”功能,编者能把“cross-reference/参见”窗口调出来,查看参见和被参见的信息内容,可以对所有参见关系进行系统查阅、管理和校改。
5.存在问题及建议
Tlex的词典编纂、电子词典出版和在线发布系统三个模块的功能之间有些重叠,可能是出于将三个模块进行独立销售的考虑所致,但是也会给购买一套完整系统的用户带来麻烦。另外,缺乏对在线语料库和丰富的网络资源的利用功能,而庞大的互联网语言资源也是词典语料和数据的主要来源。要解决这些问题其实也不难,如在三个模块内部设计出“自动屏蔽重叠功能”的子模块,就能解决功能重复的问题;提供一些诸如直接查询在线BNC、ANC或COCA语料检索功能,也可以设置选择必要的网上参考词典和词库(如Moby Thesaurus和Wordnet等)的功能,能方便地跳转到这些网站进行必要的信息提取,以解决网络资源利用的问题。
五、结 语
上述几个词典辅助编纂和出版系统作为商业软件已经有10~20年的历史了,这些软件现已广泛用于世界各大辞书出版社的词典编纂与出版过程中,并取得令人瞩目的成果。目前在我国市场上的国外英语词典大多是利用这类软件加工或编辑的。有了这些辅助平台,词典编纂语料的搜集、加工处理和提取,词典信息的编写和编辑过程中的文字处理、统计和校改,以及建立词典数据库等都变得轻松和容易了。在提高词典编纂效率和质量的同时,还能节省大量的人力、物力和时间。可以说,在辞书出版界,谁拥有了这些现代化数字平台和基于这些平台的词典语料库和数据库,谁就掌握了辞书编纂和出版的主动,就能编纂出版高质量的辞书,在市场竞争中立于不败之地。
附 注
[1]由于版权问题,无法获得ABBYY公司编纂系统的样本或免费试用的机会,只能从其网上公布的产品说明和相关文章中找到一些截图,并据此对其功能和结构进行描写,内容有很大的局限性,仅供参考。
1.De Schryver G M,Prinsloo D J.Dictionary-Making Process with“Simultaneous Feedback”from the Target Users to the Compilers.∥ Heid U.et al(eds.)Proceedings of the Ninth EURALEX International Congress.Stuttgart:Institut für Maschinelle Sprachverarbeitung,Universität Stuttgart,2000.
2.McNamara M.Dictionaries for All:XML to Final Product.∥XML Conference,Philadelphia,USA,2003.
3.ABBYY Ⓡ LingvoTMContent Dictionary Production System:An Instruction(Russia:ABBYY).
4. IDM's Dictionary Publishing System: Dictionary Editor Tutorial(France: Ingénierie Diffusion Multimédia).
5.IDM's Dictionary Publishing System:Technical Overview(France:Ingénierie Diffusion Multimédia).
6.IDM's Dictionary Publishing System:A Demo(France:Ingénierie Diffusion Multimédia).
7.TshwaneLex 4.0:A Demo(South Africa:TshwaneDJe).