网络环境下的出版社词典编纂工作流研究*
2012-01-28王东海
文/王东海
在新中国成立后相当长一段时间里,辞书的编纂多被认为是专家层面的工作,一般由科研机构(如中国社科院语言研究所词典室)、自由作者(包括合作模式与单人模式)完成编纂,出版社仅仅是在作者交稿后介入编辑、出版流程。各大出版社并不十分重视自编辞书。随着辞书的社会效益和经济效益的日益突显,出版社逐渐开始转换角色,由接受作者投稿出版辞书慢慢转向自主策划组织编纂辞书。如中国大百科全书出版社、汉语大词典出版社(现已合并)本身就是为组织、编纂、出版大型工具书而成立,词典编纂是其强项。湖北辞书出版社和四川辞书出版社承担的核心工作也是《汉语大字典》的编纂、修订,上海辞书出版社承担《辞海》的编纂与修订,这些都是词典编纂任务集中明确的出版社。而商务印书馆的汉语辞书、外研社的双语辞书,也都有悠久的优良传统,现在高等教育出版社、人民教育出版社以及其他各级出版社也逐渐设立独立的辞书室,承担词典编辑的任务。这些出版社的词典编纂力量专业而集中。在未来中国的词典编纂中,出版社将承担编纂量的半壁江山,而另一半份额中大部分将由出版社委托的相关科研机构或团体进行编纂,自由作者编纂的辞书比例会越来越少。
辞书的网络化编辑方式代表着未来词典编纂模式的发展方向,[1]在西方已经走过了试点阶段,进入良好的运行阶段,但在我国还未展开。其实,我国出版社的网络和硬件设备并不落后,有的甚至优于国外,落后的是缺乏运作大型网络项目的经验和管理模式,特别是在词典的编纂中还没有建立先进的项目管理意识。
运用工作流技术,结合汉语汉字的本质特点、汉语辞书编辑工作的特点和方式、汉语辞书出版的流程,进行词典编纂,可以提高词典编纂的效率和信息利用率,并为创造新的价值提供基础。工作流是对工作中的资源、任务、过程环节的有序、有效控制,这一运行原理与我们正在研究的基于网络的词典编纂工作模式的特点相一致。引进工作流技术后,将一个常规工作流程分解成定义明晰、界限清楚的任务,用计算机程序固定下来,建立工作者角色、管理账户、组织单位、用户之间的工作关系,并通过网络形成各个客户端的连通,形成一条生产线,按照一定的规则和过程来执行任务,并对它们进行实时监控和及时反馈总结,达到减少重复工作、提高办事效率和管理水平的目的。
本文运用网络工作流技术,采用任务驱动模型,整合语料库资源及编者人力资源,分解任务,将词典类工具书的编纂工作流分为规划中心、资料中心、勾乙中心、编写中心、排版输出中心五大环节。试图通过建立计算机辅助系统的工作模式,提升词典类工具书编纂的效率。
一、词典编纂规划中心工作流设计
规划中心的工作主要包括需求分析和方案设计两大内容。
1.需求分析
需求分析具体体现为词典编纂的选题研究。选题关系到一部词典的定位、宗旨和功能,是词典整体架构的基础和指导思想。需求分析的结果是形成一份完整的、论证充分的选题报告。选题一旦确立,以后的各个环节必须严格围绕这个指挥棒运作。
需求分析具体从以下四方面展开。①用户需求分析。分为年龄层次、文化层次、行业特点、用户对本词典的细化要求几个方面。②人力资源分析。分析工作中每个参与者的专业特长和技能特长,厘定在词典编纂中可以承担的具体工作,如资料分析、专科术语释义、同义词对比、校对等。③资源需求分析。各参与人员提供资源需求,核心是语料资源。④市场分析。主要围绕词典的营销、经济效益、社会效益、学术效益等方面进行分析。
需求分析是由主编和责任编辑给出主导意见,再采用面向内部和面向专家两个征求意见模式。在技术上建构基于B/S模式的网络征求意见模块。一些民众最关注的普及性的词典容易引起普通民众的关注和参与热情,如新词语词典、流行语词典等,如果条件允许,可通过网络征求意见,如《新华新词语词典》(商务印书馆,2003版)的编纂就有限制地使用了这种集思广益的做法。
内部人员、专家和公众三个层次的意见收集齐后,须在工作流中建立讨论模块,公示词典的题目、宗旨、定位、收词等基本信息。征求意见的类型分三种:①支持、反对意见。②修正意见。③补充意见。征求意见的途径可以多样化,例如可以编写几种风格、功能类型不同的样条置于网络上,让内部和外部参与人员进行评论和修改完善,这样可避免征求意见时的笼统、无目的性。
在集思广益的基础上,责任编辑需要形成一个完整翔实的选题报告。选题报告在线提交给主编审阅。工作流系统的最大特点是可以设置工作追踪,在审阅追踪器中,可以由责任编辑发起审阅邀请,邀请相关主编、专家等加入审阅,而在审阅追踪器中可以动态观测审阅进程,并有催请提示功能。选题通过后,该选题会以群发的方式发送至编写组所有相关人员,并提供审阅注释的及时反馈。这一过程贯穿于整个词典编纂流程,是一个开放的环节,允许随时提出修改意见。
2.方案设计
方案设计环节主要根据前一环节的选题报告,设计词典的体例,工作结果是形成词典的编纂细则。编纂细则是编写组成员的工作标准和要求,所以要细到标点、符号的使用规定。同时细则的每一条要具有共性、可操作性。例如《现代汉语词典》的编纂细则就有180条,分为总则、语汇、条目、字形与词形、注音、释义、举例七个核心部分,最后还特别规定了标志、标点、搭头字眼以及释义程式用语等细节。
编纂细则的内容又分为强制性细则和推荐性细则两种。强制性细则适用于统一处理的问题。将这些问题的处理方法明确规定,并无条件执行。如有例外情况,编者可通过工作流的在线反馈系统提交主编讨论,主编针对例外情况再修订,不允许编者自行处理。例如,释义方面用语的使用就需要统一规范,如“形容”、“比喻”这样的搭头字眼,“见”、“参见”、“即”、“称”、“同”等体现中观参见系统的释义用语,我们称其为词典释义功能词。当前词典编纂中存在这些功能词使用上的不统一和混乱的情况,如这方面不做出统一规定,必然加大主编统稿工作的负担。要严格界定这些功能词使用的不同情况及所承担的不同意义描写功能,在细则中进行明确规定。
推荐性细则多为有争议的问题。在工作流的交流板块上主编应与所有编者、顾问专家、内部人员一起进行讨论,斟酌统一解决方案。例如,在词典立目方面最难把握的是清晰区分词与语的界限、同形词与多义词的界限,功能标注方面难点在于词类标注中兼类词与词类活用、词义活用的分界。这样的原则把握需要以主编为主导,以专家意见为参考,发挥所有编者的判断力,求得共识。
细则是逐步完善的,往往直到最后出版才能最终完善。所以,工作流系统中的在线讨论应该在词典编纂过程中全程开放,关注编者的即时意见是主编的例行工作。
二、资料中心
在网络环境下的词典编纂工作流中,资料中心是最重要的资源环节,工作核心是动态组合语料库的建立。
早期词典的语料库追求文本的数量。词典语料库的建立往往忽略一个问题——语料的针对性。每部词典的编纂宗旨和定位不同,各种专项词典对语料的要求更具个性化。语料库动态组合是为了体现语料库的平衡性,而语料库的平衡也是选词立目、释义平衡的保证。
网络合作模式的后台语料资源应该是动态组合的。语料库组合的基础单位是语篇,组合的依据是不同定位的词典编者提出的要求组合,完成组合的条件是对语篇进行详细的多维度的属性标注,根据不同的属性标记在工作流中动态组合成各种语料资源集。
三、勾乙中心
勾乙是词典编纂工作流前端针对性的材料搜集和初步分析环节。勾乙是在报刊书籍的某些词句两端,画上形状像“乙”的记号(「」),表示要抄录下来,作为资料的一种做法。勾乙主要承担三项任务,一是在动态组合的语料库中,根据选词原则选定词目;二是为具体词条的编写从语料库中提取词条的最小语境集;三是针对语例集进行初步的分析和加工标注。工作结果是建立词目初表、有标注的词条用例表。
选词是词典编纂的重要环节,首先要根据词典的规模、定位和宗旨设定明确的选词标准。设定选词标准,首先要研究好收录对象的分类,按词典类型,设定各类词的收录比例。例如语文词典要设置好基本词汇、方言词、古语词、历史词、行业词、百科词等的选录原则。专科词典则需要设置好各分支学科的收词比例,还有纯术语、一般术语、准术语的收录原则。例如,综合性语文词典与综合性百科词典的区别是百科词收录的比例。
传统词典选词一般是利用资料勾乙的方法。勾乙分为普勾或普匀与选勾相结合。勾乙不只是勾词,还要勾出词的特殊用法或例句。在工作流中,普勾的方式可以用语料库分词标注与词频统计的方法来进行量化确定。这一过程全部由计算机完成,速度快,是传统手工勾乙的方法无法比拟的。另外,有了计算机的词语索引聚类技术,还可为是否收录该词提供通用度、分布度等方面的数据参考。
但计算机词频统计是一个既定词表,有先入为主的弊端,而对于大量未登陆词无法处理,所以不可能仅靠计算机词频统计确定收词范围,计算机提供的词表和词频表、分布表等数据只是选词收词的重要参考,但利用计算机的操作可以解决约90%的选词问题,还有10%的选词工作需要主编和编者的主观经验和积累来进行完善、补充和调整,资料分析员可将词表及自己认为不确定的词进行标红勾乙,提交主编和编者删减、修改、补充,资料分析员只有遴选推荐权。
本环节工作的结果是词目初表和词形资料表(含词频、分布度、异形、儿化等信息)。最后的选词词目数据是从语境使用实态中提取的,反映词语使用频率和分布的客观情况,这些信息又可反过来修正词典中一些靠主观经验厘定的内容,进行更精确化的校正。
词目勾乙完成后,资料分析员还要进行材料勾乙,即词条的用法勾乙。早期的手工资料勾乙需要先将一篇语料复印多份,然后使用不同颜色的符号进行勾选,如例句和特殊用法等。在语料库中,分析员可先将各词在语料库中的用例批量提取,形成最小应用语境集。这一环节的工作结果会形成一个相对完整的词语用例库,具有复用性,不但是本词典编者编纂的重要参考,以后编纂其他类型的词典也可反复使用,对其中的资料各取所需。
四、编写中心
编者承担具体词条的编写工作。编写中心的工作结果是词典清样的定稿排版。
编者核心工作可分解为如下几项:①确定立目条目,判断同形词与多义词以决定所立词目的数量;②从分析员对材料的初归类中判断义项的分设与合并;③选择义项的描写方式(释义方式);④界定兼类以供各义项词类标注,选择合适的释义先导词,界定义项的顺序;⑤确定书证或整理语例,标注语体语域属性等。这些工作需要编者具有专业的语言文字学知识或相应专科知识,具有较强的分析和概括归纳能力。
主编也需要承担词条编写任务,因为只有进入具体的编写环节,才能及时发现问题,调整编纂思路。主编所承担的词条应该是词典收词各级分类中有代表性的,如普通词与方言词、古语词、专科词等词汇类聚中的典型代表。
主编为编者建立账户,编者获得相应权限后,登录系统可以看到主编分配的词条编写任务及分析员传送的初步整理的各种知识材料。编者享有语料库的访问权,可随时在语料库中补充、测查相关材料或验证自己的释义,并与资料员保持密切的信息沟通,还可提出资料要求,直接以任务的方式传送到资料员工作台上。编者可以享有浏览其他编者编纂的内容的权利,但不具有修改权。这样便于及时解决体例不统一、释义内容互补性差甚至矛盾等的情况的出现。
编写环节是整个工作流的核心环节,在做好上述工作的基础上,还要突出以下几个工作重点。
1.知识元语义关系与关联释义
每一个词条及其释文都是一个相对独立的小知识元,但它们之间有着紧密的关联,体现着严密的系统性。释义时要有系统意识,一部词典收录的词条是一个系统,可将词条按照常用的同义、反义、类义、上下义、整体与部分等语义关系建立知识本体系统。当前,计算机工程界将语义关系的界定越来越走向细致化,例如俄罗斯的词汇函数就界定出70多种语义关系。词典编纂是一项操作性的工艺,不是纯粹的学术研究,过细的语义关系界定减少了区分度,也就影响了操作性。
在工作流中,要实现关联释义,还要做好三方面工作。一是主编分配工作时不宜按音序的方式分配,而应根据已经系联成小系统的同语义场的词进行分配,这样便于提高释义的准确性和系统性。二是在释当前词条时,由计算机自动从工作流中提取同场其他词的释义,列于当前词条的右边,方便参照释义。三是根据字词的属性关系建好属性关联,自动标注参见系统,并提取相关词的释义进行实时参照,一些多音词、同名异指词或异名同指词之间的参见关联可以基于这个关联标注来进行。可见,对字词属性进行关联标注本身就是词典中观参见系统建构的过程。
2.内容审校、统稿
已分配的词条编辑完成后须由小组长或词典主编进行审核,审核通过后进入备用库。在编者完成全部词条的编写后,所有词条将汇集到主编或外聘专家工作台上进行统稿。修改意见会及时反馈到编者手中。修改稿统一后由主编进行精确的统稿操作,主编主要审核释义的难易程度、辞书体语言表达风格、释义的各个细节的准确度和合体度等,同时要尽量保持词典体例、风格的一致性。统稿环节至关重要,主编是统稿的组织者,并由数位专家共同完成。统稿后将进入严格的校对环节。要坚持三审三校制度。最后由主编初定稿。内容的审核还包括行政审批平台,这是词典由主编传送给责编,责编通过后再发给总编,总编通过后即完成行政审批程序,进入公开征求意见阶段。
3.征求意见与定稿
征求意见是重要的环节,编写组的人员可能身在其中,而对很多错误或不妥之处无法察觉,外部专家站在旁观者和专家的角度会发现很多问题。征求意见分为内部意见征求与外部意见征求。在工作流中对内外部专家开放浏览权和注释权,供专家在线进行审核。对于一些使用网络不方便的专家可使用纸制本。意见的征求要细致,要落实到词条,时间不宜太短,要给专家仔细阅读的时间,从宏观到微观的每一个成分中探寻其中可能存在的问题。
专家库应该适时更新并区分层次,聘请一些有真知灼见、高水平且负责任的专家进入核心专家层。出版社应该有专门的ERP专家管理部门,统一管理专家的研究特长、工作量、报酬、贡献度等信息。
专家意见反馈后,要及时登记到工作流讨论栏,具体意见附在相应的词条旁,加审阅注释。然后由编写组进行逐条讨论,对词典内容进行再次修改调整。此过程要做好督办和催办工作,要发挥工作流的审阅追踪优势,采用工作流内短信催促或工作流外电话催促等方式。修改后还要经过主编再审和专业人员的再校,完成后主编定稿,转入工作流的专业排版系统。
五、排版输出中心
定稿后的词典进入工作流系统中排版输出模块。此模块可在线调用Word、方正书版、Adobe InDesign等专业软件进行编辑排版,最后发布出国际通用的PDF格式样本,再进入清样校订、签字付型。而印刷装订、出版发行等环节由于参与人员和工作性质发生根本改变,已经不属于本工作流环节。词典编纂工作流到输出专业排版的词典清样就已经完成。
六、词典编纂工作流的附加功能设置
1.数据修改痕迹及相关资料的永久保存
一部词典在这个工作流系统中作为一个项目存在,和该项目相关的所有信息及所有材料都会封闭在项目文件目录下,基于计算机的强大功能,有些词条内容的修改轨迹也可保存,以方便回溯,每次修改都会自动生成版本,需要时可以回溯到任何历史版本。这些宝贵的资料极大地方便了词典的后期修订以及词典系列化工作,也有利于学术研究。如《现代汉语词典五十年》(商务印书馆,2005)就汇集了现代汉语词典从1956年到第五版修订的主要材料,清晰地勾勒出了整个词典编纂和修订的流程,为词典史等方面的学术研究提供了大量宝贵的资料。
2.为词典修订和评论预留接口
词典编纂一般都工程浩大,难免不同程度地存在错讹之处,一部词典编纂完成,该词典编纂室的工作并没有结束,而要长期动态监控和发现词典中的问题,如体例不统一、释义矛盾疏漏、可进一步提高质量之处等,还要关注学术界相关评论中提出的修改意见,以便修订时使用。这方面工作主要由资料分析员承担,要将其作为一个例行性工作来处理。
要为词典评论预留接口,负责任的词典评论可以发现词典中的问题,归纳词典的优点,对于词典的营销至关重要。这些评论性的资料也要由资料员进行搜集,对有价值的评论进行整理,形成专题报告上报主编。
3.为词典系列化(含电子词典)预留接口
对已编词典的实用价值和经济价值进行全方位挖掘的重要方法是系列化。如大型词典的优势是满足查全需求,可在此基础上进行细化定位,开发快捷性或便携性等版本。系列化工作最主要的是词目、语例、义项数及每个义项释义的丰度的调整。因此词典编纂工作流要为这种系列化工作做好前期准备。
首先要对字词目、字词属性信息、释义、例证等进行字段化标记,这样可以保证每个标记点都能封闭为相对独立的知识单元,进行自由组合,以实现数据复用。将词条进行多维度标记,还可以帮助生成不同类型的专项词典,如根据《现代汉语词典》就可以生成方言词小词典、雅词小词典、同音词词典、三音词词典、联绵词词典等。这些词典的形成,依赖于工作流中对词条相关内容的详细属性标注,标注越详细,越易于利用计算机信息组合形成子类词典的雏形,越有利于词典系列化工作。
电子词典是近些年流行的词典类型,它的智能性、便携性及多媒体化体现着比传统纸质词典显著的优越性。而电子词典的核心要依据工作流中的词典文本及词条属性标注,详细的属性标注是电子词典多条件检索的基础工作。有了这些属性标注,词典的检索就不会只是停留在关键词检索阶段,而是可以进行复杂的布尔表达式检索、阈值区段检索、多条件组合检索、追加检索等操作。
词典的编纂是一个大型的知识工程,应构建一个由出版社为主导的基于网络的词典编纂工作流系统,对工作中的资源、任务、过程环节、权限进行有序、有效的控制,从而提高工作效率,真正体现编纂团队的高效协作。
[1]章宜华、雍和明.当代词典学[M].北京:商务印书馆,2007:377-402