APP下载

“我国汉语辞书队伍库及信息挖掘系统”的建设*

2011-04-02王东海张绍麒

辞书研究 2011年5期
关键词:辞书队伍研究

王东海 张绍麒

(鲁东大学文学院 山东 264025)

一、研究背景

辞书出版目前已经成为重要的文化产业。在海外已形成规模经济。以六大家族为核心的英语词典出版社借ESL(英语作为第二语言教学)推广之势,在全球抢占市场(牛津的英汉双语词典甚至在中国内地占统治地位),规模迅速壮大,很多词典出版社已经成为上市公司。

辞书是一个朝阳文化产业,近些年我们也认识到其重要性,自上而下地重视起来。我们延续了重视辞书编纂、出版的传统,在辞书数量方面,继续保持着大国的位置。但也存在一些制度化、结构化的问题,如:很多时候我们并没有把辞书上升到经济产业的高度,而仅将其当成普通出版物来对待,对辞书产业未来的发展方向和布局缺少超前性认识,缺少有针对性的辞书规划;辞书编纂出版的现状中还存在某种无序性,很多编者和出版者在做低层次的重复工作,相应的辞书政策滞后及缺位;我们对辞书编纂出版的具体管理有时也不太到位,多是跟在辞书编纂出版实践的背后,出现问题解决问题,缺少预先干预机制,比较被动;在辞书研究方面,我们还多停留在对传统经验的继承上,缺乏推出满足现代用户使用需求的创新性操作理论的能力……

这些问题在我国目前的辞书产业中不同程度的存在,已引起相关部门及很多学者的高度关注。新闻出版总署正针对辞书出版问题进行第三次辞书规划;教育部、国家语委针对辞书编纂及语言文字内容规划的管理,专门成立“汉语辞书研究中心”,在成立大会上,李宇明司长(2008)针对上述问题提出促进辞书研究与管理的新思路。另外,王铁琨先生(2007)也在多年前就提出“辞书强国梦”,张志毅先生(2010)在《人民日报》撰文呼吁“建设辞书强国”,并就辞书理论创新问题提出建议。

问题的症结在哪里?如果只是把上述具体问题归口相关行政部门进行解决,只是治标的行为。辞书毕竟不只是一项产品和商品,其编修研究都体现着典型的专业性,专业问题需要专业人士去解决,这样才能找到治本之法。

在我们的研究中,我们关注到影响辞书产业发展的根本因素之一——辞书队伍。辞书产业中各项工作的推进、各个问题的解决,都需要有特定素质和能力的人员,因此从辞书人才、辞书队伍建设的角度加强辞书产业研究至关重要。但我国目前还缺少对辞书队伍的现状、结构所进行的研究,仅见汪耀楠先生(1996)的一篇倡议性文章,让我们充分认识到辞书队伍建设的必要性和紧迫性,但还缺少实态的描写、问题的分析与解决方法的设计。

鉴于此,“汉语辞书研究中心”专门立项,对我国汉语辞书队伍的情况进行专项研究:在服务于辞书规划、辞书政策的目标下,调查分析辞书相关从业人员的基本情况和素质,描写辞书队伍的结构及存在问题,探讨辞书人才建设在辞书规划、编纂、出版、管理、研究等方面的作用,进一步提出辞书人才队伍建设的原则与方法,以促进我国辞书产业的健康快速发展。

为形成全面、新颖的结论,我们建设了基于网络的“辞书队伍资源库及信息挖掘系统”(以下简称“队伍库”),全面收集队伍成员丰富的学术、社会属性资料,并基于语义网络和信息挖掘技术,以个体为基本细胞单元,动态展示他们之间复杂的线性和非线性联系,发现其中的规律,以期让我国的辞书队伍从目前的自组织状态走向一种有引导、有组织的整合状态,最后为辞书规划和辞书政策提供理论和实践支持。

二、队伍库建设的“2+2”服务目标

队伍库的建设要基于全面的需求分析,库的服务对象及应用目标决定了库信息结构及数据利用模型的建立。队伍库的建设不宜求全求大,而应以国家的辞书规划与辞书政策为首要服务目标,兼顾辞书编纂出版与辞书研究两大次要服务目标,我们称其为“2+2”服务目标。

1.辞书规划与辞书队伍

辞书产业的发展不能盲目,要有明确的规划与布局。辞书规划是根据辞书研究、编纂、出版、发行、营销、使用、管理等方面的发展现状,在继承传统、借鉴海外经验的基础上,深入研究辞书类型分布,找准辞书产业核心重点及发展盲点,制订一个在较长时间段内重点攻关的辞书编修以及出版任务。成功的规划必须植根于成熟的辞书功能学、类型学理论以及编纂工艺。这些都对辞书队伍提出了很高的要求。

1949年以来,我们成功地实施了两次辞书规划。新中国成立后,初等及中等文化程度的民众扫盲及学习文化知识的需求特别迫切,但我国却面临着“大国小字典”(《新华字典》)的尴尬局面,“文革”十年甚至出现了 “辞书荒漠化”现象,辞书出版主阵地之一——商务印书馆(1997)的“百年大事记”中,“文革”十年一片空白,《现代汉语词典》也因此一直拖到1978年才正式推出。

1975年,中外语文词典编写出版规划座谈会在广州召开,会议讨论拟定了1975-1985年编写出版160种中外语文词典的规划(草案),获批准后马上进入具体实施阶段。这次辞书规划非常成功,在短短十年时间内,集中编纂并陆续出版了《汉语大字典》《汉语大词典》等古今兼收语文辞书中的扛鼎之作,还有一大批填补类型空白的语文辞书,成功实现了经典辞书的更新换代,满足了广大群众利用辞书学习文化知识的需要,一改我国“辞书荒漠”的局面。

从辞书队伍建设的角度看,这次辞书规划最成功之处在于相关部门充分发挥四方面的力量:一是专家力量,大范围动员全国知名语言文字学家和辞书学家参与辞书的编纂与修订;二是出版社力量,调动了全国各大有辞书出版实力的出版社的所有资源,出版了大量辞书,甚至成立了专门针对某一部辞书的出版社(如“汉语大词典出版社”);三是辞书管理部门力量,这次辞书规划的成功也在于政府的切实参与,自国家领导人到具体管理部门,全力推动,以国家行政力的权威性、刚性、强制性主导了本次规划;四是蓬勃兴起的辞书研究热潮为辞书规划提供了理论支持,辞书学的两个主要研究阵地《辞书研究》以及《词典学研究丛刊》就是在这个时间段创刊并蓬勃发展的。事实证明,在特殊情况下,只有政府有能力主导辞书规划,整合辞书队伍,在短时间内编修一些大型的服务于民众而又传世的经典之作。因此,“盛世修典”是以政府的强有力支持与引导为保障的。

1988年,新闻出版管理部门在成都召开了第二次全国辞书编纂出版规划会议。这次辞书规划以专科词典(社会科学专科词典、科技词典)和少数民族词典为主,兼顾中外语文辞书、百科全书。这次规划最成功之处是相关部门对出版社力量的整合:协调了全国一百多家出版社提交的2500多个辞书出版选题,抓重点,调结构,力避重复出版同类型的辞书。没有政府力量的强势介入,出版社各自为政,必定会出现大量质量低下的辞书,而真正需要填补空白的辞书却无法保障质量。事实证明,这一次辞书规划成果显著,成功地完善了汉语辞书的类型布局。

进入21世纪,辞书业的发展更加日新月异,一日千里,同时也出现了很多前两次辞书规划时没有出现和关注的现象和问题,相应的规划必须马上跟上。目前,相关部门正准备开展第三次辞书规划。

辞书规划要依靠各层次、各类型的人员来完成,辞书产业的健康发展需要做规划时“量力而行”,这个“力”就是人力资本,一些人力支持达不到的,可以先小后大,甚至可暂时搁置,留待以后规划。所以,辞书规划要先摸清近几年我国辞书队伍的家底,对人力资本的情况有全面了解,时间安排、步骤进度都能根据人力资本做好计划,从而保证制订的规划是切实可行的。我们的队伍库可为相关部门的辞书规划提供人力信息报告。要实现这一目标,应围绕七个在当前和未来辞书发展中的热点问题(辞书理论创新、学习词典编纂、电子词典、辞书知识产权、辞书编纂现代化、辞书评论与使用研究、辞书队伍建设——这七个问题将另文研究)展开有针对性的建设。

要完成这方面的工作,要求队伍库提供以下信息:目前我国辞书研究队伍支持最多的辞书类型地图;各种辞书类型研究和编纂的一线、二线专家地图;出版社掌握的合作专家地图;辞书队伍后备力量调研报告;出版社责编人员情况报告;辞书用户情报报告。

2.辞书政策与辞书队伍

在我们的研究中,辞书规划是对辞书发展蓝图的宏观勾勒,辞书政策则是解决中长期辞书产业发展具体问题的对策和规定。广义的辞书规划包括辞书政策。必要的辞书政策是政府对辞书产业实施有效管理的手段。

辞书政策体现在国家的法律、法规及政策规定层面。法律法规的最大作用是面向全国,而且具有刚性、权威性和贯彻性。但我国目前的辞书政策的制订还不是很全面,除了宏观支持鼓励,在很多具体问题上缺少具体的政策。

我们在新中国成立后从中央到地方的各类法规库[1]中进行检索,关于辞书管理的文件 (文件正文内提及“辞书”或“词典”、“工具书”等概念)数量很少。从文件标题上看,仅发现一份文件是与工具书相关的——《关于对工具类图书进行质量检查的通知》(新闻出版署1997年3月20日),而其他在正文中提及辞书的文件不超过20份,多是涉及图书评奖、知识产权、用字规范、出版物开本、盗版、稿酬等细节问题。在这些文件中,辞书多与其他出版物并列提及,很少获得单独的规范,能为辞书单独立条加以规定的仅见四例,涉及辞书中的异形词(教育部等部门关于在新闻出版、广播影视系统和信息产业、广告业试行《第一批异形词整理表》的通知)、蒙古语辞书(国务院关于八省、自治区蒙古语文工作协作会议情况报告的批复)、稿酬(国家版权局关于颁发《出版文字作品报酬规定》的通知)以及推荐常备工具书[关于印发《常备图书目录》(第一批)及《关于常备图书出版、印刷、发行管理的暂行规定》的通知]。可以看出,我们国家法律政策管理中对辞书的相关规定相对薄弱。

制订辞书政策的核心问题是什么?是以管理为本,而管理的对象则是辞书队伍。从已有研究成果库、已出版辞书库的相关评论报道等信息中进行全面的知识挖掘与数据类聚,队伍库建设至少能为制订辞书政策提供以下信息:目前辞书研究、编修、出版、市场四大方面存在的核心问题是什么?已有的针对辞书发展中存在问题的可行建议是什么?辞书评奖、辞书质量监测、辞书基金项目这三大政府工作的措施、效果如何?作为辞书政策制订者的管理部门的素质结构、能力结构是什么?制订者如何避免“外行领导内行”的弊端?……只有掌握这些核心信息,我们的辞书政策建设才会系列化和常态化。

3.辞书编纂出版与辞书队伍

辞书出版基于一个强有力的编纂队伍。在汉语辞书编纂历史上,已经成功实现了编纂队伍由个体向团队的过渡。但目前我们还没有对辞书编纂者个体、辞书编纂团队进行相关研究和了解。特别是以下几个核心问题:辞书团队中的编者个体需要什么样的学术背景,什么样的能力结构和知识结构?辞书团队如何组织编者进行有效的工作,才能将编者个人的知识共享为编纂团队组织的知识,再固化为全社会共享的词典知识?……

另外,辞书产业的调整和健康发展还要关注辞书编纂出版人才的培训提高以及后备人才的培养。未来的辞书编纂出版管理需要专业的辞书人才。但目前仅有新闻出版部门每年举办一次辞书人才培训班,培训对象主要为出版社辞书编辑、拟申请辞书出版业务范围的图书出版单位的编辑人员、具有辞书出版业务范围的图书出版单位未接受过辞书编辑专项培训的编辑出版人员;培训内容为党和国家的出版方针政策、法律法规,第三次辞书出版规划,辞书编纂与修订业务,辞书质量控制,语言学、词汇学以及数字辞书等知识。

但这种培训只是针对出版队伍,缺少对作者队伍的系统培训,远远适应不了辞书发展的需要。人才培养必须是有计划、有针对性的,利用我们的队伍库可研究目前高校及各辞书研究中心的辞书后备人才培养工作经验及教训,同时探讨高校、辞书研究中心和基地、出版社如何联动培养后备人才的问题。

4.辞书研究与辞书队伍

汉语辞书的经验总结与理论创新都依靠辞书研究。首先要求能从队伍库中捕捉辞书研究人员的全面情况,清楚展示从事辞书研究人员的数量、层次、研究方向、研究背景,根据不同的信息属性进行类聚,建立研究者人际网络系统,发现其中的隐含规律和联系(如学术背景与学术经历对辞书研究的影响等)。

其次,通过对辞书研究者学术成果的知识挖掘,抓住当前辞书研究中的倾向性问题,分清辞书领域的强势研究与弱势研究,类聚共同研究观点、研究方法或研究思路,最终能形成辞书研究的小流派。

再次,还要利用队伍库对以下几个核心问题做出集中的研究:如何继承传统的辞书编纂理论和经验?如何借鉴西方先进的编纂理念与技术?如何创新我国的辞书学理论?通过对已有成果的挖掘,找出这三个辞书研究中的根本问题的研究进展、研究差距,并对其进行客观描写与分析。

例如,从库中可挖掘出目前辞书编纂前沿的语料库技术、语义网络技术,新的辞书编排体例,创新性的释义操作理论如释义元语言、义项索引、整句释义等在我国的研究情况,揭示出已经引进了哪些先进的技术与理论,哪些在辞书编纂中进行了应用,哪些结合我们的实际情况进行了改造,哪些属于汉语辞书独创的理论等。摸清这些信息,对于引导学者的辞书学研究方向会有很大帮助,能为辞书研究者提供一个标明研究方向中的优势点、重复点以及弱点、盲点、空白点的主题知识地图,引导研究者更有针对性地选择自己的辞书研究方向以及确定具体的研究选题。

最后,队伍库还要能提供辞书研究与辞书编纂之间的关系信息,回答以下几个问题:辞书编纂与辞书研究的关系,如何互相发明、互相支撑?有过编纂实践的人的辞书研究特点是什么?有过辞书本体理论研究的人的编纂特点是什么?有过相关学科交叉研究的人的辞书编纂行为有什么特点?

总之,队伍库在服务于辞书研究方面要能做到对辞书研究队伍分流派、分方向,对当前辞书研究找问题、明不足、立优势,达到服务辞书研究和编纂的目的。

三、辞书队伍的二级构成

根据我们的研究,把辞书队伍分为生成性二级结构,底层是能关联所有个人信息的个体锚点,个体锚点又可关联生成二级结构——团队锚点和组织锚点。

1.个体锚点

汪耀楠(1996)认为辞书学需要三种个体人才:一种是规划、组织、编辑人才,一种是编纂人才,一种是理论研究人才。这三者有联系也有区别。根据当前分工细致化的特点,我们队伍库包括以下五种个体人才:

(1)研究者:高校、研究中心、科研院所、学会、民间研究团体和研究个体。研究者个体是队伍库的核心成员、原型成员,是我们关注的焦点。属性群主要分为两类。

① 基本属性群:自然属性,如年龄属性、性别属性等,主要用于描写辞书队伍的年龄梯队和性别结构;社会属性中的民族属性,主要用于描写民族语言辞书与研究者民族身份的关系;地域属性用于描写研究队伍的地域分布特征;工作属性群主要用于描写辞书队伍的工作单位分布,以便相关部门设立研究机构、进行课题投放。

② 学术属性群:考察研究者个体成员的知识背景与辞书工作的关系。学历名称、学位名称、导师、硕博论文、访学经历、留学经历、研究背景、研究领域、研究方向等属性,主要看研究者所学专业、学术经历与辞书研究的关系。研究方向和领域是核心属性。

(2)编纂者:编纂者个体、编纂团队(固定团队和临时团队)。

编纂者个体很多时候与研究者个体身份兼属,具备这两方面属性信息的,当为理论与实践兼具的全才型人才。而编纂者个体更多以其编纂的辞书为核心,设置辞书名称、出版社、用户反响、获奖、再版与修订等编纂方面的属性。

(3)出版者:负责出版规划的出版社总编、负责单部辞书的责编以及发行营销人员、用户调查人员等。

出版社个体成员是辞书工作中的中介、桥梁,其工作包括市场调研、选题、编纂外稿、责编、出版印刷、修订、再版的管理等,既是辞书研究者与辞书应用交流的枢纽,又是辞书与用户沟通的平台。出版社个体的属性群的设置主要包括责编辞书、辞书选题、辞书市场、用户调查等方面的信息。

(4)管理者:把辞书作为出版物管理的出版管理部门人员、把辞书作为语言文字准规范的语言文字管理部门人员。

管理者个体既是辞书队伍的一员,同时也是辞书队伍的管理者,队伍库主要是依据其工作性质设置属性,主要包括学历背景、学术背景、研究背景、分管工作、工作绩效等。

(5)后备人才:从事辞书研究与编纂的在校研究生,兼及编辑、出版专业的本科生。

学生个体是后备人才的主体,主要属性设置包括学习经历、学术经历、辞书相关课程和培训,并追踪其学习经历与日后参与辞书工作的相关度。

2.团队锚点

个体锚点可类聚成团队锚点。团队包括领军人物和团队成员,队伍库主要设置团队的研究方向、研究成果等属性。个体成员可以根据不同的属性类聚成不同类型的团队。

(1)研究团队

一个研究成果突出、研究方向集中、研究方法互相支持的团队的形成往往意味着一个研究流派的相对成型,形成研究流派是辞书学研究成熟化的重要标志。研究团队和流派中的领军人物和代表人物在某种程度上决定了一个辞书团队在国内外的影响力;团队研究成果的水平标志着一个研究团队所能达到的高度;团队成员的研究方向是否一致,决定了是否具备在短时间内集中攻关的能力,以及承担某些重大辞书研究、编纂、调研等任务的能力。目前采用的衡量研究高度的核心权重指标主要是“三高”成果(高引用率论文、高层次项目支持、高档次获奖),这些可在队伍库的成果分库中体现得非常清楚。这方面的研究团队主要集中在高校、科研院所、出版社等有组织的部门,人员相对稳定、集中。

研究团队还包括围绕学术期刊等研究阵地而形成的松散的团体,这些团队是自组织类聚的,其研究方向和特色往往与学术期刊等研究阵地的宗旨与追求相关。上世纪80年代以来,汉语辞书研究主要有两个阵地:一是《词典研究丛刊》阵地,出版12期后停刊,但在其中发表文章的作者大都成长为目前重要的汉语辞书理论研究者和辞书编纂者;二是《辞书研究》阵地,自1979年创刊后,已经被打造成中国辞书学科最重要的科研平台以及辞书队伍的最重要的培养平台,三十多年来,其作者汇聚成一个庞大的辞书研究团队。另外,其他相关的重要刊物也会类聚一些松散的团体,如《中国语文》等核心期刊也都有自己的辞书研究者队伍库,其研究特色主要是把辞书和语言文字研究相结合,很多有分量的辞书学本体研究的论文都出自这些期刊。这些期刊登载的很多有分量的辞书学论文,在我国辞书理论的发展过程中起到了重要的奠基作用。

(2)编纂团队

目前的辞书编纂已经实现了由个人编纂向团队编纂的转型。编纂团队可分为三类:

一是自组织型团队。编者多为专家,多凭兴趣在主编的召集和领导下共同编纂一部辞书,带有一定的民间行为的特点。

二是出版社编纂团队。商务印书馆、上海辞书出版社等许多以辞书出版为特色的出版社多设有辞书编辑室;一些老牌出版社,如人民教育出版社、高等教育出版社、中华书局都已设或准备设置专门的辞书室。辞书编辑们一方面责编外来辞书稿件,另一方面还以团队合作的方式自编辞书,编纂的辞书更加严谨和规范,且多能抓住市场脉搏,反响不错,但编辑的语言文字功底参差不齐,所出版的辞书质量差异较大。

三是有组织型专家团队。这类团队以编纂辞书为主要工作内容,组合稳定,编纂行为持久。有的带有科研院所背景,以中国社会科学院词典室为代表,这是一个历史悠久、经验丰富的编纂团队,背后有强大的语言文字研究力量来支持,其代表作《现代汉语词典》是公认的国内最权威的规范性语文词典;有的属于专家固定组合团队,以《现代汉语规范词典》的李行健团队为代表,编者队伍多由辞书学和语言文字学专家组成,拥有丰富的辞书编纂经验,背后一般有相关大型出版社的大力支持。

3.组织锚点

组织与团队不同。团队多是专业性、业务性的,有时具有民间性和自由性,团队成员有时会因为研究方向和编纂方向的不同随机组合变化,而组织有相应的规章制度和严格的行政管理体制,带有行政性、管理性,人员相对稳定。辞书组织主要分为以下三种:

(1)辞书学会

“中国辞书学会”挂靠在教育部语信司,其学术活动等的开展固定、有序,且受国家相关部门的统一管理。辞书学会成员来源复杂,有高校科研院所的研究者、出版社人员、政府部门管理者等,也有印刷厂、书店等和辞书工作相关的人员;辞书学会服务于成员成果发表和交流,设有语文词典专业委员会、双语词典专业委员会、专科词典专业委员会等九个分委会,方便会员进行有针对性的集中交流与沟通,学术活动空前活跃。这种集中交流也易于类聚不同的专业队伍,集中承担某项专业辞书任务,或集中突破某项科研难关。另外,在辞书事业较发达的地区还拥有当地自己的辞书学会,如上海市辞书学会,福建省、安徽省辞书学会等。

(2)管理部门

相关部门设有和辞书相关的管理组织。从辞书产业的角度看,主要分为语言文字内容管理组织(国家语委)、出版管理组织(新闻出版署)、知识产权管理组织(国家版权局)等。

(3)出版社

辞书出版社有正规的建制,直接受新闻出版部门的行政管理。出版社的辞书工作主要是对辞书的市场调研、选题策划、审稿、编辑加工、出版印刷、修订、再版等工作的管理。出版社既要打造研究者、编者、管理者沟通的平台,又要打造与辞书用户沟通的平台,是辞书队伍各类成员沟通的组织焦点,因此其枢纽地位非常突出。

组织和团队之间是紧密联系的。例如:各大辞书出版社要体现自己的竞争优势,体现差别化经营的理念,多拥有与本社辞书业务相关的、分类明晰的专家咨询团队,如商务印书馆的语文辞书专家团队、上海辞书出版社的辞书研究专家团队和专科辞书专家团队、外语教学与研究出版社的双语辞书专家团队等。这些组织中的专家团队是直接针对本出版社辞书工作中的具体问题而组织类聚的,因此研究力、见解力、执行力、解决问题的能力都很强。如果国家层面的辞书规划和辞书政策能将其整合,就可汇总为能切实为国家辞书产业出谋划策的真正的权威咨询团队。

总之,在了解了辞书队伍的二级结构的基础上,以个体锚点的信息建构为基础工作,利用计算机数据挖掘技术类聚不同的团队和组织,将使我们对整个辞书队伍现状把握得更全面、更准确。

四、辞书队伍的复杂性及语义网建库技术的选择

辞书学科的交叉性带来辞书队伍成员身份兼属的复杂性,其中辞书队伍与语言学研究队伍的纠葛最深。辞书学是一门非常特殊的学科,传统认为辞书学只是一门工艺,由于其收录对象主要为词语,解释的也是词义、用法,所以一直被系于语言学的词汇学门下,古今兼收的词典的编纂和研究有时也被系于训诂学门下,例如,对《汉语大词典》选词、释义的纠误研究,既可以看作训诂学、词汇史的研究,也可看作辞书修订的研究。当前随着社会科学各子学科研究的细化和丰化,辞书学凭独特的编纂理论获得与词汇学相骈骊的地位,辞书界一直呼吁将辞书学作为一门独立的学科来研究,但词汇学的各种研究还一直把辞书看作词汇存储、词义描写和词汇应用的工具,属于应用词汇学的范畴。这导致目前语言学研究队伍与辞书学队伍的严重交叉和重合,队伍库中有95%左右的成员都具有语言学研究背景。

但这种交叉有其优势所在。例如黎锦熙和吕叔湘等语言文字、语言理论、词典学等方面的权威专家主编的《国语辞典》《现代汉语词典》能分别成为代表民国和新中国词典最高水平的辞书,主编、编者的学科身份交叉兼属是重要的条件,这是辞书的语言文字内容本体决定的。因此,在辞书学后备人才的培养中,语言学课程应该占有相当的比重,单纯从编辑、出版专业的角度培养人才是难见成效的。

另外,辞书队伍中还存在着管理人员、研究人员与编纂人员,编纂人员与管理人员、出版人员等身份兼属的情况,其个体属性之间必然会发生复杂的非线性联系,这给辞书队伍库的建设提出了难题,但这种复杂混沌的状态却最具研究价值,可探讨左右辞书产业的隐含因素。例如,身份交叉必然会发生互动影响,以辞书研究队伍为例:纯理论派的研究,多体现的是与语言学的交叉性,对西方理论的借鉴、译介特点,以及内省、构拟的编纂方法;有编纂经验的人员的辞书研究,更多出于经验,但可能存在不同程度轻视交叉理论的情况;出版人员对辞书的关注点更能体现市场性与可行性,体现与用户需求的妥协与折中,能更好反映市场当前热点或预见即将出现的热点;辞书管理者的辞书研究更理性,着眼于辞书的各种研究如何与语言文字规范一致,与辞书规划、辞书政策的制订相一致。所以,当这些人员的身份出现兼属时,意味着具有了复合型的全学科知识与经验,其研究更具高度和前瞻性,提出的理论既具新颖性,又具现实性与可行性。未来汉语辞书的创新式发展需要越来越多的身份兼属者来从事深度辞书研究。因此,辞书队伍库的建构要正视和重视这一难题,从技术上加以解决。

从队伍库建设的角度,要提高队伍库的价值,必须从辞书本体、语言学、出版学、文献学、编辑学、教育学、图书情报学、管理学等学科采集队伍信息和研究成果,否则很难全面反映辞书学的研究全貌以及辞书队伍的概况。当每个成员作为一个锚点入库后,附着其上的将是全面的个人学术经历、科研经历、成果等二十多种属性信息,而身份的兼属又使这些信息呈现出复杂的非线性联系。为充分利用这种复杂性的价值,我们采用语义网络技术来主导队伍库的建设,动态展示这一人际非线性联系,最大限度发现其中的规律性结论。

五、辞书队伍库语义网络及三级数据挖掘模式

传统的信息管理系统是基于二维数据表模式,用线性的、逻辑的方式将一条记录的所有属性信息录入相应字段,形成的数据是规范数据,使用时利用关键词检索方式进行同字段的精确或模糊检索,各字段之间的数据联系只能通过布尔运算方式进行组合检索,体现出最初级的相关性,也就是说这是一种有预设的检索,需要数据库使用者对整个数据库的数据有一定程度的预先了解。这种技术无法满足复杂的非线性数据挖掘。

第二代信息管理系统是基于语义网技术的。这是一种语义裂变网络,最适合于非规范数据或半规范数据的检索与挖掘。例如,互联网上的信息有图片、文本、音频、视频等不同类型,形态各异,即使同是文本数据,其在网页上的存在方式也没有统一的格式,无规律可言,要高效利用这样的数据,唯一的办法是在文本内容之间建立起网络状的语义联系,由计算机自动发现它们之间的关联,并将关联结果推送到用户桌面。

要确立这种主题之间的语义联系,首先需要建立概念层面的知识本体(ontology)。知识本体的建构不但要类聚一个领域或多个领域的概念,还要对这些概念进行定域、定类、定层、定关系等处理,还要注意跨类、跨层的非线性联系,体现出概念之间复杂的语义关系(王东海2007:197-216)。海外已有的知识本体中,WordNet建立了十六种语义关系(王东海,张志毅,王丽英2007),而俄罗斯词汇函数理论中的词汇本体中建立的关系达到七十多种(张家骅等2003)。利用概念之间的语义关系可计算文本内容或媒体标签之间的语义相似度,从而将不同的非规范文本进行自动关联,最后动态呈现关联结果。

这种语义网技术不同于语料库全文检索技术,它可大大提高检索与系联的准确率和效率,避免传统全文检索过程中经常出现的海量冗余信息。另外与传统二维数据库技术相比,基于语义网的数据系联与挖掘不需要用户对数据库内容有预先的了解,系联是计算机通过语义推理而动态、自动生成的。

语义网挖掘技术目前在Google、百度等搜索引擎,在“新浪”新闻频道的影视明星关系自动生成方面得到了较好的应用。与我们的队伍库开发思路相类似的工程是“人立方”网站[2]。人立方关系搜索是微软亚洲研究院发布的一款新型社会化搜索引擎,它能够从超过十亿的中文网页中自动抽取出人名、地名、机构名以及中文短语等,并根据搜索关键词和与其相关的人名之间的关联度强弱,自动地计算每一个人名与关键词直接的距离、数据大小以及具体的摆放位置等等,并通过一条标明了人际关系的细线连接他们并使其发生社会化关系[3]。简单说,就是在所有的海量网页中找到相同的姓名,然后系联文本上下文中同现的其他人的姓名,根据文本内容判断人物之间的社会关系,动态生成一个人际关系网络图。这是一种裂变语义网络,网络图上的任何一个节点都可以以自己为中心进行扩展。

但“人立方”等网站的应用因为是面向整个无定网络,面对的是随机变化的不可控的数据,所以挖掘难度大,准确度低,特别是存在的同名不同人问题难以解决。例如“人立方”网站会自动挖掘出一些“姚明的妹妹是李宇春”这样荒谬的关系。

我们的队伍库采用的语义网信息挖掘技术,是要将内容的有定性和无定性相结合,这样既能保证数据挖掘的智能性,又能保证挖掘结果的准确度。目前“百度百科”和“互动百科”的一些做法可以借鉴,这些网站设置了一些人物百科平台,由网友大规模创建人物词条,进而进行详细的属性信息标注,对同姓名的人,则厘清职业界限,这种大范围发动网民建立人物库的方式,是一种先进的互动思路,我们曾经讨论过辞书编纂的网络共享与互动模式(王东海2008),与此相类。借鉴此种互动百科的方式建设和扩充我们的队伍库基本信息,则可解决库中同名人的系联错误问题。

根据有定、无定数据相结合的思路,我们队伍库的建设建立了三级挖掘体系:

一级挖掘的对象是规则数据库。在基础数据的建构方面,虽然辞书队伍人员经常调整,数据有更新,研究成果也有发展,但基本属于规则的关系数据库范畴。规则数据库是有定的,是二级、三级挖掘的基础和核心,后续的挖掘都要依靠它提供的基本信息来计算语义相似度,没有这一数据库,动态网络无法生成。

二级挖掘对象是有定辞书成果文本库,这是数据挖掘的重点。对辞书成果的数据挖掘可以系联出目前主要研究方向、研究课题、研究优势、研究空白甚至研究流派等数据束,进而在这些主题下类聚出不同的成员个体组合。这些挖掘操作中发现的新现象、新情况将极大提高我们对辞书队伍情况的认识,为辞书政策和规划提供活生生的数据。

三级挖掘是面向无定开放网络的挖掘。队伍库支持面向无定网络信息的系联,主要目的是信息补遗和信息校验。当有定规则数据和全文本辞书成果数据提供出初步结论后,通过预留的网络挖掘接口进行校验,同类型的网络信息将为结论提供更多支持,而矛盾的信息将提供质疑点。通过这一挖掘模块,可最大限度保证队伍库的扩展性能。

六、队伍库信息挖掘的基本方法

1.规范信息挖掘

我们从语言学人名辞典、出版辞典、文献学辞典、工具书辞典等类型的辞书中提取人名、辞书名、出版社等关键信息,又从辞书研究文献中建构出有六千多条记录的研究者数据库,再加上网络在线注册的各类型的辞书成员,共同构成了辞书队伍库的基础锚点集,然后扩展标注完整的基本信息集,构成队伍库的核心规范内容。规范信息的利用主要针对个体锚点,使用关键词检索技术进行定向类聚,可以检索到个人记录,也可以根据不同学历、不同研究方向、不同期刊等属性类聚成不同的成员小组合。

2.非规范或半规范信息的挖掘

“知网”以及人大复印资料中心也曾开发过针对学科研究成果进行知识挖掘的系统,但因其要面对的学科太多,目前还缺少一套具有普适性的学科知识本体与推理机制,所以效能不明显。辞书队伍挖掘基于一个小型学科,具有一定的封闭性,知识本体的规模小,语义推理机制明确性高,挖掘结论的可靠性也相应较高。

要做好非规范信息的数据挖掘,应先依据三类基本文献建立一个辞书学科本体(ontology):已出版的辞书学词典(西方的《词典学词典》(Hartmann,James 1998)及相关语言学词典;各种研究文献的关键词;国家标准——辞书编纂基本术语(GB/T 15238-2000)、辞书编纂常用汉语缩略语(GB/T 15933-2005)、辞书编纂符号(GB/T 11617-2000),这三类文献中提取的术语或学科词汇构成了辞书本体的核心词汇集。

在核心词汇集的基础上,还要继续补充完善辞书本体。我们对研究文献及相关辞书报道进行分词标注,提取文献词表,剔除行文表述词汇后,再筛选出名词表。这些名词多能在一定程度上表示辞书概念,指称辞书领域的事物。但这种依据分词提词的方式仅是搜集本体词汇的参考,因为已有的分词标注系统主要是依据自己所带的适合全语域的停分词表,并不完全适合某一学科,常出现把整体术语进行二次切分、消解术语的独立性为普通词的问题,从而出现遗漏。例如“整句释义”是一个辞书释义专业术语,但往往被切词系统切成“整句”和“释义”两个词,“整句”是没有资格进入本体的,被强制过滤掉,但“整句释义”也同时被遗漏了。这方面需要用语块和新词发现技术软件扩展测查文献中的常用搭配和字符串,配合手工干预,以补充完善辞书本体。

有了辞书本体词表,第二步要对词表中的词语进行定域、定词、定层、定关系的四定操作(王东海2007),进而形成主题分类知识树的拓扑结构,这是生成语义推理机制的基础工作之一。进行这一步辞书本体知识树建构,我们利用支持中文编码的本体制作软件protégé,将辞书本体规范化、形式化,形成学科——子学科——方向——子方向——类问题——具体问题——研究对象——研究角度的金字塔层次图,然后将不同的研究人员像叶子一样挂在本体树的“枝丫”上,再根据语义关系建立基本的推理机制。通过以上这些工作流程,就可完成最重要的辞书本体建设。

辞书本体和推理机制建设完成后,即可建立对辞书研究文本进行全面的封闭式数据挖掘的模型,然后由计算机根据不同属性的语义相似度、语义推理机制串联起人际网络,并采用动态结构图的方式进行展示。如果将研究文本的挖掘方式与规范数据的系联方式结合起来,就会生成更具准确性与针对性的动态系联网络,从中可以看出以人员个体为出发点的辞书队伍在辞书研究、编纂、管理、出版等方面的显性和隐性联系。这种网络上的每一个人名节点都可以打开,从而进入到以其为中心的另一个局部网络域,网络中的每个节点的扩展不是点对点、点对面,而是裂变式的广泛延展,随着个体节点的增删调整,整个网络也在动态变化。理论上,这是一个没有终点的网络。

3.开放式挖掘(面向因特网)

数据内容的全面性和适时更新性是衡量一个资源库价值的重要标准。队伍库预留了面向无定网络的挖掘接口。为提高挖掘数据的集中性,我们对因特网资源建有一个网站优先序列表,把个人简介、人物百科等网页列为最高优先级,对于分散的网页信息则建立辞书工作者身份鉴别机制,排除同名的情况,然后进行有针对性的提取与采集。

我们把因特网上随机采集的动态信息根据时间属性类聚在每一个个体锚点之下,然后将其与库中旧内容进行比对、审核,最后,新信息将入库覆盖替换旧有信息,保证库中信息的适时更新性。

七、辞书队伍库的附加利用——知识社区

队伍库以人员管理为核心,人是社会性的,辞书工作离不开深度的交流,只有交流才能实现知识共享。队伍库除了资源管理及数据挖掘功能,还倾力打造一个开放的知识交流社区,提供了必要的沟通方式,在线人员可通过电邮、微博、BBS论坛、QQ、MSN等方式沟通。成员在这个知识社区中可以发表最新看法,讨论相关具体问题,还可招募课题研究团队等;出版社也可就辞书选题在社区中调研,招募辞书编纂团队;管理者可就辞书规划及辞书政策在社区内全面征求意见,或进行广泛宣传,最大限度获得专家层面的支持。

队伍库提供的知识社区也是辞书队伍个体成员自我宣传和获得机会的平台与阵地。一方面个体在社区交流中,可随时推介自己的研究成果,便于提升成果的认可度;另一方面个体有机会参与各种高层次交流,参与政府的辞书咨询工作,还可与其他研究者展开广泛的合作,方便地获得科研与辞书编纂的机会。

知识社区的这些功能对队伍库的建设与完善也有帮助,这些辅助功能可极大吸引辞书工作者入库积极注册,提供信息,更新信息,减少队伍库的维护成本。随着信息量的不断增加,也会大大提高数据挖掘的价值,对国家辞书规划与辞书政策提供的实态报告也将更真实、更完善、更深入。

附 注

[1]参见北大法宝—中国法律检索系统,http:∥www.chinalawinfo.com/bdfb/Lib 02.asp,2011年2月27日查询。

[2]参见人立方关系搜索,http:∥renlifang.msra.cn/,2011年2月27日查询。

[3]参见互动百科“人立方”条,http:∥hudong.com/wiki/%E4%BA%BA%E7%AB%8B%E6%96%B9,2011年2月27日查询。

1.李宇明.努力发展我国的辞书事业——在汉语辞书研究中心揭牌仪式上的讲话.鲁东大学学报,2008(2).

2.商务印书馆.商务印书馆百年大事记(1897-1997).北京:商务印书馆,1997.

3.汪耀楠.我国辞书学队伍的现状与建设.辞书研究,1996(6).

4.王东海.古代法律词汇语义系统研究.北京:中国社会科学出版社,2007:197-216.

5.王东海,王丽英.开放式辞书编纂与共享模式初探.语言文字应用,2008(4).

6.王东海,张志毅,王丽英.电子词典编纂中的语义网与义链研究.长江学术,2007(4).

7.王铁琨.规范化、现代化与辞书强国——中国辞书事业发展的思考.辞书研究,2007(1).

8.张家骅等.俄罗斯当代语义学.北京:商务印书馆,2003:2-212.

9.张志毅.“辞书强国”究竟有多远.人民日报,2010-10-12.

10.Hartmann R R K,James G.Dictionary of Lexicography.London:Taylor &Francis Limited,1998.

猜你喜欢

辞书队伍研究
FMS与YBT相关性的实证研究
辽代千人邑研究述论
大型辞书疑难字考释七则
视错觉在平面设计中的应用与研究
EMA伺服控制系统研究
科举干禄与语文辞书编纂
あたらずといえどもとおからず
还剩多少人?
“五老”队伍大有可为
青藏高原筑“天路”