整合型学习者语料库平台的规划与实现
2009-06-02毛文伟
毛文伟
【摘要】建立学习者语料库能为二语习得等方面的研究提供新的思路和方法。但是,迄今为止的语料库建设由于缺乏统一的平台支持,存在着协同困难、重复劳动多以及升级、版权保护难等问题。通过构建整合型学习者语料库建设应用平台则能够极大地提高建设的效率和效果。
【关键词】学习者语料库;外语教学;中介语;B/S架构;赋码
一 序言
自世界上第一个机读英语语料库——布朗语料库(Brown)创建以来,语料库在语法、词汇、文体等不同领域逐渐得到广泛应用。以推进二语习得或中介语研究为目的的学习者语料库建设虽稍显滞后,但近年来也不断取得新的成果。朗文学习者语料库LLC(Longman Learners Corpus)、学习者英语国际语料库ICLE(International Corpus of Learner English) 以及香港科技大学语料库HKUST (Hong Kong University of Science and Technology Corpus)都处在不断完善和发展的阶段[1]。通过国内学者的多年努力,中国学习者英语语料库CLEC(Chinese Learner English Corpus)、中国大学学习者英语口语语料库COLSEC(College Learners Spoken English Corpus)和英语专业学习者语料库CEM(Corpus for English Majors)也先后建成,对我国二语习得研究和教学改革起到了巨大的推动作用,成为研究外语教学规律不可或缺的基本素材。
但是,这些语料库在开发过程中都没有特定软件平台的支撑1。数据由建设者分头输入、处理后再汇总在一起。尽管入门门槛较低,发布后也没有日常运营开支,但存在着协同困难、重复劳动多、升级繁琐以及版权保护方面的难题。随着因特网技术的不断发展,软件平台的体系结构从过去的单用户发展到今天的C/S(客户机/服务器)和B/S(浏览器/服务器)架构。这些平台体系的出现为语料库建设提供了崭新的技术手段。在很大程度上,避免了数据分发、汇总、格式统一以及升级过程中的重复劳动,提高了建库效率,降低了出错概率。本文拟以中国日语学习者语料库CJLC(Chinese Japanese Learners Corpus)的构建为例,探讨整和型语料库建设应用平台的方案设计及实现。
二 单用户系统开发模式的局限
如上所述,现有的语料库多为分散开发模式。建设者只须具备基本的字处理软件使用能力即可参与开发,入门门槛不高。发布后也无需日常运营开支。但是,这种开发方式也存在着明显不足。首先,语料库建设是一项庞大的工程,为了保证语料的质量和开发效率,需要多人协同进行。由于缺乏平台支撑,在输入、校对、标注、修正等各个阶段,都必须反复进行语料的分发和汇总,重复劳动多,也容易出现差错。其次,为了提高语料的可用性,还需要对语料进行标注。但是,仅凭字处理软件或Dreamweaver等HTML编辑工具,很难对语料进行深度标注。在赋码过程中,所有错误码和数据标签都须手工输入,既不直观,加重了标注者的负担,又提高了出错的几率。杨惠中等[2]指出,在中国大学学习者英语口语语料库(COLSEC)素材的汇总过程中,观察到了文本标签嵌套错误、标签拼写错误、标签设定不一致、全角半角不一致、错误码设置过多等诸多问题。这些都需要人工校对加以修正。而在发布之后,由于语料库分散在不同用户手中,使得开发者难以迅速、高效地对语料进行统一升级和扩充,也不利于版权保护。
运用基于B/S架构的整合型语料库开发应用平台2以有效地解决这些问题,提高语料库开发效率。在B/S结构平台的支撑下,用户界面通过IE等WWW浏览器来实现,数据统一存储在服务器端,主要事务逻辑也在服务器端完成。由此简化了建库流程,实现了数据的自动分发和汇总,系统升级更为快捷方便。同时,由于支持Unicode,便于实现多语言界面,也给语料库的建设者和使用者带来了很多方便。
三 中国日语学习者语料库(CJLC)的总体规划
中国日语学习者语料库(CJLC)为国家社会科学基金项目“中国日语学习者语料库的建设与研究”的建设内容之一,于2008年6月启动。该语料库以反映中国日语学习者的实际学习情况为目标。通过全面、系统地收集我国高校日语专业学生的语料,客观、翔实、准确地反映我国日语专业学生的语言习得和发展状况。它的建成将填补国内外在这一领域的空白,为我国高校日语专业教学大纲、课程设置、教学内容、教学标准、教学方法、词汇表的制定和完善以及教学评估提供客观依据,并有力地推动两语研究的发展。
本语料库平台分为建库和应用两大子系统。各下属模块的具体功能如下表1所示。每个模块都具有不同界面,需要特定权限方能显示和进入。系统管理员根据实际需要为用户灵活分配权限,通过网络完成输入、标注、校对、检索和管理等各项工作。由于数据库存在于服务器端,可以实现多用户共享,所以数据的输入和标注等不同阶段的工作可以同步进行,互不干扰。当然,对于某一特定语料来说,还是需要按照一定流程完成输入、标注等一系列工作(详见图1)。
在互联网应用的初期,开发者多使用C或Perl等CGI语言进行Web开发。现在,已有C#/ASP.NET、JSP和PHP5等多种方案可供选择。本课题组选择了AMP(Apache/MySQL/PHP)解决方案,即以PHP5编写语料库开发平台,MySQL作为数据库,Apache为Web服务器发布软件。这些都是遵循GPL的开放源码软件,不必缴纳软件使用费。这在很大程度上降低了开发费用。同时,又拥有丰富的资源可供使用、修改或重组。在成本和可用资源方面,胜过了C#/ASP.NET/IIS解决方案。