海南省高校大学生英语作文语料库WECHCS建设
2011-12-07郭锦萍陈宗华马建强
郭锦萍,陈宗华,马建强
(1.海南大学,海南 海口570228;2.海南师范大学,海南 海口 571158)
海南省高校大学生英语作文语料库WECHCS建设
郭锦萍1,陈宗华2,马建强1
(1.海南大学,海南 海口570228;2.海南师范大学,海南 海口 571158)
语料库建设讲求客观性、代表性、规模性、结构性和历时性。一个根据科学合理的设计建设起来的学习者英语语料库具有语料库语言学研究意义和教学指导意义。海南省高校大学生作文语料库WECHCS建库是十分必要的。语料库建设的指导原则、结构设计、内容特色和变量类型等反映了WECHCS的建设情况;研究者最后还对自主开发的子语料库检索软件工具Sub-Corpus Finder的使用方法和功能特点作了图示说明。
海南省高校;大学生作文语料库;建设;子语料库检索软件
一 WECHCS的建设背景
(一)国内外学习者语料库建设情况
近二十年来,学习者语料库(learner corpus)作为一种专用语料库异军突起,成为当今语料数据库建设中的一股新兴力量。正如International Journal of Corpus Linguistics主编Wolfgang Teubert[1](P1-13)所坦言:“Today,the corpus is considered the default resource for almost anyone working in linguistics.No introspection can claim credence without verification through real language data.Corpus research has become a key element of almost all language study.”语料库在语言学研究中的划时代意义决定了语料库建设的基础作用和主导地位,因为语料库是任何语料语言学研究的前提和工具。
国外较早的学习者语料库是上世纪八十年代末建立起来的朗曼学习者语料库(Longman Learners’Corpus,LLC),包含了世界各地学生和教师主动提交的1000万词的英语书面作文。九十年代中期,比利时Louvain大学Granger教授等人建成的学习者英语国际语料库(The International Corpus of Learner English,ICLE)是目前国际上公认的最重要的学习者语料库,容词量为200万词,搜集了来自14种不同母语背景的大学英语专业3、4年级的课内限时作文和课外非限时作文语料。另外,剑桥大学出版社和Cambridge ESOL共同建立的学习者语料库(CLC)收集了来自150个国家、100种不同母语背景2000万词的书面测试材料。除以上几个大型语料库外,其他以英语为二语或外语的国家近年来也相继建立起了另外一些学习者语料库。
国内的学习者语料库建设与研究始于上世纪90年代中期,进入21世纪后以惊人的速度加快发展。初步统计,目前已建成的有影响力的大型学习者语料库有8个:1.“中国学习者英语语料库”(CLEC)[2]。1996 年筹建,国内十几个院校合作建成。该语料库容词量达100万词,广泛搜集了中国大陆的中学、大学非英语专业、大学英语专业学生在测试环境下写出的作文,也包括部分课外作文;2.香港科技大学约翰?弥尔顿教授建立的学习者语料库(HKUST?Learner?Corpus)[3]。该库搜集了香港高中生的英语作文语料,容量为2500万词,并部分进行了词性赋码和错误标注;3.MSEE(Middle School Educational English)[3]。华南师范大学何安平教授主持建立的中学英语教育语料库,包含了中学英语教材语料库、英语课堂教学语料库,以及40万词高考英语作文、40.6万词初中生和高中生口头英语;4.“中国学生英语口笔语语料库”(SWECCL 1.0)[4]。文秋芳、王立非、梁茂成等合力建成,收录了我国大学英语专业学生口语和笔语语料200多万词,主要是1996-2002年全国英语专业四级口试录音资料以及部分高校英专学生的书面作文语料;5.“中国学生英语口笔语语料库”(SWECCL 2.0)[5]。该库是文秋芳等人采集的我国高校扩招后英语专业学生(2003-2007年)四、八级考试语料,其中包含100万余词的四、八级口试转写文本和120万词作文语料;6.“中国大学学习者英语口语语料库”(COLSEC)[6]。杨惠中教授负责的国家社科基金项目,采样自2000至2004年全国大学英语考试(CET)口语考试实景音像资料,涵盖三类体裁内容,较为全面地反映了中国大学生在英语交谈活动中的语音语调特征、词汇语法结构特征、话语结构特征与会话策略使用情况,全库总容量为723,299词;7.“中国高校外语专业多语种语料库建设与研究——英语语料库”(CEM)[7]。国家社科基金项目,第一批已进行错误标注的100万语料于2008年3月由上海外语教育出版社出版;8.《体验英语写作语料库》(EEWD)[3]。由高等教育出版社开发,是一个立体化、数字化、开放式的写作训练平台,含3000篇学生习作语料,约80万词,每篇作文都有教师批改和评语。除上述8个大型学习者语料库之外,国内其他语言院校和语言研究中心目前已经和正在开发建设的还有许多,但规模都比较小,从几万词到十几万词不等,涵盖口语、笔语、平行语料、双语语料、对比语料、特殊英语语料等不同类型和范围。
(二)WECHCS建设的必要性
语料库建设除了讲求客观性和规模性,还要求具备历时性、代表性、结构性和均衡性。上文介绍的国内各大语料库建设都取得了阶段性成功,为基于语料库的英语教学和语言学研究提供了宝贵的真实语料。在充分学习专家们的语料库建设经验后,我们认为,建设一个海南省高校大学生英语作文语料库是有必要的,原因在于:
1.众所周知,语料库样本都具有“有限性”和“时效性”[8]特点,这个缺陷是无法回避的,所以各大语料库一经建设完成,都难以避免这方面的局限性,需要后续的不断建设和更新完善。目前已经建成的国内语料库采集的作文语料截止时间为2007年,WECHCS的计划是建库采集2006-2010年入学的海南高校大学生英语作文,希望在历时性方面会对国内学习者语料库的总体建设起到有效补充。
2.目前全国开设英语专业的各大高校近千所,而已建成的学习者语料库仅仅覆盖了几十所高校的部分学生作文,语料研究的广泛性和代表性有待后续语料库建设的不断补充完善。
3.前期建成的各大语料库(CLEC、SWECCL 1.0、SWECCL 2.0 等)收录的大学生作文语料均为测试环境下的限时性命题作文,而对非测试环境下的非限时、非命题作文没有涉及,存在结构上的不完整性和非均衡性。WECHCS语料库计划收纳三分之一左右非测试环境下的学生作文,这将有效填补国内学习者语料库总体建设的部分空白(目前在建的“中国高校外语专业多语种语料库”也意识到了这一问题,开始有目的地采集学习者的其他学习资料如日记、课内课外练习、非限时性作文、非命题作文、随笔等)。
4.所建成的语料库均以中国内陆高校为对象,而海南作为最南方的海岛省份,英语教学一直相对落后,高校英语教学与内陆地区相比虽有其共性,更有不同点。针对海南省高校大学生英语学习现状,我们希望建立一个服务于海南高校大学生英语教学研究的作文语料库,客观、真实地反映本省大学生的英语中介语特点,从而帮助教师了解学生在英语学习过程中出现的各类具体问题,有的放矢,提高英语教学质量。综上所述,我们认为,WECHCS语料库的建设不仅能为本省大学英语教学和研究提供真实语料,而且还可以成为国内学习者语料库建设的一个有效补充,具有实际语料库语言学研究意义和教学指导意义。
二 WECHCS建设的指导原则、结构设计和内容
“海南省高校大学生英语作文语料库(WECHCS)建设”于2009年获得海南省教育厅高等学校科研立项,项目历时两年,目标是建立一个中型(50万词次)大学生英语作文语料库。整体建设包括语料库的设计、文本的采集、分类、录入、存档、校对、抽检、加注文本头、编号、再校对、再抽检、入库等一系列程序。
(一)建库指导思想和原则
WECHCS的建库指导思想和原则是:科学规划,细致操作,以科学发展观的标准设计和建设语料库,尽可能体现语料库建设的客观性、规模性、代表性、历时性、结构性和均衡性。
(二)库容量和结构设计
WECHCS设计总库容量为50万词次(tokens),包含三个子库:1.“英语专业语料库”;2.“非英语专业语料库”;3.“文档格式作文语料库”。实际建成后的纯文本库容量为55.4万词次,第三个子库包含271份文档格式的学生作文,每份文档附有每个学生的初稿A和终稿B以及外教的批语和评分。初稿A的语料已经收录到纯文本子库中。考虑到进行纯文本转化会混淆作文中教师的部分评语,而且教师以“批注”形式插入的批改内容也无法在记事本中体现出来,因此这部分材料我们不做纯文本转化,也不统计词次。
纯文本子库包含学生英语作文共计2,520篇。其中英语专业学生作文1,439篇,非英语专业学生作文1,081篇;限时作文1,752篇,非限时作文768篇;议论文901篇,说明文1,105篇,记叙文353篇,小说118篇,便条43篇。(详见表4.1、表 4.2)
(三)语料来源
WECHCS语料来源于2006-2010年海南省四所主要高校的英语专业和非英语专业学生英语作文,包括海南大学(海甸校区、儋州校区、城西校区)、海南师范大学、海南医学院、琼州大学。作文分限时作文和非限时作文,部分限时作文来源于课堂练习,其他限时作文来源于学生的期末试题,限定时间均为30分钟。非限时作文来源于教师布置的课后作业和练习,体裁和题材多样。语料处理要求细致、客观,输入时不对作文内容如拼写、大小写、标点符号等作任何改动,以求真实全面地反映学生作文情况。
1.语料格式
学生的初稿语料经采集加工后全部处理成纯文本格式,并逐一加注文本头信息,即8个变量。此外,对于“文档格式作文语料库”中的271份经美籍教师修改、批注和评分的学生作文语料,为真实反映原稿全貌我们保留了原文档格式,不进行纯文本格式转换。
2.文本头标注
每篇文本语料都附有文本头标注,标注的信息记录了对应文本的属性。WECHCS借鉴了SWECCL(2.0 版)[5]的变量设计,同时为方便研究另外设计添加了新的变量,共计8个变量,即英专/非英专(<EM>/<NEM>)、学生代码(<STUxxxx>)、所在班级代码(<CLASSxx>)、体裁(<ARGxx>/<EXPxx>/<NARxx>/<FICxx>/<SHTNOTExx>)、题材(共计 39个不同题目)、入学年份(<YEARxx>)、写作时所在学期(<TERMx>)、限时/非限时(<TIMED>/<UNTIMED>)。以下是8个变量对应的一个文本头信息举隅:
<EM><STU1337><CLASS33><ARG08><YEAR06><TERM5><TIMED>
所记录的对应个体学习者信息为:
英语专业,1337号学生,33班,议论文第8篇,06级,第5学期,限时作文。
3.WECHCS的运行环境
软件运行配置:
CPU:主频266MHZ或更高;
内存:64MB或更高;
硬盘:1G可用空间或以上;
操作系统:Windows2000/xp;
三 WECHCS的特色
WECHCS建库目的明确,在取样过程中尽量兼顾语料的真实性、代表性、历时性和均衡性,具有以下多方面特点。
(一)全新语料,共55.4万余词次,2,520篇作文,采集自2006-2010海南高校大学生作文,便于研究者从宏观视角对WECHCS与国内外语料库语料进行大样本的定量统计对比研究[9]。
(二)客观文本头标注,提供8个均衡因子,便于微观视角下采用不同研究方法进行研究:
1.专业类型包含英语专业和非英语专业学生的作文语料,英语专业学生作文1,439篇,非英语专业学生作文1,081篇,便于区分不同层次的学习者。
2.学生编号包含课题组给每个学生编订的代码,通过编号可以追踪部分学生不同学期的作文,便于个案定性文本研究[9]。
3.班级编号包含课题组给每个学生所在班级编订的代码(出于语言科学研究中涉及的伦理因素考虑我们不区分各个学校),共计47个班级,便于群体横向对比研究(cross-sectional study)。
4.体裁包含议论文、说明文、记叙文、小说、便笺等5种不同体裁,便于考察不同体裁任务对学习者的实际语言产出的影响。
5.题材包含39个不同的写作题目(详见附录一),便于多维度考察不同题材任务影响下学习者的实际语言产出情况。
6.入学年份包含2006-2010年入学的学生作文语料,真实反映学习者的不同入学背景。
7.写作学期包含六个学期的作文语料,便于对不同层次和不同水平的学习者语料进行写作发展次序研究(developmental sequence study)和发展指标研究(developmental index study);也便于纵向研究(longitudinal study)[10],追踪探讨同一批学习者在不同学习发展阶段中介语的典型特征及动态发展规律。
8.限时/非限时包含限时性和非限时性作文,尤其非限时作文的补充便于考察学习者无需采用回避策略[11]后的语言产出情况。
(三)包含271份学生初稿作文和经过美籍教师修改、批注和评分的终稿作文语料,可以为观察二语学习者和母语学习者的语言运用特点和思维习惯提供最直观的语料。
(四)自主开发“子语料库检索”软件(Sub-Corpus Finder),研究者可以根据不同研究需要生成相应的子语料库。
四 WECHCS的变量类型
学习者个体差异的不同、任务的不同,都会对语言产出造成影响。为服务于不同研究目的,我们参考了文秋芳等人[5]的语料库设计,并在此基础上增加新的变量,将WECHCS纯文本库中的8个变量设计分为两大类型,即学习者变量和任务变量,以便于研究者进行各种不同维度的观察和对比分析。以下是两组变量类型的含义、标记、作文篇数及形符数统计表。
(一)学习者变量
表4.1 WECHCS中的学习者变量
(二)任务变量
表4.2 WECHCS中的任务变量
变量类型 变量含义 标记 作文篇数 形符数议论文 <ARGxx> 901 193,226说明文 <EXPxx> 1,105 207,作文文体544记叙文 <NARxx> 353 94,941小说体 <FICxx> 118 53,190是否限时作文 限时作文 <TIMED> 1,752 344,359便笺 <SHTNOTExx> 43 5,767非限时作文 <UNTIMED> 768 209,493总容量 2,520 554,260
五 WECHCS子语料库检索软件Sub-Corpus Finder简介
Sub-Corpus Finder软件专为海南省大学生英语作文语料库(WECHCS)课题组设计,是从海量语料中按照要求选择生成子语料库的有效工具。
(一)Sub-Corpus Finder的使用方法
软件的基本界面如图1所示:
图1:基本界面
软件的使用步骤如下:
1.设置初始化文件:对初始变量表进行设置。
选择<编辑>-<设置初始化文件>(或者CTRL+R,或者工具栏中第二个按钮),可以对系统里“专业类型”、“学生编号”等8个变量进行设置,当使用该功能时,会打开软件安装目录下“Data”文件夹下的“variables.xls”,用户可以根据自己的需要编辑该EXCEL文件,进行基本变量设置。如果该文件损坏或者丢失,可以通过选择<编辑>-<创建初始化文件>(或者CTRL+N,或者工具栏中第一个按钮)重新创建该文件后再进行设置。
2.初始化条件列表:用来初始化7个变量列表框。
选择<文件>-<初始化条件列表>(或者CTRL+I,或者工具栏中第三个按钮),可以利用设置好的初始变量表“variables.xls”对“专业类型”、“学生编号”等7个列表框进行初始设置,以供生成子语料库时进行选择。
3.点击“浏览”按钮选择原始语料库的文件夹。
4.通过7个下拉列表框完成对“专业类型”、“学生编号”等7个条件进行选择。
5.点击“生成”按钮,在“生成结果列表”中显示所有生成的子语料库中语料的文件名,可以通过点击每个文件名在“文本内容”进行内容浏览。同时,生成的子语料库将存储在软件安装目录下“Result”文件夹下以“日期_所选择的各个条件”所命名的子文件夹里。
图2所示为按照条件选择语料并建库成功的结果,并可以点击“生成结果列表”中的文件名,进行文本浏览,如图3所示。
图2:子语料库生成成功界面
图3:浏览语料内容
(二)Sub-Corpus Finder的功能特点
本软件的开发还有以下几个特点:
1.可以根据需要动态更改系统变量,从而提高了软件的通用性及推广性;
2.具有防损坏机制,更可以随时创建新的初始变量表,具有易用性和健壮性。
3.改进了查找算法,能快速从海量预料中选择符合要求的语料;
4.查找成功后,能迅速在指定位置生成子语料库,提高生成效率;
5.使用过程中,用户可以随时从“帮助”菜单中获得提示。
六 结语
语料库建设是一个庞大繁琐的系统工程,需要巨大的时间、人力和资金投入,因为每一项信息的收录都需要仔细斟酌和大量手工操作。后期建设中,我们计划在已经建立起来的WECHCS语料库基础上进一步完善,对语料库进行赋码和错误标注,同时进行动态跟踪采集。在此基础上,扩大语料的采集范围,逐步把海南省其他高校的学生作文语料纳入到二期建库工程中,以期建立一个横向和纵时(cross-sectional and longitudinal)方式相结合的学习者语料库。
[1]Teubert,W.My Version of Corpus Linguistics[J].International Journal of Corpus Linguistics,2005,10(1).
[2]桂诗春,杨慧中.中国学习者英语语料库[M/CD].上海:上海外语教育出版社,2003.
[3]Connor,U & Upton,Thomas A.王立非(导读).Applied Corpus Linguistics:A Multidimensional Perspective.应用语料库语言学的多维视角[M].北京:世界图书出版公司,2009.
[4]文秋芳,王立非,梁茂成.中国学生英语口笔语语料库(1.0版)[M/CD].北京:外语教学与研究出版社,2005.
[5]文秋芳,梁茂成,晏小琴.中国学生英语口笔语语料库(2.0版)[M/CD].北京:外语教学与研究出版社,2008.
[6]杨慧中,卫乃兴.中国学习者英语口语语料库建设与研究[M].上海:上海外语教育出版社,2005.
[7]中国高校外语专业多语种语料库建设和研究项目组.中国高校外语专业多语种语料库建设和研究——英语语料库[M/CD].上海:上海外语教育出版社,2009.
[8]冯志伟.拓展基于语料研究的范围:新应用,新挑战[M].北京:世界图书出版公司,2009.
[9]王立非,梁茂成.计算机辅助第二语言研究方法与应用[M].北京:外语教学与研究出版社,2007.
[9]秦晓晴,文秋芳.中国大学生英语写作能力发展规律与特点研究[M].北京:中国社会出版社,2007.
[10]杨慧中,桂诗春,杨达复.基于CLEC语料库的中国学习者英语分析[M].上海:上海外语教育出版社,2005.
附录一 WECHCS中的作文题目(略)
1.议论文 Argumentative
2.说明文Expositive
3.记叙文 Narrative
4.小说 fiction
5.便笺 Short Note
附录二 WECHCS中的各类变量研究索引(略)
附录三 国内外主要英语学习者语料库一览表(略)
On Corpus Building of Written English Corpus of Hainan College Students
GUO Jin-ping1,CHEN Zong-hua2,MA Jian-qiang1
(1.Hainan University,Haikou 570228,China;2.Hainan Normal University,Haikou 571158,China)
Corpus building stresses on such properties as objectivity,representativeness,scale,designability,and diachronism.A learner’s English corpus based on scientific design has its significant role in corpus linguistic study and pedagogical application.This paper first analyzes the background and necessity of building Written English Corpus of Hainan Colleges Students(WECHCS).It then gives a detailed introduction to the specific building of WECHCS,with respect to its guiding principle,framework design,features,and variable types.At the end of this paper,special illustrations of a WECHCS – based self- developed search tool—Sub - Corpus Finder—are presented,with regard to its usage methods and features.
Hainan Colleges;Written English Corpus of Students(WECHCS);Building;Sub-Corpus Finder
H 319
A
1009-9743(2011)03-0103-08
2011-06-10
1.郭锦萍(1971-),女,汉族,广东潮州人。海南大学外国语学院英语系副教授。主要研究方向:英语语言教学;2.陈宗华(1951-),男,汉族,湖南株洲人。海南师范大学外国语学院教授。主要研究方向:英美文学、英语语言教学;1.马建强(1981-),男,满族,河北迁安人。海南大学信息科学技术学院讲师。主要研究方向:面向对象技术、信息隐藏。
本文是海南省教育厅高等学校2009年“海南省高校大学生英语作文语料库建设”科研立项课题(批准号:Hjsk2009-02)的部分成果。
(责任编辑:陈 棠)