基于教学的日语写作语料库的创建和应用
2017-03-29和佳
和 佳
(云南大学旅游文化学院 外语系,云南 丽江 674100)
基于教学的日语写作语料库的创建和应用
和 佳
(云南大学旅游文化学院 外语系,云南 丽江 674100)
构建基于教学的日语写作语料库对于提高本校日语专业学生的写作水平和能力具有必要性。相较于大型语料库对教学的局限性,小型语料库更有利于课堂教学的提高和推动语料库在外语教学中的普及。通过对语料库的整体设计、标注等语料加工后形成的日语写作语料库能够辅助教学,成为有效推动教学的一种手段;将语料库技术融入日常教学活动中,更能凸显以学生为中心的教学理念,培养学习者自主学习的能力;日语写作语料库提供的真实语料,将促进学习者的数据驱动学习。
日语写作;语料库;教学;应用
语料库是“按照一定的语言原则,运用随机抽样方法,收集自然出现的连续的语言,运用文本或话语片段而建成的具有一定容量的大型电子文本库”。[1]333语料库在当今语言学习和研究中发挥了重要作用。
经过三代语料库的发展,国内外的语料库建设取得了丰硕的成果,日语语料库也不例外。日本研制的日语语料库有:(1)EDR语料库(EDRコーパス),素材选自新闻报道和杂志,规模为20万句,另有10万句左右的英语语料。(2)京都大学语料库(京都大学コーパス),收录了《每日新闻》光盘版1995年1月1日至1月17日的所有报道以及该年1月至12月的所有社论各约2万句。(3)日语口语语料库(日本語話し言葉コーパス(CSJ)),包含约660小时的语音信息,共计约700万词。(4)太阳语料库(太陽コーパス),收录了《太阳》杂志的3400篇作品,共计1450万字。(5)日本古典文学全文数据库(日本古典文学本文データベース),收录了《日本古典文学大系》中的全部作品约580部。(6)日文RWC文本数据库(RWCテキストデータベース),收录了《日本的通商白皮书》、日本电子工业振兴协会的报告书以及《每日新闻》1991年至1995年的所有报道。(7)IPA语料库(IPAコーパス)。(8)ATR谈话数据库(ATR対話データベース)等。国内只有一个大型中日对译语料库,是由北京日本学研究中心构建的一个双语平行语料库。是国内目前设计最为科学、最具有通用性、最符合语言学研究的日语语料库。[2]
把日语语料库应用于大学日语写作教学是一种行之有效的教学手段。
一、日语写作语料库创建的必要性
日语写作一直是教学中的薄弱环节,导致学习者日语写作水平普遍不高的原因有对写作不够重视;对写作出现畏惧心理;没有掌握良好的写作策略;写作课堂效率不高等。提高日语写作水平可以提高学习者使用日语的准确性,扩大词汇量,提高逻辑思维和分析问题的能力,对听、说、读等外语能力的培养有促进作用。此外,和日语专业学习者相关的全国高等学校日语专业四级、八级考试都有写作部分;作为大学教育最后阶段的成果表现也需要学生撰写毕业论文;考研也涉及到写作,因此在日语教学中,如何指导写作、培养良好的写作能力是非常重要的。除了传统的课堂教学外,通过构建写作语料库进行教学时提高写作水平的一种很好的途径。
大型通用语料库建设的主要目的是词典等工具书的编纂和语言调查研究而非课堂教学,对于特点各异的教学对象难免缺乏针对性。[3]再加上价格、市场等因素,大型语料库很难获得,因而不利于语料库的推广使用。想要真正推动语料库在外语教学中的普及,有必要建设和使用个人教学语料库。[3]基于此,立足于本校的日语写作教学,我们认为构建小型日语写作语料库是可行且有必要的。
运用语料库手段学习语言,有利于将传统的以教师为中心的知识性传授型教学转变为以学生为中心的知识探索型教学。[4]创建基于课堂教学的日语写作语料库是用来帮助学习者理解语言现象的,和应用于教材、词典编纂的大型语料库有所不同,通过使用日语写作语料库可以发现学习者经常犯的各类错误,从而进行有针对性的教学,培养学生的学习能力,提高学习效率。其次,利用日语写作语料库能够推动学习者进行数据驱动学习(Data-Driven Learning,DDL)。这是语料库应用于语言教学的新型模式,提倡观察真实的语言现象,主动探索词汇使用频率,发现词汇意义单位,准确掌握和应用词汇。最后,由于日语写作语料库是基于本校日语专业学生的实际通过自主设计构建的,其标注灵活,能提供更大的语境,让日语写作能力的提高不再局限于课堂内教师的单纯讲授。利用语料库为学习者创造目标语语言的使用环境,提高日语语言运用能力。
二、日语写作语料库的创建
(一)语料库的总体设计 建立语料库要考虑的因素有建库目的、语料品种、取样标准、规模、代表性、设备、存贮方式和格式等。[5]日语写作语料的建库目的明确,以日语专业学生的作文为研究对象,为了反映本校日语专业学生的实际写作水平和能力,掌握学生日语写作的习得状况,提高学生实际运用日语语言的能力,以期对日语写作教程提供一些真实的语料,为提高本校日语专业学生的写作能力和日语写作课堂教学效果起到一些参考。我们拟建的日语写作语料库属于书面语语料库,即以报刊杂志以及正式出版的各种体裁作品的文字资料为主制作的语料库。该库分为两个小型子库,子库一是本校日语专业学生的作文,将近100篇。子库二是收集的100篇日语作文范文,语料都是和日语写作相关的语域。将其命名为日语学习者作文语料库 (Japanese Learner's Written Composition. Corpus),简称JLWCC。
统计研究表明,决定语料代表性的主要因素不外乎样本抽样的过程和语料量的大小,语料库建设中可以通过控制抽样的过程和语料比例关系来缩小偏差,增强语料的代表性。因此建立小型语料库对教师的教学工作来说具有高度代表性。[1]36在此设计框架下收集和加工语料,对其标注、赋码、存贮后完成构建。因为是创建校内用的小型日语写作语料库,无法像大型语料库那样对语料做深层次的加工和标注,但是通过一定的标注同样能过运用于课堂教学中。建库的过程可以表示为:
(二)语料收集 由于制作语料库所需要的软件都是日文版的,所以,使用中文版的Windows XP或Windows 7等来制作语料库时,为了避免出现乱码的情况,只要改变语言的设定即可。同时,确认并下载最新版的Java。[6]日语语料的收集都依照《高校日语专业四(八)级考试大纲》的要求,分为记叙文、说明文、议论文或书信、商务日语书信等。一般内容贴近学生生活或社会生活,例如人生观、社会热门话题、一天的活动、一天发生的事、趣味故事、人物介绍(包括自我介绍)等。子库一的语料收集对象是全体日语专业的学生,依据大纲要求设定题目写在稿纸上发给学生,让学生在规定时间内完成规定字数的作文,并把收集完成的日语作文语料输入电脑保存为电子文档。子库二的收集利用具有权威性的日语网站,如沪江日语、日语学习网、和风日语学习网等网站,共收集日语范文100篇。下载使用日语文本文件的书写和编辑软件「秀丸」①。子库二的语料是从网上收集的电子文本,不可避免会有格式、字体、标点等的不统一,需要进行除噪和人工校对,语法也需要再次校对,以确保准确无误。
除噪后的文件语言采用统一的ASCII纯文本形式,文件名后面的扩展名必须是“.txt”,即txt文档格式。文档的存储用语料库的简称JLWCC命名,如图:
保存好的文本格式还不能直接用来制作语料库的,还需要下载日本国立国语研究所开发制作的语料库数据格式的转换软件「えだまめ」,是为了将文本格式的文件转换成语料库软件可以接受的文件格式②。
(三)语料标注 对语料的标注是构建语料库的关键步骤之一。标注可以为语料库带来增值。[7]语料标注(corpus tagging)是将语料库中的语言知识标注出来,提高技术处理过程的水平,分为人工标注和自动标注。对日语写作语料库的标注不是采用通常所说的词性和句法标注,而是根据实际教学需求,对学习者作文语料中出现的错误词汇、语法、句型、标点符号等进行标注,对作文范文进行类型标注。首先,按照作文标题和内容对文本进行分类,对作文进行标号,注明学习者的年级,性别、文本字数等。例如:<学年>=年级、<性別>=性别、<テーマ>=题目、<字数>=字数等。
中国日语学习者语料库学习者失误类型分为四个子类,分别为“书写(表記)12类、 词汇(語彙)13类、语法(文法)43类、 表达(表現)”8类,其中语法类下设了“自立词(自立語)17类、助词(助詞)16类、助动词及相关问题(助動詞及び関連問題)8类、句式(構文)2类”等四个子类。[8]由于日语的特殊性,除了语法、词汇等方面的错误外,学习者还可以犯汉字、假名书写不规范或误用等错误。[8]49结合日语的词类,本语料库将作文中的失误标注分为以下十类进行标注:
编码失误类别m1动词错误m2助词错误m3名词错误m4副词错误m5形容词错误m6形容动词错误m7时态错误m8体(アスペクト)错误m9句式错误m10标点错误
对于语料库赋码的问题,研究者的观点莫衷一是。当前,语料库的赋码主要分为两类:一类是词类码,一类是句法码。依据的语法体系不同,赋码结果迥然不同。[9]目前主流的日语自动词性赋码器在语言研究中应用较为广泛的是以JUMAN、ChaSen和MeCab为代表的开源赋码器。其中,从赋码质量和抗干扰性方面看MeCab是最出色的。[9]68我们利用这些赋码器对日语写作语料库进行赋码③。
(四)语料检索 常用的单语语料库的检索软件有Wordsmith、Monoconc、Antconc等。其中Antconc是著名的语料库检索软件,由日本早稻田大学的Laurence Anthony设计开发,可以在Windows、Macintosh OSX和Linux系统下运行,可以免费下载。该软件无需安装,双击即可使用。具有词语检索、生词词表和主题词三大功能。利用Antconc对建好的日语写作语料库进行检索,通过和范文对照可以清楚地展示给学习者如何正确运用词汇、语法、句型等。如:
*母は私たちの教育に関心していた。
句子中“関心”的用法错误。教师首先通过检索范文例句让学生了解“関心”的用法。搜到的例句有:
(1)近年は地球環境問題への関心が高まっている。
(2)少しでも興味や関心があればどんな人でも始められる楽器です。
(3)子供ができると教育に再び関心が高まるとともに住宅が重要性を増す。
从以上的例句可以看出“関心”只能做名词,其接续多为:“関心が高まる、関心を抱く、関心を持つ、関心がある、関心が強い、関心を惹く、関心を集める、関心を示す、関心を呼ぶ、関心を寄せる”等动词或形容词,翻译成中文是“关注、感兴趣、留意、留心”,和中文的“关心”意思不同。
通过语料库检索,用真实的语料进行讲解,可以增强日语教学课堂实践中语言输入的真实性。利用本校日语专业学生的作文和正规的日语语料进行检索,找出准确的写作模式、表达方法、用词和句型等,给学生提供参考,有效避免母语的负迁移,减少中式日语的出现。或者通过检索词类用法,尤其是同义词,总结出本族语者使用频率高的搭配形式,让学生掌握真实的语言。
三、日语写作语料库的应用
结合本校日语专业学生的写作构建的日语写作语料库属于小型语料库。小型语料库已经成为以课堂为中心的实证性教学研究的有力手段。[10]将语料库导入日语写作课堂教学,能让学习者从真实的语料中发现如何更好地运用掌握目标语。
第一,“写”贯穿于外语学习的全过程,听、说、读、写这四项技能是不可分割的。写作教学是外语教学环节中很重要的一环。针对学习者出现的写作问题,充分利用自建的日语写作语料库,能够在教学中提高书面表达能力,提高语言输出的准确性,提高学习者的日语写作水平。
第二,日语写作语料库目标明确,语料收集针对性强。通过提供大量的真实语料,营造出真实的语言环境。可以弥补教师个人的单纯讲解,提高学习者语言输出能力。小型专门用途的语料库在用作研究某一特定语言领域和体裁的语料时更具有代表性和真实性。[11]
第三,使用日语写作语料库的检索工具可以使学习者获得对所学词语较高的关注度,有利于强化词汇,突破语言学习的石化阶段。同时也将更好地体现以学习者为中心的教学理念,推动数据驱动学习。数据驱动学习是“让学生自己用词语索引软件去查询本族语者口语或书面语语料库,给他们提供语言使用的真实样例,而不是一些语法书中设计出的例子”。[12]
第四,日语写作语料库建好后还能够不断地扩容,给学习者提供更加贴近生活、反映社会的真实语料。教师在运用日语写作语料库进行课堂教学活动中,可以观察学生中介语的使用情况,分析母语对日语写作的正迁移和负迁移,为日语教学提高真实、可靠的数据,从而提高课堂效果促进教师的自我提升和科研能力,促进大学日语写作教学。
第五,日语写作语料库的使用不受时间和地点限制,教师除了在课堂上给学生示范外,课外可以让学生自行操作使用。本地机操作,经济、方便、快捷,检索语料时选择自由,易于突出语言的语域特征。[3]
小型语料库虽然没有大型通用语料库的规模大、内容丰富和对语料的深加工,但是它能更好地满足对教学对象的针对性,具有实用性强、低成本等特点。自建日语写作语料库应用于教学代表了一种更好的思维方法,更能体现以学生为中心。利用学习者大量自然的现实写作语料,将建好的日语写作语料库应用到课堂中,可以提高学习者准确恰当地使用目标语,提高写作水平,更好地促进日语写作教学和研究。
注释:
①于康(2013)指出,“秀丸”正式的名称为「秀丸エディタ」,是日本「有限会社サイトー企画」开发制作的文本文件的。下载网站的地址:http://hide.maruo.co.jp/software/hidemaru.html
②于康(2013)指出えだまめ下载网站的地址:http://www2.ninjal.ac.jp/lrc/
③毛文伟(2012:68)提出,这些赋码器最新版本的下载地址分别为:
JUMAN:http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/ JUMAN.html
ChaSen:http://chasen-legacy.sourceforge.jp
MeCab:http://mecab.source forge.net/
[1]杨惠中.语料库语言学导论[M].上海:上海外语教育出版社,2002.
[2]毛文伟.日语语料库建设的现状综述[J].日语语言研究, 2009(6)42-47.
[3]谢家成.论个人教学语料库的构建[J].外语电化教学,2003(3)27-30.
[4]何安平.语料库在外语教育中的应用[M].广州:广东高等教育出版社,2004:26-27.
[5]Graeme Kennedy.语料库语言学入门[M].北京:外语教学与研究出版社,2000:419-426.
[6]于康.语料库的制作与日语研究[M].杭州:浙江工商大学出版社,2013:29-30.
[7]Leech,G.Introducing corpus annotation[A].In Roger Garside, Geoffrey Leech & Tony McEnery(eds.)Corpus Annotation[C].Essex: Addison Wesley Longman Limited, 1997.
[8]毛文伟.中国日语学习者语料库的构建及应用[M].上海:上海外语教育出版社,2012:104.
[9]毛文伟.日语语料库研究的理论与实践[M].上海:上海外语教育出版社,2009:68.
[10]Ragan, P.H. Classroom Use of a Systemic Functional Small Learner Corpus[A]. In:M. Ghadessy,A. Henry,&R. L. Roseberry. Small Corpus Studies and ELT: Theory and Practice[C]. Philadelphia: John Benjamins Publishing Compang ,2001.
[11]Pascual Perez-Parede .Small Corpora as assisting tools in the teaching of English news language: A Preliminary token- based examination of Michael Swains Practical English Usage news language wordlist. English for special purpose world.http://esp-world.info/Articles-1/tasks.html,2002.
[12]Meyer,Charles.English?Corpus?Linguistics:An Introduction[M].Cambridge:Cambridge University Press,2002:27.
责任编辑 付友华
2016-09-22
10.3969/j.issn.1003-8078.2017.01.07
和佳(1981-),女,云南丽江人,云南大学旅游文化学院外语系讲师,硕士。
H36
A
1003-8078(2017)01-0029-04