语料库驱动的对外汉语教学及应用研究
2016-10-25李娟
摘 要:语料库驱动学习模式是近年来新兴的一种语言学习模式。但包含丰富数据却没有进行标注和分类的语料库对学习者的帮助是有限的。目前有一些经过标注及处理的基于语料库的应用平台及学习系统,对教师及学习者进行语言研究与学习有很大帮助。例如:与十四亿字的LDC Chinese Gigaword语料库结合的“中文词汇特性速描系统”,汉语中介语语料库及多媒体语料库。因此,建设并开发基于语料库的、简单易用并具有针对性的面向汉语教学与学习的教学资源平台及应用系统是十分必要的。
关键词:对外汉语教学 语料库 语料库驱动
一、引言
语料库是以计算机为载体,以真实出现过的语言材料为基础资源,经过加工(分析和处理)而成的资源库。语料库中的语言材料的运用近似于运用语言本身,具有代表性和真实性。将语料库引入二语教学与学习中,为二语教学及学习提供了新的可能。
语料库驱动的学习模式是近年来新兴的一种语言学习模式,自20世纪90年代初Tim Johns提出基于语料库数据的外语学习方法——数据驱动学习模式(Data-Driven Learning,简称DDL)以来,语料库就与语言教学有了千丝万缕的联系。这种语言教学方法引导学生自己用索引软件去查询语料库中的语料,这些语料均来自本族语者口语或书面语,通过查询语言使用中的真实语料,而不是课本中教材编写者设计出的例子,学习者可以更真实地体会到目的语在实际运用时的用法。同时,数据驱动学习是一种发现式、探索式学习模式,它以大量真实的语料库数据为基础,要求语言学习者带着问题,运用检索软件,在对大量真实语料观察和分析的基础上,由学生从真实的语言使用实例中发现自己在语言学习中所遇到的问题,最终解决问题。
由语料库驱动的外语在线自主学习模式在外语教学领域已经取得了良好的效果。该模式通过词汇或语法结构、语料库和语料库索引工具提供的语境共现、语料库的文本展现(部分有音频或同时有音、视频)、网络互动的有机结合为外语学习者提供自下而上的语言学习环境,从而促进学习者对外语的自主和互动学习。(梁红梅,2005)
近年来,出现了语料库的“教学加工(Pedagogic Processing of Corpora,PPC)”这一新理念。它是一个将大型语料库的语料、频数结果乃至语料库技术转化为实现语言教学目标的资源以及教学手段的加工过程(何安平,2008),该理念主张建设教学型语料库,以将语料库中的语料、语言调查结果乃至检索技术转化为日常语言教学的资源和教学手段。
如今,大数据时代给我们带来了海量信息,信息量巨大、结构复杂的大数据中往往隐含着人们意想不到的发现。在大数据时代,建立适合学习者的多样化的语料库,并将其和网络互动技术的应用相结合,能改变目前单纯依靠教材进行语言教学的被动局面,可以解决语言学习材料的真实性和多元化问题,适应立体化、网络化、个性化语言教学和学习的实际需求,使对外汉语教学朝着个性化、不受时间和地点限制、主动式的学习方向发展。如何利用语料库驱动模式促进对外汉语教学的发展,把这种先进且功能强大的工具有效地运用到对外汉语教学中,是我们需要继续思考的问题。
二、语料库与对外汉语教学
随着信息处理技术的不断发展,面向不同目的和用途的不同类型的语料库应运而生,它们在语言学各个层面的理论和应用研究、词典研究及教材编撰等方面发挥着越来越重要的作用。将语料库语言学的研究成果与技术手段应用于语言教学是现今语言研究中一个令人瞩目的新领域。目前建成的有影响力的语料库有:北京大学CCL语料库、国家语委现代汉语语料库、北京语言大学BCC语料库、HSK动态作文语料库、国家语言资源监测与研究平面媒体语言中心DCC动态流通语料库等。但受建库目的和最终用户类型等因素的影响,大部分已建成的语料库也常常只是小群体的语料库研究者从事语言研究的工具,目前只有少部分语料库直接应用于语言教学。
这些语料库包含丰富的数据,但没有进行细颗粒标注和分类的语料库对学习者的帮助是有限的。如在对外汉语教学中,学习者对“或者/还是”这对词往往分辨不清楚,而语料库中有大量的真实语料,我们可否利用语料库让学生在语料中总结出它们的用法呢?通过检索,在“北大CCL语料库”中,“还是”共有134133条结果,“或者”共有68486条结果;在“北语BCC现代汉语语料库”中,“还是”共270255条结果,“或者”共72288条结果;在“语料库在线”中,共查询到2229条符合“或者”要求的例句,5720条符合“还是”要求的例句。尽管有如此多的例句,但仍不能说它们穷尽了“或者/还是”这对词的所有用法。由于对这些例句没有分类标注,如果要总结出它们的用法,还需要人工进行标注,工程量巨大。所以,大型通用的语料库并不能直接用于语言教学,必须进行一些处理,或基于语料库开发出简单、实用、具用户友好性的应用系统或学习平台。
传统的精读教学始终难以摆脱“以教师为中心”的教学理念的束缚,学生长期处于被动接受的位置,导致其学习积极性不高,发现、探索、归纳和创新的能力也无法得到培养。研究发现,学习者注意并处理足量真实语例的时候,更有可能取得良好的语言学习效果。因此,在针对自主学习、真实语言输入、自我探索和发现的语料库驱动的学习模式引导下,学习者可以更有效地获取语言知识。虽然语料库驱动模式对对外汉语教学有多方面的帮助,但目前我国能够直接用于对外汉语教学、可以共享的高质量语料库少之又少,大型通用的语料库内容通常不能与对外汉语教学直接接轨,为了更好地将语料库运用于对外汉语教学中,服务于对外汉语教学的语料库及应用平台亟待开发。
三、语料库在对外汉语教学中的应用
(一)应用系统开发
在语言教学中,词汇教学是教学中的重点,词语搭配是词汇教学的重中之重。同时,在语料库语言学中,从20世纪60年代Sinclair团队的OSTI Report,到COBUILD英语词典,再到Pattern Grammar和短语学的兴起,“词语搭配”始终是语料库语言学关注的焦点,是研究词汇意义最重要的方法之一。
目前,基于语料库的词语搭配研究应用系统开发得比较成功,台湾中央研究院的“中文词汇特性速描系统”有很大的借鉴意义。中文词汇特性速描系统除了提供一般的关键词及语境查询外,还提供了词汇特性速描(word sketches)、语法关系以及同近义词分析等自动产生的语法知识。中文词汇特性速描系统与十四亿字的LDC Chinese Gigaword语料库结合后,提供了绝大部分中文词汇实际使用的规则性描述,可应用于词典编纂、华语教学、语言学研究与自然语言处理。
中文词汇特性速描系统的开发至少在以下方面取得了突破:1.搭配的辨识和自动发现。只要在系统中输入如“方便/便利”这样的词对,素描系统就会呈现经常和“方便/便利”搭配的词语,如交通、生活、条件等。2.搭配研究成果的可视化表达。用表格方式分两列呈现不同词语的不同搭配,还设-21、-14、-7、0、7、14、21七个数字,显示不同词语的搭配距离。中文词汇特性速描系统将词语搭配自动化、可视化、形式化,可以直观呈现词语之间的差异,为对外汉语教学中的难点之一——词汇辨析,提供了清晰、直观的参考,同时也可以为老师及学生提供便捷的查询渠道。如图1、图2、图3所示。
(二)汉语中介语语料库的应用
中介语语料库对于语言研究及语言教学都具有重大意义。在语言教学中,中介语语料库可以为教师提供真实的中介语语料,根据这些语料可以对汉语中介语语料库中的汉字偏误、词语运用偏误进行处理,对症下药,更有针对性地解决学习者的问题。同时,语料库也可间接用于对外汉语教学:如外向型学习词典的编纂研究、汉语教材的开发和语言水平测试与检测等,使对外汉语教学更有针对性。
北京语言大学HSK动态作文语料库、中山大学汉字偏误连续性中介语语料库、台湾师范大学汉语学习者汉字偏误数据资料库、暨南大学华文学院中介语语料库,是目前公开且有代表性的几个中介语语料库。
北京语言大学HSK动态作文语料库从1992~2005年的2万多份留学生作文试卷中选取了11569篇,约400万字的语料。中山大学中介语语料库收录了2003年以来留学生的字句练习和作文等资料,总共200多万字。台湾师范大学汉字偏误库的语料来自台湾师范大学国语中心(MTC)、台湾大学国际华语研习所(ICLP)、台湾大学文学院语言中心中文组(CLD),收录了德语、法语、英语等15种母语背景学生的汉字偏误,分初、中、高三级,共计2536个偏误汉字。暨南大学华文学院中介语语料库收录了外国留学生、海外函授生、来华受训的海外华文教师平时的作文、日记、考试作文,语料约340万字。
中介语语料库的建设是对外汉语教学研究的重要内容。留学生的各种语言错误,尤其是偏误信息,可以为研究者提供可靠的统计数据,可用于留学生汉语习得分析、语言教学研究。如近年来词汇教学中的易混淆词研究,必须依赖于中介语语料库的偏误数据,了解学生究竟容易混淆哪些词,易混点在哪里,而不是想当然地按照中国人学汉语的模式来判定学习者的混淆点。
(三)多媒体语料库的应用
21世纪不仅是信息时代、大数据时代,也是多媒体时代。多媒体不仅以文字为载体,还综合了声音、图像、视频等记录方式,多媒体的语言记录打开了语言教学的另一扇窗户——用于语言教学的多媒体语料库,语言教学也已进入了“多媒体”时代。
“多媒体语料库”这一提法由来已久,但目前学界对其还没有形成一个统一的定义,国内外系统论述多媒体语料库的文献尚不多见。多媒体语料库作为一种辅助性工具应用于语言教学,是一个新兴的研究领域。梁红梅等学者认为,“把语料库索引与文本、音频、视频有机地结合起来,建立多功能的多媒体语料库更能满足我国大学英语学习者的实际需求”。多媒体语料库将多媒体技术与语料库模式结合起来,在教学中取长补短,相得益彰。白皞《多媒体语料库应用于视听说教学的学习风格差异研究》证明了:将多媒体语料库应用于视听说课堂能有效提高学生听力、口语能力。
学习者利用多媒体语料库辅助学习时,不仅能学习到语言知识,还能听到或者看到与索引分析相关联的音视频资料,以更直观的形式体验语言使用的真实场景和文化背景。语料库与多媒体技术的结合,能给数据驱动学习带来新的生机。但是目前,国内的研究大都是基于纯文本语料库进行索引分析来辅助二语教学,语料库和多媒体教学手段在理念上和应用中的结合都较为简单,其在二语教学中的优势也未能得到充分的体现。
运用多媒体语料库进行对外汉语教学,除了学习者的提问、归纳、总结及分析语料的主观能力外,教学的效果关键取决于语料及索引工具的选取。因此,多媒体语料库驱动学习模式的核心就在于多媒体语料库的建设和在其基础上的学习平台的开发。
四、结语
从20世纪末的数据驱动式语言学习(DDL)到本世纪初的语料库教学加工理念(PPC),语料库的发展体现了语料库语言学与二语教学交叉领域的拓展与更新。以语料库为驱动的方法在语言教学领域己经取得了一定的成效。但是,有研究表明,以语料库为驱动的学习材料只有在它适合学生的学习水平以及经验的时候才会产生效果。所以,包含丰富数据但没有进行标注和分类的语料库对学习者的帮助是有限的。因此,建设基于语料库的、简单易用的并且具有针对性的面向汉语学习的教学资源平台是十分必要的。具体而言,一、建设专门的教学语料库,利用语料库进行语言教学、教师教育和语言教学资源库建设;二、建设标注科学,数据统计完备、平衡的中介语语料库;三、继续开发包含综合型教学资源的多媒体语料库,建立在线网络学习平台,重视媒体语料的分类存储等。
(本文承国家语委“十二五”科研规划项目“语言资源建设规划研究”[项目编号:YB125-124]资助。)
参考文献:
[1]白皞.多媒体语料库应用于视听说教学的学习风格差异研究[D].
新乡:河南师范大学硕士学位论文,2012.
[2]洪嘉馡,黄居仁,许铭维.以中文十亿词语料库为基础之两岸词
汇对比研究[J].中文计算语言学期刊(台湾),2013,(2).
[3]洪嘉馡,柯淑津,黄居仁等.词义预测研究:以语料库驱动的研
究方法[A].中国计算机语言学研究前沿进展(2007-2009)[C].2009.
[4]何安平.语料库的“教学加工”发展综述[J].中国外语,2010,
(4):47-52.
[5]何安平.语料库如何走进课堂教学——原则和方法探究[J].中国
外语教育,2008,(4).
[6]焦彬凯.基于多媒体语料库的数据驱动学习模式研究[J].中国电
化教育,2010,(4):71-74.
[7]李文中.语料库、学习者语料库与外语教学[J].外语界,1999,
(1):51-55.
[8]李文中.平台化语料库开发环境[A].第十二届中国当代语言学研
讨会论文集[C].武汉,2008.
[9]梁红梅,尹晓霞,李宇庄等.语料库驱动下的外语在线自主学习
模式[J].外语电化教学,2005,(6):29-32.
[10]梁红梅,何安平.语料库的“教学加工”与教材编写[J].当代
外语研究,2012,(10):35-39.
[11]吴进善.基于多媒体语料库的数据驱动学习模式研究[J].当代
外语研究,2010,(6):44-47.
[12]庄智象,黄卫,王乐.我国多媒体外语教学的现状与展望[J].
外语电化教学,2007,(1):20-27.
(李娟 北京师范大学中文信息处理研究所 100875)