APP下载

面向汉语第二语言教学的学习者笔语词汇多样性变化规律研究*

2019-08-01张江丽

关键词:第二语言语料母语

张江丽

(北京华文学院,北京 100037)

一、引言及回顾

词汇多样性是指在一定长度的文章里,不重复使用的词语比例,是考察词汇丰富性的重要参数。

一些研究表明词汇多样性能够反映学习者的语言水平(Laufer & Nation[注]Laufer,B.& P.Nation Vocabulary size & use:Lexical richness in L2 written production[J].AppliedLinguistics,1995,(16).),与学习者的写作水平呈正相关(Grobe[注]Grobe,C.Syntactic maturity,mechanics,and vocabulary as predictors of quality ratings[J].Research in Teaching of English.1981,(15).;McNamara etal.[注]Mc Namara,S.D.,M.M.Louwerse,P.M.Mc Carthy& A.C.Graesser.Coh-Metrix:Capturing linguistic features of cohesion[J].Discourse Processes,2010,(47).),与学习者的口语水平呈显著的正相关(Yu[注]Yu,G.X.Lexical diversity in writing and speaking task performances[J].Applied Linguistics, 2010,(31).),是学习者写作能力和交际水平的重要指标(Malvern & Richards[注]Malvern,D.& B.J.Richards.Investigating accommodation in language proficiency interviews using anew measure of lexical diversity[J].Language Testing,2002,(19).)。以上研究均表明,词汇多样性是衡量词汇水平的重要维度。

Laufer[注]Laufer,B.The development of L2 lexis in the expression of the advanced learner[J].The Modern Language Journal,1991,(4).提出了计算词汇多样性的方法,认为词汇多样性是指语言学习者在语言产出中使用的词汇类型与词语总数的比例。Laufer所说的词汇类型即词种数,是指一个文本中不同词的个数,重复出现的词只记做一个类符,用“token”来表示。词汇总数即词符数,是指一个文本中所有词的个数,用“type”来表示。

在多样性计算公式研究之初,学者们通常用类符数除以形符数再乘以100来测量词汇的多样性。如Laufer[注]Laufer,B.The development of L2 lexis in the expression of the advanced learner[J].The Modern Language Journal,1991,(4).,马广惠[注]马广惠.中美大学生英语作文语言特征的对比分析[J].外语教学与研究,2002,(5).,陈默[注]陈默.汉语作为第二语言自然口语产出的复杂度、准确度和流利度研究[J].语言教学与研究,2015,(3).。后来一些学者发现,这种方法容易受到文本长度的影响。文章越长,比值就越低(Arnaud[注]Arnaud,P.The lexical richness of L2 written productions and the validity of vocabulary tests[A]. In Culhane,T .,C.Bradley & D. Stevenson(eds.). Practice and Problems in Language Testing:Papers from the International Symposium on Language Testing[C].Colchester:University of Essex,1984;Malvern & Richards[注]Malvern,D.& B.Richards.A new measure of lexical diversity[A]. In Ryan,A.& A.Wray (eds.).Evolving Models of Language[C].Clevedon:Multilingual Matters.1997.)。为了解决这一问题,研究者使用各种算式来转换原始的公式来降低文本长度的影响。有的用类符数的平方除以形符数。如Wolfe-Quintero,K.,Inagaki,S.&Kim,H.Y.[注]Wolfe-Quintero,K.,Inagaki,S.&Kim,H.Y.Second Language Development in Writing:Measures of Fluency,Accuracy & Complexity[M].Hawaii University Press,1998.,文秋芳[注]文秋芳.英语专业学生口语词汇变化的趋势与特点[J].外语教学与研究,2006,(3).。还有的用“U公式”:Ubers index=U=(log token)2/log tokens-(log types)。例如:Dewaele[注]Dewaele,M. Extraversion et richnesse lexicale dans deux styles d'interlangue francaise[J].ITL Review of Applied Linguistics,1993,(100) :87~105.;Tweedie &Baayen[注]Tweedie,F. & R. Baayen. How variable may a constant be? Measures of lexical richness in perspective[J].Computers & the Humanities,1998(3).,Jarvis[注]Jarvis,S.Short texts,best-fitting curves and new measures of lexical diversity[J].Language Teating,2002,(19).。

文秋芳,胡健[注]文秋芳,胡健.中国大学生英语口语能力发展的规律与特点[M].外语教学与研究出版社,2010.经过对比发现类符数的平方除以形符数的方法能最大限度地避免文章长度不等导致的相差悬殊的问题。本研究拟采用这种方法来计算。

在汉语第二语言教学领域,一些学者也对词汇多样性进行了相关研究。黄立,钱旭菁[注]黄立,钱旭菁.第二语言汉语学习者的生成性词汇知识考察——基于看图作文的定量研究[J].汉语学习,2003,(1).以33名留学生在学期初和学期末的两次作文为考察对象,调查了他们作文中词汇的使用情况。在此基础上,他们还对高级水平学习者的词汇多样性与汉语母语者进行了对比。曹贤文、邓素娟[注]曹贤文,邓素娟.汉语母语和二语书面表现的对比分析——以小学高年级中国学生和大学高年级越南学生的同题汉语作文为例[J].华文教学与研究,2012,(2).以小学高年级中国学生和大学高年级越南学生的作文作为对比对象,考察了他们的词汇多样性。陈默[注]陈默.汉语作为第二语言自然口语产出的复杂度、准确度和流利度研究[J].语言教学与研究,2015,(3).考察了中高级水平美国留学生汉语口语产出的词汇多样性,文中把不重复词语的数量和词语总量的比例作为多样性计量的公式。吴继峰[注]吴继峰.英语母语者汉语写作中的词汇丰富性发展研究[J].世界汉语教学,2016 ,(1).以46篇英语母语者的汉语作文(每篇200字)为语料,考察了学习者的词汇多样性,文中提到的词汇变化性,即本文所说的词汇多样性。并认为,现有词汇变化性的测量是有局限的,必须考虑类符的频率因素。邓芳,郝美玲[注]邓芳,郝美玲.基于“看图口语叙述”任务的泰国留学生词汇多样性发展研究[J].华文教学与研究,2017,(1).用“看图口语叙述”的方式获取语料,探讨了不同水平泰国汉语第二语言学习者在口头表达中的词汇多样性的发展趋势。

以上研究开始关注汉语第二语言学习者词汇的多样性,有助于加深对学习者词汇情况的深入了解。但是以往的研究在内容上多把多样性作为词汇丰富性的测量指标之一,研究不够深入;从语料来源上看,研究选取的语料规模较小,语料规模多在万字左右;从研究结果来看,研究结果不一,而造成这些差异的原因可能是被试数量较少、计算公式不科学,因此所得结论有待进一步检验。此外,从研究视角来看,以上研究中黄立、钱旭菁[注]黄立,钱旭菁.第二语言汉语学习者的生成性词汇知识考察——基于看图作文的定量研究[J].汉语学习,2003,(1).的研究是涉及汉外对比的研究。该研究把高级水平学习者的词汇多样性与中国大学生进行了比较,目前尚未出现不同水平第二语言学习者和不同水平汉语母语学习者的词汇多样性进行对比的研究。

本文将在较大规模自建语料库——“外国留学生汉语笔语语料库”和“中国中小学生汉语笔语语料库”的基础上,从对比的角度考察汉语第二语言学习者和汉语母语学习者在词汇多样性上的变化规律,研究旨在回答以下3个问题:

(1)汉语第二语言学习者与汉语母语学习者在词汇多样性上有何差异?

(2)不同水平汉语第二语言学习者词汇多样性的变化趋势如何?

(3)不同水平汉语母语学习者词汇多样性的变化情况如何?

二、研究方法及相关问题说明

(一)汉语第二语言学习者语料来源

本文对汉语第二语言学习者多样性的研究基于自建语料库“外国留学生汉语笔语语料库”而开展的。该语料库收集了汉语第二语言学习者第一手的笔语语料,从语料来源上看,目前已采集的语料主要包括以下几个部分:(1)在中国学习汉语的外国留学生平时的习作;(2)在中国学习汉语的外国留学生期中、期末考试状态下的作文;(3)母语非汉语的外国人参加高等汉语水平考试(HSK 高等)作文考试的一部分作文。为了更真实地反映学习者的真实水平,所采集的语料要求必须是汉语第二语言学习者独立完成的、且未经他人指导和修改的第一稿。目前语料库规模已达到4628篇,约188万字。

研究所使用的语料规模会影响词汇统计的结果,为了保持语料数量的相对均衡,我们对语料库中经过二次校对的语料进行了随机抽样,最终选取初、中、高级水平[注]学习者的汉语水平以学时为标准进行划分,初级水平学习者的学时少于960小时,中级水平学习者的学时在960~1920小时之间,高级水平学习者的学时在1920小时以上。学习者的语料各约33万字,共计100万字。初、中高水平学习者的语料分别为584篇、370篇、158篇,共计1112篇。所选语料中的学习者来自印尼、泰国、美国、日本、德国、英国、马来西亚、韩国、菲律宾、蒙古、老挝、柬埔寨、俄罗斯等42个国家。

(二)汉语母语学习者语料来源

开展本研究所使用的汉语母语学习者的语料来自“中国中小学生汉语笔语语料库”,该库收集了中国学生平时的习作和期中、期末考试状态下的作文,由于在中国大多数小学从三年级才开始正式写作,因此目前搜集的语料主要包括小学三年级、四年级、五年级、六年级、初中一年级、初中二年级学生的作文。同样这些作文也都是他们独立完成、且未经他人指导和修改的第一手语料。

为了跟汉语第二语言学习者的初、中、高三个级别更好地进行对比,考虑到学生的作文水平,我们将母语学习者的六个年级分为三个学段。三、四年级为第一学段,五、六年级为第二学段,初一、初二年级为第三学段。为了与汉语第二语言学习者的语料数量保持均衡,我们同样选取了100万字的汉语母语学习者语料。每个学段各选取33万字。其中三、四年级942篇,五、六年级660篇,初一、初二年级507篇。

本研究之所以选取处于学习阶段的中小学学生的作文作为对比语料主要有以下几个方面的原因:一是汉语第二语言学习者与中小学生均处于汉语学习阶段,在学习过程上有较强的可比性;二是“外国留学生汉语笔语语料库”涉及初级水平学习者的语料,“中国中小学生汉语笔语语料库”涉及汉语母语学习者最初的笔语语料[注]中国中小学一般从三年级才涉及写作内容,因此,可以将其看作汉语母语学习者最初的笔语语料。,因此,更易观察二者在词汇多样性上的差距。

(三)分词软件与语料统计等相关问题说明

为满足本研究的特殊需求,特请软件工程师开发了专门的词汇分析软件。软件中的分词问题是影响词汇统计的重要因素。通过对多家较有影响的分词软件试运行比较,最终选取中国传媒大学国家语言资源监测与研究有声媒体中心开发的分词软件作为本研究分词的依据。在软件分词的基础上,我们对分词结果进行了人工校对。

三、研究结果与讨论

(一)汉语第二语言学习者与汉语母语学习者词汇多样性总体情况

在本研究选取的一百万字的汉语第二语言学习者的语料中,共出现词符数为560964个,词种数为20913个。根据多样性计算公式,可知汉语第二语言学习者词汇多样性为:多样性=20913*20913/560964=779.65。

在一百万字的中小学生汉语语料中,词符数为605433个,词种数为21787个,多样性=21787*21787/605433=784.02。

从这两类学习者的词汇多样性的数值来看,汉语母语学习者词汇的多样性数值略高于汉语二语学习者。那么不同水平的学习者词汇多样性的变化情况如何?

(二)不同水平汉语第二语言学习者词汇多样性发展研究

初级水平的汉语第二语言学习者的语料库中,共出现词符数为183734个,词种数为7938个。初级水平学习者的词汇多样性为7938*7938/183734=342.95。

中级水平的汉语第二语言学习者的语料库中,共出现词符数为177862个,词种数为9202个。中级水平学习者的词汇多样性为9202*9202/177862=476.08。

高级水平的汉语第二语言学习者的语料库中,共出现词符数为199368个,词种数为14587个。中级水平学习者的词汇多样性为14587*14587/199368=1067.28。(见表1)

表1 不同水平汉语二语学习者词汇多样性

从上表可以看出,不同水平学习者多样性差距较大,随着汉语水平的提高,学习者使用的词汇越多样化。初级水平学习者的词汇多样性仅为342.95,到了中级水平增长至476.08,到了高级水平多样性猛增至1067.28。由此可见,虽然从总体上看,汉语第二语言学习者与汉语母语者的词汇多样性差距不大,但是通过分水平考察发现,高级水平学习者为总体多样性数值做出了巨大贡献,初、中级水平学习者词汇多样性的真实情况并不理想,与高级水平有较大的差距,以至于从表面上看汉语第二语言学习者与汉语母语学习者词汇多样性差异不大。

(三)不同水平汉语母语学习者多样性发展研究

三、四年级的汉语母语学习者的语料库中,共出现词符数为198539个,词种数为11157个。三、四年级的汉语母语学习者的词汇多样性为11157*11157/198539=626.97。

五、六年级的汉语母语学习者的语料库中,共出现词符数为203952个,词种数为11961个。五、六年级的汉语母语学习者的词汇多样性为11961*11961/203952=701.47。

初一、初二年级的汉语母语学习者的语料库中,共出现词符数为202942个,词种数为13792个。五、六年级的汉语母语学习者的词汇多样性为13792*13792/202942=937.31。(见表2)

表2 不同水平汉语母语学习者词汇多样性

从上表可以看出,随着学习者年级的增长,3个学段的学习者词汇多样性的数值呈现增长趋势。但是后一个学段的多样性数值比前一个学段增长幅度不大。

(四)汉语第二语言学习者与汉语母语学习者词汇多样性发展对比

为了更清晰地看出汉语第二语言学习者和汉语母语学习者在多样性上的发展变化情况,我们用折线图表示(如图1):

图1 不同水平汉语第二语言学习者与汉语母语学习者多样性发展趋势图

从上图可以看出,无论汉语第二语言学习者还是汉语母语学习者,随着汉语水平的提高或年级的增长,多样性均呈现增长趋势。汉语第二语言学习者从初级到中级的增长幅度与汉语母语学习者从三、四年级到五、六年级的增长幅度相似。但是汉语母语学习者从五、六年级到初一、初二的增长幅度明显缓于汉语第二语言学习者从中级到高级的增长幅度。可见,对于汉语第二语言学习者来说,从初级到中级阶段,学习者的词汇多样性稳步增长,到了高级阶段是他们词汇多样性迅速发展的时期。对于汉语母语学习者而言,从初级到中级,从中级到高级,词汇多样性稳步增长,变化较为平稳。

邓芳、郝美玲[注]邓芳,郝美玲.基于“看图口语叙述”任务的泰国留学生词汇多样性发展研究[J].华文教学与研究,2017,(1).用“看图口语叙述”的方式获取语料,探讨了不同水平泰国汉语第二语言学习者在口头表达中的词汇多样性的发展趋势,研究显示随着汉语水平的提高,多样性在不断升高,但是初、中级之间提升不多。本文的研究结果与他们的研究结果相似。虽然研究的对象不尽相同,但是在词汇多样性的变化趋势上呈现出了相同的特点。

黄立、钱旭菁[注]黄立,钱旭菁.第二语言汉语学习者的生成性词汇知识考察——基于看图作文的定量研究[J].汉语学习,2003,(1).以33 名留学生在学期初和学期末的两次作文为考察对象,调查了他们作文中词汇的使用情况,结果发现第二次作文的词汇多样性指标反而比第一次低。该文采用的词汇多样性公式是:文章中不相同的词除以文章中总的正确词数。在引言部分我们已经对几种常见公式进行了讨论,相比其他几种公式,这一公式很难规避由于文章文本长度不同带来的词汇多样性测量不准确的情况。虽然作者在文中解释这是因为第二次作文的长度较长,而作文越长,使用不同词的难度就越大。其实很重要的一个原因可以是文章选取的公式不当。

四、启示与建议

语言多样性的维度有很多,既可以是语法的多样性,也可以词汇的多样性。如果一篇文章在语法和词汇的使用上较为多样,会给人留下生动、活泼、有文采的印象。因此,提高学习者语言使用的多样性是提高写作质量的重要因素。那么如何提高学习者词汇的多样性呢?

(一)增加词汇量

无论学习哪一种语言,词汇都是语言表达的基石。如果没有语法,我们可能表达得不好,但是如果没有词汇,我们将无法表达。因此,从词汇入手增加学习者的词汇量是语言学习最重要的基础之一。

词汇学习当然是越多越好,学习者掌握的词汇越多,那么他阅读和表达的质量就会越好。但是学习者不可能一下子掌握大量词汇,词汇掌握得越多越好只是一种理想。因此,在词汇的教学中,一直有以下几个问题困扰教学者。哪些词汇应该先学,哪些词汇可以后学?哪些词汇应该能够自由产出?哪些词汇认读即可?这些也是教学大纲的编写者和制定者最应该关注的问题。

在编写大纲的过程中,应该考察汉语母语者最常用的词汇,比照汉语第二语言学习者经常使用的词汇,来制定教学大纲的总目标。在总目标下设立不同水平学习者应该掌握的词汇量,即分阶段制定目标。在大纲总目标和分目标确定的情况下,对于内部的词汇可以按照听、说、读、写这4个标准确定哪些是需要“四会”的产出性词汇,哪些是需要“一会”“两会”“三会”的接受性词汇。

学习者在课上学习过一些词汇后,应该想方设法使用这些词汇,尤其是掌握词汇的使用环境和使用条件,多读、多听、多说、多写才能切实提高词汇量,才能让更多词汇成为学习者在口语和书面语中能够自由表达的词汇。

(二)重视一种意思多种表达的训练

除词汇量规模较大以外,语言的多样性还体现在表达相近的内容时,不局限于常见表达,语言变换较多,表达丰富多样。从这个角度来看,词汇多样性的提高则有待于学习者掌握意义相近、功能相似的不同表达方式,并能在合适的场合正确产出。

例如:汉语中表达问候这一语义功能的句子和词汇有很多,中国人既可以说“你好”,又可以说“最近怎么样”,还可以说“好久不见,别来无恙”。前两种表达所使用的词汇较为简单,词汇的难度等级也较低,因此,词汇的多样性相对较差,最后一种表达则显得丰富很多,文言词汇简短有力。

很多参加过雅思、托福考试的人会有类似的体会,在写作中,文章的开头有几种写法,结尾有几种写法,表达个人观点时可以变换哪些表达。虽然这些方法看似老套,但是在学习语言之初,不失为一种提高语言表达多样性的手段和途径。

汉语二语学习者词汇多样性的提高,应从词汇入手,总结出同义词、近义词、同一语义场的词,同一义类的词,帮助学生学会联系,通过联系在脑子中形成自己的词汇网络,当学生可以灵活运用这些词时,词汇使用的多样性会有明显提升。

在语法、功能的层面同样可以进行总结,把具有相同语义功能的语言点和表达方式归纳到一起,学习者形成自己的语法、功能网络,这样语法使用的多样性会有显著提高。

猜你喜欢

第二语言语料母语
基于归一化点向互信息的低资源平行语料过滤方法*
母语
第二语言语音习得中的误读
Critically assess the use of Contrastive Analysis as an aid to second language teaching
母语
Improving Vocational School Students’ Ability of Speaking English by the PPP Model
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
第二语言词汇附带习得研究30年述评
论《远大前程》的语言特色及其母语迁移翻译