APP下载

对外汉语教材词汇特征的定量研究——以《登攀·中级汉语教程》为例

2014-11-07松,邱

黑龙江社会科学 2014年3期
关键词:词表大纲语料

高 松,邱 爽

(黑龙江大学文学院,哈尔滨150080)

近年来,语料库语言学得到了蓬勃发展。语料库既是一种工具,更是一门科学,它正在对语言研究的许多领域产生愈来愈大的影响[1]。语料库为语言学的研究提供了一种新的思维视角,辅助人们的语言“直觉”和“内省”判断,已逐渐成为语言学研究的主流方法。

词汇是语言的重要组成部分,是语言的三大要素之一。在对外汉语教学中,词汇教学一直处于核心地位。实施教学的基础和主要依据是教材,教材的质量关系着教学的质量[2]。决定教材质量的关键问题之一,就是教材词汇的选择与编排。教材词汇选择编排得是否科学合理,直接影响到学习者学习的积极性和对外汉语教师教学的效果。目前,关于对外汉语词汇的研究主要集中于词汇教学中教学法的使用方面,对词汇特征的系统分析,尤其是对教材词汇特征的定量分析方面的研究相对较少。

本文以在对外汉语教学界相当有影响的《登攀·中级汉语教程》系列教材为研究对象,采用语料库语言学的研究方法,借助语料库检索与统计分析软件,对教材课文文本的词汇进行定量研究。通过统计课文文本词频建立高频词语表,统计课文平均句数得出平均句长,基于统计出的词汇信息揭示教材词汇的特征,为对外汉语词汇教学提供参考,也为今后的对外汉语教材编写和词汇选择提供借鉴。

一、研究资源和方法

本文以《登攀·中级汉语教程》(以下简称《登攀》)系列教材作为语料来源。《登攀》是2005年由北京语言大学出版社出版的汉语中级精读教材,在对外汉语教学界具有较高的知名度,其选文覆盖面广,体裁丰富,为众多汉语学习者所熟知。该系列教材分为上下两册,共36篇课文。

为了对教材词汇进行定量研究,发现词汇的特征,我们将教材中的36课基础课文逐课录入计算机中,以课为单位,建立了36个文本文档。基于课文文本,我们利用传媒语言语料库在线分词标注系统对语料进行了分词和词性标注。同时,对语料文本的词次数和词种数进行了统计。统计发现:教材课文总词次数为36 511,总词种数为5 928,单课最少词次数为195,最多词次数为739。最后,利用Antconc语料库检索软件对课文文本语料库中的词汇信息进行了检索统计。

二、词汇特征的定量分析

1.词频统计

词频统计是在语言学等领域中普遍运用的一种词汇分析研究方法,其统计的对象是一定文本材料中词汇出现的次数。

基于已经分词和词性标注的教材课文文本,我们用Antconc语料库检索统计软件统计出《登攀》中5 928个词种的词频,按照出现频次从高到低的顺序制成频率词表。根据对频率词表的观察,我们发现:出现频次在100以上的词语有33个,占总词种数的0.56%;出现频次在10以上的词语有427个,占总词种数的7.2%;出现频次为1的词语有3 234个,占总词种数的54.55%。可以看出,课文中出现频次较高的词在总词种数中的占比较低,而课文中一半左右的词仅出现了1次。教材词汇体现出“高频词数量少,低频词数量多”的特点。

我们根据频率词表,提取出了前十个高频词语,制成了高频词表。从中可以看出结构助词“的”的使用频率最高,出现频次为1730;其次是人称代词“我”,出现频次为1 126;然后是动态助词“了”,出现频次为919。

高频词 频 次 高频词 频 次1.的 1 730 6.在328 2.我 1 126 7.他327 3.了 919 8.说312 4.是 534 9.你302 5.就 331 10.不276

2.句长统计

平均句长是测量语料难易程度的重要指标。哥伦比亚大学的弗勒施认为想要测量一个语料的难易程度,应该包含每一百个词的音节数与平均每句的词数[3]。后来,国外有学者提出新的测量标准,即以每个单位空间中的平均词数和句子的平均词数这两个要素,作为衡量语料难易程度的标准[4]。我们基于国内外学者的研究,对《登攀》每篇课文的平均句长等进行了考察。首先,以随机形式对该系列教材的36篇课文逐课地进行段落抽取,然后对每篇课文抽取的一个段落进行统计分析,得出每百字段落所包含的平均句子数,又对每句所包含的词数进行了统计,得出了平均句长。

通过统计,我们计算出教材每百字句数和句长的平均值分别为3.37和31.06,即教材课文文本每百字平均包含3.37个句子,课文中句子平均包含31.06个词。每课的平均句数和平均句长的统计数据,如下图所示:

从图中可以看出:第 3、13、18、21、30、31、33课共有7篇课文的平均句长明显高于平均值,这些课文的难度较大。而第 1、2、9、12、24、29、32、34、35课共有9篇课文的平均句长明显低于平均值,这些课文的难度较小。其他20篇课文的平均句长都比较接近整套教材课文句长的平均值。如果将整套教材的难度分为高、中、低三个等级的话,由统计可以看出难度为中等水平的课文所占的比重是最大的,而难度为高等、低等水平的课文占比大致相同。总体来讲,教材《登攀》在课文难度的设置与安排上还是比较合理的。以上这些研究结论,应该引起对外汉语教师和学习者的注意。难度较大的课文,教师教学和学习者学习都较困难;难度较小的课文,教师教学和学习者学习都容易些。

课文编号平均句数平均句长课文编号平均句数平均句长1 4.38 22.83 19 3.45 29.20 2 4.10 24.40 20 3.19 31.33 3 2.23 44.75 21 2.64 37.83 4 3.33 30.00 22 3.67 27.25 5 3.01 33.25 23 3.55 28.20 6 3.39 29.50 24 4.31 23.20 7 3.39 29.50 25 3.33 33.00 8 3.54 28.25 26 3.06 32.67 9 4.04 24.75 27 3.60 27.80 10 2.92 34.25 28 3.38 29.60 11 3.30 30.30 29 4.21 23.75 12 4.17 24.00 30 2.13 47.00 13 2.59 38.60 31 2.07 48.33 14 3.66 27.33 32 4.38 22.83 15 3.74 26.75 33 2.86 35.00 16 3.45 29.00 34 3.91 25.58 17 3.20 31.25 35 3.97 25.20 18 1.97 50.67 36 3.23 31.00

3.新大纲词汇对教材词汇的覆盖率

新HSK是国家汉办/孔子学院总部2009年推出的一项国际汉语能力标准化考试,是在吸收了旧HSK的优点,借鉴近年来国际语言测试研究的热点成果的基础上研制出来的[5]。《新汉语水平考试大纲》(以下简称“新大纲”)于2010年初由商务印书馆全部出齐。新大纲公布了词汇等级表,该词表共收录词语5 000个,是根据考生参加不同等级考试需要而制定的一个具有标准化、规范性的词表。

《登攀》系列教材课文所包含的词语有5 928个,新大纲词汇等级表收录的词语有5 000个,所包含的词语数量大致相当。两者在数据规模上虽有差距,但相差不大,所以,具有一定的可比性。我们统计发现,《登攀》课文词表与新大纲词表中,共现词有2 056个。从词语的音节数上来看,单音节词有406个,占共现词的19.75%。双音节和多音节词有1 650个,占共现词的80.25%。从词性上来看,共现词中名词和动词占比较大。

为了考察《登攀》词汇选择的科学性、合理性,我们计算了新大纲词汇对教材词汇的覆盖率。我们参照前辈时贤的研究方法,用程序将新大纲词表与分词后的语料进行了处理,对大纲词表中有,而语料中没有的词语进行改写,保留新大纲词表和语料中共现的词语[6]。为计算得出新大纲词汇对教材词汇的覆盖率,我们使用了范凤祥提出的某数量词汇对长度为N任意一语篇的单词覆盖率 C的公式[7]。公式中:C为覆盖率;Fwj为被覆盖的第j个词汇在语篇出现的频次;s为被覆盖的词汇数;N为语篇总单词数。

利用公式,我们计算得出新大纲词汇对教材词汇的覆盖率为55.85%,该值距离95%的参考值还有很大差距。由此可以看出,即使学习者掌握了新大纲一级到六级的全部词汇,也很难读懂《登攀》这套教材的课文。因为在平均句长为31.06的教材文本中,平均每句仍有13.7个词语不能识读,这会使学习者对课文的理解产生障碍。

通过对《登攀》这套教材词汇的定量分析,我们可以看出,该教材在课文难度设置上比较合理,难度为中等水平的课文占比最大,难度高和难度低的课文占比相近,教材课文整体难度水平设置得较为合理,较适合学习者学习。同时,我们计算得出了新大纲词汇对教材词汇的覆盖率55.85%,这个值是偏低的,不利于学习者对中级汉语教材的学习。对外汉语教学主要以教材为载体,学习者对教材词汇的掌握程度直接影响他们对汉语的运用能力。对《登攀》这套教材词汇进行定量的分析,可为今后该教材的修订提供数据上的参考,也可为其他中级水平对外汉语教材的编写提供借鉴和帮助。

[1]周小兵,赵新.中级汉语精读教材的现状与新型教材的编写[J].汉语学习,1999,(1):54-57.

[2]桂诗春.语料库语言学与中国外语教学[J].现代外语,2010,(4):419-426.

[3]乐眉云.介绍一种测定英语教材难度的科学方法[J].外语教学与研究,1983,(4):47-49.

[4]张宁志.汉语教材语料难度的定量分析[J].世界汉语教学,2000,(3):83-88.

[5]张晋军,解妮妮,王世华,李亚男,张轶英.新汉语水平考试(HSK)研制报告[J].中国考试,2010,(9):38-43.

[6]张卫国.阅读:覆盖率、识读率和字词比[J].语言文字应用,2006,(3):102-109.

[7]范凤祥.轮机英语词汇的量化特征[J].大连海事大学学报:社会科学版,2006,(2):128-132.

猜你喜欢

词表大纲语料
50个重要的知识点 一份“学习大纲”帮您梳理党的二十大报告
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
基于语料调查的“连……都(也)……”出现的语义背景分析
叙词表与其他词表的互操作标准
紧贴实战落实《大纲》要求推进航空体育训练创新发展
华语电影作为真实语料在翻译教学中的应用
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
国外叙词表的应用与发展趋势探讨*
常用联绵词表