APP下载

《汉语报刊》主题词及文本难易度分析

2020-07-02北京外国语大学季晶静

语料库语言学 2020年1期
关键词:难易度主题词报刊

北京外国语大学 季晶静

提要:对于汉语学习者而言,阅读报刊新闻是提升学习者语言能力的有效途径之一,但目前报刊新闻课普遍存在难学、难教的问题。本文借助语料库相关工具提取主题词群的方法帮助教师与学习者构建文本的主题图式,将思维导图的思想引入语料库驱动的报刊新闻课堂教学中,并通过语料库的相关工具对教学材料的选编进行分析,以期在人工判断和计算机统计中寻找一个平衡点,更好地帮助研究人员编排教材。同时,以“图式理论”为指导帮助汉语学习者构建“主题图式”,切实提高学习者阅读中文报刊的解码能力。本文以意大利报刊教材《汉语报刊》为分析对象,对新闻进行归类,通过提取相关领域的主题词群构建语义网络,阐述主题词与课文主旨表述之间的关系,并根据主题词明确文本主题的相互关联性。同时,借助语料库相关工具,考察词汇复杂度、独异度、密度及文本长度等对于文本难易度的影响,更合理地安排课程顺序。最后,简要总结主题词群在对外汉语教学中的作用。

1.引言

在对外汉语教学中,报刊课是一种“主题教学”。课堂上,教师由一个核心主题推导出层层相扣的知识网络,并在特定时间内完成该主题的讲授和操练。核心主题还有独立存在而又相互联系的不同子主题,能够满足不同水平学习者的要求。这种教学理念的理论基础是图式理论。图式作为知识构建的各个组块,由各种关系进行重组,相互影响和联系,在人脑中形成一个纵横交错的多维网络。在这个多维网中,不同等级的图式,环环相扣,层层相连,交互影响。

在现今的对外汉语教学中,针对报刊阅读的研究大多都是在不同教材中进行对比分析、教材编写研究,报刊阅读课的教学模式和方法层出不穷,但将图式理论用于报刊阅读课的探索还很少。同时,语料库语言学的快速发展为此提供了契机,我们可以借助语料库工具,高效地提取主题词群,形成关于某一主题或文本的主题图式,帮助学习者排除语言障碍,提高阅读理解能力。

综上所述,本文提出两个研究问题:(1)教师如何通过提取主题词群的特征构建连贯的主题图式,帮助学习者记忆与理解文章内容;(2)如何借助Uber、Originality等工具分析文本难易度,为教材的选编开辟新途径。

2.主题词提取的基本理据及研究工具

主题词分析是语料库技术中研究文本语言特征的重要手段。提取主题词首先要生成观察语料库和参照语料库的参考词频表,然后用参考词频表计算主题词。主题词不是指文本中使用最频繁的词汇,而是指频率显著高于或低于参照语料库中对应词频率的词汇。比较观察语料库中的词频和参照语料库中的对应词的词频,考察两个语料库词频之间是否存在显著差异,从而明晰语篇中词语的分布情况与文章主题之间的关系。文本中词语的使用具有规律性,通过提取主题词可以找到规律。主题词分析既是一种词语运用的统计方法,又是一种在词语分布视角下观察文本的策略。

本文使用的观察语料是意大利罗马大学使用的汉语教材《报刊汉语》,从中选取20篇课文[均选自新华网(2008—2012年)],形符数为6,950,类符数为1,880。采用《人民日报》网站中提取的通用词表作为参照词表,该词表收录的词大致反映了《人民日报》新闻用语的特点,故使用范围较广、频率较高的助词,如“的”等词语未收录在内。研究使用北京外国语大学研发的语料库分析软件PowerConc 1.0,该软件界面简洁,操作便捷,用来处理中文语料切分以便统计词频和生成主题词表。(参照孙琳 2016)。

3.主题词提取的数据处理步骤

本研究的数据处理步骤如下。

(1)文本纯净化。文本净化后转存为UTF-8格式的纯文本文件。

(2)主题聚类。对语料库文本按主题进行分类和聚集,即把同一主题领域的课文放置在同一个目录下。

(3)切分语料。用NLPIR-Parser对语料库进行切分和词性标注。

(4)统计词频。利用PowerConc的N-gram list分别统计各个主题所用的词语的频次,生成观察词表。

(5)建立主题词表。利用keyness(主题性)导入参照词表,将其与观察词表对照,自动生成主题词表。在计算某一个词项的主题性时,需要考虑到该词在观察语料库中的频数、观察语料库的库容,该词在参照语料库中的频数和参照语料库的库容。

4.主题词的统计与分析

4.1 主题层级划分

我们首先对20篇文本进行主题分类,共分为7个领域。其中政治类文本2篇(占10%)、经济类文本3篇(占20%)、环境类2篇(占15%)、体育类文本3篇(占15%)、社会类文本4篇(占20%)、文化类文本3篇(占15%)、外交类文本3篇(占15%)。本研究主要分析社会类文本。

由于报刊阅读课属于主题式教学,文章围绕一个核心主题层层散发开来。上述7个领域可以看作核心领域,每一个核心领域下又包含着子领域,每一个子领域又可以细化为具体的篇章主题。一篇文章只有一个核心领域,却可以涉及多个子领域,比如“幸福生活少不了公平”一文中,核心主题是“保障制度的完善”,除此之外还有经济总量翻番、“拿起筷子吃肉、放下筷子骂娘”等俗语,它们类属于经济、文化等领域,彼此交织。对于初级学习者而言,教师们只需要以核心主题为主展开讲解,其他领域主题可以一带而过。对于高级学习者而言,教师可以把握住主题间层层嵌套的网络,进行适当的延展教学,在课堂讨论的时候学生的发言就会有更大的视野,寻找更多的思考方向。本研究中20篇文本的多层级主题划分如表1所示。

表1 文本主题划分

4.2 主题词群与文本的个性主题

下面以社会类的主题为例分析主题词的特征。本文首先统计了4篇文本的词频,将频次大于10的列为高频词,共有1,516个形符,639个类符。这些词语使用频率高,表明它们在4篇课文中通用度高,但不能精确反映某一具体领域的主题,在提取主题词表时应进行人工过滤,将这些通用词语筛选出去,从而得到一份较为精准的主题词表。高频词如下所示:

的、是、了、在、不、幸福、和、中国、个、她、有、也、北京、一、美国、年、对、房子、就、孩子、旅游、要、上、增长、经济、买、这、制造、中、最、先、已经、可以、一种、生活、没有、什么、自己、美国、问题、许多、都、说、部分、世界、起来、通过、现在、北京、个人、房子、一些、认为、重要、成为、工作、社会、他、都是、发生、进行、人们、需要、影响、制造、感到、国家、来说、收入

利用keyness功能与参照词表对照,进行人工剔除,社会类文本前10名的主题词如表2所示。

表2 “社会类”主题词群

从词义上看,这10个主题词都是文章中的关键词,分别指向地点、行动者、接受者、主要行为等。依据这些主题特征能够推测出文章的主要内容或侧重点,所描述的事件的共性在于,它们同属于社会问题或现象。从词性上看,主题词群中多是名词,接着是动词。在主题词群中,名词性的概念占主要地位。因此,在提取文本的主题词群时,我们的参考原则是提取名词概念、具有主题特点的动词性和形容词性的词和短语,同时将其他领域特征表现弱的词语筛除出去。

不仅同一领域内的文章都具有共性与共同的主题指向,任何一篇文章也有主题指向。即使是同样主题的文章,也有不同的表达重点。也就是说,有该文本独特的个性,也称为“文章指纹”。文章的个性体现在个性词语的使用方面,我们发现主题词语的提取对确定文章的主题很有帮助。现代社会在学术、文学方面抄袭等事件层出不穷,“文章指纹”可用来判定是否抄袭。

报刊新闻教学的任务之一是培养学生归纳文章主题的能力,即在文本中寻找主题。而我们利用计算机也可以做到这一点,这是对人类语感的一个模拟。

下面来看同一主题的文本是如何表现其个性的。选取社会类文本的子领域中“生活”领域的2个文本——“旅游节”和“什么是幸福”,分别见表3和表4。

表3 “旅游节”文本1的主题词群

表4 “什么是幸福”文本2的主题词群

(待续)

(续表)

从这两个文本的主题词群可以判断,文本1“旅游节”的主要内容是北京因美食、文化等因素吸引越来越多的国际游客,游客人数增长。同时,中国人也改变了春节的活动方式,选择旅游过春节。文本2“什么是幸福”突出了街头巷尾人们对“幸福”的讨论及不同定义,有人认为幸福是物质需求的满足,有人认为是夫妻相亲相爱,也有人认为是人与人之间交往的宽容。

从上面这些单文本的主题词群可以看出,虽然这些文章所属的主题领域相同,但每篇文章的具体内容又各不相同,每篇文章都有自己的个性主题。文本的主题词群基本能表现出文本的个性主题,这对教学来说有一定的实用价值。

4.3 报刊新闻的主题教学

主题教学是盛行于欧美国家的一种教学形式。主题教学主要采用主题图的形式,主题图中包括主题、连接和层级结构。主题用专有名词或符号进行标记,交叉连接表示同一主题中概念之间的相互关系层级结构是主题的展现方式,主题结构图的核心部分是中心主题,位于下位的是从属概念。因此,主题图是一个纵横交错的多维网络结构图,反映了该核心主题下各个概念之间的联系。

报刊新闻课的信息量大,如何在文本中抓取关键信息进行有效地学习成为关键。结构化的主题图最大限度地压缩知识,整理信息,使其具有规律性,为教师提供帮助。从学生角度来说,主题图将新旧知识有机结合,不仅帮助他们温故知新,还勾勒了看似庞大却有助于记忆的知识网络,最大限度地提炼了知识结构,促进了学生的积极学习。同时,主题图还是一种元认知策略。学生根据主题网络相连的各领域主题词群探寻知识的各个层面,拓展视野,提高认知能力。

任何一个报刊新闻的领域都可以用主题图的形式表示出来。从大领域到子领域再到具体的主题,主题图可以标明层级关系,而在不同的层级里,都有相应的主题词群来支持。这可以为报刊新闻教学搭建一个知识系统平台。例如,面对一篇文章,教师可以给学生提供以主题词群为基础的主题图,帮助学生理清文章脉络,拓展思维,有利于学生自主学习。本研究以一篇标题为“第14届国际游泳比赛在上海闭幕”的文章为例,经过处理后,呈现如下主题词群:

项目、上海、金牌、运动员、国际、游泳、世界、共、最、闭幕式、大赛、俄罗斯、选手、举办、获得、完成、城市、参加、届、中国选手、铜、银、摘、落幕、鏖战、得主、包揽、水准、参赛、圆满、争夺、勇夺、闭幕、激烈、参与、突破、记录、创造、成绩、实现、菲尔普斯

这些围绕游泳比赛话题时触发和激活的主题词组织严密,通过语义关系形成复杂的网络关系,并且与话题内容紧密结合(见图1)。从上述主题词群可以看到这篇文章的主题及相关内容如下:

文本主题:这些主题词群都有一种语义向心性和网络性,指向“游泳比赛”这一中心主题

比赛的特征词语:项目、金牌、大赛、金牌、届

相关场景:上海、城市、俄罗斯

相关人物:中国选手、菲尔普斯

相关行为:举办、获得、完成、参加、摘、鏖战、落幕、包揽、参赛、争夺、勇夺、闭幕、参与、突破、创造、实现

相关程度:最、激烈

图1 《第14届国际游泳比赛在上海闭幕》主题图式

我们在用主题词串联课文时,能够重复使用生词,提高生词的复现率,有利于学习者更好地习得。在教学中每一个主题都有必学词语和扩散的与主题相关的词语,但是文本主题词群才是核心内容,比如本篇课文还提到俄罗斯金牌垄断的问题,但据统计的主题词表显示,“垄断”一词主题性不强,因而不作为文章的核心内容,对于初级学习者而言,上课略提即可。这些词语是在某一主题范围内高频使用的词语,能让学生的自主学习有明确的方向性,以主题词群为基础的主题图教学就是在一定范围内给学生一个知识扩散的指导。主题图符合学生的认知规律,主题词群的研究是主题教学的基础,使词汇的扩充更加科学化。主题教学符合认知规律,有利于词语的拓展,给学生提供一个可扩展的主题词群,在课堂讨论时能够提供更多的思考方向。

5.基于语料库的报刊文本难易度分析

编写教材不仅是将不同的文本编排在不同的章节,还要考虑到各个文本由易到难的顺序。教材的编写仅依靠编撰者的经验和直觉,是缺乏科学依据的,因此,通过计算机处理得出的客观难易度判断标准十分必要。

文本的难易度是一个相对的概念,是相对于各个不同级别的学生来说的。同一个文本,在学生语言发展的不同时期,会呈现出不同的难易度。此外,同一个文本,在不同的学生面前,难易度也有所不同。面对母语非汉语的留学生来说,我们在编写教材、设计教学方案、制定教学计划时需要有词语和文本难易度的等级标准,由此客观判断该文章适用于学生何种阶段水平,这个等级标准也是教材编撰时选择文本材料的依据。

从词语使用的角度分析文本的难易度,需要难易等级词汇表,如汉语水平考试甲、乙、丙、丁四级词表。对照处理后得出的词表与不同难度级别的词表,根据对不同级别词语覆盖的情况判断文本的难易度。从文本来看,难易度由以下因素决定:

(1)词汇的复杂度(高级词汇及超纲词覆盖率越大越难);

(2)词汇的通用程度(独异词的覆盖率越大越难);

(3)词汇密度(实义词覆盖率越高,单位文本的承载信息越多,难度越大);

(4)文本长度(一般情况下,文本越长越难);

(5)语法结构复杂度(复杂结构的覆盖率越大越难);

(6)文本所在的领域也就是领域度的问题,一些领域较另一些领域更为人熟悉,相应的文本难度会降低(史艳岚 2006:137)。

本文主要考察文本长度、词汇复杂度、独异度及词汇密度对文本难易度的影响。

5.1 利用词汇复杂度考察文本难易度

本文词汇复杂性的操作定义是每个文本中使用《汉语水平词汇与汉字等级大纲》中的丙级词、丁级词及超纲词总数占每个文本词汇种类总数的比例。本文采用Uber进行统计,统计结果见表5。

表5 等级词汇覆盖率

从课文的编排顺序上看,甲级词的覆盖率循环下降,表明随着学习者汉语水平的提高,适当的减少了难度较低的词汇。乙级词的覆盖率稍有提升,乙级词的上升趋势呈现的也是循环式的,乙级词覆盖率下降时,甲级词多半呈现上升趋势,两者互为补充,使得之前一些学过的词在一定范围内复现,符合记忆规律,可以帮助学习者巩固旧知识。此外乙级词总量高于丙级词和丁级词,丙级词语丁级词的覆盖率波动较小,变化较为平缓。《报刊汉语》作为三年级学生使用的高级汉语教材,从统计数据来看,它的丙级词与丁级词所占比率略低,虽然《报刊汉语》作为报刊类阅读教材会有部分特殊用语和专用词,可能会减少日常词汇的使用,但从整体比率上看,丙级词的词量仍然较低,教材中应该逐步增加丙级词覆盖率,这也符合i+1理论。从超纲词的覆盖率来看,整体上呈递增趋势,新闻报刊类教材由于自身的特殊性,超纲词往往高于其他类型的教材,难度也要高于其他类型的教材。但是值得注意的是,在第5、11、16课中,超纲词的覆盖率出现了较大的上升(见图2)。

图2 《汉语水平词汇等级大纲》甲乙丙丁四级及超纲词汇覆盖率

回归到课文发现,这几课分别是《传统建筑风水博物馆》《环境污染》《国际游泳比赛》,文本专用词较多,且文本长度突然增长,词汇多样性随之提高,从而导致超纲词的覆盖率骤增。在编排文本时,我们可以将此类文本长度较长、词汇多样性较高、主题延伸较广、高等级词汇数量有所增加的文本放置在教材的后半部分,使学习者能够循序渐进地适应课程。

上文提到的词汇多样性是指在文本中使用多种不同的词,如同义词、上位词和其他关系的词,本文同样采用Uber度量词汇多样性,计算结果如图3所示。

图3 词汇多样性

U值越大表明词汇越丰富,本册教材U值的变化幅度与文本总词数的走向趋于一致,表明本册教材中的文本长度与词汇的多样性呈正相关。

U值的最高点在第17课《老百姓的生活压力》,表明第17课的词汇最丰富,但是这并不能说明第17课的文本最难。据图2显示,第17课词汇中乙级词、丙级词和丁级词的覆盖率都呈下降趋势,整篇课文的词汇理解起来难度不大。与之相反的是第16课《国际游泳比赛》U值最低,词汇丰富性降低,但是甲级词减少,超纲词骤增,词汇难度等级加大。而且从主题上看,第20课《世锦赛》的主题专用程度更高,学习者的熟悉度较低,因而理解起来也更难。如果仅依据文本长度,那么就会出现把2,000字的用词简单的文章判成难度高,而把200字的专业词语多的文章判成难度低。所以,词汇的多样性及文本的长度与文本的难易程度关联不大。

5.2 利用词语独异性考察文本难易度

由于报刊新闻类教材的独特性,在分析时,既要统计普通词汇的难易度和覆盖率,也要考虑到主题词汇或专用词汇的难度及分布(王均松、崔维霞 2012)。如果将词汇划分为通用词汇与专用词汇,那么文本的词汇的难易程度还表现在通用词汇的覆盖率上。也就是说,一篇文章中通用词汇越多,相应的专用词汇或主题词汇越少,那么这篇文章就越简单,反之则越难。本文主题词汇的覆盖率通过利用Originality计算出独异词来表现,独异词比率越高,则主题词覆盖率越高,文章的通用词汇越少,文章越难。预设难易等级:

独异词占50%以上 难

独异词占40—50% 偏难

独异词占30—40% 中

独异词占20%—30% 偏易

独异词占10%—20% 易

独异词占10%以下 极易

下面以同在“经济形势”主题下的三篇文本的独异性为例,见表6。

表6 文本独异性

作为报刊类题材,课文受主题限制,使用的词汇可能较为集中,专用性较强。从独异度的数值来看,三篇文本的独异度都在25%以上,主题词覆盖率适中,通用词覆盖率较低,文本较难。《报刊汉语》作为一本中高级的汉语教材,文本略有难度是比较恰当的编排。从单篇文本的安排顺序上看,第7课的主题词覆盖率较低,相比第9课和第10课较为容易,因此可以将本课向前安排。由于独异度需要在同一主题领域下进行计算,只能对文本进行小范围的调整,对于按主题编排的教材而言,利用它来安排课文的先后顺序、判断文本难易度的适用性更强。

5.3 利用词汇密度考察文本复杂度

词汇密度反映的是句中实词所占的比例。由于在句中通常由实词来传递大部分信息,因此,如果一句话的词汇密度越大,则使用实词越多,所负荷的信息量也越大。反之,信息量就越少。这也通用于语篇中的词汇密度,即语篇中的词汇密度越大,其承载的信息量就越大,文本的语义理解难度加大。因此,在文本编排上,词汇密度大的文本排在词汇密度小的文本的后面。本文利用Density计算词汇密度,见表7。《报刊汉语》教材中出现的词性赋码共有15种,本文只计算NN、VC、NR、CD、VV、M、NT、VA、JJ、AD这9类实义词在文本中的覆盖率。

表7 词汇密度

如表7所示,本册教材每课的实义词覆盖率无显著差异,因此,词汇密度对文本难易度影响不大,仅起辅助判断的作用,不具备决定性功能。此外,由于词汇密度主要表示句子所负荷的信息量,它主要用来判断文本语义的复杂度而非文本难易度,即使词汇密度存在显著差异,也需要在按照词汇难度及通用度编排过后,在依据词汇密度进行局部的调整。

综上所述,词汇多样性、文本长度及词汇密度对本册教材难易度的影响不大,而词汇复杂度与通用度对文本难易度的影响较大。因此,我们在编排教材时,应该将人工判断与计算机统计相结合,科学地区分材料的难易程度,由易到难地安排课文顺序。但是由于词汇复杂度与通用度对文本都有较大的影响,以哪一个作为主要评判标准还有待讨论,抑或可以采用交叉计算的方式,将两者融合起来进行判断。

6.主题词在对外汉语教学中的作用

首先,主题词群的提取数量和文本选择的长度有关,因此,控制文章的难易度要在文本的长度方面有所限制,文章越长,主题词群的提取数量越多,文章理解起来越复杂。通用词语在文本中使用得越多,文章越容易,反过来说,独异度高的主题词群使用的越多,则文章就越难。所以我们在教材选篇时要注意控制文章的长度和难度。由于主题词群是表示该主题的特征词语,在文本分类方面,以主题词群为对照词表可以提高文本分类的精度。

其次,教师可通过主题模式教学呈现出与某一主题相关的主题词及其主题图式。一方面,通过主题模式教学培养学生围绕某一主题建构主题词及其主题图式的能力,使学生在口语交际时能够做到“言之有物”。另一方面,对主题进行层级划分,所划分的核心领域主题、子领域主题等可以引导学生优化输入和储存不同主题的主题词和图式。由于提取出来的主题词群多为名词性短语和动作性动词,教师在教学过程中也应重点强调表达具体意义和行为的词汇,并逐渐实现从有到优、从简到详,从而构建高效的主题图式和激活机制,提升口语交际能力。

最后,主题词群教学由于集中了大量与主题相关的有效词语,对学习者的阅读理解和表达能力都有很大帮助。在阅读理解方面,知识面随主题词群的拓展而拓宽,能够提高学习者的阅读速度和理解水平。在成段叙述和表达方面,由于主题词群教学能增加学生的词汇量,特别是主题词群的中心性和网络性使学生能够有意识地运用与主题相关的词语,使原本分散的词汇聚合在一起,形成一个词汇场,是学生扩大词汇量的有效方法之一。

7.结语

本文主要通过提取主题词群的方法帮助教师与学习者构建文本的主题图式,将思维导图的思想引入语料库驱动的报刊新闻类教材的教学中,并借助语料库的相关工具对教学材料的选编进行了简单的分析,期望在人工判断和计算机统计中寻找一个平衡点,更好地帮助研究人员编排教材。本研究的局限是所选的语料数量较少,有些主题下仅有一篇相关文本,从中提取的主题词不能代表该主题下的所有核心成分,所以无法形成该主题的专用词表。关于新闻报刊类教材的时效性问题,《报刊汉语》这本教材的语料多为2012年前的新闻,所选定的观察语料库中的语料有些陈旧,不能够完全地反映出当代社会的热点或现状,因而提取的部分主题词的适用性和通用性较弱,这一问题有待扩大观察语料库或更新语料后开展进一步研究。

猜你喜欢

难易度主题词报刊
本刊推荐2024年优秀教育报刊
韩语学习者发音习得难易度实证研究
百强报刊
浅谈初中课堂教学中的情境创设
数学课堂中如何把握提问的科学性
在“门”字内加字可以组成新的字,试着填填下面的空吧!
我校学报第32卷第5期(2014年10月)平均每篇有3.04个21世纪的Ei主题词
我校学报第32卷第6期(2014年12月)平均每篇有3.00个21世纪的Ei主题词
2014年第16卷第1~4期主题词索引
《疑难病杂志》2014年第13卷主题词索引