国际中文教育的文本可读性研究回顾
2022-12-16张庆翔
张庆翔,张 莹
(上海大学 文学院,上海 200436)
一、引言
文本可读性,也称为“易读性”,一般是指文本易于阅读和理解的程度或性质。王蕾把国际中文教育领域的可读性定义为:汉语阅读材料的难易度,是否适合某种水平的某一类汉语第二语言学习者的阅读[1]。文本可读性既要对阅读材料的难度或可读性进行测评,也要对读者的阅读能力进行测评。因此,在研究国际中文教育领域的可读性问题时,不仅要考虑到阅读者的水平,还要考虑到他们的语言文化背景,如是否为汉字文化圈国家、是否为华侨等因素。
可读性研究起源于美国,国内最早应用于英语教学领域。文本可读性的研究思路是对阅读材料的难度进行客观评价,通过建立一套实用、易操作的文本可读性评估体系,以实现在教学中帮助选取与学习者水平相适应的语料以及预测语料难度的目的,并可直接作用于建立分级阅读标准或分级阅读系统。
在国际中文教育领域中,张宁志最早尝试运用量化方法来衡量教材难易度,作者定量分析了29 部国际中文教育教材语料的平均句长,研究发现,句长和非常用词比率都是影响汉语文本阅读难度的重要因素[2]。这是国际中文教育领域最早的关于可读性的相关研究。王蕾则构拟了第一个文本可读性公式[3],并引起了一些学者对文本可读性研究的关注,由此产生了一些根据差异性文本来构建适用于不同范围的可读性公式的成果。随着研究方法的更新和交叉学科成果的介入,一些学者突破了国际中文教育领域可读性研究的范式,创造性地采用朴素贝叶斯和支持向量机等学习算法,通过建立数学模型来评价文本可读性,为国际中文教育领域的文本可读性研究提供了新的思路和方法。可以说,通过梳理国际中文教育文本可读性的相关研究成果,不仅能够了解文本可读性的研究脉络、研究方法,而且有助于开辟新的研究思路。
二、关于可读性公式的研究
国际中文教育领域的文本可读性研究主要集中在三个方面:归纳影响难度的文本特征因素、测定特征因素对难度的影响力、依据设定的标准定量考察语料文本难度。其中,定量分析将模糊的因素用具体的数据来表示,从而达到分析比较的目的,它成为研究文本难度的必要手段,可读性公式则是定量研究语料文本难度的最直接形式。
(一)影响可读性的文本特征
文本可读性研究的重点是选择文本特征,按照选定的参考标准统计影响文本难度的特征变量是建立可读性公式的关键。按照文本特征因素在研究阶段中所起的作用,可以将其分为三类:预测特征变量、有效预测特征变量和结果特征变量。在研究初始阶段,系统性预设的文本特征因素即为预测变量。在调查实验过程中,能够赋值或者对研究目的起作用的变量即为有效预测变量。有效预测变量经过赋值和回归分析后,剔除对文本可读性不产生影响或影响极小的成分,在可读性公式中保留下来,影响阅读难度的有效预测变量即为结果变量。
基于回归分析的可读性公式研究中的文本特征,主要涉及字、词、句、语法和篇章层面。由于各种可读性公式在研究目的、研究对象、分析手段或研究者知识背景等方面会有所不同,因此,在文本特征的选择和排除上也存在一定差异。对可读性公式研究中所涉及的文本因素进行统计,与字相关的文本特征有总字数、非重复字数、字种数、简单字数(甲级字数)、字均笔画数、非重复字均笔画数、字频、汉字部件数、丙级/丁级/超纲字数等;与词相关的文本特征有总词数(固定词组数)、非重复词数(相异词比)、简单词数(甲级词数)、词频、平均词长、难词比(丙级/丁级/超纲词占总词比)、实虚词比、实词密度、虚词数、丙级/丁级/超纲词数等,这些特征因素体现了词的数量、类别、难度和差异性;与句相关的文本特征有句子数、句均字数、句均词数、分句数、分句均字数、分句均词数、语法点难度、平均句长、篇长、名词短语比率。在选取字和词层面的文本特征时,所依据的标准一般是2001 年发布的《汉语水平词汇与汉字等级大纲(修订本)》。由于项目统计复杂,语法和篇章层面的文本特征较少被提及,与语法相关的文本特征只出现丙级以上语法项目1 项,主要是根据《对外汉语教学初级阶段教学大纲》确定其难度,依据《汉语水平等级标准与语法等级大纲》确定其项目等级;与篇章相关的文本特征有标志词数(关联词)和人称代词数两项,以《实用现代汉语语法》为选取标准。2021 年,《国际中文教育中文水平等级标准》颁布,将会对今后研究中文本特征的选用和分析产生一定影响。
文本特征对可读性的影响具有不同的权重,在以往的研究中,对文本可读性产生影响的特征主要集中在字、词和句层面,语法和篇章的层面的影响因素相对较少。邹红建、杨尔弘考察了《新编汉语报刊阅读教程》的难易度,认为通用词覆盖率、文本长度值对文本难易度产生了重要影响[4](P378)。李燕、张英伟对《博雅汉语(中级冲刺篇Ⅰ)》的语料难度进行了定量分析,研究显示,平均句长、每百字含非常用字数和文学性修辞表达手法,是影响教材语料可读性的重要变量[5]。郭望皓、宿飞鸿通过问卷调查的方式,根据不同级别学习者的回答,加权得出了影响汉语文本难度因素的权重系数矩阵[6]。王鸿滨对汉语可读性公式进行了对比研究,认为产生影响的文本特征主要为汉字难度、词汇难度和句子难度,其中,词汇难度多基于大纲对词汇等级的划分,句子难度多以句长为依据[7]。张宁志认为,句子数、平均句长和甲乙两级以外的非常用词,是影响语料可读性的重要变量[2]。吴佩考察了影响汉语句子复杂性的通用句法特征,为文本可读性研究在句法层面上的指标选择提供了依据[8]。可见,文本特征的选用和测定是可读性公式研究的重点和难点。目前,这方面仍然存在需要改进之处,牛士伟曾指出了其中的一些问题,如同一语言层面特征不同、相同特征的统计方法不一、某些层面上的特征可以合并等[9]。
(二)可读性公式的构建
可读性公式是针对某种阅读文本,将所有影响阅读难度的、可量化的文本特征因素综合起来,所制定的一个评价文本难易程度的公式,它能够直观地定量分析文本难度。基于文本特征的可读性公式研究的典型范式,是通过选取相关文本特征作为变量,采用完型填空、回答问题等被试参与的实验方法,或者对教材中的相关文本特征变量进行直接量化,通过采用多元线性回归公式的拟测算法,构建出多种表征阅读文本难度的多元线性公式。选取不同的文本特征变量会造成公式表达的差异,根据不同特征变量的组合情况,需要从几个公式中选取拟合优度最高的一个公式,并将它确定为最终衡量文本难度的可读性公式。有些公式计算的是文本可读性,有些公式则统计可读性的难度,这是两个相反的指标,但都反映了文本语料的复杂程度。国际中文教育领域产生了一批较有影响力的可读性公式的研究成果,通过梳理、分析这些成果,可以管窥文本可读性公式研究的思路和方法。
王蕾以初中级日韩留学生记叙性汉语文本语料难度为研究对象,以《汉语水平词汇与汉字等级大纲(修订本)》为标准,进行字、词等层面的文本特征划分与统计。该文以《对外汉语教学初级阶段教学大纲》为依据来确定句子层面的文本特征,以《实用现代汉语语法》为依据来确定篇章层面的文本特征,在这一基础上,考察了《标准汉语教程》《新世纪汉语》的语料难度与文本可读性。在作者所设置的涉及字、词、句和篇章层面的16 项文本特征因素中,字层面的特征有总字数、非重复字数、非重复字均笔画数和简单字数,词层面的特征有总词数、非重复词数、简单词数和虚词数,句层面的特征包括句子数、句均字数、句均词数、分句数、分句均字数、分句均词数和语法点难度(后3 项只见于该研究),篇章层面的特征仅有标志词数(关联词)1 项。具有有效性的特征因素共有9 项,它们分别是:非重复字数、非重复字均笔画数、总词数、简单词数、虚词数、句子数、分句数、语法点难度、标志词数,其中,有4 项对文本可读性产生了影响,分别是词层面的总词数、简单词数、虚词数与句层面的分句数。其可读性公式为:Y=72.749-0.462X3+0.802X4-7.515X5+2.446X7,其中,Y为可读性分数,X3为总词数,X4为简单词数,X5为虚词数,X7为分句数。该公式的拟合优度检验值是0.803,简单词数和分句数与可读性正相关,总词数和虚词数与可读性负相关,虚词数X5相对影响较大[3]。
杨金余以高级汉语精读教材《现代汉语高级教程》《汉语精读课本》《博雅汉语(高级飞翔篇Ⅰ)》为研究对象,以《汉语水平词汇与汉字等级大纲》为依据,确定汉字的使用频率、固定词组数和丙级/丁级/超纲词语数;以《汉语水平等级标准与语法等级大纲》为标准,确定语法项目等级,构拟出具有5 项特征的可读性公式。与其他研究有所不同,该研究的预测变量、有效变量和结果变量具有一致性,预测变量全部成为影响可读性的因素。其特征变量包括字层面的丙级/丁级/超纲字数、词层面的总词数和丙级/丁级/超纲词数,句层面的平均句长与语法层面的丙级以上语法项目,其中,丙级/丁级/超纲字数、丙级/丁级/超纲词数和丙级以上语法项目作为影响可读性的变量,只在该研究中使用过。作者所构拟的可读性难度公式为:Y =0.95X1+0.975(X2+X3)+X4+X5,其中,Y 为难度系数,X1为平均每百字丙级/丁级/超纲字数,X2为平均每百字丙级/丁级/超纲词数,X3为平均每百字固定词组数,X4为平均句长,X5为平均每百字丙级以上语法项目数。所有变量均与可读性难度成正相关,并且影响程度大致相同[10]。
郭望皓从《博雅汉语》中选取28 篇课文作为语料,以《汉语水平词汇与汉字等级大纲(修订本)》为难度划分的标准,将字、词、句等层面的8 项特征设置为预测变量。其中,字层面的预测特征变量是字种数、字均笔画数和字频,词层面的预测特征变量是词频、平均词长和实虚词比,句层面的预测特征变量是平均句长和篇长,篇章层面的预测特征变量仅有标志词数(关联词)1 项。值得注意的是,字频、词频、实虚词比和篇长4 项变量只见于该研究。8 项预测变量经分析后产生有效性的是字种数、实虚词比和平均句长,它们都影响了文本难度,进入公式成为结果变量。作者所构拟的可读性公式为:Y =-11.946 +0.123X1+0.198X2+0.811X3,其中,Y 为文本可读性难度,X1是平均句长,X2是表汉字难度的字种数,X3是表词汇难度的实虚词比。该公式的拟合优度检验值调整后为0.906,3 项特征变量均与可读难度成正相关,实虚词比的影响力略大[11]。
左虹、朱勇以中级欧美留学生汉语教材《新实用汉语课本》为研究对象,以《汉语水平词汇与汉字等级大纲(修订本)》为标准,考察字频、甲级字数、甲级词数和难词比。在对教师问卷调查和对欧美学生完形填空测试的基础上,设置了9 项预测特征变量。其中,字层面的预测特征变量有简单字数、字均笔画数和汉字部件数,词层面的预测特征变量有简单词数、平均词长、难词比和虚词数,句层面的预测特征变量有句均字数和平均词数。这些预测特征变量经分析后,除了汉字部件数外都是有效变量,能够在回归方程中影响文本可读性的特征变量则只有字层面的简单字数(甲级字数)和词层面的难词比、虚词数3项。经过多元线性回归分析,作者建立了一个针对中级欧美留学生的可读性公式:Y =23.646 +0.485X2-125.931X3-0.647X1,其中,Y 为文本可读性分数,X1为虚词数,X2为甲级字数,X3为难词比。该公式的拟合优度检验值为0.795。在3 项特征变量中,甲级字数与可读性成正相关,虚词数、难词比与可读性成负相关;甲级字数和虚词数对可读性的影响极小,难词比对可读性的影响极大[12]。
龙李琴以初中级泰越留学生汉语阅读为研究对象,从《成功之路》系列教材中随机选取了16 段语料,以《汉语水平词汇与汉字等级大纲(修订本)》为字、词层面的划分与统计标准,根据不同文本特征变量的组合情况,设置了涉及字、词和句的11 项预测特征变量。字层面的预测特征变量包括总字数、非复现字数、非复现字均笔画数和简单字数,词层面的预测特征变量包括简单词数、难词比和虚词数,句层面的预测特征变量包括句子数、句均字数、句均词数和分句数。排除非复现字数、简单词数、句子数和句均字数4 项后得出有效预测特征,其中,总字数、非复现字均笔画数和句均词数3 项影响了文本难度,选取拟合优度最高的一个公式作为衡量文本难度的可读性成果,从而构建出可读性公式:Y =11.343 +0.052X1-1.313X2-0.216X3,其中,Y 为可读性分数,X1为汉字总数,X2为非复现字平均笔画数,X3为句平均词数。该公式的拟合优度检验值为0.689,汉字总数与文本可读性正相关,非复现字平均笔画数、句平均词数与可读性负相关,其中,非复现字平均笔画数这一特征对可读性的影响最大[13]。
江新等学者以HSK高级阅读测试材料为研究对象,以《汉语水平词汇与汉字等级大纲(修订本)》为统计标准,设置了涉及字、词、句和篇章层面的14 项预测特征变量。字层面的预测特征变量有总字数、非重复字数、简单字数和字均笔画数,词层面的预测特征变量有总词数、非重复词数、难词比、实词密度和虚词数,句层面的预测特征变量有句子数、句均词数和名词短语比率,篇章层面的预测特征变量是标志词数(关联词)和人称代词数。值得注意的是,人称代词数只在该研究中被作为预测变量进行考察。排除总字数、非重复字数、总词数、实词密度和句子数5 项后,剩余9 项均是有效变量,其中,只有相异词比和虚词数2 项在回归分析中影响了文本难度。作者所构拟的可读性公式为:Y =178.261-134.363X1-0.515X2,其中,Y 为可读性分数,X1为不重复的相异词比率,X2为虚词数。该公式的拟合优度检验值为0.806,都与文本可读性成负相关,相异词比对文本可读性影响极大,虚词数则对可读性影响极小[14]。
从上述研究可以看出,对影响可读性的文本特征的划分及统计,大都是以《汉语水平词汇与汉字等级大纲》《汉语水平等级标准与语法等级大纲》等为参考依据。字层面表征汉字数量和难度的特征基本都影响可读性,其中,总字数、字种数、非重复字均笔画数、简单字数和丙级/丁级/超纲字数都在不同研究中成为影响可读性的结果变量。词层面的总词数、非重复词数、简单词数、难词比、实虚词比、虚词数和丙级/丁级/超纲词数,均是能够影响可读性的文本特征。句层面特征与句子的结构和组成部分有关,其中,分句数、分句均字数、篇长和名词短语比率与可读性有关。语法和篇章层面主要涉及到丙级以上语法项目、标志词数(关联词)和人称代词数3 项特征,其中,杨金余考察了语法层面中的丙级以上语法项目,并认为它对文本可读性产生影响;王蕾、江新等则着重分析了篇章层面的标志词数量和人称代词数量,并在验证后否定了这些变量对可读性的影响作用。
三、基于分类的可读性模型研究
文本可读性研究量化分析的早期成果主要集中于公式的构建,随着研究方法的变化和研究手段的更新,基于分类模型的文本可读性研究成为新的热点。分类是数据分析和机器学习领域的一个基本问题,文本分类已广泛应用于网络信息过滤、信息检索和信息推荐等多个方面。可以说,特征结合机器学习的可读性评估方法是建立在文本分类的基础上的,对数据计算技术要求较高,需要相关的学科专业给予技术支持。
机器学习法将文本的复杂特征表征为有关数据,对各种与文本可读性相关的指标进行计算,然后运用机器学习中的分类方法训练得到可读性分类器,再应用分类器来判定文本所属的可读性级别。数据驱动分类器学习的方法有很多,主要包括神经网络、决策树、支持向量机、朴素贝叶斯等,分类模型对于文本可读性的预测效果要明显好于传统的公式方法。其中,支持向量机(SVM)和朴素贝叶斯(NB)是目前在可读性预测领域中应用比较广泛的分类方法。支持向量机是按照监督学习方式对相关数据进行二元分类的广义线性分类器,其模式识别可应用于人像识别、文本分类和手写字符识别等领域。朴素贝叶斯分类法在文字识别方面起着较为重要的作用,它建立在所有特征均相互独立、互不影响的假设基础上,对文本进行特征选择,并将未知的文字根据已有的规则予以分类。也就是说,该分类法属于一种利用先验概率计算后验概率的学习算法。因此,不需通读整篇文本,仅仅根据一些代表词就能确定文章的主题。这种直观的文本分类算法能够达到较高的分类效率,并具有很好的可解释性。
基于分类的使用特征、结合机器学习的文本可读性评估,突破了国际中文教育领域可读性研究的范式,创造性地采用学习算法,通过建立数学模型来评价文本可读性,为该研究提供了新的思路和方法。目前的相关研究成果较少,并且研究者相对集中。杨纯莉以《(新编)读报纸,学中文——汉语报刊阅读》初级、中级、准高级和高级四个难度等级的262 篇教材文本为语料样本,以《现代汉语语料库词频表》《现代汉语常用词用法词典(最新版)》《现代汉语新词语词典》《现代常用文言书面语》为考察标准,从中筛选出8 个影响显著的词汇因素,然后采用朴素贝叶斯和支持向量机算法建立数学模型,对文本可读性进行了预测与验证[15]。孙未未以《HSK 词汇等级标准大纲》①原文如此。这里的《HSK 词汇等级标准大纲》即《汉语水平词汇与汉字等级大纲》。下同。为词语维度的评判标准,利用SVM 算法,对6 套国际中文教育教材的语料分别进行分类和回归建模,研究显示,分类模型更适合对阅读材料的可读性进行评估[16]。孙未未、夏菁、曾致中还运用特征结合机器学习的方法,将《HSK词汇等级标准大纲》和《HSK 词性表》作为词语等级评判的标准,利用SVM 算法进行分类和回归建模,构建了一个适用于小数据量对外汉语阅读材料的可读性评估模型[17]。杨文娣、曾致中提出了一种基于随机森林算法的对外汉语文本可读性自动评估方法,利用NLPIR 汉语分词系统所提供的《计算所汉语词性标记集》来提取词性特征,依照《国际汉语教学通用课程大纲(2013 年修订版)》中的《常用汉字表(一~六级)》《常用汉语词语表(一~六级)》来提取等级特征,最终得出了精度为65.51%、相邻准确度为92.52%的对外汉语文本可读性评估模型[18]。夏菁、孙未未先将文本进行自然语言处理,依循《HSK 词汇等级标准大纲》划定6 套教材中不同等级的词语及难易度,再经过词频统计提取出每个特征的数量值并将其标准化,结合SVM 算法和特征选择技术,分别构建和验证了词语、语义、篇章和整体等不同向度特征的可读性评估模型[19]。
就依据标准而言,上述学者在提取词汇层面的文本特征时,大多依据的是《汉语水平词汇与汉字等级大纲》,在《国际中文教育中文水平等级标准》这一新标准颁布后,文本特征的提取和学习也会发生相应改变。就研究材料而言,除杨纯莉以《(新编)读报纸,学中文——汉语报刊阅读》为研究样本外,孙未未等、杨文娣与曾致中、夏菁与孙未未所选取的研究材料《大学汉语精读》《汉语阅读教程》《实践汉语》《感悟汉语》《汉语阅读与写作教程》《发展汉语》和《成功之路》汉语系列等,均为汉语中高级教材,其语料具有高度的一致性,未涉及其他国际中文教育教材。
总之,基于特征结合机器学习的研究方法,主要是通过对标注等级的语料库进行文本特征的学习来构建分类模型。该研究的有效性取决于语料标注的精度,难度等级纳入的特征越多,则模型的预测效度越好,其研究的难点在于语料库难度标注的构建是一个相对复杂的工作。就目前的研究来看,基于特征分类结合机器学习评估文本难度的方法,所选取的材料重合率较高,未能涵盖大部分的国际中文教育教材,是否有必要扩大研究材料的范围,是否能够将其研究成果应用于各种语料难度的评估,还需要进一步的探讨。
四、结语
综上所述,国际中文教育领域可读性研究一般应用于对汉语文本难度进行定量分析,目前的研究方法主要是基于文本特征的可读性公式研究和基于分类模型的机器结合学习研究。
文本可读性研究初步阶段的成果集中于公式法,可读性公式的构建首先需要针对特定阅读人群或文本语料,选取与可读性密切相关的文本特征因素,然后建立各特征因素与可读性级别之间的函数关系,通过量化手段客观地评估文本阅读难度。可读性公式可以快速、直观地获得文本难度的分析结果,具有客观性、简便性和经济性等优点,不仅为文本语料的难度测定提供了便利,也为教材编写和教学设计提供了参考。可读性公式的构建既是传统性公式的重要内容,也为后来的可读性研究奠定了基础。随着研究的不断深入,近些年来又出现了基于分类模型的文本可读性研究方法。它通常采用支持向量机和朴素贝叶斯等方法进行模型的构建,能够涵盖较多的文本因素,同时,对可读性的预测效果要优于公式法。不过,其构建过程相对繁琐复杂,一般需要交叉学科或者跨领域的合作,研究者既要对本体知识有较好的掌握,还需要具备较强的逻辑分析和编程能力,在操作层面具有一定的难度。在确定可读性难度方面,分类模型体现出构建难度大和分析准确性高的特点,具有较强的深入研究的可能性。
文本特征因素的选取和测定是可读性研究的重点和难点,字、词、句层面的文本特征是影响可读性的重要因素,字和词特征的影响体现在数量、难度上,句子特征的影响以句长为主。不同的研究者在选择和分析文本特征时会各有侧重,文本语料类型、研究目的或者学者背景的差异等,是造成特征选用多样性的主要原因。无论是公式法还是分类法,在提取文本特征时都需要依据一定的标准对研究对象进行数据处理,现有的研究基本上是将《汉语水平词汇与汉字等级大纲》《汉语水平等级标准与语法等级大纲》等作为特征选取的主要依据。2021 年7 月起颁布实施的《国际中文教育中文水平等级标准》,是新时代的国家级标准和语言文字规范,是国际中文教育领域学习、教学、测试与评估的重要依据,依托新标准的可读性研究,在文本特征因素的选择和分析上必然会发生较大变化。
就现有的研究成果而言,可读性研究也存在着一定的局限性。首先是研究对象同质化严重,研究材料以汉语教材为主,缺少对其他文本语料的评估分析,今后的研究可以将报刊资料、网页信息、考试文本等语料纳入研究对象,研究范围需要横向拓展,研究层次需要纵向延伸。其次,大部分研究立足于自建的语料库,在文本特征和标准的选取上缺乏统一性、规范性,不易推广,有待于建立基于统一标准的研究规范。再次,研究方法较为单一,可读性公式均采用多元线性回归的方法,往往只考虑有限的可计量的文本特征,回归方程所涉及的特征因素大都小于5 个,无法涵盖所有影响文本可读性的特征变量。也就是说,简单地使用几个文本因素进行预测,在有效性、适用性和可信度方面,可能会存在一定偏差。最后,可读性公式中选取的文本特征因素多为字、词或句子层面,由于归类和分析的复杂性,大部分研究都不考虑语法、语义、篇章等变量,缺乏对语法、语篇等因素的深度挖掘。同时,特征因素的选取具有一定的随意性,缺乏统一的标准。针对这些问题,学界应采取切实可行的解决方案。比如,依托新标准,将文本语料的词汇等级信息及平均句长、平均每百字句数等多种信息加以整合和量化,尽可能涵盖更多的文本因素,并形成词汇难度、句子难度、语法难度、语篇难度等稳定的数据集。再如,关注阅读主体的心理因素测查,对汉语教师和汉语学习者进行问卷调查,考察影响汉语文本可读性的各因素的比重,按照影响程度重新确定加权系数,进而形成最终的可读性评估模型,以拓展研究的广度、挖掘研究的深度。总之,可读性研究已取得丰硕的成果,随着研究方法的更新、研究内容的深入,必将会出现评估结果更为精确、使用范围更为广泛、也更适合汉语文本的新的自动评估方法。