多向度计量语体特征下的对外汉语教材可读性自动评估研究

2020-11-30孙未未

华中学术 2020年2期

夏菁孙未未

(华中师范大学国际文化交流学院，湖北武汉，430079；温州医科大学信息技术中心，浙江温州，325035)

一、引言

对外汉语教材的可读性评估属于计量语言学范畴[1]。计量语言学的根本任务是采用数量关系描述与理解语言系统及其组成成分的发展和运作规律[2]。这样的研究理论认为，抽象出的特征及其数量与阅读材料可读性评估之间存在着相关性，并且这种关联性是可计算的。语料的可读性度量研究源于国外，早期的代表性研究成果有Flesch可读性公式[3]，这类公式中的重点是将词频和句长特征作为可读性评估指标。Takehiko Yoshimi等人在对英语语料可读性评估研究中发现了支持向量机(SVM)回归方法整合多种特征的评估结果优于单个特征[4]。François和Fairon针对法语为第二语言的语料进行了六个不同等级的可读性研究，他们应用SVM算法结合四个层次的46个文本特征创建了可读性公式[5]。

随着计量语体特征在语料可读性评估中的应用和推广，语料可读性的度量研究在对外汉语语料的可读性评估中越来越被瞩目。迄今为止，对外汉语教材的可读性评估方法主要有可读性公式法和特征结合机器学习法。代表性的研究有：张志宁在区分中高级语料难度的研究中改进爱德华·弗莱提出的“句长-音节数”测量法，将音节数换成每句子字数[6]；王蕾针对初中级日韩学生制定了一个可读性公式[7]；杨金余主要通过统计丙级、丁级、超纲词语频数和固定词组来实现对高级精读教材在词汇层面上的难度测定[8]。通常可读性公式的构建依赖于广义线性模型，线性回归和分类的效果并不是十分理想。特征结合机器学习方法在一定程度上能够提高评估效果，相关的研究主要有Yao Ting Sung，Ju Ling Chen等人提出的特征结合SVM算法分类方法[9]，以及Yao Ting Sung，Wei Chun Lin等人在3套教材386篇汉语文章中提取31个不同特征结合SVM算法构建不同向度评估模型[10]，然而多向度计量特征结合机器学习方法在对外汉语教材中的应用研究仍然比较稀缺。目前常见的主要从语料特定的几个特征来预测文本的可读性，比如左虹、朱勇等人从词语向度考量，根据甲乙丙丁词语等级和固定词组来测定教材词汇层面上的可读性[11]；也有学者从语义出发来考察和评估语料的难易度，如莫彭龄、单青通过三大类实词充当句子成分的统计数据来预测文本的可读性[12]。我们知道，字词句以及语义都是阅读文本难易的重要影响因素，在对语料的可读性评估研究中应该全面考虑，否则就有失可信度，同时我们也应看到，由于考虑的特征类型较为单一，也无法诠释文本阅读理解的复杂和渐进过程。

有鉴于此，挖掘多向度特征数量与可读性评估之间的关系是我们应该寻找的方向。相比传统的可读性评估方法其优势在于能更客观地揭示出隐藏在文本之间的可读性因素以及影响因素的等级。同时我们意识到学习是一个渐进的过程，获得知识是一个渐进的过程，因此在对对外汉语语料可读性的评估中要遵循第二语言习得规律和认知规律，遵循其规律有利于可读性评估的科学性和客观性。克拉申提出著名的“输入假说”i+1公式(i代表学习者已有水平，1代表略高于现有水平的学习内容)，就在于强调了第二语言习得过程中输入信息的可理解性，这一公式映射到可读性评估研究中很好地反映了评估特征的可解释性和文本可读性设置的循序渐进原则[13]。因此我们认为从词语、语义、篇章多向度的语言特征度量阅读文本的难易度，符合语言学习的渐进原则和认知规律，比传统公式中使用的单一表面特征更有利于可读性评估。比如黄伟和刘海涛在《汉语语体的计量特征在文本聚类中的应用》一文中强调语体特征，采用16个显著分布差异的语体特征对《新闻联播》《实话实说》两个文本进行聚类分析，就很大程度上克服了单一的思维模型在评估中的局限，加强了聚类和分类研究的可解释性[14]。

沿着上述思考，本研究遵循第二语言学习的理论和原则，从计量语言学视角出发，应用机器学习算法SVM和特征选择技术，从词语、语义、篇章等多向度选取特征构成对外汉语教材可读性的评估指标体系。具体设想为：其一，词语向度特征主要体现在词语等级特征和生词特征。由于汉语作为第二语言的学习是通过HSK测试来确定学习者的语言掌握等级，教材中的词语等级难度应该对应于HSK词汇等级标准大纲，所以我们依循HSK等级标准大纲来划定阅读教材中不同等级的词语以及难易度。我们在词语等级频数统计中排除了《HSK词汇等级标准大纲》中的“同形多等级字”和“重复同等级字”数据干扰以确保数据纯度。其二，语义向度特征主要由22个不同的词性构成，根据中科院计算所汉语词性标记集，我们选择一级词性12个，见表1中的序号20—31号特征。二级词性10个，见表1中的序号32—41号特征。之所以选择这22个词性是因为它们在句子中充当着特定和重要的成分。词语理解的一个重要影响因素是词汇的语义学属性，其中词性在词语理解中存在一定程度的关联。不同的词性在句子中充当不同的成分，不同的词性反映句子的结构和语义之间的关系，因此本文通过词性充当句子成分的统计数据预测阅读文本的难易度。其三，除了上述考虑因素外，我们认为篇章向度是不可盲视的因素。一般情况下，阅读材料难度等级越高，总字符数、句子长度、段落数的数量相对越大，因此我们在篇章向度上选取的特征主要有句子段落、总字符特征等。

表1 单个特征(包括解释)可读性评估正确率结果表

续表

总体而言，本研究遵循汉语作为第二语言的学习规律，从计量语言学的角度针对6套在高等教育院校广泛运用的对外汉语教材600篇文章提取词语、语义、篇章等48个不同的语言特征(见表1)，并应用SVM算法结合特征选择技术构建词语向度、语义向度、篇章向度和整体向度的可读性评估模型，评估材料的可读性与挖掘可读性影响因素之间的关系。

本研究重在体现在文本的真实性，甄选和收集的对外汉语教材全部来自高等教育中实际应用的教材。学习是循序渐进的过程，因此，理想的对外汉语教材应该符合学习的内在规律，在文本编排的可解释性和可读性(难度设置)中的循序渐进。本研究遵循循序渐进原则，从词语、语义、篇章以及整体向度不同层次建构多向度的评估体系，对构成教材的各个要素实施科学的考察评估，极大地避免了由于可读性评估所选择的语体特征过于简单和单一，在一定程度上遮蔽了文本可读性设置的隐含的知识关联。再者，利用机器学习算法构建和验证单向度和多向度特征评估模型，更全面的描述和验证专家编制教材可读性设置的渐变规律，根据不同向度的特征评估模型结果，分别从文章的词语、语义、篇章角度分析和解释专家编制教材的特点和不足。因此，本研究为教材的编写和完善提供了可靠的参考。

二、路径与方法

本研究总体架构图如图1所示，说明了应用SVM算法构建与验证单向度和多向度特征可读性评估模型的过程。首先我们甄选了6套不同的对外汉语教材文章600篇，然后通过自然语言处理技术和数据库技术提取每篇文章的48个特征数量值。进而在所有特征数据中分别选择4套教材特征数据作为评估模型的训练集，另外2套教材的特征数据用来测试模型，根据组合原理总共重复15次，最后求得这15次测试结果的平均值。

图1 利用多向度特征评估课文可读性主要步骤的关系图

(一)对外汉语教材介绍

本研究的对象是具有一定代表性的6套不同的在高等院校普遍使用的对外汉语教材系列，分别是《大学汉语精读》《汉语阅读教程》《实践汉语》《感悟汉语》《汉语阅读与写作教程》《发展汉语》和《成功之路》汉语系列，主要提取教材中的文本而不是图片和插图。每一套教材都有中级上册、中级下册、高级上册和高级下册四个不同的等级。除了《汉语阅读教程》中级和高级文章数量相差较大之外，其他的5套教材中级和高级文章数量比较接近。这些教材中的文章数目情况见表2。

表2 中高级对外汉语教材系列文本样本数据统计表

(二)提取对外汉语教材文本多向度的语言特征

通过自然语言处理技术和数据库技术将甄选和收集的对外汉语教材文本进行各个向度特征的提取，将特征值经过总和，求平均，比率的处理方法总共提取了48个不同的特征。在提取词语向度特征的过程如图2。本研究使用分词工具是中科院NLPIR汉语分词系统，它的汉语词性标记集共计99个；然后将每篇文章进行词频统计，将得到的每个词语和词频与《HSK词汇等级标准大纲》进行匹配，相比较王蕾、Yao Ting Sung、Ju Ling Chen等人相关的研究中使用的CRIE特征提取系统[15]，我们重点考虑到《HSK词汇等级标准大纲》中的“同形多等级字”和“重复同等级字”的影响，应用了数据库技术将这些数据删除并且避免了重复数据的干扰，最终得到每一篇文章的词语所对应的甲乙丙丁不同的等级数量和词频。在语义的特征提取上是通过提取22个不同词性来代表语义向度特征，因为不同的词性反映句子的结构和语义之间的关系。将需要提取的词性与每一篇经过分词过后的文章词语进行匹配，然后增加该词性的统计值得到22个不同词性的频数。对于篇章向度特征的提取主要是通过统计每一篇文章“，”“。”“！”“？”“……”的词频总数和“。”“！”“？”“……”的词频总数，得出句子总数的两种不同表示形式(有无逗号)的特征值。在Microsoft Word中的“审阅——字数统计”中可以得到字符总数、段落数这两个特征值。最后我们分别提取了19个词语向度特征，22个词性向度特征和7个篇章向度特征。

图2 词语等级特征获取方法流程图

(三)构建与验证单向度和多向度特征可读性评估模型

我们构建三个单向度SVM评估模型和一个多向度SVM评估模型。单向度SVM评估模型主要是从词语、语义、篇章多向度特征分别对对外汉语教材文本进行独立评估；多向度SVM评估模型是整合词语、语义、篇章向度所有特征对对外汉语教材文本进行综合评估，由此形成了四种评估模型。在四个评估模型中均使用了特征选择技术，评估指标均选择正确率指标，使用的评估算法均是采用RBF核函数的SVM算法；我们在Rapidminer数据挖掘工具中构建和测试自动评估模型。所谓Rapidminer是用于预测性分析和数据挖掘软件，其中包括SVM、决策树、贝叶斯等机器学习算子，具有分类回归建模，或者关联分析、聚类分析、多重交叉检验等功能[16]。我们在Rapidminer中选择LibSVM算子中的C-SVC，是因为SVM算法被认为是在分类中效果最好的机器学习算法之一，它具有在训练样本数很小的情况下达到很好的分类推广能力。SVM算法采用结构风险最小化原理，能够在数据线性不可分的情况下，通过核函数将数据映射到高维空间，选择一个最优超平面达到更好的分类效果，见图3。

图3 核函数将线性不可分数据投影到高维空间的示意图

常见的核函数有线性函数，径向基RBF函数，Sigmoid函数等。我们在评估模型中选择RBF函数，因为它能使得分类效果优于其他核函数。另外我们在参数选择上重复多次实验比较结果，确定了惩罚系数C值为1.0，gamma值为1.0，epsilon参数指定终止条件容差设定为0.001。在SVM算法评估时结合启发式特征选择技术，启发式特征选择技术中的序列前向搜索过程是：

第一步：在n个特征中创建初始种群，n为输入的ExampleSet的属性数；每一个特征集在SVM算法下输出一个评估指标值，选择指标最好的K个特征集；

第二步：在K个特征集中操作，如果有j个特征没有加入，在j个特征中选择一个未添加过的特征，将之拷贝到特征集中；

第三步：只要在最后一次迭代中性能得到改善，转到第二步。

序列前向搜索的主要思想是以某个特征的加入是否提升算法性能为依据来决定该特征的去留从而找到最优的特征新子集[17]，见图4。特征权重设置分别是0或者1，这样考虑的原因是使评估模型中的特征选择具有解释性，解释为编写教材的专家是否考虑到该特征，而不是一个特征的中间值。该过程体现的是专家编制教材统一、合理、科学的可读性设置与哪些具体特征相关。

图4 为SVM选择最优特征集的流程图

为了验证单向度和多向度可读性评估模型的准确性，我们将6套教材中选择的两套教材特征数据作为测试集，另外4套教材特征数据作为训练集，根据组合原理共有15种不同的选择方案，见图5。

图5 交叉验证教材特征数据选择与测试结果对应表

在构建词语、语义、篇章单向度上的可读性评估模型中，我们分别使用对应的对外汉语教材的文本特征值。在词语向度对外汉语教材可读性评估模型测试1中，将D1—D4中的教材文本词语特征值作为训练集，D5—D6中的教材文本词语特征值作为测试集。我们选择上述的算法和核函数以及对应的参数值，结合启发式特征选择技术得出正确率结果。然后选择不同的教材进行测试2，同样的过程重复15次。在基于测试1评估模型中建立的决策函数为：

(1)在线性不可分的情况下，决策函数为

(1)

(2)在非线性可分的情况下，实验中使用了RBF核函数，决策函数为

(2)

该判定过程适用于剩下的14次交叉验证，我们求得15次交叉验证结果的平均值。以上是词语向度上的文本可读性评估过程，在语义、篇章向度上的文本可读性评估模型的建立和验证均参照上面的流程。相比其他学者的研究，我们使用的实验数据不一样而且在评估过程中使用了启发式特征选择技术[18]。

在构建多向度特征对外汉语教材可读性评估模型中，我们使用上述三个向度上的文章所有特征值。比如在测试6中，D1、D2、D3、D6教材的所有特征值作为训练集，D4、D5教材的所有特征值作为测试集。选择的算法和核函数以及对应的参数值与单向度文本可读性评估模型中保持一致，同样结合启发式特征选择技术得到评估结果，这样的测试过程如上图重复15次。SVM算法中的参数c=1.0，gamma=1.0，在基于测试6评估模型中建立的决策函数为

(3)

决策函数(3)正确地判定《成功之路》教材中的文章《谁是最辛苦的人》为中级上册等级。

每一次测试实验中选择两套教材能够针对性的解释具体文章在可读性上存在的偏差，另外结合15次交叉验证实验增加对外汉语教材可读性评估模型的稳定性。构建和验证对外汉语教材文本可读性评估模型的过程不仅体现单向度特征的不同评估效果，也是深度挖掘对外汉语教材文本不同向度特征与可读性之间的隐含关系。

三、多向度特征可读性评估结果与分析

基于机器学习SVM算法构建的单向度和多向度对外汉语教材文本可读性评估正确率结果如表3所示。可读性评估正确率体现的是一套新教材中的新文章与基于以特征形式代表的多套专家编制教材难易程度渐变规律的符合程度。结合评估模型的15次交叉验证，平均正确率越高说明专家编制教材在词语、语义、篇章等向度上越客观且越趋向于同一标准。

表3 对应于不同向度特征的可读性测试结果表

在单向度可读性评估结果中发现，词语向度的文本评估正确率结果在60.78%到83.05%之间，语义向度的文本评估正确率结果在58.82%到78.57%之间，篇章向度的文本评估正确率结果在48.91%到65.62%之间。正确率数值越大，说明其对文本可读性的影响力和贡献越大。词语特征在可读性评估中最具影响力，其次是语义特征。说明在阅读理解过程中，词语和语义的可读性设置比较适合学习者的认知规律。而篇章向度特征是文章可读性的影响因素，其效果相比较其他两个向度特征的影响力略低，可能是文章或者句子的长短对文本的可读性影响力不大。在综合多向度特征的可读性评估模型中，其平均正确率为74.05%，显然高于单向度可读性评估结果。相比于SUNG和Scott A.Crossley等人的研究，我们的研究结果证明了多向度可读性评估结果更好地解释了文本和阅读理解过程的复杂性，对于文本可读性评估中影响越大的特征说明在教材编制中越遵循学生的认知规律。

不同等级的阅读教材文本在不同向度特征上的可读性评估结果见表4，比如数据766/809/801/812和209/163/168/163分别代表15次交叉验证中在词语、语义、篇章、整体四大向度上被正确预测为中级上册文本的数量之和以及被正确预测为中级下册文本的数量之和；正确率代表文本等级被正确预测的概率，比如在词语、语义、篇章、整体向度上中级上册文本被正确预测的概率分别为77.61%、81.97%、81.16%、82.27%。

表4 不同等级阅读教材文本对应于不同向度特征的可读性评估结果表

通过分析表4中的数据同样可以反映出上述表3得出的研究结果。除此之外，我们发现各个向度的特征在各个不同等级上的可读性评估结果不同。中级上册和高级下册在各个向度上的可读性评估结果均优于中级下册和高级上册，原因可能是中级下册和高级上册的文本可读性设置区分仍然不是很清晰。

四、总结

在词语、语义、篇章方面的不同难度设置对于对外汉语阅读文本可读性影响各有不同，为了更加全面地分析专家对于对外汉语阅读文本可读性设置的影响因素，本文通过将600篇文章进行自然语言处理和词频统计提取出每个特征的数量值并将之标准化，另外结合SVM算法和特征选择技术分别构建和验证词语、语义、篇章、整体不同向度特征可读性评估模型。根据不同向度特征可读性评估结果，在词汇、语义、篇章各个向度上发现不同向度特征对文章可读性区分的贡献程度不同，其中词语向度特征对文章可读性的影响最大，其中一组实验验证结果正确率达到83.05%；其次是语义特征，最佳正确率为78.57%。整合多向度特征的最佳可读性评估结果达到87.76%，优于单向度特征实验结果并且优于Yao Ting Sung、Wei Chun Lin等人针对台湾三套出版教材可读性评估结果[19]，说明多向度特征对教材文本的可读性设置影响最大，实质上反映出专家编制教材同时考虑多向度特征的循序渐进，而且反映出实验选取的教材比较符合学习者“最近发展区”的认知规律。另外实验结果还显示教材可读性设置的两极简单与困难比较清晰的区分，然而中间难度的教材编排仍有待进一步的规划。通过特征选择技术优化SVM算法与特征组合一定程度上提高了可读性评估模型的正确率以及十五次交叉验证最大程度上保证了可读性评估模型的稳定性。我们根据教材等级来衡量文本可读性的标准具有实际意义，一定程度上节省了专家打标的人力物力。由于特定的文本具有不同的代表性特征，其对学习者提高阅读能力和水平具有重要影响力。因此，针对不同年龄段和年级段的学习者，笔者建议针对不同的教材建立不同的特征评估模型使其适用于相应的学习者具有一定的现实意义和实际价值。

注释：

[1] 冯志伟：《用计量方法研究语言》，《外语教学与研究》2012年第2期，第256～269页；又见刘海涛、林燕妮：《大数据时代语言研究的方法和趋向》，《新疆师范大学学报》(哲学社会科学版)2018年第1期，第72～83页。

[2] 刘海涛、黄伟：《计量语言学的现状、理论与方法》，《浙江大学学报》(人文社会科学版)2012年第2期，第178～192页。

[3] R.Flesch,“A New Readability Yardstick”,JournalofAppliedPsychology,32(3)，1948，pp.221-233.

[4] Yoshimi,Katsunori Kotani & Hitoshi Isahara,“Use of A New Set of Linguistic Features to Improve Automatic Assessment of Text Readability”,US-ChinaEducation,1，2012，pp.55-62.

[5] T.Francois,C.Fairon,“An ‘AI readability’ Formula for French as A Foreign Language”.[2017-6-17]http://www.researchgate.net/publication/262409316_An_AI_readability_formula_for_French_as_a_foreign_language.

[6] 张宁志：《汉语教材语料难度的定量分析》，《世界汉语教学》2000年第3期，第83～88页。

[7] 王蕾：《初中级日韩学习者汉语文本可读性公式研究》，《语言教学与研究》2017年第5期，第15～25页。

[8] 杨金余：《高级汉语精读教材语言难度测定研究》，北京大学硕士学位论文，2008年。

[9] Yao Ting Sung,Ju Ling Chen,Ji Her Cha，etc.,“Constructing and Validating Readability Models:The Method of Integrating Multilevel Linguistic Features with Machine Learning”，BehaviorResearchMethods,47(2)，2015，pp.1-15.

[10] Yao Ting Sung,Wei Chun Lin,Scott Benjamin Dyson,etc.,“Leveling 12 Texts Through Readability:Combining Multilevel Linguistic Features with the CEFR”,ModernLanguageJournal,99(2)，2015,pp.371-391.

[11] 左虹、朱勇：《中级欧美留学生汉语文本可读性公式研究》，《世界汉语教学》2014年第2期，第263～276页；又见杨金余：《高级汉语精读教材语言难度测定研究》，北京大学硕士学位论文，2008年。

[12] 莫彭龄、单青：《三大类实词句法功能的统计分析》，《南京师大学报》1985年第3期，第55～63页。

[13] 王建勤：《第二语言习得研究》，北京：商务印书馆，2009年；又见张福慧、魏惠琳：《最近发展区在二语习得研究中的诠释》，《东北师大学报》(哲学社会科学版) 2010年第4期，第97～100页；又见吴叔良：《论对外汉语教学的学习、习得整合观——由克拉申的第二语言习得理论说起》，《上海师范大学学报》(哲学社会科学版) 1993年第4期，第123～126页。

[14] 黄伟、刘海涛：《汉语语体的计量特征在文本聚类中的应用》，《计算机工程与应用》2009年第29期，第25～27页。

[15] 王蕾：《初中级日韩学习者汉语文本可读性公式研究》，《语言教学与研究》2017年第5期，第15～25页；又见Yao Ting Sung,Ju Ling Chen,Ji Her Cha,etc.,“Constructing and Validating Readability Models:The method of Integrating Multilevel Linguistic Features with Machine Learning”，BehaviorResearchMethods,47(2)，2015，pp.1-15.

[16] Dr.M.North,DataMiningfortheMasses,Global Text Project,2012.

[17] 孙未未：《对外汉语阅读材料的可读性自动评估研究》，华中师范大学硕士学位论文，2018年。

[18] 张福慧、魏惠琳：《最近发展区在二语习得研究中的诠释》，《东北师大学报》(哲学社会科学版) 2010年第4期，第97～100页。

[19] Yao Ting Sung,Wei Chun Lin,Scott Benjamin Dyson,etc.,“Leveling 12 Texts Through Readability:Combining Multilevel Linguistic Features with the CEFR”,ModernLanguageJournal,99(2)，2015，pp.371-391.