APP下载

基于回归模型的对外汉语阅读材料的 可读性自动评估研究

2018-11-12孙未未夏菁曾致中

中国教育信息化·高教职教 2018年8期
关键词:回归模型对外汉语教学机器学习

孙未未 夏菁 曾致中

摘 要:本研究开展对外汉语阅读材料难度评估,也称可读性研究,即应用特征结合机器学习的方法,通过计算机文本分析工具对六套对外汉语中高级上下册教材文章和阅读材料进行自然语言处理,提取文本中汉字、词语、句子、段落等影响文本可读性(难度)的不同维度特征,通过均匀分割的方法解决设置可读性取值标签的问题,并利用SVM算法进行回归建模。在独立的测试集上实验结果显示,相比SVM算法的分类方法,本研究提出的均匀标签后的回归方法具有显著更高的准确性。

关键词:对外汉语教学;机器学习;回归模型;可读性评估

中图分类号:G40-057 文献标志码:A 文章编号:1673-8454(2018)15-0067-08

一、引言

随着我国综合实力的提升和“一带一路”战略的实施,对外汉语教学的需求量与日俱增。[1]在对外汉语教学专业设立近30年间,该教学事业获得蓬勃发展,但也伴随着不规范的问题。[2]北京语言文化大学张志宁副教授认为在汉语教材尤其是中高级教材的选择和编排上,对难度的控制和安排还远远说不上是科学和合理的,仍存在缺乏客观统一的标准和过度依赖教师主观经验的问题。[3]目前对外汉语阅读材料难度评估成果较少,仍以形式较为简单的“可读性公式”评估为主,其效果离实际应用还有一定差距。[4]因此,本研究利用机器学习等先进的信息科学统计方法,重在对多维特征数据的深度挖掘与科学分析,探究特征背后的对外汉语编制内在规律的隐性关系以实现对外汉语阅读材料更高质量的可读性评估,此项研究具有十分重要的现实意义和应用价值。

对外汉语阅读材料的可读性评估属于汉语文本可读性研究的一个分支。目前,汉语可读性研究方法主要有以下四种:①可读性公式法,如黄敏[6]、荆溪昱[10]等人建立的中文可读性公式。②基于认知理论法,例如WordNet(单词语义关系网络)在线词汇数据库和Coh-Metrix可读性相关指标计算工具等研究成果。该方法为文本难度评估提供了更好的理论支撑和解释说明,但是相比较传统的可读性公式法,其结果并不具有特别的优越性。[11]③基于单词统计的语言模型法,单词统计语言模型主要通过特定可读性级别的语言模型生成文本中特定单词或单词组的概率大小来预测文本可读性级别。[12]对比可读性公式,该方法较好地解决了Web短文本难度评估问题。[13][14]④特征结合机器学习的方法是基于NLP(自然语言处理技术)和機器学习的发展,结合复杂特征和新的方法应用于文本难度评估中。[5]机器学习中的分类或者回归方法有支持向量机、多元线性回归等。按照与学习算法结合的方式,将监督特征选择技术分为嵌入特征选择、包装特征选择和排序特征选择三类。该方法可以将公式法、认知理论方法和语言模型方法的预测结果作为特征指标加入到分类模型中进而提高评估性能,较其他评估方法具有较大的优越性。[15][16][17][18][19][20]比如Yaw-Huei Chen等人基于术语TF-IDF值选择结合SVM的方法评估小学教科书三门学科的文章难度,有效地识别出适合低中年级学生的文章。[21]Schwarm和Ostendorf应用SVM算法结合三元语言模型方法评估英语新闻文章的可读性,实验结果显示SVM算法对文本难度评估准确率显著高于传统公式法。[14]

对外汉语的教授对象是以汉语为第二语言的学习者,阅读材料能使其掌握汉语的特殊规律。对外汉语阅读材料难度评估领域主要针对两个方面进行研究:一方面是文本的哪些特征与难度相关,且相关性更强;另一方面是对如何测定这些特征与文本难度关系的方法研究。下面主要针对这两方面的研究介绍相关的两种方法——可读性公式法和特征结合机器学习法。对外汉语领域中的可读性公式有:一是张志宁改进爱德华·弗莱提出的“句长-音节数”测量法[3];二是王雷主要用词汇和句子作为影响因素制定的可读性公式[22][23][24];三是杨金余通过统计不同等级词频和固定词组来测定高级精读教材在词汇层面上难度的方法[4][23][24];四是邹红建、杨尔弘等人利用文本通用词的覆盖率和文本长度实现的文本难度分类方法[25]。公式法一方面存在易被理解、易于实现和易统计所需变量等优点,另一方面也存在因涉及的特征因素过于简单,导致直接使用中对文本难易程度表达不充分的缺点。特征结合机器学习的方法在汉语中大量的研究结果表明其具有更高的准确性,然而在对外汉语中的应用还比较少,仅有台湾学者Yao-Ting Sung等人提出的“基于CEFR框架特征结合SVM算法”分类方法[26]。他的方法是基于分类的,本研究创新性地将SVM回归方法应用于对外汉语阅读材料难度评估。回归方法的优点在于教材中的文本可读性明显是可以定量刻画的,彼此存在大小偏序关系,更能针对问题有效地说明这种内在特征。

本研究通过计算机文本分析工具对六套对外汉语高级教材中的阅读材料进行自然语言处理,提取文本中汉字、词语、句子、段落等影响文本可读性(难度)的多层级特征。通过均匀分割的方法解决设置回归中可读性取值标签的问题,并利用SVM算法进行回归建模。主要步骤包括采集甄选对外汉语阅读材料,抽取对外汉语文章特征,通过经典机器学习算法——SVM算法评估,应用特征工程优化算法评估性能。

二、研究方法

本研究所使用的方法属于特征结合机器学习的方法,该方法总体架构如图1所示,主要包括对外汉语教材阅读材料收集甄选、特征抽取、机器学习模型训练与优化三个主要阶段,其过程相当于抽取经典教材中权威专家的经验,以形成一个智能化的专家评估系统。下面介绍这三个阶段的具体实施步骤。

1.对外汉语教材阅读材料收集甄选

对外汉语教材内容的编辑应该循序渐进,代表性教材更能体现权威专家编制教材的内在规律,也正是本研究构建的评估模型数据来源。[27]同时考虑到特征选择一致性,比如并非所有的对外汉语阅读材料都有“生词”特征。我们通过专家咨询、对话访谈、数据分析等方法甄选了具有代表性和特征一致性的六套教材(见表1),利用扫描仪和pdf转换工具获取文章阅读材料电子版,教材及对应的文章数量如表2所示。

从以上教材阅读文章数量上看,除了《汉语阅读教程》教材文章中高级上下册数量相对较多以外,将其他5套教材的数量进行统计分析:中级上册文章数量平均16篇,中级下册文章数量平均16篇,高级上册文章数量平均14篇,高级下册文章数量平均14篇。中级文章数略高于高级文章数但相差不大。

2.特征抽取

对外汉语阅读材料难度自动评估中,特征抽取相当于深度挖掘专家编制教材的内在规律,使之数量化、形式化、技术化和科学化。对外汉语教学过程是在汉字、词语、句子、语法等不同层次上循序渐进的一个教学体系。[28]因此在特征抽取阶段,通过自然语言处理的方法,经过分词、词频统计、VBA编程等步骤抽取对外汉语文章在汉字、词语、句子、语法等不同维度上更精炼且质量更高的特征。[29]详细抽取过程如图2所示。

特征抽取首先要将对外汉语文本进行自然语言处理,使用中科院NLPIR汉语分词系统(该系统由中国科学院计算技术研究所研制,分词精度达到98.45%)进行分词处理和词频统计,得到对应的词语和词频,进而构建文章词语特征数据库。本实验中选用《HSK词汇等级标准大纲》和《HSK词性表》作为词语等级评判的标准。《HSK词汇等级标准大纲》由国家对外汉语教学领导小组办公室汉语水平考试部编制,对HSK考试和教材编写起了很大的指导作用,是当前所有汉语词表中比较权威的一种。[30][31]《HSK词性表》由北京语言大学汉语国际教育技术研发中心制定。构建HSK词汇等级评判标准数据库和多等级字标准数据库,将创建好的文章词语特征数据库与对应的HSK词汇等级标准数据库的数据进行查找匹配,统计得出每篇文章甲乙丙丁等级个数和对应的词语特征频数,共有8个不同的词语特征,见表3中的序号为1-8的特征名。由此将8个词语特征通过SUM和比例重新组合得到9个特征,另外“生词数”是一个很重要的特征,它反映了学生阅读该篇文章要学习的生词数量,体现文章阅读的难易程度,具体特征表示见表3中的序号为9-18的特征名。

在词语维度上,不仅有不同等级的词语对应的词频,还有词性。表面上词性的多少体现词性的数量,然而这更体现了句子结构和语法的复杂性。句子是由比它小的语法单位词或短语组成,那么判断句子复杂性的方法之一就是通过分辨词性来进行。从语法角度上分析,一个相对简单的句子结构是“主语+谓语+宾语”,通过定语、状语、补语的加入可以增加句子的复杂度,比如“[状语(修饰全句的)]+(定语)主语+[状语]谓语<动补>+(定语)宾语<宾补>”的句子结构。句子结构中不同成分的具体词性表示如表4所示。

所以,如果一篇文章中出现了形容词、数量词、狀态词、副词、介词等比较多的情况,可以视其中涉及了较多的复杂句,这篇文章的难度系数增加。语法的难点和重点对教材阅读材料的编辑影响重大,[32]由此我们统计了每篇文章的22种词性特征,按照不同的词性类别进行分类,具体特征名如表5所示。

从对外汉语文章篇幅角度抽取特征,主要有文章的字符总数、段落数、句子总数等特征体现文章的难易程度。在Microsoft Word中的“审阅——字数统计”中可以得到字符总数、段落数这两个特征值。然而如何提取文章的句子总数呢?由于对外汉语文章每个句子由标点符号分隔,因此分别统计每篇文章中 “,”、“。”、“!”、“?”、“…”的词频总数,得出句子总数的两种不同表示形式(有无逗号)的特征值。另外利用公式“词频总数/句子总数(分两种,有无逗号)”得出平均每个句子的词语个数。总共八个特征,详细特征名如表6所示。

综上,为衡量文章的难易程度,较全面且多层次地还原专家编制教材的内在规律,本实验共抽取了六套教材600篇文章在汉字、词语、句子、语法等不同维度的48个特征。

3.SVM算法评估与优化

(1)SVM算法介绍

在20世纪90年代早期支持向量机(SVMs)文本最优分类器在Vapnik的统计学习理论中首次提出。[39]在训练样本数相对较小的情况下,SVM算法也能达到很好的分类推广能力,在线性不可分的情况下,SVM算法通过核函数将数据反映到高维空间,在高维空间中构建线性决策函数以解决维数问题,[33]其中核函数决定回归函数集的复杂度,通过体现结构风险最小化原则的学习策略来控制算法性能,最终通过解决凸二次规划问题得到全局最优解。在解决一系列实际问题中获得成功,从而引起人们对它的极大关注。

(2)SVM算法评估

构建SVM监督学习算法分类和回归模型的过程能衡量专家编制教材内在规律客观性、准确性和统一标准性程度,其过程包括选择实验数据集、数据预处理、构建训练和测试模型三个步骤,整体结构如图3所示。详细内容如下:①小数据量样本建模中,训练集和测试集划分原则遵循数量比为70%和30%比较合理,同时确保每一条数据存在且有效。②特征数据预处理包括标准化处理、打标处理和特征属性选择处理。使用Min-max标准化将每一套教材所有文章的每一个特征进行标准化处理。例如 《汉语阅读与写作教程》教材共80篇文章,针对生词这一个特征,即x1,x2……xn(n=80)进行变换:yi=■,生成的新序列即为y1,y2……yn∈[0,1]。标签代表每一套教材中每一篇文章的前后顺序,是专家编制教材内在规律的量化。打标规则如下:在分类模型中,每篇文章的label标签即为该篇文章所属的教材类别,有中级上册、中级下册、高级上册、高级下册四个类别。在回归模型中,对应四个类别区间分别用[0-0.25]、[0.25-0.5]、[0.5-0.75]、[0.75-1]表示。应用公式:yi=0.25×(m-1)+■;该公式能够精确到每一篇文章的难度值,yi代表m等级中第i篇文章的难度值,比较直观地反映出与真实值之间的差距以及作为如何调整文章难度的参考依据。m代表数值中级上为1、中级下为2、高级上为3、高级下为4;im代表在m等级下的第i篇文章;nm代表在m等级下的文章总数n;特征数据属性选择中标签作为特殊属性,其他特征数据是一般属性。[3][4]SVM模型训练涉及SVM模型选择和参数标定,模型选择包括模型类型选择、核函数选择和损失函数选择。[3-5]模型类型选择LibSVM,因其在精度和效率上超过传统学习算法。核函数选择RBF核函数,因其学习收敛速度快、泛化能力好,应用更加广泛。损失函数选择ε不敏感损失函数,因其在小样本训练中具有计算优势,确保全局最小解的存在。[3-6]在参数标定中,主要调整C值和rbf核函数中的Gamma值。测试该模型的准确率,根据效果验证逐步优化。以上过程深度挖掘与探索对外汉语文章多层面上的特征与难度之间的内在关系。

(3)评估性能优化

机器学习方法中特征的数量和选择十分关键。选择不合适的特征或特征数量过小或过大会导致欠拟合和过拟合问题,影响模型精度,特征选择能够解决这类问题。本文选用RMS_Error指标来衡量一个特征是否重要和显著,因为RMS_Error能够针对回归模型作精度评估,从而反映出测量精密度。为了进一步提高SVM算法性能,通过特征工程——应用“排序特征选择”和“包装特征选择”技术来降低均方根误差值以达到优化算法性能。

排序特征选择技术是根据特征对学习算法分类能力的重要性和显著性来对所有的特征排序,然后根据排序结果选取排名靠前的特征作为最终学习算法的特征集。排序式特征选择主要是根据每个特征单独地对分类或回归的贡献大小来评估其重要性,这类方法对剔除无关和弱相关特征是非常有效的。包装特征选择技术在选择是否保留某个特征时主要依据该特征的加入能否给学习算法的性能带来提升。理论上来说,使用包装特征选择技术是可以穷举所有特征组合并且找出其中表现最好的特征子集,但存在耗时巨大的问题。另外还包括序列前向搜索和序列后向捜索的启发式特征选择技术。序列前向搜索的过程是:开始选择特征空集T,每一轮加入一个特征,使当前学习算法性能提升最大,直到所有的待选特征的加入都无法使学习算法性能得到提升时就终止该过程。以此类推,得出最优结果。序列后向搜索的过程相反:开始时r为所有特征集合,每一轮删除一个特征,使该特征的剔除能够最大程度地提升学习算法性能,直到r中剩下的所有特征都不能被剔除为止。排序特征选择和包装特征选择技术的应用能够很好地排除无关特征和弱相关特征,使SVM算法性能得到提高与优化。实际上该过程体现的是用更精简的标准来达到专家编制教材难度设定的统一性。

三、计算结果和分析

为了评估SVM算法分类模型和回归模型应用于对外汉语文本难易程度评估的不同效果,我们在Windows10、32位系统下使用Rapidminer数据挖掘工具进行不同的实验,所有的结果都是在对参数进行调整后的情况下得到的。

构建SVM模型在对外汉语文本难度评估中,我们分别使用了分类和回归两种不同的模型。在分类和回归建模中,重点是标签的不同。分类模型中标签是中级上、中级下、高级上、高级下四个类别,而不是数值。在回归模型中是用区间[0,1]数值表示文章的难易程度,输出的是每一篇文章对应的难易程度表示的观测值,具体的打标规则在“SVM算法评估”中有介绍。也正因为此,本实验选用均方根误差值来表示难度评估的准确度。我们希望通过这一系列实验来验证回归模型评估性能高于分类模型。

经过“排序特征选择”和“包装特征选择”技术等一系列实验后,我们得到最优组合特征结果如下:十四个特征(见表7)组合作为第一个模型,应用序列反向搜索依次减少特征得到的评估结果RMS_Error值如图4所示。

得到的RMS_Error值比较好的是13个特征组合的SVM评估结果0.172和4个特征组合的SVM评估结果0.168的两种情况,下面两张图(见图5和图6)具体展示了对应两种情况的各个特征的评估结果。图5表示了其中13个特征组合的SVM算法评估结果,图6表示了4个特征组合的SVM算法评估结果。回归和分类模型下的不同准确率如图7所示,SVM算法回归模型的准确率是62.28%,分类模型的准确率是59.65%,说明回归模型更能精确地表现每一篇文章的难易程度,评估性能更好。

实验结果表明,图5中的十三个特征在对外汉语难度评估中起着较大的影响作用。重点分析介词和助词突出文章难易程度的原因:为什么是介词和助词,而不是名词或者动词对难易程度的影响大;从文章的语法上分析,存在语法结构序,由易到难的次序,从简式到繁式的过程。[37][38]笔者认为不管是中级还是高级的阅读材料,都会出现一定量的名词和动词等。但是如果出现介词或者助词在不同文章中占比相差较大的情况,反映出文章的不同难易程度。在一个句子中介词是不能作为独立成分存在的,词与词和词与句子之间的关系是用介词表示的。名词、代词、短语或者从句会作介词的宾语,构成介宾结构,通常作为补语,因此介词的出现往往象征着更复杂的句子结构。另外助词有结构助词、时态助词和语气助词三种:“的”、“地”、“得”属于结构助词,“了”、“着”属于时态助词,“吗”、“呢”、“吧”属于语气助词。在中级文章中,文章篇幅较小,但在高级文章中篇幅较长且句子结构更复杂,其他词性的占比更大。这时,助词在中级文章中的占比就比较突出,而在高級文章中,其作用就会小得多。由此可见,助词在文中占有的比例反映出文章的篇幅和句子复杂度进而影响着文章的难易程度。另外SVM算法回归模型的准确率要明显高于分类模型的准确率,说明回归模型具有明显的优势且更能说明每一套教材的每一篇文章的难易程度,回归模型更接近于专家编制教材设定难度值的过程。

四、结论

本文提出了一种适用于小数据量对外汉语阅读材料的难度评估方法,相比较传统的专家人工评估,智能化专家评估系统具有以下优势:①评估的规则和标准更加明确,并且可以定量地加以描述;②评估规则具有更好的可扩展性,可以基于大数据自适应地学习和修正;③可以显著提高评估的效率,节省对外汉语阅读材料编写的时间、人力、物力等资源。但该方法对于大规模应用也存在一定的局限性,比如所需数据准备工作过于复杂和烦琐,后续也可以通过继续增加特征种类来进一步提高评估性能等。

参考文献:

[1]马莉.“一带一路”背景下的汉语作为第二语言教学[J].中外交流,2017(29):53.

[2]郑艳群.对外汉语教育技术概论[M].北京:商务印书馆,2011.

[3]张宁志.汉语教材语料难度的定量分析[J].世界汉语教学,2000(3):83-88.

[4]杨金余.高级汉语精读教材语言难度测定研究[D].北京大学,2008.

[5]孫刚.基于线性回归的中文文本可读性预测方法研究[D].南京大学,2015.

[6]黄敏.汉语特质与中文新闻易读性公式研究[J].新闻与传播研究,2010(4):93-97.

[7]刘潇.文本易读度相关研究评述[J].湖北大学学报(哲学社会科学版),2015(3):141-146.

[8]章田鑫.基于语义的学习资源难度评价和推荐[D].东华大学,2015.

[9]别小雷.基于“新大纲”的《新实用汉语课本》语料难度定量分析[D].西南交通大学,2017.

[10]荆溪昱.中文国文教材的适读性研究:适读年级值的推估[J].教育研究资讯,1995(5):114-127.

[11]Crossley, S. A. D. D.Toward a New Readability: A Mixed Model Approach [C].Proceedings of the 29th Annual Meeting of the Cognitive Science Society,2007:197-202.

[12]Benjamin, R. G.Reconstructing Readability: Recent Developments and Recommendations in the Analysis of Text Difficulty[J].Educational Psychology Review,2012,24(1):63-88.

[13]Collins-Thompson, K., Callan, J. R. A language modeling approach to predicting reading difficulty[C]. Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics, 2004:193-200.

[14]Schwarm, S.E., Ostendorf, M. Reading level assessment using support vector machines and statistical language models[C].Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics, Association for Computational Linguistics,2005:523-530.

[15]Petersen, S. E., Ostendorf, M.A machine learning approach to reading level assessment[J].Computer Speech And Language,2009,23(1):89-106.

[16]Rohit J. Kate, X. L. S. P.Learning to Predict Readability using Diverse Linguistic Features[J].Association for Computational Linguistics, 2010:546-554.

[17]Feng, L., Jansche, M., Huenerfauth, M., Elhadad, N.. A comparison of features for automatic readability assessment[C].Proceedings of the 23rd international Conference on Computational Linguistics: Posters, Association for Computational Linguistics,2010:276-284.

[18]Ma,Y.,Fosler-Lussier,E.,Lofthus, R.. Ranking-based readability assessment for early primary childrens literature[C].Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Association for Computational Linguistics. 2012:548-552.

[19]Francois, T., Miltsakaki, E.. Do nlp and machine learning improve traditional readability formulas[C].Proceed-ings of the First Workshop on Predicting and Improving Text Readability for target reader populations, Association for Computational Lingusties,2012:49-57.

[20]Chen,Y.T.,Chen, Y.H., Cheng, Y.C.. Assessing Chinese readability using term frequency and lexical chain[J]. Computational Linguistics and Chinese Language Processing, 2013,18(2):1-17.

[21]Yaw-Huei Chen, Y. T. Y. C. CHINESE READABILITY ASSESSMENT USING TF-IDF AND SVM: Proceedings of the 2011 International Conference on Machine Learning and Cybernetics[Z].2011:705-710.

[22]牛士偉.对外汉语文本可读性研究的回顾与展望[J].广东外语外贸大学学报,2015(6):105-109.

[23]罗素华.汉语中级泛读教材难度定量分析——以三部中级汉语泛读教材为例[D].湖南师范大学,2015.

[24]左虹,朱勇.中级欧美留学生汉语文本可读性公式研究[J].世界汉语教学,2014(2):263-276.

[25]邹红建,杨尔弘.面向对外汉语报刊教学的文本难易度分类[Z].第三届学生计算语言学研讨会论文集,2006:363-367.

[26]Sung, Y., Lin, W., Dyson, S. B., et al.Leveling L2 Texts Through Readability: Combining Multilevel Linguistic Features with the CEFR[J].The Modern Language Journal,2015,99(2):371-391.

[27]李泉.对外汉语教材研究[M].北京:商务印书馆,2006.

[28]李如龙,吴茗.略论对外汉语词汇教学的两个原则[J].语言教学与研究,2005(2):41-45.

[29]廖一星.文本分类及其特征降维研究[D].浙江大学,2012.

[30]马清华.唯频率标准的不自足性——论面向汉语国际教育的词汇大纲设计标准[J].世界汉语教学,2008(2):119-134.

[31]姜德梧.关于《汉语水平词汇与汉字等级大纲》的思考[J].世界汉语教学,2004(1):81-89.

[32]李泉.对外汉语教学语法研究述评[J].世界汉语教学,2006(2):110-118.

[33]邓乃扬,田英杰.数据挖掘中的新方法——支持向量机[M].北京:科学出版社,2004.

[34]Dr. Matthew North. Data Mining for the Masses[M].Global Text Project,2012.

[35]苏高利,邓芳萍.关于支持向量回归机的模型选择[J].科技通报,2006(2):154-158.

[36]付旻,王炜,王昊,项晙.多分类支持向量机在公交换乘识别的应用[J].哈尔滨工业大学学报,2018(3):1-8.

[37]吕文华.对外汉语教材语法项目排序的原则及策略[J].世界汉语教学,2002(4):86-95.

[38]孙瑞珍.中高级汉语教学语法等级大纲的研制与思考[J].语言教学与研究,1995(2): 96-106.

(编辑:王天鹏)

猜你喜欢

回归模型对外汉语教学机器学习
农村秸秆处理方式的影响因素
国际旅游外汇收入影响因素分析
浅谈组织教学在对外汉语教学中的重要性
前缀字母为特征在维吾尔语文本情感分类中的研究
对外汉语课堂游戏教学设计
对外汉语听力教学初探
基于支持向量机的金融数据分析研究