智能写作评价及其技术发展
2021-12-29荣维东李自然
摘要: 智能写作评价是指使用计算机等现代技术对作文进行自动化评价的系统。随着计算机及人工智能领域关键技术的不断突破,国外智能写作评价系统的发展和应用已进入深水区。通过对国外相对成熟的写作评分系统的介绍与分析,文章对中文智能写作评价系统的关键词提取技术、神经网络模型、语料库进行分析和介绍,指出我国中文智能写作评价面临的困难,并对智能写作评价系统的发展与优化进行思考。
关键词:人工智能;写作评价;中文写作;技术进展
写作评价指评价者依据一定的目标和标准,对写作过程和结果进行价值判断的过程。智能写作评价又叫“自动作文评分”(automated essay scoring,AES),属于“基于自然语言应用处理的教育评价方法”[1]。它是指使用计算机等现代技术对作文进行自动化评价的系统,在国外始于20世纪60年代,发展到今天已经相对成熟。但由于汉语写作的特殊性和复杂性,中文智能写作评价仍存在语义理解不准确、评分细则不清晰、评分系统不完善等问题。本文拟介绍国外主流智能写作评价系统以及中文写作评价关键技术进展,并对我国中文智能写作评价的发展进行思考。
一、国外智能写作评价系统发展概述
目前,国外著名的自动作文评价系统主要有四种:PEG(project essay grade)、E-rater、IntelliMetric、IEA(the intelligent essay assessor)[2]。它们有一些共同的特点:一般是先构建评分操作模型,确定一组可度量的特性;然后对这些特征建模,使其生成最大化分数,并与一些外部标准形成对应关系;最后,使用单独的数据集进行模型测试和验证,以检查模型性能和模型的通用性并对其微调。当模型显示出在不同的真实数据集间有评分一致性和准确性的水平,它便可以使用。
(一)PEG:由关注文本表层特征到关注复杂文本特征
PEG是埃利斯·佩奇(Ellis Page)等人于1966年应美国大学委员会请求而研发的第一个自动作文评价系统,其目的是使大规模写作评分更加实际而高效。早期版本主要关注文章可量化的浅层语言学特征,基本不涉及内容评判。修订版于20世纪90年代发布,开始使用自然语言处理工具,如语法检查器和词性标记语,能够关注更丰富和更复杂的文本特性,更能显示作者潜在的写作能力。
(二)E-rater:通过文本与数据库信息匹配进行评价
E-rater是由美国教育考试服务中心(ETS)于1998年开发的专用智能写作评价系统。它依赖自然语言处理(NLP)和信息检索(IR)提取文本特征的技术,如应用标准化(单词)频率指数,使用基于向量空间模型的内容向量分析来评估主题写作内容,根据语篇分类图式和非词汇句法结构线索表示术语,对于文本相关信息进行标签匹配,结合ETS的数据库审核考生的写作质量。目前,主要考查学生作文的五大方面,即文章组织和发展、语法、用词、格式、语言风格。
(三)IntelliMetric:首个广泛使用人工智能技术的作文评分软件
它由卓越学习公司(Vantage Learning)于1998年发布,充分模拟人工评分过程,不断通过人工校正其自动给分点,通过分析给分点之间的聚合关系,模拟人工从整体上评判作文的过程。它首先对给分点(包括主要的、次要的、聚群的和分散的)进行标记赋值,之后使用神经合成方法训练系统获取评分规则,建立评分模型,并使用专利技术减小误差。据说这是一个关注文章类型、构造等整体模式进行评分的系统,能够达到令人满意的高匹配的评阅结果。
(四)IEA:强调事实意义和内容评价
IEA是在1998年由美国培生知识分析技术公司(KAT)基于潜在语义分析技术开发的。潜在语义分析是指一种用于文本索引和信息提取的复杂统计技术,2004年被培生(PTE)英语学术考试用来为学生的书面回答打分。
目前可用的四个AES系统中,IEA是唯一声称可以基于语义内容测量事实知识和意义的写作评估系统,评价内容时优先考虑其事实意义的重要性。
其他智能写作评价系统还有加州测试局设计的Bookette、美国研制的AutoScore、BETSY贝叶斯作文评分系统等。
现有的智能写作评价系统多采用多种属性来描述文章的特征,一般包括语法、书写规范、词汇复杂性、风格、组织和内容的发展,使用的主要方法是自然语言处理(NLP),如词性标注(POS)、句法分析、句子碎片化、话语分割、命名实体识别、内容向量分析(CVA)等。评价文章语义的主要分析方法有潜在语义分析(LSA)、潜在狄克雷分配(LDA)和内容向量分析(CVA)[3]。
上述智能写作评价系统大多采用潜在语义分析技术,它是一种推理语义的机器学习方法。现今,英语智能写作评价系统早已商用并有大量实验数据支撑,但仍存在两个争议:一是文章的整体质量取决于哪些重要内容;二是机器能否用来把握文章内容的意义。这同样是中文智能写作评价系统需要问答的问题。
二、我国汉语智能写作评价技术进展
教育部考试中心于1998年和1999年先后邀请美国ETS和英国剑桥大学考试委员会的专家来华,介绍他们网上评卷和软件及自动评卷系统,希望能够改进我国的自动评分现状。技术的发展,也使智能写作评价系统的开发成为可能。关键词句提取技术、智能评价系统中的人工智能、大规模语料库的发展与完善,是智能写作评价系统成功开发的前提。使用智能系统辅助人工教学及评价是未来教育的发展趋势,相关技术与理论的发展、支持必定是重要的推动器。
(一)中文智能写作评分实践介绍
写作自动评分系统开始时更多适合于英语,对于类似中文、日文等黏着性语言,开发写作自动评分系统多了一重困难,即如何将单词正确地细分到最小单位——词素,以便提取量化文章特征。随着计算机自然语言处理研究的发展,目前已开发出比较成熟的计算机工具来完成分词工作,为这一问题提供了解决方法。
中文写作自动评分研究业已起步,部分学者开始大胆尝试,主要体现在两个方面:一是积极关注和介绍英文写作自动评分系统,借鉴学习它的理论和方法;二是开展尝试性研究,对各种中文写作自动评分的方法进行实践验证,探索开发中文写作评分系统的可能性[4]。
1.中文作文智能评测系统及汉语写作教学综合智能训练系统
由中国语言智能研究中心等机构在北京联合发布的中文作文智能评测系统及汉语写作教学综合智能训练系统根据学习类型可分为三部分:基于打分、评级、纠错等功能,从语料库中挖掘打分细则、评级参数、常规范式,使得作文批改更客观、科学;将作文导入汉语作文智能评测系统;系统借助语言大数据,自动评级、打分、纠错,提供范例,对作文进行批阅[5]。
2.汉语测试电子评分员
国内一些学者也开始了实证研究方面的尝试。如张晋军等提出“汉语测试电子评分员”的设想,并进行了实验检验,随机选取700份中国少数民族汉语水平等级考试(MHK)三级作文预测卷,并编写程序对这些作文进行评分,最后将人工评分和电子评分员的自动评分结果进行比较,发现电子评分员与人工评分的一致性达到较高水平,相关度为0.842。
3.中文写作自动化评分系统(ACES)
中国台湾学者林素穗等对非同步式网络教学评价进行研究,设计出汉语作文自动评分程序。该程序是从语法层面,通过提取学生作文中的字词进行评价,没有语意分析的成分,使用的是向量空间模型评分方法,但未见报道实验进程和结果。最近中国台湾研发出一套中文写作自动化评分系统(ACES),能自动分析初中基准测试考生的作文程度,并给予6个等级的评分。
4.智能评价系统实验
陈一乐针对智能化的中文写作评价系统进行实验,包括以下一些要点:第一,构建一个尽可能庞大详细的语料资源库,涵盖和高考语文作文相关的诸多语料,对这些语料去杂、标注、分类以及整理;第二,找到合理的评价方式评判系统的效果;第三,找到影响中文写作评分的关键浅层语言特征,包括变换的长度特征、词汇丰富度特征、段落特征;第四,探索能表征文章的深层语言特征,包括情感词特征、引用特征、篇章特征;第五,深度学习相关方法,试图以自动表示文章特征而非启发的方式进行有选择性的人工发现、抽取[6]。
通过分析我国目前智能写作评价系统发展,可以看到自动评分研究正努力朝着语义分析的方向发展,真正做到对语义的理解还要得到认知科学的大力支持。未来智能写作评分研究中关于认知过程的研究成分会逐渐加大,注重写作评价的心理过程将成为研究发展方向。
(二)汉语写作智能评价的关键性技术
1.关键词句提取技术
关键词句提取在文本处理的许多领域如文本聚类、文本摘要和信息检索中都是一项重要技术。当下,关键词句提取技术更是在NLP领域有着重要地位。目前,文本处理领域主要有基于隐含主题模型(LDA)、基于TFIDF词频统计和基于词图模型的三种关键词句提取技术。
(1)词汇及语句:蔡黎等提出了一种用文本中所有词语的使用难度系数之和作为写作水平特征的计算方法。彭星源等提出了一个假设以文本中所有词汇得分之和为文本总分为前提的计算方程[7]。语句层面,有人提出通过与词语搭配提取进行语法识别,并根据句长以及语句包含词语难度进行简单的难度特征分析。这些计算方法和程式主要考虑到文本中词句选用的难度及匹配度,而对于深层次词语的灵活使用以及词语、语句的创意表达等较为个性化的写作手法,智能写作还未能完全顾及。这也是智能写作评价系统不能完全取代人工评判的原因之一。
(2)修辞手法:有学者基于形式规则的方法,结合排比句位置、结构和标点等特征,设计了一系列关于排比句的识别和筛选算法[8]。陈一乐使用倒排索引结构抽取出候选引用句,再结合模糊匹配(动态规划)的算法对引用进行判别[9]。巩捷甫对引用资源语料库的构建和引用特征的查找识别等工作进行完善和丰富,尝试使用深度学习方法解决文章中包含比喻、拟人手法的语句自动识别[10]。比喻、排比、拟人、引用这些写作手法常用于我们平时的写作训练,一定程度上更加适合中小学常见的语句训练,为进一步的修辞手法分析、计算提供了可能。
(3)主旨或中心论点:当前,语言分析处理认为关键词代表文本主题。蔡黎等使用Text Rank 结合词频 TF(term frequency)计算主题特征值;刘明杨在此基础上采用无监督的LDA(latent dirichlet allocation)主题模型输出文章的主题关键词;巩捷甫结合训练LDA产生的模型矩阵和词向量的方法进行主题词的扩展;等等[11]。大部分学者分析主旨和中心论点时采用了提取主题词这一方法,这对于主题明显、简练的议论文和说明文有一定的实践价值,但对于记叙文或抒情散文等主题词较为隐晦的文章可能需要进一步的设想和建构。
(4)语义特征:有学者借助HowNet提出一种基于文学义素特征的智能写作评价方法,并将段落间的概念关系融入其中。王耀华等提出了两种文本语义离散度特征表示方法——“基于距离”“基于中心”,并使用统计和神经网络模型获得这两项特征的向量化表示[12]。语义特征的计算与分析能对文本整体的段落布局与整体思想内容的表达进行评判,这对于分析文章的整体思路布局有一定的帮助。
2.基于深度学习的神经网络模型
近年来,自然语言处理领域基于深度学习的神经网络模型建构取得很大进展。作为模型输入的词向量训练最常用的方法有Word2vec以及 Glove 等,在大规模语料中通过目标词和上下文词语的共现训练得到词向量[13]。巩捷甫尝试使用深度学习方法解决文章中包含比喻、拟人修辞手法的语句自动识别,借助Word2vec、循环神经网络RNN训练出二元分类模型。语言处理领域内的神经网络模型建构成功与否,大概率就决定中文智能写作评分系统能否成功应用。
3.语料库开发是智能写作评价的基础
语料库是指按一定原则取样获得的大规模电子文本汇集,语料库软件包括词汇索引工具、自动和人工标注工具、文本整理工具、口语转写工具、统计分析工具等[14]。Hownet是一个中文语义知识库,其重要的工作是义原的归纳和总结。义原是最基本、不易再分割的意义最小单位,每个词语都可由一个或若干义原来表示[15]。因此,诸如Hownet等中文语料库的开发是中文智能写作评价系统的重要基石。
三、汉语智能写作评价存在的问题
由于中文在语音、词汇及语法等方面与英语有着很大差别,其智能写作评价在语言处理及模型建构方面还存在很多问题。
(一)词句识别困难
汉语字词无明确的分离符号,需要联系上下文自行理解,且存在二字、四字或多字词语。汉语处理首先要识别词语,这是智能语义信息处理的一项基础工作。它不仅要识别常用词语、短句,还要注意一词多义、词语的特殊用法以及语句因断句产生的歧义和新词识别等实际困难。
(二)语法类型较多
中文存在某些特定的语法形态,如意合类较为抽象的语法识别,涉及语境、上下文理解等问题。在写作文本中,往往出现特殊形式的语法结构,这需要智能写作评价系统基于大量真实的文本进行分析与识别,才能真正从技术层面分析和处理汉语语法的各种类型。
(三)语义分析复杂
中文词汇及短语类型中,一词多义、同音、同义、近义、歇后语等现象较为常见,这就给语义分析带来不小的困难。在整体篇章及结构架设层面,中文写作语义的理解分析涉及更多的引经据典、词义蕴含省略、行文思路以及情节构思等问题,语义理解更为复杂。这更需要构建智能写作评价系统时从学生实际出发,具体分析。
(四)实际应用缺乏验证
2020年底,有媒体报道部分省市在高考等考试中已经开始针对语文作文等主观性命题引入机器阅卷[16],这传达出智能写作评价已有重大进展。但随后也有媒体发声认为人工智能评判作文还不够“资格”[17]。这正是智能写作评价面临的两难局面。实际应用中,还应考虑写作个性化以及多样化的问题,这样才能更好地基于不同文本进行写作评价。
(五)适用效果有待验证
正是因为智能化写作评价发展进程中还有亟待解决的难题,其真实的评价效率及准确性等需要进一步分析,贸然应用可能得到的结果并不完全有效。今后,对不同年级、不同写作体裁和类型的文本,还应分别进行可行性验证,这样才能确保智能写作评价的真实性和有效性。
四、对汉语智能写作评价的建议
(一)尽快成立汉语写作智能评价专门机构,开展研究和通力合作
智能写作评价是一项涉及很多学科领域、需要通力协作的系统工程,首先,国家要给予高度重视,成立专门机构,开展基础研究。比如,建设一个数量庞大且资源详细的语料资源库,并对大量的语料文件进行整理分析、逐项特征提取,分类进行语言处理,这很可能是一个基础工作。其次,基于深度学习技术、神经网络模型、人工智能技术等,对汉语作文的语义结构、情感风格、内容旨意进行具体和拟人化分析。再次,设计合理、有效的评分标准细则,涵盖基础技能考查及发展能力评价。最后,根据分数进行反向考量,对其评分做出具体反馈,给出得分。每一步都充满艰辛,需要依托各项技术的发展及革新。
(二)积极开展实验研究,不断开展技术攻关
汉语智能写作评价是一个新生事物,也是一项庞大及持续性较长的工作,需要有专业知识的人才,开展专项核心关键技术研究与攻关。现今开发智能写作评价系统需要考虑的问题主要有:科学合理的评价指标体系;可应用的词句识别技术;合理的评价模型;适当的计算、统计方法;深度融合的机器学习、人工智能等技术的发展。这些技术、理论的成功开发和应用,才会为汉语智能写作评价系统的更好发展带来可能。这对中国的语文教育和考试评价、减轻教师批改作文的负担、我国汉语教育科学化与智能化建设、提高我国软实力都具有极其重要的意义。
(三)大力开展循证实践研究,不断提升汉语智能写作评价水平
现阶段,对于智能写作评价的大规模实践验证分析获得的经验数据还不够丰富,仍需要不断开展循证实践。这种循证实践不仅包括作文客观的语篇指标(如内容、结构、语言等),还包括文体类型的识别、评价的价值取向设定等。这种评价很可能不仅仅是基于大数据统计的人工智能式判断,因为价值判断是一个主观甚至个性化的事物。中文智能写作评价更加复杂,其真正落地应用任重而道远。
参考文献
[1] Kenton W. Murray,Naoki Orii.Automatic Essay Scoring[M]. Lawrence Erlbaum Associates,London,2003.
[2] Kaja Zupanc, Zoran Bosnic.Advances in the Field of Automated Essay Evaluation[J].Informatica,2015:383-395.
[3] 曹亦薇,杨晨.使用潜语义分析的汉语作文自动评分研究[J].考试研究,2007(1):63-71.
[4] 杨晨,曹亦薇.作文自动评分的现状与展望[J].中学语文教学,2012(3):78-80.
[5] 段栩雯.汉语作文自动评级、打分和纠错智能评测系统发布[J].江西教育,2017(14):25.
[6][9]陈一乐.基于回归分析的中文作文自动评分技术研究[D].哈尔滨工业大学,2016.
[7][8]吴恩慈,田俊华.汉语作文自动评价及其关键技术——来自作文自动评价(AEE)的经验[J].教育测量与评价,2019(8): 45-54.
[10]马创新,梁社会.面向语言分析的语料库技术平台建设[J].智能计算机与应用,2019,9(4):100-103.
[11]周锦章,崔晓晖.基于词向量与TextRank的关键词提取方法[J].计算机应用研究,2019,36(4):1051-1054.
[12]李纪扣,韩建宇,王嫄.基于相似度融合算法的主观题自动阅卷机制[J].天津科技大学学报,2019,34(1):76-80.
[13]高思丹,袁春风.语句相似度计算在主观题自动批改技术中的初步应用[J].计算机工程与应用,2004(14):132-135.
[14]张仰森,郑佳,李佳媛.一种基于语义关系图的词语语义相关度计算模型[J].自动化学报,2018,44(1):87-98.
[15]陈洋,罗智勇.一种基于Hownet的词向量表示方法[J].北京大学学报(自然科学版),2019,55(1):22-28.
[16]9省高考针对语文、英语作文等主观性命题引入机器阅卷[EB/OL].https://www.thepaper.cn/newsDetail_forward_10374752.
[17]人工智能判作文还不够“资格”[EB/OL].https://news.cctv.com/2021/01/04/ARTImmyqtw5mhvkHtP4dnN9I210104.shtml.
(作者荣维东系西南大学教师教育学院教授、博士生导师;李自然系广东省深圳市宝安区龙腾小学教师)
责任编辑:孙建辉