语言智能评测理论研究与技术应用

2017-05-30周建设张凯罗茵娜仁图雅张跃刘小力

语言战略研究 2017年5期

周建设张凯罗茵娜仁图雅张跃刘小力

提要近些年，语言智能评测技术取得了重要突破并得到应用推广，拓展了中国语言产业发展的新领域。本文基于大数据背景，分析语言评测技术发展及相关理论模型，结合2017年“英语百万同题英语写作”数据，对比分析用户行为、效果提升等情况，印证评测技术的有效性和发展语言智能评测产业的重要性。

关键词英语作文评测；评测技术；语言智能；语言产业；人工智能

Abstract In recent years， the technology for language intelligent evaluation has made a significant breakthrough and has thus opened up a new area in the development of Chinas language industry. The paper first reviewed the development of language testing technology and related theoretical models in the context of big data. Furthermore， utilizing the English database containing millions of topics， it conducted comparative analysis of user behavior and effect promotion， etc. and verified the validity of the evaluation technology and the significance of developing language intelligent industry.

Key words English Automated Essay Scoring； Automated Essay Testing Techniques； language intelligence； language industry；

artificial intelligence

一、引言

人工智能是引領未来的战略性技术，世界主要发达国家把发展人工智能作为提升国家竞争力、维护国家安全的重大战略，加紧出台规划和政策，围绕核心技术、顶尖人才、标准规范等强化部署，力图在新一轮国际科技竞争中掌握主导权。语言智能“是人工智能皇冠上的明珠，如果语言智能能实现突破，跟它同属认知智能的知识和推理就会得到

长足的发展，就能推动整个人工智能体系，有更多的场景可以落地”①。语言问题是人工智能研究需集中攻关的一大屏障，语言智能基础理论与关键技术研究的突破对于实施人工智能国家战略具有重大意义。

（一）语言智能发展的必然性

作为专门术语，“语言智能”是语言信息的智能化，是运用计算机信息技术模仿人类的智能、分析和处理人类语言的科学（周建设等 2017）。

人类已经进入智力集成时代，人机交互必将成为常态。语言智能将大幅度代替人类自然语言，实时进行人机交流。这是人类社会科技进步的重大标志，也是人类科技发展的必然结果。

中国语言智能概念的提出虽然不算早，但是实质性的语言智能研究却具有明显优势。清华大学、北京大学、中国科学院、哈尔滨工业大学、北京理工大学、科大讯飞等科研院所和企业已经取得了辉煌业绩，诸多项目处于世界领先水平。国家、行业和地方相继建立了语言智能研究平台。2015年，北京市将语言智能纳入高精尖创新中心建设；2016年，国家语委批准建立了首都师范大学中国语言智能研究中心，中国人工智能学会批准成立了语言智能专业委员会，教育部批准在首都师范大学设立语言智能二级学科博士点；2017年，中国人工智能学会与中国语言智能研究中心召开了第四届中国语言智能大会，中国计算机学会与中文信息学会联合召开第二届语言与智能高峰论坛。这标志着中国语言智能研究与学科建设具备了一定的基础。

（二）大数据为语言智能评测创造条件

大数据时代给社会带来三大变革：思维变革、商业变革、管理变革。各行业将大数据纳入日常配置已成必然之势。大数据包括结构化、半结构化和非结构化数据，且非结构化数据越来越成为数据的主要部分。IDC的调查报告显示：企业中80%的数据都是非结构化数据，这些数据每年都按指数增

长60%②。

大数据为语言智能化发展创造了前提条件，这是因为大数据具有三个重要特征。一是“基因”的存储性。每个数据都是事物属性的记录。考试成绩存储着知识或技能的“基因”等。二是规律的蕴含性。当数据积累到一定数量级后，其事物变化规律则可以从数据变化中显示出来。长期记录一个人的语言数据，可以按其声音分贝发现其声高与情感表达的关系。三是趋势的预测性。大数据存储的事物“基因”反映事物的变化规律。因此，根据基因变化规律，可以预测事物未来的发展趋势。大数据的特性使语言智能评测得以成为现实（周建设等 2015）。

二、语言智能评测基础理论

人工智能范畴内语言智能术语的提出，跟研究者长期关注人脑语言的运行机制密切相关③。这一思想酝酿、术语提出与概念形成大致经历了三个阶段：（1）语言来源认识阶段，探究语言与思维的关系，从思维活动的基本元素入手，认识语言组织单位产生的根源及其在思维活动中的依存地位；（2）语言结构认知阶段，探索汉语词项与言语生成的基本规律，构拟汉语词项生成模型与语句生成模型，揭示汉语表达结构的组织原理；（3）语言智能实现阶段，探讨机器表达汉语的智能模型、全信息评测模型和情感分析四维模型，实现从言语智能生成到文章智能评测的计算机全自动操作。

（一）语言智能评测研究现状

语言智能评测指利用计算机评测文章（作文）。目前的基本思路是通过各种自然语言处理技术，从待评测文章中提取文本特征，让机器对文本特征与分数之间的关系进行学习，通过所得文本特征与分数之间的关系进行自动评分。这种方式采用一个整体回归公式得到最终的评分结果。这样得到的评分结果，往往存在与人工评分结果拟合度不高的问题，要给出详细的批改建议也很不容易。

语句相似度是评测的重点，它研究如何制定语句之间相似度的衡量机制，根据不同的分类原则，可以按匹配单元分类、按分析深度分类（穗志方 1998），或者按动態规划的相似度计算方法分类（高思丹、袁春风 2004）。计算相似度时，基本上可分为相似程度计算和距离程度计算两类。代表性的方法有：“切块 + 匹配 + 重组”方法（Nirenburg et al. 1993）和同时依据句子的表层结构和内容计算相似度的方法（Lambros et al. 1994）。

（二）全信息语言智能评测模型

全信息语言智能评测模型基于文本语义离散度表示和多知识融合方法，构建包含词汇、句法、语义、篇章等多维度的全信息语言评测模型，实现词汇级、句子级、段落级和篇章级等不同粒度的点评、建议和综合评分，解决机器评测与人工评测拟合度不高的难题。

该模型首先对待评作文进行词汇分析、句子分析、篇章结构分析和内容分析，得到关于词汇、句子、篇章结构和内容的子维度。每个维度与作文的最终评分结果具有线性相关性、单调性、独立性、牵制性和平衡性。然后根据每一个维度，对待评分作文进行评分计算，得到多个评分结果。接着对多个评分结果进行加权处理，获得待评分作文的最终评分结果。从每一个句子中提取语言点，将这些语言点与语料库中的语言点进行匹配，给出针对句子中该语言点的点评，根据多个句子的点评给出所属段落的点评，根据多个段落的点评给出整篇作文的点评。其中，语言点为作文中的一些相对稳定的元素，如搭配、词块、句型模式等。通过这些相对稳定的元素归纳出错误语言点的基本类型，如单词误用、词组模块误用、搭配不当、固定搭配模式误用等。语料库中包括了所有文章的语言点和句段库，语料库可以实时持续更新。当给出最终评分结果时，给出的相关点评（包括句评、段评和总评）也实时持续更新，学习者可据此点评提高语言能力。

（三）主题聚合度计算理论

智能评测理论所说的主题，主要是从外延意义上界定的。主题就是篇章指称的对象。篇章涉及的对象有具体对象，也有抽象对象。具体对象，可以是个体对象，也可以是个体对象组成的类（集合）。当一篇文章仅仅涉及一个对象时，这个对象就是文章的主题；当文章涉及一类对象时，这个类就构成文章论域（domain），这个论域实际上就是该类中诸多个体的上位概念，这个类、论域或上位概念，就是该篇文章的主题。抽象对象是指事物的属性，包括事物的性质、事物之间的关系。思想是抽象概念，可以成为篇章的对象，即篇章的主题。爱好是抽象概念，表示事物之间的关系，也可以成为篇章的对象，即篇章的主题。

主题聚合度理论是通过设计一种算法来综合评价行文与文章主题之间关联程度的理论。主题聚合度计算是北京语言智能协同研究院研究人员于2015年取得的机器评测作文的一项重大理论突破和关键技术突破。经过60亿字规模语料的检测，证实评测效果显著，获得国内外同行高度评价。目前，篇章主题聚合度计算作为中国语言智能研究中心语言智能领域的一项核心产品已经广泛用于作文评测。

三、英语作文智能评测系统发展及规模

自20世纪60年代以来，国外已开发出多个作文自动评分系统，并应用于 GRE、GMAT 等大型考试中（Dikli 2006；Quellmalz & Pellegrino 2009；Williamson 2009）。国内，梁茂成（2011）和北京语言智能协同研究院分别研制了适合中国英语学习者的作文自动评分系统并取得了良好的效果，其中首都师范大学主导研发的英语作文批改系统得到广泛应用。在翻译领域，一些研究机构也对学生汉译英的自动评分进行了有益尝试（王金铨、文秋芳 2009；王金铨 2010）。目前，针对英语作文的自动评分研究已有一定的积累，相关产品也日趋成熟。

（一）同类型评测产品对比分析

历史上第一个作文自动评分系统是1966年研制的PEG（Page 2003）。20世纪90年代以后，IEA、E-rater、IntelliMetric、MY Access等系统相继出现（Burstein 2003）。本文在江进林（2013）研究的基础上，进一步丰富各类系统的特点形成表1，以对比并反映各类型自动评测系统的相关情况。现有作文自动评分系统在评分步骤、主要技术和变量挖掘方面对机器自动评分研究具有重要启示作用。

（二）英语作文智能评测系统助力语言产业发展

促进语言事业的发展，包括促进语言产业的发展（贺宏志 2012）。广州大学屈哨兵教授提出“语言产业、职业、行业、基业：语言服务四业并论”。2010年，语言智能评测系统批改网上线试用，实现了英语作文在线快速批改。目前，批改网日均批改作文30余万篇，已经积累形成了60亿例句的地道英语大数据、3.42亿篇中国学生作文语料库，并且定期更新美国英语作文、SCI摘要等17种英文类型库，形成了国内最大的英语学习语料库，为中国语言产业拓展了新领域。

作文批改由智能化向教学过程的渗透，也触动了传统教学模式，不少名校竞相与批改网合作，探讨信息化时代教学模式的改革创新。2016年3月，中国人民大学附中主动联系批改网，与其共同开展英语写作创新教学活动；2017年3月，湖南省长沙市教育科学研究院、长郡中学主动邀请批改网联合举办长沙市普通高中课堂教学改革优秀课例展示研讨活动。此类“智能课堂”活动在全国各地相继展开，受到师生和教育主管部门的广泛好评。

以2016年1月为例。北京市朝阳区有52所中学使用批改网，当月教师布置作文题713个，学生提交作文22 460篇，累计修改160 599次，平均每人每篇修改7.1次，63%的学生至少提交了2次作文，修改5次以上的学生约占25%，1.2%的学生修改次数超过50次。据统计，使用批改网的朝阳区农村薄弱校，中考英语作文均分超过了朝阳区均分。

（三）产业规模及效益分析

目前，英语批改网已服务2000多所高校、4000多所中小学，其中清华大学、北京大学、南京大学等多数985高校已经使用该服务。系统现已服务教师逾15万人、学生逾1700万人，基本覆盖国内英语作文智能评测市场。作文批改主要是公益服务，若以批改作文的普通标准价格20元/篇计算，其惠民经济效益逾68亿元。

中国港澳台地区和日本、韩国、新加坡等国家已有部分大学付费使用批改网，显示出国际市场拓展优势。计算机辅助的在线学习模式，打破了传统课堂模式，实现随处是课堂、随时可学习。语言智能评测可快速找出学生薄弱点，提高学习效率。清华大学给出如下评价：（1）批改网的“形成性评估”模式可以提高学生自主学习能力；（2）辅助英语教学，提高教师工作效率，充分体现教师价值；（3）传统教育与现代技术结合，创新教学形式。南京大学的反馈报告说：近年来国外的自动评分系统取得了实质性的进步，比如美国ETS的E-rater系统就应用于GMAT等考试。但是国外的系统对于中国学生来说有两个缺点：（1）主要侧重于评分，没有具体语言和内容上的反馈；（2）主要针对英语本族语学习者，对外语学习者的写作特点照顾不周。而批改网考虑并切实解决了上述难题。

四、大数据的产业数据挖掘

2014年开始的“百万同题英文写作”活动，至今累计吸引全国9000多所学校，学段覆盖大学、高职、高中、初中和小学高年级，师生参与量累计超过450万人次，为中国英语教学与研究提供了大量真实语料数据①。

（一）用户自主学习行为分析

在2017年“百万同题英文写作”活动中，全国32个省市地区提交了1 408 626篇作文，参与人数前三名的地区分别为四川省（140 840人）、广东省（112 455人）和山东省（107 301人）。不同学段的参与人数中，本科学生最多，占比达到89.61%。作文自动评测技术不仅极大解放了教师的人工评阅压力，也极大激发了学生自我学习的内驱力。2017年的同题作文写作，从数据反馈可以看出学生的自主学习行为改善主要表现在以下几个方面：

1.修改行为

学生共提交作文1 408 626篇，累计修改提交作文11 222 309次，平均每人每篇作文修改7.97次，约75%的学生都对自己的文章进行了多次修正，超过10%的学生修改作文达20次以上（详见图1），学生整体修改表现良好。

图1和图2反映了各类院校作文修改次数的分布情况。其中，985和211院校学生的自主修改比例最高，80.2%的学生都在写作过程中进行了自主修改；高职学生在未修改及修改20次以上区间内占比较高，修改次数分布相对分散；而高中学生修改10次以上的占比在各类院校中最小，学生修改次数普遍相对集中。整体上来看，约75%的学生都对自己的作文进行了自主学习及修正。

2. 分数变化

从图3我们可以看到学生作文在修改过程中有较为显著的分数提升。通过平均每人7.97次的修改，学生作文分数在整体上由初版作文的74.59分上升到终版作文的79.07分，分数提升了4.48分。在各类院校中，985及211院校学生在修改中分数提升幅度最大，达到4.79分；其他各类院校也完成了有效的自主学习，分数有所提升。

3. 错误修正

图4显示各类院校学生作文语法错误修正率情况（不计书写错误）。学生累计修改错误超过40%，各类院校作文错误均有20%至60%的修正，其中985和211院校修正率最高，达到52.76%。

4.修改过程

这里从五个类型的学校各抽取10 000篇作文为样本，对作文的第一版、第二版、中间版本、倒数第二版以及最终版进行分析。通过版本间的数据变化，从中可以看出学生自主修改过程中的一些特点。

从表2可知，学生的修正大多集中在前半段修改过程中，特别是拼写类错误，前半段的修正率均高出后半段15%以上。部分院校对成分缺失、词性误用、搭配错误的修正更多集中于修改过程的后半部分，大概与这几类错误修改难度相对较大有关系。985和211院校以及高中学生对于错误的修正较明显集中于前半段，语法自我修正的进度较快，高职院校及初中对部分高频错误的修正相对集中于后半段，语法自我修正的进度相对慢一些。综上所述，可以得知，学生自学过程的前半段修改更为高效。学生修改过程前期主要进行基础语法错误修正；修改过程后期，学生会对修改难度相对较大的句子结构类错误给予更多关注和修正；对词汇与句型的调整会在整个自学过程中循序渐进地进行。

（二）语言写作技能提升分析

自主修改过程中分数出现一定提升的作文可称有效修改作文。对有效修改作文进行分析，有助于了解学生在英语人机互动写作中有效修改行为的特点。这里选取的数据样本为各类院校随机抽取的10 000篇作文中提升分数达到5分以上的作文。

完成一篇作文需要30分钟，修改一篇作文需要20分钟，参与活动的学生，平均一篇作文花了近3个小时，作文分数提升了约4.5分。

图5和表3表明，各类院校学生有效修改作文的修改次数基本在20次以上，分數提升基本在10分左右，修改行为较为频繁且效果显著。相较于整体作文的普遍修改情况，有效修改作文的初版作文分数普遍较低。这说明，基础较差的学生也能够通过人机互动在自主学习过程中实现自我提升。从修改效果上看，中学生及高职学生有效修改效果与整体修改效果的差异较大，说明该学段的学生通过人机互动学习，自我提升的空间更大。

五、未来发展趋势及影响

（一）语言智能评测产业的未来发展趋势

语言智能评测是教育产业对人工智能技术的必然要求。该评测领域未来发展将呈现如下趋势：

1. 应用普及化

语言智能评测将成为一种常规的语言评测技术辅助手段并被应用和普及。一方面，使用人群不再局限于在校全日制学生，也可以应用到继续教育领域，直至终身自我学习；另一方面，评测内容不再仅限于学校教学中的命题作文，还将应用于所有篇章语言评测中。

2. 人机拟合同质化

目前，精度最高的英语智能评测（批改网）的人机拟合度超过90%，随着技术进步，拟合度将进一步提高，甚至达到与人工评阅的准确度基本一致。

3. 语种多样化

国内语言智能评测率先在英语测试中得到应用并且已经商业化，下一步将攻破汉语作为第二语言，甚至汉语为母语的评测，以及国家重点战略部署需要的其他语言，比如日语、法语以及“一带一路”沿线国家的语言评测等。

4. 产业国际化

语言智能评测技术不仅仅服务于国内需要，也可以进一步服务于国际需要。目前批改网已经在新加坡、马来西亚、中国台湾等国家和地区初步投放使用，国际合作有着更广阔的空间。

（二）语言智能评测系统对教育领域的重要影响

语言智能评测系统以其评测拟合度高、反馈速度快且教育成本低等优势在母语学习和二语学习过程中对语言技能训练和语言能力提升起到重要作用，因而必然有广阔的应用前景。作为教育辅助技术手段，智能评测顺应时代要求，满足省力、快速和精准评测语言的需要，从而推动教学内容、教学方法、学习方法以及教育研究等一系列教育改革的深入。以“批改网”为关键词搜索，2012年有6篇论文，到2017年7月已經有201篇相关文献，递增趋势超乎想象。语言智能测评通过信息技术与教学服务、教学管理的融合，使优质教学资源和教师资源得到系统整合和深度开发，促使教育质量的最大提升，实现优质教育的均衡发展。

参考文献

高思丹袁春风 2004 《语句相似度计算在主观题自动批改技术中的初步应用》，《计算机工程与应用》第14期。

贺宏志 2012 《发展语言产业，创造语言红利——语言产业研究综述》，《语言文字应用》第3期。

江进林 2013 《近五十年来自动评分研究综述——兼论中国学生英译汉机器评分系统的新探索》，《现代教育技术》第6期。

梁茂成 2011 《中国学生英语作文自动评分模型的构建》，北京：外语教学与研究出版社。

穗志方 1998 《语句相似度研究中的骨架依存分析法及应用》，北京大学博士学位论文。

王金铨 2010 《中国学生汉译英机助评分模型的研究与构建》，北京：外语教学与研究出版社。

王金铨文秋芳 2009 《中国学生大规模汉译英测试机助评分模型的研究与构建》，《现代外语》第4期。

周建设吕学强史金生张凯 2017 《语言智能研究渐成热点2016年取得瞩目成就》，《中国社会科学报》2月7日。

周建设彭琰张跃 2015 《基于大数据的汉语表达智能模型及其理论基础》，《新华文摘》第1期。

Burstein， Jill. 2003. The E-rater Scoring Engine： Automated Essay Scoring with Natural Language Processing. In Mark D. Shermis and Jill Burstein （eds.）， Automated Essay Scoring： A Cross-Disciplinary Perspective. London： Lawrence Erlbaum Associates Publishers.

Dikli， Semire. 2006. An Overview of Automated Scoring of

Essays. Journal of Technology， Learning， and Assessment 5 （1）， 1-36.

Lambros， Cranias， Harris Papageorgiou， and Stelios Piperidis. 1994. A Matching Technique in Example-Based Machine Translation. In Proceedings of the Fifteenth International Conference on Computational Linguistics， 100-104.

Nirenburg， Sergei， Constantine Domashnev， and Dean J. Grannes. 1993. Two Approaches to Matching in Example-

Based Machine Translation. In Proceedings of the Fifth

International Conference on Theoretical and Methodological in Machine Translation of Natural Languages， 47-57.

Page， E. B. 2003 Automated Essay Scoring： A Cross-Dis?ciplinary Perspective. New Jersey： Lawrence Erlbaum Associates.

Quellmalz， Edys S. and James W. Pellegrino. 2009. Technology and Testing. Science 323， 75-79.

Williamson， David M. 2009. A Framework for Implementing Automated Scoring. Paper presented at the Annual Meeting of the American Educational Research Association and the National Council on Measurement in Education. San Diego， 13-17 Apr. 2009.

责任编辑：戴燃