国际中文教育智能技术应用及趋势研究
2025-02-13王治敏王一帆徐悦
[摘 要] 近年来,智能技术逐渐运用到国际中文教育领域,在语音识别、文本生成、知识图谱、虚拟现实、大数据分析等技术的赋能下,国际中文教育领域正涌现出越来越丰富的产品及应用。本文综述了国际中文教育智能处理的相关技术,通过智能技术赋能教学资源研发、赋能教学实践与测试、赋能教学平台开发等三大维度,梳理了技术在国际中文教育领域的实践与开发。提出了国际中文教育和智能技术深度融合的新基建、新业态、新模式,进一步总结并归纳出技术赋能国际中文教育数字基础设施,推动国际中文教育转型,催化汉语国际教育产学研结合的发展趋势。
[中图分类号] H195.3 " [文献标识码] A " "[文章编号] 1674-8174(2025)01-0009-13
1. 引言
推进教育数字化是加快建设教育强国的重要内容。党的二十大报告提出“推进教育数字化,建设全民终身学习的学习型社会、学习型大国。”习近平(2023)指出“教育数字化是我国开辟教育发展新赛道和塑造教育发展新优势的重要突破口。”教育部制定了“教育信息化推动教育高质量发展,以高水平教育信息化引领教育现代化”的发展目标。②
具体到国际中文教育领域,马箭飞(2022)提出了“坚持标准引领、强化支撑能力、完善资源供给、加强多方协同”的国际中文教育信息化建设发展方向。崔希亮(2023)认为技术改变了传统的语言教学模式,现代教育技术可以帮助我们实现多元化教学的目标。赵杨(2023)指出随着人工智能等技术的发展,移动技术与语言学习深度融合引发了语言教学的变革,新技术与外语教学深度融合将不断催生出更具创新性的教学方法,基于大数据的移动教学工具将更具个性化。刘利(2023)提出以ChatGPT为代表的人工智能技术在变革教学模式、实施个性化教学、建设高质量教学资源、打造高水平师资队伍、实现科学评价、提升教育管理效率、助力本地化发展等方面发挥重要作用,不断促进“教师—学生—技术”之间的良性互动。
为了更清晰地展现技术发展的脉络,本文将从教学资源、教学实践与测试、教学平台开发三个方面综述智能技术在国际中文教育中的应用和影响。
2. 智能处理相关技术
教育技术是指运用现代科学技术手段改进教育过程和提高教育质量的一门综合性学科。随着信息技术的发展和教育需求的变化,教育技术也从传统的多媒体技术转型到了智能技术。目前,常用于国际中文教育的智能处理技术主要包括人工智能技术、知识图谱技术、数字化交互技术。①
2.1 人工智能技术
智能技术从算法发展和技术应用角度划分,大致经历了程序模型、概率模型和深度模型三个阶段。刘玉屏、欧志刚(2022)指出,在程序模型和概率模型阶段,人工智能以计算机辅助教学、计算机辅助学习等形式服务于教育行业,以程序化处理、结果反馈以及简单推理等为特征。进入深度模型阶段后,随着算法模型的改进和计算能力的突破,人工智能在系统化、智能化方面极大增强,能够胜任复杂推理任务,其在教育行业的应用不断深化。人工智能正在改变教育行业,为教育发展提供动力,减轻教师负担,提升学习效果,提高教育教学的质量和效率。
(1)自然语言处理(Natural Language Processing,NLP)是以语言为对象,利用智能技术分析、理解和处理自然语言的一门学科,在智能技术的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
(2)生成式AI技术使用生成式预训练变换模型(GPT-3)和基于人类反馈的强化学习(RLHF)来生成类似人类撰写的文本。其采用的大规模预训练模型有丰富的语义信息,具有代码分析和编写能力、条件建模能力和推理能力。袁羲、吴应辉(2023)总结了生成式AI技术在国际中文教育领域能够发挥的多方面作用,如:
a. 生成式AI技术可强化学生中文自学能力,优化以学习者为中心的教学模式。
b. 生成式AI技术可提升教师数字能力,助推国际中文教师专业发展。
c. 生成式AI技术可推动国际中文教学资源建设。
d. 生成式AI技术可加速国际中文教学智能产品升级。
当然,生成式AI技术也存在一些局限和风险,如生成不准确或不合适的内容、影响学习者的自主性和批判性思维、引发一些伦理和法律的争议等。因此,使用生成式AI技术时需要辩证地看待和运用,遵循一定的原则和规范,保障中文教育的质量和安全。
(3)自动化项目生成指根据开发者要求,在项目生成算法的指导下,自动地生成符合参数的项目。早期的自动项目生成主要采取项目模型法,即指将经过检验且指标良好的项目作为模板,通过改变和替换与问题解决难度无关的描述,组合形成多个新项目的过程,常被用于智能中文测试等领域。如谢小庆、许义强(1999)探索了基于HSK题库的试卷生成系统。近年来自动化题目生成(AIG)、计算机自适应测试(CAT)等新技术被陆续引入,如通过结合自动化题目生成(AIG)与计算机自适应测试(CAT)的词汇评估新策略构建了一个平衡的自动生成题目的题库,并实施了一个三参数的计算机自适应测试(Zhou et al., 2019)。
2.2 知识图谱技术
刘峤等(2016)指出,知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性—值对,实体间通过关系相互联结,构成网状的知识结构。知识图谱主要技术包括知识获取、知识表示、知识存储、知识建模、知识融合、知识计算、知识运维等七个方面。②通过这些技术的综合运用,能够帮助实现学习者个性化学习。
知识图谱技术在国际中文教育中的应用主要包括以下几个方面:
中文教育知识图谱的构建:通过从各种数据源(如教材、词典、语料库、网络等)抽取和整合中文教育相关的实体、属性、关系和概念,形成一个覆盖中文语言、文化、历史等方面的知识图谱,为后续的应用提供知识支持。如曹钢等(2023)基于《国际中文教育中文水平等级标准》构建了词汇知识图谱并用于建设词汇自适应学习平台。
基于知识图谱的中文教育问答系统:通过将自然语言问题转换为知识图谱上的查询,利用知识图谱的语义信息和推理能力,为中文学习者提供准确和丰富的答案,同时也可以生成相关的反馈和建议,帮助学习者提高中文水平。如卢宇等(2020)将教育知识图谱中的认知地图应用于“智慧学伴”机器人的开发。
基于知识图谱的中文教育认知诊断和个性化推荐:通过分析学习者的学习行为、能力、兴趣等数据,结合知识图谱的结构和内容,对学习者进行认知诊断和评估,发现学习者的优势和不足,以及潜在的学习需求和目标,然后根据学习者的个性化特征,从知识图谱中推荐合适的学习资源、路径和策略,实现因材施教和精准教育。如孙飞鹏等(2021)以HSK三级词汇为例进行了基于知识图谱的汉语词汇学习资源推荐研究。万海鹏等(2022)尝试使用知识图谱作为数据模型之一,精准定位学生的学习状态。
基于知识图谱的中文教育作文批改和生成:通过利用知识图谱提供的丰富的语言知识和背景知识,对学习者的中文作文进行自动评分、错误检测、修改建议等功能,同时也可以根据给定的主题、要求和素材,从知识图谱中选择合适的内容和表达方式,生成符合标准和规范的中文作文,为学习者提供参考和启发。
2.3 数字化交互技术
(1)多模态(Multi-modal learning)技术是综合利用多种感知模式(如文本、图像、视频、语音等)进行信息获取、处理和应用的技术。叶军(2021)指出,对语言学习来说,多模态资源加强了感官刺激,丰富了情感体验,提高了语言学习的趣味性;多模态资源的不同模态之间具有互文性,有助于学习者更加准确地把握语境信息、理解文化背景,提高对语言形式的敏感度;借助多模态资源不同模态的互补性,在不减少文本内容信息的前提下降低资源中文本的比重和难度,可以降低学习者(尤其是初学者)参与中文真实交际的门槛,增加其在交际中提升中文运用能力的机会。
(2)虚拟现实(Virtual Reality,简称VR)技术是一种先进的人机计算机接口技术,它利用计算机生成一种高度逼真的、模拟人在现实环境中进行视、听、动等行为的虚拟环境,并通过多种传感设备,使人投入该环境中,实现人与该环境间的自然交互。①
(3)增强现实(Augmented Reality,简称AR)技术是在虚拟现实的基础上发展起来的技术,是指通过将计算机生成的虚拟场景、文字注释等信息实时、精确地叠加到使用者所观察到的真实世界景象中,对人的视觉系统进行延伸和扩充。增强现实技术具有虚实结合的特性,契合了当前第二语言习得理论强调本地化、上下文学习和与现实世界的有意义联系的新思想。增强现实技术能够为学习者提供各种拟真的认知场景,提高学习效率,为学习者提供个性学习的发挥空间;在增强现实技术搭建的学习场景中,学习者不仅可以同其中的学习对象互动,也可以同其他学习者实时互动,交流经验(Cheng et al., 2012)。
3. 智能技术赋能教学资源研发
智能技术赋能教学资源研发是指利用人工智能、大数据、云计算等新技术,提高教学资源的开发、利用、评价和管理的效率和质量,为教育教学提供更多的可能性和创新性。
3.1 数据统计技术助力核心资源建设
基于数据统计的国际中文教育资源构建是指利用数据统计技术和方法,从各种类型和规模的语料库中提取、整理、分析和呈现国际中文教育所需的语言知识和语言材料,为国际中文教育的教学、研究和评估提供有效的支持和服务。
王治敏、俞士汶(2019)通过从语料库中统计、筛选、分级和分类国际中文教育常用或专业的词汇,构建出符合国际中文教育需求和特点的词汇表。首先通过设计季度时点,过滤出未连续出现在历时语料中的过时词语,发现常用的新词语,同时通过常用度提取模型,对词表中的名词进行了计算,赋予其统计信息和常用属性特征,建立了词语与历时语料的关联,发现词语的分布特点和稳定性度量。该项资源为国际中文教育的词汇教学和学习提供参考和指导。
刘华(2022)基于现有中医汉语类教材、中医专业类教材、中医网站三大语料来源,建设中医汉语语料库;利用词语聚类算法和图式语义场理论,形成中医汉语内部主题分类词簇,构建了中医汉语主题分类词表体系。
3.2 数字化交互技术构建沉浸式学习环境
随着教学理念的革新和智能技术的发展,“交互型”学习资源成为新的发展趋势。学习者与学习内容的交互通常被理解为学习者浏览阅读各种类型的学习材料的过程。当学习材料中的内容能够触发学生的评论和表达,根据学生的反馈对教学内容做出修改、补充或更新,就实现了学习者与学习内容的交互。
为了建设“交互型”学习资源,需要首先实现知识点的结构化管理、组织和跳转。在知识库技术和语义标注技术的支持下,通过改变传统纸质教材的线性结构表现方式,从教材文本中自动识别出包含的知识特征,并根据教材知识本体和教学论自动标注学习内容,能够建立全新的知识组织形式,从而根据学习的目标和学习内容自动生成学习计划,实现个性化的学习内容(武法提、牟智佳,2015)。
数字化交互技术中,虚拟现实技术和增强现实技术是未来探索和发展的重要方向。
周晓军、马君(2004、2006)基于VRML技术,综合多媒体技术,设计了情景模拟教学;此后又进行了基于VRML的远程对外儿童汉语教学课件设计,但受限于当时的软硬件条件,这些研究只对虚拟现实技术用于国际中文教育进行了初步的探索和展望。从2015年起,逐渐有研究尝试运用国外成熟的虚拟现实环境进行教学实验。自2018年起,随着虚拟现实技术在软硬件方面都取得了较大突破,国内虚拟现实技术在国际中文教育中的应用正逐步回归基本,脚踏实地和具体的学习科目相结合,取得了一定的研究成果,但研究成果以硕士论文为主,实用化程度仍有待提高。
相比国内,国外对虚拟现实技术的研究开展更早、发展水平也更高。得益于研究机构先进的软硬件设备,有能力引入较为前沿的电子设备。伦斯勒普通话项目这样较大规模的项目已经开始使用如360°全景屏幕、无标记运动跟踪传感器阵列等先进技术(Allen et al., 2019)。部分研究已逐渐开始形成较为完善的技术流程,前述伦斯勒普通话项目就将基于虚拟现实的沉浸式教学所需要的智能技术归纳为以下三个方面:
(1)智能系统。包括语音管道和手势识别。语音管道记录和转录学生的话语,并对从转录文本中检测到的意图进行标记。由骨骼跟踪设备和自定义手势识别软件启用的手势流,提供有关用户做出哪些手势的输入。
(2)多模式推理。个体模态交互包括话语的音调分析和手势识别。从组合模态推断的交互包括解释指示性话语,并结合指向手势识别意图。
(3)多模式演示。合成语音、环境音频、特效和沉浸式游戏视觉效果在前端呈现系统响应,以完成多模式通信循环。
伦斯勒普通话项目这种结合工程化、提高基于虚拟现实的沉浸式教学的工业化水平的研究方向值得国内国际中文教育界加以重视。
相比于虚拟现实技术,国际中文教育领域对增强现实技术的引入时间更晚。只有在移动设备硬件得到足够发展后,才有将增强现实技术引入课堂教学的技术基础。焦燕(2018)提出了基于增强现实技术的对外汉语立体化教材建设,Daria Sinyagovskaya等则基于增强现实技术开发了一款发音训练应用程序(Sinyagovskaya, 2021:403-408)。
除将增强现实技术用于教学资源建设外,也有不少研究尝试增强现实技术用于教学实践。温韫利用基于增强现实的汉字组合游戏辅助小学生协作汉字学习,表明了引入增强现实技术能有效提高初学者(特别是汉语水平较低的学生)的汉字拼写知识学习(Wen,Y., 2020)。张胜兰通过为期三周的课程,实践了将增强现实融入基于任务的主题语言教学单元,通过与学校商店的合作,引导学生探索发现可供交互的神秘商品和任务,教授与购物、服装、色彩等相关的中文词汇和句子结构(Zhang,2021)。陈雅音(2023)进行了基于增强现实技术的汉语词汇教学行动研究。
目前,增强现实技术已经在国际中文教育领域的教学资源建设方面取得了一定的成果,但在教学活动方面仍存在较大的研究空间。由于增强现实技术涉及与真实世界的互动,将其用于课堂之外的教学实践需要多方配合才能构建出合适的教学环境。
4. 智能技术赋能教学实践及测试
4.1 智能技术辅助教学分析
以大数据技术为代表的智能技术为记录和描写课堂教学提供了条件,使得教学系统运行过程中产生的海量数据得以保留,这些信息记录了教学发生、发展及变化的全过程。对这些数据进行挖掘和利用,所得的量化研究结果为创新国际中文教学带来了强大的驱动力。
智能技术辅助下的教学分析需要经历如下几个阶段:对研究问题进行分析,数据采集和数据诊断,数据特征收集和模型发现,对特征或模型进行分析和解释。郑艳群等(2020)通过智能技术辅助下的教学分析和教学计算,对汉语阅读教学、听力教学、口语教学、写作教学、综合课教学等课程的教学结构进行了分析,并针对教学过程建立了理论模型和应用模型。
未来,智能技术辅助下的教学分析和教学计算可以将教师的教学行为进行量化,提高教学质量评测的精准度和客观性,使个性化且全面的教学质量评价与反馈落到实处。
4.2 智能技术辅助教学纠偏
4.2.1 口语发音纠偏
口语发音作为语言学习中的一个重要环节,在国际中文教育中面临着学习者“中文难”的心理障碍问题。其中口语部分尤其难在声调,在没有环境条件的情况下,难以实时指出和发现读音中哪个音标、音调、声韵母读错、误读等情况,不能发现字、词、句、篇章哪一句话读得标准。通过AI技术,能够诊断声、韵、调等典型错误,纠正发音问题。这涉及语音预处理、评测声学模型自适应、评测特征提取及评分映射等多个环节。
计算机辅助发音训练系统的核心模块主要有发音自动评价和发音偏误检测。发音自动评价指对发音人的发音进行正面打分,适合评估学习者的整体发音水平;发音偏误检测识别学习者的错误发音,并给出改进建议,对学习者在之后的学习中改善错误发音有积极的影响。
目前主流的发音偏误检测系统都是基于自动语音识别的框架。深度神经网络近些年在自动语音识别应用中取得了较大的成功,显著降低了语音识别错误率,相比高斯混合模型,深度神经网络采用拼接帧作为输入,同时具有深层结构,比浅层结构的高斯混合模型具有更强的模型表达能力。张劲松等(2016)应用深度神经网络进行声学建模,比较Mel频率倒谱系数、感知线性预测分析系数和Mel滤波器组系数3种声学特征参数,并利用网格联合技术整合3种声学特征得到候选网格,进而实现对语音的表达。
全连接深度神经网络参数多,需要大量样本进行训练。带标注的发音偏误样本过少容易引起深度神经网络过拟合,因此,有学者尝试通过卷积神经网络来解决这些问题。如甘振业等(2020)利用深度全序列卷积神经网络和链接时序分类技术,建立了一种用于发音偏误检测和诊断任务的端到端语音识别方法;杨龙飞等(2017)应用卷积神经网络进行声学建模,通过实验证明卷积神经网络比之全连接深度神经网络检测正确率相当,虽有稍高的错误拒绝率,但是获得了更低的错误接受率。
工程应用方面,科大讯飞开发了FiF评分系统,实现了产业化应用。该系统共包含3个模型:(1)语音识别模型,用于识别被试的话语;(2)标准发音模型,用于判断发音准确度;(3)通用分数映射模型,通过收集大量按照题型区分的口语测试数据提取评分维度特征,并聘请专家对口试录音进行评分,基于SVM(Support Vector Machine)分类器和非线性回归映射算法,实现维度特征到人工评分的高精度映射(包括特征到单项分的映射)。该系统可以从发音准确度、重音、流利度、内容完整度四个维度给学生的口语表现打分,每个维度又包含若干所提取的评分特征。
4.2.2 汉字书写纠偏
计算机辅助汉字书写教学技术的任务是借助各种数字手写设备,综合利用汉字信息处理、计算机图形学、数字图像处理、人工智能、文字学等领域的相关知识,研究汉字书写规范性的智能化、自动化评判方法以及可视化的用户反馈形式。它的关注点在于评判内容(各种书写错误及书写规范)的全面性和准确性,反馈效果的直观性和启发性,最终实现学习者在无人值守的情况下进行汉字书写的自由练习。
在智能技术的协助下,目前计算机辅助汉字书写教学已从初期的单向数字化演示逐渐转向汉字书写规范性的智能评判,即标明用户在书写过程中的错误和缺陷并予以纠正反馈。其关键技术环节包括字形匹配和反馈指导。
字形匹配是指建立手写字与模板字之间的笔画对应关系。近年来,针对字形匹配技术的研究有很多成果。例如,Hu Zhihui等(2008)首先将汉字的笔画位置关系表示为属性关系图(Attributed Relational Graph),然后通过将笔段投射到坐标轴上实现书写信息的裁剪,最终建立起模板字和手写字之间的匹配关系(Hu et al., 2008:344-355);Chen Guey-Shya等(2007)根据斜率将手写字的笔画进行归类,然后与模板汉字进行匹配(Chen et al., 2007);Will W.W. Tang等(2014)使用动态规划算法进行字形匹配(Tang et al., 2014:273-276);荀恩东等(2015)提出了一种针对脱机手写字图像的字形匹配方法;安维华等(2011)提出了一种基于最优化模型的联机手写汉字字形匹配方法(An et al., 2011:283-288);吴嘉伟(2017)提出了基于松弛匹配的字形匹配算法:首先定义笔段之间的相似性和笔段之间的相容度,然后利用笔段之间的相容度对笔段相似性进行迭代调整,便可得到最大化的匹配结果。
如何从适当的粒度(笔画、部件、整字)出发进行错误反馈和书写指导,是智能汉字书写纠偏仍有待解决的课题。马乐慧(2018)提出了一种基于字形相对中心的事后评判算法,通过对各种笔画参数的差异性进行聚类分析,达到了定位手写汉字中关键书写缺陷的目的,在一定程度上实现了无人值守的评判目标。
未来的计算机辅助汉字书写教学技术,将以汉字书写规范性评判和水平评测为研究重点,以全面化、精确化和智能化为主要目标,并且拓展更多的应用场景。
4.3 智能技术辅助中文测试
语言测试是测量学习者语言能力、评估语言教学效果的重要手段。传统的纸笔测试基于经典测量理论,所有的考生无论其语言水平差异有多大,都必须在相同的时间内完成由相同题目构成的定长测验。语言水平较高的考生在回答难度较低的部分题目时无法获得有效的分数差异,而语言水平较低的考生面对难度较高的部分题目时则无法提供有效的测量信息;同时,答对相同题目数量的考生被视为具有同等语言能力,这忽视了题目难易的差别。而基于项目反应理论、借助计算机技术和网络技术实现的计算机自适应测试,则能够克服上述缺点,从而达到更高的信度。
北京语言大学谢小庆教授等从2003年开始研究计算机化HSK自适应性考试,并开发了模拟HSK考试系统和练习系统。谢小庆(1999)讨论了采用计算机自适应测试技术后,不同难度题目测试分数的等值问题,提出了共同组等值、共同题等值和分半组合等值三种方法。柴省三(2014)从理论上解释了计算机自适应测试的原理,并设计了计算机自适应测试逻辑过程。
胡韧奋等(2019)尝试了同时运用自动化项目生成技术和计算机自适应性测试技术构建词汇考试系统。通过使用多种自然语言处理(NLP)方法从大规模语言资源中自动提取属性值构建词汇知识库,制定了选词题、发音题和搭配题的具体生成流程,最后将生成的题库用于计算机自适应性测试实验。该项目表明这两项技术的结合可以有效地构建测试项目并显著降低测试成本。此外,计算机自适应性测试的测试结果可以为自动化项目生成算法提供有价值的反馈。
尽管国际中文教育在智能测试方面起步较早,但总体而言进展缓慢,目前的研究局限于理论研究和模拟测试,缺少能够落地的真实应用场景。如何将理论探索转化为工程实践仍有待进一步努力,智能测试的深入研究也需要更多的实证研究与真实测试场景提供支持。相信在未来,通过获取真实教学大数据、结合《国际中文教育中文水平等级标准》等教学大纲提出的知识内容和认知能力目标,综合运用多项智能技术的智能测试系统将有能力最大程度地自动化生成适合真实教学环境与测试场景的高质量评测项目。
4.4 智能技术辅助句法诊断
近年来面向英语学习者的作文自动批改技术发展迅速,成为语言信息处理领域应用研究的新热点,也引起了国际中文教育界的关注,并尝试开展面向汉语作为第二语言学习者的中文句法错误自动诊断。早期的中文句法错误自动诊断一般运用统计机器学习技术、规则分析方法或将两者结合。在引入深度神经网络方法后,中文句法错误自动诊断获得了快速发展。由于其效果要明显好于传统的统计建模方法,当前几乎所有的中文句法错误自动诊断研究都选择了基于深度神经网络的方法。CNN-LSTM模型(LEE, 2017:919-921)、策略梯度LSTM模型(Li, 2018:77-82)、BiLSTM-CRF模型(Liu, 2018:188-193)等技术纷纷被用于中文句法错误自动诊断,不同程度地提高了中文句法错误自动诊断的准确率和召回率。
近期,Transformer-based network architectures(如BERT,RoBERTa,XLNe,ELECTRA)在很多自然语言处理任务中取得了良好的表现,这一技术也被引入了中文句法错误自动诊断。李琳等(2022)对基于Transformer架构的双向编码表示转换模型(Bidirectional Encoder Representations from Transformers,BERT)进行了实验研究,发现池化策略对模型性能有显著提高,抽取某个编码层进行池化的效果要好于多个编码层拼接在一起进行池化的效果。李龙豪等将基于对抗性学习的ELECTRA模型用于中文句法错误自动诊断,在实验中取得了很好的效果(Lee et al., 2021:111-113)。
深度神经网络方法大大促进了中文句法错误自动诊断的发展,但中文句法错误自动诊断仍面临着缺乏足够语料的困难。目前中文句法错误自动诊断最主要的语料来源是北京语言大学所构建的HSK动态作文语料库与台湾师范大学所构建的TOCFL华语文作文语料库,所能提供的语料数量较为有限且增长缓慢,难以支撑深度神经网络模型对训练数据的规模要求。因此,学者们尝试利用数据增强技术生成训练文本。例如:韩杨超(2021)尝试通过基于简单文本增强法(EDA)的数据增强方法自动合成语法偏误数据集,取得了一定的效果。
中文句法错误自动诊断的进一步发展是主观题中文作文批改技术。主观题中文作文批改技术提供包括异常检测、多维度批改、总评与分项评语等一体化的语文作文自动评阅解决方案,还包括针对诸如文本通顺、文采、立意分析、篇章结构等难度较高的维度进行探索。科大讯飞通过语法错误诊断、篇章结构质量评估、优美表达识别等不同层面的深度语言分析拓展了传统作文自动评分系统考察的评分维度,提高评分模型的鉴赏判别能力和评分准确性,并为评分提供了更好的可解释性,减轻阅卷人力、财力负担,促进自动批改在课堂教学场景落地,辅助教师课堂教学。
5. 智能技术赋能教学平台开发
21世纪伊始,国内学者就开始关注基于互联网的国际中文线上教学。早期的线上教学软件/网站功能单一、教学效果一般。随着智能技术的发展,国际中文教育行业发挥多模态技术、虚拟现实技术、人工智能技术、自然语言处理技术和大数据技术的优势,逐步衍生出全新教学形式,各种中文教学APP和国际中文教育教学平台快速发展,极大地满足了国际中文线上教学的需求。
5.1 中文教学APP
教学应用资源主要指国际中文教育类APP。郭晶等(2021)从内容角度出发将现有的汉语学习APP分为语言要素类、语言技能类、专项内容类、专项功能类和其他五大类。其中,综合类APP最多,可为学习者提供拼音、词汇、课文学习资源,并可就听、说、读、写各技能维度进行训练。词典APP是近年来开发较多的学习平台,学习者可通过检索词汇,通过结构、例句、图片、书写汉字等方法学习词汇。专项内容类APP多面向商务、新闻等具体领域,可在学习者阅读文本资源时为其提供词汇等级、笔记等功能信息。专项功能类APP多面向口语、汉字和拼音学习,可为学习者提供专门的语言技能训练。此外,网络技术的发展也使得APP的研发逐渐走向智能阶段。语音识别技术、文字识别技术、深度学习技术等在中文学习APP中实现越来越丰富的应用。
目前中文学习APP各具特点,从呈现方式来看,中文学习APP有文本、图片、音频、视频、动画、注释、故事、游戏、对话等形式,呈现方式总体上较为丰富。从页面设计来看各具特色,很多APP设计中融入了中文传统文化元素,如熊猫、书法等。从功能上来看,大部分APP设置了练习测试,学习者针对某一主题或专项学习后,对学习内容进行检测。部分APP中设置了一定的奖励机制,激励学习者提高软件学习使用率,如“Chinese skill”“Super Chinese”等。一些APP注重用户的情感体验功能,如通过社交互动提高用户体验,但是现有APP中只有少部分设计了互动功能,交互功能的呈现以批改作业为主,提供问答互动的APP数量较少。另外,只有少量APP设计了评测功能。详见表1。
从技术应用方面来看,当前语音识别技术在中文学习APP中应用广泛,如Hello Chinese、正音万里行、Hello Daily、嗨中文、e学中文、Chinese Skill等APP都可以实现学习者录音、评测功能。语音合成技术是人机交互的关键,在APP中的应用如Chinese skill等。文字识别技术在中文学习APP中的应用也逐渐成熟,Pleco、Skritter、Art of Chinese等汉字学习APP基本已具备文字识别功能,且准确率较高。深度学习技术在APP中的应用尚不广泛,Super Chinese和SPK Chinese采用了深度学习技术,根据大数据和学习者自身情况,实现个性化的学习方案的制定。
5.2 中文教学平台
有别于过去的对外汉语教学网站,目前主流的国际中文教学平台在研发和构建时普遍都遵循着整体性原则、灵活性原则、个性化原则和资源集成原则。整体性原则指的是国际中文教学平台普遍覆盖了“课前、课中、课后”完整的教学环节并拥有集“教、学、测、评、管”等于一体的功能。灵活性原则指的是国际中文教学平台在设计时充分考虑了教师和学生主体之间的需求差异。个性化原则是指国际中文教学平台可以根据教师和学习者的不同需求,为其提供一系列精细化网络教学工具或针对性地为学习者推送学习知识和练习题目,尽可能地提高教学效率和学习效率。资源集成原则指的是国际中文教学平台除了实现“教”与“学”的功能外,还致力于为教师和学生两大教学主体提供丰富多样的教学资源和学习资源,最大可能地满足教师的教学需求和学生的学习需求。
通过对人工智能技术、大数据技术和知识图谱技术的综合运用,目前国际中文教学平台正逐步朝着满足学习者定制化、自适应学习的需求,提高课堂教学智慧化程度的方向发展,可以辅助老师全面了解每个学生的中文学习现状,便于提供更精准的教学指导,提升教学效率。其主要过程包括:
(1)对初次使用平台的学习者从学科能力维度、主题语境维度、书面表达维度建立新用户画像,更好地掌握学习者情况;
(2)在平台使用过程中对中文学习者的学习记录进行统计分析,形成汉语语言上的学科能力维度、主题语境维度、书面表达维度、阅读能力考点维度、语言知识点维度等方面的全息个人画像,进而为学习者制定符合其自身学习特征的学习路径、学习内容和测评内容,帮助学习者以最优路径达成学习目标。
(3)结合大数据处理技术和统计学分析方法,在学习者学习、测验过程中预设数据采集点,通过听说读写等几个维度反复练习,跟进判断学习者水平等级;根据用户使用习惯和学习路径,对用户使用的资源和产生的数据进行数据标注,形成因子图,产生学习和知识的推理;
(4)根据教学知识图谱,进行学习路径拓展,进而对其进行个性化资源推荐。
目前正在运营的国际中文教学平台有全球中文学习平台①、中文联盟(网络孔子学院)②、唐风汉语国际教育云平台③、长城汉语智慧云平台④、国际中文智慧教学系统⑤等。此外,近年来许多国内教育科技类公司纷纷布局国际中文教育产业,创建了包括哈兔中文网络学院⑥、悟空中文⑦、Lingo Ace⑧、Lingo Bus⑨、PPtutor⑩、Chinlingo11等一系列网络在线中文教学平台。上述教学平台的基本信息见表2。
6. 智能技术的未来趋势
目前,智能技术正向汉语教学各相关领域内部渗透,教学和研究与技术的融合日趋加深。未来智能技术将从以下三个方面持续对国际中文教育产生巨大的影响。
6.1 新基建:智能技术赋能国际中文教育数字基础设施建设
智能技术正在深刻而广泛地改变着国际中文教育。在教学资源方面,智能技术改变了国际中文教学资源的面貌,丰富了教学资源的类型与模态;在教学实践方面,智能技术加强了课堂教学的互动性和学生学习的自主性;在语料库方面,人工智能、云计算、计算机自动标注等先进技术先后被运用到语料库建设中,生成技术的应用为超大规模语料库建设提供了可能;在综合应用方面,应用多种智能技术手段的智慧教学平台不断发展,逐渐涵盖课前、课中、课后各个环节,为管理者、教师、学生等多种身份的参与者提供更便捷的服务。
未来,国际中文教育必须做好顶层设计,做好国际中文教育相关数据和过程的标准化工作,以智能技术为驱动,加强建设国际中文教育数字基础设施,打破国际中文教育在全球发展不平衡的局面,借助智能技术赋能在不同国家和区域实现国际中文教育资源共享。
ChatGPT为代表的智能语言大模型将对国际中文教育数字基础设施提出更高的要求,如何构建国际中文教育领域数据集并与通用智能语言模型融合应用到国际中文教育实践是国际中文教育高质量发展的关键所在。
6.2 新模式:智能技术推动国际中文教育数字化转型
在未来的一段时间内,如何将国际中文教育与智能技术深度融合仍是一项重要的课题。进入“十四五”以来,国家相继出台了一系列建设“数字中国”、数字经济、数字社会的规划,旨在加快信息化、数字化与国民经济的深度融合。在此背景下,中外语言合作交流中心于2021年12月发布了《国际中文在线教育行动计划(2021—2025年)》,从标准与机制的构建、相关平台建设、相关资源和课程资源建设等6个方面提出了远景规划,到2025年要基本实现国际中文教育数字化、智能化和泛在化的发展目标。①
从产业发展的角度而言,在智能技术发展的初期,业界重视算法的改进和本地数据训练;但随着智能技术的发展,对训练数据量和工程开发提出了越来越高的要求,高昂的数据成本和开发成本推动智能技术出现平台化的趋势。如ChatGPT、百度“文心一言”、科大讯飞“星火”、澜舟认知智能平台等智能技术平台都提供了企业化服务的API,为无力承担智能技术高昂的训练数据成本和开发成本的中小型服务商提供了引入智能技术的渠道。智能技术将极大促进国际中文教育的数字化转型,为国际中文教育的高质量发展提供支撑。
6.3 新业态:智能技术催化国际中文教育产学研结合
随着智能技术在国际中文教育领域的不断深入,无论是基础设施建设还是工程应用实践都对软硬件、人才、资金等各方面提出了越来越高的要求。基于此,我们认为国际中文在线教育建设应该继续秉承“共建共享”的原则,倡导广大高校、科研单位和社会力量齐发力,共同参与研发实践;加快培养一批具有国际中文教育视野和掌握智能技术的复合型人才,为国际中文在线教育提供智力支持;统筹发展国际中文教育事业和国际中文教育产业,加强产学研互动,打造具有创新性和实用性的汉语国际教育产品,将语言教育与文化、技术、经济进行深度的融合。
[参考文献]
曹 钢,董 政,徐 娟 2023 基于《国际中文教育中文水平等级标准》的词汇知识图谱与词汇自适应学习平台构建[J]. 国际汉语教学研究(1).
柴省三 2014 计算机自适应性语言测试的智能选题方法研究[J]. 中国教育信息化(8).
陈雅音 2023 基于增强现实技术(AR)的汉语词汇教学行动研究[D]. 中央民族大学硕士学位论文.
崔希亮 2023 国际中文教育的十二个重点研究领域[J]. 国际中文教育(中英文)8(1).
付可鑫 2022 留学生汉语语言技能类APP学习平台使用情况考察[D]. 华中师范大学硕士学位论文.
甘振业,周世华,曾 浩,杨鸿武 2020 基于DFCNN-CTC端到端的藏族学生普通话发音偏误检测[J]. 西北师范大学学报(自然科学版)(5).
郭 晶,吴应辉,谷 陵等 2021 国际中文教育数字资源建设现状与展望[J]. 国际汉语教学研究 (4).
韩杨超 2021 基于管道方式的对外汉语语法偏误自动诊断研究[D]. 郑州大学硕士学位论文.
焦 燕 2018 基于增强现实技术的对外汉语立体化教材建设初探[A]. 载李晓琪等(编),数字化汉语教学[C]. 北京:清华大学出版社:367-373.
李 琳,董璐璐,马洪超 2022 基于BERT的汉语作文自动评分研究[J]. 中国考试(5).
刘 峤,李 杨,段 宏等 2016 知识图谱构建技术综述[J]. "计算机研究与发展(3).
刘 华,李晓源 2022 基于语料库的中医汉语主题词表构建[J]. 华文教学与研究(2).
刘 利,周小兵,高雪松等 2023 “ChatGPT来了:国际中文教育的新机遇与新挑战”大家谈(上)[J]. 语言教学与研究(3).
刘玉屏,欧志刚 2022 本土化、多元化、均衡化:人工智能在国际中文教育中的应用探析[J]. 民族教育研究(1).
卢 宇,薛天琪,陈鹏鹤等 2020 智能教育机器人系统构建及关键技术——以“智慧学伴”机器人为例[J]. 开放教育研究(2).
陆俭明,崔希亮,李 泉等 2023 “新时代国际中文教育高质量发展与创新”多人谈[J]. 云南师范大学学报(对外汉语教学与研究版)(4).
马箭飞 2022 国际中文教育信息化建设成效及发展方向——在国际中文智慧教育工程成果发布会上的讲话[J]. 世界汉语教学(3).
马乐慧 2018 汉字书写质量的事后评判与反馈技术研究[D]. 北京语言大学硕士学位论文.
孙飞鹏,于 淼,汤京淑 2021 基于知识图谱的汉语词汇学习资源推荐研究——以HSK三级词汇为例[J]. 现代教育技术(1).
万海鹏,王 琦,余胜泉 2022 基于学习认知图谱的适应性学习框架构建与应用[J]. 现代远距离教育(4).
王治敏,俞士汶 2019 基于大规模语料的汉语教学词表更新研究——以《汉语国际教育用音节汉字词汇等级划分》名词为例[J]. 辞书研究(5).
王治敏,杨尔弘 2012 面向汉语教学的常用动词计量研究[J].语言教学与研究(1).
吴嘉伟 2017 计算机辅助汉字书写教学的交互技术及关键算法研究[D]. 北京语言大学硕士学位论文.
武法提,牟智佳 2015 交互式电子教材写作工具的关键技术与基础技术框架[J]. 中国电化教育(4).
习近平 2023 扎实推动教育强国建设[J]. 求是(18).
谢小庆,许义强 1999 HSK(初、中等)题库与试卷生成系统[J]. 世界汉语教学(3).
荀恩东,吕晓晨,安维华等 2015 面向书写教学的手写汉字图像笔画还原[J]. 北京大学学报(自然科学版)(2).
杨龙飞,解焱陆,张劲松 2017 基于卷积神经网络的发音偏误趋势检测[A] 载第十四届全国人机语音通讯学术会议(NCMMSC)论文集[C]. 378-382.
叶 军 2021 没有万能的课本,唯有万有的资源——新时代国际中文教育资源建设的几点思考[J]. 国际中文教育(中英文)(4).
袁 羲,吴应辉 2023 ChatGPT Plus给国际中文教育带来的机遇、风险及应对策略[J]. 云南师范大学学报(对外汉语教学与研究版)(3).
张劲松,高迎明,解焱陆 2016 基于DNN的发音偏误趋势检测[J]. 清华大学学报(自然科学版)(11).
张 蕊,郑艳群 2020 汉语阅读教学中图式理论应用形式考察与分析[J]. 海外华文教育(1).
郑艳群 2020 教学分析与教学计算:大数据时代汉语教学研究方法探新[J]. 国际汉语教学研究(2).
——— 1999 虚拟现实技术和语言教学环境[J]. 世界汉语教学(2).
郑艳群,陆凯英 2020 初级汉语口语课教学结构和过程理论模型研究[J]. 云南师范大学学报(对外汉语教学与研究版)18(5).
郑艳群,田晋华 2020 汉语听力教学结构和过程理论模型研究[J]. 对外汉语研究(2).
郑艳群,周梦圆 2020 汉语写作教学结构和过程理论模型研究[J]. 华文教学与研究(3).
郑艳群,朱世芳 2020 基础汉语综合课教学结构和过程理论模型研究[J]. 汉语学习(1).
周晓军,马 君 2004 一个基于VRML的对外汉语E-Learning场景设计[A]. 载张普等(编),数字化对外汉语教学理论与方法研究[C]. 北京:清华大学出版社:256-260.
周晓军,马 君,肖 静 2006 基于VRML的儿童对外汉语远程教学[J]. 系统仿真学报(S1).
Allen, D., R. R. Divekar, J. Drozdal, L. Balagyozyan, S. Zheng, Z. Song, H. Zou, J. Tyler, X. Mou, R. Zhao, H. Zhou, J. Yue, J. O. Kephart, amp; H. Su 2019 The Rensselaer Mandarin Project — A cognitive and immersive language learning environment[A]. In Proceedings of the AAAI Conference on Artificial Intelligence 33(1)[C]. Palo Alto: AAAI Press: 9845-9846.
An W. amp; C. Li 2011 Automatic matching of character strokes for computer- aided Chinese handwriting education[A]. In Proceedings of the International Conference on E-Education, Entertainment and E-Management[C]. IEEE: 283-288.
Chen G, Jheng Y, Lin L. 2007 Computer-based assessment for the stroke order of Chinese characters writing[A]. In Proceedings of the 2nd International Conference on Innovative Computing, Information and Control[C]. IEEE: 160-160.
Cheng, K.H. amp; C.C. Tsai 2012 Affordances of augmented reality in science learning: Suggestions for future research[J]. Journal of Science Education and Technology 22.
Hu Z., H. Leung amp; Y. Xu 2008 Automated Chinese handwriting error detection using attributed relational graph matching[A]. In Li, F. et al. (eds), Advances in Web Based Learning - ICWL 2008. ICWL 2008. Lecture Notes in Computer Science, vol 5145[C]. Berlin: Springer: 344-355.
Lee, L. H., B. L. Lin, L. C. Yu, Y. H. Tseng 2017 Chinese grammatical error detection using a CNN-LSTM models[A]. In Chen, W. et al. (eds.), Proceedings of the 25th International Conference on Computers in Education[C]. New Zealand: Asia-Pacific Society for Computers in Education: 919-921.
Lee, L. H., M. C. Hung, C. Y. Chen, R. A. Chen, amp; Y. H. Tseng 2021 Chinese grammatical error detection using adversarial ELECTRA transformers[A]. In Rodrigo, M. M. T. et al. (eds), 29th International Conference on Computers in Education Conference, ICCE 2021-Proceedings[C]. ICCE: 111-113.
Li, CL, Q. Ji 2018 Chinese grammatical error diagnosis based on policy gradient LSTM model[A]. In Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications[C]. Melbourne, Australia: Association for Computational Linguistics: 77-82.
Liu, YJ, HY, Zhang, MJ, Zhong, HC, Ma 2018 Detecting simultaneously Chinese grammar errors based on a BiLSTM-CRF model [A]. In Proceedings of the 5th Workshop on Natural Language Processing Techniques for Educational Applications[C]. Melbourne, Australia: Association for Computational Linguistics:188-193.
Sinyagovskaya, D. amp; M. John T. 2021 Augmented reality in Chinese language pronunciation practice[A]. In 2021 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct)[C]. IEEE: 403-408.
Tang, W. W.W., L. Hong Va, N. Grace amp; C. Stephen C.F. 2014 Detecting handwriting errors with visual feedback in early childhood for Chinese characters[A]. In Proceedings of the 2014 Conference on Interaction Design and Children (IDC '14)[C]. New York: Association for Computing Machinery: 273-276.
Wen, Y. 2020 An augmented paper game with socio-cognitive support[J]. IEEE Transactions on Learning Technologies 13(2).
Zhang, SL. Integrating 2021 Augmented reality into a task-based thematic language teaching unit[J]. Journal Of Technology And Chinese Language Teaching 12(2).
Zhou, W., H. Renfen, S. Feipeng, amp; H. Ronghuai 2019 An intelligent testing strategy for vocabulary assessment of Chinese second language learners[A]. In Proceedings of the Fourteenth Workshop on Innovative Use of NLP for Building Educational Applications[C]. Association for Computational Linguistics: 21-29.
Research on the application and trends of intelligent technologies in international
Chinese education
WANG Zhimin, WANG Yifan, XU Yue
Key words: language intelligent processing; international Chinese education; technology empowerment; digital transformation
Abstract: In recent years, intelligent technologies have gradually infiltrated the field of international Chinese education. Empowered by technologies such as speech recognition, text generation, knowledge graphs, virtual reality, and big data analysis, the field of international Chinese education has seen an increasing variety of products and applications. This paper provides a review of the relevant technologies in intelligent processing for international Chinese education. It explores three main dimensions: empowering the development of teaching resources, empowering teaching practice and testing, and empowering the development of teaching platforms, and organizes the practices and developments of these technologies in the field. The paper proposes new infrastructure, new business models, and new modes emerging from the deep integration of international Chinese education and intelligent technologies. It further summarizes and synthesizes trends in the development of digital infrastructure, the transformation of international Chinese education, and the promotion of the integration of industry, academia, and research in Chinese language education.
【责任编辑 刘文辉】
[收稿日期] 2024-08-04
[作者简介] 王治敏,女,广东外语外贸大学国际中文智慧教育研究院/中国语言文化学院,主要研究方向为国际中文教育、计算语言学、语言学及应用语言学,wangzm000@qq.com。王一帆,男,北京语言大学国际中文教育研究院,主要研究方向为文献计量、国际中文教育,wangyifan@blcu.edu.cn。徐悦,男,北京语言大学国际中文教育研究院,主要研究方向为国际中文教育、语料库语言学,202221296108@stu.blcu.edu.cn。
[基金项目] 国家社科基金重大项目“国际中文教育数字化智慧教学平台建设与应用研究”(24amp;ZD253)
① 此文为人工智能多语种处理白皮书(国际中文教育部分)改写而成。由于作者人数所限,未能加入全部参与人。这里要感谢北京语言大学赵慧周副教授、天津师范大学杨冰冰博士、厦门大学袁亮杰博士的贡献与付出。
② 教育部.以高质量发展推进学习型社会、学习型大国建设[EB/OL]. (2022-02-21).[2023-11-20]. http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/moe_1485/202202/t20220221_600942.html