新文科视域下口译教学自动测评系统建构的可解释研究
2024-08-12韩彩虹许文胜
摘要:随着全球化进程的不断推进,口译教学在新文科视域下扮演着越来越重要的角色。为了提高口译教学的效率和质量,自动测评系统被引入口译教学之中。然而,目前大多数口译教学自动测评系统在其工作原理和结果的解释方面出现了诸如模型的黑盒化、评估结果的不透明及评分标准的不明确等问题。该研究以新文科翻译学视角,通过对口译任务的要素进行分析,设计了一种可解释的口译教学自动测评系统,并基于人工智能的可解释理论分析,提出了相应的可持续性优化路径,以提高系统的透明度、可信度和准确度。
关键词:可解释人工智能;新文科翻译学;口译教学;自动测评系统
中图分类号:G434 文献标识码:A
* 本文系2022年度河南省哲学社会科学项目“可解释人工智能在口译自动测评系统建构中的应用研究”(项目编号:2022BYY023)、2022年度上海市社科规划课题“面向突发公共事件的应急语言服务研究”(课题编号:2022BYY009)阶段性研究成果。
一、引言
在全球化的浪潮中,口译作为一种高度专业化的语言技能,其教学与评估在新文科视域下的地位和作用日益凸显。然而,与传统的书面翻译相比,口译教学与评估面临着更为复杂的挑战。口译不仅要求即时性和准确性,还涉及到非语言因素,如语调、停顿、表达的自然流畅度等,这些因素都给传统的人工评估带来了难度。为了应对这些挑战,自动测评系统应运而生,并迅速成为辅助口译教学和评估的有力工具。自动测评系统利用先进的语音识别技能和自然语言处理算法,能够对口译的内容和形式进行快速而准确的评分,可以节省大量的人力成本。因此,引入自动测评系统成为提高口译教学效率和质量的必然选择。
然而,尽管自动测评系统在实践中展现出了一定的潜力,但其在可解释性方面的不足却制约了其进一步应用和发展。在传统的口译教学中,教师通过与学生的面对面交流和个性化指导来提升其口译水平。而自动测评系统作为一种人工智能技术工具,其评估结果往往难以被教师和学生所理解,导致了一定程度上的信任缺失和效果降低,并具有不透明性,常被诟病为黑盒子。2009年保罗˙汉弗莱斯(Paul Humphreys)对人工智能的不透明性进行了分析,认为“计算系统在t时刻相对于认知主体X不透明,以防X在t时刻不知道(系统)的所有认知相关元素”[1]。据此可推知,计算机系统本身从来都不是不透明的,只是对于某个特定主体而言是不透明的。为了增强用户对机器翻译的信任度和认可度,让不透明的计算系统变得透明,需要对相应的算法和原理进行合理的解释和阐释。由此,可解释人工智能(Explainable Artificial Intelligence)的概念也在国内外学者们持续关注中开始浮出水面。斯沃图特(William R.Swartout)率先以解决代码合理性问题建议充分解释人工智能系统行为[2]。米勒(Tim Miller)等将“可解释性”定义为“展示自己或其他主体做出的决定所依赖的原因”[3]。对于自动测评系统可解释性的研究旨在洞悉深度网络内部工作机制、理解模型的决策,扮演人类与深度网络模型间的接口角色,帮助人们如何构建一个可解释的网络模型以及模型的输出是否合理与可靠。针对口译教学自动测评系统的可解释性研究还处于早期阶段,主要聚焦自动测评系统的深度网络方面研究。深度网络主要是由卷积核、池化层、线性层以及激活算子堆叠而成,其中包含了大量非线性运算,难以厘清其中逻辑理路。在已有的可解释方法中,大致研究角度主要涵盖事前解释方法(Intrinsic Explanation)和事后解释方法(Post-hocExplanation)。事前角度的可解释性研究主要通过更改网络结构或调整训练过程,使网络本身具有一定的可解释性。诸如,Plumb等人在网络中加入一个可解释的正则器[4],来提高对网络输出进行归因的质量。Zhang等人在网络层次中每个神经元添加一个损失项来引导每个神经元学习的不同视觉概念[5]。Li等人在系统的神经网络中加入一个原型层[6],收集某一类别中共有的特征原型,测试图像的前向传播过程类似于人类的推理过程,若图中的特征与某一类别的原型的整体相似度高,则该图像属于这一类。Huang等人引入块分割和注意力机制,设计了一种细粒度分类的可解释性框架[7],该模型的可解释性体现在可以给出块分割图与显著性图。而事后角度的可解释性研究主要从训练好的模型出发,观测网络的行为规律、抽取网络逻辑规则或提取其他人类可解释的模式。诸如,Zeiler等人通过反卷积、反池化的方式将网络神经元输出的激活至反向映射再至输入空间,观测每个神经元在关注的图像中的特征,网络的浅层更关注图像的角、边缘等特征,而高层次更关注于更具有区分性的全局特征[8]。
综上可见,自动测评系统的出现,为口译教学带来了革命性的变革。然而,如何确保自动测评系统在评估过程中的透明度和公正性,成为了研究者关注的焦点。为厘清人工智能技术与口译教学测评手段跨学科交叉融合的理路,本研究以新文科翻译学的视角研究口译教学自动测评系统的可解释性问题,旨在通过深入分析系统构建的各个环节以及评估结果的表现形式,力求找到解决方案,以提高系统的可用性和可信度。
二、新文科视域下口译教学自动测评系统的可解释性问题
人工智能技术的突飞猛进极大推动了翻译行业的发展,催生了翻译记忆、术语管理、神经网络机器翻译等一大批新技术,引发了翻译生产模式的划时代变革[9]。新文科视域下翻译学科的创新发展可以称之为“新文科翻译学”(New Liberal Arts Translation Studies),其概念主要源于王立非等于2022年提出的“新文科语言学”(New Liberal Arts Linguistics)发展构想[10],是立足于中国维度、聚焦当前新时代国际传播语言服务问题而提出的中国模式解决方案。传统翻译学的研究主要关注人类语言的词汇、语法、语用等基础语言单元和规则,而新文科翻译学则更注重现代科技环境下的翻译问题,例如机器翻译、自然语言处理等方面的翻译问题,其内容涵盖了语言学、计算机科学、人工智能、心理学等多个领域的知识、前沿技术与方法。可以说,新文科翻译学的构想具有深刻的历史和时代背景,并随着人工智能技术的发展和应用,在很大程度上引领了翻译学迈向智能化时代,已经日益覆盖到外语学术体系建设、翻译教学和翻译测评领域,涵盖了不同领域中有关机器学习算法可解释性的研究,具有“文化性、生成性、跨学科性及社会性特征”[11]。由此推知,新文科翻译学要求口译教学自动测评系统的建构应考虑语言学、自然语言处理、机器学习、评估标准等多个方面的要求,以实现口译教学质量的自动评估和可解释反馈。因为其可解释性不足不仅会影响系统的应用效果,也限制了对口译教学过程的深入理解和改进,具体表现为如下几个方面:
(一)模型的黑盒化问题
口译教学自动测评系统的算法往往被视为黑盒,即用户无法了解系统内部的工作原理和决策过程。这种算法黑盒化使得教师和学生难以对系统的评估过程进行监督和验证,无法确定评分是否合理和可信。算法黑盒化也增加了系统的不可解释性和不可信度。在口译教学自动测评系统的运作过程中,首先需要对学生的口译录音进行语音识别,将其转换为文本数据。随后,系统会分析这些文本数据中的多种语言特征,如词汇的准确性、语法结构的复杂性、句子的连贯性等。此外,一些高级的自动测评系统还能够评价非语言特征,例如语调、停顿的适当性以及表达的自然流畅度等。通过这些分析,系统能够给出一个综合评分,以此来反映学生的口译能力。尽管自动测评系统在技术上取得了显著的进步,但它们在实际运用中仍面临着一系列的挑战。其中最为关键的挑战之一便是如何确保评分的公正性和透明性。由于当前大多数口译自动测评系统所采用的机器学习算法往往是黑箱模型,难以解释其内部的决策逻辑和评估过程,直接导致了师生对系统的信任度降低,影响其使用体验和接受程度。
(二)评估结果的不透明问题
口译教学自动评分系统的评分过程往往被认为缺乏透明度,即用户难以理解系统是如何得出评分结果的。这主要源于系统内部算法和模型的复杂性,用户往往无法准确把握评分的具体依据。另外,数据质量和标注偏差也会影响口译教学评估结果的可解性。如果系统训练数据的质量不高或存在标注偏差,那么系统学习到的模式和规律可能不准确或不全面,导致评分结果的不确定性和不可信度。口译教学自动测评系统的评估结果通常以分数或等级的形式呈现,但系统很少提供详细的解释或反馈,使得教师和学生难以理解评估结果的具体含义和背后的原因。这给教学和学习过程中的改进提出了挑战。
(三)评估标准的不明确问题
口译教学自动测评系统的评估标准往往是模糊的,反馈过于晦涩或抽象,缺乏明确的定义和解释。学生难以理解口译表现的“优秀”“良好”和“不足”,无法根据评估标准来有针对性地改进口译技能。另外,口译教学自动测评系统在评分过程中往往忽略了文化和语境因素的影响,导致评分结果缺乏准确性和客观性。口译涉及到不同语言和文化之间的转换,而不同文化背景下的表达方式和习惯可能存在差异,这些差异没有被充分考虑可能导致评分偏颇或不公正。
以上这些可解释性问题严重影响了口译教学自动测评系统的应用和推广。缺乏对评估过程和结果的清晰解释,使得教师和学生难以接受系统的评估结果,也无法根据评估结果进行有效的教学和学习。由此,基于新文科翻译学的理论框架,尝试构建具有可解释性的口译教学自动测评系统是当前研究和实践中的重要任务之一。
三、可解释口译教学自动测评系统的建构
新文科视域的涌现为口译教学带来了新的理论和方法,强调跨学科的整合和创新。这意味着口译自动测评系统的建构不仅需要考虑评估模型的准确性和效率,还需要关注其可解释性问题。口译教学自动测评系统不仅是一个技术工具,更是一个教学辅助平台,应该与口译教学的理论和实践密切结合,为教师和学生提供个性化的支持和指导。因此,在构建口译教学自动测评系统时,必须充分考虑新文科视域的要求,注重跨学科的整合和创新,以实现口译教学的现代化和智能化。
(一)口译教学自动测评系统的理论框架
口译教学自动测评系统的建构是一个复杂而系统的过程,涉及到测评每个环节和技术手段的综合运用。在新文科视域下,构建一个具有可解释性的口译教学自动评分映射模型至关重要,需要充分考虑到语言学、计算机科学以及教育学等领域的理论与实践结合,同时关注人工智能技术与口译测评手段融合过程的透明度和可解释性,进而形成基于人工智能的口译自动评分系统构念图。整体设计思路如图1所示。
首先,参照相关研究成果及标准确定口译测评系统的评分参数,包括词汇、句法和逻辑、音段和超音段层面特征。针对音段和超音段层面,采用语音自动测评方法以及HMM技术获得考生的语音特征值;针对词汇层面,采用关键词覆盖率、N元组提取、PageRank算法、文本覆盖率等方式获取考生译文的关键词、术语、语义相似度、衔接性情况;针对句法和逻辑层面,采用FDG、Chart-based parser等语法分析工具对考生译文的语法完整性进行分析;借助LISP等逻辑编程语言,对译文中的命题逻辑及谓词逻辑情况进行考察。其次,借助人工神经网络技术以及深度学习对机器进行训练。最后,采用描述性分析和相关性分析方法测试并修正口译测评系统。尤其在确定口译教学自动测评系统参数方面,包括如下两个层面特征:
(1)音段和超音段层面特征。构建由多名专业译员录制的参考答案语音语料库。交传、同传语料分别采用单声道和双声道录制,以mp3格式保存,能够体现专业译员对流利度、重音、节奏等音段和超音段、同步性等层面的准确把握。此外,收集由考生考试现场录音组成的语料,并统计考生的成绩分布情况。提取语音特征并构建语音模型。采用MFCC(Mel-Frequency Ceptral Coefficients)特征参数与PLP(Perceptual Linear Predictive)特征参数,分别用在考生的语音识别以及评估模型的构建方面。基于HMM模型(Hidden Markov Model)的概率统计法构建读音模型,作为口译评分映射指标之一,旨在判断不同考生的语音在音段和超音段层面的差异,以此来评价考生的语音情况。此外,采用音素后验概率法内置标准语音库(基于标准语音数据训练获得的标准语音模型)。根据范文裁剪后的定制语言模型进行连续语音识别,利用二元语言模型对识别结果予以解码,得到最大似然序列。
(2)词汇、语义、句法和逻辑层面特征。将关键词、术语和衔接词等的覆盖率、语义相似度、句法和逻辑结构等维度评分特征,输入到专家评分映射模型中作为技术模型,采用线性映射方法,对人工标注评分的数据库训练,以便为最终自动评分提供准备。关键词、语义相似度、术语和衔接词等维度评分特征输入,由专业译员标注参考答案中涉及的关键词集以及术语的多种表达方式,并生成词图。同时,将原文各句划分为2—3个语义单位,对照多篇最佳译文中的N元组提取(N元组匹配数量及其百分比),考察译文语义质量。关键词对齐数量,可借助词典的词对齐及模糊匹配的方法;对于考生出现的用自己的语言绕过关键词进行表达的情况,可通过文本覆盖率的方法处理,以便对关键词等覆盖率进行考察。针对衔接词,构建考生译文的词图,借助PageRank算法计算基于权重的词汇衔接,形成WLC以及依赖词性的PWLC(post-WLC)词汇衔接评价方法。针对句法和逻辑结构评分特征输入,则主要对译文进行完整的语法分析,并借助于FDG、Chart-based parser等语法分析工具对此进行处理。而逻辑编程语言,如LISP则通过命题逻辑以及谓词逻辑的方法对自然语言予以分析处理。
(二)口译教学自动测评系统的评分理据
口译教学自动测评系统的评分过程是基于口译的准确性、完整性、流畅性、文化适应性等多方面进行综合评估的。通过这些准则,系统主要采用语音自动测评方法以及HMM技术获得考生的语音特征值,与专业译员的语音进行声学差距对比。同时,基于人工智能相关技术构建口译评分映射模型,并不断训练,从多维层面全面、客观评价考生的口译水平。如图2所示。
首先,构建专业译员语料库,并通过PLP、MFCC特征参数提取其发音特征,以便训练发音模型。随后,通过识别端导入考生口译待测语音,并进行预处理,形成考生语音语料库。提取相关特征并预处理后,计算机能够自动分析出考生与专业译员发音的声学差距。同时,提取关键词、术语和衔接词等的覆盖率、语义相似度、句法和逻辑结构等维度特征,形成专家评分映射模型,不断训练人工标注评分数据库,自动获得最终得分(词汇、句法和逻辑、音段和超音段层面的分数合计)。
(三)可解释口译教学自动测评系统的构建
1.模型构建
设计一个可解释的口译教学自动测评系统模型,需要考虑到口译的核心要素和评估标准,同时确保系统的可解释性。主要针对上述关于自动测评系统的模型黑盒化、评估结果不透明及评估标准不明确问题构建了可解释口译教学自动测评系统。如下页图3所示:可解释口译教学自动测评模型主要涵盖输入、处理及输出三个模块。其中,在输入模块选用了语音和文本同步输入的正则器嵌入技术,便于追溯到评估结果的产生过程,包括使用了哪些数据、哪些特征、哪些模型和算法等。在处理模块主要添加一个损失项来引导神经元学习的不同视觉概念,考虑多个方面的口译表现评估,包括语音语调、词汇运用、语法准确性等,以全面评估学习者的口译能力,尤其是语音降噪技术与口译测评手段的结合,使得评估过程能够成为口译教学的一部分,促进学习者的有效学习和提高口译能力。在输出模块主要嵌入了反卷积、反池化的可解释技术,以成绩展示和纠正展示提供及时有效的反馈机制,便于帮助学习者了解自己的口译表现,指出表现中存在的问题,并提供改进建议。
2.数据集构建
在英语基础口译教学成绩单中,选出1 5 8条记录,每条记录中选择ECSentence Interpretation1—5的音频文件作为训练数据,共有158*5=790条音频数据。在成绩单中得分呈现离散分布:0,0.25, 0.5,0.75,1,1.25,1.75,2,2.25,2.5,2.75,3共13个类别。接着,将音频转换成声波图形,图像分辨率统一为640*640。为了能够更加准确提取波形特征,使用OPENCV(这是一个常用图像处理模块)对图像进一步处理提取边界特征,然后生成数据标签。每行标签记录分为两部分组成:第一部分为图片文件名,文件命名由记录序号和题目序号组成,这里得分是类别序号,从0—12分别对应实际得分0—3,每个临近类型相差0.25分。标签数据记录保存到train.txt中,从原始数据抽取100个数据作为验证数据,保存验证标签数据到valid.txt中。
3.模型训练
在训练模型前,首先需要打乱标签记录顺序,从中一次取出8个记录,输入模型,模型通过运算后得到预测值,直到790个数据全部计算完成,使用损失函数计算预测值与真实值之间的误差,则模型会自动朝着使误差较小的方向进行调整,最终实现尽可能多地满足预测值,这个过程就是模型反向传播。模型经过第一次自动调整后,再去在验证数据集上使用,可以等到一个预测正确的概率。这样就完成一轮数据运算,也叫一个epoch。整个训练过程进行了90个epoch运算,每经过20个epoch,模型反向传播的幅度(也叫学习率)变成原来的1/10,这就是朝着正确方向更新的幅度减小,之所以这样,是因为随着计算的进行,模型会逐渐朝着最正确的方向进行,在越接近正确值时,速度要降低一些,否则就容易更新趋于绝对化,会相应得出一个效果不理想的值。在每个epoch运算完成后,就用验证值检查一个正确率,如果正确率比上次高,就把模型记录到一个best.pt文件中,如果正确率下降,就直接略过,依此循环反复,经过90个epoch之后,把正确率最高的模型保存下来,由此,可以初步获得一种可解释口译教学自动测评映射模型。
4.实验结果与分析
如图4所示,通过使用best.pt模型文件,对整个数据集中790数据进行预测,其中,有752个圆点与曲线重合,表明模型的预测正确率达到了95.18%,具有较高的准确度,同时又以文本可视化进行了解释反馈,与预期构建目标基本达成了一致性。
实验结果表明:(1)该系统基于新文科翻译学的理论框架,能够对口译表现进行解释,包括口译中的语法结构、语义表达、语用特点等情况给予反馈,通过解释系统对这些语言现象的识别和分析过程,可以较好解决模型的黑盒化问题,增加系统评估结果的可信度和可理解性;(2)系统能够利用语言知识和自然语言处理技术对口译文本进行分析,并将分析结果转化为最终的评分和反馈,通过透明的评估过程能够较好解决评估结果的不透明问题,便于更好地理解系统的工作原理和评估结果的可信度;(3)系统的评分标准能够被解释和理解,反映新文科翻译学的观点和原则,已经包括评估口译质量所考虑的准确度、流畅度、表达能力等关键因素,能够较好解决评分标准的不明确问题。
四、口译教学自动测评系统的可解释理论分析
在新文科翻译学视域下,对口译教学自动测评系统的可解释性分析需要更加注重系统的理论框架与语言现象解释、评分标准的解释与建构、评估过程的透明性以及反馈信息的解释和指导等方面,以适应复杂多变的社会需求和跨文化交流挑战,也相应形成了多学科融合、符号主义与连接主义结合及多模态数据处理技术整合的可解释分析理论依据。
(一)多学科融合的可解释分析
基于算法的复杂度导致的模型黑盒化问题,上述系统考虑到利用语言学知识、自然语言处理技术及学习者的认知心理对口译文本进行分析,基于新文科翻译学的学科交叉融合特征,主要是借鉴解释学理论和方法,深入探讨可解释性在口译教学自动测评系统模型中的应用,提高其模型的解释性和可理解性,使可解释人工智能技术更加接近人类表达和思考方式。口译教学自动测评系统的解释性可以分别从认知心理学、哲学和计算机科学的多学科融合视角进行阐释。诸如:解释性的理论基础起源于认知心理学。其中,人类的认知系统是一个有机的整体,单独的思考方面难以对整个人类认知系统做出有效的描述。人类认知过程中,通过感知到的信息和知识体系进行思考、发现和理解新信息。因此,了解人类认知心理学对于设计并使口译教学自动测评系统有较好的可解释性是至关重要的。而解释学作为哲学范畴,强调了解和表达人类理解力和创造力、思考人类认为是真理和价值观的方式。从传统的哲学思考到现代哲学研究,解释学对于文化、社会、自然科学等领域均有深刻的影响。另外,以机器学习和人工智能为代表的计算机科学,也为口译教学自动测评系统的可解释性研究与应用提供了理论基础和技术支持。机器学习和人工智能通过把具有经验性质的信息数据提供给计算Fw3i3aKcEvc7a7fanENSSRM8lBvjPcOJouxowhbhLcU=机来实现模式的识别和处理。这些技术研究的结果可应用于解释模型决策过程中的不透明性。同时,计算机科学中的交互式技术,如可视化和对话机制,也允许用户更好地理解和控制口译教学自动测评系统。
(二)符号主义与连接主义相结合的可解释分析
基于标注偏差和数据质量导致的评分结果不透明问题,上述口译教学自动测评系统主要利用符号主义与连接主义相结合的自然语言处理技术,以处理口译文本的语言特征、语法结构和语义信息。包括分词、词性标注、句法分析、语义分析等技术,以便能够准确理解口译文本的含义和表达方式,从而进行评估和反馈。基于新文科翻译学的生成性特征,重视自然语言处理中语境和语义的复杂性,从而在开发可解释的AI算法时主动考虑语言和文化的多元性,符号主义(Symbolism)与连接主义(Connectionism)相结合的技术语言识别性,这样可以提高人工智能技术在各种不同地理、社会和文化背景下的应用效果,更好地服务于不同用户群体。其中,符号主义认为语言是由离散的符号组成的,这些符号具有固定的意义和组合规则。利用形式语言学和逻辑学方法来研究语言的本质,从而实现人工智能在自然语言处理方面的应用。符号主义的一大优点是可以理解和解释人类语言使用的规则,但它也存在一个难题,就是难以处理语言的模糊性和多义性。而连接主义则认为语言是由神经元之间的连接关系组成的。神经网络可以通过海量的语料库学得语言规律和语义联想,从而实现自然语言处理。连接主义的优点在于能够处理多义性和模糊性等语言特征,但它也很难解释语言内部的规则和逻辑。
(三)多模态数据处理技术整合的可解释分析
基于语言文化差异性导致的评分标准不明确问题,上述口译教学自动测评系统主要通过整合多模态数据处理技术,对口译学习者的口译表现进行全面评估,同时提升系统的透明度。事实上,可解释的多模态处理技术法已在多个领域的研究和应用中得到了佐证。诸如,学者朱富坤等探讨了关键数据路由路径(Critical Data Routing Path,CDRP)这一面向网络路径的可解释方法,实验结果从路径热力图可视化以及相应的预测与定位精度等角度验证了Score-CDRP方法相较于CDRP的合理性、有效性和鲁棒性[12]。卢宇等研究梳理和提出了可解释人工智能在微观、中观和宏观三个层面的教育应用模式,即检验教育模型、辅助理解系统与支持教育决策[13]。王文杰等提出了一种基于理性情感的评论情感分析算法及可解释性研究[14]。该方法利用情感理性分析和多标签学习的思想,构建了一个基于规则的理性情感分析模型,从多种角度解释了该方法分析情感的过程,提高了情感分析模型的可解释性。学者吴文梅以释意派的口译三角模式为基础,以“口译过程两阶段解读”为参照,借鉴认知心理学与心理语言学关于语言与语言表达过程的研究成果,分析口译过程的各阶段及其关系,以及其间运用的信息加工方法,构建并阐释了口译三角模型(细化版)(Interpreting Triangle Model,即IT Model[15],帮助口译教学和测评的可解释性。
总之,该可解释口译教学自动测评系统基于新文科翻译学的视角,形成了多学科融合、符号主义与连接主义结合、多模态技术融合的理论依据,关注模型可解释性、透明度和可追溯性、反馈机制、教学与评估融合等方面的要求,便于实现对口译教学的有效支持和促进。据此,通过不断的技术创新和方法改进,可以期待未来的可解释口译教学自动测评系统能够不断优化升级,不仅能够提供准确的评分,还能够向用户提供清晰的评分依据,从而在口译教学领域发挥更大的作用,不断拓展新文科翻译学的研究边界。
五、可解释口译教学自动测评系统的优化路径
新文科翻译学视域下口译中的多样性和主观性则是自动测评系统的挑战。可解释性指的是系统的决策过程能够被用户理解和信任的程度。这意味着要增强系统的透明度、可信度及准确度,需要具备持续改进的机制,根据用户反馈和实际应用情况,不断优化和更新系统的评估模型、算法和界面设计,发掘相应的优化路径。
(一)基于增强系统透明度的可解释模型嵌入路径
构建一个可解释的自动测评系统是一个多方面的工程,它需要技术的创新、教育专家的深入参与以及用户的积极反馈。尤其在训练口译教学自动测评系统进行深度学习环节,需要嵌入相应的可解释模型,便于自动测评系统不仅能够提供准确的评分,还能够向用户提供清晰的评分依据,使测评系统由黑盒化转向白盒化。
1.词向量构建的可解释性模型
在基于深度学习的机器翻译技术中,词向量是一种用于表示自然语言文本中单词的一种向量化表达方法。机器翻译模型通常会将源语言和目标语言中的单词映射到一个高维空间中的向量表示。这些向量可以被看作是单词的词向量,每个维度代表着某种语义特征。词向量在机器翻译中起到非常关键的作用,它可以帮助模型更好地理解和表达单词之间的语义关系,从而提高翻译质量。词向量的构建通常采用词嵌入技术,它将每个单词映射到一个固定长度的实数向量中。唐明等提出,Word2vec是一种通过预测单词出现上下文来学习单词向量的工具,它是一种用于实现分布式词向量学习的一种算法。它的目的就是将训练数据中的每个单词表示为向量,然后对这些单词向量进行聚类,并在聚类之间定义单词之间的相似度[16]。
2.编码与解码网络构建的可解释性模型
基于编码解码机器翻译思想:在编码网络将源语言句子进行编码,获得分布式语义表示,解码网络从源语言分布式语义表示出发解码出目标语言句子。如图5所示,实现的是一种端到端的网络模型结构。
在输入层,把源语言中的语句转换成词向量序列输入到编码网络中。在编码网络中把输入的词向量序列转换一个特定的向量值,这个向量包含了源语言句子中的信息,包括语义、词序等所有的特征。为能够同时提取到从左向右的语句上下文信息,需要使用循环神经网络(RNN)进行计算,RNN能够很好地将语义信息在网络层之间进行传递和积累,在处理语句序列的任务中表现出较好的效果。在解码网络中,通过包含多个RNN隐层和一个全连接层,在RNN隐层中,以编码网络中传递的值为起点,进行计算目标语句生成所需的信息,经过多轮计算后,使用全连接层预测出目标语言词语的可能出现概率。选出最大概率的词语来组成语句,进而完成翻译任务。
3.注意力机制构建的可解释性模型
在机器翻译技术中,最大的难点是如何解决自然语言的多义性。一句话往往有不同的解释和含义,而且同一个单词在不同的上下文中也可能有不同的词义,这给机器翻译带来了巨大的挑战。注意力机制可以很好地解决一词多义性问题。通过引入对齐权重,注意力机制使得模型可以根据源语言和目标语言之间的对齐关系,选择性地聚焦于源语言和目标语言之间的特定区域,从而能够更好地识别句子中的重要信息。注意力机制还可以实现动态选择性关注,即让模型根据输入的源语言和目标语言,动态地调整对不同词汇的关注程度。比如,使用Transformer注意力机制编码与解码网络结构模型,在WMT2014英语到德语的翻译任务上,取得明显的性能提升[17]。
(二)基于增强系统可信度的用户全过程追踪路径
在实践口译教学自动测评系统过程中,针对系统评分结果的不透明性问题,主要通过提供用户友好的反馈和解释以及强化参与反馈机制等方法进行精准施策。
1.提供用户友好的反馈和解释
为提高用户对口译教学自动测评系统的理解和接受度,主要从如下几个方面找到解决问题的突破口:一是引入多样化的反馈形式,如语音、图像、视频等,以满足不同用户的学习偏好和需求。二是利用机器学习和个性化推荐技术,为用户提供智能化的个性化建议。系统根据用户的口译表现和学习历史,针对性地给出改进建议,帮助用户更加有效地提升口译能力。三是采用实例引导式解释,在解释评价和建议时,采用实例引导式的方法,通过具体案例和示范,帮助用户理解评价标准和改进方向。例如,提供优秀口译案例的分析和比较,指导用户如何改进自己的口译表现。四是针对不同用户群体,主要进行语言普及和文化适应,确保反馈信息易于理解和接收。例如,针对非母语用户,提供简明易懂的解释,避免使用复杂的语言结构和专业术语。五是建立反馈循环闭环机制,鼓励用户根据系统反馈进行自我调整和改进,并及时反馈使用体验和需求。主要通过建立用户参与的反馈循环,不断优化系统的反馈机制和内容,提高用户的满意度和学习效果。
2.强化用户参与和反馈机制
强化口译教学自动测评系统的用户参与和反馈机制是提升系统质量和用户体验的重要途径。在提升口译自动测评系统可解释性实践中,主要采用如下方法开展:一是定期向用户发送调查问卷或反馈表,了解他们的意见和建议。主要涵盖系统的易用性、功能改进、内容更新等内容。二是创建一个在线论坛或社区,让用户分享他们的体验、提出问题并与其他用户交流,便于鼓励用户参与讨论,并提供及时的反馈。三是定期更新和沟通,及时向用户通报系统的更新内容和改进计划,让他们了解系统的发展方向,并鼓励他们继续参与反馈。四是不仅关注用户提出的建议,还要密切关注他们的实际体验。通过分析用户行为和使用数据,发现潜在问题并及时改进,并将用户反馈作为持续改进的动力,不断优化系统功能和性能,以满足用户的需求和期待。
(三)基于增强系统准确性的多源信息融合路径
口译教学自动测评系统的准确性是其核心竞争力之一。为了持续解决系统评分标准的不明确问题,主要采用多源信息融合策略,综合利用不同的信息源,提高系统评估的准确性。主要涵盖语音识别技术、文本语义分析、语境理解、专家评估与反馈、实时反馈与调整、持续学习与优化的多源信息融合。其中,语音识别技术将口译员的口语输入转换为图片形式,可以作为系统评估的基础。通过文本语义分析技术,理解口译员的表达含义和意图,便于系统更准确地评估口译员的表达是否准确、清晰。通过模拟口译不同语境的场景来提高口译准确性的评估。通过邀请口译领域的专家参与评估,提供专业意见和反馈,帮助系统发现并纠正可能存在的错误。通过提供实时的反馈,告知口译员在表达或翻译中可能存在的问题,并提供改进建议。通过深度学习技术不断学习和优化口译教学自动测评系统,结合历史数据和用户反馈,进行模型更新和参数调整,以适应不断变化的口译环境和需求。
六、结论与展望
口译教学自动测评系统的可解释性问题是当前研究和实践中的重要挑战之一。在新文科视域下,构建一个具有可解释性的口译教学自动测评系统对于提高口译教学效率和质量具有重要意义。本文该研究以新文科翻译学视角,通过对口译教学自动测评系统建构的各个方面以及可解释性问题的深入探讨,提出了一系列解决方案和实现优化路径。首先,口译教学自动测评系统的建构需要充分考虑数据采集、特征提取、模型训练和评估指标设计等方面,以确保系统的基础和功能完备。其次,口译教学自动测评系统的可解释性问题主要表现为模型黑箱化、评估结果不透明和评估标准不明确等方面,需要通过透明数据处理、特征解释性、模型可解释性、评估标准明确化、结果反馈机制以及用户参与设计等途径来解决。通过对口译教学自动测评系统的可解释性问题进行深入分析和探讨,可以为口译教学自动测评系统的设计、开发和应用提供重要参考,促进口译教学的现代化和智能化进程系统的透明度、可信度和准确度。未来,我们需要将继续关注口译教学自动测评系统的研究和实践,不断探索更加有效和可解释的方法,为口译教学的发展贡献更多的思想和力量。
参考文献:
[1] Paul Humphreys.The Philosophical Novelty of Computer Simulation Methods [J].Synthese,2009,169(3):615-626.
[2] William R.Swartout.XPLAIN:A System for Creating and Explaining Expert Consulting Programs [J].Artificial intelligence,1993,21(3):285-325.
[3] Tim Miller.Explanation in artificial intelligence:Insights from the social sciences [J].Artificial Intelligence,2018,267:1-38.
[4] Plumb G,Al-Shedivat M,et al.Regularizing black-box models for improved in terpretability [J].Advances in Neural Information Processing Systems,2020,33:10526-10536.
[5] Zhang Q,Wang X,et al.Interpretable cnns for object classification [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(10): 3416-3431.
[6] Li O,Liu H,et al.Deep learning for case-based reasoning through prototypes:A neural network that explains its predictions [C]. New Orleans:Proceedings of the AAAI Conference on Artificial Intelligence,2018.
[7] Huang Z,Li Y.Interpretable and accurate fine-grained recognition via region grouping [C].Paris:Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020.8662-8672.
[8] Zeiler M D,Fergus R.Visualizing and understanding convolutional networks [C].Beijing:European Conference on Computer Vision,2014.818-833.
[9] 王均松,肖维青等.人工智能时代技术驱动的翻译模式:嬗变、动因及启示[J].上海翻译,2023,(4):14-19.
[10] 王立非,栗洁歆.主动服务高质量发展,加快建设中国特色“新文科语言学”[J].北京第二外国语学院学报,2022,44(1):3-10.
[11] 韩彩虹,许文胜.新文科语言学视域下的外贸口译职业能力调查及智能对策——基于中国边境区域外贸从业人员的调研分析[J].外语电化教学,2023,(5):25-31+105.
[12] 朱富坤,滕臻等.一种语义引导的神经网络关键数据路由路径算法[J].计算机科学,2024,(4):1-11.
[13] 卢宇,章志等.可解释人工智能在教育中的应用模式研究[J].中国电化教育,2022,(8):9-15+23.
[14] 王文杰,张柯等.基于理性情感的评论情感分析算法及可解释性研究[J].计算机应用研究,2021,38(2):358-362+367.
[15] 吴文梅.口译三角模型(细化版)IT Model:构建与阐释[J].上海翻译,2023,(1):66-72.
[16] 唐明,朱磊等.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217+269.
[17] 冯洋,邵晨泽.神经机器翻译前沿综述[J].中文信息学报,2020,34(7):1-18.
作者简介:
韩彩虹:教授,在读博士,研究方向为口译理论与实践。
许文胜:教授,博士,博士生导师,研究方向为口译理论与实践。
Interpretability Research on the Construction of an Automatic Evaluation System for Interpreting Teaching from the Perspective of New Liberal Arts
Han Caihong1,2, Xu Wensheng1
1.School of Foreign Languages, Tongji University, Shanghai 200092 2.Zhengzhou University of Science and Technology, Zhengzhou 450064, Henan
Abstract: With the continuous advancement of globalization, interpretation teaching is playing an increasingly important role in the field of new humanities. In order to improve the efficiency and quality of interpreting teaching, an automatic evaluation system has been introduced into interpreting teaching. However, currently most automated evaluation systems have encountered issues such as black box modeling, opaque evaluation results, and unclear scoring criteria in their working principles and interpretation of results. This study, from the perspective of new liberal arts translation studies, analyzes the elements of interpreting tasks and designs an interpretable automatic evaluation system for interpreting teaching. Based on the interpretable theory of artificial intelligence, corresponding optimization strategies are proposed to improve the transparency, credibility, and accuracy of the system.
Keywords: explainable Artificial Intelligence; new liberal arts translation studies; interpretation teaching; automatic evaluation system
责任编辑:李雅瑄