信息技术辅助下医疗对话口译中的注视分析
2021-11-10张继飞袁小陆
张继飞,袁小陆
(西安邮电大学 人文与外国语学院,陕西 西安 710121)
医疗口译作为社区口译的分支,通常是在对话的交际过程中发生,亦即译员需要在异语双方面对面的互动交际中双向传译对方的对话[1]。最早出现于20世纪八九十年代西方的公共服务社区[2],此后逐渐得到国外组织机构和学术界的关注。对会话研究[3]和译员身份[4]的已有研究推动着医疗口译的社会性探索,言语和非言语信息正是社会人际交互过程中的重要信息,而医疗口译员准确传递这些信息可以保证医患之间的有效沟通。
国外很早便开始关注医患之间的非言语信息交流,研究主要讨论的是无译员协助下医患交流中一些肢体动作的指代含义[5-7],较少关注注视在交际过程中发挥的作用。注视作为社交互动的组成部分,是一项很重要的非言语提示,人类可以从注视中推断出他人的意图[8]。在国内,因受限于医疗口译市场和语料的收集和研究进度远落后于国外[9],已有的研究主要是对口译成果的分析,包括身份探讨、策略应用等[10-12],对过程研究较少,鲜有注视在医疗对话口译中的研究。
信息技术的发展使得口译过程研究成为可能。针对上述不足,为了更好地促进医患之间的交流,拟利用多模态分析软件ELAN,全面展示如何借助软件分析医疗对话口译过程中的言语和以注视为主的非言语信息,拓展未来值得继续研究的方向。
1 基本问题描述
1.1 技术辅助下的口译研究
数字化技术的革新打破了纯言语单模态研究的束缚,多模态分析软件ELAN近年备受广大研究者青睐。口译方面,我国仍处于起步阶段,相关研究甚少,刘剑和胡开宝讨论了如何用多模态分析软件ELAN建口译语料库[13],杨柳燕尝试将该软件应用在口译笔记研究中[14],刘剑和陈水平借助ELAN研究了同传中语音拖长现象[15],但是至今还没有应用到对话口译。
1.2 口译中的注视
多模态口译涉及多方面的信息,注视便是其中之一。如前所述,注视在口译中的变化是认知变化的表现。认知负荷一旦发生改变,译员就会表现出眼神移动和动作转变等[16]。关于对话口译中的注视研究,Mason认为注视可以表示跟踪话轮、表示理解或不解[17],Vranjes等借用眼动追踪仪研究了校园咨询情景下注视对回应的影响[18],但是仍缺少医疗对话口译情景下的注视研究。
1.3 技术辅助下的医疗对话口译研究
通过传统观察法,Health和Rowbotham等已经说明了各类肢体动作等非言语信息在医患交际中的重要性[5-7]。在现代技术辅助下,Gerwing和Li用ELAN软件进一步探究了肢体动作在医疗对话口译过程中发挥的作用,经分析发现,肢体动作确实可以被视作理解译员译文的窗口[19]。遗憾的是,两位学者也没有借助软件进一步开展注视研究。
综上所述,借助多模态分析软件ELAN开展口译过程研究,以一次基于译员辅助的医疗会诊录像为例,展示在医疗口译过程中,如何利用软件研究非言语信息——注视在医疗口译中的作用。选取的探索问题包括译员加医患三方在沟通过程中呈现的注视转移模式以及三方表现的注视特征。
2 数据处理与方法
2.1 数据来源
研究材料节选自2017年译员为语言不通的外方医生和本地患者提供口译服务的一段视频录像。视频中的参与者包括一位经过医学口笔译专业训练的译员,一位来自德国的获博士学位的外科专家,资深医师,还有一位中国本土患者,完全不懂英文,讲的是方言,因此,其旁边还有一位本地负责他病情的主治医师。考虑录像制约,此医生作为实验条件出现,而非实验对象。医患双方沟通的内容主要是简单的病情咨询和初步诊断,总时长258 s。
2.2 研究方法
2.2.1 研究工具
ELAN是一款多由荷兰Max-Planck开发的多模态建库工具,其可以用来分层标注、转写、切割视频或音频文件里的内容。ELAN在操作上十分便捷,相比其他软件具备以下几个显著的优势:时间刻度精准到了毫秒,提升了时间指标的精确度;层与层之间可以是相互独立、并列和嵌入的关系;具有强大的检索功能,也就是说研究人员可以快速地查找或替换之前标注的内容。此外,ELAN作为一款多模态语料库分析软件,可以被用来标注多维度信息,包括言语文本信息、非言语信息如注视和肢体动作及音频信息如音高等。考虑医疗对话口译中既有言语信息,又有非言语信息的传递,这一优势可以发挥在医疗对话口译的研究当中,借助ELAN这一信息技术,医疗对话口译可以从不同的视角研究。
2.2.2 数据导入
首先,将存储视频另存为.mov格式,借助其他软件将视频另存为.wav格式的音频。其次,将另存的视频与音频一起导入ELAN软件,如图1所示。
图1 标注界面展示
2.2.3 数据处理
视频的标注与分层,关于用ELAN做视频标注,有学者提出用于对话口译分析的多模态资源应该包括文字文本信息、语音特点信息、视觉符号如注视和动作等及语境信息如特定文化等[20]。该研究内容主要在于言语文本与注视分析之间的内在联系,针对研究内容进行了5层标记,分别命名为源语(Source Language,SL),目的语(Target Language,TL),译员注视(Interpreter’s Gaze),外方医生注视(Foreign Doctor’s Gaze),患者注视(Patient’s Gaze)。值得说明的是,考虑真实场景因素,此次医疗对话口译中还有一位中方医生参与,因此,注视标注与分析中也将中方医生纳入了分析。为了方便标注,缩略词“INT”表示译员,“FD”表示外方医生,“PT”表示患者,“DD”表示国内医生。在源语和目的语层,按照实际内容标注,凡是发言人或译员产出的都会被记录,以音频轨道中有连续发音轨迹的内容为一个单位,发言中间出现停顿未发言,则不标记,如外方医生说“Is there something if he...”,接着停顿了几秒,继续说后续内容,这种情况前后内容不能被标注到一起,需留出空白。在参与者的注视层,按照实际眼神交流情况标注,眼神转移一次为一个单位,标注命名则借鉴前人做法[19],包含3层信息:一是注视序列号;二是注视发起者与指向对象;三是听谁或向谁说时发起的注视,对于沟通过程中存在的特殊注视点则会单独备注,如标注信息“Gaze6:INT-PT[Speaking to PT]”指的是第6次注视转移、译员在看患者、译员正在对着患者讲话。
2.2.4 数据导出与筛选
标注完毕后,再检查一遍,确保信息没有标注错误,利用ELAN自带的统计功能,将标好的数据按照分层类别输出另存为.csv格式,借助Excel整理统计。
为进一步研究三方交流过程中特殊注视点所发生的情景,借助Matlab进行了非言语信息与言语信息的关联检查筛选,程序分为以下6个步骤,如图2(a)所示。
步骤1读取通过ELAN所获取的“注释.xlsx”文件中的所有数据,并将其中的数据保存为数字矩阵,文本保存为cell矩阵。
步骤2对获取的数据进行筛选,剔除数据矩阵中的非数字部分,删除cell矩阵中的无关信息。
步骤3根据“注释.xlsx”文件中所标注的特殊注视点,筛选出特殊注视所在的时段,生成医患与译员三方特殊注视时间矩阵。
步骤4令文本时间为t,特殊注释时间为t′,设置选择参数a,通过a对特殊注释与文本进行匹配,具体匹配机制为|t-t′| 步骤5通过历遍步骤4中所生成的数字矩阵生成一个仅包含“0”与“1”的cell矩阵,并在历遍完成后与步骤1中所获取的文本cell矩阵合并。 步骤6将所获得的cell矩阵按照“外方医生/译员/患者特殊注视-源语/目的语”分别保存在“结果.xlsx”文件中。 图2 操作流程示意图 需要特殊说明的是,选择参数a对于特殊注视点与文本的匹配至关重要。选取过小的a会导致部分时延较长的特殊注视点没有文本与之匹配,过大的a则会导致出现文本数量多于特殊注视点数量。为了确保程序的准确性,通过编写Matlab程序对a的大小进行选择,具体步骤如图2(b)所示。 步骤1从选择程序中获取生成患者特殊注视时间矩阵与译员特殊注视时间矩阵。