APP下载

基于ELAN软件的多模态语料库的构建研究
——以医护英语为例

2022-04-01

关键词:建库医护语料

蔡 莹

(宣城职业技术学院, 安徽 宣城 242000)

1 研究背景

随着“互联网+”时代的到来,大数据、区块链、人工智能等技术发展日新月异,教育的信息化手段也发展迅猛,尤其对于当代大学生而言,“视觉化”学习已然占据学习中心,仅仅依赖书本单一媒体无法展现教育教学的全貌。尤其是针对语言学习而言,话语本身、文字、手势、表情、情感、周围环境交织在一起,构成“多模态”交际情景,而包含以上不同要素的多模态语料库开始发展壮大。

国外比较知名的多模态语料库有BNC、CHIL、VACE、SIMILAR,语料范围包含人机对话、电视新闻和课题教学、患者诊治等方面,研究目的主要有:1)通过学习人类话语、动作以及表情等实现自然的人机互动;2)提高学习效率(会议、课堂等)。[1]

国内多模态语料库虽建成较晚,但近几年也迅猛发展,目前以建构主义和情景认知等理论为基础的多模态语料库,采用音频、视频等多媒体素材,客观真实地展现语言使用的全貌,如“现场即席话语语料库”“理工科大学生英语口语多模态语料库”“英语教育教学语料库”“多模态口译语料库”“当代英语教材专用语料库”等等[2]。以上语料库多为通用英语(EGP)语料库,但是经过转写标注切分的专门用途(ESP)的语料库还不多见。用于专门用途的多模态语料库不仅仅要具备通用语料库的特性,还需涵盖相应的学科专业知识,以笔者研究的医护英语多模态语料库为例,语料本身会涵盖医疗康复检验等各个方面的专业知识,所以在构建语料库之初,除需英语专业的人员以外,还需医护、计算机等专业的人员,共同完成语料的筛选。构建多模态语料库能够形象直观地呈现教学内容,改变传统的翻译教学模式,使学生能够身临其境地学好英语,成为提升医护英语教学效果的重要改革方向。

2 医护英语教学现状

笔者为本研究项目做了前期调研工作,向宣城职业技术学院(后简称宣职院)2018级730名护理专业学生发放“2018级护理专业医护英语学习现状以及职业需求调研”调查问卷,并已发表文章《医护英语教学现状及职业需求实证调研和建议》。从调研结果来看,目前医护英语教学存在教学形式单一、信息化水平不高、学生参与度低等突出问题,究其原因有三:一是教学团队缺乏专业的软件辅助、线上线下混合式教学未能达到预期目标;二是仅仅依靠现有的教学手段无法展现医护英语教学的全面;三是由于医护英语词汇更新速度快,教材的真实性和时效性存在缺陷,学生当下的学习往往处于滞后的状态。

因此,本课题通过理论研究、结合实证分析、依托软件检索技术拟构建医护英语多模态语料库(包含视频、音频、文本等),从而实现学生自主检索、充盈知识的目的,提升学生学习的积极性和自主性。

3 多模态语料库的理论框架

3.1 建构主义理论

建构主义理论(Constructivism)由瑞士心理学家皮亚杰(J.Piaget)[3]最早提出,其内涵要义在于强调学习者的主观能动性和教师的指导作用,教师角色转变为学习过程的协助者,而非常规意义上的传道者,与之相对应的是学习者变为知识获取过程中的主体,而非驱动的对象;在皮亚杰看来,理想的学习环境(包括四个阈值:情境、协作、交流和意义建构)有利于学习者收集和分析学习资源,发挥其主动性、积极性和创造性。

3.2 数据驱动学习理论

数据驱动学习理论(Data-driven Learning or DDL)发展已有近30年历史,最早由Tim Johns在1991年提出[4],从理论内涵来看,它实际是建构主义理论的再发展,同样强调学习者的主体地位和教育者的辅助地位,不同点在于它是基于语料库等数据,让学生自主检索语料库数据、归纳总结语言使用现象。相较于传统教学,数据驱动学习更加能够刺激学习者的内需,也由于真实语料的输入,使得语言教学更加贴近真实情景。

以上两种理论以及基于这两种理论发展起来的多模态话语分析理论另加上系统功能语言学,共同为构建多模态语料库奠定了坚实的理论基础。

4 医护英语建库过程

4.1 语料库建库原则

医护英语多模态语料库的建库原则首先要遵循一般语料库的建库原则,常规而言分为五大建库原则:1)目的性原则;2)代表性原则;3)自然性原则;4)标准化原则;5)效度、信度和一致性原则[5];除以上基本原则以外,医护英语多模态语料库的建库还与它的使用者密不可分,如宣职院主要以医护专业的师生为主,因此在建库之初,还要考虑到语料的专业性、实用性、真实性以及典型性。

4.2 建库平台

本研究采用马普心理语言学研究所(Max Planck Institute for Psycholinguistics)设计开发的ELAN(Eudico Linguistic Annotator)多模态标注分析软件(1)软件来源:https://archive.mpi.nl/tla/elan。,选用2020年发布的最新版本6.0(界面如图1),相对于其他标注软件,Elan软件免费供使用者下载,能兼容多种音视频播放格式,可以进行转写和多层注释,并可以实现语料的关键词检索和精确定位等,可兼容多种软件标注后的后续操作;除语言以外也可以对非语言(伴语言、体势语)进行多模态研究。该软件还可以让学生根据自身水平检索相应的医护英语语料库,在真实情境下训练对话、习作以及听力能力。

图1 ELAN软件界面示意图

4.3 语料收集

语料库的收集主要来源于以下三大模块:1)40%为广为流传的医疗影视作品,如《实习医生格蕾》《芝加哥医院》《急诊室的故事》《夜班医生》《护士当家》《良医》《豪斯医生》等;2)40%为高校医学公开课、讲座、视听说教材视频;3)20%为医护英语课程教学实录。这些数据可以较为真实地反映医护工作实景,调动学生学习的积极性和主动性。计划建库总时长约60小时,由于篇幅原因,本文以一次医护英语课程教学片断为元数据(时长约为10分钟)进行多模态语料库的构建,以展示语料库在提高学生英语视听说方面的作用。

4.4 语料预处理与导入

首先,除在电脑端安装ELAN 6.0版本以外,还需安装VLC media player,这是一款将视频中的音频单独拨轨的软件,因为分析视频的同时,还需要分析音频,而将视频导入ELAN时仅有画面而没有声音,通过VLC media player key可以将需要分析的视频转换为.wav格式的文件(建议文件名与视频名保持一致),将音频文件与视频文件保存在同一文件夹,以便分类整理。

第二步,在ELAN软件中导入同一名称的音频和视频文件,此时,可以同步播放音频和视频,在未做后期处理之前先将文件另存为.eaf格式,与音频视频使用同一名称和同一文件夹,方便后期进行整理。

第三步,按照以上步骤导入ELAN的语料笔者称之为“原始语料”即未经深加工的语料,也称为“元数据”,一般来说,“原始语料”内容繁多、时长长、占存大,所以还需下一步的筛选。至此,完成了多模态语料的预处理和导入。

4.5 切分与标注

多模态语料的切分与标注是整个多模态语料库建库中的核心环节,也是最耗时耗力的环节,因为全过程依赖人工完成,视频设计的层数越多,需要花费的时间也就越长,然而研究者不可能将所有的视频信息都转换成数据,而是依托研究需要和建库目的。以医护英语课堂实录的视频为例,研究者研究的重点为师生话语、行为的互动以便进行教学反思和跟踪学生英语口语发展,所以在切分和标注环节围绕以上主题进行任务分割。

首先需要对语料进行切分,在ELAN 6.0软件分割模式下将课堂实录语料分割成单元句,此处的切分并不是以语句的长短为标准,而是该语句在课堂中的具体功能。比如在教师话语中,“Have you finished reading this paragraph? If yes, let’s draw a mind-map together to make the construction clearer, OK?”虽是两句话,但是从功能上是一致的,即“过渡”或者称之为“承上启下”,可以作为一个切分单位,在标注模式中可按照功能标注为“Transition”。多层标注(tier)是多模态语料库建库中的重要环节,标注完成后的语料可以方便使用者进行检索。课堂实录的标注主要分为教师活动(Teacher Activity)学生活动(Students Activity)外部活动(Environment)三大类,再细分为言语和非言语,其中教师言语可按照其功能标注为Introduction(导入)、organization(组织)、explanation(解释)、inspiration(引导)、reflection(回应)、conclusion(总结)等;非言语部分可标注为head movement(头部运动)、hand movement(手势运动)、facial expression(面部表情)、gesture(手势)、posture(身体姿势)、PPT(幻灯片)如图2所示,每次播放影片只能标注其中一层,标注的符号要提前制定好,比如手势层,笔者选用GL、GR、GU、GD(左右上下)等标注手势的不同方向。

图2 ELAN 6.0课程实录标注示意图

切分、标注完成之后的数据会以文件名.eaf的格式进行存储,存储目录分成第一层级:课程名称,第二层级:授课时间,第三层级:授课内容,按照层级进行存储便于教师快速进行检索,从而达到教学反思或课堂行为分析等目的。

医疗影视作品的转写和标注有所不同,相较于教室环境,医院环境人员复杂,突发因素较多,如果一一标注则费时费力,也不大可能实现,本研究主要侧重医护人员在工作环境中的语言要素(语音、词汇、句法、语用层面)和非语言要素(表情、目光、身体姿势、情感状态等),而患者或者其他工作人员的切分和标注另做研究。

5 讨论

目前针对宣职院师生构建的小型多模态语料库还在构建完善中,建成之后的语料库有望实现以下几点应用。

1)强大的检索功能更准确的辅佐“教与学”:语料库自身最强大的功能就是中心词索引,只要输入中心词,它就会定位到符合条件的语言素材,为学习者提供了大量真实使用的素材,而多模态语料库除文本素材以外,还能检索视频、音频,训练学习者视听说的能力,丰富语言知识,文化背景,更能够展现生活职场情境,方便学习者进行自主探索,发现并总结语言使用规律,从而改变自上而下的教学方式,建立自下而上归纳式学习模式。

2)资源丰富,满足学习者随时可学,随处可学:多模态语料库整合了多种在线英语学习资源,结合学生医护这一专业背景,拓展了医护英语知识的广度和深度,由医护专业老师把关专业性和实用性,实现学生随时随地在线学习,不受时间地点限制。

3)大数据定位核心词汇,举一反三:和其他多模态语料库不同,医护英语的语料库专业词汇多,根据词源学规则,学习者通过检索,可以统计词汇出现频率,把握核心词汇的用法和搭配,便于记忆和使用。

4)及时反馈,便于更好地服务教学:教师能够更加真实地了解学习者的需求和知识薄弱点,比如通过大数据分析出检索最高的词汇、播放次数最多的影片和音频,便于及时调整教学内容和重难点;另外,教师可以通过观看课堂教学实录,分析自身教学内容、教学策略的不足,不断完善教学过程,做到教学相长,不断进步。

6 结语

使用多模态语料库为辅助医护英语教学开辟了一条崭新的道路,它改变了学习者一味听、教师一味教的局面。学习者在检索的过程中不断归纳总结,搜寻出语言本身的规律,从真实、及时更新的语料库中掌握到与时俱进的医学资讯和知识。由于语料库除语言类素材还囊括非语言类素材,比如:声调、语调、手势、身势、面部表情等,单模态的表达往往词不达意或者造成误解,通过分析多模态话语之间的不同关系(补充、强化等),确定表达者的真实意义也对学生今后走上工作岗位后处理人际关系(医护之间、护士和病患等)有帮助;对于教师自身而言,能够在一定程度上解决语言类教师医学专业知识薄弱的问题,由专业技术教师筛选出专业语料,确保了语料的真实性和严谨性。

本研究依然有很多不足之处亟待解决,如在切分、标注过程中主观性较强,研究团队标注标准未能做到完全统一,尤其是非言语因素的标注;收集的原始语料不够本土化,很多语料来自英语国家的影视作品和公开课,部分内容和观念不适合本土学习者,在构建之初应该进行删减和调整。

总体而言,多模态语料库的研究具有其独特的魅力,除语言学习以外,在计算机、医疗康复等领域也有着巨大的潜力。

猜你喜欢

建库医护语料
医护一体化结合快速康复外科模式在脑动脉瘤介入栓塞治疗中护理干预效果
海量标注语料库智能构建系统的设计与实现
工银医护无界卡一份对医护者的关怀
抗疫医护共赴樱花之约
破茧而生 近代中国女西医护的养成之路
浅谈视频语料在对外汉语教学中的运用
可比语料库构建与可比度计算研究综述
交通规划数据库道路红线规划建库规则
高校图书馆回溯建库探微
六安市宅基地确权数据库建库研究