二语字幕视频的权衡效应分析
2020-12-20龚兵兵
龚兵兵
(三江学院外国语学院,江苏 南京 211200)
一、引言
技术的演变和互联网的全球扩展使得信息能在世界各地的交流,视听资源层出不穷,字幕视频逐步发展成一种全球性语言学习资源,人们对字幕文本的接触和研究不断增加。字幕是一个已被使用了很长一段时间的多用途工具,占据独特的地位,它加强了语言信息的传送,增强了对音频信息的回忆和识别,使得语言内容更为突出,和声频同时展现有助于理解更复杂的信息,增强意义的输入,字幕在视听语境中可被用于不同目的。多模态字幕文本使得学习者可以接触真实的目标语文化,提高学习动力,并可兼顾学习者的不同学习风格,同时通过视觉理解和听觉理解的互动深化对整体语篇的理解效果。二语学习中,字幕视频构建了一种个性化、自主式学习环境,改进其自我学习行为,促进外语教学向以学生为中心的自我组织型学习模式转换,为学习者提供更多的语言输入与实践机会从而促进其外语学习,同时加强其学习的社会联系,提高其自我效能感。[1]尽管字幕有较强的实用性以及较高的成本效益,但字幕的实际应用更多的是依靠传统经验而不是基于实证研究之上,特别是在字幕权衡效应这一块。在多模态文本语境下,将眼动数据作为注意分配的测量指标这一方法广为认可。在认知科学、教育科学、心理语言学和实验心理学等诸多领域,眼动追踪已被用于研究认知负荷、不同通道的加工过程、注意分配等。尽管许多研究已经使用眼动追踪来分析静态阅读,相较而言,却鲜有研究采用眼动追踪来分析与动态图像和声音同时呈现的视频字幕文本的加工过程。
二、字幕的概念
影视字幕从广义上来说,指叠印在影片动态或静态的画面中的文字或以文字形式出现在影视作品中的非影像内容,它既包括影视作品里的对话等非影像内容的文字显示形式即音频信息处理型字幕(包含对话或人们说话声音的语言信息处理型和转录非对话音频如叹气声、门吱吱声等的声音信息处理型),也包括影视作品中片头主创人员名单、片中标题、内容注解(如人物、时间、地点等)、栏目题花、片尾演职员表、赞助单位等后期加工的其他解释性、装饰性及功能性文字即场景信息处理型字幕(亦称隐性字幕)。[2]场景信息处理型字幕又可分为描述性场景字幕和评价性场景字幕,常见于娱乐综艺节目,前者指站在说话者或听者的立场对出演者说话期间的面部表情或行动等说话场景等信息进行的补充的字幕以帮助观众补充理解说话内容;后者指以制作者的角度对说话内容或场景进行再解释,挖掘其更加深刻复杂的意义,使观众按照制作团队诱导的方向思想的一种类型的字幕。场景信息处理型字幕也是现下流行的“弹幕”(弹幕原指战场上由密集子弹形成的火力网,现多用在视频网站中飞过的即时评论字幕)的衍生原型。狭义上影视字幕即语言信息处理型字幕(亦称显性字幕),仅指影视作品中对白、独白、旁白等的文字转换转录或转译形式,亦称唱词字幕或人声字幕,与显示于舞台两旁或上方的戏剧作品字幕不同,它一般出现在屏幕下方。本课题的研究对象仅限于狭义上的影视字幕(下文所谈字幕均指唱词字幕)。[3]
三、两种对立观点
先前一些研究主张字幕文本处理和图像处理之间存在权衡效应,认为观看字幕视频加工需要处理重叠的三个不同平行源信息即视觉图像、屏幕字幕及音频,是一项需要相当大程度注意资源的繁重任务,它需要在文本和图像之间进行多次注意转换,对多重来源(字幕和视觉场景)复杂信息的处理需要不同的加工策略并对这些来源的信息进行整合。[4]此外,听一个非母语音频也可能意味着来自于听觉通道的潜在干扰,观众的信息处理能力有限,其处理能力可能会超载,尤其是在非同态来源传送信息时,因为这需要就不同的刺激源进行注意分配。[5]平行源信息的处理整合对认知要求高的话,注意资源在此类任务中需要被灵活分配给平行信息源,那么当注意力更侧重于字幕时,图像处理效果则较差,反之亦然,字幕处理或字幕识别测量结果和即视觉处理或视觉场景识别测量结果之间存在着权衡效应或负相关关系。[6]
但是,也有不少学者持对立观点,他们强调从认知视角来看,在观看字幕视频节目时,视觉信息和文本信息相关,图像通过提供恰当语境促进字幕理解,图像事实上不仅不会产生干扰作用,反而有时甚至起到了辅助性作用,减少了语言信道的负荷,使学习者更加容易激活认知图式,字幕和视觉场景两个视觉源的持续整合处理应该相对容易、不特别费力,阅读和视觉图像处理是高效的、半自动化的认知过程[7],且一个信息冗余但连贯的语境对阅读和视觉图像处理二者之间的协调并不构成什么大问题,这仅关乎注意力分配和信息整合方面策略的发展和应用[8]。此外,即使由于在注意资源或执行控制能力上出现个体差异,字幕处理能力较强的受试在图像处理上也更加熟练[9]。据此,字幕视频会使学习者很好地理解影视内容而不会在图像处理和文本处理之间产生显著权衡效应或不能兼顾两者,即当更多的认知资源用于字幕处理,视觉场景处理的效果将不会显著降低。[10]这也是本文所秉持的观点。由于先前研究在方法方面的局限性,相关研究未能就这一点给出令人信服的实证解释。在本项研究中将主要通过采用整合眼动数据、词汇识别和视觉场景识别等多种测量手段,系统性分析学习者对字幕视频的词汇识别、场景识别和注意分配等认知加工过程来检验这一观点。
四、研究方法
(一)研究问题和实验对象
本研究通过实验分析词汇识别和场景识别之间的关系来检验场景和字幕处理之间的权衡效应是否存在,并通过成绩测量和眼动分析的结合为字幕视频的认知加工提供新的实验证据。通过校园招募的方式,40 位来自于某高校的本科生和研究生(其中女性22 名,男性18 名,理工学科背景的20 人,文史哲学科背景的20 人,平均年龄24.1(±1.8),标准差4.37,)参与了本实验。所有受试的母语均为汉语,平均都已学了9.6 年英语,他们的裸眼视力或校正视力均正常,无色盲、色弱,对由计算机呈现的刺激材料均无阅读障碍。所有受试均未参加过类似实验也均未接触过本实验所使用的字幕视频材料,其所承担任务均在一天相似的时间进行。所有受试均自愿参加实验,均填写了实验知情同意书,做完实验后均获取适量报酬。
(二)实验材料、工具与过程
实验选用了一个15 分钟时长的视频片段。这段视频取自纪录片《戴安娜到梅根:王室婚礼的秘密》,该片段介绍了从戴安娜王妃到威廉和哈里王子的英国皇家婚礼的历史和礼仪。其字幕行长度、每行字符数和显现时间等均遵循了现有标准。字幕总共为169 句,为单行。在影视片段中,这些目标字幕均避开在开始半分钟和最后半分钟出现。根据前测,这一主题的理解难度系数适中,内容信息以一个结构简单的时间顺序呈现,字幕视频音效清晰、语速正常与视觉呈现速度适中。所有被试所使用的教学材料均是同一段内容的教学视频材料,不存在学习内容的差别 此项无关变量。
研究的主要因变量是词汇识别和场景识别测试的成绩,前者通过选择题试卷测得,而后者则通过计算机处理的识别测试获得。字幕效用和要旨理解的检验也被展开,二者是通过问卷进行,目的在于测试受试字幕的使用程度并对影视主旨的理解程度。此外,为了更好地了解字幕视频加工过程,研究还采用了眼动分析,以使我们能够在学习者观看字幕视频时追踪其视觉注意点与路径,并就其加工策略做出一些推断。字幕词汇识别测试卷通过有关目标字幕确切用语的多项选择题,评测了学习者识别字幕中呈现的具体单词或短语的能力。测试卷包括20 题,受试从四个选项中选出正确的答案,其中三个为语义上非常接近的干扰项,词汇识别测试的成绩是通过计算正确答案的比例的来获得的。该测试卷克隆巴赫系数为0.79,信度较高。场景识别测试采用了自行设计的简单识别程序。45 幅定格图像被随机呈现在电脑屏幕上,受试需通过两个按键决定呈现在屏幕上的每幅定格图像是否属于视频的一部分。回答是自控速度的。识别测试中选用的定格图像的1/3 即15 幅均选自于实验中展示的影视片段。其余30 幅图像均取自同一影片,它们没有展示过给受试且其他选项非常相似的,这些陪衬定格图像是由两位高校英语教师选定的,他们试图将目标帧和陪衬帧之间的相似性最大化。正确识别的比例即为图像识别测试的成绩。字幕效用问卷采用了五分量表,其问题主要涉及受试对字幕的注意、对字幕实用性、对字幕的理解效用、满意度等,如:受试对字幕阅读的难易度的感知(从非常困难到非常容易);受试使用字幕帮助其对影视的理解的频率如何(从没有到总是);字幕对其理解的帮助程度如何(从干扰很大到帮助很大)等等。主旨理解问卷包含涉及视频内容的20个多项选择题,目的在于评价受试是否理解字幕视频片段的主要概念、观点等。对于每个问题,受试需要从四个选项(包括一个正确选项和三个干扰项)中选择正确答案,正确答案的比例即为主旨理解测试的成绩。主旨理解问卷的信度为0.75。
此外,研究还将在线眼动追踪技术与行为实验相结合,使用Eyelink 眼动仪实时记录受试眼动数据。该系统将摄像机,红外光源等重要部件集成到显示器上,它有着相对较高的精确度和自由移动度,确保了头部运动补偿以及低偏动效果,它采用了双眼眼动追踪(即对于每个注视数据项,它同时收集两只眼睛的数据)。[11]本实验中,采样速率设定为50 赫兹(即每秒收集记录五十次凝视数据),最小注视时长设定为100 毫秒,注视半径为40 像素(即属于同一注视的所有连续注视点的有效范围为半径为40 像素的圆内)。本研究将眼动数据分成两组:一组为字幕区即阈值线以下区域,另一组为图像区即字幕区上部区域,阈值线的默认位置设定在离屏幕(1024×768 显示分辨率,刷新频率为85 Hz)顶部624 像素处(字幕区域占屏幕空间的18.7%),阈值线以上的注视被视为对图像的注视,而阈值线之下的注视被视为对字幕的注视。[12]
基本程序。进入实验室后,每个受试都被单独测试。受试会被告知相关实验过程的总体介绍和具体指导,如被告知他们将会观看一个英语字幕视频节目,然后回答关于该节目的一些问题等。受试被安排坐在显示器前带上耳机,眼睛距离屏幕大约60 厘米,在进行校准程序后,受试观看了15 分钟的字幕视频片段且不得暂停播放。观看后,受试被要求按照以下顺序填写三份问卷或试卷:字幕效用调查问卷,要点理解调查问卷和词汇识别测试卷。在完成最后一份试卷后,他们接受了计算机处理的场景识别测试。完成实验的总时间大约是40 分钟。
五、结果与讨论
本研究运用SPSS 对学习成绩和眼动指标进行综合分析,P 值采用Green-house Geisser 法校正以得出相关结论。受试表明,他们已经总是或经常使用字幕(M=4.6,SD=0.2,95%置信区间:4.3-4.8),他们表明,在影视理解上字幕对有帮助或帮助很大(M=4.5,SD=0.3,95%置信区间:4.2-4.7)。受试对字幕的视觉呈现的记忆与他们自己的报告大体一致。这些研究结果和眼动结果一起,表明受试阅读了字幕并依靠字幕理解这部影视。参加者还表明,阅读字幕容易或很容易(M=4.3,SD=0.4,95%置信区间:4.1-4.6)。受试认为跟上理解字幕视频的内容相当容易(M=4.6,SD=0.6,95%置信区间:4.1-4.9),他们判断自己对字幕视频的理解还是相当不错的(M=4.7,SD=0.2,95%置信区间:4.4-4.8)。因此,受试报告称,在字幕阅读与影视内容跟进与理解上并没有太大的问题。总体而言,受试对字幕视频任务的主观认知是相当容易。在影视主旨理解方面,受试的准确度都很高(正确答案比例为90%)。在字幕词汇识别方面,对受试来说,词汇识别测试要比要点理解问卷难度大,识别字幕中实际呈现的词汇要比回答有关视频内容的总体性、一般性问题更难,然而,正确答案的比例表明词汇识别成绩相当好(正确答案比例为85%)。在场景识别测试方面,影视场景识别正确率都很高(为87%)。总体而言,在这些不同测量方法下,受试总体理解、词汇识别能力、场景识别能力各方面成绩都很好,字幕阅读与图像处理似乎并不具有强关联性。为了进一步检验字幕处理和图形处理之间是否存在权衡效应,本研究对文本相关的词汇识别和图像相关的场景识别二者之间的相关性展开了分析,结果显示,总体而言,词汇识别和场景识别整体相关性并不显著(r = 0.07,ns)。然而,研究发现部分受试的词汇识别和场景识别之间存在显著正相关(r = 0.23,P <0.05),这与字幕处理和场景处理之间存在权衡效应或负相关也恰恰相反。该正相关关系原因在于具有更强注意能力或执行控制力的学习者个体更能同时地处理字幕信息和场景信息,而且在任务难度允许或对任务有足够实践时,这些个体差异就更易被捕捉到。研究还发现要点理解和词汇识别之间的关系是正相关,整体上刚好超过显著水平(r =0.21,P=0.06),但研究未发现场景识别和要点理解之间存在显著相关性(r=0.09,P>0.05)。
此外,在眼动方面分析对获得学习者视觉注意方向和加工策略的情况有所帮助,即通过分析学习者的注意力分配比例,研究者可以将眼动数据与其认知过程对应起来。研究发现,与上部图像区相比,对字幕区的注视(即超过100 毫秒经过充分加工能获得清晰的像的眼动行为)更多(t=-8.53,P<0.0001),对字幕区的注视次数实际高达对上部图像区注视次数的三倍多(字幕:M=168.24,场景:M=51.68)。然而,字幕区的平均注视时间①要显著短于视觉场景区或图像区的平均注视时间(字幕区:M=198 毫秒,场景 区:M=388 毫 秒,t=2.98,P<0.05)。总 体 而言,受试高达66%的注视时间花在了字幕区,而仅有剩余部分花在了屏幕上部区域。虽然研究发现受试对字幕的注视次数更多,但其在图像上的平均注视时间更长。对目标位置注视的定性分析表明,对字幕的注视更短这一现象发生在所有字幕上,而对图像区注视更长的情况则主要发生在具体的、引人注意的视觉凸显场景部分。研究还发现,总体而言,注视次数与路径长度②相关(r=0.78,P<0.05),但进一步分析发现只有字幕区的注视数量和路径长度之间的显著相关性(r=0.90,P<0.05),而图像区则并非如此(r=0.28,P>0.05)。这表明,眼球运动主要集中于字幕阅读,而在视觉场景分析中的眼球运动只占小部分,即受试对字幕的注视多于对屏幕上部区域的注视。研究也发现,注视数量和视觉转换次数③之间存在正相关关系(r= 0.58,P<0.05)。更具体而言,字幕区和图像区之间的转换次数与对屏幕上部图像区的注视数量有关(r= 0.63,P<0.05),对视觉场景注视数量更多的受试显然会做出更多的从字幕到图像信息的视觉转换。研究表明,对屏幕不同区域的注视次数、平均注视时间、路径长度、字幕区和图像区之间的视觉转移等眼动测量数据和对字幕词汇识别与场景识别的行为测量二者之间不存在显著性关联。研究结果清楚表明,受试字幕视频认知处理中的一个突出表现就是,即使其对视觉场景的注视时间不到40%,受试在场景识别或定格图像识别任务中仍然表现优异。与以往的一些研究不同,本研究的词汇识别测试需要受试在语义相近项之间作出较为细微的区分,而前者的词汇识别往往是对字幕词汇相对较为粗略的辨析,尽管如此,本研究识别成绩也不错,这表明,字幕的存在增加语言信息的回忆以及对对语言复杂度的感知,也有助于词汇差异的识别。受试字幕词汇识别和场景识别的测试成绩均良好表明了字幕识别和场景识别之间并不存在任何权衡效应迹象。眼动实验数据也表明,字幕与视觉场景之间的存在视觉转换,也正是这视觉转换使受试能处理这两个信息源,因为学习者通常会尝试处理和整合文本信息和视觉场景信息。与影视场景相比,观众的注意力焦点偏向被阅读的字幕,受试字幕阅读的总注视次数更多、总注视时间较长反应了学习者对这个区域内容的重视程度、学习材料的难易程度以及对学习材料的兴趣程度;但对图像区的平均注视时间要长于字幕区,反映信息加工过程更为细致、也表明图像画面目标更吸引人。这表明受试在看影视时,为了更好理解视频而读字幕,但他们并没有全面探索整个视觉场景,而是仅基于视觉复杂度的感知专注于信息最丰富或视觉凸显的元素,对场景或图片的选择性视觉处理来把握视觉细节,比如注重传递了理解互动和交际所需重要信息的脸部情感符号或视觉线索。[13]
需要指出的是,眼动和识别成绩方面的个体差异之间不存在显著关联,这是由于受试在任务期间相当一致的眼动行为造成的,即绝大多数人在字幕上注视次数较多、总注视时间较长,而在视觉场景上则注视次数较少、平均注视时间较长。总之,受试采用了高效性、选择性注意分配策略或过滤机制,会根据他们所观看字幕节目的类型来调整他们的处理策略,从而使他们对所呈现的信息有很好的理解和识别。本研究结果突出了个体加工、整合和记忆多源信息的能力,学习者个体在处理多源信息时通常不会遇到很大的困难,字幕节目通常较易于学习理解,字幕阅读是一种学习者熟练掌握的高效的半自动化技能,视觉注意力自动捕捉文本导致视觉运动的效率增加,字幕的处理具有高度的视觉效率,字幕的存在不会增加观看者的视觉负担,不会对其他图像信息处理的效果产生记忆障碍、干扰、限制或其他不利影响,学习者能在视频画面和字幕文本之间、视觉通道与听觉通道之间进行有效协调,避免注意力认知资源消极竞争与工作记忆负荷超载,从而确保了学习效果。
六、结语
本研究采用了综合性方法,涵盖了眼动(注意分配的衡量指标)、要旨理解、字幕所含具体词汇的识别(字幕处理的成效指标)以及影视场景的识别(视觉场景处理的成效指标)等手段,兼顾眼动实验法追踪学习过程和传统认知法测验学习结果,较为完整准确地评估了场景处理和字幕处理之间的潜在的权衡效应,分析字幕视频加工的效用。这种方法使我们对字幕视频的认知加工过程有了更深刻、全面的理解,研究结果强调了字幕视频加工处理并不费力且能取得良好成绩,在有字幕的情况下,受试对影视内容都有一个很好的理解,其词汇识别和场景识别成绩水平很高,不会导致图像处理和文本处理之间的权衡效应。眼动分析进一步探讨了字幕视频观看过程中的认知加工,成绩测量和眼动分析的结合为字幕视频的认知加工特征提供新的实证,即字幕材料加工具有认知效用不存在任何权衡效应,学习者完全根据具体任务要求来调整加工策略加以适应整合。
注释:
①平均注视时间即兴趣区内所有注视点持续时间的平均值。
②路径长度被定义为字幕呈现期间连接注视点的切分部分总长度之和(以像素为单位)。
③视觉转移数量则指字幕呈现期间屏幕两个不同目标区域(字幕区和图像区)之间的注视转换的次数。当两个连续的注视出现在屏幕不同区域时(例如,阈值线以上和以下,反之亦然),视觉转移就被界定。