四款可用于多模态口译语料库建设的软件功能比较研究
2019-12-28刘剑
刘剑
(衡阳师范学院外国语学院,湖南衡阳 421008)
现阶段,“多模态”已经成为许多学科发展的交叉点,而语料库研究越来越呈现为一种“多模态倾向”。目前国外针对音视频语料的主流多模态转写或标注工具主要有:Praat、Anvil、ELAN、Exmaralda、Media and Text Editors、TASX、MacVisSTA、NXT、DRS等。[1]此 外 ,还有部分基于网页的在线标注工具,比如,RECOLA语料库所使用的标注工具“Annemo”、支持多人在线标注的“Brat”等 。上述软件各具特点,在人机互动、语言学、人类行为学、人类学、精神治疗、智能客服等领域已得到广泛的应用。对于多模态研究者而言,首先要判断该款工具是否符合自己的研究需求,是否适合用于分析自己的语料数据,甚至是否符合自己电脑的配置或操作系统。多模态口译语料库建库需要以下功能:语料切分、语音转写、音视频标注、语音分析、检索查询等。上述工具均可用于多模态语料库的建设,但不一定适合多模态口译语料库的建设,因此需分析软件的功能特点,看其是否满足口译研究的需要。由于篇幅所限,在此仅对影响较大的四款软件,包括Praat、Anvil、ELAN、Exmaralda等做进一步对比分析,以便选出最合适的多模态口译语料库建库工具。
1 语音分析工具Praat
Praat是一个开发较早、知名度很高的语音分析工具,不仅可以用于音频语料的转写,而且可以方便地对音频语料添加对应的国际音标(IPA),还能非常便捷地生成相应的语图(包含基频、强度、共振峰等 ),便于直观地分析各种语音现象。Praat支持各种高级应用,有能力的用户可以自行编写程序代码提取目标文件的各种语音数据,其标注文件是兼容性较强的TextGrid格式,可以方便地导入到其他一些多模态标注工具中,例如,ELAN与Anvil均支持TextGrid文件的直接导入。该软件的不足之处是,仅能分析音频文件,主要用于语音学研究,难以在界面中观察较长的文件片段(Segment)的全貌,也无法处理重叠话语(Overlapping speech)(比如两个或两个以上的人同时说话)[2]。
2 Anvil
Anvil[3]是德国人工智能研究中心(DFKI)的Michael Kipp教授在2000年用Java语言开发的一款免费工具。 Kipp主要从事“智能客服”(Embodied agent)研究,例如,能移动的智能机器人、网页中能自动用语音回答顾客提问,同时还伴随表情、口型变化的虚拟客服等都属于“具身代理”的范畴。该工具主要用于包含多模态会话的音视频材料的标注,使用者可自由定义不同的标注层(Layers)或轨道(Tracks),也可在不同的层中插入带有时间属性的各种标签。Anvi的标注界面可展示声波图的形状以及对应的音高曲线(Pitch Contour)。
Anvil具有较好的兼容性,可以使用不同的标注方案进行标注,其标注生成的文件格式也是XML格式,支持部分软件(Transcriber、Praat等)对应格式文件的导入,也支持数据以多种格式导出,而且导出的表格可以用于统计软件(比如SPSS或Statistica)做进一步的数据分析,其突出功能包括跨层关联、非时间元素标注、标注一致性检查、捕获动作的3D呈现等。Anvil也具有一定的语料管理功能,支持某范围内标注文件的浏览、检索、导出以及图表数据分析等。但某些输出功能还有待完善,比如时间重叠元素、跨层关联元素无法在表格的同一栏呈现,验证“共现假设”(Correlation Hypotheses)时不甚方便。Anvil仅在Windows上运行良好,在Mac及Linux体验较差。
3 ELAN
ELAN[4]是荷兰Planck心理语言研究所开发的一款免费的多模态标注工具,其初衷是用于言语与手势研究,也用于手语(Sign language)研究,可用于 Windows、Mac以及Linux等多个操作系统。软件的操作界面非常友好,具有四个工作模式:切分模式、转写模式、同步模式、标注模式。Anvil与ELAN均是针对视频的多层次(Multi-layer)标注工具,二者均能够通过轨(Track)与层(Tier)对不同类别的元素(比如话语、目光、手势、表情等)进行标注,用户可自行定义层的名称和属性,各层之间既可以呈现为“等级式”(父层与子层)的关系,也可以成为并列的、相互独立的“层”,但都与标注界面中的时间轴保持对齐。尤其难得的是即便是标注工作已经开始,使用者仍然可以调整不同层之间的关系,这一点非常有用,因为很多研究者是在标注的过程中才确定最终的标注方案。标注所需的时间多寡也完全取决于研究所需要的标注内容的精细程度。ELAN支持其他转写工具,比如 Shoebox/Toolbox、Chat、Transcriber等转写工具产生的文本的导入。为了提高标注的准确性,减少手工输入标签的错误,ELAN除了支持大量的快捷键以外,还支持使用者使用自定义的词表(Vocabulary)进行标注,用户只需轻点鼠标便可在特定层的某个时刻输入对应的标签。此外,它还提供了半自动切分音频的功能,这样减少了手工切分的劳动,也提高了切分的精确程度。为了避免因停电、电脑死机等情况引起标注文件的丢失,ELAN还带有自动定时备份功能。此外,ELAN还带有强大的检索查询功能,可以在特定层、特定EAF文件或某个范围内对标注或文本进行检索,而且检索的结果直观地呈现该片段的起止时间,因而可以对某类标注精确地计算,也可使用鼠标点击特定检索结果,并能直观地在ELAN的界面中反复播放该片段,方便观察各种言语及动作行为。为了方便语音分析,使用者还可以在ELAN中选定特定的片段并调用Praat打开,进行语音的基频、强度、共振峰等内容的分析。
4 Exmaralda
Exmaralda[5]由德国汉堡大学多语言协同研究中心使用Java语言开发,它包含一个数据模型、一个对应的XML文件格式以及一系列的用于创建、管理和语料分析的软件工具,包括Partitur-Editor(用于转写文本的导入、强制对齐、切分等)、Corpus Manager(语料管理工具)、ZECKE语料检索工具等。它除了良好的数据可视化效果以外,使软件具有良好的兼容性是Exmaralda开发的重要目标,它支持并鼓励与其他工具之间的数据交换,因此,该软件的许多优点以及数据格式都被Praat、ANVIL、ELAN、TASX 等工具所借鉴。
5 四款多模态标注工具功能比较
Praat与Transcriber的功能相似,主要用于音频转写与语音分析,但Praat还具有更强大的语音分析功能。Anvil与ELAN均属于视频标注工具,但同时也具备转写功能。Anvil拥有包括麻省理工学院、爱丁堡大学、东京大学、芝加哥大学等著名研究机构在内的广大用户。Exmaralda主要针对音频,具有转写功能,同时还有元数据管理及检索功能,用于会话及语篇分析、方言学、音位学等方面的研究,但该工具对话语的分析主要是基于文本的,因此缺少多模态研究所需的时间精确性。
Anvil与ELAN的用户都可以根据项目需要自行制定标注方案,二者都允许用户自行制定标注所用的词表,以节省标注时间,提高标注效率。两者的工作界面稍有差异,Anvil的视频通常在中上方,而ELAN的视频则是在左上方,二者的主要标注方式均为手工标注,最终都形成基于XML格式的标注文件,但是扩展名不同(前者为.anvil,后者为.EAF),各自的XML数据记录方式也有差异,导致二者的标注文件不甚兼容。Anvil支持在线多人同文件协作标注,其缺陷是不自带检索功能,在处理超大文件(长度超过30 min)时,速度较慢,偶尔会崩溃。与Anvil相比,ELAN在处理超大视频文件时,性能更稳定,而且ELAN具有强大而快捷的检索功能,支持正则表达式,能够针对特定层或特定范围的语料进行快速检索,例如,常见的N-gram检索、同文件中的重叠标签检索等。由于Anvil与ELAN产生的标注文件本质上都是XML格式,因此可以方便地导入到SQL数据库中,实现语料的在线共享与检索。
6 结语
就多模态口译语料库的建设需求而言,主要判断软件工具以下四方面是否符合需求:标注及对齐的便捷性、与其他工具的兼容性、对超大文件的处理能力、检索统计性能。EXMARALDA虽然对于其他软件的兼容性较好,但其对应的转写、切分、标注与语料管理等功能均由独立的工具承担,软件的一体化与集成度不够高,用于口译语料库的建设不太合适。Anvil对不同格式的文件具有一定的兼容性,支持完成标注后的文字语料及多模态语料的储存、编辑,但缺少强大的检索功能,需要开发其他的检索工具,考虑到课题组采集的部分口译视频语料的长度超过60 min,但Anvil在处理超大(超过30 min)的视频文件时可能崩溃,因此只好放弃该款软件。最后,界面友好、兼容性强、标注便捷准确、支持大文件处理,而且自带强大检索功能的软件ELAN便成为多模态语料库建设的首选,而其他的工具(比如Praat)则成为建库辅助工具。