美剧字幕英汉平行语料库的建设
2018-10-30窦智
窦智
【摘 要】美剧影视的传播影响了大量英语学习者,对美剧里的人物、台词、情节等的分析如火如荼。目前国内尚无建成可用的美剧语料库,平行语料库的研究也是进展缓慢。因此本项目建设了一个小型的美剧双语平行语料库,希冀为语料库翻译学的研究提供平台基础。论文阐述了平行语料库的设计过程,从语料的采集加工、标注对齐、软件使用等方面详细分析,给语料库爱好者们提供建库指南。
【Abstract】 The spread of American movies and TV plays a great influence on a large number of English learners. The analysis of characters, lines and plots in the American drama is in full swing. At present, there is no available corpus of American drama in China, and the research of parallel corpus is developing slowly. So this project has built a small bilingual parallel corpus of American dramas, hoping to provide a platform for the study of corpus translation. This paper expounds the design process of the parallel corpus, analyzes the collection and processing of corpus, label alignment and software usage, etc., and provides database enthusiasts with a library guide.
【關键词】美剧字幕;平行语料库建设;双语语料
【Keywords】American drama subtitle; parallel corpus construction; bilingual corpus
【中图分类号】H315.9 【文献标志码】A 【文章编号】1673-1069(2018)07-0094-02
1 引言
自20世纪80年代以来,美剧在中国大陆传播发展已有38年。美剧在我国从小众独享到网络热播,正迈向全民化。学生是美剧的受众群体之一,通过寻找美剧中的话题与外国人进行跨文化的交流;观看美剧不仅给人带来视听享受,而且相比教材文本,可以学到最新实用的词汇用法及口语表达;借助美剧可以了解美国的政治、历史、文化、社会和美国人的日常生活等知识。语言是不断更新发展的,综上,美剧是学习英语最鲜活生动的资料。然而由于网络传播中的美剧作品不带有中文字幕,这就催生了一批字幕翻译员,尽管翻译出了美剧台词的主要意思,但翻译质量难免良莠不齐。这就引出了对翻译规范、译者风格和翻译策略等翻译学的研究,美剧语料库的建设是千呼万唤始出来。因此,建设一个美剧字幕翻译英汉语料库可为后来的影视翻译研究提供平台基础[1]。
语料库是以计算机为载体承载语言知识的基础资源;存放的是实际使用中真实出现过的语言材料。这些真实语料要经过加工处理,才会成为有研究价值的资源。 语料库凭借电子计算机操作系统和相关语料库软件,对所收集语料进行赋码和标注处理,实现语料的自动存储、检索和统计(胡开宝2011)。 双语平行语料库可以使两种或两种以上的语言对比,具备微观研究和宏观研究结合的优势。语料库尤其是平行语料库作为一种研究工具,在语言学研究,尤其是翻译学、自然语言处理以及机器翻译等研究领域起着越来越不可替代的作用[2]。
2 美剧字幕平行语料库的整体设计思路
2.1 设计目的
近年来英语国家的影视作品对英语学习者产生了影响,尤其台词的模仿在语言交流中随处耳闻。 迄今为止,国内尚无该领域建成可用的美剧字幕语料库。在选择语料库类型时,根据研究需要,选择能匹配美剧字幕翻译的双语平行语料库。 王克非(2004a)指出平行语料是由源语文本及其平行对应的译语文本构成的双语语料库。与其他语料库相比,平行语料库的优势在于能自动呈现两种或两种以上的语句对应关系。 建设美剧字幕库的目的是为了后续在此平台的基础上进行研究: ①翻译语言特征和规范研究;②美剧的口语俚语研究;③美国社会文化的反映;④译者风格和翻译教学等研究。 因此,本项目组自建一个小型的美剧字幕翻译英汉双语平行语料库,以填补该领域的空白[3]。
2.2 语料库规模
人们普遍认为语料库规模越大,就越有研究语言应用的价值,然而任何语料库只代表关于语言应用现状的小样本(胡开宝2011a)。所以应根据设计目的和语料库属性来确定语料库规模,不可盲目求大。 由于处理难度高,平行语料库的发展一直滞后于其他类型语料库,而且平行语料库耗费大量时间和精力,故本项目建设一个容纳100万词的小型美剧字幕平行语料库, 以共时性为主,即主要收集二十世纪后半叶和二十一世纪的有影响力的语料,保证语言文本的新鲜和经典。
2.3 语料库属性
语料库根据收录语料内容的不同分为四种:异质型(Heterogeneous corpus)广泛收录各种语料;同质型(Homogeneous)只收集同一类别的语料;系统型(Systematic)选用的语料有平衡性和系统性,反应语言的全貌;专用型(Specialized)是为特定用途而建立的语料。 本语料库属于同质、专用型,主要抽样采集几部当代热播美剧和经典影片,对英语学习者有影响的和受同学们喜闻乐见的影视字幕,如 《纸牌屋》、《权利的游戏》、《摩登家庭》、《乱世佳人》美剧。
3 美剧语料的采集和处理
采集语料在人人影视、字幕库等网站下载字幕文件包,解压文件包进行筛选,留下汉语和英语的简写文本。多数字幕文件的英汉双语在一个文件里,需要人工分开将英语和汉语另存一个文本,然后用计算机软件对语料进行去噪和加工。
3.1 语料初加工
选用的文本编辑软件是Emeditor,其操作便捷,支持多种配置。 用此编辑器进行文本净化,清除时间轴和字体代码等嘈杂的信息,数字和不必要的空格以及符号也清除,之后务必在篇头处保留译者的名字。此操作的辅助功能为计算机的搜索和替换功能,使用正则表达式批量处理,目的是保证英语和汉语的句子匹配对齐。由于下载的字幕包里汉语部分没有标点,所以对着英语部分句对句的手动添加标点,这也是平行语料库耗时耗力的原因之一。处理完毕后进行语料的初步校对,清除杂质,将无法匹配的影视剧中出现的专有名词如场景、地名等删除,然后将英语和汉语分别存在一个文件夹里,存储格式为txt格式,文件名标写清晰的美剧名称。
3.2 标注和处理
所谓标注(也称附码)把各种表示语言特征的附码标注在相应的语言成分上,便于计算机识读。无论是计算机自动还是人工标注,都不能削除失误(余国良2009a)。标注分为词性标注、词义标注、句法标注和语篇标注,通过这些加工,语料才变成有利用价值的研究材料。本项目选用了词性标注,即用词性符号标记单词的词性,如动词,形容词。
针对汉语语料,用汉语词性标注工具软件,该应用程序操作便捷,可批量处理文件。打开软件加载汉语文件夹,选择要处理的文件,点击开始切分标注,瞬间得到标注成功的汉语语料。针对英语语料,使用的软件为TagAnt,每次只能处理一个保存为utf-8格式的文档。 点击input files选择要处理的英语语料,按 start瞬间得到标注成功的英语语料。然后打开标注后的语料,在英汉双语的句号、问号和叹号处加上