影视对白平行文本语料库建设

2018-01-08刘瑞

河南科技 2017年21期

关键词：字幕平行语料库

刘瑞

（郑州工程技术学院，河南郑州 450004）

影视对白平行文本语料库建设

刘瑞

（郑州工程技术学院，河南郑州 450004）

与大型或专门用途的平行语料库相比，利用影视对白字幕文本及文本中的相关信息建设平行语料库，不仅能精确定位对白在影视中出现的位置，而且能通过字幕中的句子对齐实现对平行文本的检索。本文就如何建立影视对白平行文本语料库进行讨论分析，为语言教学与研究提供一个新的平台和窗口。

影视对白；平行语料库；XML标注

1 平行语料库的研究现状

平行语料库在国外创建已有二十余年，其在国内的创建刚刚起步。世界上第一个翻译语料库（Translational English Corpus，TEC）是英国曼彻斯特大学科技学院（UMIST）翻译研究中心于1995年创建的。国外有英国的“德-英文学文本平行语料库”、加拿大的“Hansard英法双语语料库”、挪威奥斯陆大学的“英挪双语语料库”、英国兰卡斯特大学的“ITU英法西对应语料库”和美国马里兰大学的“圣经九国语言对应语料库”等。国内有北京外国语大学的“中国英汉平行语料库”、上海交通大学的“莎士比亚戏剧英汉平行语料库”、燕山大学的“《红楼梦》中英文平行语料库”、绍兴文理学院的“中国法律法规汉英平行语料库”、香港科技大学的“HKUST中英对应语料库”、香港理工大学的“中英双语旅游语料库”和台湾的“Sinorama中英对应语料库”等［1］。

平行语料库的种类越来越多，已广泛应用于语言学研究、翻译研究与教学、双语对比、双语词典编纂、双语术语提取、机器翻译等［2］。但目前，面世的平行语料库由于受建库目的、选材局限、技术限制、最终用户类型等因素的影响，难以大规模地为广大研究者所使用［3］。目前，平行语料库无法实现文本句子级自动对齐，为相关研究带来了诸多困难。影视中的语言是现实中语言的真实再现，为英语教学提供了地道的语言素材。本文试图探讨利用影视字幕对白建立影视对白平行语料库，以解决上述实际难题。

依靠多媒体和语料库技术建立影视对白平行语料库既能克服目前平行语料库受众小的不足，也能为英语教学和语料库研究提供新的研究途径。

2 建库的技术途径及语料标注

2.1 建库分析

在选择影视对白语料时，要遵循以下几条原则：①选择优秀有代表性的电影；②各种类别的影视都涉及到，保持均衡；③在数量上，初步建立一个包含50部影视的语料库，并不断扩充；④影视的翻译字幕文件尽量选择官方、权威的版本。相关建库原则和技术标准参照Wynne，文本分类标准参照EAGLES。

DVD格式的影视都有独立的字幕文件，其格式分为图形格式和文本格式两大类。其中，srt文本字幕最为常见。其中包含的信息有：每段对白的顺序编号、插入时间及对白文本。这种文本格式内容规整，直接使用记事本即可打开。

2.2 字幕文件处理及标注

收集到语料后，需要进行两步预处理：①文本净化处理，即通过PowerGrep软件批量消除文本的嘈杂信息和标注对白；②为文本添加元信息，元信息经过编码后，应用XML标记语言标注原文件。XML标记语言即可扩展式标记语言（Extensible Markup Language），其特点是结构简单、描述性强、功能强大、可检索性强。考虑到在以后的处理中要对齐多语种的文本库，文本编码采用UTF-8编码格式。为了便于讲解，本文以英汉字幕文本处理为例。

鉴于程序开发的需求及检索的快捷性，把所有影视信息（头部信息）、字幕文件以“路径+文件名”的格式放置在一个索引文件index.xml中，标注后的字幕文件单独放置在另外设定的文件夹中。

2.2.1 文本净化处理。文本中的“1、2、3…”为字幕对白序号；“00:03:13,143--＞00:03:17,706”为该行字幕在电影播放中出现的起始时间和终止时间（时:分:秒:毫秒）；“{fnTahomafs13}”为控制字体显示效果的代码；中间为字幕对白的文本内容。

虽然字幕文件格式规整简洁，但仍要标注出来。仔细观察可知“时:分:秒”中英文一一对照，对于“毫秒”误差，需要把不必要的信息删除。字幕顺序编号和控制字体显示效果的代码“{fnTahomafs13}”是没有意义的，必须把这些垃圾码剔除。一部电影有几千句对白，完全通过手工来完成是不可能的。

正是由于字幕文件的格式规整，使用正则表达式的模式匹配可以轻松完成。支持正则表达式的软件很多，在此使用PowerGrep。

首先删除垃圾码“{fnTahomafs13}”。在查找框中输入正则表达式“{［^}］+}”（即查找大括号内所有内容），替换框中什么都不填，即替换为空。个别影视字幕中可能还有一些其他形式的垃圾码，查找规律，批量处理。

2.2.2 XML标注。对白用XML标注，根标记设置为＜text＞＜/text＞，对白文本用＜dialogue＞＜/dialogue＞标记，其中时间作为＜dialogue＞标记的属性（序号id读取原文件对白的开始时间），用作每段对白在整个文本中唯一的标识符，用于句子对齐；时间可分为“开始时间”（start_time）和“结束时间”（close_time），分别读取原文件中的时间信息，用于表示对白显示时间，这些信息在以后都非常有用。

信息标注、删除顺序编号和毫秒数字同时进行。在正则表达式中，“d”表示0-9十个数字；“^”和“ ”（或“$”）分别表示行开始和行结束；另外使用“()”可以进行字符分组，在后面的正则表达式中使用反斜杠加数字的形式“1”、“2”分别引用前面的第一个、第二个括号中的内容等，这些正则表达式的使用，读者可参考其他资料，此处不再详述。

表1 为文件添加头部信息

使用PowerGrep，首先通过查找文件开头和结束的锚点，用正则表达式批量处理文本，把对白显示的开始时间作为每段对白标识符“id”的值，以便以后的句子对齐；把对白时间分别标识为“开始时间（start_time）”和“结束时间（close_time），以便以后利用该信息。最后保存文件为.xml格式，采用UTF-8编码。

2.3 影视元信息标注

在文件的头部，可添加影视相关分类信息及描述信息，这些元信息可以到网上查询（IMDB网站），信息标注如下。

①媒体分类（multimedia）：电影（movie_info）、电视剧（telefilm_info）、纪录片（newsreel_info）。为减少分类的层级，不同种类的媒体可分放在独立的文件夹中，本文元信息标注以电影为例。

②名称：英语名（name_en）、汉语名（name_ch）。

③拍摄时间（time）：yyyy年。

④剧情时间（movieage）：古代近代现代未来。

⑤国家（country）：中国美国英国等。

⑥分类（type）：动作片、喜剧片、爱情片、伦理片、战争片、恐怖片、科幻片、动画片、灾难片等。

⑦语言（language）：影视所使用的原语言。

⑧级别（classification）：标注该影视在该国官方指定级别。

⑨获奖（award）：注明该影视获奖情况。

⑩导演（director）：该影视导演。

⑪主演（actor）：影视主演演员。

⑫时长（runtime）：影视播放时间长。

⑬备注（remark）：一些说明性信息，例如，该影视改编自哪部文学作品、收视率票房、社会影响和评论等。

以上信息通过XML编码，添加在文件头部，以便检索，具体如表1所示。

字幕文件和元信息文件分开放置便于管理和检索。如果一部电影对白被分割成多个字幕文件，通过＜dia⁃logue no=”1”＞的属性no来标识；字幕文件被标注在＜dia⁃logue_en＞（英语字幕）、＜dialogue_ch＞（汉语字幕）、＜dia⁃logue_jp＞（日语字幕）中，若还有其他语种，再增加标签；属性version来表示其是原文（version="0"）或译文（ver⁃sion="1"）。

3 文本对齐及检索应用

把编码文本导入平行语料库软件paracon中，复选编码格式（UTF-8），对齐格式（align format）选择“start/stop”标签，输入对白标签。Paracon软件根据对白标签的id属性值，自动对齐对白中每一段对话，如图1所示。

之后，可以对双语文本进行检索，既可以检索单词，也可以检索多词序列。检索结果在两个窗口以索引行形式呈现，自动跟随所选对话，如检索英文文本“Gump”，得到索引行。这种索引方式为教师和翻译研究者提供了一个深度分析电影对白翻译的数据界面。对外语教师而言，通过对白文本检索，可以查找典型的对话和场景，分析其语用特征，制作成视听课的互动练习和辅助材料。对翻译研究者而言，可以查找和分析同一词语的不同翻译，而这种翻译的差异往往是由于电影语境限制了词语的语用意义。

图1 句子对齐后的文本

经过XML标记的文本不受平台限制，呈现出标准的数据结构，可以被各种数据库编程直接应用。目前，大多数主流浏览器支持XML文件显示，在今后的开发中，可以基于浏览器创建影视对白平行语料库索引界面，轻松实现双语检索和对齐。在文本检索中，可以利用文件的头部信息进行条件查询，即用户先设定条件，划定范围，在范围内进行语料检索。检索的结果能呈现检索词所在的句子、前后语境、对应的汉/英句子、所属电影信息等。

4 结语

目前，平行语料库是语料库语言学、自然语言处理、机器翻译等领域的重要发展方向。与国外相比，在语料库的质量、容量、种类、数量和基于语料库的研究与软件开发方面，目前国内研究有些滞后。没有语料库，不可能开展基于语料库的信息研究。影视对白平行文本语料库在很大程度上克服了平行语料库建库中的取材难和对齐难的问题，为基于平行语料库的研究提供了一个新的契机，能更好地服务于语言教学与研究，具有广阔的使用前景和潜在的开发价值。

［1］熊兵.基于英汉双语平行语料库的翻译教学模式研究［J］.外语界，2015（4）：1-10.

［2］陈国华，王立欣，梁茂成，等.英汉/汉英对译语料库对应词检索器［J］.外语电化教学，2006（6）：11-16.

［3］王克非.双语平行语料库在翻译教学上的用途［J］.外语电化教学，2004（6），27-32.

Construction of Movie Caption Parallel Corpus

Liu Rui
（Zhengzhou Institute of Technology，Zhengzhou Henan 450004）

Comparing with specialized parallel corpus,the construction of movie caption parallel corpus not only precisely locates the parallel movie caption texts but also easily aligns and retrieves the parallel texts at the sentence level.In the paper,the author discussed the construction of movie caption parallel corpus and tried to provide a new perspective for foreign language teaching and research.

movie caption；parallel corpus；XML

TP393.092

1003-5168（2017）11-0031-03

2017-10-09

刘瑞（1982-），女，硕士，讲师，研究方向：应用语言学、语料库与外语教学。