“中国政府西藏白皮书”汉英平行语料库的建设及应用研究
2016-12-06李葆卫
李葆卫
(西藏民族大学外语学院 陕西咸阳 712082)
“中国政府西藏白皮书”汉英平行语料库的建设及应用研究
李葆卫
(西藏民族大学外语学院 陕西咸阳 712082)
“中国政府西藏白皮书”汉英平行语料库是以迄今为止中国政府发布的12部涉藏白皮书的汉英文本为语料构建的平行语料库,主要为西藏各级政府的对外宣传,高校涉藏翻译教学,翻译软件的开发及大型涉藏汉英平行语料库的建设服务,因此具有重大的应用前景。
西藏白皮书;汉英平行语料库;文本对齐
一、前 言
语料库是一个按照一定的采样标准采集而来的、代表一种语言或者某语言的一种变体或文类的电子文本集。近些年来,语料库的建设与研究发展迅速,其中平行语料库的建设引起了更多学者的关注。双语平行语料库中的语料来自两种语言,它们互相对应,一种语言是另一种语言的译文。目前,因为大多数双语平行语料库都做到了句子间对齐,所以双语平行语料库对人工翻译研究和机器翻译研究具有重要的意义。[1]
白皮书是一个国家政府对重要的问题正式发表的官方文件,也是得到国际公认的正式政府文件,因其惯用白色封面装帧,所以又称“白皮书”。白皮书具有立场鲜明,行文规范,语言简练的特点。自1991年发布第一部白皮书,截至2015年9月底,中国政府已发表了98部白皮书,[2]内容涉及政治、经济、文化、人权、国防以及民族政策等方面。这些白皮书全面、准确地介绍中国政府在上述重大问题上的原则、立场、政策、主张和取得的进步,因此受到了国际社会的广泛关注,成为研究中国政府政策的主要情报来源。迄今为止,“中国政府西藏白皮书”共发布12部,占全部发表白皮书的近1/6,反映了中央政府对西藏自治区的高度重视。中国政府白皮书的外文译本一般由国务院新闻办公室下设的专门机构负责,外文译本在立场观点及法律效力上等同于汉语文本,是国家对外宣传的重要手段与方式。
“中国政府西藏白皮书”汉英平行语料库是主要以12部关于西藏的白皮书的汉语及其对应的英语文本为语料的专用语料库,能为西藏自治区各级政府部门的对外宣传翻译实践提供指导与借鉴,具有维护国家原则立场与政治主张准确;统一的重要作用。目前,以涉藏政府文件为内容的专题语料库的建设在我国及西藏自治区尚属空白。因此,在一定程度上本研究填补了涉藏政府文件英汉双语语料库的空白,具有创新性与实践性的特点。
二、语料库的建设
(一)设计目的
本语料库的建设有以下三个服务目标与目的:
1、为西藏对外宣传服务
西方对西藏的报道“大多是负面的”。[3]一方面是因为西方敌对势力操作舆论对我国政府蓄意进行歪曲与诋毁;另一方面也是因为我们的对外宣传做的不足。这要求西藏自治区各级地方政府不断加大对外宣传客观真实的西藏,不断宣传西藏所取得的发展与成就,以事实来回击负面舆论。英语作为世界主流媒体语言之一,是对外宣传必须使用的语言。但是作为政治敏感度较高的地区,西藏对外宣传的稍微不慎都会给西方持敌对态度的反华舆论提供可乘之机与攻讦的口实。因此,在对外宣传中保证国家政策、政治立场与观点的准确、清晰并与中央保持高度一致是对外宣传的基本出发点。本研究拟建成的“中国政府西藏白皮书”汉英平行语料库就是为对外宣传提供可靠保证。它是我国涉藏官方正式文件汉英文本的汇编,属于专门用途的单向对应语料库,旨在为西藏自治区人民政府和西藏自治区外事侨务办公室等对外宣传工作提供准确、规范、权威与统一的汉英双语对照政策语料。
2、为涉藏翻译研究以及翻译教学实践服务
“中国政府西藏白皮书”汉英平行语料库也可以为西藏自治区及国内外高校各级研究机构的涉藏翻译研究提供翔实的涉藏政府文件双语对照语料。建成后的汉英平行语料库则可直接用作翻译素材,为对外宣传的翻译教学提供准确的实践与研究实例。
3、为翻译软件的开发及大型涉藏汉英平行语料库的建设服务
语料库建设中未标注的平行文本将可直接用作翻译记忆,为CAT翻译软件提供涉藏翻译记忆,从而为以后的涉藏翻译项目提供支持。涉藏术语标注将为涉藏术语的收集和识别提供基础,为开发涉藏翻译软件提供前期准备。同时,本平行语料库的研发将为研制大型涉藏汉英平行语料库的建设提供实践机会和技术准备。
(二)语料库构成
“中国政府西藏白皮书”汉英平行语料库共收录12本白皮书及其英语译文,包括:《西藏的主权归属与人权状况》1992、《西藏自治区人权事业新发展》1998、《西藏文化的发展》2000、《西藏现代化发展》2001、《西藏的生态建设与环境保护》2003、《西藏的民族区域自治》2004、《西藏文化的保护与发展》2008、《西藏民主改革50年》2009、《西藏和平解放60年》2011、《西藏的发展与进步》2013年、《西藏发展道路的历史选择》2015、《民族区域自治制度在西藏的成功实践》2015。
作为专门用途语料库,语料选取不遵循通用语料库的抽样原则,而是对其中的汉英语料进行全文收录。按照一般的平行语料库的库容计算方式,英语以词数为计,汉语以字数为计,该库初步设计为445774字/词,结合英汉字词比,英语179465词,汉语266309字。同时,随着新的“中国政府西藏白皮书”的出版发行,该库也将作动态收集并更新,因此库容也会随研究深入而增加。
(三)语料收集
1、语料来源
为了保证语料的完整与正确性,所有白皮书的汉语文件与部分英语文件均取自“国务院新闻办公室”网站(www.scio.gov.cn)中“政府白皮书”一栏,部分白皮书的英文版来自外文出版社正式出版的中国政府白皮书。
2、存储格式
鉴于收集到的文本存储介质类别不同,所有文本不管处理与否,都需要留好原始文本的备份,以方便返回检视。若为纸质文本,则需要借助扫描仪扫描并进行OCR识别为Word文本,再转存为UTF-8格式的TXT文本;若为图片类存储的PDF文本,则仍需要借助软件识别为Word文本,并转为TXT文本;若PDF文本可直接转为Word文本,然后继续转为TXT文本;Word文本则同样直接转为
TXT文本。总之,所有的语料文本都需要转为UTF-8的TXT纯文本格式。
3、文件命名
以字母、数字和下划线的编号方式来进行,原则上力求文件名简短明晰,语料统一收录在同名文件夹“Collection of White Paper by XX”文件夹中,XX为收录人姓名首字母大写。在文件夹内按各自所负责的文件数量新建子文件夹,分别命名为D1,D2,D3等,D指documents。在子文件夹中以网页、word文档、纯文本文档三种形式保存语料及元信息。因此,假设语料文本是“《西藏主权归属与人权状况》1992”,该文件由LBW收集,则文件编号为LBW_N_DW_1992_Ch.txt,其英语翻译文本则为LBW_N_DW_1992_En.txt,对齐后的双语文本则为LBW_N_DW_1992_CE.txt,或者以翻译记忆交换格式存储的TMX文本。
4、校对
语料的内容及文本格式需要检查,以确定内容完整无误,以及是否存在乱码。校对文本命名编号,细致校对扫描识别后的文本。
(四)语料的再加工
1、语料处理
收集完成的语料,利用正则表达式清洁文本、去除冗余信息。例如,对文本的空行,段首尾的空白等无意义的信息进行批量清理。
2、文本存储
在得到清洁文本后,将所有文本复制为三个文件夹内存储。第一个存储作为原始语料。第二个用来标示元文本信息。第三个则用来进行平行语料对齐。另建一个Excel表用来记录各个文本的元信息。
3、元信息标注
元文本信息包括题目、发布者、时间等,使用XML格式进行人工标注。例如:
〈Metadata〉
〈Title〉Successful Practice of Regional Ethnic Autonomy in Tibet〈/Title〉
〈Language〉EN〈/Language〉
〈Type〉Document〈/Type〉
〈Publisher〉SCIO〈/Publisher〉
〈Publication_Year〉2015〈/Publication_Year〉
〈URL〉http://www.scio.gov.cn/zfbps/32832/Docu⁃ ment/1447091/1447091.htm〈/URL〉
〈Contributor〉Li〈/Contributor〉
〈Proofreader〉Zhou〈/Proofreader〉
〈/Metadata〉
4、语料对齐
语料之间的平行对齐是平行语料库建设的核心所在,平行对齐质量的高低直接影响语料库质量的好坏。Bowker讨论了对齐的单位问题,指出句级对齐应是双语平行语料库建设中较为适合的对齐方式。[4]我们以汉语句子为主进行切分,英语译文句子与汉语对齐。我们采用ABBYY Aligner软件进行自动对齐,但自动对齐的语料存在诸多错误,需要各部分负责人逐句进行人工校对。对齐后进行校对。校对完成后将所有文件保存为两种格式,一种为翻译记忆交换格式TMX文件,可以直接用作翻译记忆;另一种则为带表格式的纯文本文件,用于词性标注。
5、语料标注
语料库标注过程复杂,全方位标注的语料库并不常见,大部分语料库根据自身需要和现有的人力软件等条件有选择地进行标注。“中国政府西藏白皮书”汉英平行语料库拟对平行语料中的中英文句子进行词性标注。英语句子的词性标注拟使用Go Tagger软件或CLAWS POS Tagger,汉语分词及标注拟使用ICTCLAS汉语分词软件。标注完后保存并复制为两个文件夹,其中一个文件夹内文本使用程序将两部分分离进行标注的文本重新合并为平行文本,从而成为经过词性标注的平行文本。另外一个文本在经过词性标注后,将进一步进行人工标注,对涉藏术语进行标注。词性标注后的文本都将进行人工校对。
6、涉藏术语提取
“中国政府西藏白皮书”汉英平行语料库拟对白皮书语料中涉藏专有名词进行提取及语义标注,建成动态的汉英单向翻译术语库,为涉藏汉英术语翻译提供参考。涉藏术语标注将确定新的涉藏词语码类,对一些涉藏专名进行分类编码,力求简明清晰。结果依旧需要人工校对。
(五)语料库出版与在线检索
待词性标注完成后,所形成的未分词的文本可以作为翻译记忆用来进行翻译教学或翻译项目工作,而分词文本与标注文本则可通过各类自由的单
语或双语平行检索软件进行离线检索,至此,其语料库功能已可以得到发挥。至于其出版和在线检索,则需要等各类文本解决完版权问题后,才可进行。
三、语料库的运用
汉英平行语料库的语料由整理好的汉英白皮书文本经过保存而构成。启动Paraconc,载入语料,就可以开始使用“中国政府西藏白皮书”汉英平行语料库。本语料库的主要作用体现在以下三个方面:
第一,通过检索关键词,可以提供准确、权威、一致的翻译实例。
“民族团结”
例如,“民族团结”、“和平解放”、《十三法典》。
第二,能对汉译英、英译汉双语搭配等进行全面考察。
例如,汉语词“坚持”及其对应英语词“adhere to”在汉语及英语中的各自搭配。
第三,查询各类主题,起到政策库的作用。
例如,了解国家对“民族”的确认,对“西藏教育”的投入等。
由此可见,本语料库具有开放性、便捷性、连贯性三大特点:
汉语词“坚持”的搭配
1、开放性。本语料库是一个开放的系统,随着国家新的涉藏白皮书的发表,可以及时扩充语料;2、便捷性。本语料库可以迅速地检查出涉藏专业
术语的英文对应词及该词所在的句子;3、连贯性。通过检索专业术语可以发现国家在重大问题上的一贯表述与立场,也可以了解某个民生问题的发展情况。
四、结 语
“中国政府西藏白皮书”汉英平行语料库是一个开放的语料库,随时收入新的涉藏白皮书,以保持最全、最新、最权威的特点。整个库的建设通过建立课题小组,吸收对此有浓厚兴趣的研究者加入,同时也吸纳一定的学生,以增强学生的动手能力。总之,详细的论证与细致科学的分工,为白皮书语料库的建设奠定了坚实的基础。它将为西藏自治区的对外宣传提供准确、统一、权威的指导,并可以服务于相关翻译研究及教学实践,因此具有重大的应用前景。
[1]梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教育与研究出版社,2010.
[2]国务院新闻办公室网站www.scio.gov.cn
[3]传媒在线http://news.xinhuanet.com
[4]Bowker,Lynne.Computer-Aided Translation Technology [M].Ottawa:University of Ottawa Press,2002.
[责任编辑 刘晓艳]
[校 对 夏 阳]
D635;H315.9
A
1003-8388(2016)05-0141-06
2016-03-16
李葆卫(1973-),男,陕西岐山人,现为西藏民族大学外语学院讲师,博士,主要研究方向为外国语言学及应用语言学。
本文系西藏民族大学西藏文化传承发展协同创新中心立项课题“‘中国政府西藏白皮书’汉英平行语料库建设及应用研究”(项目号:XT15003);西藏民族大学校内科研立项“关联视角:言语幽默分析”(项目号:14myy06)的阶段性成果。