石家庄公示语汉英平行语料库的设计与建设
2014-03-13宋建威
宋建威 吴 慧
(石家庄铁路职业技术学院 河北石家庄 050041)
石家庄公示语汉英平行语料库的设计与建设
宋建威 吴 慧
(石家庄铁路职业技术学院 河北石家庄 050041)
基于语料库语言学的基本观点,结合石家庄市公示语的文化特色及特点,对石家庄公示语汉英平行语料库的主题栏目进行规划,重点介绍建设石家庄公示语汉英平行语料库的具体过程和做法,最后指出该语料库的应用及不足之处,对改进石家庄公示语翻译质量,提升石家庄国际形象具有重要意义。
公示语 平行语料库 设计 建设
1 引言
语料库(Corpus)通常是包含数以万计字的机器可读的语言材料集,它不同于档案,通常是被挑选出来并经过处理的文本,可用来代表特定的语言变体或流派,因此可作为一个标准的参考。平行语料库作为语料库的一种,是指“由原文文本及其平行对应的译语文本构成的双语语料库”(王克非2004: 4-6),其用途非常广泛,“不仅可以比较两种语言的异同,而且可以利用它开展广泛的翻译教学与研究,以及双语词典的研编”(王克非2004: 28)。平行语料库最早创建于上世纪90 年代中后期,迄今为止国内外业已建立多种类型的双语平行语料库。国际上比较知名的平行语料库有挪威的“英语-挪威语平行语料库”、英国的“德语——英语文学文本平行语料库”。国内则有北京外国语大学中国外语教育研究中心创建的“新型双语对应语料库”,李德俊教授以汉英词典研编为主要目的创建的英汉平行语料库;卫乃兴教授以研究探讨英汉对等表达为目的主持建设的英汉平行语料库等等。上述双语平行语料库主要是通用型以及文学翻译类型的平行语料库,以某一专门用途为导向的平行语料库仍较为鲜见。在专门用途为导向的公示语(Public Signs)领域方面,国内目前仅有北京第二外国语大学建设的全国公示语翻译语料库,还没有建成涉及地方特色的公示语语料库。同时由于公示语语言短小精悍,对应性强,不涉及过多的语法与措词,这些特点都使得语料库能够更好的应用于公示语翻译中,有关公示语翻译的语料库建设还存在很大的发展空间。鉴于这一研究现状,我们以课题研究为契机,建设石家庄公示语汉英平行语料库,在此基础上,力图摸索其在汉英公示语文本语言特征、汉英翻译等教学研究中的应用。
2 石家庄公示语汉英平行语料库创建思路
根据不同使用目的,语料库可以分为很多种,其建设方法也不尽相同。而石家庄公示语汉英平行语料库属于双语平行语料库,诸如此类的语料库建设基本可以分为三个部分:首先,根据设计理念设计语料库的基本框架。本语料库创建过程中主要考虑了设计目的、规模、语料范围、代表性、均衡性、双语比例、共时或历时性、语言类型、语言质量、取样策略以及标注加工等。然后规划语料库的主题栏目。课题组针对石家庄公示语的特点,初步规划了语料库的主题栏目,分成道路交通、文化教育、医疗卫生、体育运动、商场购物、餐饮娱乐、景区景点、公共场所等8个大类31个子类,如表1 所示,基本涵盖了石家庄各类公示语的范围。接着是语料的釆集、加工和整理。为了提高语料库的实际应用价值,搜集平行翻译语料的同时,也搜集、整理和加工国外各类公示语的英语原文文本,形成可比公示语语料库。最后,按照标准将整理后的语料入库,建设成完整的语料库。
序号 一级分类 二级分类 序号 一级分类 二级分类警告提示信息警示提示信息1 道路交通基础设施信息 功能设施道路与车辆信息 企业名称及业态类2 文化教育警示提示信息 经营服务信息功能设施信息 商品名称文化教育名称 部门服务名称6 商场购物警示提示信息3 医疗卫生警示提示信息功能设施信息 功能设施信息医院系统信息 服务类信息7 餐饮娱乐4 体育运动警示提示信息 餐饮名称功能设施信息警示提示信息运动项目名称 功能设施信息场馆名称 服务类信息警告性、提示性标志8 景区景点5 公共场所说明性标志禁止性标志功能设施景区景点介绍
3 石家庄公示语汉英平行语料库建设步骤
石家庄公示语汉英平行语料库是一个开放式的语料库,其库容将会随研究需要不断得到扩充。同时石家庄公示语汉英平行语料库是第一次系统地对石家庄市范围内公示语翻译的整理和收录,所以在建库之前,我们学习借鉴了己有语料库的建设过程,熟悉了语料库建设的相关知识,根据前人经验制定了本次建设的流程。
3.1 语料搜集选取与整理
搜集语料方法主要有三种:正式出版物(图书、论文、音像制品等),非出版物(网页、各类旅游宣传材料如酒店介绍、旅行社介绍、景点旅游宣传册等),实地考察,其中以实地考察为主,以图书和网络等途径作为辅。为了使采集的语料更加全面系统,按照表1语料库栏目的设计类别,均考察三个以上的代表性场所进行实地釆集。如道路交通类别下的语料采集以石家庄市二环路以内道路、公交、新火车站、正定国际机场、正在修建的地铁1号线以及周边的石黄高速、京石高速、京昆高速等为考察基地,采集内容主要涉及道路名称,站点翻译以及各大公共交通场所的警告类、基础设施类以及服务性公示语等。医疗卫生类别下的语料采集以河北医科大学第二医院、第四医院,河北省人民医院,河北省中医院等为考察基地,尽量全面的覆盖到西医和中医的相关公示语。其余子类别的语料也以同样的方式方法进行收集。为了保证语料库的完整性、代表性和系统性,课题组还从正式出版物、非出版物等其它途径进行收集对语料进行补充。通过多种途径搜集到语料后,课题组成员对原始资料进行了初步整理:实地考察的照片资料逐一转写为word文档;印刷品逐一扫描然后转为word 文档;网站资料去除图片、链接、格式转为统一格式的word文档等。
3.2 语料文本纠错与翻译
经过初步整理文本资料,发现很多语料存有各种类型的翻译失误。于是课题组成员对所有资料进行二次筛选,保留翻译质量相对优秀,可供使用的其他资料。但即使这一部分资料,细加审查之下也有各种各样的翻译失误。课题组成员又对保留下来的资料进行了纠错工作,着重处理了语言性错误以及文化性错误,同时兼顾纠正语用错误和文本特有错误。
针对上步排除的部分翻译质量低劣,不可修改的原始资料以及没有英译却存在一定数量的高质量的汉语公示语,进行了重新翻译。为了保证翻译的英语公示语的质量,课题组在组织专业人员进行国内外相似中英文公示语语料的搜集完成初步翻译,再辅以三次校对,第一、二次由中国老师完成,第三次由外籍教师完成,以保证英语译文公示语尽可能准确、地道,兼具代表性。
3.3 语料标注与对齐
语料收集、加工、整理完成后,下一步的工作就是按照标准将整理后的语料入库,建设成完整的语料库。
3.3.1 中英文公示语语料对齐
语料对齐(alignment)指将源语语料与译语语料分别保存,并使两个文本中的语料按段与段或句与句的关系一一对齐。这一工作至关重要,否则语料库检索软件ParaConc无法对建成的“石家庄公示语平行语料”中的语料进行处理。目前,现有的句与句对齐软件处理准确率不是很高(约60%)。所以本研究首先由人工通过Word工具完成段与段对齐的工作,再进一步通过软件处理与人工排查,最终达到句子层级的对齐。最后,通过Paraconc进行检验,以确定全部文本已经达到句与句对齐的效果。在语料实现对齐后,文本转换为XML格式,这样就能让语料库以多种语言格式编码,以便传播与检索。
3.3.2 中英文公示语语料词性赋码
词性赋码(POS Tagging)指把语料中的有用信息用一组符号系统标注出来,是为语料库付以“增值”的效果,目的是从中提取远远超过从生语料库中可以提取的信息,使语料发挥更大的作用,从而适应更多的研究需要。本课题中文公示语的标注采用中国科学院计算技术研究所开发的ICTCLAS汉语分词软件,据中科院计算技术研究所网页介绍,该分词系统的分词精度可以达到98.45 %;英语公示语的标注采用CLAWS4,CLAWS是兰克斯特大学研制的一种基于概率的词性附码工具,据称该软件赋码的准确率可以达到97 %。为了提高中、英文公示语语料标注的准确性,经过软件标注后的还需要经过人工校对与修正。
4 石家庄公示语汉英平行语料库的应用及其价值
石家庄公示语汉英平行语料库将大量实际应用中的较高质量的公示语汉英翻译语料收集、整理、纠错修改后整合起来提供给所需的用户进行检索使用,这对于译者、对于外语翻译研究、对于石家庄市相关管理部门以及其他省市都具有较强的实用意义和参考价值。对于译者而言,该语料库可提供参考,助其查询具体字词在实际使用中的译法,有助于加快其翻译速度,提高其翻译质量。同时语料库主要通过探讨如何从一种语言转换成另一种语言,比较原文及译文中的语言特征及其出现频率来研究翻译过程。如探讨公示语的中国文化、修辞等现象的翻译方式。通过该“石家庄公示语平行语料库”将上述句式的翻译情况进行总结与归纳,可以从中寻找并发现一些中英转换的规律和特点,为建立一定的翻译规范提供依据。对于石家庄市以及其他省市相关管理部门可直接使用其中资料,为相关部门准确、地道使用公示语英文提供翻译支持。
5 结语
虽然在石家庄公示语汉英平行语料库建设过程中,课题组付出了很大的努力,但仍存在一些不足。首先,课题组成员在公示语语料库建设方面的研究比较少,且缺少地方公示语语料库资源的借鉴,在语料库设计上会花费较长时间。其次,相比于收词量千万的大型语料库,石家庄公示语汉英平行语料库的语料总量仍嫌单薄,以后尚需进一步充实。最后,一些研究者缺乏相关语料入库的计算机知识,而后期语料库的构建技术上需计算机专业人士进行架构,但其又缺乏相应的语言知识,导致语料标注、入库过程容易出现差错。
[1]董李鹏,高东怀等.陕西省旅游景区公示语翻译语料库系统的设计与实现[J].中国教育信息化.2012(23):54~59
[2]王克非.双语对应语料库研制与应用[M].北京:外语教学与研究出版社,2004
[3]王克非.新型双语对应语料库的设计与构建[J].中国翻译,2004(6):73~75
[4]王克非.双语平行语料库在翻译教学中的用途[J].外语电化教学,2004(6):27~32
[5]吕和发,蒋璐.公示语翻译[M].北京:外文出版社,2011
[6]李德超,王克非.基于双语旅游语料库的DDL翻译教学[J].外语电化教学,2011,(1):20~26
[7]李德超,王克非.新型双语旅游语料库的研制与应用[J].现代外语,2010(1):46~54
[8]常宝宝,俞士汶.语料库技术及其应用[J].外语研究,2009(5):43~51
Design and Construction of a Chinese and English Parallel Corpus of the Public Signs in Shijiazhuang
SONG Jian-wei WU Hui
(Shijiazhuang Institute of Railway Technology Shijiazhuang Hebei 050061 China)
Based on the concept of Corpus Linguistics, this paper falls into eight categories of Shijiazhuang public signs according to its features. Then, the authors introduces the specific process and methods on establishing the Chinese-English parallel corpus about Shijiazhuang public signs. At last, they analyses possible applications and defects of the corpus. This is of considerable significance for the improvement of the translation in this field and the enhancement of the international image of Shijiazhuang City.
public signs parallel corpus design establishment
A
1673-1816(2014)04-0092-04
2014-10-16
宋建威(1980-),男,汉,河北深州人,硕士,副教授,研究方向英语教学与翻译。
本文系2013年河北省高等学校人文社会科学研究青年基金项目:《基于平行语料库的石家庄公示语翻译个案调查与研究》部分研究成果(课题编号:SQ136008)