基于英汉双语平行语料库构建及应用研究
2023-11-22吕雪芬
吕雪芬
(皖江工学院基础部,马鞍山 243000)
语料库已经广泛运用于语言学的各个方面,如语言学习、语言交流、语言翻译等。平行语料库属于双语语料库中最重要的语料库之一,是指能将源语文本与其译语文本进行全文检索并对照显示的语料库。与单语料库、字典、词典等比较,具有独特优势,如具备双语对照、时效性高、语言应用领域广泛等,可广泛运用于语言翻译研究、教学、培训、双语比较等,也可以作为各类培训教学辅助工具使用[1]。此外,近些年来,随着大数据技术开发与深度学习的快速发展,使双语平行语料库在翻译领域得到更加广泛的运用,由此成为学术界研究的热门领域。因此加强英汉双语平行语料库的构建及应用研究,对于研究英、汉两种语言教学均具有重要的现实意义。
1 相关概念与理论
1.1 语料库
语料库是指为了便于语言研究,依据一定方法、原则,采集与组织口头与书面自然语言的作品的集合体[2]。英汉双语平行语料库是指采用英、汉两种不同语言进行平行对照、对齐的一类新型的语料库,通过利用语料库,对英、汉两种不同语言进行语言比较、翻译以及编写两种语言词典等研究,具有深厚的潜在研究价值[2]。
1.2 建构主义学习理论
建构主义学习理论是在20世纪60年代由瑞士心理学家皮亚杰首次提出来的。其核心内容是以构建作为学习目标,学习者主动、积极学习作为主体,而教师与环境仅具有辅助作用,是间接地促进、帮助学习者进行学习。建构主义主要强调两大内容,一是强调学习者认知主体作用,即主动、积极学习;二是强调教师辅助、指导作用,教师扮演帮助者角色。建构主义是在吸收、借鉴相关理论的基础上,提出来的一种新型教学思想,尤其对于语言教学有着重要的影响与作用[3]。建构主义学习理论是在21世纪初才引进我国,并在外语教学领域产生了很大的影响。
2 构建英汉双语平行语料库
双语语料的难度主要表现在语料采集、对齐整理等方面,因此相较于单语语料库的构建,无论是在语料收集还是语料整理上均表现出一定难度。英汉平行语料库构成的核心主要有两部分:一为电子文档形式,主要运用于储存电脑中;二为定位搜索软件,主要运用于管理语料。因此本文研究英汉双语平行语料库构建,从这两方面着手[4]。
构建英汉双语平行语料库的目的主要是便于教学,构建的宗旨将会要求整个语料库必须具备兼收并蓄功能,在语料选择方面,尽量选取那些与教学有关的语域,并且还要与学习者语言与兴趣相符。
2.1 总体设计
英汉双语平行语料库总体设计如图1所示。
图1 英汉双语平行语料库总体设计
构建英汉双语平行语料库的目的,是为了便于更好地对英汉双语进行教学、翻译、研究。 本文构建的英汉双语语料库的规模为中小型,字词大约在100万左右,研究者能够随时依据研究的实际需要增加英汉相对应的语料。语料选材,其规则通常涉及到每个领域,同时还要保障选择语料的均衡性。英、汉两种语言比例,指全语料库中包括了数个不同类型的数据库,其中有英语原文数据库、汉语原文数据库、英语与汉语互译数据库等,在这些数据库中,英、汉两种语言分别各占一半。子库设置,在正式打开搜索平台过程中,依照实际需要调入不同的子库文本。本文按照不同的语言材料类型,把语料存为独立版本及各种层级相连的子库,即设置了英、汉两个单独版本的总语料库。
2.2 语料采集
在互联网上能够搜索、下载到非常丰富的英汉对照语料,比如英汉对照的各种图书、新闻、文字、图片等,是采集相关语料最主要的来源方式。由于互联网资源是动态变化的,所以应经常搜索,及时下载。其搜索形式应以“英汉对照、双语对照 ”等词语作为搜索词,借助多种不同引擎进行搜索,每一次都会带来不同的收获。此外也可以利用国内大型的英文学习平台,从中寻找有关英汉对照文本。不过,为了采集到一些特殊语料文本来提高语库中的语料质量,采用扫描仪收集语料也是不错的方法,因为当前扫描仪技术比较先进,识别率较高,为录入所需要文本带来极大的便利性。
2.3 语料整理
通常Paraconc1.0软件在处理双语语料过程中,一定会进行双语语料对齐。所谓语料对齐,是把原语与译语分开,各自独立储存于一个文本中,但是要使这两个不同文本中的语料相互对齐,对齐方式主要分为两种:一种是各段相互之间对齐,另一种是各句相互之间对齐,而平行语料库是以各句之间自动对齐作为研究核心。因为英语句与句之间表现出近似性,已有专门的计算机软件,比如Multiconcord软件就可以自行完成各句对齐,但是由于汉语与英语两种语言之间具有明显的区别,比如标点、句式以及语法等,因此在翻译实践中,一般不以句作为单位进行翻译。目前自动句对齐的精准性不是很高,仅达到了60%,此工作仍需要通过人工来完成。尽管句对齐有益于搜索之后的英汉双语比较,但是考虑到语料处理起来比较困难,本文运用各段相互之间对齐,对于教学来说,更加有利于获取丰富的语境。Word软件是平行语料库中所选择的第一个对齐整理工具。(1)运用Word软件查询替换功能把语料文本中相关字符清除,比如多余硬回车符、以及段首空格等。该语料库文本主要指下载过程中使用的一种纯文本形式进行粘贴。例如借助于查找“^P^P”,而且还把它替代成“^P”(^P作为段落标志),可以快速地删除多余空行,其它技巧可在实践中学习。(2)把所采集到的英、汉双语语料依照英、汉两种语言单独分开进行copy到两个不同的文本中[5]。(3)再借助“格式/项目符号”在英汉平行语料库中,在各段落之前均增添一个段落符号,在此选取数字。只有采用此方法,两个文本中每段语料之前均添加了段落符号。(4)再对这两个文本中的英汉段落是否对齐进行核对,倘若未对齐,还将对段落进行合理拆分处理。此外,如果段落篇幅过长,将对搜索之后语句对照带来不利影响,需要将较长的段落拆分成数个较短的段落。
2.4 数据组织形式选择
2.4.1 采用EML对英汉双语平行语料库的语言进行标记及多用户并发操作形式 采用EML对英汉双语平行语料库语言进行标记,而且立足于此,设计群组分布式操作(多用户并发操作)形式。英汉双语平行语料库由多台联网计算机共同构成,其中有一台计算机替代服务器,该服务器中储存了非常丰富的数据,其它计算机则借助于局域网访问服务器,再通过服务器而取得需要处理的相关数据。在此类运作形式下,用户通常只要与服务器进行连接就能够应用英汉双语平行语料库[6]。
2.4.2 基于句子作为储存的基本单位 本文所构建的英汉双语平行语料库主要由英、汉两种不同的语言构成,在对其数据库进行设计时,基于语言学的维度,重点对这两种语言进行研究。在计算机对英、汉两种语料实现处理过程中,还要分别对这两种语言进行处理,比如对前者需要实现归类识别,对后者需要实现词性标注。英汉双语平行语料库,比较适合借助句子数据库进行储备与保存,可将语料库中的词性标注工作转交给相关分词计算机系统进行处理,此工作在构建检索平台时期就能够完成。此外,为了更加有利于语料的选取与维护,还需要将语料实现合理归类、储存。文本语料归类与命名依据“先语域,再加标题;或者来源,再加语言”的原则进行实施。关于语域大致可以分为散文、应用文、新闻、口语等,再依据语料来源进一步细分。两个平行文本中的文件名应该统一,只不过最终各自增加了不同字母符来分辨不同的语言文本,通常增加的字符为“chn”或者“eng”[7]。
2.4.3 运用关系型数据库 在当前语料库领域,应用最广泛的数据库为关系型数据库,该数据库管理系统类型丰富多彩,比较著名的数据库有Oracle、DBZ以及SQLServer等。由于SQLServer数据库带有客户/服务器结构,在数据处理方面具有较强的功能,本文构建的英汉双语平行语料库也是采用该类型数据库。
3 英汉双语平行语料库应用
3.1 英语学习应用
通过检索英语关键词,可从英汉双语平行语料库中查询到非常丰富的词汇、搭配以及构词法等方面的真实语料或案例,给英语学习者带来极大便利,有助于英语学习内化。因此英汉双语平行语料库不但具有替代英语单语语料库的功能,而且还能够借助相应的中文译文,了解到英语难点以及所表达含意等,有利于学习者对英语词义进行准确了解、掌握,同时还能够掌握相对应的不同汉语等词语。
3.2 汉语学习应用
通过检索汉语关键词,可查询到与汉语所对应的英语表达形式。倘若与英语词典、汉语词典等进行比较,那英汉双语平行语料库表现出很多优势。由于语料包含内容较多、更新速度快、语境颇丰,可以检索到汉英词典中许多无法提供的内容,尤其能够检索到一些比较新的词语比如新冠疫情、二次元、给力等。此外,还具有良好的搜索功能。通过对关键词进行搜索,尤其对于那些间断性、搭配性词语搜索,能够对两种语言互译等实现全面查询。这有利于揭示双语相互转换对应关系,以及选择最优翻译对等词,从而使英语表达能力更加丰富。例如以“与自己过不去”作为研究对象分析本文构建的语料库对中文翻译成英文调查的较大影响。搜索结果具体见图2。
图2 搜索结果
此外,还有:(1)If things must go contrary with me, and I must go contrary myself let me go contrary in my parish.
(2)I am heavy company for myself.
(3)to be the torment of myself.等,(实例略,以上都来源于《大卫.科波菲尔德》)[8]。
倘若把汉语表达式扩展成为“与……过不去”,就能够获得更多的例句,比如:(1)与大家过不去的就是你/It's you who can't get along with everyone.
(2)他认为王先生总是与他有点过不去/He thinks Mr. Wang always has a bit of a problem with him.
(3)她有意与弟弟过不去,惹他生气/She deliberately had trouble with her younger brother, making him angry.
语料库不但可以提供非常丰富的英汉双语对照实例,而且还能用来对各种不同主题或者话题进行查询,具备文本库的功能。倘若以“生活、计算机、工作”等为关键词能够查询到许多与之有关的内容,双击所需要语言实例还可以弹出另一窗口,再通过此窗口,将会显示该语例所在的更大语境,这将有利于促进语言表达深度与广度进一步扩大,以便于达到符合以主题作为核心教学的策略。
3.3 英汉翻译教学应用
英汉对译的句子与篇章均是由双语平行语料库或者它的索引所提供,所以学习者能够做各种不同类型的英汉互译练习,年级较低或者成绩较差的学习者能够借助于汉语的翻译解释更好地理解英语相关知识,学习者还能够利用对英语与中文两种语言文章来加强对英语与汉语知识的理解与掌握。
3.4 双语情景教学应用
学习者倘若要进行词语练习,可以通过英汉平行语料库索引所提供的相关语境,通过观察实际应用过程中语境的词语搭配、语法规律的应用频率,以及语法有关书籍、文章中所阐述的概念与语法规律,从而挖掘出更精准的概念与语法规律,使学习者学习过程转变成自我发现与探索过程。而教师基于英汉平行语料库的词频统计数据,能够知道哪些词汇用法需要学习者掌握,需要在实际教学中投入更多时间。在对意义与用法进行搭配或注释,能够通过语料库搜索软件在语料库中找到以此语言作为母语的人,以及对此词的应用或者搭配的例句[9]。
3.5 双语语言练习应用
借助于语料库索引所提供的相关信息,例如词汇搭配、词语应用频率以及实际语境等,能够开发出英汉双语各种不同练习,比如语汇练习、近义词练习等,从而有效减少教师教学的工作量,使题目更接近现实,更具可靠性。
4 结 语
随着互联网的快速发展,英汉双语文本日益丰富,为采集英汉双语语料带来了极大的方便,对于构建英汉双语平行语料库发挥重要的作用。不过英汉平行语料库构建也可以通过小组共同协作,或者通过网络与有着同样兴趣、爱好的人交换语料。也可组织学习者自行、主动去采集、整理相关语料,不但能够培养学习者构建语料库的能力,而且还能够加深对语料库的认识与兴趣。总之,构建英汉双语平行语料库仅需要设计明确的目标,遵循统一、规范的原则即可。此外,由于英汉双语平行语料库受到自身条件的一些约束,它无法完全替代单语语料库,这两种语料库具有很强的互补性。