基于语料库语码转换在汉英翻译认知加工中的应用研究
2021-12-02王卉
王 卉
(铜陵学院,安徽 铜陵 244061)
一、问题提出
语码转换是指在同一对话条件下,使用不同的语言变体形式的一种语言现象。由于它具有多维度的特点,因此可以在英语翻译中满足不同类型的需求,这种方式已经成为最受关注的语言接接触现象。近些年,语码转换被应用在不同的学科领域中,对于语码转换的研究多集中在心理学、翻译学和脑科学中,使用这种方式可以将单一的语言功能进行扩充,对于翻译过程中的认知加工可能存在一定的影响。目前的语码转换已经有较多学者进行了研究,其中,程晓丽(2019)从社会文化理论的角度,分析了课堂语码转换应用中存在的问题,发现在课堂中需要从宏观微观、动态和静态两个角度来将不同的语言进行合理的应用[1];陈忠怡(2019)通过实际的调研发现中小学英语教学中存在语码混乱的现象,这严重阻碍了小中小学英语教学的有序开展[2];王平(2020)认为在语码转换中需要强调说话者语言本体的含义,正确理解语码转换与超语的差异性,合理地利用对应的语言表达方式,这样才能有效避免歧义内容的出现[3]。虽然现有的语码转换无论从语言形式上还是从句内研究模式上都较以往更为复杂,但是目前的句法仍缺乏经济性、统一性和普适性。在研究方法上,目前的语码转换大多采用定性描述和举例的方法,多从翻译的句法和词汇专业角度来进行分析,缺乏对单个词汇的整体认知研究。基于以上问题,本文的核心在于解决语码转换在汉英翻译认知加工中存在的问题。研究者以语法依存为理论依据,将依存距离和依存方向作为衡量指标,分析语码转换对于汉英翻译句法变异的影响,以句法为研究对象,通过句子阅读心理实验验证和自控步速实验,给予语料库,分析了单个词汇语码转换认知加工影响因素,以期为汉英码转换的应用提供一定的研究思路。
二、文献综述
语码转换已经成为各个领域学者研究的热门课题。其中,陈菲和王斌(2017)认为在网络语言中,大量的语码转换现象已经被大众所接受,通过对互联网语码转换的特点分析,发现语言实现和心理动机会的提高会导致语码转换的主动性较低[4];Shan等者(2019)引入了多任务学习方式,将语言身份信息融入基本的汉英交流中,通过采用迁移学习的方式,将大量的单语普通话和英语数据用来补偿语码转换数据存在的稀疏性问题,最终在汉英翻译中的错误率仅为6.49%[5];Suurmeijer等(2020)研究了不同场域下,语码转换前后切换位置和切换方向与混合句子处理之间的关系,发现混合语句处理前后语码转换对于句子位置没有显著的影响,但是语码转换会影响翻译的句子匹配程度[6];郭婵婵(2020)通过分析10年国内的语码转换发展过程,发现虽然近几年国内语码转换研究较多,但是这些研究多集中在采用社会语言学的角度来分析语码转换存在的问题[7];Lee等(2021)提出了一种新的汉语代码转换自动语音识别方法,该方法充分考虑了汉语使用者在英语发音上的语言差异性,通过语义与目标域相似的句子,利用语言模型的自适应来处理因训练数据不足引起的模型偏向问题,发现这种方法的错误率减少到了11.6%,纠正率提高了24.2%[8]。
汉英翻译作为现在我们文化和思想的输出的主阵地,受到了越来越多学者的重视。其中,蔡强和董冬冬(2020)通过使用神经网络的方式来构建了汉英翻译系统,发现科技论翻译的错误目前主要集中在词汇、句法、逻辑等方面上,且出现的错误频率逐次递减,针对上述问题,作者提出了对应的处理策略[9];李奉栖(2021)通过对翻译学生汉英翻译作品在衔接手段与专家组的文章进行差异性分析,发现目前翻译专业学生在翻译中存在人称应用不足,词汇过度重复,不善于应用词语衔接等问题[10];通过将汉字分解成类似于印欧语系的语言单位,来启用中文字符级方式,使用Wubi编码方案和卷积神经网络来处理对应的语义数据,发现该方案不但保留了字符的原始语义信息,还具有较好的模型预测结果;Li和Yu(2021)采用系统功能语言学方法,研究了中英文翻译过程中存在的问题,研究发现翻译人员可以使用多种选择方式,去除和保留形合关系的选择比简单地将形合改变为形合意的选择更为频繁[11]。
对于语码转换已经有多个学科进行了研究,其中,语言学更加关注语码转换引起的语言和社会动因变化,在教育学中,则更多的是研究双语或者多语方式在课堂教学中应用的实际效果,人类学主要用于研究种族文化、语言认同的关系研究,而心理学和脑科学中需要研究语码转换的心理机制、动因或不同语言转换可能存在的大脑分布情况,在句法学中,更多的是研究语码转换的分布和限制规则。对于语言翻译过程,通过语码转换可以有效提高翻译效率和深度,因此本文聚焦该问题,通过实际的语料库来分析语码转换在汉英翻译认知加工中存在的问题,针对相关的问题分析其内在的机制机理,并最终提出合适的解决方案。
三、语料库搭建测试
(一)语料库构建
基于语料库的方式是自然语言处理领域研究的热点问题。部分学者通过将句式、词义和语篇等内容标注分类构建成对应的库文件。本文采用语料库是根据依存语法标注的,主要由于该种方式不但能够进行词类的定量分析,还有助于找到不同句子的依存关系,与未经标注的句子相比,经过建库的句子具有更多语言句法结构。研究者收集了主流媒体上的内容作为语言库的构建,对于库的内容以两者报道同样的内容为参考依据,其中汉语库包含23,706个词语,而英语库包含792,819个单词,采用统计学软件按照支配词、从属词的对应依存关系进行合理分类。
本文构建的汉英语码转换依存树库包含19,766个词汇,其中,汉语为17,268个,英语为3698个,其中有186,952个依存关系,汉语单语依存关系(C-C)为13,698个,英语单语依存关系(E-E)为1,586个,汉语支配英语从属混杂依存关系(C-E)为1,596个,英语支配汉语从属混杂关系(E-C)为1,769个。我们采用依存关系、依存距离、依存方向作为衡量指标,根据统计的结果来分析语码转换对于汉英翻译的影响。
(二)依存关系分析
对于语码转换在汉英翻译中的应用,我们主要选取依存距离、依存方向两个维度来分析,其中依存距离是汉英翻译分析中的重要指标,主要是指支配词与从属词之间的线性距离,依存距离可以帮助理解句子的难度,依存距离越大,句法分析的难度就越难。另外依存距离还与助理理解支配词前后的语言顺序,有助于自然语言句法的分析。对于汉语语言来说,只有60%的从属词与支配词相邻,这明显低于现有的英语平均水平78%,也低于德语平均水平的65%。汉语语序中支配词的依存距离远远大于支配词。另外依存距离还可以测量人类语言生成和理解的认知加工难度。平均依存距离是将不同的句子的所有依存距离进行求和平均,确定文章的平均从属词与支配词之间的关系。依存方向语言词序类型分类的有效指标,有的文章从属词位于支配词之前,有的文章从属词位于支配词之后。通过平均依存距离可以发现句子中存在的变异机器语码转换加工消耗程度,在汉英语码转换中包含单语依存和混杂依存两种关系,而语码转换多出现在依存较长的句法中,且混杂依存相比单语依存具有更长的平均依存距离。
四、依存效应分析
(一)依存变异效应分析
通过数据分析可见,相比于单一的汉语和英语平均句长来讲,基于语料库的平均句长更长,且具有显著性差异(p〈0.001),而对于依存距离,基于语料库的语言与单一汉语语言具有相同的平均依存距离。通过对相邻词间的依存关系和支配词局前后的占比情况,分析发现三种语言形式的相邻词间依存关系占比基本一致,单一的英语语言占比稍高为51.3%,而基于语料库的相邻词汇之间的依存关系占比为48.3%,高于汉语依存关系中的47.9%。支配词局占比前最多的为语料库和英语语言,而在支配词之后汉语占比明显提高。基于以上数据说明了在依存方向上,汉英语码转换库中存在词序变异现象。
为了进一步明确基于语料库的语码转换在汉英翻译中混杂依存效应与单语依存效应的关系,将本文地语料库与前人研究的成熟Eppler语料库进行对比分析,发现在单语依存的汉语为支配英语为从属的依存距离显著大于英语为支配汉语为从属的依存距离(p〈0.05),而混杂依存的汉语为支配英语为从属依存距离也极显著的大于英语为支配汉语为从属依存距离(p〈0.01)。单语依存中汉语为支配英语为从属依存距离显著大于单语英语依存距离(p〈0.01),但是在混杂依存关系中却相反。这主要是由于对于语言红的支配词与从属词会随着依存距离的变化而产生变化,其中依存距离越长,语码转换的可能性就会越高。我们取平均值进行了对比发现本文提出的基于语料库的语码转换与Eppler单语依存关系均小于混杂依存关系。以上结果证明了:语码转换较为容易地出现在具有较长依存关系的句子中。
(二)单语依存效应分析
为了进一步明确语码转换在长距离汉英翻译句法关系的作用。研究选取了常用的四种依存关系CC、C-E、E-E、E-C,采用四种主要的Subj-主语、Obj-宾语、Atr-定语和Avda-状语来分析不同句法中的词汇关系,图1(a)为汉语单语和英语单语中四种句法依存关系结果,从图中可以看出:不同的句法关系和依存类型均具有不同的平均依存距离,而相比于英语来讲,汉语的平均依存距离更长,其中差异性最大的为主语,达到了极显著的水平,这主要是由于汉语中特有的短句或者结构性语句作为了主语,如:被、把、将等词语会被放置于主语的后面或者动词的前面,如图1(b)所示,我-当之间的依存距离在汉语中由于介词的存在使其依存距离为3,而在英语中Itreat之间仅仅为1的依存距离。
图1 汉语与英语单语在不同句法中存在的差异性
对于汉语的宾语和英语的宾语之间的依存距离也具有显著的差异性。其中汉语单依存的关系为40%,但是在英语中却高达60%。汉语中:我买了这本书,动词与名词之间的依存距离为4,但是英语中I-bought之间的依存距离仅仅为1。由此可以看出,对于语码转换可能在汉英翻译中通过词汇关系来判断并确定这种依存距离。
(三)混杂依存效应分析
为了进一步明确混杂依存关系中汉语句法相比英语句法具有更长的平均依存距离的原因。我们分析了汉语单语和以汉语为支配英语为从属的混杂依存关系中不同句法之间存在的依存距离差异性,发现:在混杂依存关系中主语和宾语发生语码转换的频率明显高于定语和状语,其所有的句法中均相比单语依存关系具有更长的依存距离,大部分的主语和宾语平均依存距离均大于2,而主语发生语码转换的频率相对较低,在状语中汉语的依存关系明显高于汉英过程。这也就说明了发生语码转换的主语和宾语会处于整个句子的边缘中。
如图2所示,分析了英语单语和以英语为支配汉语为从属的混杂依存关系中不同句法之间存在的依存距离差异性,图a对应的依存距离关系,发现在混杂依存关系中定语发生语码转换的频率明显低于主语和状语,大部分的英语从属词都为形容词和名词,从英语到汉语的平均依存距离比从英语到英语的更长,主语中平均依存距离大于2的占比为90%,但是在英语中仅仅占比为20%,但是在英语中主谓语序平均依存距离更长,这就说明了语码转换的主语会在汉英翻译中被转移到边缘中。图b为具体的实例,其中在没有经过翻译的结构中理解-一切的平均依存距离为5,但是在翻译后缩短了平均依存距离,这understand-everything的距离仅仅为1。由此也就说明了,混杂依存会提高英语句法的平均依存距离。
图2 英语单语混杂依存关系中不同句法之间存在的依存距离差异性
(四)词序变异效应分析
如图3所示,图a为语码转换汉英翻译的主要词序分布情况,其中汉语单语依存中支配词前后的依存关系为60.9%,支配词在前部分的分布为39.1%,这也就说明了汉语是支配词居后的语言,而在英语中由于句法结构的不同,支配词居后的依存关系占比为48.1%,支配词局前的依存关系占比为51.9%,这也就说明了英语是支配词居中的语言。图b为不同语言形式依存关系分布情况,发现汉语到英语中的支配词前占比较高,而在支配词后的占比较低,对于英语到汉语的翻译过程,支配词后的占比较高,对于支配词后的占比较低,这主要是由于混杂依存类型中依存方向中的不同导致了语码转换的词序变异,从而影响了汉英翻译的质量。
图3 汉英语码转换单语和混杂依存分布与句法依存关系分布情况
如图4所示,图(a)为不同句法类型中的依存关系分布情况,发现在英语到汉语的翻译过程中,支配词居后的类型高于支配词居前的依存关系,与英语到英语的翻译过程,英语到汉语中定语额状语的分布情况较高,这可能是英语到汉语翻译过程中宾语的分布较低引起的。图(b)为单语和混杂依存关系在不同句法关系中依存分布情况,发现英语到汉语翻译过程中定语和状语的依存方向大部分为支配词居后,而宾语中的支配词相比会稍微靠前,由此可以看出:定语、状语比例决定了支配词居后的依存关系。
图4 英语单语混杂依存关系中不同句法之间存在的依存距离差异性
五、结果讨论
本研究构建的依存库核心是分析真实的语言结构,通过相同手法的有效标注,也为的定量化问题提供了数据支撑。从句法结构上看,相比于单一的汉语和英语语料,本文构建的语料库在相同的支配词前提下具有更长的依存距离,这也进一步证明了关于语码转换中难度变换的假设。但是在语码转换汉英翻译中,由于基于语料库的平均依存距离高于单独的英语依存距离,但是该值仍在一定的范围内,这与前人的研究保持了一致性。对于语法关系,研究发现语法在句法结构中扮演重要的角色,其中在混杂依存中平均的依存距离会比单独的方式更为可靠,尤其是在语码转换中汉英翻译,其中英语支配汉语从属在平均依存距离上高于汉语支配英语从属,其中主语、定语和宾语会在语码转换中由于汉英翻译的特点进行一定程度的调整。这种方式虽然暂时没有相关学者论述,但是在这在相关文献中也有所提及。在句语法关系中,单语依存和混杂依存中词汇的分布差异性导致了依存方向上具有不同的变异现象发生,虽然汉英之间存在语言的差异性,但可以借助语料库和翻译来降低文化差异性,从而提高翻译效率。
本文在分析语码转换在汉英翻译中存在问题的基础之上,从句法和认知两个角度入手,通过真实的语料库进行构建,从依存距离和依存方向为衡量指标,利用定性和定量两种方法对比来分析不同依存条件下的语码转换句法和词汇之间存在的差异性,其中,语码转换主要存在依存距离和方向的词序变异,混杂依存相比单语依存具有更长的距离,句法关系在不同依存的分布情况决定了依存方向的差异性,而语码转换在一定程度上可以改变汉英含义中的词类分布情况。虽然本文解析了其语码转换中汉英翻译认知加工中存在的问题,但是文中还存在诸多的不足:首先,虽然通过自建的语料库来对不同语码转换和句子变异问题进行了分析,但是都采用了相同的标注手段,而不同的语料建库方式会对最终的翻译结果产生较大的影响;其次,在本文仅仅针对语码转换在汉英翻译中的认知加工方式进行了简单的解析,并没有深入地挖掘其内在的其他学科方面的内容。后续研究者会在这两个方面进行深入的研究分析,进一步完善语料库有效解析其内在的机制机理。