英汉学术语篇元话语对比中的语料库定量研究方法探究<br/>——兼向蔡基刚教授请教与商榷

英汉学术语篇元话语对比中的语料库定量研究方法探究
——兼向蔡基刚教授请教与商榷

2019-01-30穆从军LawrenceJunZhang张军JohnEhrich洪化清

浙江外国语学院学报 2019年1期

穆从军，Lawrence Jun Zhang（张军），John Ehrich，洪化清

（1.上海海事大学外国语学院，上海 201306；2.新西兰奥克兰大学教育学院，奥克兰 1023；3.澳大利亚麦考瑞大学人文学院，悉尼 2109；4.新加坡南洋理工大学学习研究与发展中心，新加坡 637335）

一、引言

蔡基刚教授（2017，以下简称蔡文）从功能与形式、显性标记和隐性标记、字词比例以及对比基础四个方面对Muet al.（2015，以下简称 Muet al.文）中的语料库定量研究方法提出了质疑。正如蔡文所说，英汉学术语篇元话语对比中的语料库定量研究设计“有很大的现实意义”（蔡基刚 2017：1），设计缺陷会影响研究结论的可靠性。这个问题的探讨主要涉及到对比语言学、语料库语言学和统计学。我们在此从研究设计理据和研究目的、语料标注、对比基础以及统计方法四个方面向蔡教授请教商榷，以促进相关问题研究的深入开展。

二、英汉元话语对比研究设计理据和研究目的

Muet al.文属于对比语言学研究。对比语言学是对两种或两种以上语言进行共时或历时对比研究的语言学分支学科，其目的是为了描述两种语言之间的异同，特别是其中的不同之处，并将研究成果应用于语言和其他相关的研究领域（潘文国、谭慧敏 2006；王菊泉 2011；许余龙 1992）。语言比较可以不限于同一语系和同一起源的语言，“对差异巨大、起源迥异的语言也可以进行比较”（王菊泉2011：9）。对比语言学可分为理论对比语言学和应用对比语言学，前者解决对比研究中的语言可比性、对比基础、对比方向、语料选择和对比步骤等理论方法问题，后者探讨如何将对比结果应用到外语教学、翻译等领域中去（许余龙 2010）。对比基础（tertium comparationis）是对比语言学中的重要概念，它“是两种或两种以上语言进行对比描述的出发点或参照点，是语言中普遍存在的（或两种语言所共有的）某种属性或范畴等现象”（许余龙1988：28），只有既处于同一个层面又具有某种相似性或对应性的两个项目才具有共同的对比基础，也才有可比性（王菊泉 2011：15）。Muet al.文是在篇章层面上对英汉语中共有的元话语现象（Hyland 2005；李秀明 2011）进行对比研究，元话语是对比的出发点，对比方向是英汉对比，为英语学术论文写作和教学服务。

进行语言研究所使用的语料库按照不同的标准有不同的分类，比如，按时间分有共时和历时语料库，按语种分有单语和双语或多语语料库，按用途分有通用型和专用型语料库（胡开宝2011：32）。许余龙（2010）把对比语料库分为平行语料库和语域对应语料库。平行语料库也叫翻译语料库，即由源语文本及其平行对应的译语文本构成的双语语料库，它要求语料库实现句、段层面的对齐（Hunston 2002：15；Grangeret al.2003：19；梁茂成等 2013：5；王克非 2012：10）。语域对应语料库也叫可比语料库或类比语料库，即由不同语言的原创文本或同一语言的不同变体文本构成（卢植 2013：9）。平行语料库和可比语料库都可以用于语言对比研究，但它们各有利弊。平行语料库的优点是“译语文本和原语文本已经建立连接，双语形式的对应直观易见，便于确定被比对象并进行量化信息处理”（卫乃兴等 2014：5）；缺点是“译文语言并不能充分反映该语言本身的实际使用情况”（许余龙 2010：36），这是因为“翻译文本一直被视为非自然的，偏离语言常规的语言变体”（胡开宝 2012：62）。可比语料库的优点是能够反映两种语言真实的语言特征，缺点是“不具有语义上的对应性”（许余龙 2010：156）。但是，许余龙（2010：170）认为，“要比较不同语言之间在篇章语义结构上的异同，我们必须分析操这些语言的人在将一组概念和命题缀合成篇章时所惯用的方式。这种对比通常采用语域对应的篇章语料来进行，Kaplan 称之为对比修辞学”。Moreno（2008）也指出对比修辞研究一般要用两种原创语言文本进行对比，因为对比修辞研究的是两种原创语言文本的特点，翻译和二语文本还不能充分回答对比修辞研究问题。

对比语言学和语料库语言学都认为，选用什么样的对比语料和语料库是由研究目的来决定的（梁茂成等2013；许余龙 2010）。Muet al.文研究的主要目的是比较英汉学术论文在元话语使用方面的异同点，为中国学者的国际学术期刊论文写作和学术英语写作教学提供参考。因而语料的选择最好能分别代表英语源语文本和汉语源语文本元话语的特点，这就是为什么我们选择国际SSCI 应用语言学期刊论文和国内CSSCI 应用语言学期刊论文作为语料的原因，它们分别代表了英语学术共同体和汉语学术共同体比较认可的学术语篇，能够在一般意义上体现两种语言的元话语特征。因此，Muet al.文虽然没有明确所建何种语料库，但其语料库可归于可比语料库，而不是蔡文所说的平行语料库，因为可比语料库和平行语料库的建库思路是不一样的。Muet al.文所进行的是英汉学术语篇层面的元话语对比研究，属于对比修辞学范畴（许余龙2010）。对比修辞研究（如Connor 2001）认为，不同语言文化有不同的修辞习惯或偏好，这种修辞偏好只有差异，而没有优劣高下之分，因而这项研究并没有得出“英汉学术文章的逻辑性和连贯性差”（蔡基刚2017：2）的结论，其目的也仅止于说明英汉学术语篇的修辞偏好而已。不过，在第二语言写作中，母语修辞习惯或偏好会在有意无意中影响目标语写作，可能会给目标语读者造成阅读不适（Connor 2001）。对比英汉学术语篇的元话语特点，有助于中国学者认识英汉学术论文写作的不同，在英语论文写作时要尽量去适应英语学术论文的写作规范和习惯。

在阐明研究设计理据和研究目的之后，下面就蔡文的质疑作如下回应。

三、英汉元话语对比中的语料标注问题

蔡文在功能与形式、显性标记和隐性标记两小节中提出的问题主要是语料标注问题。蔡文认为元话语“分类和标记都是基于英语语言和英语学术文章的。如果把这个框架用到汉语学术文章，就必然产生一系列问题……”（2）。元话语在英汉语料库中的标注的确不易，我们已在Muet al.文（139）3.3 节中予以承认。针对语料标注问题，我们主要采取了两项措施：一是根据语境确定元话语标记的类别；二是由两位研究人员同时对所有语料进行标注，标注信度系数达到0.86。蔡文认为“人工判断和分类最大问题是同一形式往往表示不同的功能。如‘could’和‘试图’都是限制语，但作者认为前者是委婉说法，后者是谦卑标记，这种理解不同大大影响数据的可靠性”（4）。然而，从元话语标记语的标注角度来说，“could”和“试图”都标注成限制语是没有问题的，只是它们在各自语境中的内涵略有不同，但这并不影响标注的可靠性。

蔡文分析英语元话语分类框架用于汉语学术文章必然产生问题时给出的两个例子是值得商榷的。蔡文说“就内指功能而言，英语中用it，he，they 来指前面说过的，而汉语往往还用零指代”（2）。这个举例本身没错，但在元话语理论中，语言交际行为包括基本话语和元话语两个层面：前者指具有指称和命题信息的话语，反映话语的命题意义和概念意义；而后者指“关于基本话语的话语”，反映话语的程序意义和语篇、人际意义，元话语标记具有非强制性，即删除元话语标记不会从根本上影响到核心命题意义的内容（李秀明 2011）。蔡文举例所说的“指称代词it，he，they”包括“零指代”，并不在元话语内指标记语之列，它们属于基本话语层面。元话语的内指标记语“是指标识语篇内部信息（非相邻的话语）之间的联系的元话语”（李秀明 2011：130），如“上述”“在下一节里”等。此外，蔡文关于“英语的‘we’和汉语的‘我们’对应”的举例是我们文章中关于英汉元话语自我指称标记语差异的例子，英语的“we”和汉语的“我们”都要区分inclusive we（包含读者）和exclusive we（不包含读者），前者归属于介入标记语（见 Muet al.2015：143）。

我们完全同意蔡文关于英汉语显性标记和隐性标记的讨论，这正体现了英汉语篇的不同特征，因此更加凸显了Muet al.文研究的重要性、理论贡献及现实意义。Muet al.文要比较的也正是英汉学术期刊论文中元话语的不同用法，文中的英汉语比较并不是要比较孰优孰劣，而是要识别出英汉学术语篇在各自语言社团中得到认可的语篇修辞特征（139）。中国学者如果认识到英语的“语法关系和篇章结构往往是通过显性标记来表达，是可以辨认可数的，而汉语的语法和篇章关系大多是通过隐性标记来表达的”（蔡基刚 2017：2），那他们在写作英语学术期刊论文时就会有意识地使用显性标记，而避免受到汉语语篇多用隐性标记的影响。另外，李秀明（2011：1）认为“元话语是交际者在成品中留下的表达者自我的踪迹，是表达者的修辞意图标记”，元话语是有标记的（marked），因为它具有标识指示功能，一般不具有陈述功能。卫乃兴等也认为“一切实证对比研究都需要一个有形的、可观察的实体作为其出发点”（2014：6）。而且，隐性标记要“读者凭借上下文去猜测和体会”（蔡基刚 2017：2），反而增加了语料标注的复杂性，所以我们并没有把汉语隐性标记也标注出来并计算其频数。

蔡文在谈到“双语平行语料库建设和应用中，功能和形式的对等是必须重点研究的”（2）时，提到“Muet al.（2015）用英语元话语形式在汉语语料中找到翻译的对等形式”（2），可能与其建设平行语料库的思路有关，比如，蔡文说“平行语料库的建立要求词数基本对等”。但是，建立篇章层面对比研究的可比语料库时，重要的是“抽取相等数量的样本个体”（许余龙 2010：269），比如，许余龙（2010：269）在谈到研究人称代词在英、汉两种语言的实际篇章中使用数量和分布的差异时，是在英汉叙述体语料中各抽取了20篇文章。出于比较英汉原创论文中元话语异同点的研究目的，Muet al.文在研究中采用的是可比语料库，“这类语料不再具有语义上的对应性，而只是在篇章的题材、风格、适用场合、适用对象等方面具有某种一致性”（许余龙 2010：156）。此外，许余龙（2010：33）认为严格的翻译对等几乎不可能。在英汉语料库中，既有对应也有不对应，尤其是同中有异的情况是最值得注意的（王菊泉2011）。由于Muet al.文研究采用的是可比语料库，不一定要在英汉语料库之间建立翻译对等关系，是一种不同于平行语料库的建库思路。

四、英汉元话语对比中的对比基础问题

蔡文对Muet al.文对比基础的控制给予了肯定，认为“掌握得比较好”（2）。Muet al.文将语料限定在2002年至2006年期间的英汉应用语言学期刊实证研究论文，尽量保证语料在语体、体裁、主题、时间、母语以及交际目的等方面的对应性，并且在篇章层面对英汉元话语的特点进行比较。元话语不仅是英汉学术语篇共有的语言现象，而且在英汉语学界得到一定程度的研究（Hyland 2005；李秀明2011）。李秀明（2011：65-72）的研究指出，汉语学界关于元话语的相关研究大致经历了四个阶段，即“插入语”阶段、“语用成分”阶段、“语用标记语”的语法化阶段和“元话语”研究阶段，所以元话语在英汉语中都是有一定研究基础的。

蔡文提出了语步的对应性问题。当然，能够做到语步对应最好，这也可能是为什么Loi & Lim（2013）仅仅对比英汉研究论文引言中元话语特征的一个原因，就英汉研究论文某一部分进行对比可以更好地控制语步。但Muet al.文是对整个研究论文的元话语作对比，控制语步难度较大，所以Muet al.文在论文局限性讨论中也指出了论文各部分的元话语分布情况尚不明朗。

至于蔡文所说“体裁相同，读者对象不同也影响对比结论的可靠性”（3），Muet al.文在研究设计中也考虑到了这一因素。因为我们研究的最终目的是为中国学者撰写英语学术论文提供参考，所以选用了真实的国际和国内学术期刊论文语料，以考察英汉学术论文的元话语使用特点。蔡文的这段话“英语文章的对象是国际读者，汉语文章的对象是中国读者。前者必须考虑各国读者的文化背景，尽可能在背景方面介绍详细些，即使是同一学科领域。同时考虑在国际领域说话下结论要谨慎一些，因此讲究说话的方式，增加模糊语，减少增强语。但汉语文章考虑的是国内读者，一些双方熟悉的文化背景和研究背景就简略了。另外汉语读者一般都知道国内这个领域的研究有多少人在做，程度如何，因此限制委婉语就可以少一些”（3），正好解释了英汉学术期刊论文使用元话语的不同特点，与Muet al.文（141）4.1 节中关于英语论文使用元话语三倍于汉语论文的解释是一致的。

五、英汉元话语对比中的定量统计问题

许余龙指出，“定量对比研究设计和统计分析的根本指导原则是确保两种语言之间的可比性”（2001：1）。在定量对比研究中，控制变量差异的方法有四种：1）随机化；2）保持因子不变；3）设定自变量因子；4）统计调节（许余龙 2010：269）。穆从军（2016）采用了随机化和统计调节的变量差异控制方法。因为随机化方法要求比较大的语料库样本量，所以穆从军（2016）搜集了Applied Linguistics、Journal of Semantics、English Language Teaching Journal、《外国语》、《现代外语》、《当代语言学》2003 至2008年间所有的期刊论文摘要，其中英语论文摘要275篇、汉语论文摘要408篇，然后利用分层抽样和机械抽样方法随机得到英汉论文摘要各100篇，并建成可比语料库，标注语篇修辞关系，并对英汉修辞关系频数进行了卡方检验。而Muet al.文采取了保持因子不变和统计调节的变量差异控制方法，控制了语料体裁、语体、主题等变量，并对英汉元话语出现的频数进行了卡方检验。卡方检验是随机样本频数检验的常用统计方法（梁茂成等2013；许余龙 2010）。根据许宏晨（2013：95-97）和约克奇（2010），SPSS 卡方独立性检验输出结果有三张表：第一张是卡方独立性检验被试信息表（说明有效被试和缺失被试的个数及两者分别所占百分比）；第二张是变量列联表（说明两个变量的观测频数和期待频数①如果观测频数大于期待频数，说明一变量（英/汉语）选择另一变量（某元话语标记语）的概率比预期的大，反之则小。）；第三张表是卡方独立性检验表（提供卡方值、自由度和显著性检验结果等主要信息）。

蔡文指出，“即使在自己的研究中，也必须保持方法一致。不能得出‘英语中元话语使用远远高于汉语’的结论时，理由是‘英语使用元话语的频率为每1 万词有647.8 次，而汉语则是每1 万字仅有24 0.3’，但得出汉语使用言据标记语超过英语的结论时，用的是观测频数475 超过预期频数444，尽管英语的观测频数是1040，即实际使用频率远远超过汉语”（4）。根据上面有关统计学方法的解释，Muet al.文中采用的方法始终是一致的，即统计元话语标记语在英汉语料库中的频数，然后进行卡方独立性检验。至于为什么计算英汉元话语的使用频率，这是因为元话语标记语的“绝对使用量只能在英语原文和汉语译文之间以及汉语原文和英语译文之间进行比较”（许余龙2010：273），在英语原文和汉语原文之间，元话语标记语的原始频数是不可比的。根据许余龙（2010：271），比较英汉可比语料库中的元话语，一个简单可行的办法是将元话语标记语的原始频数除以样本篇章的总词/字数，求得英汉语篇章中每万词/字的元话语标记语平均使用量，即标准化频率（梁茂成等 2013：91），然后再对英汉语的元话语标记语标准化频率进行比较。黄万丽、秦洪武在英汉语料库的建设中也指出，“字库库容的计算和显示，英语以词计数，汉语以字计数。这些数值在计算相对频率和或然率等方面也可以通过标准化了的频率来进行比较和分析”（2015：17）。因此，Muet al.文前面汇报的是英汉元话语标记语标准化频率的比较结果，后面汇报的是言据标记语频数卡方检验结果，二者都是基于英汉元话语标记语频数的统计结果，所用方法是一致的。

蔡文在“字词比例”一节中质疑Muet al.文对英汉元话语标准化频率的比较，认为“平行语料库的建立要求词数基本对等”，“表达同样内容或相同信息，平均说中文15个字等于英文10个词”（2）。根据瞿宗德（1998）、孙复川和Stark（1988）等人的研究，表达同样内容或记录相同的信息时，英语篇幅是汉语的1.5—1.7 倍多，但他们选用的语料都是英语及其汉语译文或者双语版文章，只有这样才能做到英汉内容信息一致。这就更加印证了蔡文所谈的平行语料库实际上是翻译语料库。因为我们的研究目的是比较英汉源语文本元话语的使用情况，需要建立的是可比语料库，而可比语料库通常是进行标准化频率比较（许余龙2010），即比较英汉语篇章中每万词/字的元话语标记语平均使用量。此外，如果按照蔡文的观点，Muet al.文的汉语语料库显然需要扩容，可能要增加10篇左右才能达到蔡文所说的“对等”，也就是说，英语语料样本是20篇，汉语语料样本应该是30篇左右。然而，这又造成了新的不平衡，毕竟我们进行的是英汉学术语篇篇章比较，英汉语料库还是应该主要在篇数而不是字词比例方面保持相对一致。

六、结语

蔡文认为英汉学术语篇元话语对比要注意形式与功能对等、字词比例、对比基础等问题，这是完全正确的，不过，他所讨论的是平行语料库的建设问题，而Muet al.文所用的是可比语料库（虽然文中并没有明确交代）。采用什么样的语料库是由研究目的来决定的，即使采用平行语料库，如果要比较英汉源语文本的元话语使用特点，可能也要采用双语双向平行语料库，即语料库中既有英语期刊论文以及与之对应的汉语翻译论文，同时也有汉语期刊论文以及与之对应的英语译文，而且要保证翻译论文的质量，这样的设计理念可能还要考虑到不同学科语料的可及性问题。因此，可比语料库固然存在一定不足，但只要控制好各种可比变量，采用科学的统计方法，是基本可以满足研究需求和目的的，也能产出比较可信的和有意义的研究结论。

任何研究方法和设计或多或少都存在一定的局限，Muet al.文也不例外。蔡文的质疑可以很好地引起大家对英汉比较研究方法的讨论，促进对比语言学的发展和进步。我们认为，今后可以完善可比语料库的设计，验证Muet al.文的研究结论，亦可设计双语双向平行语料库或者可比平行语料库（Gaspari 2015），比较英汉学术语篇的元话语使用特点，促进学术英语的写作实践和教学。