中美自贸协定文体特征对比分析
——基于语料库的句法复杂度评价
2024-03-08王立非
王立非,林 旭
(1. 北京语言大学 高级翻译学院,北京 100083;2. 北京邮电大学 人文学院,北京 102206;3. 北京语言大学 外国语学部,北京 100083)
商务部统计,我国目前已与29 个国家和地区签订了22 份自贸协定,与自贸伙伴贸易额占对外贸易总额的比重达到35%左右。自贸协定文本属国家宏观经济话语[1]。商务话语已迈入经济话语时代[2]。目前,针对句法复杂度的研究较少。本文使用句法复杂度测量指标,测量中美自贸协定文本句法复杂度,分析两国自贸协定文本的句法和语域差异。本研究有助于深入了解中美两国经济话语在句法结构、用词风格等方面的偏好和特点,通过比较文体差异,探讨不同因素对文体特点的影响,揭示政治、社会、文化等因素对商务文体的塑造作用,了解商务文体在不同历史时期的变化特点和规律,为商务文体教学提供指导。
一、理论框架与研究现状
(一)自贸协定文体的特征
自贸协定文本是商务文体的一种重要类型,具有以下特征:(1)正式性:自贸协定文件采用正式语言和格式,以确保信息准确可靠;(2)专业性:自贸协定文件需使用专业术语和词汇,多涉及贸易、投资、知识产权等专业概念,以确保信息准确传达;(3)简洁性:自贸协定文件简洁明了,在有限篇幅内传达清晰信息;(4)目的导向:自贸协定文件强调信息传达的目的性和效果性,需明确各方目的和意图,详细说明各方权利和义务,以及达成协定的目标和具体措施;(5)专业格式:自贸协定文件通常遵循特定格式和结构,以确保信息组织和呈现的一致性。自贸协定文件包括标题、引言、条款、附件等部分,以便各方能够清晰地理解和解释文件内容。
中美自贸协定采用正式语言和格式,使用专业术语解释条款和条件,涉及贸易、投资、知识产权等专业概念。文件注重简洁明了,采用直接简明的语言传达信息,规定双方目标、权利和义务,遵循特定格式和结构。中美自贸协定文本体现了商务文体学特征。
(二)句法复杂度测量指标
商务文体通常定量评价以下几个维度:(1)适应性和可读性:从文章的语法结构、词汇量、词汇复杂度、句子长度、句子结构复杂性、段落长度、用词准确性、长句使用频率、语言风格、篇幅合理性等语言特征,评估得体性和可读性;(2)篇章结构和组织:从文章的标题、段落开头和结尾等位置提取出特定结构元素进行统计分析标题准确性、段落划分合理性,评估文章结构和组织是否符合商务文体要求;(3)信息量和准确性:统计文章中的信息量和准确性指标,如提取出主题句、论据、论点、逻辑性、信息单位字数、数据准确性等,评估文章所传递的商务信息质量。这些维度通过统计分析和自然语言处理等定量手段实现。本文选取句法复杂度文体评价指标,对比分析中美自贸协定话语特征。
句法复杂度是指说话者或写作者产出的句法形式的复杂程度及范围或多样性[3-4],句法复杂度可以在一定程度上反映文本的可读性[5]。
目前沿用较广的句法复杂度测量指标由Wolfe-Quintero 等[6]提出①指标主要包括:mean length of clause (MLC),Mean length of Tunit,mean length of sentence (MLS),Complex T-units per T-unit,T-units per sentence (TU/S),clauses per sentence (C/S),clauses per T-unit (C/TU), dependent clauses per clause (DC/C), dependent clauses per T-unit (DC/TU),coordinate phrases per clause (CP/C),coordinate phrases per T-unit (CP/TU),Complex nominals per clause,complex nominals per T-unit (CN/TU), Verb phrases per T-unit(VP/TU) and verb phrases per clause,Passives per T-unit, clause, and sentence 等。。Norris 等指出,句法复杂度应包含从属结构使用量、句子整体复杂度、小句的短语扩展程度、并列结构使用量和句子结构的多样性、复杂程度及习得顺序[7]。
主流的句法分析工具基本都采用上述指标进行评测。常见测量工具有:The Biber Tagger、Cohmetrix、L2SCA、TAASSC。Kyle 详细比较了前三款工具,指出L2SCA 准确度在三款工具中最高,使用最方便[8]。本文采用陆小飞等的L2SCA[9]作为句法复杂度测量工具和测量指标,主要测量指标见表1。
表1 L2SCA 主要考察指标[9-10]Tab. 1 Main indicators of L2SCA
(三)国内外研究现状
国外句法复杂度研究主要从以下方面展开:一是句法复杂度测量工具研究[8],详细分析了常见的句法复杂度测量工具,评测了测量质量;二是学习者二语习得与二语水平关系研究[11-12],研究将二语句法复杂度测量与二语习得相结合,从不同角度考察不同学习者或不同阶段的相同学习者输出水平;三是语言教学测试研究[13-14],研究测量语言教学或测试材料的句法复杂度,为语言教学提出建议;四是学术写作语言特点研究[15-16],这一研究趋势表明研究重点由学习者语言输出转向学术写作输出质量。句法复杂度研究也在向其他研究文本类型拓展,突出的关注点是翻译文本和网络社论文本。Liu 等选取了新闻、通用文体、学术写作、小说四类不同文体,以英译文和写作文分别构建语料库,分析句法复杂度差别[17]。Xu 等对比了小说、新闻、散文、学术文本的译文版和非译文版的句法复杂度[18]。Indarti 选取了10 个国家主流网络媒体社论,建成语料库[19]。研究发现:新加坡和尼日利亚网络社论句法复杂度最高。这表明,句法复杂度的研究文本已经变得多样化,研究也开始与翻译学、新闻学结合,展现跨学科特点。
国内句法复杂度研究主要包括:句法复杂度分析器、评测指标和相关研究综述[9];不同反馈方式写作产出文本的句法复杂度研究[20-21];基于句法复杂度的二语学习者相关特点研究[22-23];学术论文和学术写作的句法复杂度研究[24-25];句法复杂度与二语习得水平和能力发展的研究[10]。国内研究也开始拓展文本类型,如汉译英叙事文本和议论文本[26]、企业财务语篇[5]等。这表明,国内研究也已展现跨学科倾向,开始与翻译文本、经济话语相结合。
文献综述显示:首先,国内外句法复杂度目前的主要研究视角仍是二语习得;其次,近年来,句法复杂度研究有跨学科倾向,向翻译和新闻等文本类型扩展;第三,国内已有学者使用句法复杂度指标评测经济话语的可读性,为本研究提供依据。本文将选取中美自贸协定文本,构建语料库,从历时和横向角度分析两国对外签订的自贸协定文本的句法复杂度,为商务文体教学和研究提出建议。
二、研究问题与方法
(一)研究问题
本文主要回答三个问题:(1)中美自贸协定英文版句法复杂度是怎样的?(2)中美自贸协定英文版句法复杂度的历时情况如何?(3)中美与同一国家签订的自贸协定文本句法复杂度有何差异?
(二)语料选择
本研究选取中美对外签订的自贸协定英文版作为语料。国家选择上遵循以下规则:一是选取中美分别与主权国家签订的自贸协定,为保证数据准确,本研究未将中美与特别行政区、国家联盟或区域经济合作联盟签订的自贸协定纳入;二是针对中国与同一国家后续签署升级版自贸协定,若升级版自贸协定内容较少,则不选取,如调整内容较多,则按照单独协定纳入;三是考虑自贸协定的文本可得性以及体量,语料仅包括正文,不含附件。
本研究选取我国与13 个国家②13 个自贸协定国为柬埔寨、毛里求斯、格鲁吉亚、澳大利亚、韩国、瑞士、冰岛、哥斯达黎加、秘鲁、新西兰、新加坡、智利、巴基斯坦。签订的15 份自贸协定(含智利升级版协定和巴基斯坦第二阶段协定),建成中国自贸协定英文版语料库(China Free Trade Agreements, CFTA),总规模为170 万词;选取美国与澳大利亚、以色列、约旦、墨西哥、加拿大、新加坡等6 国签订的自贸协定,建成美国自贸协定英文版语料库(America Free Trade Agreements, AFTA)③由于美国与他国签订的自贸协定很多只是表格和关税数据,有些自贸协定几乎无文字条款,因此,美国签订的自贸协定文本数量少于中国的自贸协定文本数量。,总规模为110 万词。中国自贸协定英文版来自中国自由贸易区服务网,美国自贸协定文本来自美国贸易代表办公室网站。语料做了清洗和剔除表格、多余数据和附件等处理。
(三)研究工具
本研究使用L2SCA 来测量CFTA 和AFTA 的语法复杂度;使用Multidimensional Analysis Tagger (MAT)对CFTA 和AFTA 的6 个语域功能维度进行测量,检验不同年份自贸协定文本的语域特征;使用SPSSAU 平台分析相关数据是否存在显著差异。
本研究首先分析中美自贸协定英文版句法复杂度,然后,以签订年份为切入点逐年考察对比,分析文本的历时演变。由于中美都与澳大利亚和新加坡签订了自贸协定,本研究将对这两个英文版句法复杂度进行个案分析。
三、结果与讨论
(一)描述性统计分析
表2 的描述性统计显示:最大值层面,CFTA中单份语料最大词数为38 007,句子数为1 789,AFTA 词数和句子数分别为49 123 和2 035,整体上讲多于CFTA;中位数层面,CFTA 在单词数、句子数、短语数、小句数、T 单位数、并列短语数、复杂名词性短语数上,均大于AFTA。AFTA 的从属小句数和复杂T 单位数大于CFTA,表明美国对外签订的自贸协定文本,更多使用从属小句,而中国对外签订的自贸协定文本,更多使用并列短语和复杂名词。
表2 CFTA 与AFTA 描述性统计数据Tab. 2 Descriptive statistics of CFTA and AFTA
(二)历时对比分析
笔者按照句法复杂度数值范围,将两个语料库各分成两组展示:第一组为MLS, MLT, MLC,CN/T, C/S, VP/T, C/T, CN/C,这些数值普遍大于1;第二组为DC/T, DC/C, T/S, CT/T, CP/T, CP/C,这些数值范围普遍在0.5 左右。这样分类是为了便于绘制CFTA 和AFTA 的历时轨迹图,避免数值范围变化过大,轨迹图识别困难。
图1 、图2 为CFTA 的14 个指标数据历时轨迹。
图1 CFTA 文本句法复杂度历时对比分析(第一组)Fig. 1 Syntactic Complexity of CFTA (Group 1)
图2 CFTA 文本句法复杂度历时对比(第二组)Fig. 2 Syntactic Complexity of CFTA (Group 2)
图1 显示,CFTA 中,4 个指标波动较大,分别为:MLS,MLT,CN/T 和CN/C。MLS(平均句子长度)在与秘鲁、哥斯达黎加签订的自贸协定中达到37.9 和40.7,与巴斯基坦第二阶段签订的自贸协定中达到23.2,其余基本在20 左右。MLT(平均T 单位长度)在与巴基斯坦签订的自贸协定中为23.3,与秘鲁为35.7,与哥斯达黎加为32.7,其余基本在25 左右。CN/T(每个T 单位中的复杂名词性短语数量)变化较大的几个国家为:巴斯基坦(7.7)、韩国(10.4)、格鲁吉亚(10.7)、智利升级版(11.1)、哥斯达黎加(13.2)和秘鲁(16.9)。CN/C(每个子句中的复杂名词性短语数量)变化较大的几个国家为:智利(5.3)、巴基斯坦(5.5)、冰岛(5.9)、秘鲁(8.3)。
由图2 可知,CFTA 中,DC/C(每个子句中的从属子句数量)指标变化不大,整体维持在较低水平,为0.3~0.4。从句的数量影响阅读难度,因此CFTA 整体的阅读难度不大。CP/C(每个子句中的并列短语数量)在巴基斯坦第二阶段协定文本较低,为0.4,其他国家为0.5~0.6。其他几个波动指标中,CP/T(每个T 单位中的并列短语数量)波动最大,与秘鲁的协定文本达1.1,与哥斯达黎加、韩国的协定文本为1.0,与巴基斯坦第二阶段的协定文本为0.6。
分析两图可知:第一,CFTA 中,历时异动较大的指标涵盖句子长度、并列短语数量和复杂名词性短语数量;第二,CFTA 句法异动较大的国家,母语为乌尔都语和西班牙语,这表明在签订英文自贸协定时,我国政府的英文版文本在保持相对风格一致的同时,又充分考虑了不同国家母语的特殊性和对英文文本的接受度,对句长做出了相应调整;第三,CFTA 的并列短语数量和复杂名词性短语数量指标异动程度大于句子长度指标,文本更注重用词的严谨性,句法难度不大。短语主要用来提出和罗列相关概念,我国与不同国家签署的自贸协定,涉及的概念和规则有所不同,英文版复杂名词性短语数量的波动表明,我国对外签署的自贸协定英文版在表述相关概念和规则时,能够针对不同国家、不同时间签订的自贸协定,采取精准表述。图3、图4 为AFTA 的14 个指标数据历时轨迹。
图3 AFTA 文本句法复杂度历时对比分析(第一组)Fig. 3 Syntactic Complexity of AFTA (Group 1)
图4 AFTA 历时轨迹图(第二组)Fig. 4 Syntactic Complexity of AFTA (Group 2)
图3 显示,AFTA 中,对约旦签署的自贸协定的MLT(平均单位T 长度)最大,为33.2,对墨西哥、加拿大签署的自贸协定的CN/T(每个T 单位中的复杂名词性短语数量)最小,为7.9,CN/C(每个小句中的复杂名词性短语数量)也在几个国家中最小,为4.2。图3 所展示的8 个指标存在一定的历时性特征:与约旦和墨加签署协定时,协定文本句法复杂度出现明显变化。结合美国政党更替可知,上述两个自贸协定签署之时,均为共和党执政。
图4 显示,美国与墨西哥、加拿大签订自贸协定时,第二组数值均有较大波动,具体表现在:从句指标值(DC/T、CT/T)明显增大,并列短语数量值(CP/C、CP/T)明显减少,表明大多数应该由短语表达的信息可能换成了用从句表达。初步判定AFTA 总体上与执政党和美国总统个人语言风格有关。
研究发现:第一,AFTA 中,词法句法的历时异动较为明显;第二,AFTA 句法历时异动较大的国家,与美国执政党更替时间和领导人执政时间恰好吻合;第三,AFTA 中较多使用从句,存在短语异动为从句的情况,应由短语表达的信息换成了从句表达,一定程度上增加了文本阅读难度。整体上看,AFTA 文本受语言以外的因素,如执政党、领导人个人风格等影响较大,整体阅读难度大于CFTA。
为验证结论准确性,笔者使用MAT 软件计算两个语料库的6 个功能维度,考察两个语料库所展示的文本风格,验证上述历时研究结论。
研究显示,CFTA 和AFTA 的文本类型一致,均为学术说明文(Learned exposition)。按照Biber的分类,学术说明文包含官方文件(Official document)[27]。我们将相关数据导入SPSSAU,进行独立样本t检验,结果如表3 所示。
表3 CFTA 和AFTA 的6 个功能维度得分独立样本t 检验情况Tab. 3 Results of independent samples t-test of six dimensions between CFTA and AFTA
独立样本t检验结果显示,CFTA 和AFTA 在维度1 和维度3 上存在显著差异。维度1 上,二者得分都为负,表明文本信息性均较强,CFTA 文本信息性更强。维度3 上,二者拥有极其显著的差异。根据Biber,维度3 得分越高,表明文本的指称明晰性越高,文本对语境的依赖越少[27]。因此, AFTA 对语境的依赖强于CFTA,这表明,美国对外签署的自贸协定,文本内容受到外部环境影响较多。MAT 的结果验证了针对CFTA 和AFTA 各个协定的历时分析结果。
综上,我们可以得到CFTA 和AFTA 历时分析结果:CFTA 整体波动较小,AFTA 波动较大;CFTA 的波动主要出现在词汇层面,AFTA 则主要体现在句式上。这表明:中国对外签署的自贸协定文本,更多关注具体概念的精准传递,对术语表述、词汇使用更为严谨,文本一致性较高,体现我国政策的连贯延续性,能根据对象国母语的具体情况相应调整;美国对外签订的自贸协定文本句式变化较多,文本受语境影响大于中国自贸协定文本,文本的句式变化受领导人和执政党变更影响较明显。
(三)句法复杂度指标数值差异性分析
笔者将CFTA 和AFTA 句法复杂度的14 个指标进行独立样本t检验,考察二者的具体差异性。t检验结果如表4 所示。
表4 CFTA 和AFTA 句法复杂度数值t 检验结果Tab. 4 Results of independent samples t-test of syntactic complexity between CFTA and AFTA
由表4 可知,CFTA 和AFTA 在平均句子长度(MLS)、平均T 单位长度(MLT)、每个句子中的小句数量(C/S)、每个T 单位中的动词短语数量(VP/T)、每个T 单位中的小句数量(C/T)、每个小句中的从属小句数量(DC/C)、每个T 单位中的从属小句数量(DC/T)、复杂T 单位比率(CT/T)共8 个指标上均存在显著差异,且AFTA 在每个指标上的得分均高于CFTA。这表明,美国对外签署的自贸协定文本句法复杂度和阅读难度整体上高于中国的自贸协定文本。
(四)中美与澳大利亚、新加坡自贸协定文本对比
本研究的自贸协定语料包含中国与澳大利亚、新加坡和美国与上述两个国家签署的自贸协定文本。对比分析发现,美国与澳大利亚、新加坡签署的自贸协定文本句法复杂度各项指标均高于中国与上述两个国家签署的自贸协定文本。值得注意的是,美国与澳大利亚、新加坡签订的自贸协定文本句法复杂度得分趋势基本一致,中国与上述两国签订的自贸协定文本句法复杂度得分趋势也基本一致。可以得出:与相同国家签署的自贸协定文本,美国的协定文本句法复杂度高于中国的协定文本,但中美两国对外签署的自贸协定文本纵向比较,句法复杂度基本一致。
四、结论与启示
中美自贸协定英文版的句法复杂度和语域特征分析显示:中国对外签订的自贸协定文本,更多关注术语和用词严谨性,其整体句法复杂程度低于美国对外签订的自贸协定,可读性更强,文本能够根据对象国母语的具体情况做相应调整,文本一致性较高,体现出我国政策的连贯延续性;美国对外签订的自贸协定更多关注句式变化,文本句法复杂程度高于中国,较多使用从属小句,文本表述风格一定程度上受执政党和领导人影响,句法复杂度有一定历时变化特征。
本文对商务文体教学和研究提供四点启示。
第一,严谨性与可读性的平衡:研究发现中国对外签订的自贸协定文本更注重术语和用词严谨性,同时保持了较高可读性。商务文体教学和研究需要平衡严谨性和可读性,以确保信息准确性和理解便利性。
第二,文化差异的考量:中国对外签订的自贸协定文本能够根据对象国母语的具体情况,做相应调整,精准体现中国政策的连贯延续性。商务文体教学和研究需要充分考虑文化差异,适应不同国家和地区的特点,以提高信息传达的有效性和适应性。
第三,句法复杂度的变化与表述风格:研究发现美国对外签订的自贸协定文本注重句式变化,句法复杂度较高,且表述风格受执政党和领导人影响。商务文体教学和研究应关注语法和句法的变化,同时也要考虑政治、文化等因素对文体特点的影响。
第四,历时变化的认知:研究发现美国对外签订的自贸协定文本的句法复杂度存在历时变化特征。商务文体研究要关注历时变化,了解文体演变的原因和影响,从而更好地理解和分析商务文本的特点和发展趋势。