英语多维度分析法应用与批评研究
2018-12-31徐鹏
徐 鹏
(安徽工程大学 外国语学院,安徽 芜湖 241000)
“语域”是不同情境之下各种语言变体的总称.某一特定的情境会对应着某些特定语言项目的高频或者低频的共现,因而构成了某一特定的语域[1].近几十年,语域变异已然成为了语言学领域的一个重要研究部分.研究者通过描述小撮语言特征来确立语域特点,或通过比较视角分析语言变异模式.然而因技术限制,大部分研究均采用微观的方法考察有限的核心词汇或语法特征,鲜有全面综合的方法来考察语域变异.随着语料库语言学的兴起和计算机技术的发展,给话语研究开辟了新的可能和发展方向.
1 多维度分析法的简介
语料库技术的发展使得语言数据可以被大规模地收集起来进行自动、系统的统计分析.为了弥补传统语域变异研究仅着眼于少数语言特征在方法上的不足,Douglas Biber借助计算机通过对文本进行多变量统计,创立了多维度分析法(Multi-dimensional Analysis).该方法的核心思想在于利用自动识别技术采集标准语料库中的语言特征(词汇及语法特征)的出现频率,再通过因子分析的方法确立这些特征之间的共现模式,进而揭露藏身背后的功能维度.再依赖这些维度及其读值对语域进行全方位的描述.具体操作分为八个步骤:①基于前人研究,搜集文本,建立目标语料库;②确立所要考察的语言特征及功能;③开发相关软件进行自动语法附码标注;④检查语料库文本标注情况;⑤用软件统计相关语言特征频数;⑥用因子分析共现特征;⑦对因子进行功能性解释;⑧计算各文本的维度分值以及各语域的平均维度分值,进而比较分析[1].
2 多维度分析法的应用
多维度分析法凭借自身技术上的优势,自诞生以来被广泛应用到文体学、社会语言学、语言习得等众多领域.具体而言,主要在口笔语体分析、文本类型研究、跨语言比较、历时语言变异、特殊语域变异,方言变异、中介语研究七个方面有着显著的表现.
2.1 口笔语体差异研究
多维度分析法为Douglas Biber1984年在其博士毕业论文中首创,1988年通过出版《口语与书面语语体变异》正式确立了模型框架.该方法起源于对英语书面语和口语的变异研究.口语和笔语分属不同的体系,且子语域众多,难以一刀切地用某单一维度来划分.历史上为了衡量口语和笔语各语域的区分度,研究者也创建了不同的衡量标准(维度),比如正式/非正式,互动性/非互动,普通/专业,即兴/非即兴等.由于标尺(维度)的设立具有随意性,因而导致了口笔语差异研究结论较为混乱,难以达成一致.为了弥补这些维度描述不足的缺陷,Biber从语言特征共现入手,采用自下而上的文本驱动的方法,通过从LOB和London-Lund Corpus两个语料库中选取了涵盖23种口笔语的481个文本,提取了67个语言特征,通过对这些特征进行因子分析,根据不同特征的因子载荷,归纳出六个维度,分别为:交互性/信息性,叙述性/非叙述性,所指明确/所指依赖场景,劝诱性/非劝诱性,抽象性/非抽象性,即席信息详述.通过比较每个子语域的分值,验证了口笔语没有单一绝对的分割界限[2].例如,同为口语体裁,交谈和演讲在交互性上有很大的差异;私人信件是笔语,却如口语体裁般地显示出很大的交互性和场景依赖性.因此,Biber的口笔语研究具有里程碑的意义,第一次全面揭示了口笔语对立的全貌.这次建立的维度也被称为1988年模型.
2.2 文本类型研究
多维度分析法因口笔语语域分析而建立,并取得了成功.这项研究为其他多维度应用奠定了基础.多维度分析法另一个应用在于社会语言学上的文本类型研究.文本类型研究和语域研究一个重要的区别在于,语域(Register)是一个根据文本外部特征(如情境,目的等)而划分归类的概念,而文本类型(Text Type)是根据语言相似度为基础划分归类的概念.同类型的文本未必来源于同样的情境.Biber使用自己1988年的维度模型,测量数据库中各文本在维度坐标上的分值,再通过聚类分析(Cluster Analysis)将文本分为八大类型:亲密人际互动类、信息互动类、科学说明类、知识说明类、想象记叙类、通用记叙说明类、情境报道类、参与型说服类[3].Biber认为这样的基于统计模型的划分更加精确,补充了传统功能划分的记叙、议论、描写、说明四大分类法,以及常规体裁分类法的不足.
2.3 跨语言研究
除了文本类型研究外,多维度分析法还被应用于更广范围的跨语言研究.用该方法分析索马里语、朝鲜语、图瓦卢语、西班牙语时[4-9],亦生成了类似英语中的信息性、交互性、叙事性、态度场各功能方面的对立维度.尤其是关乎到口/笔语对立和叙事性/非叙事性对立,在各种语言中都有类似的存在.其他维度侧重点稍有不同,比如在图鲁语中,交际性的维度最突出,而态度场的维度略显次要[7];在朝鲜语中态度场和信息核的维度同等重要[6].研究支撑了这样的一个猜测:不同语言是有共性的,英语中创立的维度也可以在其他语言中同样存在.
2.4 历时语言变异研究
历时语言变异研究最大的贡献在于揭示语言变化的规律.Biber和Finegan选用了1988年模型中与口笔语相关的三个维度分析了四百年来小说、散文、私信三个体裁的文本,揭示了随着时间的推移各体裁在文体风格上的历史演变,即从早期17-18世纪的书面语化逐渐变得越来越口语化,交互性、场景依赖程度更强[10].之后在2001年,二人更深度全面地挖掘了ARCHER语料库中跨域四百年10个语域1 037个文本,进一步指出诸如书信、小说、日记等部分笔语语域发生了口语化的演变,而科学、医学、法律等专业的语言却变得越来越抽象化和专门化,显示出与通用英语不同的变化走向[11].除此之外,Atkinson对《伦敦皇家学院哲学学报》三百年的科学文章的分析[12],以及Westin和Geisler对《泰晤士报》《卫报》等英国媒体中评论的追踪考察,都是较为成功的多维度模型历时考察运用的典范[13].
2.5 特殊语域变异研究
多维度分析法运用最广泛的当属特殊语言变异研究.一系列特殊语域变异研究表明了即便在某一具体语域的内部,也同样存在着强烈的变异.Biber专门建立了T2K-SWAL语料库,先后对大学校园语言进行了详细的考察.用1988年模型,Biber分析了大学里口语(师生会面、课堂管理、学生团体、教学语言等)和书面语(课本、校园写作、课程包等)的语体特征,发现大学语言中内部各子语域的口笔语差异较为显著,且呈罕见极化趋势[14].为了验证是否背后隐藏有新的维度,Biber升级了模型,提取了包含立场标记词和词束在内的129个语言特征,重新进行因子分析,用新的维度模型更精确地比较了大学校园语言跨学科、跨语域的差异[15].Biber[16]等研究比较了医学论文导论、方法、结果、讨论四个不同话语目的的结构之间的语言差异,揭示医学论文内部语言变异机制,指出语域的概念应当是一个连续统的构建,在不同的层面可以无限细分,语域划分越细,话语目的等非语言因素的变化对语域内部的变异影响就越小.Gray[17]从理论、质性、量性角度给学术文本做了分类,用多维度方法描绘了此三大类研究在六门学科中的文本变异情况.此外Susan Conrad[18]对生物和历史两个学科的语言特征的比较也是早期学术英语多维度研究的代表之一.雷秀云[19]等探讨了学术英语和其他书面英语的不同;桂诗春[20]专门对英语语言学语体进行了详细的词汇分析和语法分析.姜武生[21]对学术交流电子邮件语言特征进行了研究.而江进林、许家金对商务英语语域特征的分析表明,多维度分析法能有效区分商务英语和通用英语,且能较客观地描摹商务英语的宏观、微观语言特征[22].
2.6 方言变异研究
语域变异抛开说话人籍贯、年龄、性别、地位等外部变量,以文本为研究对象,侧重分析情境因素对语言特征的影响,通过语言特征来鉴别语域.举例来说,任何一个两千词左右的对话文本都可以体现对话语域的特征,而不必考虑说话者是谁.因为考察的是情景决定的语域特征,而非某说话人群体的语言特征[23].而方言变异研究和语域变异研究的一个重要区别在于,方言变异引入了说话者的变量,强调了情境功能之外说话主体的影响.虽然多维度模型的初衷对象是语域变异,但在方言变异研究的应用上也同样取得了成功.Rey[24]用多维度模型通过考察电视科幻片三十年来男女对话风格,揭示了传统的语言性别化特征越来越模糊.除性别外,在地理分布上,Helt[25]考证美语口语与英语口语相比,具有更高的互动性,随意性和抽象性,符合人们的常规认知.Friginal[26]在考察电话中心的语料上,除了传统的跨语域对比,亦按照说话人身份、性别、工作年限、语言熟练度等多变量进行分组比较,比较结果表明,方言变异的程度竟然超越了语域变异,为传统社会语言学的研究提供了有力的支撑.这些成功的研究打破了传统社会语言学者在“方言变异”研究方法上依然试图通过局限的几个语言特征和语料来描写整个变异规则的限制,正如之前部分学者Erwin-Tripp,Hymes也发现语言特征之间存在着共现关系,能够构建某语域的鲜明特征[27-28],但苦于技术短板无法验证.至此,以大型语料库技术为基础的多维度文本变异研究大大地充实、增强了传统社会语言学的研究能力,丰富了学术内容和成果.
2.7 中介语研究
国内学者更加热衷于中国学习者书面语的中介语研究,包含了中介语对比研究[29-31]及写作发展性研究[32-33],普遍揭示了中国英语学习者语体意识薄弱,书面语口语化倾向明显,且随着年龄和英语水平的提高,语体意识逐渐增强,书面语口语化风格逐渐改善.国外的研究包括Van Rooy先后采用1988年模型和新建模型考察了南非黑人英语和英语母语书面语的细微差异[34-35],以及Aguado-Jimenez[36]等人利用多维度模型评价学生的写作任务,通过反馈改进学生的语言特征使用,进而增进学生的语域意识.口语中介语的多维度变异研究因语料的采集、转写难度较大,目前相对缺少.值得一提的是Connor-Linton[37]等巧妙利用多维度模型作为语言任务的效度检测工具,来检验不同语境因素和不同诱发任务状态对口语表现的影响.
总结来看,多维度模型的实证研究根据模型采用可分为两大类:①重建维度的完全型多维度研究.此类型多用于全新的具体的语域变异研究,当怀疑存在新维度,需要补充新的语言特征时,即重新进行因子分析,构建新的维度[15,38-39];②借用已有维度的非完全型多维度研究.此类多借用Biber1988年的维度模型去考察分析目标话语的口笔语变异,构建目标语域在已有维度中的位置,如Biber[14],雷秀云[19]等,潘璠[31]等.
3 多维度分析法的批评
如上所见,多维度研究从创立之初至今三十余年,以其广泛的应用扩大了变异研究的视角,补充了传统语域研究的短板.其模型也并非毫无瑕疵,由于部分设计缺乏有力的理据支撑而饱受争议.尽管Biber不停地修改、辩护,但批评仍不绝于耳.结合前人研究以及笔者自己使用该方法分析政治文献语域的反馈来看,思考主要有以下几个方面:
3.1 特征的选择
对于多维度分析法的批判多为设计层面的,其中最大的诟病莫过于语言特征遴选.不同多维度应用研究中,选取的特征数不尽相同.Biber选取67个词性、语法特征,构建的六个维度正式确立的多维度理论体系借用广泛,影响最深.尽管Biber强调语言特征遴选并非随意:一则基于前人的研究[2];二则尽可能地囊括所有的语言特征[40].但批评者认为还有许多额外的语言特征没有入选,故MDA有效性不高,并期望语言特征的遴选能够有规则且无穷尽,指出从最初的设计上,语言特征只局限于POS附码标注,而没有句法分析标注.且更大的问题在于某些特征会承担多样功能性,仅靠MDA无法识别,诸如介词短语既可以充当名词后置定语,也可以作为状语修饰动词,甚至还可担当议论话语标记.这种情况在跨语言研究中显得尤为严重,因为非英语的语言特征和英语无论在形式和功能上均不是对等的,以英语语言特征为基础来提取非英语中“所对应”的特征,会造成有效特征的遗漏[41].
语言特征的选择关键在于:一是加大语言特征的提取范围,避免遗漏有价值的特征;Biber也同意语言特征额遴选旨在追求尽可能的综合性,且语言特征库是开放性的,维度也不是静态不变的.针对不同的研究会选择不同的特征集,从而也会产生不同的维度.且其本人已在开发更高级的标注和句法分析软件来包容更加全面的词汇语法和句法特征[40].多数完全型多维度研究根据自身需要,将特征选择范围扩大至语义、词束、句法范畴.如肖忠华在研究世界英语时,用包括语义类在内的109个语言特征生成九个维度,建立了增强型多维度模型,被证明同样有效可行[38].
二要保证特征的“代表性”和“有效性”.正如Biber反复强调特征选择是基于前人的研究,每一个特征务必对应着相应的交际功能,因此才能在不同的语域中出现,从而确保其代表性,且之后的因子分析筛查,也会将一些不能被共同因子解释的变量(语言特征)排除在外.若原始变量之间的相关性很弱,也无法抽取出共同因子,从而保证了其有效性,如Biber关于大学语言的研究中初选的129个特征中只有90个可作为有效特征入选[15].
3.2 样本的代表性
当因子分析方法固定,语言特征固定,影响维度生成的就是文本的选择.1988年的模型中最大化地覆盖了所有的情境,Biber从Brown和LOB语料库中选择了481篇文本,跨越23个体裁,共计约96万词次.尽管如此,批评者依旧认为样本选择规模不够大,质疑样本是否具有代表性[42].该批评对于Biber来说有点冤枉.对于所有的语料库研究,样本选择的代表性都是必须直面的首选问题.如何选样才能全方位地代表真实的语言,考虑到不同的语域构成,每种语域是否选择同样多的规模,语域可以无限细分,是否每种细分的语域种类都要涵盖进去等是语料库学界共同面对的问题.Biber通过实证实验,在更小规模子语域库上重新运行因子分析,生成相似的维度,验证了原始样本的代表性[43-45].
不论是特征的选择,亦或样本的代表性,其背后实质指向的是维度的通用性.在所有的完全型多维度研究中,新因子分析生成的维度,尽管部分(多为第一、二维度)与1988年模型相似,但并未发现全维度吻合的情况,证明维度的生成与其对应的研究样本息息相关.对此Biber自己也承认多维度分析法实际上是一种没有先验的自下而上推导出来的方法,一切为数据驱动,得出的维度确实真真切切地反映了特征的共现.“严格意义上说,维度只对提取它的语料库有效”[40],从这一句话可以看出Biber承认了多维度生成的不一致性.
3.3 实验的可复制性
实验的可复制性包含着两层所指:一是上文提到的维度模型的通用性;二是多维度分析法技术上的壁垒.诚然多维度的应用研究广泛,但大多数的多维度研究多为Biber及师承渊源团队所做,其他研究者因难以获取其相关标注统计软件和数据库,而受到工具上的制约未能复制实验.且该方法较为繁琐,不易操作.反观国内发表的相关研究文章不过十来篇.Biber强调自己的标注工具并非唯一,若能保证标注的准确性,任何标注工具均可以.长久以来,未有研究认真检验替代软件与Biber Tagger的复制准确度.直至2014年,Nini开发了多维度标注与分析工具Multidimensional Analysis Tagger 1.1,直接将Biber的文本标注、特征提取、数据统计全部复制实现且完成操作自动化,且内嵌斯坦福词性附码器(Stanford POS Tagger),有效复制Biber1988提出的多维度分析全过程,对MDA方法的普及产生了巨大的推动.另外值得一提的是肖忠华和McEnery曾比较通过Wordsmith的关键词分析法和MDA对同样体裁文本分析的结果,认为关键词法虽不能完全替代MDA,但也能大体上反映各体裁的重要特征,且操作相对简单,不失为文本分析的又一利器[46].
4 总结和展望
多维度分析法作为一种以统计为基础的文本特征分析方法,采用代表性良好的大数据语料样本作为研究对象,用基于计算机技术的研究手段自动、快速、高效地处理文本,考察语体变异的整体模式,使得研究结论更具有概括性和说服性.三十年以来,其文本类型研究、语言变异研究、二语习得中介语等方面的广泛运用显示出其全面、高效、客观的强大优势.多维度分析法强调语言特征,重视语言特征之间的关系,对大量的语言特征进行多维度描写,这恰恰是传统变异研究所缺乏的.多维度分析法弥补了传统社会语言学变异研究方法上的不足,为社会语言学的研究开辟了新的视野,也将推动社会语言学的发展.
未来,多维度分析法可以更进一步加强语言特征的提取.更全面的特征提取有利于语域特征更真实地展现.随着计算机软件技术的发展,语言特征提取的范畴应不断扩大,考察的特征应该囊括词性、语法、句法、语义、修辞,甚至延伸至语篇特征和语音特征.标注、统计软件则应该简化,早日完善共享机制,以便惠及更多的外语研究者.