数据驱动的学术语篇组织句干研究
2018-04-04李晶洁谢梦琪
李晶洁,谢梦琪
(东华大学 外语学院,上海 201620)
一、 引言
话语功能是指在特定语境中,人们倾向于使用特定的词汇表达或者结构来实现语篇层面上的功能,它属于具体语境的篇章功能。具体来说,话语功能不仅包括语言使用者如何组织信息,如何表明一条信息与其他信息之间的关系,也包括说话者使用怎样的语言策略来与读者交流,建立和保持人际关系等[1]。研究话语功能的目的之一便是描述不同语域中语言使用发生的变异情况,从而揭示实际使用中的语言规则。Biber等[2]基于频数统计结果描述了学术口语和学术书面语中的词束功能特征,并将其分为三类,即立场、语篇组织与指称。立场性词束传达两种主要意义类型,即认知立场和态度立场。语篇组织类词束具有承上启下的作用,负责语篇间的关系,包括执行话题引入/聚焦和话题阐释/分类两个子功能。指称性词束通常是识别具有某种特征的重要实体或个体,包括四个子类:识别/聚集、模糊、特征指示、时间/地点/文本指示。Biber等的研究均使用“词束”的概念,但具有词束特征的语言实体数量众多且结构灵活多变,导致其意义特征较不稳定,不利于分析。因此,本文从中选取一类形式特征相对突出的词束,即具有主谓结构的句干序列,分析其在具体文本环境中执行的主要话语功能。李晶洁和卫乃兴[3]曾对句干作出界定,并对其提取方法进行了详细阐述,但没有进一步研究句干的功能特征。李晶洁和周昕玥[4]从元话语视角分析了互动句干在学术文本中所执行的人际功能,但是对于学术语篇中的组织句干没有进一步分析。基于此,本文使用CARE-S1语料库作为数据源,以Biber等话语功能划分为理论基础,构建“研究推进”和“研究关联”功能范畴,以此分析学术语篇中组织句干的形式与意义关系。
二、 研究方法
本文使用的语料库是CARE语料库的子库CARE-S1。CARE(Collection of Academic Research Essays)语料库选取的期刊均为2006年至2015年间公开出版发行的SCI或SSCI期刊,语料文本以研究型论文为主。CARE-S1语料库包含了766篇研究论文,库容为4 773 855,词汇总量为71 184类符[注]该数据为WordSmith4.0版本的检索结果,其他版本数据会稍许不同。。本文数据处理和分析按照以下三个步骤进行:
第一步:使用李晶洁和卫乃兴[3]开发的提取方法,从CARE-S1语料库中自动识别和提取4 040个不同的句干序列。
第二步:人工分析判断句干的功能,并使用WordSmith 4.0软件检索每一例句干,结合语境确定其话语功能。由于机器赋码存在不准确的情况,我们需要排除不符合本研究要求的句干序列。例如,我们将形如couldinprinciplebe,someoneelse,dataset,studiesthathaveatwhichpoint,agef#,effectsmodel等结构不满足要求的句干都排除在本研究范围外。在进行这一步骤时,我们需要根据每个句干在语境中的意义,人工判断它们所实施的话语功能。主要有以下三种情况:(1)语义特征不明显、功能不明确的句干,我们将其标记为“功能模糊”,如Iam,hehad;(2)语义特征明显且功能明确的句干,我们很容易确定其功能,如thisresultindicatesthat用于“呈述结果”,隶属于“研究推进”功能;(3)结构相似但功能不同的句干,我们则需要结合具体的语境判断其功能。
第三步:根据句干具体实现的功能,我们将组织句干划为“研究推进”和“研究关联”两大功能范畴。“研究推进”是指通过在学术语篇中展示不同命题内容进而推进研究,而“研究关联”是指将当前命题与同一文本的其他命题或将当前研究与文本外的其他研究关联起来。
三、 学术语篇中组织句干的功能特征
根据上述步骤,本文从CARE-S1语料库中共计提取出2 933个不同的组织句干,合计出现26 395次。基于功能特征,我们概括了组织句干在学术文本中的两大话语功能类别,即“研究推进”和“研究关联”。其总体分布数据详见表1。
表1 组织句干话语功能分类
从表1中可以看出,“研究推进”句干序列的类符数和形符数皆为最高,分别占各自总量的82.41%和82.95%,而“研究关联”仅为12.89%和12.29%。这再次证明学术语篇传递了大量的命题信息,包括对客观事实和数据的陈述、推理、总结等。“研究推进”是指通过在学术语篇中展示不同命题内容进而推进研究,而“研究关联”是指将当前命题与同一文本的其他命题或将当前研究与文本外的其他研究关联起来。换言之,“研究推进”标志出与命题对应的研究活动,“研究关联”则是将多个命题信息或研究内容关联。表2显示两大功能范畴下的子功能分布数据。
表2 组织句干话语功能统计信息
(续表)
通过检查CARE-S1文本证据,我们初步确定了“研究推进”范畴包含16个子功能类别,共涵盖2 417不同句干,形符总数达到21 895次,其中阐述方法步骤、呈述事实、呈述结果、状态说明是此类范畴中使用最频繁的功能类,共出现13 609次。而“研究关联”范畴包含10个子功能类,类符数为378,形符数为3 243,其中前人研究综述、篇章指示、理论依据来源、报道是最高频的功能类,合计2 503次。接下来,我们将以“研究推进”中的“呈述结果”句干和“研究关联”下的“前人研究综述”句干为例,阐释学术作者如何运用话语策略来实现信息命题的组织,并重点讨论句干在局部语境中的共选特征。
“呈述结果”是学术作者对文本某个部分或整体研究的发现进行传递的语篇行为。引导结构命题的“呈述结果”多出现在学术论文或著作的摘要、引言和总结结论部分。常见的“呈述结果”句干有findingsindicatethat,itturnsout,itwasfoundthat,ourfindingssuggest,ourresultssuggestthat,resultsdemonstrate,therewasamaineffect,thesefindingssuggestthat,resultsshowedthat,wealsofind(found),wedidnotfind,wefoundno,wepresent,weobserve等。从形式上看,常见“呈述结果”句干通常有明显的标志词,如名词result、finding,动词find(found)、observe以及动词短语turnout。学术作者常用这些标志词语或者结构来揭示作者的研究结果和发现,即传递结果的语篇行为。除此之外,作者还会使用隐式结构(即没有明显标志词的结构)来实现该功能,这时读者需要根据句干序列出现的文本环境判断其命题功能,如例1中的therewasamaineffect。该句干出现了19次,主要用于阐述结果发现且全都出现在结果部分。
例1This experiment shows a clear additive effect between distal prosodic context and semantic context; that is,therewasamaineffectof both of these factors, with no evidence that the effect of distal prosody was attenuated by the presence of a semantic context.(摘自 the Result and Discussion部分)
从英语基本时态角度来分析这些句干,“呈述结果”句干时态形符数数据分布如表3所示。我们发现常见“呈述结果”句干多为一般现在时,共出现1 658次,占总数的73.66%。学术作者多使用一般现在时来表述研究结果,可能是作者将研究结果视为客观事实或真理,用于暗示其研究的科学性和普遍性。除一般现在时之外,作者也会使用一般过去时来描述研究之前所涉及的一系列活动,合计556次,占总数的24.70%。一般过去时的“呈述结果”句干用于评述前人研究成果或是再次提及本研究结果。
表3 “呈述结果”句干语态时态分布信息
“前人研究综述”表示对前人相关论文中的研究、数据和主要观点进行的归纳整理。该功能是“研究关联”范畴的最大子类,类符为114,形符为792。此类常见句干包括previousstudiessuggestthat,approachhasbeenused,literaturefocuses,approacheshavebeenproposed,authorshaveused,othershavesuggested,theseresearchersfound,othershaveargued等。从功能上看,常见的“前人研究综述”句干用于对以往研究、方法、总结以及观点的重述,如othershaveargued,approachhasbeenused,othershavefound等。从时态上看,“前人研究综述”句干常见时态为现在完成时,现在完成时是指动作发生在过去但是对目前的动作行为有一定的影响。而这一点正是功能项“前人研究综述”所体现的基本意义,即在学术语篇中表明论文研究命题内容是在前人研究基础上的进一步拓展,可以通过前人文章中所叙述观点与其他研究内容、方法等进行连接,使得文章更加充实。
四、 学术语篇中组织句干的结构特征
按照结构特征,我们将2 933条不同句干分为以下五类:显性人称主语(由人称代词或作者自我提及语为主语的句干,如theyrecognized,theauthorsfoundthat)、显性非人称主语(句干主语为表示论文、研究、聚焦、对比等含义的名词引导,如goalofthispaperisto,ourstudydemonstrates)、Wh-词结构(由特殊疑问词引导的句干,如whattheythink,whichwouldallowfor)、As前置结构(由前置as引导的从句,如asithasbeenshownto,ascanbeseeninFig.)、存在句式(即为therebe结构句干,如therewasamaineffect,therearenodifferencesin)。图1显示组织句干结构特征的分布信息(不包含状语从句等153条句干序列)。
图1 组织句干结构特征
由图1所示,显性人称主语和显性非人称主语是组织句干中最为典型的主语类别,共计出现22532次,占总数的85.36%。As前置结构和Wh-词结构在所有类别中出现的频数最低,合计出现1175次,占总数的4.45%。各类结构的句干在学术语篇中的分布差距较为悬殊,一方面是因为提取出来的句干大多数是以主语加谓语的小句结构单位,另一方面是因为语篇是由许多句子组合而成,而每一个完整的句子都需要名词主语,所以前两种结构类型所占比例较高。接下来,本文将分别探讨显性人称主语和显性非人称主语的结构特征。
表4展示了显性人称主语的详细分布数据,其中显性人称主语包括699个不同句干(占总类符数的23.83%),使用实例达到8 294条(占总形符数的31.42%)。我们发现,第一人称单数主语I、第一人称复数主语We,以及第三人称复数主语They的使用实例总和要比其他类型的人称主语多许多,这与我们传统认为的学术语篇旨在科学传递事实命题而与作者个人感情无关的观念背道而驰。同时,第一人称的频繁使用揭示了学术语篇在客观陈述事实、传递科学知识的同时,也是一个构建作者与读者有效互动的动态过程。通过使用第一人称来表达自己的观点,让作者身份在学术文本中变得“清楚可见”。
表4 显性人称主语类别分布信息
为了进一步分析主语类别与功能的关系,我们分别考察显性人称主语中可指代作者本人的三种主语类型,即第一人称单数I,第一人称复数we和作者自我提及语。表5为三种主语类型句干与各自对应功能的分布情况。我们发现,第一人称单数主语I的句干序列主要执行“呈述观点”和“描写”两大功能,分别出现273次和153次,均属于“研究推进”范畴。第一人称复数主语We的句干序列主要实施“阐述方法步骤”和“呈述结果”功能,分别出现2637次和972次,占各自功能类总数的43.35%和15.98%,亦属“研究推进”范畴。而作者自我提及语主要执行“报道”和“前人研究综述”功能,属于“研究关联”范畴。
表5 第一人称主语与其功能分布情况
相对显性人称主语结构而言,显性非人称主语句干的主语类型更为丰富,所涉范围较广。通过检查主语的语义特征,我们发现,显性非人称主语多是与研究活动或研究内容密切相关,可概括为以下类型:“指示代词类”,即指示代词作为主语,如this,those;“理论/原因类”,涉及研究理论或原因的名词,如literature,reason;“事实/证据类”,表示表格、图表等事实类证据的名词,如table,figure,data,group,factor;“研究类”,与研究项目相关的名词,如study,research,project,survey;“实验类”主语是指与实验研究相关的名词,如variables,experiment,participant;“对比/差异类”,表示研究差异性或相似性的名词,如difference,comparison;“论文类”,表示文章或章节的名词,如paper,section,chapter;“聚焦/目的类”,用于说明研究焦点或目的的名词,如aim,focus;“观点类”,涉及观点、评论、解释等的相关名词,如disagreement,argument,analyses,view;“研究方法类”,涉及研究方法、实验或具体步骤的名词,如method,step,procedure,image,process,model,system;“结果类”,表明研究成果或发现的名词,如result,finding;“示例类”,用于举例的名词,如case,sample,example;“问题类”,表示研究问题的名词,如problem,question。总体来说,显性非人称主语类型繁多,或表示研究内容、事实、方法步骤,或指代文章内部位置,或表示结果、原因等逻辑关系。此类句干极具学术语域特征,每次出现都是在提示或引导读者如何解读其后的命题信息。我们进一步分析了显性非人称主语的主语类别与实现功能的对应关系。表6展示组织句干显性非人称主语类别和功能对照关系(其他功能共计733条,此处不计入)。我们发现,主语类型与功能的对应情况可分为两种:指向性明显和指向性不明显。例如,“研究类”主语结构可实现的“研究推进”类功能和“研究关联”类功能,其频数较为相近,分别为713和596次,“理论/原因类”主语结构对应的“研究推进”类功能和“研究关联”类功能频数也较相近,分别是68和54次。可见,这两类主语结构可实现的功能类分布较均衡,即在实现话语功能时在两大功能范畴间指向性不明显。相反,“示例类”“事实/证据类”“问题类”等主语结构实施的功能则分布不均匀。例如:示例类主语实施的“研究推进”类功能明显多于“研究关联”类功能,对应形符数分别为306和6,比值达到51,可见示例类主语在执行两类功能时的频数差异较大,功能指向性明显,表明“示例类”主语主要实施的功能类别为“研究推进”;“问题类”主语在执行“研究推进”和“研究关联”两类功能时的形符数分别为7和112,其比值仅为0.06,说明该主语类别同样功能指向性明确,但倾向于执行“研究关联”类功能。
表6 组织句干显性非人称主语类别和功能对照
五、 结语
本文概述了学术语篇中组织句干功能类别和结构特征。功能上,我们将组织句干话语功能概括为“研究推进”和“研究关联”两大范畴,并基于真实数据对每个范畴进行细致划分,最终得出“研究推进”范畴包括16种子功能类别,即呈述事实、呈述结果、呈述观点、宣布研究特征、研究目的表示、聚焦、界定、总结标识、阐述方法步骤、状态说明、描写、描述实验、解释数据、举例、揭示常识和推理。而“研究关联”范畴则包括10类子功能,即报道、对比、插入语标识、缩小研究领域、提出问题、指出研究空白、揭示研究不足、理论依据来源、前人研究综述和篇章指示。形式上,我们将组织句干分为5个结构类别,即显性人称主语、显性非人称主语、Wh-词结构、As前置结构和存在句。其中,显性人称主语和非人称主语的频数最高,我们分别讨论了这两类句干的主语类型,以及主语形式与功能的对应关系。研究发现,显性人称主语以第一人称复数主语We的使用最为频繁,此类句干主要实施“阐述方法步骤”和“呈述结果”功能,隶属“研究推进”范畴,这说明学术作者在陈述研究事实的同时,也在试图构建与读者的互动空间,以拉近与读者的距离。此外,频数分布数据显示非人称主语在实施学术话语功能时具有两种倾向性:一种为主语类型在执行“研究推进”类功能和“研究关联”类功能时指向性不明显,即所执行的功能分布均匀,另一种为主语类型倾向于实施某一范畴的功能,即所实施的功能分布不均匀,单功能指向性明显。
本文基于从真实文本抽取的大量句干实例,从定量角度验证了“句干是学术文本构建的核心组块”的观点。这不仅为之前的句干研究提供了数据支撑,也是对现有句干理论的有益补充和完善。然而,由于话语功能的划分仍主要基于人工,关于句干的功能分析难免存在一定的主观性,而如何客观地认定句干功能,将是我们接下来研究的方向。