基于语料库的跨层介宾短语与语体的对应性研究
2024-04-15宫雪
宫 雪
(北京大学 对外汉语教育学院,北京 100871)
“跨层介词”是指可分布在多个句法位置上的介词,如例(1)中“按照”可分布于四个句法位置,分别是主语前、话题前、能愿动词后和使役动词前①。
(1)a.按照学校的要求,新入学的学生应该参加体检。
b.按照学校的要求,新入学的学生,他们应该参加体检。
c.新入学的学生应该按照学校的要求体检。
d.老师按照学校的要求让新入学的学生参加体检。
相关研究证明,某一语言要素可分布的句法位置越高,其语体属性越正式[1-3]。以往研究解决的是“语言使用的可能性”问题,即“可说不可说”的问题,如“他跟老师会说这件事”就是不可说的。若介宾短语在多个位置上都“可说”,那么在真实的语言使用中,此类介宾短语更倾向于出现在哪个位置上?是否也符合“正式体介词及其宾语倾向于分布在高句法位置,非正式体介词及其宾语倾向于分布在低句法位置”的规则?这是本文要探讨的问题之一。
另外,语体变量制约着语法特征的语体分布[4-5]。早在20 世纪70 年代就有学者注意到了语体对语法特征的影响[4,6]。进入21 世纪后,相关研究层出不穷,涉及到的语法特征包括中性语态、施事宾语句、时体标记、关系从句、“把”字句、被动句、光杆动词句、否定反问句等[7-9]。方梅[5]从三个角度论述了语体特征的句法表现:一是句法特征具有语体分布差异,如说明语篇、操作语篇排斥主观视角的副词;二是句法限制具有语体相对性,如“动词+了1+光杆名词”不能结句的限制,适用于叙事语篇,但在对话中不一定适用;三是句法形式的语义解读具有语体依赖性,如疑问句在对话中可解读为“请求”。
需要指出的是,有研究发现,时空度是一个重要语体变量[1-2],如表达绝对时空的“在”和引入非在场时空的“当”分属于口语非正式体和书面正式体。从时空度看,小说、新闻、学术期刊论文可构成从“具时空”到“泛时空”的连续统,也是从非正式到正式的连续统。小说的时空性最强,正式度最低;学术期刊论文的时空性最弱,正式度最高。那么不同语体类型的介宾短语在小说、新闻、学术期刊中的分布如何?是否遵循“正式体介宾短语倾向于出现在具有泛时空属性的学术期刊论文中”的规则?
基于以上分析,本文拟在真实语料中验证“语体、时空度、句法位置对应”这一观点。所选跨层介词为口语体介词“按”“除了”和正式体介词“按照”“根据”。选择理由为以上四个介词的常用性和典型性,即选择高频且典型的跨层介词进行量化考察。若“语体、时空度、句法位置对应”的观点在典型介词上得到验证,可为其他汉语介词的语体分类提供借鉴。例如,当某介词在学术期刊论文这一正式语体中较多出现时,我们就可以将其归为具有泛时空特性的正式体介词。此外,本文通过量化统计验证前人观点,也为汉语介词分类提供了多因素量化研究的新思路。
本文的主要研究问题如下:
(1)介宾短语的语体属性与体裁的对应性。正式体介词“按照”“根据”及其宾语是否倾向于出现在新闻和学术期刊论文中,口语体介词“按、除了”及其宾语是否倾向于出现在小说中?
(2)介宾短语的语体属性、句法位置、体裁三者的对应性。介词“按照”“根据”“按”“除了”及其宾语、句法位置、体裁三者之间的对应性如何?
一、语料来源及分析步骤
(一)语料来源
本研究共涉及三个小型语料库:小说、新闻和学术期刊论文。
小说和新闻语料库建设。新闻语料库从ToRCH2009、2014 中抽取而来。ToRCH(Texts of Recent Chinese)系列语料库由北京外国语大学语料库团队建设而成,抽样方式参考布朗语料库,包括新闻、通用、学术、小说四类体裁。ToRCH2009 和ToRCH2014 抽样方式一致,但文本内容不重复,因此可合并使用。我们抽取其中的新闻语料,建成新闻语料库,总库容量为21万词。小说语料库同样从ToRCH2009、2014 语料库中抽取而来,共61.6 万词。
学术期刊论文语料库由50 篇学术期刊论文构成,总库容量为32.8 万词。
以上三个语料库建成后,均进行分词和词性标注处理。
(二)分析步骤
本文的分析步骤如下:
首先,在3 个语料库中分别检索“按照_p”“根据_p”“按_p”“除了_p”。
其次,对检索到的语料做句法位置标注。跨层介词可分布于vP 层、TP 层以及CP 层,在对真实语料进行分类时,若使役动词不出现,vP 层和TP 层不好区分。因此,本文句法位置的标注仅有两类:CP 层和非CP 层。CP 层标为CP,非CP 层表为NCP。
最后,统计分析。本研究的统计分析方法有两种:对应分析和多重对应分析。对应分析为探索性的统计方法,即“不预设语言属性(语体)与语言特征(介宾短语、句法位置)的关联性,而由数据根据语言特征使用概率自行计算出其互相吸引的程度”[10]。
二、结果与分析
对应分析及多重对应分析展示的是样品与变量之间的对应关系。具体到本文中,样品指语言实例,即“按”“按照”“根据”“除了”四个介词及其宾语在语料库中的使用实例;变量指介宾短语、介宾短语的句法位置(CP 层和NCP 层)和体裁(小说、新闻、学术期刊论文)。
(一)介宾短语与体裁之间的对应关系
本小节整体观察四类介宾短语在三种体裁中的分布情况(见表1)。
表1 四类介宾短语的体裁分布
以表1 数据为基础进行对应分析,得到四类介宾短语与体裁的对应情况(见表2)。据表2,维度1、2 可解释全部的数据分布,因此,可以使用二维坐标表示变量间的关系,如图1 所示。
图1 四类介宾短语与体裁的对应分析
表2 四类介宾短语与体裁的对应分析结果
据图1 可知,维度1(横坐标)区分了小说和学术期刊论文两类体裁。与小说对应的介词是“除了”和“按”两个口语体介词,学术期刊论文对应的是正式体介词“根据”。新闻接近维度1 的原点,说明在维度1 难以将新闻体裁归类,但可以看出新闻与正式体介词“按照”接近。值得注意的是,正式体介词“按照”处于维度1 的负向,即口语体介词“除了”和“按照”处在一个方向上,因此,“按照”可能不属于典型的正式体介词。维度2(纵坐标)将小说、学术期刊论文和新闻区分开,正向分布的是“除了”(接近小说)和“根据”(接近学术期刊论文)两个介词,负向分布的是“按”“按照”两个语义相近的介词,与新闻体裁接近。
(二)不同句法位置的介宾短语与体裁的对应关系
介宾短语处于不同句法位置时,四类短语在三种体裁中的分布数据如表3 所示:
表3 四类短语在三种体裁中的句法分布
基于表3 的数据,不同句法位置,介宾短语与体裁的对应分析结果如表4 所示。据表4,无论介宾短语是处于CP 层,还是NCP 层,两个维度都可以解释全部的数据分布,因此,都可用二维坐标图将介宾短语与体裁的对应关系可视化,如图2、3 所示。
图2 CP 条件下介宾短语和体裁的对应情况
表4 不同句法位置介宾短语与体裁的对应分析结果
据图2、图3 可知,与不区分句法位置相比,介宾短语与体裁的对应情况大致相似,但也存在差异。相似之处在于:维度1 将小说与新闻、学术期刊论文区分开;维度2 将新闻与小说、学术期刊论文区分开;“根据”与学术期刊论文靠近,且处于维度1 和2 的正向上。不同之处在于:介宾短语出现在CP 层(高句法位置)时,“按”从维度2 的负向移动到了维度2 的正向,与小说之间的距离更近了;介词出现在NCP 层(低句法位置)时,“按照”从维度1 的负向移动到了维度1 的正向,“按”虽仍处于维度1 的负向,但更接近正向了。
图3 NCP 条件下介宾短语和体裁的对应情况
(三)介宾短语与句法位置、体裁两种变量的对应关系
本小节考察介宾短语与两种变量的对应关系,所用方法为多重对应分析。该分析方法“可将复杂的多维数据进行降维处理,在低维图示上直观展示多个分类变量不同水平间的关联,挖掘数据中的结构和特征”[11]。本文中每条语言实例均涉及三个分类变量,分别是介宾短语(“按”“按照”“根据”“除了”)、句法位置(CP 层、NCP 层)、体裁(小说、新闻、学术期刊论文)。基于介宾短语的(两个)参项特征(句法位置和体裁)来考察不同语言实例之间的相似性。
多重对应分析的结果如图4 所示,黑色为参项特征,灰色为语言实例。据图4 可知,维度1和维度2 共同解释了70.56%的数据分布,因此,基本可以使用二维坐标表示语言实例与参项特征的对应关系。从维度1 看,正向上的两种体裁是小说和新闻,句法位置是NCP;负向上的体裁是学术期刊论文,句法位置是CP。从维度2 看,正向上的体裁是新闻,负向上的体裁是学术期刊论文和小说。两种句法位置均处于维度2 的原点。
图4 语言实例与参项特征的多重对应分析图
以多重对应分析结果为基础,将介宾短语变量作为补充变量添加到上图中,以观察句法位置、体裁两个参项作用下,介宾短语的分布位置。结果如图5 所示:
图5 以介宾短语为补充变量的多重对应分析图
据图5 可知,“除了”倾向于出现在NCP 层(低句法位置),与小说的距离较近;“按”也倾向于出现在NCP 层,在体裁上没有明显的倾向性;“按照”同样倾向于出现在NCP 层,与新闻的距离较近;“根据”倾向于出现在CP 层(高句法位置),倾向于出现在学术期刊论文中。为便于观察,以上结果可归纳为表5:
表5 “按”“按照”“根据”“除了”的使用特征
三、讨论
(一)“除了”使用特征的语体动因
首先,“除了”倾向于出现在小说中,且倾向于出现在NCP 层(低句法位置)。小说是典型的叙事语体,其最具特征性的语体变量是关注“时间连续性”和“动作行为主体”,所描述的是具体的过程和事件。因此,从时空度来看,叙事语体表现出了“具时空”的特性。根据王永娜、冯胜利[1]的研究,“具时空”对应的是“非正式体”和介宾短语的低句法位置,因此,口语体介词“除了”倾向于出现在叙事语体中,且出现在低句法位置。
其次,小说中,“除了”的句法位置不同,篇章功能也不同。由“除了”引导的介宾短语若处于CP 层,包含该短语的句子所描述的是推进事件进展的前景信息,如:
(2)秋臻是个不错的上司,身为晋侯的远亲却没有架子,接管了八松都督府的“云水僧”后,屡屡在晋侯面前立功。他很慷慨,总愿意把功劳分给手下人,这也许是因为他从不担心手下人抢了他的地位,据传他和晋侯身边那些黑衣的教士来往密切。除了这些,秋臻还会请自己手下那些还未出头露脸的年轻武官吃饭喝酒,于是这些人将来有机会往上爬也还会记得秋臻当年的好处,这是秋臻做官的道理。
例(2)中,通过列举秋臻的行为,来说明“秋臻是个不错的上司”。“除了这些”具有衔接前后语段的功能,其前和其后都是在说明秋臻的行为。
由“除了”引导的介宾短语若处于NCP 层,包含该短语的句子所提供是与事件进展相关度不大的背景信息,如:
(3)邵元任就这样离开了邵府,这儿除了小书房和一间卧室,似乎再也没有他的痕迹。凤仪陷入了深深的伤感。尽管她已经有了准备,但她不理解为什么爸爸出家之后,连再见一面也不愿意。不见她也算了,连大石头、小石头、安安一并不见了。
例(3)中,整段讲述的是邵元任出家后,凤仪及府内仆人以后的打算。包含“除了”的小句及其后的小句与后面内容的关系不大,即使删掉,也不影响语段意义的表达。
基于“除了”在不同句法位置的篇章功能,我们认为,叙事语体所描述的是事件,每一句的核心动词均具有“时间连续性”,这种“连续性”可以使句子与句子之间连贯。若在话题位置上出现介宾短语,主语位置上的“动作行为主体”得不到凸显,则有可能打破这种连续性。因此,介宾短语在叙事语体中不适合作为衔接连贯的手段出在CP 层,而是作为引入背景信息的介引手段出现在NCP 层。
(二)“按”使用特征的语体动因
关于“按”的使用特征,可概括为以下两点。首先,“按”处于CP 层(高句法位置)时,其在对应图(图2)中的位置,与处于NCP 层(低句法位置)(图3)时相比,更接近小说体裁。其次,“按”更倾向于分布在NCP 层,在对应图(图5)上,其与新闻的距离和小说相似。下面,我们对“按”的两点使用特征分别进行讨论。
首先,“按”与言说类成分组合构成“言说类元话语”,用于说明原因,标示话题转换。方梅[12]详细论述了叙事语体中“言说类元话语”的篇章功能,并以“单说”为例讨论了其篇章功能,认为叙事语体中的“单说”具有“情节开启”“话题转换”“场景转换”的功能。通过对本文语料的观察,我们发现,在CP 层,与“按”共现较多的是言说类成分,如“按说”“按他们四川老家的说法”“按马特的话”等。这些包含“按”的介词短语所引出的是前面所说内容的原因,标示着话题的转换,如:
(4)五月花由三大部分组成,左右是两个圆柱形的货舱区,可容纳20 万吨的液氢,形状完全像呆头呆脑的汽油桶,因为——按马特的话,没有空气的太空中不需要流线型,更不需要照顾局外人的美感。
其次,“按”在新闻和小说两种体裁中均可处于NCP 层,而且其在图5 中与两种体裁之间的距离相近,说明NCP 层的“按”出现在新闻中的倾向强度与其出现在小说中的倾向强度相似。但新闻和小说是两种不同的体裁,所以“按”的使用也表现出差异。新闻是报道已经发生的社会事件的一种体裁,说话者在报道事件时所处的时空与事件所发生的时空是两个时空,因此,从时空度看,新闻的时空属性是“非当下”,泛时空程度相对较高,因此较为正式,如:
(5)福清市政府表示,为有效制止不规范处理、随意丢弃病死畜禽行为,全市将建立病死畜禽监控系统,实施每天报告制度,各镇街发现非正常死亡的畜禽要及时向市府办、农业局报告,市畜牧中心要及时介入查明原因,并按规定上报处理;同时重申要严格控制全市境内养殖规模,严禁新建畜禽养殖场。
小说是典型的叙事体,说话者将自身和所叙述的事件置于同一时空,因此,小说的时空属性是“当下”。在小说中出现了“按+(时体标记)”的用法,如:
(6)老头儿按着我询问的思路继续说。
(三)“按照”使用特征的语体动因
从体裁看,正式体介词“按照”倾向于出现在语体比较正式的新闻体裁中,这与我们的假设相符。从句法位置看,“按照”是正式体介词,我们假设其倾向于出现在CP 层(高句法位置),但根据对应分析的结果,其更倾向于出现在NCP 层(低句法位置)。我们认为,这种与假设不相符的现象与新闻的语体属性相关。“新闻报道是以事件为核心的叙事语体。在这种语体中,时间连续性和动作主体是支撑整个语篇的核心”[7]。新闻中,介词“按照”介引的成分是动作行为的方式,因此,应紧靠表示动作行为的动词。新闻体裁的另一个特点是以简短的文字叙述一个事件,与小说相比,其信息的紧缩程度更高。信息密度高也意味着读者需要在较短的时间内处理较多的信息,阅读压力大。将与动作行为方式相关的介引成分置于紧靠动作行为动词的位置,可以在一定程度上降低信息处理压力,增加文本可读性。
此外,“按”和“按照”意义相近,但语体属性不同,口语体介词“按”在CP 条件下倾向于出现在小说中,正式体介词“按照”倾向于出现在新闻中。另外,虽语体不同,但两者都倾向于出现在低句法位置。因此,影响“介词出现位置”的因素是多方面的,与语体、介词本身的特征都有一定的关系,应综合考虑。
(四)“根据”使用特征的语体动因
正式体介词“根据”倾向于出现在学术期刊论文中,且倾向于出现在高句法位置。
学术期刊论文属于与叙事语体相对的非叙事语体,这类语篇的主要目的是说明“为什么”,语篇内各部分之间通过逻辑关系进行连接。学术语篇中,“根据”置于句首主要有以下两点优势。首先,“根据”属于依据介词,在学术期刊论文中具有介引理论依据的功能,使所得结论更具有说服力。“根据+(理论依据)”置于句首,后接在此理论下所得出的结论,两者之间逻辑关系明晰,论证具有依据性,可以实现学术期刊论文“劝谏读者”的功能。其次,“根据”介引的成分多为作者和读者的共有知识,属于旧信息,“根据”介宾短语置于句首符合从旧信息到新信息的信息流要求。学术期刊论文具有信息密度高的特点,从旧信息到新信息的安排能够降低读者的信息处理压力,使文本的可读性更强。
此外,CP 层“根据”介引的成分和NCP 层“根据”介引的成分存在差异。CP 层“根据”介引的成分多为宏观的信息,如:
(7)根据Bybee(1985)和Dahl(1985)对数十种语言的研究,过去时(past)和完成体(perfective)通常都是从完成时(perfect)发展而来。
NCP 层“根据”介引的成分是较为具体的微观信息,如:
(8)由于人的认知、客观环境和语言系统的复杂性,某一外来概念在进入汉语之初大都会根据不同的译借方式形成多个异名同实词语,即一组指称同一对象、具有等义关系的外来概念词,本文将这类词称为“外来异名同实概念词”。
三、结语
本文基于“语体、时空度、句法位置”对应的观点,提出假设:正式体介词(“按照”“根据”)及其宾语倾向于分布在新闻和学术期刊论文中,倾向于出现在CP 层(高句法位置);口语体介词(“除了”“按”)及其宾语倾向于分布在小说中,倾向于出现在NCP 层(低句法位置)。在小说、新闻、学术期刊论文三个小型语料库中,考察了“按”“按照”“根据”“除了”在以上三种体裁中倾向于分布的句法位置。
研究结果显示:“除了”(口语体介词)倾向于出现在小说(叙事语体,时空属性为“当下”)中,倾向于出现在NCP 层(低句法位置)。“按”(口语体介词)倾向于出现在小说(叙事语体,时空属性为“当下”)和新闻(叙事语体,时空属性为“非当下”)中,且倾向于出现在NCP 层(低句法位置)。“按照”(正式体介词)倾向于出现在新闻(叙事语体,时空属性为“非当下”)中,同样倾向于出现在NCP 层(低句法位置)。“根据”倾向于出现在学术期刊论文中(学术语体),倾向于出现在CP 层(高句法位置)。
本文所得结果与假设不完全相符,这也说明:语境中的语言选择受到了多种因素的影响,尽可能多的考虑各种影响因素,并定位到最关键的影响因素,对真实语境下语言使用特征的描写至关重要。
注释:
①例子引自王永娜(2015),见参考文献[1]。