APP下载

现代汉语句系系统的构建和研究

2010-06-05亢世勇许小星

中文信息学报 2010年1期
关键词:补语状语句型

亢世勇,许小星

(鲁东大学 中文信息处理研究所, 山东 烟台 264025)

1 研究背景

根据“三个平面”理论,任何具体的句子都是句型、句模和句类的结合体。对一种语言的句子进行全面的调查以后,通过理性的抽象,可以建立该语言的句型系统、句模系统和句类系统,三个系统互相结合、纵横交错就形成一个句系网络系统。范晓先生提出:一旦将某种族语的句系建立起来,“不仅有利于不懂该族语的人们学习该族语,而且也能使懂得该族语的本族人更好地掌握和运用自己的母语,在现代高技术发展的信息社会里,还能促进机器翻译(自动翻译)和人工智能等方面的研究工作”[1-2]。因此范先生呼吁学界,希望能共同努力来构建现代汉语的句系系统,建立研究一门新的学科——句系学。

我们在2005年承担了国家社科规划项目“基于大规模标注语料库的现代汉语句子语义结构系统研究”,以中小学语文课文和对外汉语阅读材料为基础,共加工了包含713 430字、28 669个句子的语料。以句子为单位标注了每个句子的句法结构和语义结构信息,建立了“现代汉语句法语义信息语料库”。基于该语料库,分别提取和建立了句型系统、句模系统和句干系统,该系统包括句型5 558类、句模13 696类,句干14 211类。为了进一步研究句型和句模的对应机制,也为了让相互独立的三个系统有机地结合起来,从而建立一个更有价值的体系,我们在原有成果的基础上,构拟出一个由句型系统、句模系统和句干系统组成的句系系统。尽管我们的语料还暂时缺少对句子的句类信息的标注,与范晓先生所提出的句系网络系统相比还不够全面,但仍可以说是对“句系学”理论研究的一次有益的尝试。

2 句系构建的理论原则

我们共设置了24个语义成分标记(施事S、受事O、与事T、客事K、系事X、结果R、致事Z、当事D、领事L、分事F、共事Y、目的G、原因C、数量N、依据W、工具I、基准J、时间H、处所P、范围E、材料M、方式Q、方向A、同源B)和7个句法成分标记(主语S、谓语P、宾语O、状语D、补语C、兼语J、独立语T),以句为单位,对每个句子(包括单句和复句)进行句法结构标注和语义结构标注。用“[ ]”来划分语块,“[”后标记该语块的句法成分,“]”后标记该语块的语义成分。

标注样例:[S语言/n]D[P是/v]V[O人类/n最/d重要/a的/u交际/v工具/n]X。

上例的句型是[S][P][O],句模是[]D[]V[]X,句干是[S]D[P]V[O]X。

通过对句型、句模、句干三个系统的观察发现,句型的种类远远少于句模和句干的种类,句型和句模存在着一对多的状况,且句干是由句型和句模结合生成的,所以我们采取以句型为纲,通过寻求句型和句模之间的对应关系来构建句系系统。首先我们对句型系统进行了全面细致的考察和整合。研究发现,复杂句在真实语料中占到绝对多数,但无论多复杂的句型,都可以切分为四个串组“P”“SP”“PO”“SPO”。如[S][P][P][O][P][O][P]可以切分为[S][P]+[P][O]+[P][O]+[P]。所以,可以把“P”“SP”“PO”“SPO”看作构成句型的基本结构,任何复杂句型都是这四类基本结构经过组合后再添加上状语、补语形成的。基于这样的想法,我们按照“P”“SP”“PO”“SPO”把句型系统分为四个子系统。对这四类句型的分类遵循以下原则:

(1) 在忽略各类句型中状语、补语标记的前提下对句型进行提取和分类;

(2) 提取P类句型时,排除所有含SP、PO、SPO串的句型;在提取SP句型时排除所有含PO、SPO的句型;提取PO句型时排除所有含SP和SPO的句型;

(3) SPO类句型包含了剩余所有句型;

(4) 层级性(系统性)。句系系统是有层级的,处在第一层级上的是P、SP、PO、SPO四个子系统,第二个层级是上位句型系统,每一个上位句型都对应着若干下位句型,下位句型是真实文本中的句子结构,上位句型是对真实文本句子结构的再抽象,剥离了构成句型的非核心成分(状语和补语),只保留了构成句型的核心成分(主语、谓语、宾语、兼语)。下位句型系统为第三个层级,第四个层级是下位句型对应的句模及该句型句模结合生成的句干。

真实文本句子的句型和句模较为复杂,句型句模的对应机制也是当今语言学研究的重点和难点问题。既然一个复杂的句法结构可以看作是几个简单结构的组合体,那么一个复杂的句模也应该可以切分为较小的单位。我们考虑是否可以通过研究简单句型和复杂句型、简单句模和复杂句模之间的组合映射规律,从而找到句型句模对应机制研究的一个新的突破点。我们按照“P”“SP”“PO”“SPO”对句型系统进行分类,也正是基于这样的考虑。

如上文所述,[P]、[P][O]、[S][P]、[S][P][O]是构成句型的基本结构,我们就把这四类确立为四类子句型系统的基础句型。这四类基础句型不仅是真实语料中最常见的简单句,其对应的句模的种类也是非常多的。句型[P]对应着一类句模[]V;句型[P][O]对应着17类句模,共计1 526例;句型[S][P]对应着16类句模,共计2 490例;句型[S][P][O]对应着73类句模,共计5 131例。随着进一步的深入分析,我们的研究也实现了预期的目标,这也反过来验证了我们按照“P”“SP”“PO”“SPO”对句型系统进行分类的合理性。

3 复杂句模产生的机制——叠加法

3.1 高频句干和高频句模的确立

句型同句模之间存在一对多的对应关系。同一类句型,它同不同类型的句模结合所产生的不同类型的句干对应的例句数也不尽相同。我们按照下面的公式为每一种基础句型提取出高频句干,取高频句干的公式如下:

将一个句型和同其对应的各类句模结合生成的所有句干的例句总数记为数组n,该数组的长度记为N,定义如下两个函数:

f1(m)

其中,m=1,…,N。那么,当第m种句干的个数满足下式时就称为高频句干:

可以与基础句型结合生成高频句干的句模我们称之为高频句模。

句型[P]只对应一类句模[]V,结合生成一类句干[P]V。

句型[P][O]与对应的高频句模结合成的高频句干有以下5类(见表1),这5类句干的数目占到总数的92.73%。

表1 句型[P][O]对应的高频句模

句型[S][P]与高频句模结合成的高频句干有以下2类(见表2),这2类句干的数目占到总数的99.08%。

表2 句型[S][P]对应的高频句模

句型[S][P][O]与高频句模结合成的高频句干有以下9类(见表3),这9类句干的数目占到总数的90.08%。

表3 句型[S][P][O]对应的高频句模

3.2 对复杂句模结构的分析

在确立了基础句型和其对应的高频句模后,着手展开对复杂句模结构的研究。先考察了由基础句型简单叠加而成的新句型,我们把这类新句型称为典型句型(典型句型是下位句型中的一类,如SPO类句型下的典型句型有[S][P][O][S][P][O]、[S][P][O][S][P][O][S][P][O]等)。在考察时我们使用了解析法,解析法是指先对一个句型进行分解,如典型句型[S][P][O][S][P][O]可以分解为[S][P][O]+[S][P][O],那么[S][P][O][S][P][O]对应的句模也可以相应地分解为两个小句模。通过分解,可以直观地了解基础句型对应的句模的构成情况。

SPO类句型的典型句型[S][P][O][S][P][O]对应着161种语义模式,528个实例(528例指由该句型同161种句模相结合构成的161种句干的总例句数)。按照解析法,[S][P][O][S][P][O]对应的句模之一[]D1[]V1[]K1[]D2[]V2[]X2就可以解析为[]D[]V[]K和[]D[]V[]X两个小句模,那么,528例就可以解析为1 056个小句模。其中基础句型[S][P][O]对应的9类高频句模共出现921个,占到总量1 056个的87.22%。并且以上这些句模的出现的频度高低基本与它们在基础句型[S][P][O]出现的频度高低基本一致。此外还发现由两个相同语义模式叠加构成的句模有21类182例(如[]D1[]V1[]K1[]D2[]V2[]K2),占到总实例数528例的34.47%。

我们还考察了其他典型句型如[S][P][O][S][P][O][S][P][O]、[S][P][O][S][P][O][S][P][O][S][P][O]等,基础句型[S][P][O]对应的高频句模在这些典型句型对应的句模中的出现率是相当高的,也就是说典型句型对应的句模基本上由基础句型对应的几类高频句模组合而成。而且,由同类型高频句模叠加构成新句模的比例也是相对比较高的。为了验证这一结论,我们还考察了SP类、PO类句型中的典型句型的句模情况,均支持以上结论。

通过分析由基础句型叠加组合构成典型句型的构成情况,我们得出以下结论:基础句型对应的高频句模是构成典型句型对应的句模的主体,且这些高频句模在典型句型对应的句模中的出现率(即出现频度)基本与其在基础句型中出现的频度一致。此外由相同句模叠加构成新句模的方法(简称叠加法)是构成典型句型对应的句模的一个非常重要的方法。

我们又用解析法抽查检验了句系系统中除典型句型之外其他句型的情况。

在[S][P][O][P][P][P]句型中,共有句模7类,11个实例,这11例中,S均是四个P的共同主语,我们将这个句型解析为[S][P][O]+[S][P]+[S][P]+[S][P]的组合,观察这四个小句型对应的句模的结构。其中[S][P][O]对应的句模涉及到[]D[]V[]X(有3个),[]D[]V[]K(有1个),[]L[]V[]K(有1个),[]S[]V[]O(有6个),这四类句模均是句型[S][P][O]对应的高频句模。句型[S][P]的语义模式只有[]S[]V和[]D[]V两类,与基础句型[S][P]对应的高频句模一致。

经随机取样和分析,均可以验证基础句型所对应的高频句模是构成复杂句模的一个重要基础的判断。尽管汉语句子语义结构模式复杂,多达上万种类型,但动名语义关系主要集中在有限的几种类型。此外,还得知,当一个句型是[S][P]或[S][P][O]与[P]、[P][O]的结合体时,在[S][P][P][O]、[S][P][O][P][P]等这类句型中,处在句首的S经常充当后面多个P共同的主体性语义成分,这一比例高达85%以上;在[P][O][S][P]、[P][S][P][O]这类句首为动词的句型中,句首的主体性语义成分由位置在其后的S兼任的比例大约在20%左右。

[J]是一个兼语成分(在前期考察基础句型时,我们把含[J]的句型分化在句型系统的四个子系统中),把[P][J][P]视作含成分[J]句型的基础句型,单独考察[J]同语义成分之间的映射关系。在句型[P][J][P]中,[J]对应着的高频语义成分组合有以下几类,O1+S2,K1+S2,O1+D2,K1+D2,这四类在该句型对应的句模中占到86.60%。按照前面的研究我们推论这四种语义成分的组合应该是所有含[J]句型中J对应的语义成分组合中的高频组合。我们单独抽取出含[J]的所有句型对应的2 130类句模对上述结论加以验证。经验证,结论与推论一致。[P][J][P]对应的高频句模在所有包含[J]的句型所对应的句模中的出现率占到85%以上。

小结:通过验证,我们主要得出以下两点结论。

(1) 将复杂的句法结构和语义结构解析为较小结构的组合,基础句型对应的高频句模在组合构成复杂的语义结构中占到较大的比重。

(2) 在句子中兼语成分[J]优先映射为O1+S2,K1+S2,O1+D2,K1+D2这几种语义组合。

3.3 补语、状语与语义成分的对应情况

前文对复杂句模的产生机制的考察没有考虑句子结构的非核心成分状语和补语。实际上,从简单句模到复杂句模的生成,补语和状语对应的语义成分是不可或缺的重要因素。下面分别考察补语、状语同语义成分的对应情况。

我们首先对补语位置出现的语义成分进行了单独的考察。从四个句系子系统中分离出了“PC”、“SPC”、“SPOC”、“POC”和“PCO”五类动补组合,考察补语位置上的语义成分的情况。

在PC组合中,C主要映射为数量成分(N)、时间成分(H)、处所成分(P)和谓词性成分(V),各种成分出现的比例如下:

在SPC组合中,C主要映射为数量成分(N)、时间成分(H)、处所成分(P)、谓词性成分(V),各种成分出现的比例如下:

在SPOC组合中,C主要映射为数量成分(N)、时间成分(H)、处所成分(P)、基准成分(J)和谓词性成分(V),各种成分出现的比例如下:

在POC组合中,C主要映射为数量成分(N)、时间成分(H)、处所成分(P)、谓词性成分(V),各种成分出现的比例如下:

在PCO组合中,C主要映射为数量成分(N)、时间成分(H)、谓词性成分(V),各种成分出现的比例如下:

此外还考察了状语位置上的语义成分的出现率情况。我们从数据库中提取出所有的包含[D][P]、[D][P][O]、[D][S][P]、[D][S][P][O]字段的句型对应的语义模式,考察在这四类中状语同语义成分的对应情况。

[D][P]类中状语位置上语义成分的出现率构成不等式如下:

P>O>H>T>J>Q>A>Y>S>E>W>C>I>D>N>G>M>K>L>F>R

[D][P][O]类中状语位置上语义成分的出现率如下:

H>P>T>O>Q>E>I>W>J>Y>D>C>N>M>S>G>A>L>K

[D][S][P]类中状语位置上语义成分的出现率如下:

H>P>E>W>C>T>J>G>Q>N>K>I>O>M>A

[D][S][P][O]类中状语位置上语义成分的出现率如下:

H>E>P>W>G>C>T>J>Q>N>D>K>I

上述研究中对补语、状语位置出现的语义成分的优先序列的考察及结论是比较粗疏的,具体到实际句子中状语、补语位置对应的究竟是什么语义成分,受到核心动词的价、述语动词以及述语动词所控制的体词的语义类,还有句子句式等多种因素的制约。这也是我们进一步研究的方向。

4 句系系统

我们结合“现代汉语句系查询系统”界面的一个截图(见图1),直观地了解句型系统的层级体系和句系系统的概貌。下图中“句型系统”列表框中显示出第一层级的四个子系统;以子系统[P][O]为例,包含[P][O]、[P][O][P][O]、[P][P][O]、[P][O][P]等共计184类上位句型;其中上位句型[P][O]下属[P][O]、[D][P][O]、[D][D][P][O]、[P][O][C]、[P][C][O]等13类下位句型;下位句型之一[D][P][O]对应着78类句模,[]D[]P[]O和句模之一[P][V][O]结合生成的句干[D]P[P]V[O]O在语料库中共有例句46个,例句集显示在界面下端的图框中。

图1 “现代汉语句系查询系统”界面截图

将整个句系系统构建成一个有层级的体系,使得把三个相对独立的句型、句模、句干系统有序整合在一起成为可能,从而形成更有研究价值的语义资源。按照基础句型把庞大的句系系统分离为四个子系统,每个子系统中通过提取真实文本句子句法结构的共性特征(核心句法成分)设立上位句型,从而将句型系统中5 558类句型纳入2 304类上位句型体系,为句型和句模对应关系、复杂句模的生成机制等研究铺平了道路。

5 展望

当今的语言学研究中,语义与句法如何接口的问题,或者说探索语义结构转化/投射为句法结构的理论和方法是语法学家、计算语言学家们十分关心的问题[3]。通过我们的考察研究,了解了现代汉语句子结构系统的复杂性,同时也认识到这种复杂的本质特征中存在着某种规律性。既然对一个完整的句法结构和语义结构的对应关系进行研究较为困难,试将完整的句法结构/语义结构分解为较小的单位寻求组合的规律,未尝不是一个办法。尽管我们对句法结构和语义结构之间的映射机制的研究还处于起步阶段,本文还没有提出一套完整的供计算机自动识别和分析句子语义结构的规则,但我们的研究还会持续下去,并坚信一定会取得较大的突破。

[1] 范晓.略说句系学[J].汉语学习,1999(6):1-4.

[2] 范晓.汉语的句子类型[M].上海:书海出版社,1998.1-23.

[3] 陆俭明.句法语义接口问题[J].外国语,2006(3):30-35.

[4] 亢世勇,许小星,等.现代汉语句子语义成分标注研究[C]//萧国政,等.中文计算技术与语言问题研究——第七届中文信息处理国际会议论文集.北京:电子工业出版社,2007:173-179.

[5] 许小星,亢世勇.基于标注语料库的现代汉语句法成分和语义成分对应机制研究初探[C]//萧国政,等.中文计算技术与语言问题研究——第七届中文信息处理国际会议论文集.北京:电子工业出版社,2007:156-162.

猜你喜欢

补语状语句型
典型句型大聚会
朝鲜语状语在汉语中的对应情况
汉语中的补语在维吾尔语中的对应表达
强调句型的it和引导词it有什么区别?
状语从句
“NP V累了NP”动结式的补语趋向解读
高中英语表示比较和对照关系的句型
翻译误区逐个看