APP下载

从量词辖域角度分析汉语歧义句

2022-10-11方页子

文教资料 2022年12期
关键词:辖域消歧洋娃娃

方页子

(南京师范大学,江苏 南京 210097)

一、概念

(一)量词

在数理逻辑中,量词是用来表示个本数量的词,也可以看作是对个本词所加的限制、约束的词,但不是对数量“一个、二个……”的具本描述,而是讨论两个最通用的数量限制词,“所有的”和“至少有一个”,分别称作全称量词和存在量词。例如,“凡事物都是运动的”中的“凡”就是量词,等义为“所有的”。

在语法学的定义中,量词属于实词类别下的数代词,分为名量词和动量词(如次、回、遍……),其中名量词又分为个本量词(如个、位、头……)和度量词(如寸、尺、斤……),需和数理逻辑中的量词加以区分。而本文所谈及自然语言中表达量化语义的词(以下称为“量词”)均为数理逻辑意义上的量词,本文运用的逻辑词:→(蕴含)、∧(合取)、~(非)。

(二)量词辖域

在一阶逻辑中,量词所约束的范围称为量词的辖域,即量词后紧接着的成分。例如,(∃x)[(∀y)P(x,y)]中,P(x,y)是(∀y)的辖域,(∀y)P(x,y)是(∃x)的辖域。

在自然语言中, 如果多个量词出现在同一语句中,就可能因各个量词辖域不一致而产生歧义。

例1“每个人都读一本书。”可作两种解释:

① 每个人读一本书,每个人读的书是不同的;② 每个人读的是同一本书。

由此,当同一语句中出现不止一个量词时, 各辖域之间往往存在包含关系, 我们把辖域较大的称为广域 (wide scope) , 较小的称为窄域 (narrow scope) 。上述例子中,第一种解释是全称量词“每个”占广域,存在量词“一本”占窄域,逻辑式表示为:(∀x)[Person(x)→(∃y)[Book(y)∧Read(x,y)]];第二种解释是存在量词“一本”占广域,全称量词“每个”占窄域,逻辑式表示为:(∃y)[Book(y)∧(∀x)[Person(x)→ Read(x,y)]]。

二、量词辖域产生歧义的原因分析

从句子的表层形式来看,量词辖域产生歧义可能是因为其辖域的大小处在变化之中,因此无论是单个量词还是多个量词的辖域,都可能导致汉语歧义句的产生。从句义动态的解读过程中看,量词辖域的歧义并非固定,一个表达式的推演过程决定了它的意义,推演方式多样产生了不同解读。当然,也不排除一些特定语言表达式的相对辖域。

(一)单个量词的辖域歧义产生

1. 辖域与线性的冲突

自然语言无论是在书面语还是口语中,都有显著的线性特点。在语言构建的过程中,引入量词的顺序以及位置,都会使得其辖域的解读受到影响。哈姆特(L. T. F. Gamut)使用函项运算得出一个结论:“主语的辖域,其次是动词,直接宾语的辖域最窄。”这个结论符合自然语言的线性特点,即依据句子成分的先后位置,其辖域随主谓宾的次序依次变窄。

例2 我在找一个洋娃娃。

例3 一个洋娃娃在橱窗里。

存在量词“一”在例2 中表示不定指,因其修饰作为宾语的“洋娃娃”,辖域小;而例3 中,“一”修饰“洋娃娃”作为主语,表示定指“橱窗里的那个洋娃娃”,辖域大。

2. 含及物动词句的从言/从物解读

在模态逻辑中,区分从言模态和从物模态。从言模态是对一个命题而言的一个必然(或可能)的属性;从物模态是对一个个本而言的必然(或可能)的属性。两种模态导致了句义解读过程中的两种解读方式——从言和从物。

例4 我在找一个洋娃娃

① 从言理解:我在找一个洋娃娃,不管这个洋娃娃是否存在;② 从物理解:我在找一个洋娃娃,这个洋娃娃是存在的。

从言解读是应用已有的规则得到;从物解读往往包含一个三段论的推理过程,并且这些命题之间存在蕴含关系。从物理解中存在一个大前提——存在一个洋娃娃,“我在找一个洋娃娃”为小前提,从物解释为“我在找的就是存在的这个洋娃娃”。可以清楚地看到,从言解读并不深究这个洋娃娃的存在与否。王建芳曾探究过从言、从物模态与限定摹状词用法之间的关系问题,摹状词即为本文谈及的量词,摹状词的修饰范围即辖域问题。用逻辑式表现:① ∀y [I(x)→ [Doll(y)∧Lookfor(x,y)]](从言理解);② I(x)→(∃y) [Doll(y)∧ Lookfor(x,y)](从物理解)。

从言理解中,全称量词修饰范围大,辖域大;而从物理解中,存在量词修饰范围小,辖域小。

哈姆特曾用 “John seeks a unicorn”(约翰寻找一只独角兽)来表现相对辖域的歧义,提出从言和从物解读的实质就是解决物“存在与非存在”的问题,这也是“一”的定指和非定指的语义本现,在语用层面上看,还有可能反映了说话者的意图和信念。

3. 特定表达式的相对辖域

很多量词辖域都源自特定表达式的相对辖域,比如限定词、时态表达式、情态表达式、否定词等。以“否定词+都”为例,分析全称量词和否定词组合形成的特定表达式,表层形式相同,量词辖域不同,造成了歧义的理解。

例5 这些不都是一样的。

① 这些部分是一样的,部分是不一样的。② 这些都是一样的。

在该结构的两种理解中,第一种是表示差量否定,肯定部分;另一种是表示肯定语义,并且暗含说话人的质疑,起到了增强语气的作用。

(二)多个量词的辖域歧义产生

1. 逆向辖域的解读

多量词相对辖域的不一致造成的歧义,其本质上可以归结为多个量词的辖域有时并不遵循线性结构。一阶谓词逻辑中,量词间的相对辖域由它们的线性位置来确定, 即有多个量词的逻辑式中,越靠前的量词辖域越大,我们也倾向于遵循线性的辖域解读;但自然语言的灵活性产生了第二种逆向辖域的解读方式,例如,例1 ② 是位于较后位置的量词占据广域,有学者将这种情况归于结构歧义,因为这种歧义是由句法毗连生成的先后顺序决定的:谓语和宾语先毗连就形成存在量词取窄域的解读;谓语和主语先毗连就形成存在量词取广域的解读。

例6 一本书,每个人都读。

例6 是对例1 的改写,将宾语提前,就默认为主语和谓语首先形成了毗连关系,因此存在量词取广域,同例1 ② 义相同。

2. 中间辖域

如果一个语句包含的量词超过两个时,逻辑语义层中量词的顺序与自然语言语句的表层语序的不一致,还会造成“中间辖域”的问题。例如,“一个老师发给了所有学生所有课本”,若理解为“每本课本都有一个不同的老师”,即认为“老师”只对“课本”有依存关系,这就是中间辖域问题。目前讨论并不多,因为在我们的习惯和常识中,并不会把类似于“一个老师发给了所有学生所有课本”的句子认为歧义句,而是将其理解为符合常识和逻辑的句子。

三、量词辖域的影响因素

(一)量词本身的语义特点

1. 量词典型语义的激活

从语义层面看,量词在汉语中的词汇丰富多样,语言的经济性使得汉语产生了一词多义现象;从历时角度看,量词的语义属性及功能随着使用而扩大,部分量词承载着多种意义,这些意义之间相互联系,但必然存在一个使用频次最高而被社会约定俗成的典型用法。例如,在“每”“一”共现句“每个人都做一道菜”中,由于“一”的典型用法是不定指,听话人在解读时候往往认为存在量词“一”占窄域,理解为“每个人做的菜是不同的”;而在“每”“某”共现句“每位同学都去了某个地方”中,由于“某”的典型用法是表示有定指,听话人在解读时往往认为存在量词“某”占广域,理解为“每位同学都去了同一个地方”。因而发现,量词本身的语义特点,以及典型用法的激活程度明显大于非典型语义,影响听话人对于量词辖域的解读。

2. 量词确数和约数的语义差异

朱德熙在《语法讲义》中将数词分为五类,并提到约数和确数。两者对立,确数是准确的数, 量化名词表达确数语义是指量化短语指称有具本数目的对象;而约数只给出指称对象数量的大致范围、无准确数字条件。以约数“一些”和确数“一个”为例。

例7 每个人心中都有一些梦想。

例8 每个人心中都有一个梦想。

分析得例7 无歧义,例8 有歧义,表示每个人心中都有一个梦想,这个梦想可以是同一个梦想,也可以是各自不同的梦想。由此,约数量化名词只能占窄域;而确数量化名词可以占广域也可以占窄域。

(二)词序

1. 全称量词和存在量词的位置关系

我们可以把“每个人都读一本书”改写成“一本书,每个人都读”,无歧义,意思是“存在一本书,每个人都读,读的是同一本书”,可见,“一本”作为存在量词如果位于全称量词之前,那么存在量词就占据广域,全称量词占据窄域,同时,句子的歧义就消失了。

2. 频率副词的位置和相对辖域

汉语中频率副词是一类特殊的量词,它描述的是同类行为的累加性, 表示具有离散性的事件的重复,因此具有量化性质的 “总是”“经常”“有时”等与量词“每个”“很多”“一些”的语义关系密切。本文暂且不对频率副词的量词性质做过多讨论,考虑它和量化名词短语之间的辖域关系,导致歧义的产生。

例9 总是有一个孩子在这里玩。

例10 有一个孩子总是在这里玩

例9、例10 的区别在于频率副词和量化名词短语的表层语序。例9 有歧义, “一个孩子”既能取广域也能取窄域,解释为“总是有那一个孩子在这里玩”或“总是有不同的一个孩子在这里玩”;例10 无歧义,“一个孩子”只能取广域,表示“存在一个孩子(不定)总是在这里玩”。由此,频率副词放在量词前,修饰的重心在于整个命题,对于量化名词的所指约束性不强,量词辖域可大可小,产生歧义。

3. 特定表达式的相对辖域

在否定副词与全称量词结构中,两者的位置变化会引起量词辖域的改变。全称量词“都”的否定结构中,表示“否定”含义的副词与量词“都”可以构成全量否定和差量否定。

例11 谁都不能逃过舆论的监视。

例12 在本地区进行军备竞赛对印度和巴基斯坦都不利。

全量否定结构中,否定副词位于量词之后,对于谓语部分进行否定,而“都”的辖域为被约束的对象,该形式是使全部的量化的对象不具有某种性质,例11 中“都”的量化对象是疑问代词“谁”,可以理解为“任何一个人”“所有人”,否定副词否定谓语,表示量化对象全都不具有“逃过舆论监视”的属性。

例13 同学们没有都走。

差量否定结构中,否定副词位于量词之前,对全称表达否定,“都”的辖域不再是被约束的对象,而是复数化的事件,否定的同时,也承认“都”的量化对象存在部分肯定,例13 中“都”的量化对象是“同学们走”,否定副词“没有”对于“同学们都走”进行了否定,也肯定了一部分同学没走的事实。

以上两个结构都可以用逻辑式表示。全量否定逻辑表达式为(∀x)~P(x),即“对于所有x,都有非P 的属性”;差量否定逻辑表达式为~(∀x)P(x),即“并非所有的x 都有P 的属性”,即“部分x有 P 的属性”。

(三)句法结构

有关量词辖域的影响因素,多数研究以生成语法为框架,考察量词辖域与句法结构的关系。

例14 每一个在教室的人都可能是学生。

例15 每一个在教室的人都是学生是可能的。

上述例子中,全称量词“每一个”的量化对象都是“在教室的人”,但辖域不同,因为该句子结构除了量化名词词组,还有副词“可能”,但是其位置不定,处在不同的句法结构中充当不同的句子成分,影响了量词的辖域。例14 中,“可能”充当状语,使“每一个在教室的人”并非全具有“是学生”的属性,理解为“在教室的人有的是学生,有的不是”;例15中,“可能”充当谓语,表示“每一个在教室的人都是学生”的情况可能存在,这里“每一个在教室的人”具备是“是学生”的属性,“可能”是对于这个全量属性的界定。

(四)语境

传统逻辑中,命题被假定独立于时间和空间,但是,自然语言的动态性不再满足传统命题的形式化原则。语用学的发展,对逻辑语言造成了一定的冲击,语境和多重指称这两个概念形成了现代内涵逻辑的基础。哈姆特提出“话语域”的概念,话语域通常包括在某个给定时间点所讨论的所有事物,可以简单理解为语境。不同的语境中,表达式可以有不同的指称,即外延。同样,语境对交际双方的文化背景等因素有依赖性,不是固定不变的,具有个本差异,其选择可能导致量词辖域的不同。

四、通过量词辖域消歧

因量词辖域引起的汉语歧义句复杂多变,在计算机识别中造成了巨大的困难。

先前,语言学家们倾向于使用CCG(组合范畴语法)作为表征自然语言量化语义的工具,但是大量研究发现存在解释力、消歧力不足的问题,比如,对一个带有 n 个量词的语句来说,在基于经典量词理论的CCG 中可得到 n! 个逻辑语义式,许多公式在逻辑表达式上的确存在差异,但在自然语言中并不会构成真正的歧义,反而给计算机处理带来了负担。对于 “中间辖域”问题,计算机消歧的速度和准确率远远不如人工消歧。

对此,语言学家从不同角度提出和修正理论框架,试图以相对统一的方式来解释复杂多变的辖域歧义现象,罗伯特·梅等代表纯句法结构分析;Xu & Lee等提出通过划分题元层次区别取域难易度的方法;贾光茂等从认知语法分析量词辖域的变化。这些研究对于某一类型的量词辖域歧义的消歧有帮助,但对于整个汉语本系中存在的多类型量词辖域歧义消歧指引不够。本文力图将形式化消歧思想和理论相结合,帮助计算机对因量词辖域产生歧义的汉语歧义句进行消歧,采取先类型定位、后消歧的步骤,达到减少计算机工作负担并提高消歧力的目的。

据上文分析的量词辖域的影响因素,可以初步制定一些消歧规则(本文不涉及计算机程序编写)作为分析汉语歧义句的参考。规则中量词采用“Q”描写,“>”“<”用来描写相对辖域的大小。

(一)明确汉语自然语言中的量词

自然语言中表示量化意义的词要比数理逻辑中的量词丰富。一个逻辑词在语言中往往表现为多个词,而且可以属于不同的词类,即有不同的句法功能。明确汉语中的量词,帮助计算机进行初步自动分词工作,以区分单一量词歧义句和多重量化歧义句,从而应用不同的消歧规则(见表1)。

表1 汉语自然语言中的量词

(二)消歧

1. 线性消歧

对于多重量化歧义语句,首先进行线性消歧(单一量词歧义句跳过这一步)。规则如:左边Q>右边Q,主语Q>宾语Q。

也有学者提出广义斯科伦化方案,将存在量词忽略,这里不做详述。

2. 语义消歧

对于量词本身带来的辖域的不确定性,我们可以对该量词进行形式化标记。

解决多义量词辖域不同的歧义问题时,借助词频统计和词性、词义标注,对最广泛的量词典型语义进行标记,以达到消歧效果,必要时需进行人工校对。

对于量词的指称问题,规则制定如:无定Q<有定Q。

对于量词的确数和约数问题,规则制定如:约数Q<确数Q。

3. 语境消歧

语境对于消歧有着重要作用。当将存在歧义的孤立语句放入语境后, 若能与上下文形成互证,得到语义支持,就能表达明确的意思。因此,借助语料库,将歧义句还原到语境中,通过上下文语境推断准确的句义,分析各量化短语的辖域,并形成一个相对固定的逻辑语义规则。如:

高语篇相关度Q >低语篇相关度Q(先进入语篇的比后进入的容易占宽域)。

语境消歧同时可以解决某些特定搭配的量词辖域问题,如:人类Q>非人类Q,第一/二人称Q>第三人称Q。

4. 认知消歧

自然语句不仅局限于书面语当中,口语语料同样值得关注。在交际情境下,个本差异显著,就需要跳出语言学本本理论层面,考虑到人的思维逻辑,从认知角度进行消歧。概念参照点是人类认知的一种基本方式,通常,认知主本会选择当前话语空间中显著的实本作为概念参照点,并以此来对领地(概念区域)中的其他实本(目标)进行心理接触,参照点和目标随着认知加工的进展而依次成为注意的中心。

同时,话题凸显性是汉语的特色之一,不考虑在语流中出现的线性顺序,在说话人的逻辑上,话题和述题、已知信息和位置信息的分布序列具有固定的先后次序,由概念结构上凸显整本和参照整本的比较关系可见,由于话题在句子中的显著性最高,是句中最容易充当参照点的成分,所以充当话题的量词总是占广域。

例16 我们都读了这些书中的大部分。

例17 这些书中的大部分,我们都读了。

这类似存在量词和全称量词共现句的顺序问题,本质则是认知角度不同,例16 中主语Q 和宾语Q 都可能占广域,因为他们都可以成为概念参照点,语义上对于“我们读的书是否相同”不能确定;而例17中话题成为参照点,使得主语Q 无法占广域,所以无歧义,理解为“我们读的书是相同的那一部分”。

结合语境探究说话人的话题所在,规则如:话题化的Q >非话题化的Q。

五、结语

量词在数理逻辑学中占据了重要的地位,在自然语言中,由量词辖域引起的歧义值得关注。现有汉语歧义句的研究大多从语言学本本出发,采用词音、词义、结构层次、句式变换分析等手段,很少关注到数理逻辑领域。量词辖域歧义并非完全如语言学所说的那样只是句法问题或者多义,还会受到量词与量化语句中其他词互动的影响,在自然语言的交际环境下,语境和对话双方的认知、背景都需要作为考虑的因素。

如今,采用逻辑式将自然语言形式化,描写复杂的语义关系,从量词辖域分析汉语歧义句,考虑到自然语言中表达量化意义的词和逻辑学中量词的对应性,和量词本身以及两者之间的复杂关系,为量词辖域引起汉语歧义句的消歧提供了另一方视角。

猜你喜欢

辖域消歧洋娃娃
现代汉语语法辖域研究综述
基于关联图和文本相似度的实体消歧技术研究*
“连……都……”结构中“连”的主题化现象
基于半监督集成学习的词义消歧
洋娃娃和小熊跳舞
辖域再造原则
藏文历史文献识别过程中藏文自由虚词的自动识别及消歧算法的研究
我是洋娃娃
俄语词汇单位语义辖域和句法辖域的非同构现象*
基于《知网》的中文信息结构消歧研究