自然语言处理背景下的“PP〈被〉+VP1+VP2”格式消歧问题再探
2021-11-24麻广一
【摘要】 自然语言处理是近些年来的热门话题,陆俭明先生提出了计算机PP〈被〉+VP1+VP2 这类歧义格式的困境,詹卫东先生以此为題做了相应的研究。文章在詹卫东先生对PP〈被〉+VP1+VP2的歧义研究的基础上,做了进行进一步的延伸:一、挖掘带否定标记的VP与PP〈被〉组合所受的具体限制规则。二、对分化为a式和b式以后的进一步消歧及“我被他拦住不让走”问题和“我被砍头吓晕了”问题的思考。三、总结出该格式的消歧流程图。四、提出该格式消歧中仍待解决的问题。文章对上述进行了细化研究,并尝试提出解决方案,以期能对自然语言处理中的歧义句问题尽微薄之力。
【关键词】 歧义;消歧;“被”字短语;动词性短语
【中图分类号】H109 【文献标识码】A 【文章编号】2096-8264(2021)45-0112-03
自然语言处理是语言学与计算机科学的交叉学科,在现代社会具有很强的现实意义,当今诸多的人工智能系统都要基于机器对人类的自然语言的处理,其中自然语言中的歧义句是机器处理的难题,要解决这样的难题,就要深度挖掘歧义格式背后的语言学原理,通过设立标签、标准等方式,让机器正确识别歧义句。本文所讨论的PP〈被〉+VP1+VP2格式就是一个典型的歧义句格式。
一、PP〈被〉+VP1+VP2格式的已有研究
陆俭明(2013)先生的《现代汉语语法教程》[1]提到一组在人看来没有歧义,但计算机会认为有歧义的句子:
①他被警察叫去罚了一百块钱
②他被警察叫去写了一份检查
例①的介词结构一管到底,全句意思是“他被警察叫去,他被罚了一百块钱”;而例②的介词结构只管到“叫去”,管不到“写了一份检查”。陆俭明先生指出,这样的句子计算机分辨不清,要让计算机分辨清楚,就得将“PP+VP1+VP2”这种结构中PP对后面动词性词语管辖的范围及其条件与规则进行充分、准确地描写,并加以形式化,“交给”计算机。
詹卫东(1997)据此撰文《PP〈被〉+VP1+VP2格式歧义的自动消解》[2](下文用“文章”代指此文),使用PP〈被〉+VP1+VP2这一格式来叙述,PP〈被〉指“被”加宾语成分形成的介词短语,下文一般用PP代指PP〈被〉 。文章首先将PP〈被〉+VP1+VP2转化为PP〈被〉能否与VP2组合,也就是“被”字的介词短语与动词性短语组合有什么限制。凡是能形成PP〈被〉+VP1+VP2构式的,经过观察,当PP能跟VP2组合的时候,为a式:[PP+(VP1+VP2)],当当PP不能跟VP2组合的时候,为b式:[(PP+VP1)+VP2]。
另外要说明的是,PP〈被〉+VP1+VP2这一形式可以改写为N1+被+N2+VP1+VP2,其中N1和N2经常可以省略,VP1中的中心动词称为V1,VP2中的中心动词称为V2。二者相同,文中主要用前者描述,有必要时使用后者。
二、PP〈被〉+VP1+VP2格式分解为两个简单句的
具体规则
本文将在詹卫东(1997)对PP〈被〉+VP1+VP2的研究的基础上提出修改和延伸,具体分为五个部分:句式中带否定标记的VP的限制规则、a式的分解规则、b式的分解方法、一种特殊句式的具体消歧讨论、PP〈被〉+VP1+VP2句式的消歧流程图。
(一)带否定标记的VP与PP〈被〉组合所受的具体限制规则
关于带否定标记的VP与PP〈被〉在哪些情况下可以组合,哪些情况下可以组合,詹文中用到的方法是对VP的内部结构进行分类处理方法,分为状中式,述宾式和其他式的具体情况等,比较笼统,缺乏明确的规则性。
经过语料对比和语法分析,这里将其总结为:VP中的中心语被否定标记修饰时①,VP不能与PP〈被〉组合,如:“被小王吃不完”*、“被打不中眼睛”*、“被敌人没烧光”*,而如果否定标记修饰的不是VP的中心语,则不影响PP 〈被〉与VP结合,如:“被他洗得越发不干净了”“他被不会武术的人打了”。
另外,在李双剑、仇立颖(2017)的“被”字句的否定语序统计中[3],“不被”和“没被”有相当的数量,而“被不”与“被没”的用法几乎不存在。综合起来可以认为,PP〈被〉后的VP中不能有与“被”在同一结构层面的否定标记,而PP〈被〉中有无否定标记并不影响。如“我不被限制”中的“不”属于PP〈被〉,不需要关注,需要关注的是VP中的否定标记。“被不”和“被没”属于我们的观察范围。在二位先生的语料统计中,“被没”未见一例,可以印证我们的观点,即二者不能组合。而“被不”文中只列出了一例:“她就在一个大雨之夜,冒充自己的父亲来跟萧峰来对决,结果被萧峰不察,由于她会化妆嘛,萧峰不察,全力地一掌打往,竟然就把阿朱打死了(《金庸小说中的悲剧爱情》)”。这里的“被萧峰所不察”首先在现代汉语中属于非常罕见的用法,有拟古的意味。其次“所不察”不是一个动词性短语,而是介词性短语了,并不符合VP的结构。最后,由于需要的结构是PP〈被〉+VP1+VP2,而“被萧峰所不察”这样的句子已经完结,其中显然不能再加一个VP,所以基于这个目的,在计算机遇到PP〈被〉要与同一结构层面的带否定标记的VP组合时,可以直接认定这样的组合是不合法的。
(二) a式的分解问题
根据詹卫东(1997)的成果,PP〈被〉+VP1+VP2这一句式最终可以被分为a式:[PP+(VP1+VP2)]和b式:[(PP+VP1)+VP2]。这无疑极大地帮助了计算机对于这一句式的处理,但笔者在观察中发现,在分成a式和b式之后句子仍有不确定的因素,计算机处理起来仍然存在困难。
所以做一个延伸,将PP〈被〉+VP1+VP2这一格式分解为两个没有歧义的简单句作为最终目的,先看a式,基于分解为简单句的规则不同,有必要将a式分为a1和a2式并将分解规则列表:
可以看到,a1和a2句式相同,结构划分相同,但其中的PP与VP1和VP2组合的能力不同,PP能与VP2组合是a式的必要条件,而能否与VP1组合则决定了a1和a2的划分,二者在PP〈被〉+VP1+VP2句式分解为两个简单句时的规则有显著差别。
a1:1.他被警察/叫去/罚了一百块钱=他被警察叫去+他被警察罚了一百块钱
2.我被老王/拦住/抓个正着=我被老王拦住+我被抓个正着
a2:1.疯狗被他/拿铁链/拴住了=他拿铁链+疯狗被他拴住了
2.我被他/跑过来/打了一拳=他跑过来+我被他打了一拳
依例句可见,a1与VP1、VP2都能组合,所以在分解的时候PP可以直接分别组合VP1、VP2。而到了a2式,就不能说“疯狗被他拿铁链+疯狗被他拴住”了,因为这里的VP1不能与“被”组合,所以该句在分解的时候需要变为“他(N2)拿铁链(VP1)+疯狗(N1)被他(N2)拴住了(VP2)”,这是a式分解为两个简单句时的一条规则。
(三) b式的分解问题
上面属于a式的例子都可以分成这样两个没有歧义的简单句,计算机处理起来没有问题。
而在b式中情况则不同,b式:[(PP+VP1)+VP2]。请看例句,重点关注括号中的名词:
1.我被警察/叫去/写了一份检查=我被警察叫去+(我)写了一份检查
2.我被他/蒙住眼睛/不能看书=我被他蒙住眼睛+(我)不能看书
3.财物被他/蒙住/不给看=财务被他蒙住+(他)不给看
4.我被他/拦住/不让走=我被他拦住+(他)不让(我)走
5.我被妈妈/提醒/让着他点=我被妈妈提醒+(我)让着他点
例2和例4是在詹卫东先生的余论中提到的两个例子,同为b式,但分解式中N的位置不同,文中写道:“这两个例子,似乎连谓后项VP‘让’跟‘能’的差异是影响语义解释的主要因素。”继而全文结束,没有提出明确的解决方案。通过观察,运用配价等理论去寻找一条通用的规则似乎行不通,这里涉及的主要还是语义问题,所以不妨尝试前文的方法,给b式中的V2 贴标签。
如例2,“我被他/蒙住眼睛/不能看书”,给“能”贴标签,当“V2=能”时,分解式的第二部分还原为“N1+VP2”,即“我不能看书”。但贴标签时(与“被”能与哪些动词组合一样)需要按义项贴标签,如例4和例5,同为“让”,“让1”是“允许”义项,“让2”是“让步”义项,分解式就不同。
例4 ,“我被他/拦住/不让走”,当“让1=允许”时,分解式的第二部分还原为“N2+让1+N1+V2”即“他不让我走”。②
例5,“我被妈妈/提醒/让着他点”,当“让2=让步”时,分解式的第二部分还原为“N1+让2+Nx”,即“我让着他点”。
这样贴标签的方法可以解决b式的分解问题。
(四)“我被砍头吓晕了”问题
另有一种詹先生在余论中提到的特殊句式,即当VP做PP的宾语时,如“我被砍头吓晕了”其本质不是PP〈被〉+VP1+VP2格式,而是PP〈被〉+VP格式,但计算机不能分辨出来,会认定为仍是PP〈被〉+VP1+VP2格式。
首先可以知道,这一格式不可能被计算机认定为b式,因为其本质为PP〈被〉+VP格式,所以其中的VP一定能与PP被组合,在计算机判定时,也就是PP一定能与VP2组合,所以这种格式一定为a式。
由此,顺应计算机将“我被砍头吓晕了”认定为a1式(VP1和VP2都能与“被”组合)并分解为:我被砍头+我被吓晕了。很明显被砍头表示“死”,而被吓晕表示“生”,只要计算机能够具有这样的两个标签并做出二者冲突的判定,就可以将原式按照“Nx被V1+N1被V2”分解,即“某某被砍头+我被吓晕了”。③
如果是被判定为a2式则更简单,直接按照上文的格式分解即可,如“我被升旗震撼了”,计算机判定为a2式,按照规则,分解为“我被震撼了+某某升旗”。“我被打架吓傻了”同理=。
(五)消歧流程图
经过以上的调查研究,计算机可以更好地消除PP〈被〉+VP1+VP2格式中计算机认为的歧义,总结以上,列出消歧流程图如下④:
注:1.N1、N2为PP〈被〉中的名词,在必要时PP〈被〉拆分为(N1+被+N2)。
2.VP1中的中心动词为V1,VP2中的中心动词为V2。
2.b式分解后的X的具体形式见前文“b式的分解问题”。
三、余论
经过以上的分析总结,PP〈被〉+VP1+VP2格式的歧义基本可以被计算机所消解,不过其中仍然存在待解决之处。
首先的一个没有解决的难题就是“什么样的VP可以與‘被’组合”,我们暂时找不到一个能包含所有特殊形式的规则,只能按照詹卫东文中归纳的来处理,大多数情况可以正确判定,对于个别例外则无能为力。
其次一个问题就是,在贴标签的时候无疑是需要按照义项来进行的,然而虽然义项不同,其形式却相同,如何让计算机识别使用哪个义项,就存在难点。
以上是研究中尚未解决的部分,有待于进一步的研究。
注释:
①这里的同一结构层面可以理解为,当“不”“没”等带有否定标记的词直接修饰VP中的谓语的时候,二者在同一结构层面,如“被不看了一眼”。当“不”“没”等带有否定标记的词修饰VP下一层级的谓语的时候,二者不在同一结构层面,如“被他洗得越发不干净了”。
②这里为简洁没有在公式里标注“不”和“走”,因为这里的重点在于N1、N2相对于V2的位置,其他的成分不需要变化。
③但如果是“我被打脸吓哭了”这样人都只能靠语境消歧的句子,计算机自然无法判定如何处理。
④流程图中“PP”即代表“PP〈被〉 ”,V2表示VP2中的中心动词。
参考文献:
[1]陆俭明.现代汉语语法教程[M].北京:北京大学出版社,2013.
[2]詹卫东.PP 〈被〉+VP1+VP2格式歧义的自动消解[J].中国语文,1997,(06):424-431
[3]李双剑,仇立颖.汉语“把”字句、“被”字句否定式的语序研究[J]海外华文教育,2017,(06).
作者简介:
麻广 一,男,吉林永吉人,广西师范大学文学院硕士研究生,主要研究方向为现代汉语和汉语史。