基于结构检索的汉语介动搭配知识库构建
2023-10-24王诚文饶高琦荀恩东
王诚文,饶高琦,荀恩东
(1. 中央财经大学 国际文化交流学院,北京 100081;2. 北京语言大学 汉语国际教育研究院,北京 100083;3. 北京语言大学 信息科学学院,北京 100083)
0 引言
汉语作为区别于印欧语系的语言有着自身独特的特点。从搭配角度来看,相较于跨语言通有的搭配类型,诸如动宾、状中和定中,汉语有着丰富的量词和虚词参与构建的搭配,因此有必要重视虚词在搭配中发挥的作用[1]。作为集词汇、语义和语用特征于一体的介词,在汉语中起着重要的句法语义作用,突出表现在介引宾语修饰相关谓词,同时起标明语义角色的作用。无论是语言本体研究还是自然语言处理领域,都较多关注介词与宾语的搭配、介词与方位词、助词和连词的搭配形成的框式结构。然而,从语言现实出发,可以看出介动搭配不仅具有频率上的高频稳态出现性,也有其独特的句法语义特征,如例1所示。
例1
a 向 老师 问好
b 向 远处 投递
对于1a来说,“老师”充当的是邻体的语义角色,表示动词“问好”的对象。在例1b中,“远处”充当动词“投递”的方向语义角色。同样的介词“向”,介引出不同的语义角色,主要是在与不同动词结合时,凸显出来介引语义的不同。在与“+方向”义动词搭配时,便突出表示出来方向的含义。
通过上述例子可以发现,能够介引不同语义角色的介词在与具体动词搭配后便能够凸显出来唯一的一种语义。介词作为虚词,是语法化的结果,语义往往比较虚化。正是通过与动词的搭配使用,凸显出来自身的语义。与此同时,汉语中一些动词,对于介词有着较强的选择性,突出表现在其充当谓语时,一般有介词与之共现。例如,对于动词“着想”来说,其作谓语时形成的表述为“为*着想”。
与此同时,囿于已有语料库检索技术的制约,从搭配获取方面来看,以往基本上是基于词语共现关系,并利用互信息等统计特征进行搭配知识获取。完全基于统计特征的搭配获取会得到许多相关词语。例如“医院-医生”。在语法或语义体系下界定的搭配,诸如主谓、动宾等的获取上,只能利用词性序列符号进行获取。词性符号序列是在线性的语言序列上进行符号匹配,往往会抽取出来许多伪搭配。例如,“p*反应”会匹配到“跟人交流时难免不能快速反应”类似的噪声数据。本研究在介动知识获取阶段将会利用面向句法结构的检索技术来规避上述提到的问题。
本文将从理论上关注介词与动词形成的二元搭配,分析形式特征,并在数据抽取基础上对搭配内部句法语义特征进行进一步研究;并从实践角度出发,利用面向句法结构的检索技术,结合介动搭配形式特征,制定介动知识获取规则,从大规模多语体语料中获取介动搭配知识,形成介动搭配知识库,以期为语言本体研究和自然语言处理领域提供语言知识资源。
1 相关研究
语言学本体领域关于介词的相关研究层出不穷,其理论上的研究工作为介词短语、搭配等语言知识库的构建提供理论指导作用。然而,目前鲜有以汉语介动搭配为视角系统构建搭配资源的工作。
1.1 介词本体研究
在汉语研究中,关于介词的研究工作主要聚焦在介词分类体系、句法语义和历时演变等几个方面。从分类上来看,有的学者关注介词类别及数量的多少,界定出类别不一样的介词体系,例如,范晓[2]从语义角度将介词短语分为了九类: 处所、时间、受事、施事、与事、共事、凭借者、关涉者和条件。实际上,也是从介词短语划分的角度给介词做分类。张谊生[3]则划分出了十五类介词。陈昌来[4]则在7大类介词基础上,进一步总结汉语中介词的总数在150个左右;也有学者从介词的位置和形态出发进行分类。刘丹青[5]则率先提出汉语中存在框式介词的现象。介词句法语义的研究方面,则重在与连词、动词等比较分析中明确介词的句法语义特征,而这种比较往往会从共时层面延展到历时层面,代表性的研究人员有张旺熹[6]、何洪峰[7]、刘静敏[8]。
1.2 介词相关知识库构建
围绕介动搭配进行系统语言知识库的构建工作还鲜有。其相关的知识构建工作有: 介词组块的标注、介词词典编撰和介词知识库构建等。
邹宏梅[9]在组块识别任务中,界定了一种由单一介词构成的块,并以宾州树库语料为基础,标注了用于实验的小规模组块数据。同样王莹莹[10]、高红[11]等以北京大学计算语言学研究所1998年的《人民日报》语料为标注对象,标注了单一介词及长度不超过3个词语的介词框架。上述工作在介词组块的界定上较为简单,一般只关注介词本身,没有注意到介词与动词之间的句法和语义上的密切相关特征。
方清明[12]编撰的《现代汉语介词用法词典》主要从介词的语义和常规句式入手,围绕着149个介词进行了穷尽性的知识刻画。其中的介词框架中,框架的后置成分有些是由动词充当的,比如“与*相比”等,但是整个框架倾向于出现在句首位置作状语,交代后续句子的时间、地点和比较对象等信息,没能够系统注意到动词作谓语中心语时与介词的搭配情况。
作为现代汉语广义虚词知识库的一个子库[13],现代汉语介词知识库[14]包括机器词典、标注语料库和规则库三部分。其机器词典围绕介词刻画了构词语素、词族、语体色彩、体宾谓宾、否定、介词框架、介词短语充当定语、介词短语作主语前修饰语、单独成句、句法结构和格标记等12个属性字段。可以看出,其并没有对介词和动词的搭配进行细致刻画,还是传统上介词的一些句法功能和分布的描写。邢丹[15]利用词性、词长和标点符号信息构造正则表达式,从大规模语料库中获取介词结构搭配,主要是介词、介宾中心词和动词的三元搭配实例。囿于在搭配中考虑到了介词宾语的论元实例,因此在抽取数据上会有数据稀疏情况。与此同时,如引言所介绍,一定程度上,介词的格标凸显作用是在与动词结合后便能够明确,例如“向*问好”和“向*投掷”的介词介引论元的区别便可以直接明确下来。因此,介动搭配获取是更值得关注的视角。与本文聚焦的介动搭配研究工作最为接近的工作当属于胡韧奋。但其从本质上与本文的介动搭配还有明显区别。其从服务于二语教学的角度出发,构建搭配知识库,其中一种类型为介动搭配。只不过其只关注到“把、被、对”等引导动词施事或受事的介词与动词形成的句法格式,例如“把×解决”、“把×带 过来”和“把×买 了 回来”。一方面,其只关注有限的介词“把或被”;另一方面,其抽取的更多是一种句式,诸如“把×带 过来”等,不是系统化的介动之间的搭配知识。
2 结构检索
以往支撑语料库检索的语料主要是经过分词和词性标注的,因此决定了其后续的使用方式。从检索式上来看,只能由字符、词性和通配符等构成查询语句;从匹配方式上看,只能在线性的语句上进行模式匹配。而语言是具备层级化结构的,只有充分利用语言结构进行检索设计,才能够助力深度的语言知识的检索和获取。
结构化检索是指在结构化分析语料基础上, 利用语言学特征设置支撑句法结构及短语属性检索的检索技术。为了便于后文对介动知识获取检索过程的介绍,下面先介绍结构化语料、结构化检索设计原则和结构化检索系统使用。
2.1 结构化语料
综合考虑语言结构表示与语言资源构建效率之间的关系,我们制定了一个以句法性质与功能为主的同时参考篇章功能、人际功能的组块体系,将句子标注为一个带有性质与功能信息的组块序列。目前人工和机器自动标注后达到的结构化语料规模在195GB左右,其主要包括新闻、小说、科技和专利等语体。
具体的人工标注组块的符号介绍如下,“()”表示述语块(1)述语块指以核心谓词为中心包含前后连续性状语和补语的,充当句子述语成分的组块。,述语内部又可利用“()”区分出核心谓词块、状语块和补语块,“<>”表示衔接语块,“<<>>”表示辅助语块,“[]”表示句饰语块(即与述语分离的状语或补语), “{}(2)相当于句子中的表示命题义的语言单元可以进一步嵌套标注。”表示谓词性的主语块或者宾语块,体词性主语块或宾语块则无须用标注符号标注。试用以下句子说明标注范式。
句子1: 在那种情况下,首先,他应该尽可能自保,然后再去帮助别人吧!
标注1: [在那种情况下,]<首先>,他(应该尽可能(自保)),<然后>(再去(帮助))别人<<吧>>!
基于人工注入标注符号的组块序列,可以无歧义转换为带性质功能标签的组块状短语结构树的形式,上述句子的组块状短语结构树如图1所示。
图1 组块短语结构树示例
具体的短语结构树成分标签如表1所示。
表1 组块状短语结构树的成分标签
2.2 结构检索设计原则
结构化的语料主要是一种注入了性质和功能信息的组块状短语结构树,特别是对于句子的述语块来说,标注出了其中心词(核心谓词)。结合汉语的实际语言特征和语言知识抽取的需要,在设计检索系统时,考虑以下几个因素。
1. 体词性短语中心突出原则
体词性短语是一种向心结构的短语,其主要语义落在右中心词语上。在检索系统设计时,以体词块的后缀为索引对象建构索引,便于获取体词块的中心成分。
2. 述语块结构的限制
在结构化语料中,介宾和核心谓词是整体标注为述语块,对应一个VP-PRD的节点标签,同时标注出了核心谓词的左右边界。因此,在介动抽取中,介词和动词形成的离合检索在匹配时可以在整个述语块的内部进行匹配,这样会缓解许多噪声数据的影响。
3. 支持短语属性检索
在设置检索系统时,也构建了以结构块的属性为对象的索引,支持利用短语结构块的属性进行查询。介词一般出现在状语中,所以利用状语块的标签来限制介词位置,进行搭配获取。
2.3 结构化检索系统
结构检索的查询表达式主要由字、词、词性、通配符、短语块属性构成。其查询语句的形式形如“Query{Condition}Operation”。其中Query主要是查询单元;Condition可以对查询单元中指定的部分进行长度、内容和输出的限制;Operation主要指统计查询单元的频次或者是上下文。具体的检索式解释如表2所示。
表2 结构检索的检索式构成
下面以动词“着想”的高频搭配介词抽取为例,简要说明结构检索的使用方法。其检索式为“|NULL-MOD(p)*NULL-MOD|(|VP-PRD*着想VP-PRD|){print($1);len($2)=2}Freq”。检索式的Query部分为|NULL-MOD(p)*NULL-MOD|(|VP-PRD*着想VP-PRD|)。表示一个以介词开头的状语块(NULL-MOD)后边紧跟着一个述语块(VP-PRD)。小括号分别捕获介词和整个述语块分别对应$1和$2;Condition部分为{print($1);len($2)=2},表示限制整个述语块就是动词“着想”,并最终输出介词的统计结果;Operation部分为Freq,表示统计与“着想”搭配的介词的频次。其检索结果如表3所示。
表3 “着想”搭配介词的分布
3 介动搭配抽取
3.1 加工对象
本研究以《现代汉语词典》第五版中的15 891个双音节动词为研究对象,从语料中获取与其搭配的介词。之所以选择双音节动词主要是因为单音节动词的多义问题较为突出,与介词形成搭配时语义不完备。例如“为*打”的语义完整性不如“为*打架”。而双音节动词在与介词形成搭配之后,形式上和语义上比单音节动词具备更强的完备性。
介动搭配上只考虑形如“p*v”的搭配形式,即只考虑介词出现在动词前的形式。不考虑动介搭配的主要原因在于能够出现在动词后边与之紧邻的介词的种类是有限的,一般为“于、在、自、给”,相对于出现在动词前的介词类型来说不具备多样性。
3.2 加工流程
步骤1 动词文件读取
读取15 891个动词,存储至文件VerbList中;
步骤2 动词检索式构造
遍历VerbList中的每个动词,利用代码自动生成介动搭配获取的检索式。具体来说,用遍历得到的具体动词来替换检索式“|NULL-MOD(p)*NULL-MOD|(|VP-PRD*VerbVP-PRD|){print($1);len($2)=2}Freq”中的Verb来得到每个动词的搭配获取的检索式。对于动词“着想”“请教”和“赋能”的对应检索式如表4所示。
表4 “着想”“请教”和“赋能”的介动抽取检索式
步骤3 批量检索
利用结构检索提供的WebAPI进行批量的检索,对于每个动词的介词搭配按照频次自高到低进行排列,输出到Verbi文件中。将介词与动词进行拼接形成“介词_动词”的搭配形式,按照频次自高到低输出到PVColl文件中,该文件存储了初步获取的所有介动搭配实例及其对应的出现频次。
步骤4 条件限制
对于PVColl文件中的所有搭配实例进行条件限制,以去除噪声数据。主要从以下三个方面进行考虑:首先,删除部分经常加谓词性宾语的介词,诸如“鉴于”“由于”和“自从”等。这部分介词的后边带一个句子或者谓词性成分,一般不跟某个动词形成类似“为*赋能”式的形义完备的搭配形式。其次,利用现代汉语语法信息词典[16]来对一些虚化动词进行过滤,排除助动词、趋向动词、形式动词、情态动词和经常做状语的动词参与构成的介动搭配实例。最后,根据频次的观察,将阈值定在10,删除频次低于10的搭配实例。
3.3 搭配度量
为了进一步度量介词与动词搭配的紧密程度,本研究借鉴Chen[17]利用词频逆文档频(TF.IDF)进行事件抽取的做法,使用动词凸显度和介词相关度来度量介词与动词的紧密程度。其具体计算如式(1)~式(3)所示。
(1)
(2)
介动紧密度=动词凸显度×介词相关度
(3)
按照上述计算公式,对PVColl中的介动搭配实例计算了其相应的介动搭配紧密度,部分动词的搭配频次和搭配紧密度的值如表5所示。
表5 介动搭配的频次和紧密度
为了进一步衡量利用介动紧密度来衡量搭配的有效性,分别将搭配数据按照介动搭配的频次和介动紧密度两个标准从高到低进行排列,分别考察了介词“在”参与构成搭配在Top1000中所占的比例。之所以选择介词“在”的原因有二: 其一,从介词搭配实例统计中发现,介词“在”能够搭配最多的动词;其二,介词“在”的语义比较多样,介引时间、地点、条件和范围等,与动词的搭配紧密度相对较差。我们期望抽取出来的介动搭配凸显出来的语义比较单一和明确,以帮助明确介引论元成分的语义,因此希望在质量高的高频搭配中,介词“在”参与的搭配出现占比相对较少。
根据频次和介动紧密度自高到低进行排序后,介词“在”在TOP1000中的累计出现次数如图2所示。
图2 “在”在不同指标下的Top1000的数量分布
从图2看出,相对于按照频次来进行搭配度量,在介动紧密度的分布中,介词“在”在Top1000中的占比远低于按照频次来度量,这也达到了我们的预期期望,说明按照介动紧密度进行搭配度量是一种更为合适的方法。
3.4 搭配存储
根据齐普夫定律(Zipf’s Law),对自高到低的按照介动紧密度排列的搭配数据,选择出现次数占到总搭配实例数85%的部分作为最终的介动搭配实例数据。
分别以介词和动词为索引来进行数据的存储。其具体的数据存储形式如图3所示。
图3 介动搭配的存储形式
4 搭配库分析
4.1 数据规模
介动搭配按照介动紧密度取高频的85%之后,共保留了16 033条搭配。参与构成搭配的介词种类数为38,动词种类数为6 159,如表6所示。
表6 介动搭配的数据规模
对于38类(3)38类介词为: 在,被,因,以,通过,同,跟,向,于,与,由,给,凭,替,依据,对,用,经由,至,依照,对于,按照,经过,为,按,随,根据,自,从,基于,把,顺,比,朝,据,沿,针对,较。介词,按照搭配动词的数量,自高到底进行排列,Top10的其分布如图4所示。
图4 介词搭配的动词种类数分布(Top10)
4.2 类别分析
综合考虑介动搭配的强弱和介动凸显的论元角色因素,通过对16 033条实例的抽样观察,可以将搭配根据上述两个因素分为以下几种类型,具体如表7所示。
表7 介动搭配的类型
首先,根据介动搭配的强度将搭配分为两种类型,一种为强搭配,另一种为弱搭配。这种强弱的划分一方面考虑到了频次和介动紧密度度量值的因素。更重要的是,从语义上看,能够介引动词主客体和邻体的介动搭配,其强度更强。其次,对于非核心论元角色来说,其内部有巨大差异。例如,对于“因*闻名”来说,虽然介引原因论元角色,但是原因论元角色是动词“闻名”语义框架完整的不可或缺成分。同样的情况也适用于“以*见长”。然而,对于“在*开会”来说,其紧密程度跟“因*闻名”和“以*见长”比起来有一定的弱化。
在能够介引邻体的介动搭配中,发现动词的价位存在区别。“着想”为1价动词,“请教”为3价动词,因此下一节对介引邻体角色的介动搭配做专门分析。为叙述方便,因为“p*v”形式正如一个框式,所以将凸显邻体论元角色的搭配中的动词称作“邻体框式动词”。
4.3 “邻体框式动词”分析
通过分析,“邻体框式动词”根据配价数量的不同可以划分为以下几种类型:
(1)“准二价”型
这种动词主要指那些在谓词框架语义角度来看涉及两个成分,但从语义向句法结构的投射过程中,其中的一个语义成分可以不用其他词进行介引直接出现在句子的表层句法结构中,而另外的一个语义成分则往往通常借助介词才能够出现在句子的表层结构中。例如:
① 我国90%以上有害气体排放都与煤的燃烧有关。
②向被日本侵略的亚洲国家赔罪并进行战争赔偿。
(2)“二价”型
该类别动词主要为二价动词,即其语义涉及两个主要成分,其句法投射的时候有多种选择,其中有两种倾向性的选择,一种分别充当谓语动词的主宾语成分,另外一种则是一个成分充当主语,另外一个成分靠介词介引出现在动词的状语位置上,例如:
① 数字奥运将为信息化发展助力。
② 这同样会导致向普遍贫困复归。
(3)“准三价”型
该类动词和“二价”动词相比,从语义上能够关涉一个更多的成分。与“三价”动词比起来,在句法上却不如三价动词那样的灵活,集中表现在其一个成分只能出现在状语位置上,不能像三价动词那样,可以将两个非主体成分投射在动词后边做宾语。例如:
① 还有一些性急的朋友向人们传播“中国很快会胜”的盲目乐观情绪。
② 我和丈夫想为家中老人分担一些节日前繁重的家务劳动。
(4)“三价”型
三价动词主要为语义上关联三个主要成分,在句法形式上主体外的两个成分可以出现在宾语位置的动词。一般情况下,其中的非直接宾语可以由介词介引出现在动词状语的位置上。例如:
① 鲍托正在向新仓卫生院医护人员传授B超检查技术。
② 新委员们就向老委员们请教“开会经验”。
通过穷尽性考察,确定了2 118个邻体框式动词并对其进行了价位的语法测试,标注了相应的价位(4)为了方便进行动词价位的标注及统计,这里做了如下对应,1.5代表准二价,2代表2价,2.5代表准3价,3代表3价。詹卫东[18]也指出,x元动词中x的取值不只是为0/1/2/3这样的整数,也能为1.5和2.5这样的小数。,其加工示例如表8所示。
表8 框式动词的价位分类
从图5可以看出,介引邻体的介动搭配中的动词主要为准二价和准三价的动词,这主要是因为其语义层面的某个成分投射到表层的句法结构时,只能够通过介词的介引出现在状语位置上,此时介词与核心谓词高频共现,形成稳定的前框式结构。
5 应用分析
语言研究有两个面向,一个是面向人,例如服务于语言教学;另外一个是服务于机器,语言研究应该以助力智能语言理解为自己研究导向。相应而言,语言资源的构建也要以服务于人和机器为自己的目标,也就是在服务于人和机器的过程中衡量和评价语言资源的价值。
5.1 介动搭配词典能够有效助力语言教学研究
搭配教学是汉语教学中重要的一个环节。综合考虑汉语中虚词使用频次高、介词语义复杂的情况,介词参与的搭配研究应该引起足够的重视。与此同时,众多持动词中心说的学者[19-21]认为动词是句子的中心和重心,把握句子动词对于理解语义将起到提纲挈领的作用。因此,介动搭配的研究对汉语研究及教学来说都是重中之重,本介动搭配知识库能够为语言研究及教学提供足够的教学案例支持。
5.2 介动搭配词典能够为自然语言处理任务赋能
介动搭配数据库能够为语义角色标注、信息抽取和句法语义分析提供数据支持。首先,汉语中的语义角色大部分是靠介词介引的,出现在介动之间,如何确定介引论元的语义角色是语义角色标注中的重要研究工作。通过我们的研究发现,介动二元搭配对于自动凸显语义类型具有重要的作用。其次,事件抽取是自然语言处理中比较热门的研究,以往都是采用深度学习方法进行事件抽取。其对大规模高质量带标注语料依赖严重。介动搭配数据可以作为专家知识,利用远程监督方式自动构建带标注数据。最后,介动搭配的抽取也符合“大词库小规则”的句法语义分析研究范式。
6 结语
从研究侧面来看,本文关注到了以往介词研究中没有引起足够重视的介动搭配研究,并根据汉语介词发达和动词中心的特点,强调介动搭配研究的重要性,并进行介动搭配的知识获取。从研究方法上,相较于以往的基于词性字符的线性正则表达式匹配查询,本研究在句法结构树语料上,利用短语块属性和位置信息限制,进行介动搭配知识抽取,噪声少和准确率高。并借鉴TF-IDF思想提出了介动搭配的度量方法,初步的实验证明该方法相较于绝对频次具备更好的表现。
本研究后续的改进方向有以下两点: ①将其应用到具体的自然语言处理任务中(如事件抽取中)来进一步衡量验证目前知识库的价值;②探索单音节动词与介词的搭配研究及知识获取。
本研究的数据将会寻求合适方式与学界共享,推进相关研究工作。