利用语义信息的句法分析统计模型

2019-11-09袁里驰

小型微型计算机系统 2019年10期

袁里驰

(江西财经大学麦庐园校区信息管理学院,南昌 330013)E-mail:yuanlichi@sohu.com

1 引言

句子语法结构分析属于自然语言处理根本技术问题之一.句子语法结构分析依据一定的语法规则,自动推测句子的语法组成结构,即句子所具有的句法成分和句法成分相互联系.句子语法结构分析方法主要有两种:统计方法[1-6]及规则方法.句子语法结构分析统计方法由给定的语法规则体系决定语法结构分析树的表达形式.依存语法及短语结构语法是当前广泛应用的句子语法结构分析方法.

短语结构句法分析通常基于上下文无关概率语法.在以上下文无关语法为基础的短语结构分析方法先前研究中,语法规则由专家标记的语料库中抽取,其概率由相对频率决定.此种模型实现简便,然而此类模型并不能获得好的实验效果,独立性假定在自然语言中不总是成立.

依存语法[7-10]具有形式简洁、便于应用、易于标记等优点,渐渐引起注意.中文依存句法分析当前研究虽然获得了可喜的进步,然而其效率及准确性依然难以达到应用要求.Collins[11]等在语法中引入词语依存关系,在上下文无关语法的基础提出了一种词汇化的句法分析方法,推进了句子语法结构分析理论的快速发展.其重要思路即是将短语中心词及词汇信息融合上下文无关语法,语义信息的融合改进了句法分析的消歧效果,但却无法规避地产生了严峻的数据稀疏缺陷.

句法分析结合语义内容分析和句法形式分析.越深刻、越完整对句子语法结构的语义内容进行分析,就越能够合理科学地解释句法形式上的种种情况.词汇化句子语法结构分析的现有方法如头驱动句法分析方法[11]、依存语法只利用了词语语义依存联系,而语义匹配、语义类这些语义知识对语义计算和句子语法结构分析是非常有用的.

语义角色标记[12-15]作为浅层语义分析,是自然语言处理的研究热点,其任务是在句子层面实现浅显的语义关系分析,即标记给定句子中的谓词及其所有的语义成分,并标记对应的语义类别,如受事、施事、附加语及工具等.

句法分析当前理论不能准确描绘中文的主要特点,使得中文语义分析和语法分析的性能相比英文有一定的差距.中文配价语法[16,17]能准确描绘句子的语义构成及语法结构.针对当前句法分析方法具有的缺陷,本文进而提出了一种融合语义信息的句子语法结构分析统计模型,从3个方面提高模型的系统性能:首先融合配价信息进行语义角色标记及句子语法结构分析,并将条件独立性假定替换了头驱动句子语法结构分析方法中的独立性假定.条件独立性假定比独立性假定更相符语言实际,因而本文的句子语法结构分析方法更相符语言现象.其次提出一种语义角色标记与句子语法结构分析的联合学习方法,同时提高两者性能.最后给出了基于语义类的句子语法结构分析统计模型,解决引入词汇信息所产生的稀疏数据问题.

论文后续内容的安排如下:第二部分介绍融合配价信息的语义角色标记;第三节提出了一种语义角色标记与语法结构分析并行学习方法;第四部分给出模型的试验结果及分析;第五部分是总结.

2 融合配价信息的语义角色标记

2.1 语义角色标记

语义角色标记(SRL)[12-15]作为浅层语义分析,是自然语言处理的研究热点,其任务是在句子层面实现浅显的语义关系分析,即标记给定句子中的谓词及其所有的语义成分,并标记对应的语义类别,包含附属语义角色(如时间、原因、地点、方式等)及核心语义角色(如受事者、施事者等).依据不一样的谓词种类,SRL包含名词性谓词SRL及动词性谓词SRL.语义角色标记在自动问答、自动文摘、信息抽取、机器翻译、信息检索等方面已普遍应用.语义角色标记主要基于统计方法,包含基于树核函数的方法、基于特征向量的方法.

2.2 结合配价语法对语义角色标记系统实施合适的改进

伴随格语法、配价语法的提出,语言学专家开始重视语义角色问题,并运用配价语法等理论研究语义角色,提出了一些语义角色标记新方法.当前,语义角色标记大多利用NomBank、PropBank语料库及相应的标记体系进行研究.

图1 动词性谓词“观察”及其语义角色Fig.1 Verbal predicate“观察”and its semantic arguments

本文基于PropBank标记体系,利用配价理论补充了ArgM-Mat、ArgM-Tool两种附加角色,相应代表材料、工具,且将介词附属名词标记为ArgM-NMat角色、ArgM-Tool角色.如句子“天文学家用望远镜观察天空”[15]、“工厂用大米生产白酒”[15]在改进后的PropBank体系下的语义标记相应为图1、图2.

图2 动词性谓词“生产”及其语义角色Fig.2 Verbal predicate“生产”and its semantic arguments

2.3 结合词语配价信息进行语义角色标记

依据PropBank语义角色标记体系,句子“王冕七岁上死了父亲”的一种可能的语义角色标记结果见图3.

图3 句子“王冕七岁上死了父亲”的一种语义角色标记[15]Fig.3 A semantic role labeling of sentence“王冕七岁上死了父亲” [15]

在配价语法中,领主属宾句指“王冕七岁上死了父亲”这种句子[15].在 “王冕七岁上死了父亲”[15]句子中,一价词有“父亲”、“死了”,零价词有“王冕”,而时间副词“七岁上”说明“谁七岁”并且修饰动词“死了”.有了这些词语的配价信息,就可以比较准确地对语义角色标记结果进行改进.改进后的语义角色标记结果见图4.

根据语义角色标记图可以进一步知道词语“王冕”、 “死了”、“父亲”之间的配价关系如下:“死了” 支配“父亲”,“父亲” 支配“王冕”.

我们的基本思想是:在句子短语结构分析树和句子语义角色标注的基础上,利用基于配价理论开发的语义词典(在我们的模型中,主要利用的信息是词典中有关“动词、形容词、名词的配价数”方面的语义知识.)将动名词性谓词本身的配价数作为基准特征,对句子语义角色标记实施必要的修正,名词只考虑与其内部语义角色之间的配价关系.我们在研究中发现,可利用统计方法从语义角色标记语料库中计算动名词的配价数.由于中文配价理论的分歧和不完善,不但在引入词语配价数等外部资源时有不一致性问题:在外部资源之间,如不同的配价词典定义同一个词的配价不同;并且使用统计方法从语义角色标记语料库中计算的词配价也可能不一致.(我们在研究中还发现,动词不但与其核心语义角色之间可能有配价关系,而且与其附加语义角色之间也可能有配价关系;名词不但与其内部语义角色之间可能有配价关系,而且与其外部语义角色之间也可能有配价关系.)使用统计方法从语义角色标记语料库中计算词配价将是我们下一步的研究课题.

图4 修正后的句子“王冕七岁上死了父亲”的语义角色标记Fig.4 Correction semantic role labeling of sentence“王冕七岁上死了父亲”

3 语义角色标记与句子语法结构分析的联合学习模型

普通的语言处理工作(词性标记、句子语法结构分析、语义角色标记、信息抽取等)一般依照顺序实施,即后一个处理工作在前一个处理工作之后实施,比方语义角色标记一般在句子语法结构分析之后实施.按顺序进行处理并非唯一可取方案,并且通常来说有一些不足:前面处理的错误可能在后来处理中累积,乃至扩大,严重制约后续处理的性能;前面处理不能使用后续处理的有用信息,而一般来说前后处理密切相关,后续处理信息有利于前面处理.因而,假如两个或多个处理工作能够联合实施[18,19],处理工作可以互相使用信息,因而能够互相受益.语义角色记、句子语法结构分析的联合进行就是一个成功的联合学习.本文的基本思路是:在句子语法结构分析的进程中,当新的产生式p→c1,c2,…,cn形成时,实施配价结构等语义信息分析和标记.并在产生式的概率计算中融入相关语义信息.

设P(h)表示句法结构分析树中当前中心词h所依存的上层中心词、当前中心词的兄弟结点,其它符号的意义参照文献[11].在本文的句子语法结构分析模型中,语法规则形式如下:

P(ht,hw|P(h))-Lm(ltm,lwm)…L1(lt1,lw1) ·H(ht,hw|P(h))R1(rt1,rw1)…Rn(rtn,rwn)

(1)

形如公式(1)的文法规则的概率可近似为:

(2)

其中Lm+1和Rn+1分别为左右两边的停止符号;SLi(tLi,wLi)表示成份Li-2,…L1,Rm,…,R1,P(h)中与当前成份Li中心词lwi存在语义联系的成份组合;Δl(i-1),Δr(i-1)为距离函数,补偿结构信息的缺失.公式(2)中的概率:

Pi(Li(lti,lwi)|Li-1(lti-1,lwi-1),
SLi(tLi,wLi),H(ht,hw),Δl(i-1))

可近似分解为下面三个概率:

Pi(Li|Li-1,H(ht,hw),Δl(i-1))

(3)

Pi(lwi|H(ht,hw),SLi(wLi))

(4)

Pi(lti|lwi)

(5)

的乘积.再假定H(ht,hw),SLi(wLi)关于lwi条件独立有:

Pi(lwi|H(ht,hw),SLi(wLi))=

(6)

即为lwi,SLi(wLi)间的互信息,因而整个公式(6)概率意义十分明确,符合语言现象.可用同样的方法分解概率Pi(Li|Li-1,H(ht,hw),Δl(i-1))为:

Pi(Li|Li-1,H(ht,hw),Δl(i-1))=

(7)

可以看到,上下文无关概率语法当前做出了与中英文语言实际不相符合的独立性假定.在本文的句子语法结构分析方法中,头驱动句法分析方法中的独立性假定被条件独立性假定代替.利用修改和分解Collins方法的语法规则,在句子语法结构分析统计模型融入语义信息,改进句子语法结构分析的结果.

词类语言模型替换词语言模型,能够克服数据稀疏缺陷.令C(w)代表w所在的语义类[24],则公式(6)可近似为:

Pi(lwi|H(ht,hw),SLi(wLi))≈

·Pi(lwi|C(lw)i)

(8)

其中0<λw<1为平滑参数.

4 句法分析实验

句法分析实验语料来自汉语PropBank2.0、NomBank1.0.依据Xue[14]的试验语料划分,平衡训练语料、测试语料及开发语料中各种来源分别取汉语NomBank1.0、PropBank2.0中的各648个文件共1296个文件用作训练语料,各40个文件共80个文件用作开发语料,各72个文件共144个文件用作测试语料.在句法结构分析试验中,语言模型的重要参数均可以利用极大似然法、平滑方法从训练语料中计算.

句法分析测试选择综合指标、召回率、准确率及交叉括号等4个常用评价指标.相关定义如下:

精确率(Precision)用来衡量句子语法结构分析系统所有分析成份中正确的成份的比例.

召回率(Recall)用来衡量句法分析系统分析出的所有正确成份在实际成份中的比例.

综合指标:F=(P×R×2)/(P+R).

交叉括号CB:给出了在一棵树中与其他树的成分边界交叉的成分数目的平均数.

试验选取Daniel M.Bikel根据Collins方法完成的DBParser用作句法分析参照方法.Petrov[20]将自动发现隐藏的组块子类算法运用于汉语树库,在分词正确情况下,利用CTB5.0得到了该时期已知的汉语句法分析单方法的最好结果.Petrov方法、参照方法及改进方法的试验数据如表1所示.

表1 句子语法结构分析试验数据Table 1 Experimental data of syntactic parsing

模型1(Model1)为融合配价信息的语义角色标记及句子语法结构分析联合学习模型.该模型由公式(1)-公式(7)计算,通过将条件独立性假定替换头驱动句子语法结构分析方法中的独立性假定,并分解和修改Collins方法的语法规则,将标记的配价结构等语义信息集成到句子语法结构分析统计模型的概率计算中.从表1可以发现:本文的句子语法结构分析方法对语法规则实施分解,将相邻短语标记(或词性标记)等信息融入概率计算,而相邻短语标记(或词性标记)等信息的引入对提高句法分析的系统性能是非常有用的;同时通过语法规则的分解,在概率计算中既使用了语义依存信息,也使用了配价结构等语义匹配知识[15].方法1的召回率R、交叉括号、准确率P、综合指标相比头驱动句子语法结构分析方法、Petrov方法有了显著的改进.试验数据证明语义信息的运用能明显提高统计句子语法结构分析的性能.稀疏数据问题是严重制约句子语法结构分析性能的另一个主要因素,在模型1的基础上,根据公式(8),应用基于语义类的平滑技术建立模型2((Model2),比较成功解决了稀疏数据问题,系统性能有了明显的进一步提高.哈工大的曹海龙[1]等提出了一种汉语句法分析两级方法,选取哈工大树库作为试验语料,获得了准确率87.5%,召回率88.0%的良好试验结果.本文方法2的结果与曹海龙等人[1,21]的句子语法结构分析方法相比也有一定的改进.

本文还在改进方法2、头驱动句法分析方法基础上研究了组合方法,令句法分析结果依据改进方法2、头驱动句法分析方法计算的概率分别为P1,P2,则组合方法的概率P为:

P=λP1+(1-λ)P2

(9)

其中λ取值为0≤λ≤1,调整λ的值,能够改变方法2和头驱动句法分析方法相应的作用.开发语料的实验结果综合指标依图5所示.当λ取值0.6时,组合方法的综合指标最佳,准确率P、召回率R、综合指标F值、交叉括号分别为89.14%、88.42%、88.78%、1.81.

5 总结

1)句法分析结合语义内容分析和句法形式分析.越深刻、越完整对句子语法结构的语义内容进行分析,就越能够合理科学地解释句法形式上的种种情况.语义角色标记一般在句子语法结构分析的基础上进行,我们提出了一种语义角色标记与句子语法结构分析并行学习方法:在语法分析的进程中,实施语义分析及标记;并把语义融入语法规则的概率计算,联合学习方法能同时提高句法分析和语义角色标记[15]性能.