APP下载

组块分析研究综述

2018-09-12钱小飞

现代语文 2018年6期
关键词:组块综述

摘 要:组块分析是一种新的句法分析思路和策略,侧重于解决底层歧义问题。文章归纳分析了组块分析的不同任务和研究方法,指出统计和规则方法相结合常常能取得更好的效果,但基本名词短语,最长名词短语等相对较大的语块的识别效果仍然不能令人满意。未来需要考虑如何将语言学特征融入统计机器学习,并且更好地将统计和规则方法结合起来。

关键词:组块 句法分析 综述

一、引言

句法分析是中文信息处理领域诸多应用技术的基础,如机器翻译、人机对话系统等。但传统的完全句法分析技术在处理大规模真实语料时遇到了较大的困难,正确率徘徊在70%~80%左右。在今天词法分析已经能够基本达到应用要求的情况下,句法分析技术已经成为制约中文信息处理技术发展的瓶颈。

20世纪90年代中后期,国内引进英语浅层句法分析的思想,展开了组块识别与分析研究。由于底层句法歧义在很大程度上影响了句法分析的效果,浅层句法分析主张从识别句子中某些简单的组块开始,在充分化解底层歧义的基础上,逐步完成句法分析的任务。它把一个句子的完整分析过程划分为三个部分:组块识别、组块间依存关系的识别以及组块内部的结构分析,并着力于组块的识别和内部结构分析。组块分析是句法分析技术的进步,特别适合于分析缺乏形态变化,底层歧义较多的汉语句子,成为汉语句法分析技术的重要发展趋势。

二、系统性的组块分析研究

组块分析是自然语言处理一个新兴的研究课题。它起源于上世纪80年代末90年代初国外关于组块(chunk)的研究。

组块分析可以分为单一组块分析和一般组块分析。单一组块主要研究基本名词块或基本名词短语的识别分析问题。一般组块扩展了研究范围,研究多个(实)语块的识别分析问题,可以称为系统性的组块分析。上世纪90年代中后期,国际上展开了对基本块的全面识别研究。

(一)英语组块分析研究

早期的系统性组块分析主要采用基于规则的方法,包括基于简单规则,基于转换的错误驱动的方法和基于有限状态机的方法,取得了一定的效果。

Abney(1991)最先提出和界定了组块概念,并从理论解释和心理学实验上证实了组块是句法的基础单位,具有心理现实性,并正式提出基于组块的分析方法,构造了一个基于规则的分析系统,先进行组块识别和系联分析,化解底层歧义,以进一步达到部分乃至完全句法分析的目的。

Ramshaw & Marcus(1995)采用了基于转换的错误驱动的学习方法进行组块识别。该方法将短语识别问题转化为位置标注问题,兼具统计方法和规则方法的优点。系统首先对文本进行初始标注,比较初始标注结果和正确答案,同时定义转换规则空间(包括触发条件和转换动作),并结合错误情况形成候选转换规则,然后遍历规则空间中的每一条规则,用评价函数对候选规则打分,挑选出得分最高的一条规则,送入有序规则库,并应用该规则对当前标注结果进行刷新,然后再根据转换规则空间和错误情况添加新的候选转换规则。学习过程循环进行,直到没有规则能使评价函数高于一定阈值。组块识别采用学习得到的有序规则集进行标注。该方法的一个好处是系统的分析能力和识别结果易于解释。

Abney(1996)提出有限状态叠(Finite State Cascade)的方法,其基本思想是将句法分析的过程分成多个层次,每一层级上的短语只能建立在前一级的基础上,在每个层次内部,使用简单的有限状态自动机进行分析。分析过程包括一系列状态转换。每一个转换定义为一个模式的集合,每一個模式是由一个句法范畴符号和一个正则式构成的产生式。正则式可转换为有限状态自动机,从而在某一层产生一个单一的、确定的有限状态层次识别器Ti,它以Li-1级的输出为输入,并产生Li作为输出。在模式匹配过程中,如遇到冲突,按最大匹配原则选择合适的模式。

自然语言学习国际会议(CONCLL-2000)正式提出语块共享任务,定义了英语的11种基本语块,包括NP,VP,PP,ADJP,ADVP,CONJP等。基于规则的方法和基于统计的方法在此次任务中得到广泛的应用,特别是基于统计的方法占据了主流,如隐马尔可夫方法,最大熵方法,支持向量机方法,等等。其中,分类器集成成为普遍采纳的一种策略,并且取得了良好的效果。

自然语言学习国际会议(CONCLL-2001)将组块分析任务推广到更大块——小句(Clause)的识别。与组块识别任务不同,由于小句结构的复杂性和嵌套性,任务被分解为三个部分:左边界的识别、右边界的识别和左右边界的配对。英语小句识别任务与汉语最长名词短语识别任务具有一定程度的相似性,汉语名词短语中常见的“的”、指示词等可以作为关系从句的标记,构造关系从句。此后,组块识别进一步应用到句法语义领域,如自然语言学习国际会议(CONCLL-2002)提出的语义角色标注任务。

(二)汉语组块分析研究

上世纪90年代以来,国内引入组块分析的思想,在汉语短语层面展开了广泛的研究,主要见于短语的边界识别、短语内部的结构分析等方面。

刘芳、赵铁军等(2000)将组块界定为包含一层或者两层符合一定句法功能和反映组成意义的短语,并定义了8种组块类型,采用增强的马尔科夫模型与基于错误驱动的转换的方法对汉语组块进行了识别研究。

周强(2001,2007a)通过引入词汇关联信息,为缺乏形式标记的汉语寻找内聚性判定标准,提出了基于拓扑结构的汉语基本块的描述体系,确立了句法和关系标记集。其中,基本拓扑结构包括三种:左角中心结构、右角中心结构和链式关联结构;句法标记集包括7种:NP,VP,AP,DP,MP,TP,SP。基本拓扑结构对基本块中的多词表达(MWC)内部依存关系进行分析,建立了句法关系和语义内容(词汇关联)的桥梁。在应用实践上,张昱琪、周强(2002)应用基于实例的MBL学习方法,对汉语中较为常见的9种基本短语进行了识别研究。

周强等(2007b)进一步研究了汉语功能块的自动分析问题,界定了主语、谓语、宾语、状语、兼语、补语、语气、独立语等8种功能块类型,并提出了边界识别模型和序列标注模型进行计算模拟。陈亿、周强等(2008)进一步将功能块推广到多层级层面,统计表明,多层级的功能块具有结构简单、长度短且分布均匀的优点,有利于提高分析器的性能。我们认为,复杂块的多层次化是由句法递归特性决定的,在解决基本块问题之后,多层次的块分析机制是需要进一步考虑的问题。

李素建(2002)定义了12种组块类型,以线性方式覆盖了语料中所有的切分单位,并采用最大熵模型、有限状态自动机和基于错误转换相结合的方法进行组块分析,取得了良好效果,文章还进一步讨论了组块相似度计算的相关问题。

组块分析作为一种新的研究思路,受到学术界的广泛关注。汉语作为一种缺乏形式标记的语言,其组块界定的理论基础仍然值得进一步研究;组块分析中,统计方法占据了主流,但统计与规则相结合常常能够取得更好的效果;基本块的研究已经取得一定成果,在基本块分析的基础上,我们需要进一步研究如何处理多层次、大颗粒度的组块。

三、基本名词短语识别与分析

基本名词短语是最复杂的组块类型之一,是组块中长度最长、识别精度最低的组块,也是组块分析的重点问题。

在英语方面,基本名词短语的识别与分析主要采用统计机器学习的方法,该方法将识别问题转换为分类问题,为了进一步提高识别效果,研究者常常使用多个分类器,并将按照一定的方法将识别结果融合起来,称为多分类器融合。多分类器融合的方法常常能够提高识别效果,但是识别结果的可解释性较差。

Tjong Kim Sang(2000a,2000b)分别采用了两种不同的集成方法识别基本名词短语。一种方法是MBL系统内集成,采用不同的标记集(IOB1,IOB2,IOE1,IOE2,O+C)构造基本分类器,另一种方法是系统间集成,采用MBL等7个分类器作为基本分类器,并测试了不同的融合策略。在标准测试集上F1值较前人研究分别取得了0.5%和0.6%左右的提高。

Taku Kudo(2001)以SVM作为分类器,采用分类器集成的方法识别基本名词短语。基本分类器的构造采用了多种方式,如采用不同的标记集,不同的分析方向,以及不同的投票方式等。实验对基本名词短语进行了独立评测,在标准测试集上较Tjong Kim Sang(2000b)的工作提高了0.4%左右。

在汉语方面,基本名词短语的识别分析以统计方法和统计机器学习方法为主,同时尝试了多种不同的基于规则和理解的方法。

赵军(1998)以汉语“区别性定语、描写性定语和限定性定语”的定语语序为理论依据,将基本名词短语定义为限定性定语和中心语的组合形式,提出baseNP句法组成模板与N元模型相结合的概率识别模型、基于转换的识别模型和基于中心词潜在依存关系的结构分析模型。该研究以语言距离为基础界定组块,符合认知上的规律,特别适合缺乏标记的汉语组块界定。

张瑞霞、张蕾(2004)提出了基于知识图的汉语基本名词短语分析模型,以《知网》为语义知识资源,采用以语义为主、语法为辅的策略,先为短语中的每一个实词构造“词图”,然后合并“词图”为“短语图”,从而得到一个关于结构和语义信息的知识图,达到分析内部句法关系和语义关系的目的。这种方法可以看作是基于理解的方法。

徐昉、宗成庆等(2007)在宾州树库上采用基于错误驱动的组合分類方法识别汉语基本名词短语。通过对比两种不同类型的分类器,基于转换的方法和条件随机场方法的分类结果,利用支持向量机学习其中的错误规律,对两分类器产生的不同结果进行纠错,从而达到提高系统整体性能的效果。文章还比较了条件随机场和支持向量机的识别效果。结果显示,两种模型的效果相近,支持向量机稍胜出。我们认为,模型识别效果的差异受到多种因素的影响,与对象界定、参数设定都有关系。

徐艳华(2008)根据语法功能完全相同即为一类的原则,对3514个高频实词进行语法功能考察,分为676类,建立了汉语词类体系。基本名词短语识别以该体系为依据,将实例中的词语序列转换成相应的类标记序列,并与句法规则库对照确定序列内部的句法关系。通过考察10081个“v+n”序列实例,总结出2066条句法规则。在判断该序列是否基本名词短语实验中,按照组合模式和实例数统计,准确率分别为70.7%和71.3%。该研究显示了语言知识细化对于解决句法问题的作用。

可以看出,尽管统计机器学习方法在基本名词短语识别任务中占据了主流,但不乏理性主义的方法,两者各有优点。前者多能取得较好的效果。多分类器融合的方法能够进一步提升识别效果,但提升幅度较为有限;后者的可解释性更强,也有非常好的提升潜力,因为语言序列本质上是结构问题。

四、最长名词短语识别与分析

最长名词短语的相关研究包括最长名词短语子集和邻近集合的识别和严格的最长名词短语的识别两个部分。

在英语方面,大多数研究属于前者。Voutilainen(1993)的名词短语获取工具NPTool,采用基于限制的文法进行词语的句法功能标注,消解词语级歧义,并利用两种有限状态分析机制(NP-否定倾向机制和NP-肯定倾向机制)来发现文本中可能存在的最长名词短语,最后使用正确表达式抽取最长名词短语。NPTool识别的最长名词短语包括了介词和连词,但不包括“that”引导的定语从句。

台湾的Kuang-huaChen(1994)等人将名词短语分为最短名词短语、最长名词短语、一般名词短语以及可应用名词短语,并指出最短语名词短语、可应用名词短语与最长名词短语之间具有相当的重叠率。文章利用统计分块(chunking)和有限状态分析相结合的方法来发现句子中的各类名词短语,总体正确率达到95%,其中,最长名词短语召回率达到70%。

在漢语方面,大多数研究属于后者。李文捷(1995)构造了两个边界概率矩阵:左边界概率矩阵和右边界概率矩阵,识别最长名词短语的左右边界,并基于最大长度匹配和最大概率配对的不同策略识别最长名词短语,开放测试取得了71.3%正确率。实验表明,不同的匹配方式对于识别的影响不大。

周强、孙茂松等(2000)全面分析了最长名词短语的分布特点,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法。后者在边界预处理的基础上,确立基本组合成分,发现最长名词短语的右边界,并向左迭代组合,形成新的最长名词短语,取得了85.4%的正确率和82.3%的召回率。实验表明,长度大于等于5的复杂最长名词短语的识别精度比简单最长名词短语低16%个百分点。复杂最长名词短语识别精度较低的原因还值得进一步考虑。从语法上说,由于句法关系较为复杂的“的”字短语参与了部分最长名词短语的构成,也会使得识别难度增大,而这部分最长名词短语的长度也是较大的。

在周强、孙茂松等(2000)工作的基础上,冯冲、陈肇雄等(2006)从机器翻译的实用目的出发,使用条件随机场模型识别复杂最长名词短语。模型选用了当前及左右三个位置的词和词性,及其组合形式作为特征,并提供了置信度用于人机交互。实验从训练语料中随机选取了部分语料进行测试,取得了75.4%的正确率和70.6%的召回率;经过人工干预,系统能够取得更好的效果。

代翠(2009)使用条件随机场模型以及针对开放测试语料的错误驱动的后继规则修正办法识别最长名词短语。规则部分处理了漏识,固定搭配,简单并列结构等5种情况。实验基于哈工大汉语树库进行,随机抽取6330个句子作训练,1000个句子作测试,基于规则后继修正的方法具有较明显的效果。之后采用层叠条件随机场模型对最长名词短语进行分析,分析策略与Abney的有限状态叠类似,只是每一层级上的短语由条件随机场模型而非有限状态自动机进行识别,实验取得了85.1%的分析正确率。

鉴萍、宗成庆(2009)认为最长短语,包括最长名词短语和介词短语,左部和右部具有不同的语言学特征,并且最长名词短语右部特征更明显。文章选择支持向量机识别最长短语,认为基于支持向量机的标注模型作为确定性模型,能够更好地利用最长名词短语的右部特征,如:中心词,“的”等,指导左部边界的识别。实验表明,最长名词短语的反向扫描策略的识别效果明显优于正向扫描。文章还进一步利用双向识别的互补性,提出基于分歧点的分类器集成方法,提高了识别效果。

钱小飞(2015)分析了最长名词短语的结构和线性特征,指出统计机器学习模型的观察窗口有限,导致识别特征难以使用,并提出了一种基于归约的最长名词短语识别方法,该方法首先识别基本名词短语,归约为中心词,并保留其起始句法特征,使得模型的观察范围大大拓展,将识别的F值提高了1%。

综上可见,统计机器学习方法仍然是基本名词短语和最长名词短语识别的主流方法。多分类器集成策略开始得到应用。一些研究注意到名词短语的语言学特征,这些特征在规则方法中应用广泛。但是,作为一种复杂短语的识别,如何将语言学特征融入统计机器学习,并且更好地将统计和规则方法结合起来,仍然值得进一步研究。

五、结语

组块分析作为一种新的分析技术,着眼于简单语块的分析,在一定程度上缓解了底层歧义问题,有利于句法分析的发展。另一方面,组块分析仍然没有达到令人满意的地步,特别是基本名词短语,最长名词短语等相对较大的语块,识别精度仍然不够。未来我们需要进一步考虑,哪些结构是适合进行组块分析的,如何将语言学特征融入统计机器学习,并且更好地将统计和规则方法结合起来。

参考文献:

[1]Chen Kuang-hua,C.,&Chen; Hsin-hsi,C.Extracting

noun phrases from large-scale texts:a hybrid approach and its automatic evaluation[A].Proceedings of the 32nd Annual Meeting of Association of Computational Linguistics,1994:234-241.

[2]Ramshaw,L.,Marcus,F.Text chunking using

transformational-based learning[A].Proceedings of the Third Workshop on Very Large Corpora,1995.

[3]Steven Abney.Parsing by chunks[A].Principle-

Based Parsing:Computation and Psycholinguistics,1991b:257-278.

[4]Abney,S.Partial Parsing via Finite-

State Cascades[A].Proceedings of the ESSLLI'96 Robust Parsing Workshop,1996.

[5]Kudo,T.,& Matsumoto,Y.Chunking with support

vector machines[A].Meeting of the North American Chapter of the Association for Computational Linguistics on Language Technologies,2001,(9):1-8.

[6]Tjong Kim Sang.Noun phrase recognition by

system combination[A].Proceedings of the ANLP-NAACL,2000a:50–55.

[7]Tjong Kim Sang,EF.Applying system combination

[A].to base noun phrase identification.Proceedings of COLING 2000,2000b:857-863.

[8]Voutilainen,A.NPTool:a detector of English

noun phrases[A].Proceedings of the Workshop on Very Large Corpora:Academic and Industrial Perspectives,1993:48-57.

[9]陈亿,周强.分层次的汉语功能块描述库构建分析

[J].中文信息学报,2008,(3):24-31.

[10]代翠.汉语最长名词短语的自动识别与分析[D].

沈阳:沈阳航空工业学院硕士学位论文,2009.

[11]鉴萍,宗成庆.基于双向标注融合的汉语最长

短语识别方法[J].智能系统学报,2009,(5):406-413.

[12]李素建.组块计算的若干研究[D].北京:中国科

学院计算技术研究所博士学位论文,2002.

[13]李文捷,周明等.基于语料库的中文最长名词短

语的自动提取[A].陈力为,袁琦主编.计算语言学进展与应用.北京:清华大学出版社,1995:119-124.

[14]刘芳,赵铁军等.基于统计的汉语组块分析[J].

中文信息学报,2000,(6):28-32.

[15]钱小飞.基于归约的汉语最长名词短语识别方法

[J].中文信息学报,2015,(2).

[16]徐昉,宗成庆.中文BaseNP识别:错误驱动的组

合分类器方法[J].中文信息学报,2007,(1).

[17]徐艳华.基于语料库的基本名词短语研究[J].语

言文字应用,2008,(1).

[18]张瑞霞,张蕾.基于知识图的汉语基本名词短语

分析模型[J].中文信息学报,2004,(3):47-53.

[19]张昱琪,周强.汉语基本短语的自动识别[J].中

文信息学报,2002,(6):1-8.

[20]赵军.汉语基本名詞短语识别及结构分析[D].北

京:清华大学博士学位论文,1998.

[21]周强,孙茂松,黄昌宁.汉语最长名词短语的自

动识别[J].软件学报,2000,(2):195-201.

[22]周强.汉语基本短语的标注规范.清华大学计算机

系智能技术与系统国家重点实验室技术资料,2001,(4).

[23]周强.汉语基本块描述体系[J].中文信息学报,

2007a,(3):21-27.

[24]周强.汉语功能块自动分析[J].中文信息学报,

2007b,(5):18-24.

猜你喜欢

组块综述
SAPHO综合征1例报道并文献综述
基于迁移学习模型的小样本学习综述
组块教学在小学语文教学中的运用
组块理论的解读及启示
知识追踪综述
共指消解技术综述
面向自动问答的机器阅读理解综述
组块教学和统编版教材的关联探究
施工机群配置优化研究综述
施工机群配置优化研究综述