APP下载

基于分治策略的组块分析

2012-06-29周俏丽郎文静蔡东风

中文信息学报 2012年5期
关键词:组块语料短语

周俏丽,刘 新,郎文静,蔡东风

(沈阳航空航天大学 知识工程中心, 辽宁 沈阳 110136)

句法分析是自然语言处理中的重点和难点,针对完整句法分析在自然语言处理领域中遇到的困难,许多研究人员采用“分而治之”的原则降低句法分析的难度,把完整的句法分析分解为组块分析和组块之间关系的分析。国际会议CoNLL-2000把组块分析作为共享任务提出之后[1],组块分析逐渐受到广泛的重视,在组块分析中各种机器学习方法成为主流趋势。同时,组块分析作为一种预处理手段,可以应用到自然语言处理的许多领域,例如,机器翻译、信息抽取、信息检索等。

在汉语组块分析研究中,很多机器学习的方法[2-5]都被采用,但是以上这些方法都是将机器学习模型直接应用于组块分析,并没有考虑句子的复杂度对组块分析造成的影响。然而在句法分析中,缓解句子过于复杂的一个方法是采用分治策略,文献[6]对句子中的连接词进行消歧处理,然后根据这些连接词的功能将句子分为不同的部分,再对每个部分分别进行处理。文献[7]使用类似的方法对德语文本进行组块分析,该分治策略识别了更多的成分,如命名实体、动词词组等。文献[8]提出了另外一种分治策略对句子进行分解,该工作将句子分为pre-subject、subject、predicate三部分,分析之后再将三个部分进行组合,分治策略有效地简化了复杂句子的分析。

本文提出了一种基于分治策略的组块分析方法。首先对句子进行最长名词短语识别。根据识别的结果,将句子分解为最长名词短语部分和句子框架部分(句子框架在本文中定义为,用最长名词短语的核心词替换句子中的最长名词短语所形成的新句子)。对每个分析单元分别进行组块分析之后,再将分析结果进行组合,完成整个组块分析过程,形成最终的组块分析结果。这样,每个分析单元的长度减少了,同样也提高了组块分析的效果。以宾州大学中文树库(以下简称CTB4)为实验的数据集,对基于整句的组块分析方法和基于分治策略的组块分析方法进行了比较实验,本文提出方法的实验结果F1值达到91.79%,高于目前已知的在同样训练集和测试集的最好实验结果[4]。

本文内容的安排如下:第一节明确了中文组块的定义,列出各种组块类型和组块标注符号,并对组块识别任务进行了分析;第二节简要阐述了基于分治策略的组块分析方法;第三节介绍了基于统计的分治策略的方法;第四节给出了各种组块分析方法的对比实验并进行分析;第五节对全文进行总结与展望。

1 组块分析任务的介绍及分析

1.1 组块定义及任务描述

根据文献[3]中对于组块的定义,组块是一种语法结构,是符合一定语法功能的非递归短语。每个组块都有一个中心词,并围绕该中心词展开,任何一种类型的组块内部不包含任何类型的组块。本文总共定义了12种组块类型,如表1所示。

表1 组块类型定义

续表

组块分析的任务包括组块的划分和识别,在本文中通过组块标注来实现,即对每一个词语赋予一个组块标注符号。

1.2 任务分析

在短语结构文法树库中名词短语是可以递归定义的,名词组块就是基本名词短语。自然语言文本中的实体和概念都是由文本句子中的名词短语所描述。这就意味着名词短语的有效识别对提高组块识别的正确率有着重要的意义。在不同的语言中,名词短语有不同的结构表述形式,有不少语言学家对汉语名词短语进行了结构分析,其中张卫国[9]从自然语言处理的视角对汉语名词短语进行槽位分析,提出汉语中的名词短语有如下的结构形式:

[区别性定语] [描写性定语] [限定性定语] N

其中,N为名词中心语,即名词短语核心词。区别性定语、描写性定语、限定性定语是名词短语的修饰成分。

汉语的显著特点之一就是任何句法成分都可以不经过任何形态变化,只需加上一个结构助词“的”,就可以充当一个名词短语的定语而形成一个更长的名词短语[10]。所以对于汉语来说,大多数长的名词短语自身特点比较明显,这就对其识别提供了有效的特征。

最长名词短语MNP(Maximal Noun Phrase)就是不被其他任何短语所包含的名词短语[10]。从句法功能上来看,MNP一般出现在句子的主语或宾语的位置,所以一旦能正确地识别出句子中所有的MNP,就可以很容易地把握句子的整体结构框架,因此MNP的识别和分析有助于浅层句法分析。

MNP作为一种特殊的名词短语具有以下特点。

(1) MNP在语义上代表某一特定的实体或概念。MNP的核心词由体词或谓词性成分充当。

(2) MNP的末尾词为整个短语的核心词,在功能上代表该短语。MNP的内部组成成分只与其内部的其他成分发生句法关系,通过整个短语的核心词与外部发生联系。

下面给出一个带有MNP标注的句子:

NP[去年/NT全/DT 区/NN各/DT 项/M 存款/NN 和/CC 贷款/NN 的/DEG增幅/NN] 远远/AD 高于/VV NP[经济/NN 发展/NN 速度/NN ],/PU 实现/VV 了/AS NP[年初/NT 金融/NN 工作/NN 会议/NN 提出/VV的/DEC要求/NN ] 。

其中,“去年全区各项存款和贷款的增幅”和“经济发展速度”以及“年初金融工作会议提出的要求”分别属于MNP,如果省略名词短语的修饰成分,上句将变为:增幅远远高于速度,实现了要求。并未改变原来句子的基本语义。

所以,对于一个句子来说,如果MNP部分用MNP的核心来代替,并不改变句子的意思。当一个句子被分解为最长名词短语部分和句子框架部分,句子中的各个组成成分,如名词成分,动词成分,都被包含在这两个部分中,并且不存在交叉现象。对句子进行这种分解有两个优点,一是可以针对不同的子问题独立地选用不同的模型加以分析;二是每个分析单元的长度缩短了,从而大大降低了句子的复杂度。所以根据汉语的结构特点,本文提出了基于分治策略的组块分析方法。其方法就是将句子分解为最长名词短语分析单元和句子框架分析单元,然后利用统计模型分别进行组块分析。

1.3 基于MNP分治策略对组块分析的影响

MNP识别对句子主语和谓语的识别起到了一定的促进作用,因为主语和宾语主要由NP组块组成,谓语主要由VP组块组成,所以该方法一定程度上会促进NP和VP的组块识别。通过下面实例进行说明。

原句: 开户/VV单位/NN动用/VV大额/JJ资金/NN特别是/AD 动用/VV 存/VV在/P中/JJ 小/JJ金融/NN机构/NN的/DEC大额/JJ资金/NN,/PU应/VV 提前/AD 通知/VV开户/VV金融/NN 机构/NN,/PU 以便/AD调度/VV资金/NN保证/VV支付/NN。/PU

采用分治策略结果如下:

MNP【 VP[ 开户/VV ] NP[ 单位/NN ] 】 VP[ 动用/VV ] MNP【 NP[ 大额/JJ ] NP[ 资金/NN ] 】 VP[ 特别是/AD 动用/VV ] MNP【 VP[ 存/VV ] PP[ 在/P ] NP[ 中/JJ 小/JJ ] NP[ 金融/NN 机构/NN ] 的/DEC NP[ 大额/JJ ] NP[ 资金/NN ] 】 ,/PU VP[ 应/VV 提前/AD 通知/VV ] MNP【 VP[ 开户/VV ] NP[ 金融/NN 机构/NN ] 】 ,/PU ADVP[ 以便/AD ] VP[ 调度/VV ] MNP【 NP[ 资金/NN ] 】 VP[ 保证/VV ] MNP【 NP[ 支付/NN ] 】 。/PU

为了更清楚地看出分治策略的处理结果,我们把MNP内部的组块分析结果加上“MNP【 】”标记。

没有采用分治策略结果如下:

VP[ 开户/VV ] NP[ 单位/NN ] VP[ 动用/VV ] NP[ 大额/JJ ] NP[ 资金/NN ] VP[ 特别是/AD 动用/VV 存/VV ] PP[ 在/P ] NP[ 中/JJ 小/JJ ] NP[ 金融/NN ] NP[ 机构/NN ] 的/DEC NP[ 大额/JJ ] NP[ 资金/NN ] ,/PU VP[ 应/VV 提前/AD 通知/VV ] VP[ 开户/VV ] NP[ 金融/NN 机构/NN ] ,/PU ADVP[ 以便/AD ] VP[ 调度/VV ] NP[ 资金/NN ] VP[ 保证/VV ] NP[ 支付/NN ] 。/PU

通过以上实例可以看出采用分治策略后“存/VV”作为MNP的一部分已经提前识别,那么在下一步的组块分析中是不会产生把“存/VV”与“特别是/AD 动用/VV”作为一个VP组块进行整体识别的情况。

2 基于分治策略的组块分析方法

在本文中,首先对句子先进行MNP识别,再对MNPs和句子框架利用统计模型进行组块分析,最后把MNP和句子框架的组块分析结果合并为整句的组块分析结果。我们把上述方法定义为基于分治策略的组块分析方法。

图1为基于分治策略的汉语组块分析系统框图。该系统分为三部分: (1)基于CRFs的MNP识别模块;(2)MNP部分;(3)句子框架部分的组块分析模块。首先利用MNP识别模型,对于未标注的测试语料,进行MNP识别。然后,利用MNP组块分析模型和句子框架组块分析模型分别对识别出的MNPs和句子框架进行组块分析。最后将每个部分分析结果进行组合,形成最终的组块分析结果。

图1 基于分治策略的汉语组块分析系统框图

2.1 MNP识别实验

本文采用了条件随机场CRFs(Conditional Random Fields)统计模型进行MNP识别。首先系统在训练语料上根据特征选择和参数估计建立CRFs统计模型,对于未经标注的测试语料进行基于CRFs的MNP识别,并采用了基于词(W)和词性(P)的特征表示。实验中,MNP识别的原子特征模板[11]共有14种,分别为: W-3,W-2,W-1,W0,W+1,W+2,W+3,P-3,P-2,P-1,P0,P+1,P+2,P+3;复合特征模板[11]共有八种,分别为: W-1/P-1,W0/P0,P0/P+1,P-1/ P0,W-1/W0,W0/ W+1,P-2/ P-1/P0, P0/P1/P2。下面介绍MNP识别的语料准备和实验结果。

在实验中,从来源于CTB4的训练语料和测试语料中分别抽取MNP识别的训练语料和测试语料,把MNP分为两类: 长度<5的简单MNP(Simple MNP)和长度≥5的复杂MNP(Complex MNP);其中复杂MNP又分为两类:长度<10的复杂MNP和长度≥10的复杂MNP。表2中列出了MNP识别实验语料的统计数据。

表2 MNP识别语料的统计信息

从表2可以看出在训练语料和测试语料中MNP复杂度的分布情况,同时也可看出训练语料中MNP的平均长度为4,测试语料中平均长度为3.31。我们基于以上语料利用CRFs模板进行了MNP识别实验。MNP的实验结果:正确率P=84.21%,召回率R= 84.29%,F1值 = 84.25%。

2.2 句子框架生成

原句经过MNP识别,然后对MNP进行核心词识别,再用MNP的核心词去替换MNP在原句中的成份,最终形成句子框架。MNP通过核心词与外部发生句法关系,所以,只用MNP的核心词参与句子的组块分析,即单独对句子框架进行组块分析,可以避免MNP的修饰成分对组块分析的影响,并降低分析的复杂度。如下例句:

原句: [NP [NP美国] [NP总统] [NP克林顿] ] [VP下达 了] [NP [PP对] [NP伊] [VP空袭] 的 [NP命令] ] 。

MNP部分: [MNP [NP美国] [NP总统] [NP克林顿] ]

[MNP [PP对] [NP伊] [VP空袭] 的 [NP命令] ]

句子框架: 克林顿 [VP 下达 了] 命令

从上例可以看出句子框架的长度和MNP的长度都比原句长度大大缩短了。MNP的核心词识别主要通过几条简单的规则进行。根据NP的结构形式定义,MNP的末尾词为整个短语的核心词,在功能上代表该MNP。但是MNP的构成较为复杂,也存在例外情况,需要特殊处理。例如,MNP的结尾是插入语,那么核心词就是插入语前面的最后一个词。下面是一个MNP的例子:

NP[“/PU 八五/NT ”/PU期间/NN (/PU一九九〇年/NT —/PU 一九九五年/NT)/PU ]

其中“(/PU一九九〇年/NT —/PU 一九九五年/NT)/PU”是插入语,所以“期间”是整个MNP的核心词。

另外,如果MNP的尾词为“等”,我们也把“等”前的名词做为MNP的核心进行识别。

表3列出了句子框架(Frame)与原句长度分布的对比统计数据。在训练语料中原句的平均长度为24.19,而与其对应的句子框架的平均长度为12.86;在测试语料中原句的平均长度为31.35,而与其对应的句子框架的平均长度为10.20。所以可以看出利用MNP核心词替换后的句子框架跟原句相比长度大大缩减了,显著地降低了句子的复杂度。

表3 句子框架与原句长度分布的对比统计数据

2.3 基于分治策略的组块分析步骤

通过下面实例详细说明本文所提出的基于分治策略的组块分析步骤。

原句: 饱/AD 经/VV战争/NN 与/CC 制裁/NN 之/DEG 苦/NN的/DEC伊拉克/NR人民/NN 又/AD 遭受/VV 了/AS 自/P 海湾/NN 战争/NN结束/VV以来/LC最大/JJ 规模/NN 的/DEG军事/NN 打击/NN 。/PU

第一步: MNP识别

MNP【饱/AD 经/VV战争/NN 与/CC 制裁/NN 之/DEG 苦/NN的/DEC伊拉克/NR人民/NN 】又/AD 遭受/VV 了/AS MNP【自/P 海湾/NN 战争/NN结束/VV以来/LC最大/JJ 规模/NN 的/DEG军事/NN 打击/NN 】 。/PU

第二步: 生成句子框架(框架生成过程详见本文2.2节)

人民/NN又/AD 遭受/VV 了/AS打击/NN 。/PU

第三步: MNP内部和句子框架部分的组块分析

1) MNP1: 【 VP[ 饱/AD 经/VV ] NP[ 战争/NN 与/CC 制裁/NN ] DNP[ 之/DEG ] NP[ 苦/NN ] 的/DEC NP[ 伊拉克/NR ] NP[ 人民/NN ] 】

2) MNP2: 【 PP[ 自/P ] NP[ 海湾/NN 战争/NN ] VP[ 结束/VV ] LCP[ 以来/LC ] NP[ 最大/JJ ] NP[ 规模/NN ] DNP[ 的/DEG ] NP[ 军事/NN 打击/NN ] 】

3) frame: NP[人民/NN ] VP[ 又/AD 遭受/VV 了/AS ] NP[ 打击/NN ]

第四步: 合并两个部分组块分析结果并产生最终结果

MNP1组块分析的结果替换frame中的NP[人民/NN ]部分,同时MNP2组块分析的结果替换frame中的NP[ 打击/NN ]部分,并产生最终结果为:

MNP【 VP[ 饱/AD 经/VV ] NP[ 战争/NN 与/CC 制裁/NN ] DNP[ 之/DEG ] NP[ 苦/NN ] 的/DEC NP[ 伊拉克/NR ] NP[ 人民/NN ] 】 VP[ 又/AD 遭受/VV 了/AS ] MNP【 PP[ 自/P ] NP[ 海湾/NN 战争/NN ] VP[ 结束/VV ] LCP[ 以来/LC ] NP[ 最大/JJ ] NP[ 规模/NN ] DNP[ 的/DEG ] NP[ 军事/NN 打击/NN ] 】 。/PU

为了更清晰看出各个部分识别的结果,把MNP内部识别的组块加上“MNP【】”标记,但是实际结果中并没有。

3 基于统计模型的组块分析

在对句子进行MNP识别后,我们得到了句子中所有的MNPs和句子框架,下一步将利用统计模型分别进行组块识别。支持向量机SVMs(Support Vector Machines)模型和CRFs是目前用于解决汉语组块分析问题效果较好的两种统计模型。为了证明本文提出方法的有效性,我们分别进行了两个实验:一是基于CRFs的分治策略方法实验;二是基于SVMs的分治策略方法实验。图2是基于统计模型的组块分析的系统框图。

该部分主要包括三个模块: (1)基于统计模型的组块分析器;(2)合并每个组块分析单元的分析结果;(3)成对标点符号后处理模块。首先该部分以一个句子分解后的分析单元(句子框架和MNPs)为输入,分别利用相应的分析模型进行组块分析。然后,将每个单元的分析结果进行合并,得到初步的组块分析结果。最后再对合并结果进行成对标点符号后处理,得到最终的分析结果。

3.1 基于CRFs的组块分析

CRFs是John Lafferty等人于2001年提出的一种基于统计的序列标记模型[12]。本文实验中利用CRF++ 0.49进行基于CRFs的组块分析实验。

图2 基于统计模型的组块分析部分的系统框图

表4中列出了基于CRFs的MNP组块分析和句子框架组块分析的结果。其中,句子框架组块分析是在假设MNP识别正确的情况下进行的。

表4 基于CRFs的各分析单元组块分析模型的性能统计

3.2 基于SVMs的组块分析

SVMs是一个二值分类器[13]。本文实验中利用SVMs工具包Yamcha (V0.33)进行基于SVMs的组块分析实验。表5中列出了基于SVMs的MNP组块分析和句子框架组块分析的结果。其中,句子框架组块分析是在假设MNP识别正确的情况下进行的。

表5 基于SVMs的各分析单元组块分析模型的性能统计

从表4和表5中可以看出两种方法的差别不是很明显,在MNP的组块分析中SVMs比CRFs高出0.29%(F1值),而在句子框架的组块分析中CRFs比SVMs高出0.3%(F1值)。在分析过程中,我们可以融合不同的方法,针对不同的处理对象选择更合适的分析方法。

4 不同组块识别方法之间的对比实验

本文所有实验均采用的是与文献[2]相同的训练集和测试集。它们来自LCD的中文树库CTB4,其中包括838个文件,我们使用前728个文件(FID从chtb_001.fid到chtb_889.fid)作为训练集,后110个文件(FID从chtb_900.fid到chtb_1078.fid)作为测试集。表6列出了训练语料和测试语料的统计信息。该树库共有404 768个词,15 168个句子,每个句子的平均长度为26.69个词。组块分析的评测标准包括准确率(P)和召回率(R),召回率和精确率的综合评价指标F-估计值。几种评价函数定义具体如下:

表6 训练语料和测试语料的统计信息

从表6和表7可计算出测试语料的平均句长为31.35,训练语料的平均句长为24.19,而且我们还可以从表8中看出长度在20和40之间的句子在语料中所占的比例最大。本文把长度小于等于20的句子称为简单句,把长度大于20的句子称为复杂句。

表7 训练语料和测试语料的句子长度分布统计

表8 测试语料的长度分布

在表9中列出了根据句子的不同长度进行的直接使用统计模型进行组块识别与在统计模型基础上加入分治策略进行组块识别的对比实验。实验一为基于CRFs的组块识别与基于CRFs分治策略D -CRFs(Divide-and-conquer based on CRFs)的组块识别的结果对比。两种方法采用相同的基于词和词性的特征表示。表8和表9分别列出了测试语料中句子长度的统计数据和实验对比结果,从表9中的两组对比数据可以看出随着句子长度的增加,组块分析的正确率呈下降趋势。 D -CRFs与CRFs的方法相比,对于简单句,F1值提高0.3%;对于句长小于等于40的复杂句,F1值提高0.36%;对于句长大于40的复杂句,F1值提高0.27%。在句长为20到40之间, D -CRFs方法的F1值提高的幅度最大,原因有两点: 一是分治策略中MNP识别把长句子分解为较短的组块分析单元,降低了句子的复杂度,所以分治策略的方法在每个阶段的正确率都有所提高;二是对于简单句,分治策略的方法体现不出更大的优越性,所以在该阶段F1值提高的幅度略低于句长小于等于40的复杂句。对于句长大于40的复杂句,该阶段MNP识别的准确率比较低,影响了分治策略方法的效果,所以F1值提高的幅度最小。

表9 不同长度句子的组块识别结果的对比(F1值)

实验二为基于SVMs模型的组块识别与基于SVMs分治策略D -SVMs(Divide-and-conquer based on SVMs)的组块识别的结果对比。实验中我们采用和文献[2]相同的基于词和词性的特征表示。从表9中的两组对比数据可以看出随着句子长度的增加,组块分析的正确率呈下降趋势,还可以看出D -SVMs方法比SVMs方法分别对于简单句,F1值提高0.24%;对于句长小于等于40的复杂句,F1值提高0.34%;对于句长大于40的复杂句,F1值提高0.18%。同上一组对比实验相同, D -SVMs方法在句长为20到40之间的F1值提高的幅度最大,对于句长大于40个词的复杂句,F1值提高的幅度最小。

从两个对比实验结果可以得出以下结论: 句子长度对汉语组块分析的正确率有着很大的影响,因此,把句子进行分解,缩短每个分析单元的长度,对于长句子显得尤其必要。本文又根据各种组块类型进行了不同组块识别方法间的对比实验,见表10所示。

表10 主要组块类型间不同方法的实验结果比较(F1值)

表10中给出了SVMs、CRFs、Large margin方法,以及本文所提出的分治策略的组块分析方法的组块分析结果。其中SVMs方法的结果来自于文献[2],Large margin方法的结果来自文献[4]。实验结果表明, D -CRFs比基于CRFs模型的F1值提高了0.36%,D -SVMs比基于SVMs模型的F1值提高了0.27%。我们也可以看出基于分治策略方法对于名词组块(NP)的识别效果都优于基于该模型的整句组块分析方法,特别是基于SVMs模型的分治策略方法的动词组块(VP)的识别效果也优于基于该模型的整句组块分析方法。主要是因为MNP识别对句子主语和谓语的识别起到了一定的促进作用,又因为主语和宾语主要由NP组块组成,谓语主要由VP组块组成,所以该方法一定程度上促进了NP和VP的边界识别。由于NP和VP组块是语料中占比例最大的两类组块,因此,分治策略的组块分析方法有助于更准确的理解文本。表中第五列实验结果给出了Divide-and-conquer SVMs+CRFs方法(MNP组块分析利用SVMs模型,句子框架组块分析利用CRFs模型)的实验结果,这种方法的F1值达到了91.79%,从这个结果可以看出分治策略能够做到把原来复杂的问题分解为多个较简单的问题,并且针对不同的问题采用了不同的处理方法。而且表10中基于SVMs的分治策略方法的总体F1值和基于SVMs+CRFs的分治策略方法的总体F1值都高于Large margin方法。

我们在双核CPU 2.8G、内存 1G的系统环境下对5 290句进行组块分析实验,结果表明基于CRFs方法分析速度为42 542毫秒(0.8毫秒/句),基于分治策略方法分析速度为51 073毫秒(9.658毫秒/句)。

5 结束语

组块分析是介于语句的词法分析和完整句法分析之间的一个中间步骤,有人称为浅层句法分析,一般比完整句法分析具有更高的可信度,因此在机器翻译、信息抽取等领域有着广泛应用。本文提出一种基于分治策略的组块分析方法,其基本思想是: 把一个复杂问题分解为多个简单问题,再针对每个简单问题的各自特点找到适合的解决办法进行处理,最后综合多个简单问题的处理结果生成原问题的解答,即分治策略。具体方法是: 在进行组块分析前加入MNP前处理,把原句分为MNPs和句子框架两个部分分别进行组块分析,再综合生成最终分析结果。实验结果表明,本文提出的分治方法是有效的,F1值达到91.79%,高于目前已知的最好实验结果[4]。但这种方法以MNP的识别为基础,所以下一步我们将重点研究如何进一步提高MNP的识别正确率,同时对句子框架组块识别和MNP组块的识别进行更深入分析,找到更适合各自特点的方法以进一步提高组块分析的效果。

[1] Erik F, Tjong Kim Sang, Sabine Buchholz. Introduction to the CoNLL-2000 Shared Task: Chunking[C]//Proceedings of CoNLL-2000 and LLL-2000. Lisbon, Portugal, 2000.

[2] Chen WL, Zhang YJ, Hitoshi I. An empirical study of Chinese chunking[C]//Proceedings of the COLING/ACL 2006 Main Conf. Poster Sessions. Morristown: Association for Computational Linguistics, 2006: 97-104.

[3] 李素建,刘群,杨志峰.基于最大熵模型的组块分析[J].计算机学报,2003,26(12):1722-1727.

[4] 周俊生,戴新宇,陈家俊,等.基于大间隔方法的汉语组块分析[J].软件学报.2009,20(4):870-877.

[5] Li HQ, Huang CN, Gao JF, et al. Chinese chunking with another type of spec [C]//Proceedings of the 3rd SIGHAN Workshop on Chinese Language Processing. 2004. 41-48. http://aclweb.org/anthology-new/w/w04/w04-1107.pdf

[6] P.L. Shiuan, C.T.H. Ann. A Divide-and-Conquer Strategy for Parsing[C]//Proceedings of the ACL/SIGPARSE 5th International Workshop on Parsing Technologies. Santa Cruz, USA, 1996: 57-66.

[7] C. Braun, G. Neumann, J. Piskorski. A Divide-and-Conquer Strategy for Shallow Parsing of German Free Texts[C]//Proceedings of ANLP-2000. Seattle, Washington, 2000: 239-246.

[8] C. Lyon, B. Dickerson. Reducing the Complexity of Parsing by a Method of Decomposition[C]//International Workshop on Parsing Technology. 1997: 215-222.

[9] 张卫国.三种定语,三个意义及三个槽位[J].中国人民大学学报,1996,(4):97-100.

[10] 周强,孙茂松,黄昌宁.汉语最长名词短语的自动识别[J].软件学报,2000,11(2):195-201.

[11] 代翠,周俏丽,蔡东风,等.统计和规则相结合的汉语最长名词短语自动识别[J].中文信息学报,2008,22(6):110-115.

[12] John Lafferty, Andrew McCallum, Fernando Pereira. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th ICML. 2001: 282-289.

[13] V. Vapnik. The Nature of Statistical Learning Theory[C]//Springer-Verlag, New York, 1995.

猜你喜欢

组块语料短语
锚泊受限下的超宽较重组块安装技术
基于归一化点向互信息的低资源平行语料过滤方法*
组块理论的解读及启示
融入注意力机制的越南语组块识别方法
大型半潜式起重船坞内建造整体合拢方案论证
濒危语言与汉语平行语料库动态构建技术研究
对外汉语教学领域可比语料库的构建及应用研究
——以“把”字句的句法语义标注及应用研究为例
《健民短语》一则
国内外语用学实证研究比较:语料类型与收集方法