APP下载

基于层叠CRF模型的词结构分析

2015-04-21周国栋

中文信息学报 2015年4期
关键词:内部结构细粒度后缀

方 艳,周国栋

(苏州大学 自然语言处理实验室,江苏 苏州 215006;苏州大学 计算机科学与技术学院,江苏 苏州 215006)



基于层叠CRF模型的词结构分析

方 艳,周国栋

(苏州大学 自然语言处理实验室,江苏 苏州 215006;苏州大学 计算机科学与技术学院,江苏 苏州 215006)

传统的中文分词就是识别出每个词的边界,它忽略了汉语中词与短语分界不清这一特点。在理论上,语言学家对词边界的确定往往各持己见,各语料库的分词标准不能统一,在实践中也不能完全满足具体应用的需求。该文给出了基于层叠CRF模型的词结构自动分析方法,能够以较高的精确度获得词的边界信息和内部结构信息。相比于传统的分词,词的结构分析更加符合汉语词法与句法边界模糊的事实,解决了语料库标准的不一致性以及应用的不同需求。

中文分词;内部结构;分词标准;层叠CRF

1 引言

中文分词是中文自然语言处理中最基本的一个步骤,其出发点是希望汉语的后续处理过程(如句法和语义分析)跟英语等西方语言基本一致,但汉语中词与短语间的界限往往难以划清,这就导致实践中人工标注的分词语料存在严重的不一致性,这种不一致性无疑会制约汉语的后续处理工作。

分词语料的不一致性不仅体现在不同语料库间分词标准不同,而且同一语料库中的分词标准也不一致。其主要原因是从认知角度来看“词”的概念本身就是模糊的,因而不同的人对“词”的概念有着不同的理解。例如,在PKU语料库中,“总教练”被切分为“总”和“教练”两个词,而“总书记”却是一个词。但是,“总教练”和“总书记”都有相同的结构,即前缀“总”加名词构成,它们可以表示成具有内部结构的标注形式: “[总 书记]”和“[总 教练]”。这种结构上的标注比起线性分割的词串,不仅容易取得一致性,而且能够更加适应汉语词法及句法之间界限模糊的特点。

另一方面,不同的自然语言处理应用对词的粒度大小也有不同的需求,单一的分词标准难以满足各种要求。例如,机器翻译通常偏好细粒度的词语,而信息抽取等应用则需要粗粒度的词语切分。以人名“江泽民”为例,在机器翻译中,需要将人名切分为姓和名以便分别翻译;而在信息抽取中则关注整个人名。如果我们能给出人名的内部结构标注“[江 泽民]”,那么不同的自然语言处理应用系统都可以从中提取所需粒度的语言单位。

由此可见,要解决分词标准的不一致性以及应用的不同需求,一个有效的方法就是分析词的内部结构。对词进行结构分析是一种与传统分词(加空格)不同的词法分析选择,它更加符合汉语词法及句法边界模糊的事实,有利于发挥词法分析在实际应用中的作用。因此,本文提出了词内部结构的自动分析方法。该方法对于无结构的词,如“华盛顿”、“葡萄”等,其输出等同于传统的分词输出,而对于有结构的词,输出的结果中不仅有词的边界信息,还包含词的内部结构信息。

本文第二部分简要介绍词内部结构研究的相关工作;第三部分是任务定义;第四部分介绍语料的标注工作;第五部分详细描述基于层叠条件随机场(CRF)模型的词结构分析方法;第六部分对实验结果进行分析与比较;最后是本文的总结与展望。

2 相关研究

目前,自动分析词结构的相关研究较为匮乏,人们对分词的概念还只是停留在识别出词的边界,不过,也有许多研究者已经意识到当前分词研究中存在的不足之处。Zhao[1]指出直到bakeoff-4为止,共有七种中文分词标准。分词作为中文语言处理最基础和关键的步骤,如果没有统一的标准,那必将影响其后续处理。Dong等[2]指出目前中文分词的结果虽然已经很好,但其在实际应用中的作用却没有大的突破,一个原因是不同的自然语言处理应用对分词的要求各不相同,因此需要改变传统的分词策略。

针对分词研究中存在的问题,许多研究者提出了一些后处理方法来解决分词标准的不一致性以及各种应用的不同需求。Wu[3]认为中文分词不存在统一的标准来满足所有的语言学家和各种应用的需求,因此,他通过输出粒度可调的结果来满足不同的应用需要。Gao等[4]认为中文分词的有用性关键在于它能适应不同领域的文本以及不同分词标准的能力,并给出了基于转换的方法使特定领域的分词系统能够适应其它不同的领域。Jiang等[5]针对不同语料库间分词标准的不同,提出了基于错误驱动的方法来自动转换不同标准间的语料库。孟凡东等[6]在Jiang的基础上进行异种语料的融合研究。他们都试图把各个不同标准的语料库转换成同一标准,从而减少人工标注的工作量,但是这些工作都属于识别词边界框架内的纯工程性质的研究,并且通过后处理来自动转换分词标准,不仅转换难度比较大,还不能保证足够精度。

针对目前的分词规范在理论上和实际运用中的不足,Li[7]提出了汉语词法与句法统一分析的方法,把词结构的分析融入到普通的成分句法分析中,即在进行句法分析的同时也分析出词的内部结构。在宾州树库上的实验表明,该方法能有效进行词内部结构的分析,标准分词的性能达到了97.3%,且句法分析的总体性能也相当好。不过,过高的时间复杂度和空间复杂度使句法分析并不适合于处理大规模的文本,且在某些情况下不需要用到顶层的句法结构。为此,本文将分词和词结构分析作为一个单独的任务,提出了基于层叠CRF模型的分词与词结构的一体化识别方法,克服了句法分析的复杂性,有效提高了分析效率。

3 任务定义

本文分析的含结构的词并非所有的复合词,因为从自然语言处理角度来看,有些复合词的结构并不需要分析,例如,“研究”虽为复合词,但自然语言处理应用系统一般不需要对其内部结构进行分析。本文所指的有结构的词界定如下。

1. 词中包含中心成分,并且该结构具有能产性*能产性指由某种规则能产生大量新词,也可指某语言单位能产生大量更大的单位,但本文中的能产性更偏向于后者。。例如,“工程师”,其中的“师”为中心成分,并且“师”字是能产的。

2. 具有中心成分但不满足能产性的情形,如果该中心成分对应的所有词构成平行的语义类别,则也作为有结构的词。例如,“洋”字严格意义上不算能产,但由它派生的词(如: 太平洋、北冰洋、大西洋、印度洋)在本文也分析了它们的结构,因为分析其结构可以缓解句法分析时中心词面临的稀疏问题。

3. 不具有中心成分的“离心结构”,如果具有能产性并且产生的词句法功能一致,也是本文所指的有结构的词。例如,“反革命”中的两个成分“反”和“革命”都不是整个词的中心成分,但由于“反+名词”这种结构具有能产性(反贪,反帝,反华,反浪费,反盗版等),本文仍将其作为有结构的词。

4. 汉语的人名是一类特殊的含结构的词,每个人名都包含姓与名,故本文对汉语人名的结构也作了分析。

本文将词结构(除人名外)中能产的部分(以及第二种情况下的中心成分)称为前缀或后缀(不同于语言学上的前后缀)。本文的前后缀不仅限于单个汉字,也可能是多个汉字,例如,主义,阶级。词的结构可能是一层,也有可能是多层的,如 “总工程师”具有两层结构(图1),本文用方括号表明了词的内部结构,一层括号表示一层词的结构,即图1的结构表示为“[总 [工程 师]]”。表1列出了具有不同形式的词结构,从中可以看出,汉语中词的内部结构纷繁复杂。

图1 “总工程师”的结构

人 名[江泽民],[兰红光],[王元]前缀序数词[第一],[第三十五],[第108]代词[本镇],[各族],[该校]名词[副教授],[软组织],[代总理]动词[超额],[抗旱],[反党]形容词[不景气],[最高],[易燃]后缀地名[黑龙江省],[镇江市],[加利福尼亚州]时间[一九一四年],[十一月],[清朝]名词[支持者],[实习生],[收割机]动词[信息化],[冲走],[闯入]处所词[湖边],[门前],[校内]多层结构[总[工程师]],[[古[人类]]学],[[北京市]人],[[[无政府]主义]者]

本文中词结构自动分析的任务不仅(以空格)分隔出一个句子中的词,而且给出词的内部结构,并且这种结构可能是嵌套的。如在下列句子中:

1. 林志浩是总工程师

2. 林志浩 是 总工程师

3. 林 志浩 是 总 工程师

4. [林 志浩] 是 [总 [工程 师]]

其中句1是未经分词的原始句子,句2和句3是两种不同的分词结果。显然,就分词的颗粒度而言,句2和句3是不同的。句4是本文的词结构分析所要输出的结果,它不仅包含了各种可能的分词情况,而且用方括号表明了词的内部结构,由此可见,词结构分析符合了汉语中词与短语界限不清的特点,并且该种词法分析可以很好地兼容不同的分词标准,不同的应用可以根据需要提取不同粒度的词,克服了目前分词中所存在的问题。

4 语料标注

为了便于语料的共享及降低标注成本,本文采用PKU1998年1月《人民日报》作为语料的来源。PKU只考虑了词的边界信息,因此需要对其再进行人工处理。其基本思路是对所有含前缀或后缀的复合词重新进行人工标注。

虽然汉语中词的内部结构纷繁复杂,幸运的是,一个词是否具有内部结构一般不依赖于上下文,因此在标注的时候每个词只需要标注一次,而不需要在不同的上下文中单独标注,这大大减轻了标注的工作量。标注的过程分为四步。

1. 提取汉语人名: 汉语的人名作为一类特殊的含结构的词需另外处理。从带有词性标记的语料中提取所有汉语人名,标注它们的结构信息。

2. 提取前后缀: 首先提取语料中所有出现过的词,然后将长度大于或等于两个汉字的词分别按照每个词中的第一个汉字和最后一个汉字进行归类,根据有结构词的定界从每一类中提取前缀或后缀。

3. 提取未被切分的结构: 在确定了前后缀集合之后,逐一检查语料中所有由前缀和后缀派生出来的复合词,标注它们的结构信息。

4. 提取被切分的结构: 把语料中所有独立成词的前后缀连同其上下文(前后各三个词)一起提取出来,逐一人工检查,重新标注所需的结构信息。这样做的目的是语料库中存在着前缀或后缀独立成词的情况,例如,在PKU语料中“总教练”已经被分成两个词“总”和“教练”, 但是“总书记”却是一个词。

经过上述标注之后,统计表明语料中所有出现过的词共有55 303个,提取的前缀有114个,后缀503个,含有结构的词占总词数的56.8%。表2列出了语料库中按结构层次划分的词结构的统计情况,由表2可知,含有结构的词中约88%只有一层结构,三层及以上结构的词非常少。另外,人名中的两层结构指汉语中妻子姓名前加丈夫姓的情况,如“陈方安生”的结构“[[陈 [方 安生]]”。

表2 各层次结构词的个数

①未切分的结构指原PKU语料中作为一个词单独出现,但在本文中需分析其结构的词,即标注过程中第三步提取的词。

②已切分的结构指原PKU语料中作为多个词出现,但在本文中需将其作为一个整体,并给出结构。这类词即标注过程中第四步提取的词。

5 基于层叠CRF模型的词结构分析

作为解决序列标注问题的有效方法,CRF模型在自然语言处理的各个领域都得到了广泛的应用,在分词方面也取得了较好的性能[8]。由于词结构的嵌套性,单一的CRF模型显然无法满足词结构分析的需求,因此本文提出了基于层叠CRF模型的词结构分析方法,其整体框架如图2所示。整个系统包含训练和测试两个部分,采用两个子模型,即底层模型和高层模型分别实现细粒度分词和词结构分析。训练时,通过提取不同的特征产生两个不同的CRF模型;而测试时,底层模型首先对未切分的汉字序列进行细粒度分词,然后,高层模型将细粒度分词后的序列进行逐层次的结构分析,一次结构分析得出一层词的结构,直到所有的结构都被识别出来为止。

图2 基于层叠CRF模型的词结构分析流程图

5.1 底层模型: 细粒度分词

在识别词的内部结构之前,首先需要对语料进行细粒度分词。细粒度分词是一个标准的分词过程,只不过其中所有词的前后缀都作为一个单独的词。CRF模型能够很好地解决分词的序列化标注问题,本文采用的标记集为{B、M、E、S},分别表示词首、词中、词尾和单独成词。由于人工标注的语料存在词的结构信息,它们对细粒度分词是没有意义的,因此在提取分词特征时,首先要去除这些结构信息,也就是将所有的前后缀都独立成词。

表3是底层CRF模型所用的分词特征模板,其中Unigram是一元字符特征;Bigram(即二元特征)是相邻两个字符相结合产生的特征;Trigram(即三元特征)是当前字符与前后相邻的两个字符结合所

产生的特征。在该模板中,C0指当前字符,C-1指当前字符的前一个字符,C1指当前字符的下一个字符,以此类推。

表3 底层模型的分词特征模板

在训练之前,需对语料作预处理。具体方法是: 将训练语料和测试语料中的四类不同字符分别替换成四个特殊字符,如将语料中所有的英文字母替换成‘A’,将阿拉伯数字替换成‘B’,将中文数字替换成‘C’,将标点符号替换成‘D’。然后用替换后的语料训练CRF模型,当测试结束后,再把测试语料中被替换掉的字符还原成原来的字符。

5.2 高层模型: 结构分析

经细粒度分词后的词序列,继续使用高层CRF模型来识别词的结构。本文采用单一的高层模型,在结构识别时分层次调用该模型,一次分析识别一层词的结构。结构的识别问题仍然作为一个序列化标注问题。此时,高层模型所使用的标记集合为{B,I,O},其中B表示一个结构的开始,I表示一个结构的中间,O表示结构之外(Tsuruoka等[9])。

高层模型的训练需要提取原人工标注语料中的结构信息作为特征。对于一个人工标注语料中的句子,需分层次提取语料中的结构。如果句中词结构的最高层次为N,那么该句需提取N次的结构特征,每次提取一层结构,最后将所有层次的特征加入到CRF训练器中产生高层模型。以“[林 志浩] 是 [总 [工程 师]]”为例,由于“[总 [工程 师]]”的结构为两层,且是该句中层次数最高的词,因此需要提取训练特征两次。第一次提取特征的样本为“[林 志浩] 是 总 [工程 师]”,第二次提取特征的样本为“林志浩 是 [总 工程师]”。

与高层模型的训练有所不同,应用高层CRF模型进行词结构分析时,无法一次识别出所有层次的结构,而是一次分析过程只在当前层次的结构序列基础上识别出上一层词的结构。因此,每一次分析结束后,都将从当前的结构序列中重新提取新的结构特征进入下一次分析,如此反复,直到无法识别出新的结构为止,把最终识别出的结构作为词结构分析的输出。仍以汉字序列“林志浩是总工程师”为例,图3给出了整个分析过程。图3(a)所示的初始状态是原语料进行细粒度分词的结果,该状态是结构分析的最底层。调用高层模型进行第一次结构分析后,识别出了两个包含结构的词,即“[林 志浩]”和“[工程 师]”,如图3(b)所示。接下来再将这两个包含结构的词作为一个整体重新加入到序列中继续进行结构分析。第二次结构分析后,模型分析器又识别出新的结构“[总 [工 程师]]”,如图3(c)所示,再把这个结构作为一个整体加入到序列中进行分析。当输出序列中已不存在新的结构时,分析结束。

图3 分析过程

表4是高层CRF模型在进行词结构分析时所用的特征模板,它与底层模型的特征模板不同之处在于此时的特征单元是词,而非字。具体而言Unigram是单个词作为特征,Bigram是相邻两个词结合产生的特征,Trigram是当前词与前后相邻的两个词结合产生的特征,W0指当前词,W-1指当前词的前一个词,W1指当前词的下一个词,以此类推。

表4 高层模型的特征模板

另外,为了体现序列的结构性,高层模型加入了Daughter特征,表示一个包含结构的词所拥有的子结点信息,其中D0、D1和D2分别表示它的子结点序列。例如“[总 [工程 师]]”这个结构的Daughter特征就是D0=总、D1=工程、D2=师。

6 实验

本文实验中将已标注的PKU语料分成两部分,分别作为训练语料和测试语料,其规模如表5所示。

表5 训练语料及测试语料的规模

6.1 评测标准

目前,还没有在PKU语料上进行词内部结构分析的相关研究,因此没有一个基准系统可以参考。本文采用的评测方法借鉴了句法分析的评测方法PARSEEVAL[10],采用正确率,召回率和F-值作为评测的三个指标,计算公式分别如式(1)~(3)所示。

正确率(Precision)=

(1)

召回率(Recall)=

(2)

(3)

评测时,将分析结果中的所有节点表示成如下标记格式: X-(起始位置: 终止位置)。其中X可以是无结构的终节点,也可以有结构的非终节点;(起始位置: 终止位置)为该节点的跨越范围。与句法分析评测不同的是,词结构评测的对象不是一棵完整的树,而是包含内部结构的分词结果,并且没有各种句法标记,其终节点与非终节点都是词。

6.2 实验结果及分析

本文首先进行细粒度分词,再将分词后的序列进行结构分析,因此分词结果的好坏直接影响结构分析的最终结果。为了考察分词对结构分析的影响,分别进行了自动分词下和标准分词下的词结构分析实验。

6.2.1 自动分词下的性能

表6是进行自动分词后再进行结构分析的实验结果。其中,零层结构考察无结构的词以及词结构中的最底层的词,即细粒度分词的性能;一层结构考察含有一层结构的词,由表2可知,大部分含结构的词都属于此类(约占88%),而两层及以上层次结构较少(约占12%)。

从表6中可以看出,采用层叠CRF模型的词结构分析方法取得了较好的总体性能,达到了实用水平,其中细粒度分词的性能为94.7%。当然,随着结构层数的增加,性能有所下降,特别是对于两层及以上结构,性能F值大幅度下降。其主要原因有两个方面: 一是高层结构的训练数据较少,导致稀疏性问题;二是错误的传递性,底层结构的错误识别直接导致高层结构的错误识别。

表6 自动分词下的词结构分析性能

通过对测试结果的分析,词结构分析的错误除了词边界的错误识别外,还有许多结构的错误识别也是由于词边界的错误切分而产生的。例如,“新华文摘”错误切分为“新华 文 摘”,导致结构分析时识别为“[新华 文] 摘”;地名“石河子”错误切分为“石 河 子”,导致错误的分析结构“[[石 河] 子]”。

6.2.2 标准分词下的性能

表7是在标准分词的情况下进行结构分析的实验结果。和表6中的数据相比,一层结构的F值提高了5.6,两层及以上结构的F值也提高了6.4,这说明分词的性能对词结构的分析相当重要。另外,从表中可以看出,尽管两层及以上层次结构词的识别准确率还不到70%, 但由于在测试集中这类词的出现次数较少,因此词结构分析的总体性能相当高。

表7 标准分词下的词结构分析性能

通过对测试结果的错误分析发现,一些能产的前后缀容易生成错误的结构。例如,“志愿 者 进 社区”经结构分析后的结果为“[[志愿 者] 进] 社区”,“一 名 热爱 海 的 看海 者”经结构分词的结果为“一 名 [热爱 海] 的 [看海 者]”。

6.2.3 与其他系统的比较

本文将Zhang等[11]基于字符的句法分析模型中的词结构分析的结果与本文模型的结果做了比较,如表8所示。从表中可看出,我们的模型与Zhang的模型在词结构分析的性能上基本相同。但Zhang采用的是字符级的词结构,且所使用的语料库领域及规模都与本文不同,故对结果的可比性有较大的制约。

表8 本文模型与Zhang的对比

尽管没有相同的研究可以直接比较,我们仍将细粒度分词的性能同目前最好的系统进行了比较。表9列出这些系统所使用的语料类型,语料规模和性能等。当然,由于语料库领域和规模不同,训练集和测试集不同,这些比较仅供参考。

表9 不同分词系统的性能比较

从表9中可以看出,本文的分词性能虽然低于目前的最好成绩(97%左右),但基本上是在同一水平上,且本文的重点在于探索有效的词结构分析方法,如层叠CRF模型在PKU语料上的训练时间约为40分钟(处理器: Intel Pentium CPU;主频: 2.20GHz;内存: 8G)。下一步要做的工作是如何进一步提高分词性能从而提高词结构分析的总体性能。

7 结语

词与短语的界限往往难以分清,但这并不妨碍人们对语言的理解,同样计算机也不必给词与短语设定一个界限,只要能够正确给出所有语言单位的结构,有利于后续应用系统的处理和使用即可。本文从汉语所固有的特点出发,对词的内部结构进行了分析,给出了一种与传统分词不同的词法分析选择,它更加适应汉语词法及句法分析阶段的特点,同时解决了语料库分词标准的不一致性以及不同的应用需求。本文提出了基于层叠CRF模型的词结构识别方法,该方法首先进行细粒度分词,再将分词后的序列进行分层结构分析。实验结果表明,该方法取得了令人满意的效果。接下来,我们将进一步探究高层模型和底层模型的特征设计,以及挖掘更多的语料知识来提高词结构分析的总体性能。

[1] Hai Zhao. Character-level dependencies in Chinese: Usefulness and learning[C]//Proceedings of the 12th Conference of the European Chapter of the ACL(EACL 2009). 2009:879-887.

[2] Zhengdong Dong, Qiang Dong, Changling Hao. Word segmentation needs change-from a linguist’s view[C]//Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2010:1-7.

[3] Andi Wu. Customizable segmentation of morphologically derived words in Chinese[C]//Computational Linguistics and Chinese language processing. 2003,8(1):1-27.

[4] Jianfeng Gao, Andi Wu, Mu Li Chang-Ning Huang, et al. Adaptive Chinese word segmentation[C]//Processings of the 42nd Annual Meeting on Association for Computational Linguistics. 2004:62-469.

[5] Wenbin Jiang, Liang Huang, Qun Liu. Automatic adaptation of annotation standards: Chinese word segmentation and POS tagging-a case study[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. 2009: 522-530.

[6] 孟凡东, 徐金安, 姜文斌, 等. 异种语料融合方法: 基于统计的中文词法分析应用[J]. 中文信息学报,2012, 26(2): 3-7.

[7] Zhongguo Li. Parsing the Internal Structure of Words: A new paradigm for Chinese word segmentation[C]//Proceedings of the 49th Annual Meeting of the Association of Computational Linguistics. 2011:1405-1414.

[8] Hai Zhao, Changning Huang, Mu Li. An improved Chinese word segmentation system with conditional random field[C]//Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing. 2006: 162-165.

[9] Yoshimasa Tsuruoka, Jun’ichi Tsujii, Sophia Ananiadou. Fast full parsing by linear_chain conditional random fields[C]//Proceedings of the 12th Conference of the European Chapter of the ACL. 2009:790-798.

[10] S Abney, S Flicknger, C Gdaniec, et al. Procedure for quantitatively comparing the syntactic coverage of English grammars [C]//Proceedings of the workshop on Speech and Natural Language, Association for Computational Linguistics. 1991: 306-311.

[11] Meishan Zhang, Yue Zhang, Wanxiang Che, et al. Chinese Parsing Exploiting Characters [C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013:125-134.

[12] 张梅山,邓知龙,车万翔,等. 统计与字典相结合的领域自适应中文分词[J]. 中文信息学报. 2012, 26(2): 8-12.

[13] Qian Xian, Yang Liu. Joint Chinese word segmentation, POS tagging and parsing[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics. 2012:501-511.

Word Structure Analysis Based on Cascaded CRFs

FANG Yan,ZHOU Guodong

(Natural Language Processing Lab, Soochow University, Suzhou, Jiangsu 215006, China;School of Computer Science & Technology, Soochow University, Suzhou, Jiangsu 215006, China)

Traditional research in Chinese word segmentation focuses on identifying word boundaries, without considering the ambiguity of boundaries between Chinese words and phrases. In theory, linguists stick to their own view of word boundaries such that no uniform standard exists in Chinese word segmentation, and in practice, the corpus of various guidelines cannot bring satisfactory reusltsto wide applications. In this paper, we present a model based on cascaded CRF models to automatically parse internal structures of words, deciding both word boundaries and internal structures simultaneously with high precision. Compared with the traditional word segmentation methods, analyzing the structure of words is more consistent with the fact of fuzzy boundaries between Chinese lexical and syntactic units, solving the problem of inconsistent corpus standards and meeting different application requirements.

Chinese word segmentation;internal structure;annotation standard;cascaded CRFs

方艳(1989—),硕士,主要研究领域为自然语言处理。E-mail:yfangyan@yeah.net周国栋(1967—),博士,教授,主要研究领域为自然语言处理、信息抽取。E-mail:gdzhou@suda.edu.cn

1003-0077(2015)04-0001-07

2013-08-20 定稿日期: 2013-10-30

自然科学基金青年项目(61202162),教育部博士点基金新教师类课题(20123201120011)

TP391

A

猜你喜欢

内部结构细粒度后缀
融合判别性与细粒度特征的抗遮挡红外目标跟踪算法
一种含内部结构的水下圆柱壳振动声辐射计算方法
基于SVM多分类的超分辨图像细粒度分类方法
盾构隧道内部结构全预制方案探讨
变阶马尔科夫模型算法实现①
基于型号装备?角色的IETM访问控制研究
基于web粒度可配的编辑锁设计
COREX竖炉内部结构对物料运动影响的物理模拟
倍增法之后缀数组解决重复子串的问题
两种方法实现非常规文本替换