APP下载

基于条件随机场的动词细分类研究

2014-04-29石翠

智能计算机与应用 2014年1期

摘要:动词细分类属于词性标注的一部分,是自然语言处理的重要内容之一。基于条件随机场在分词和词性标注的基础上对动词进行了更细致的分类。根据动词的语言环境构建条件随机场模型,实验结果表明该方法取得了较高的准确率,最高取得了98.11的F值。

关键词:动词细分; 词性标注; 条件随机场

中图分类号:TP391 文献标识码:A文章编号:2095-2163(2014)01-0083-03

0引言

词性标注就是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。汉语词性标注是中文信息处理的重要内容, 已经广泛应用于机器翻译、自动摘要、文本分类、文本校对和语音识别等各方面[1],并具有广阔的应用前景。

动词是一种常见的词性,在汉语句子中占有很大比例。在分词和词性标注后对动词进行细分有着重要的意义。动词细分类是在分词和词性标注的基础上,根据动词在句子中的不同语法或语义特性进行更细的标注。动词细分类可以提高句法分析的精确度,能够有效地分析句法上的歧义结构。对其进行深入的探讨分析已然成为目前学术界的关注焦点之一,本文即致力于此,展开论述。

1研究现状

动词细分类是词性标注的一部分,当前许多学者已经针对词性标注发布了相关的研究成果。尹木,肖铮[1]根据动词细分类自身的特点,提出了一种改进的隐马尔可夫模型的方法进行动词类别的自动划分。孙静[2]等提出了一种基于条件随机场CRFs模型的无监督的中文词性标注方法。首先利用词典对获得的已分好词的生文本进行词性标注,得到初始标注语料,然后利用CRFs 对语料进行迭代标注,再逐步优化标注结果。袁里驰[3]针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型。刘滔[4]则针对条件随机场模型面对大规模数据传统训练算法单机处理性能不高的问题,提出一种基于MapReduce 框架的条件随机场模型训练并行化方法, 进而设计了条件随机场模型特征提取及参数估计的并行算法, 实现了迭代缩放算法的并行。

2动词细分类研究

2.1动词细分类标注

本文研究的动词细分类是在863词性标注集的基础上,对动词进行了更细致的分类。动词在整句中处于核心地位,但是863词性标注集将所有动词都归为一类。本文则针对动词在句子中的语法结构及语义特征,将动词细分为5类,细分后动词词性如表1所示。

2.2基于条件随机场的动词细分类

本文的训练语料包含三列,分别为词、原始词性、细分之后的词性。其中,原始词性采用863词性标注集的词性。细分后的词性则包括两类:非动词、动词。所有的非动词都标注为O,动词词性需根据表1所示细分表,分别标注为:vx、vz、vb、vq和vg。特征一词的本意是指一个事物异于其他事物的特点,在CRF模型中,可将特征定义为一种规则,用于描述数据中的规律性或数据的统计特征。利用CRF模型进行序列标注的关键之一在于如何针对特定的任务为模型选取特征。影响动词细分类标注结果的主要因素有词和词性标注,而除了这两个因素外,本文还根据动词细分类的任务选取了其他的特征。文中针对动词细分类问题所选的特征,如表2所示。第1期石翠:基于条件随机场的动词细分类研究智能计算机与应用第4卷

2.3.1实验数据及评价标准

本实验所使用的语料是经过分词、词性标注的语料。该语料共包含4 000个句子,词性标注采用863词性标注集,实验将前3 000句作为训练集,后1 000句中,500句作为测试集,500句作为开发集。

从实验结果可以看出,运用template2模板的动词细分类识别效果最好,该模板选择的特征与复合特征都较少。从特征选择上看,动词细分类主要与词特征相关,且由于动词在句子中的核心地位,所有的动词都能识别为动词,只存在动词细分的错误,所以实验获得了相同的准确率、召回率和F值。

3结束语

动词及动词短语在汉语中占很大比例,对动词进行细分类可以更好的理解句子的含义,有利于句法的分析和基于模板的翻译。本文分析了动词分类的特点,并将动词的细分类转化为传统的序列标注问题,利用条件随机场(CRF)进行统计决策。

参考文献:

[1]尹木,肖铮.词性标注与动词细分类研究[J].电脑知识与技术,2009, 24(5): 6774-6776.

[2]孙静,李军辉,周国栋.基于条件随机场的无监督中文词性标注[J].计算机应用与软件,2011,28(4):21-24.

[3]袁里驰.基于改进的隐马尔科夫模型的词性标注方法[J].中南大学学报.2012,43(8):3051-3057.

[4]刘滔,雷霖,陈荦,等.基于MapReduce的中文词性标注CRF模型并行化训练研究[J].北京大学学报,2013(1):147-152.

[5]赵红改,吕学强,肖诗斌. 搜索引擎日志中“N+V”型短语分析[J].计算机应用与软件,2012,29(11):126-129.

[6]LAFFERTY J, MCCALLUM A, PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]//Proceedings of ICML, 2001:282-289.

[7]廖先桃. CRF理论、工具包的使用及在NE上的应用[OL].[2006-06-04]. http://wenku.baidu.com/view/dd36312fbd64783e

09122b9f.html.

[8]宗成庆. 统计自然语言处理[M].北京:清华大学出版社,2008.