基于条件随机场方法的汉语专利文本介词短语识别
2015-10-17李洪政晋耀红
□李洪政 晋耀红
基于条件随机场方法的汉语专利文本介词短语识别
□李洪政晋耀红
介词短语作为一种重要的短语类型在汉语中分布广泛,正确自动识别介词短语在自然语言处理的应用领域具有重要意义和积极影响。本文尝试利用目前比较流行的条件随机场模型,主要面向汉语专利文本,对其中的介词短语进行识别研究。首先在分词和词性标注的基础上对语料进行序列特征标注,然后利用条件随机场工具包训练了识别介词短语的模型,最后设计相关实验来验证方法的效果,实验准确率达到90%以上。
介词短语条件随机场识别
一、引言
专利文献在国家经济发展和科技交流中发挥着十分重要的作用。近年来,中国专利的申请数量涨速飞快。面向专利领域的文本信息处理(如专利文本机器翻译)逐渐成为自然语言处理的重要应用领域之一,并引起了学术界和业界的广泛关注。
为了满足专利文本特定的表述需要,介词短语作为一种重要的短语类型,在汉语专利文本中分布广泛。据统计,在随机抽取的500句汉语专利语料中,包含介词短语的句子有226句,占到了样本总量的45.2%。[1]可见介词短语的出现比例非常高。汉语介词短语的自动识别具有较大的难度,主要表现在以下几点:
1.介词短语的内部构成相当复杂。介词短语可以由介词与其他词语和短语(动宾短语、名词短语、方位短语、时间短语等)构成,甚至可以由整个句子构成。复杂的内部结构很容易形成远距离的搭配关系。
2.兼类介词的存在。在一定的语境下,介词还可以兼做名词、量词、形容词、连词和动词等,必须结合上下文语境才能判断具体词性。
3.在同一个句子中经常会出现多个并列的介词短语,或者会出现复杂的嵌套介词短语。
下面是一个包含介词短语的真实专利语句示例:
(1)本发明【在条件允许的情况下】【通过[为一个宏块中的不同区域]提供不同的预测信息】而提出了许多更加准确的结果。
从例句可以明显地看出,专利文本中的介词短语通常具有更多的字数和更为复杂的结构。例句中用括号标示出了两个并列的介词短语结构,其中一个的内部还有另外一个介词短语,属于嵌套结构的介词短语。正确识别这些短语就比较困难了。
在句子S=W1,W2,W3……Wn中,假设字符串Wi,Wi+1……Wj为待识别的介词短语,介词短语识别的主要任务就是分别将Wi和Wj识别为该介词短语的左右边界。由于左边界就是介词本身,因此关键问题在于确定右边界位置。介词Wi通常称为前界,右边界Wj称为后界,紧邻右边界的词语Wj+1一般称为后词。
考虑到介词短语分布的广泛性和对专利文本处理的影响,本文尝试利用条件随机场模型(ConditionalRandom Field,即CRF),主要对大规模专利语料中位于同一分句内部的介词短语进行自动识别研究,希望能做出一些有益的探索。
二、相关研究
针对汉语介词短语识别的难点,国内外学者做了大量研究工作,提出了一些有效的方法,主要包括规则方法,统计方法和将二者相结合的混合方法。梁猛杰等(2013)通过考察介词规则库的处理特点,依据规则的覆盖程度从低到高进行分类,重新调整了规则的前后排序方案,同时对排序的规则进行优选,在保证时间复杂度较低的情况下提高了介词用法自动识别的准确率[2](P152~155)。朱筠(2013)、胡韧奋(2015)等在概念层次网络理论(HierarchicalNetwork ofConcepts,HNC)[3]的指导下,面向汉语专利领域的文本,专门构建了较大规模的汉语专利语料知识库,在利用规则方法开展汉英专利机器翻译研究的过程中探索了介词短语的识别方法和思想[4][5]。于俊涛(2006)釆用基于最大熵模型的方法,通过获取有效的特征集合完成了介词短语识别的任务。奚建清(2007)引入机器学习方法,提出了基于隐马尔可夫模型(HMM)的汉语介词短语边界确定方法。首先基于HMM自动识别介词短语,然后利用依存语法错误校正方法对识别结果进行修正,取得了不错的识别准确率[7](P172~182)。胡思磊(2008)、宋贵哲(2011)、张杰(2013)利用CRF模型对介词短语进行识别,取得了较好的效果。于俊伟(2005)采用了规则和统计相结合的介词短语识别方法,提出了利用搭配模板获取可信搭配关系以及基于词性的三元统计模型和规则相结合的方法识别介词短语[11](P17~23)。昝红英等(2013)在已有工作的基础上,提出了一种规则与CRF模型相结合的介词用法自动识别算法。通过将人工书写的规则与CRF在宏观层面和微观层面进行有机的结合,根据介词的具体特点,选择合适的识别方法,使最终的识别准确率达到了80%左右[12](P2152~2157)。
三、CRF模型介绍
作为一种基于统计的判别式学习模型,CRF模型最早由Lafferty等人在2001年提出。该模型来源于最大熵模型。CRF通过计算和统计已知元素推理计算未知元素的条件概率。与隐马尔可夫模型不同,CRF可以利用上下文信息,而不需要严格的独立性假设,因此在序列标注问题中表现出很好的性能。此外,CRFs还解决了最大熵马尔可夫模型(MEMM)中的标注偏置问题。CRFs被广泛应用于自然语言处理领域的句法分析、命名实体识、词性标注等方面,并取得了很好的效果。CRFs是一种以给定的输入序列X为条件来预测输出序列Y概率的无向图(undirectedgraphical)结构模型。(X,Y)就是一个以观察序列为条件的随机域。概率计算可以通过如下公式得到:
四、基于CRF的介词短语识别
国外学者已经开发了完整的CRF模型工具包,利用工具包可以快速地训练模型并得到相应的结果。在本文中,将使用CRF++0.53版本的工具包①对中国专利信息中心提供的专利语料进行训练。
(一)序列标注
很多基于CRF模型的语块识别任务通常可以转化为序列标注问题。在识别介词短语的过程中,首先对包含介词短语的句子进行分词处理,然后对每个词语进行标注,确定介词短语的边界。我们采用{B,I,E,O}标记集进行标记。其中B表示介词短语的前界,I表示介词短语的内部成分,E表示介词短语的后界,O表示不属于介词短语的部分。
(2)本发明通过采用有效的方法提高汽车产量。
对于这个例句,可以做出如下标记:
本发明O通过B采用I有效的I方法E提高O汽车O产量O。O
将其反映到序列标注问题上,则可以认为:
输入序列X={本发明通过采用有效的方法提高汽车产量。}
相应地,输出标注序列Y={OBIIEOOOO}
(二)特征选择
特征是训练CRF模型必需的。在CRF中,特征选择是一个非常重要的问题,选择合适的特征对模型训练和测试都将十分有益。尽管可以不加限制地定义标记序列的特征,但不代表特征越多就越好。通过考察大规模语料中介词短语的特点,初步确定了以下五个特征及其属性值:
1.词特征。词作为句子的基本构成单元,是最基本的特征,模型可以通过词之间的差异性来寻找词本身的内部特征。
2.词性特征。通过分析发现,词性特征对边界的识别具有很大的提示作用。因此需要标记序列中词语的词性。本文采用北京大学《现代汉语语法信息词典》中的词性标记集进行标记。
3.候选前界特征。从当前词位置开始向前查找,查找位于同一分句中的介词。如果该介词存在,则该特征值为介词本身;否则特征值为“N”。
4.候选后界特征。如果认为当前词语可以作为介词短语的后界,则特征值记为“Y”,否则记为“N”。
5.候选后词特征。后词对介词短语的正确识别也起到了很大的提示作用,判断当前词是否是候选后词也能减小后界的选择范围。如果认为当前词语可以作为介词短语的后词,则特征值记为“Y”,否则记为“N”。
下表是例句2的标注实例:
表1:例(2)的标注样例
*注:分词序列中所有的标点符号均标注为“p”。
将以上五个特征分为五列,对分词处理后含有介词短语的每一句语料进行标注,同时在最后一列加入{B,I,E,O}标记集,以确定介词短语的边界,以此形成训练语料和测试语料。
(三)特征模板
对于CRFs模型而言,根据选择的特征设计出不同的特征模板,根据特征模板系统生成不同的特征函数,会影响系统的性能。因此,特征模板选择的好坏将直接影响CRFs模型的效果。所以,特征模板的选择也是CRFs模型在介词短语识别中的重要问题之一。
CRFs模型的特征模板一般包括原子特征模板和复合特征模板。单独使用原子特征模板,只能表现出单个位置的特征信息,容易造成期望值和实际结果的偏差较大,导致参数的估计不准确。可以对原子特征进行组合,构成复合特征模板,通过定义各特征的窗口来描述标注单元和上下文之间的关系。本文将窗口大小定义为2。即分别考虑当前词、当前词前面两个词及后面两个词的五项特征。
当完成了序列特征标注任务,就可以利用CRF工具包对模型进行训练并识别介词短语了。
五、实验及分析
(一)实验结果
在这一部分,设计实验测试CRF模型识别介词短语的效果。从中国专利信息中心提供的专利语料中随机选择了1000句含有介词短语的句子作为测试集进行序列标注。实验采用四倍交叉验证方法,即将测试集按照数量均分为4等份,其中的3份语料作为训练语料,另一份作为测试语料,共进行四次实验,分别计算实验的三个评价指标:准确率(P)、召回率(R)和F1值,并将实验的平均值作为最终的参考结果。评价指标计算公式如下:
其中,“N”代表每次实验的测试集(250句)中介词短语的数量,“N1”代表模型识别介词短语的数量,“N2”代表正确识别的数量。
表2:实验数据结果
(二)实验分析
从上表可以看出,实验的整体评价指标都达到了90%以上,表明CRF模型对于识别介词短语的有效性。
通过分析识别错误的结果,初步认为分析错误的原因可能有以下几点:
1.有的介词在训练集中出现次数很少或者几乎没有出现,因此CRF模型无法有效学习到这些介词的特征,当它们出现在测试集中,模型就难以正确识别。
2.有些介词短语具有歧义,模型不容易判断短语的右边界位置。例如:通过墨水着色剂可以有效地使染布上色。这句话中,两个名词“墨水”和“着色剂”挨在一起,不确定二者是否可以组成复合名词,不容易判断到底哪个名词才是介词短语真正的右边界。
3.CRF模型对于序列的标注特征比较敏感。在人工标注的过程中一些难以避免的标注失误或错误也会导致识别错误的现象。
六、结语
本文利用条件随机场模型尝试对汉语专利语料中的介词短语进行了识别研究。在分析大规模语料的基础上,选择了合适的特征,对语料进行序列标注,同时利用CRF工具包训练了识别短语的模型,最后设计了实验检验识别效果。实验整体的准确率达到了90%以上,表明提出的方法对于识别介词短语是有效的。
未来将加强对歧义介词短语的研究,考察更多语料,争取发现更多有效的特征,同时扩大测试规模,希望进一步提高识别的效果与性能。
(本文得到了“国家高技术研究发展计划”[863课题,项目编号2012AA011104],中央高校基本科研业务专项资金以及中国博士后科学基金资助项目的资助,特此表示感谢!)
注释:
①http://crfpp.googlecode.com/
[1]LiHongzheng,ZhuYun,Yangyang,JinYaohong.Reordering AdverbialChunksinChinese-EnglishPatentMachine Translation[A].ProceedingsofCCIS2014.
[2]梁猛杰,宋玉,韩英杰等.基于规则排序的介词用法自动识别研究[J].河南师范大学学报(自然科学版),2013,41(3).
[3]黄曾阳.HNC(概念层次网络)理论[M].北京:清华大学出版社,1998.
[4]朱筠.基本句群处理及其在汉英专利机器翻译中的应用[D].北京:北京师范大学汉语文化学院博士学位论文,2013.
[5]胡韧奋.面向汉英专利机器翻译的介词短语自动识别策略[J].语言文字应用,2015,1.
[6]于浚涛.基于最大熵的汉语介词短语自动识别[D].大连:大连理工大学硕士学位论文,2006.
[7]奚建清,罗强.基于HMM的汉语介词短语自动识别研究[J].计算机工程,2007,33(2).
[8]胡思磊.基于CRF模型的汉语介词短语识别[D].大连:大连理工大学硕士学位论文,2008.
[9]宋贵哲.汉语介词短语识别研究[D].大连:大连理工大学硕士学位论文,2011.
[10]张杰.基于多层CRFs的汉语介词短语识别研究[D].大连:大连理工大学硕士学位论文,2013.
[11]干俊伟,黄德根.汉语介词短语的自动识别[J].中文信息学报,2005,(4).
[12]昝红英,张腾飞,张坤丽.规则与统计相结合的介词用法自动识别研究[J].计算机工程与设计,2013,(6).
[13]LaffertyJ.,MccallumA.,PereiraF.Conditional randomfields:probabilisticmodelsforsegmenting andlabelingsequencedata[A].Proceedingsofthe InternationalConferenceonMachineLearning[C].2001.
(李洪政晋耀红北京师范大学中文信息处理研究所100875)