APP下载

汉语有标记并列结构自动识别方法综述

2014-08-15刘小蝶

语文学刊 2014年8期
关键词:自动识别短语边界

○刘小蝶

(北京师范大学 中文信息处理研究所,北京 100875)

一、引言

有标记的并列结构(下文简称并列结构)指的是有显性连词“和、与、跟、同、并且、且”和连接符号“、”连接的并列结构,是汉语中一种很常见的短语结构组合,能否正确地识别出有标记并列结构,对提高句子的句法分析准确率、机器翻译的质量有着重要的意义。并列结构的自动识别作为“语块的识别和分析”的一个内容,因为需要综合运用语法、语义等多方面的语言学知识,长期以来一直是语言信息处理中的难点,在自动识别研究方面的成果并不多。

从方法论的角度来说,语言信息处理中的自动识别研究可以分为基于规则的方法和基于统计的方法以及规则和统计相结合的混合方法。下面,我们将对三种方法并列结构的自动识别做个简单的介绍和评价。

二、基于规则的方法的研究

规则的方法主要依靠专家总结的语言规律,对具体的领域、语言表达格式有要求。其识别并列结构的依据是并列结构各并列项之间存在某种相似性,如中心语相似和结构平行。

詹卫东(2000)对联合式名词短语、形容词性短语和动词性短语以及动词性短语中的连谓结构分析时,却得出内部组成成分的限制条件目前还难以描述的结论。

吴文芳(2013)结合现代汉语并列结构的语言特点,提出“中心词驱动的并列结构识别策略”,该策略充分利用词性这种简单的句法信息,而基本未触及语义信息;识别时,需要用到其他短语识别结果;未详细交代如何确定左右边界集合内的若干边界中唯一一个边界。

王东波(2008)基于统计得到规则模板和并列结构候选集,对候选集匹配规则模板得出并列结构,最后,通过词形和词缀相同计算语义相似度再次筛选。此方法中获取规则模板和并列结构候选集都是基于统计的,比较简单粗糙,而目前词语语义计算缺乏量化和精确化,靠其筛选出来的并列结构错误率当然很高。苗艳军(2009)将并列结构划分为六大类,根据不同的类型制定不同的识别策略。作者对结构平行性的理解和使用局限于并列项中各词的词性序列的相似。王文和苗文中所谓的规则是根据语料库中的统计数据提取的词语序列的排列,本质上并不是真正的基于规则的方法。

三、基于统计的方法的研究

基于统计的方法主要依靠各种模型识别并列结构,其健壮性和灵活性比较好,不需要太多的人工干预领域知识,随着计算机技术的进步,语料库规模的不断扩大,统计的方法在并列结构的自动识别中逐步得到应用。

周强(2003)依据汉语中的一个基本假设:“词性相同、结构相同、语义类相同、音节数相同的项并列是最理想、最严格的并列”,通过基于动态规划的最佳路径选择和路径评分阈值的限制判断识别并列结构。此文中的假设是典型的、理想的并列结构形式,对并列成分的长度有着强烈的要求,且路径基本分的计算是词语对相似度评分的简单累加,当处理真实文本中很多非理想的并列结构或者较长的句子时,该算法难以发挥作用。

王东波(2008)使用条件随机场模型(CRF)把有标记并列结构自动识别的任务看成文本中词语与词性序列选择标记、确定边界的过程。但特征是基于CRF的有标记并列结构自动识别的核心,特征选择的好坏将影响CRF模型识别的性能。此模型对简单的并列结构识别效果不错,因为条件随机场的训练和解码的开源工具还只支持链式的序列,尚不支持复杂的序列,而且训练非常耗时。

苗艳军(2009)采用最大熵模型通过给并列结构每个词设置一个标记就可以将识别问题转化为分类问题加入了错误驱动学习的方法,针对最大熵模型标注的错误部分进行改进。吴文芳(2013)利用基于支持向量机(SVM)模型将识别任务仍视为一个分类问题,此模型在嵌套并列结构、多并列项并列结构、单个词并列结构中识别错误率很高。吴文在比较了基于规则的方法后,证明基于支持向量机(SVM)模型方法效果不如基于规则的方法。苗文和吴文中的模型都需要选择合适的特征训练,此模型只对简单的并列结构识别效果显著。

四、统计和规则相结合的方法

苗艳军(2009)提出了一种统计和规则相结合的对并列结构的边界进行识别的方法。该方法先从含有并列结构的句子中学习一个最大熵概率模型,然后以此概率模型为基础对句子中的每个词进行边界预测,从而得到一个边界预测序列。其次根据并列结构的特点建立了规则库,用这些规则对边界预测序列进行再处理,得到最终的并列结构的边界。该方法先是基于统计在简单的并列结构方面处理得较好,其次用规则加以修正,提高了简单并列结构的识别的正确率。

五、结束语

本文简要地介绍了近年来在并列结构自动识别领域出现的一些有代表性的方法和实践,基于规则和统计的方法各有劣势:基于规则的方法往往依赖专家知识、具体的领域、语言表达格式,可移植性差,并且规则不能涵盖所有的并列结构现象;基于统计的方法对训练语料中并列结构的特征和并列项长度有强烈的依赖和限制,提取的特征主要使用词语、词长、词性等,对于构成略微复杂的并列结构来说,这些特征并不能有效解决识别问题。

目前,不管是基于规则的方法还是基于统计的方法存在的问题是对并列结构的分析不够深入,具体表现在:1)对词类知识有强依赖,因此正确的词语切分和词性标注是并列结构准确识别的前提,尤其是并列标记“和/与”是连词和介词的兼类,其正确性直接影响并列结构的识别的结果。2)较少涉及语义信息,多使用字符串的词形或词缀相同。

并列结构的正确界定需要依据并列成分的结构特点和语义关系等信息,这两项问题的解决需要努力的方向:1)对并列结构深入研究,深挖并列结构的规律。2)开发一套系统的公认的现代汉语词汇语义分类体系或词汇语义表示体系。3)开发大规模、高质量的标注多种信息的能够共享的汉语语料库。

[1]吴云芳.面向中文信息处理的现代汉语并列结构研究[M].北京师范大学出版社,2013.

[2]吴云芳.并列成分中心词语义相似性考察[J].当代语言学,2005(4).

[3]吴云芳.动词性并列结构的结构平行[J].语言科学,2004(6).

[4]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[M].清华大学出版社,2000.

[5]王东波.基于规则的单层单标记并列结构自动识别[J].文教资料,2008,29~31.

[6]王东波,陈小荷,年洪东.基于条件随机场的有标记并列结构自动识别[J].中文信息学报,2008(22).

[7]苗艳军.汉语并列结构的自动识别[D].苏州大学,2009.

[8]周强.汉语语料库的短语自动划分和标注研究[D].北京大学,2003.

[9]王东波.有标记并列结构的自动识别[D].南京师范大学,2008.

[10]苗艳军,李军辉,周国栋.统计和规则相结合的并列结构自动识别[J].计算机应用研究,2009(26).

猜你喜欢

自动识别短语边界
基于数据挖掘的船舶航迹自动识别系统
拓展阅读的边界
探索太阳系的边界
意大利边界穿越之家
基于卫星遥感图像的收费站位置自动识别与校核
船舶自动识别系统对船舶救助的影响
论中立的帮助行为之可罚边界
自动识别系统
《健民短语》一则