句法分析和结构识别研究综述
2022-11-25陆昊翔
陆昊翔
南京农业大学信息管理学院 江苏 南京 210095
引言
人工智能研究领域针对文字领域的自然语言识别,是目前最重要也是最困难的研究点。句法分析和语言结构识别作为自然语言处理的基础任务,具有重要的研究意义,只有提高对句法语言的分析能力,提高对自然语言的功能结构块识别效果,才能不断推动自然语言处理向前发展。
针对句法分析和结构识别的研究主要分为两个大方向,第一个是以熊仲儒[1]为代表的理论研究者,研究人员主要注重对句法分析和结构识别的数据库建设和机器学习模型构建;第二个是以赵铁军[2]为代表的识别及应用技术研究者,该方向的研究主要注重结合最新的计算机技术提升句法分析和结构识别效果,并在不同的研究领域提高计算机模型的应用,开拓应用场景。
在“中国知网”(Cnki)数据库中,以“‘句法分析’OR‘结构识别’”为检索式,选择“篇名”为检索依据,限定检索时间为“2000年1月1日”至“2021年12月31日”,共得到1014条检索纪录。在Wos数据库中,选择“论文核心库”,以“‘syntactic analysis’or‘syntactic analysis’”为检索式,选择“标题”为检索依据,限定检索时间为“2000年1月1日”至“2021年12月31日”,选择检索“Web of science类别”为“Computer Science”“Linguistics”和“Information science Library science”,共得到484条检索纪录。对相关文献的内容理解的基础上,分别总结了句法分析与结构识别的理论构建和各类机器学习研究方法。
1 句法分析和结构识别的理论构建
理论研究和相关数学模型的探究是句法分析的发展基础,专家和学者在已有基础理论的基础上,分析并提出了句法分析理论体系,并借鉴相关领域数学模型构建了句法分析模型。
1.1 树库和数据标注体系建设
在句法分析和结构识别研究中,数据标注是所有下游任务的基础,在基于传统的机器学习数据标注要求的基础上,研究人员开展了更加深入的标注体系建设研究,如党政法,周强[3]结合国内多种数库标注体系,基于清华汉语树库标注体系,提出一种将短语结构转换为依存结构的算法,简化了不同标注体系间数据转换过程。
在保证数据标注的有效性前提下,树库的建设成为句法分析和结构识别任务的重要方式,研究人员的研究重点同时放在了树库建设和树库有效利用方向。周惠巍、黄德根[4]等在构建了大规模短语结构数库和依存结构数库的基础上,制定了中心子节点过滤表,可实现短语结构和依存结构间的互相转换,该研究为领域内高价值数据树库建设做出了重要贡献。在此基础上,沈思[5]等在清华汉语树库的基础上,利用时间表达式的内外部特征,基于条件随机场构建了时间表达式抽取模型。研究人员在实际任务中展示了树库的高价值性,证明了有效的数库资源可以提升研究人员的实验结果,为后续的数库建设提供了实用性参考意见。
1.2 句法分析和结构识别模型构建
句法分析和结构识别是基于语言学和计算机科学等其他多学科知识的复杂任务,一直以来解决该任务的核心方法都是基于机器学习模型,而此类机器学习模型需要根据特定的数据、任务和要求进行多样化研究。研究人员通过各自实验分析,逐步构建起具有较强普遍适用性的机器学习模型,提高了句法分析和结构识别的效率。
一方面,研究人员的主要研究方向是基于传统的语言学或信息学理论,融合数学和计算机理论知识,逐渐在各自的研究任务中使用机器学习模型,验证模型的有效性,如王厚峰和王波[6]基于语句相似度计算结果,提出了汉语句法结构自动推导的方法,实现了优于以往研究结果的效果。
另一方面,部分研究人员将探究方向投向了“依存句法”,逐渐基于汉语依存句法研究多模式的分析模型。在这类研究中,部分研究者致力于提出新的语言分析模型,如刘挺[7]等对应用句法结构和词汇化这两方面进行句法分析建模进行了探索,提出了基于词汇支配度的汉语依存分析模型。还有些研究人员的实验重点为改进已有的依存句法分析模型,提出更优的解决方案,如段湘煜[8]等通过对比试验得出决策式依存句法分析模型具有贪婪性这一结论,并提出基于动作建模的依存分析模型对决策式的贪婪性进行了改善。
2 句法分析和结构识别的方法研究
在已有树库和依存句法结构的基础上,采用基于规则和统计的传统方式对小规模数据进行浅层句法结构识别和总结,构建基本的句法分析方式库。目前国内外已有数量可观的针对句法分析的方式方法研究,无论是传统的统计方式还是基于机器学习的识别方法,都对自动句法分析器的发展起到了重要推动作用。
2.1 基于规则和统计的识别方法
在机器学习方法没有大范围普及之前,基于传统的规则匹配和概率统计分析的方法取得了不错的发展和研究。这类方法主要分为两类,一类是基于概率计算,统计计算字、词和句子的上下文无关概率,对句子进行句法结构分析和识别,如李幸[9]等引入标点来分割长句并从大型树库中提取囊括所有标点的语法规则及其概率分布,提出了一种层次化长句句法分析方法,该方法提高了处理长句的效率并减少了歧义。另一类方法则是基于规则的匹配模板,在实验前基于目标要求和数据情况,制定匹配模板,该模板将用于后续所有数据的匹配识别,如吕雅娟[10]等以中英双语对齐语料库为基础,利用英语句法分析结果提取汉语组块边界信息和相关句法规则,充分利用了英语句法的研究成果。
2.2 基于传统机器学习的识别方法
计算机硬件技术和机器学习方法不断成熟后,传统的规则匹配和概率计算识别方法渐渐被取代,机器学习识别方法效率高且准确度高,逐渐成为研究人员的重点研究对象,并取得了飞速发展。在该研究过程中,主要分为三类研究,第一类研究集中在改进原有机器学习方法,如针对句法的歧义问题,冯志伟[11]介绍了两种改进方法:一种是给上下文无关语法的规则加上概率,即概率上下文无关语法;另一种则是概率词汇化上下文无关语法,它考虑了中心词对概率的影响。与此同时,部分研究人员将研究重点放在提出新机器学习方法上,如刘世岳、李珩[12]等提出一种在一致性基础上的co-training选取方法,即将隐马尔可夫模型和基于转换规则的分类器组合起来,并在大规模未标注语料上取得了更好的中文组块识别效果。
第二类研究重点是在多任务情境下实现机器学习方法的句法结构识别,其本质是机器学习方法的应用和使用场景拓展,其中“语义消歧”成为重要研究方向,如徐艳华[13]等针对自动句法分析中的“V+V”结构序列提出了一种消歧办法,该消歧策略旨在减轻对其他知识的依赖,在实验中取得了一定消歧效果。
第三类研究则重点考量了“语义”这一核心内容,将“语义”作为机器学习实验前的重要步骤,包括浅层句法和语义分析和部分语义功能结构的模板建设。如王金铨、梁茂成[14]等综合利用N-gram方法和空间向量模型,对语义相似度计算领域中的语言形式和语言意义两个进行了深入研究。
将传统的规则模板和机器学习方法结合起来,也取得了不错的识别效果,如朱丹浩[15]等基于汉语介宾结构内外部语言特征的分析建立特征模板,结合条件随机场模型实现五千套介宾结构的自动识别。
3 结束语
本文通过对2000年至2021年间的Cnki和Wos数据库进行文献检索,分别获得了1014篇和484篇中文、外文期刊文献,从多角度分析了与句法分析和结构识别相关的论文数量情况,通过对高被引论文和核心期刊论文的内容进行深层次解读分析,分别从“句法分析和结构识别的理论构建”和“句法分析和结构识别的方法研究”两个主要方面对该领域研究进行总结梳理。
对检索出的共1498篇相关论文进行总结分析,共得到以下几点结论:①针对数库的理论和方法研究已经较为成熟,近几年未出现较为重要的研究成果。②基于机器学习的识别方法几乎全面取代了基于规则和统计的方式,但结合传统匹配模板的机器学习方法能够取得更优秀的识别效果。③在机器学习模型基础上的应用场景拓展研究越来越多,较为典型的方向包括机器翻译、共指消解等。
总的来说,基于机器学习方式句法分析和结构识别将继续是未来重要的研究方向,且研究场景将会更加的实际化、多维化。