APP下载

基于特征结构理论的彝语主谓谓语句结构标注与实践研究

2022-06-28田宣宣

西昌学院学报(社会科学版) 2022年2期
关键词:彝语三元组信息处理

田宣宣

(西南民族大学 a.民族语言文字信息处理重点实验室;b.中国语言文学学院,四川 成都 610041)

一、引言

语义分析是指获取包括字、词、句子、篇章等各级语言单位的语义信息。 在自然语言处理领域,语义分析主要包含两类任务:一是语义结构分析,旨在探讨语义基本单位及其组合规律;二是语义内容分析,即识别这些语言单位所描述的实体、事件及各种关系,包括实体间关系、事件与实体间关系和事件间关系等[1]。 自步入信息化时代,如何从原始数据出发对其语义结构和语义内容进行规范和标注,并结合预训练的语言模型,实现有效、深入、自动的语义分析,是适应更为深入地研究语言和自然语言处理系统的根本要求。 于是,“计算机语义标注”和“计算机语义理解”等概念接踵而来,大规模真实文本处理迫切需要建立一套适合本民族语言的语义标注体系,使其以一种精度高、形式化、可计算的方式呈现出来。

彝语属于汉藏语系藏缅语族彝语支,共有六大方言区,是彝族人民思想交流、信息传播和文化沟通的重要工具。 彝语言文字信息处理是用计算机对彝语语言的音、形、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工[2]。 目前,彝语言文字信息处理的理论和技术在字、词层面的分析比较成熟和完善,语义层面上对知识资源的挖掘不断深入,并在应用开发中逐渐达到实用化水平。 然而,随着彝语信息化进程的迅速发展,彝语自然语言处理对语义知识的需求越来越迫切,面临着对真实文本的语义进行深层次标注和分析的问题,这是制约彝语语义资源信息数据库建设和计算机语义理解的主要难点之一,阻碍着计算机彝文信息处理向智能化、深层次分析的方向发展。 因此,亟须探索一种适合彝语独特特点的语义描写机制,完善计算机彝文信息处理技术的语义标注模型和理论,基于此面向真实文本构建大规模彝语语义标注资源,实现彝语语义知识描写的形式化和规范化,为彝语言文字信息处理中的语义消歧、语义知识抽取、信息检索、自动问答、文本蕴含及机器翻译等领域提供语言学知识和数据资源。

特征结构是描述某些语言学实体局部信息的一种表示方法,也是用于把信息约束加到可以接受该信息的语言学实体的一种方法[3],对于彝语自然语言标注和处理具有重要的启发意义。 本文尝试借助特征结构理论对彝语主谓谓语句进行语义标注,分析彝语主谓谓语句的内部语义关系和语义标注模型,探讨适合彝语语言事实的语义表示形式和有效的语义分析策略,为面向信息处理的大规模彝语语义资源建设提供一个全新的视角。

二、彝语主谓谓语句的特征结构标注思路

(一)理论支撑

1.主谓谓语句

在语言学界,主谓结构谓语的格式是汉语里最常见最重要的现象之一[4],由此构成的“名1-名2-动”这种陈述关系层层套叠的句式,一般都称为“主谓谓语句”[5]。 它的一般语形可以表示为:S1+S2+V/A,其中,S1 指全句的主语,也称为“大主语”,S2+V/A 是整个句子的谓语,被称作“大谓语”,S2 充当主谓短语的主语,也称作“小主语”,V/A 是主谓短语的谓语,被称作“小谓语”。 主谓谓语句的研究成果十分丰富,焦点主要集中在对其范围、句法特点与功能、配价模式的分析上。 由于主谓谓语句的句子成分之间存在着复杂的语义关系,对其语义类型的划分也是一项重要的研究内容。 朱德熙[6]在《语法讲义》中将主谓谓语句分出了七种语义类型;黄伯荣、廖序东、陈昌来等[7]根据大主语和小主语之间的语义关系对汉语主谓谓语句进行了比较详细的分类;袁毓林、张旺熹、吴中伟等一些学者也从不同角度对主谓谓语句展开了较为全面的语义分析[8-10]。 总体来说,学界对主谓谓语句这种特殊语言现象的描写研究比较透彻,但随着信息处理技术的发展,这些成果对于应用于计算机理解自然语言还存在相当的困难,于是,一些学者对这类语句进行了句法和语义的形式化研究。 缪建明、张全[11]尝试在HNC 理论下,从计算角度形成主谓谓语句特有的处理规则和专家处理系统;姚从军、罗丹[12]借助组合范畴语法实现了汉语主谓谓语句的句法和语义的推演;陈禹[13]基于“基线/加工”理论模型分析了主谓谓语句的语言组构模型等研究为计算机处理主谓谓语句提供了丰富的理论支持。

彝语中也存在着大量的主谓谓语句,如《凉山彝语语法》和《现代彝语概论》中将该类句式定义为一种以主谓词组作谓语的句子,谓语主要是说明或描写主语的[14-15];《现代彝语》强调主谓词组做谓语具有陈述作用[16];另外,陈国光、胡素华等也对彝语的主谓谓语句进行了实例分析。 该类句式形式比较灵活,语义关系复杂,具有特殊的表意功能,给彝语言文字信息处理研究带来了较大的困难。 因此,如何从信息处理的角度对彝语主谓谓语句进行语义标注和形式化分析,是面向计算机彝文信息处理中语义资源建设的不可缺少的一项基础性工作。

2.特征结构理论

在语言学理论和自然语言处理领域,国内外学者都对“特征结构”进行过讨论。 “特征”最初是语音学中用来描述语音的方法论[17]。 早期,布拉格学派把音位作为一组区别性特征来分析,“+”表示具有某个特征,“-”表示不具有某个特征。 每个音位由若干区别性特征组成,如汉语音位/p/由[+双唇、+清音、+送气]等特征结合而成,其他音位至少有一个特征与/p/相区别,由此看来,特征是音位学分析中的最小单位。 雅可布逊等人把声学语音学的成果应用到音系学分析中,提出了区别性特征的理论,认为任何语言的语音中都存在若干最小区别性,并根据发音状况把语音的区别归纳为十二对特征,这些特征旨在揭示音位对比,本质上都具有偶值性质。 通过这一套区别特征和一套音系学规则,可以对各种语言的语音系统作出分析归纳和描写说明[18]。 乔姆斯基和哈勒对十二对特征进行了增减[19],之后这些区别性特征在不同的语言中有不同的增减变化,一些学者也用不同的特征去分析同一种语言。

20 世纪50 年代,句法学中有人尝试用特征来描述句法结构。 Chomsky[20]在倡导的理论中进一步推广使用了“特征”一词,形式句法理论(如LFG 和GPSG)采用的复杂特征集类似于特征结构的描述机制,对语言实体进行精确的描述和自然语言的最终建模。 冯志伟[3]详细介绍了特征结构和把特征结构的信息内容结合起来的合一运算,指出特征结构是特征-值偶对的集合,其中特征是来自某个有限集合的不可分析的原子符号,而特征的值或者是原子符号,或者是特征结构,此外他还提出,特征结构可以类型化,通过类型化的特征结构把约束放在给定特征结构能够取值的类型上,也可以把它们组织到类型层级体系中,以捕捉一般化的东西。 Witt等[21]展示了如何用TEI 标记集来表示特征结构,以作为语言注释资源的元表示格式,认为特征结构是当今坚持不同语法理论的语言学家之间的一种常见的表示形式,用TEI 标记集来表示特征结构可以为后续算法处理开辟新的可能性,是语言数据可持续性研究和保存工作的一部分。

20 世纪80 年代,汉语语法研究领域中开始用特征进行语义分析,提出了“语义特征”的概念。 学界普遍引用和接受的是陆俭明的观点,认为语义特征着眼于分析概括同一句式的各个实例中处于同一关键位置上的词所共有的语义特征,以说明某些句式的独特特点[22]。 他还指出语言研究要满足“数字化”要求,以便于计算机存储、计算,那么语言和语言研究成果的各个层面、各种单位、各种规则的性质都必须用“特征”来加以呈现[23]。 2007 年武汉大学语言与信息研究中心尝试用特征结构理论进行语义标注的研究工作。 2014 年《特征结构及其汉语语义资源建设》一书提出的特征结构语义描述模型和建构的大规模语义资源库在语义研究、自然语言处理等方面得到了广泛应用。 特征结构理论是一种实用的语义分析策略。 一般来说,一个短语或句子可表示成一个由实体、特征和特征值组成的三元组集合,这个集合称为该短语或句子的特征结构,找出短语或句子中词与词之间的语义关系并完整地描述出有语义关系的词语对,是特征结构的根本任务[24]。 特征结构有三种属性:第一,它允许语义的多重关联和交叉关联,即一个词可以和多个词产生语义联系;第二,它允许递归和嵌套,即允许短语或句子的内部结构作为一个整体和其他词语产生意义关联;第三,它可以用特征结构图来表示,是一种用概念和语义关系来表达知识的无向图。

(二)语料资源

本研究选用的语料均源自西南民族大学民族语言文字信息处理研究中心历年来完成的国家自然科学基金项目、国家社会科学基金项目、教育部项目等所收集、整理的彝语语料,且主要以喜德语音为标准音,以圣乍话为基础方言。 根据研究需要本文对语料进行调整,筛选出186 个彝语主谓谓语句,其中,大主语、小主语和小谓语等组成部分之间的语义关系比较复杂。 本文并不试图判定彝语主谓谓语句究竟有多少语义关系类型,而是探索用特征结构理论分析该句式的可行性,研究面向彝语自然语言处理的语义表示方法。 对这186 个语句进行语义关系划分,大致有十一种类型,如表1 所示。

表1 彝语主谓谓语句语义关系分类表

(三)研究方法

1.特征结构三元组表示法

语言的形式化实际上就是用一套符号体系对研究对象进行抽象的方法[25]。 特征结构用来刻画句子的句法结构和语义特征,形式上可以将各种语义特征用三元组描述,即[实体,特征,特征值],例如:

分析所得特征的三元组表征方式具有以下特点:1)便于计算机处理和表示;2)一对语义关联对应一个特征三元组;3)不存在游离于关系之外的成分,有语义关系的词都要标注;4)对词与词之间语义知识的描述直观、自然、完整;5)三元组中,特征和特征值都可为实体;特征词可以不出现,需根据具体语言问题设计特征词表;特征值本身可以成为一个特征结构[25]。

2.特征结构图表示法

在计算语言学中,广泛使用的一种形式模型是图,图的主要元素是节点和边。 一个特征三元组可看作两个“点”和连接它们的“边”,其中的“节点”表示实体或特征值,“边”表示特征。 特征一定是某个节点的特征,这个节点就作为特征拥有者,另一个节点就作为特征值[26]。 于是一个特征三元组集合可表示为一个特征结构图,如图1 所示。

图1 特征结构图

图1 两个图同形,表现方式不同,反映了实体A和特征值C 之间的语义关系,实线表示实体A 的特征B 的值是C。 例如:

它的特征结构如图2 所示。

图2 例[14]的特征结构图

特征结构图具有以下特点:1)特征结构图是一种不对称的无向图,动态描述语言成分的组合过程;2)各种语义关系之间可以出现交叉、循环、多边和回路现象;3)每个节点都为句子或短语中的词;4)图示是一种抽象概念的形式模型表示,是构成树库的基本元素;5)语义信息丰富,为计算机语义分析解决语义知识表达问题。

三、彝语主谓谓语句的特征结构标注实例分析

(一)彝语主谓谓语句特征结构标注举例

如上所述,研究确定了彝语主谓谓语句的十一种语义关系类型。 下文主要依据特征结构理论对各种类型的主谓谓语句语料进行语义标注,然后从标注结果中选取11 个句子为考察对象,细致描述其特征结构三元组和特征结构图。 分析结果如下:

(1)第一种类型的特征结构标注分析

表2 例[1]的两种标注结果

(2)第二种类型的特征结构标注分析

表3 例[2]的两种标注结果

(3)第三种类型的特征结构标注分析

表4 例[3]的两种标注结果

(4)第四种类型的特征结构标注分析

表5 例[4]的两种标注结果

(5)第五种类型的特征结构标注分析

表6 例[5]的两种标注结果

(6)第六种类型的特征结构标注分析

句中大主语是表时间的名词或短语,大谓语是对大主语的陈述说明,其特征结构三元组和特征结构图如表7 所示。

表7 例[6]的两种标注结果

(7)第七种类型的特征结构标注分析

句中大主语是表处所的名词或名词短语,大谓语是陈述说明大主语,其特征结构三元组和特征结构图如表8 所示。

表8 例[7]的两种标注结果

(8)第八种类型的特征结构标注分析

表9 例[8]的两种标注结果

(9)第九种类型的特征结构标注分析

表10 例[9]的两种标注结果

(10)第十种类型的特征结构标注分析

表11 例[10]的两种标注结果

(11)第十一种类型的特征结构标注分析

表12 例[11]的两种标注结果

(二)彝语主谓谓语句的特征结构模型

进行语言信息处理研究,其中一项至关重要的基础工作就是建立自然语言的“语言模型”,以便于计算机能对其进行相应的分析与计算[27]。 根据对彝语主谓谓语句的特征结构分析结果可以发现,在十一种彝语主谓谓语句中,大主语、小主语和小谓语之间的语义表征存在共性,因此,一些类型的彝语主谓谓语句具有相同的语义关系表现形式,论文研究经归纳概括,整理出了彝语主谓谓语句的四类语义模型,如表13 所示。

表13 彝语主谓谓语句特征结构模型

四、结论与展望

彝语信息处理需要有什么样的语义知识? 应借助哪种理论实现彝语语言知识资源的形式化表达? 这是彝语言及其信息化、智能化研究当前面临的重要问题,本文基于特征结构理论,尝试将特征结构三元组和特征结构图的语义标注方法应用到彝语主谓谓语句中,并根据标注结果建立彝语主谓谓语句的语义表示和分析模型。 实践结果表明,该理论可以比较完整地将彝语句子中所有具有语义关系的词联结起来,其直观的句子形式模型描述方式蕴含丰富的语义信息,是存储知识的基础,是语言分析和理解从语义到形式的基点,能够为研究有效的彝语语义标注策略和彝语的形式化表示提供一个可参考的解决方案,同时为彝语语言资源知识库的建设和应用研究提供一个理论框架和可行性思路,对推动计算机彝文信息处理向智能化方向发展奠定了良好的资源基础。

猜你喜欢

彝语三元组信息处理
东营市智能信息处理实验室
纳苏彝语越南语亲属称谓特征及其文化内涵异同研究
访大凉山悬崖村
基于Revit和Dynamo的施工BIM信息处理
特征标三元组的本原诱导子
新中国成立以来的彝语研究概述
楚雄禄丰大三家村彝语语音系统及其特征
关于余挠三元组的periodic-模
地震烈度信息处理平台研究
一个时态RDF存储系统的设计与实现