APP下载

浅谈中文篇章级句间语义关系及标注

2019-03-07李雨欣

考试周刊 2019年16期

摘 要:中国文化博大精深,汉字的发展在中国更是有着几千年的辉煌历史。在历史的发展进程中,以汉字形成的中文篇章往往以句间语义关系的复杂性,更加具有丰富的内涵。篇章句间关系作为中文篇章语义分析的重要内容,具有自身的特点,通过对中文篇章句间关系层次化语义关系进行合理分析,能够有效对句间关系进行理解描述。本文从中文篇章级句间语义关系及语料标注角度出发,提出几点自身的见解。

关键词:中文篇章级语义分析;句间关系;语料标注

近年来,随着中文在世界的影响力逐渐加强,语言文化的研究热潮逐渐兴起,而中文篇章级句间语义的强大,给现代自动化系统中的自动分析及问答、文本质量及内容评价带来诸多的不便。对于篇章级句间语义关系及标注是语义分析的重要内容,本文通过中文篇章级句间关系的语义分析方法,简单分析并介绍中文的语义关系的含义,通过对于中文篇章语义关系及标注中存在的问题,提出了自己的建议。

一、 篇章级句间语义关系的含义

在中文篇章级句间语义关系及标注上,首先应明确篇章级句间语义关系的含义。首先,篇章的组成并不是简单的词组及句子间的简单罗列,它更强调一种逻辑思维性。在我们日常接触到的篇章中,都是通过将一定的信息进行整合后按照结构进行密切组织。通常,将一定的信息按照不同的组织结构进行组织,往往会产生不同的语义。例如,对于句子:“那个小女孩跑了起来,结果那只狗跟上叫了起来。”“那只狗跟上叫了起来,结果那个小女孩跑了。”在这段话中,前者强调小女孩的跑动引起了狗跟上并叫了起来,而后者强调是狗跟上并叫了起来,所以小女孩才会跑掉。从语义关系来看,两者所体现的主体含义并不相同,由此可见句子间的组织结构影响着逻辑上的语义关系。

二、 面向中文的篇章级句间语义关系

(一) 语义单元的切分

通常在理解整个篇章时,需要把握每个组成篇章的句子的含义。而要充分理解一句话、一个句子的含义,就需要将句子分解为更小的语义单元,在充分理解每个词组、词语的含义上,理解一段话,最终通过了解各个句子的含义结合篇章的整体结构,理解篇章的整体思想及所要表达的主旨含义。因此,对于基础的把握即对于基本语义单元的理解就格外重要。中文基本的语义单元从组成上来看可分为以下几种:中文单词;由词组组成的短语;由短语连成的从句;进而组成的完整的句子;最终通过文本块组成全部的篇章。

(二) 语义树的构建

国内对于基本语义单元的分析通常通过语义树来实现。从语义树来看,动词短语组成了最基本的语义单元,当简单从句中仅包含一个基本的语义单元时,这个简单从句同样可以作为一个语义单元。当基本的语义单元组合在一起时,同样可以生成一个语义单元。而从每个句子至少包含一个语义单元来看,篇章级的句间关系往往就存在于语义单元间,当然,整个关系是在相同层次的语义单元作用下形成的。

三、 基于篇章级语义标注的分析及解决对策

(一) 语义标注中存在的问题

1. 信息及内容的缺失

目前,中文本身所表达的语义是非常丰富的,从语义的组成来看,其组织方式灵活多样,同英文不同,相似关系的词组间可表达出丰富多彩的含义。因而在对于计算机标注过程中,会出现诸多困难。首先便是句法成分问题导致的信息缺失。在日常的语义中,中文篇章中往往存在较多的短句,这些短句虽不完整,但所隐藏的含义却是可以通过人工标注进行理解及感悟,而基于计算机的角色标注却无法完成。这些短句虽不完整,但却有着完整的语义,在现代的计算机高速发展下,是否将这些元素参与到篇章构成中值得去思考。

2. 歧义关系的存在

中文语义关系是复杂的,这也导致组成中文篇章的复杂性,语义表达方式上的丰富多样性,注定了其具有歧義性的特点。中文篇章中存在较多的歧义语义,举例来说,“××唱片公司自成立以来,仅占整个唱片公司市场份额的0.05%,目前仅有一少部分群体购买该公司的唱片”。前面的一句更多的是阐述的事实。而“目前仅有一少部分群体购买该公司的唱片”更多的是介于“解释说明”及更进一步的“递进关系”之上,带有一定的歧义关系。而如何解决这一问题更值得研究学者的思考。

3. 句法与语义关系是否属于篇章级句间关系并不明确

在中文篇章中,通常会包含多个分句,这些分局作为多个语义的组成,往往具有并列的属性,对行文的开展具有良好的推动及促进作用。在计算机的语义标注中,往往会出现对于句法的模糊概念,即无法通过篇章句间关系进行有效处理。

(二) 篇章级语义标注的解决对策

1. 加强中文篇章句间语料关系标注及语料库的构建

语料关系及语料库构建更像是一个大的数据库,而通过这一数据库的建设,可以丰富中文篇章语料标注中的数据分析,当出现类似的语料关系或语料关系相近时,通过语料关系库中的标注组合,实现语料关系的自动识别及构建。

2. 加大学术研究力度,实现语义分析器的设计与实现

例如,句子:“【快乐是人的本性】,【但是】,【【我们要想一直快乐】,【一定要保持乐观的心态】】”。这段句子中,由3个基本的语义单元组成,通过这三个语义单元的相互逻辑关系,加上【但是】这一转折关系,组成了整体的句子,而“【【我们要想一直快乐】,【一定要保持乐观的心态】】”这一语义单元又由两个基本语义单元组成。通过语义单元的递推关系,往往能够更好地理解句间语义关系,进而用递推的方式理解整个篇章。通过加大学术上的科研力度,创建语义分析器,可实现语义的自动标注。

3. 构建中文篇章句间关系类型及句间关系元素的自动识别法

构建中文篇章句间关系类型及句间关系元素的自动识别法是一个漫长的过程。例如,针对句法及语义关系可以通过添加相应的句法关系类别。又如,对于中文短句,允许其作为整体元素进行出现,近而判断语义的完整性,还可以通过建立多级语义关系嵌套方式实现句间关系元素的自动识别。

四、 结语

中文篇章级句间语义关系及标注具有一定的复杂性,其研究与发展存在一定的艰难性,不过在充分把握篇章级句间语义关系的基础上,合理看待篇章语义标注上的难题,定能引导中文篇章级句间语义关系及标注走向成功。

参考文献:

[1]姬建辉.中文篇章级句间关系分析[D].哈尔滨:哈尔滨工业大学,2014.

[2]张牧宇,秦兵,刘挺.中文篇章级句间语义关系体系及标注[J].中文信息学报,2014,28(2):28-36.

作者简介:

李雨欣,辽宁省朝阳市,辽宁省朝阳市第二高级中学。