APP下载

从转移类概念看HNC对概念依存理论的扩展

2017-06-10

红河学院学报 2017年3期
关键词:基元表达式语义

祁 琪

(解放军外国语学院,河南洛阳 471003)

从转移类概念看HNC对概念依存理论的扩展

祁 琪

(解放军外国语学院,河南洛阳 471003)

概念依存理论和概念层次网络(简称HNC)理论都是面向自然语言理解的理论体系,概念依存理论通过语义基元和概念间的关联来描述和分析自然语言,对HNC理论设计语义网络有很大的启发,尤其是概念依存理论对转移类概念的深入研究,为概念层次网络中语义网络和句类知识的设计和构造提供了不少宝贵经验。从这两种理论对转移类概念处理的对比分析入手,研究HNC理论对概念层次网络的借鉴及扩展。

概念依存理论;概念层次网络(HNC);转移类概念

引 言

自然语言理解的本质是对自然语言的词汇、句法、语义等各方面进行形式化描述,使其能够被计算机理解和处理。其中最突出的问题是对语义的理解,如何对语义信息进行清晰准确的形式化表达是目前自然语言处理发展的瓶颈。Schank提出的概念依存理论(Conceptual Dependency Theory,简称CD理论)对语义的理解不同于传统语言学先进行句法分析再将句法结构形式化的方法,而是主张将句法、语义和推理相互融合的一体化(integrated)处理模型,更接近于人脑对自然语言的理解过程。概念层次网络(Hierarchical Network of Concepts,简称HNC)理论以概念联想脉络为主线,建立了一种模拟人脑感知语言过程的表述模式和计算机理解处理模式,其设计思想有一部分来源于概念依存理论。其中,概念依存理论对于转移类概念的研究尤其对概念层次网络中转移概念二级节点的设计有很大启发。本文将分别就这两种理论对转移类概念的分析和处理进行对比研究,从处理的异同中阐释HNC理论对概念依存理论的吸收和扩展,从而对自然语言的语义处理有更深的理解。

一 转移类概念的定义

“转移”的基本释义是事物从某处移动到另一处,这里的事物可以是具体物,也可以是抽象物(如信息)或精神上的,移动的实现可以是通过外力推动,也可以是自身的移动。例如,“张三把茶几移到墙角”是表示物的被动移动,“张三从家跑到了学校”是“张三”自身的位移,而“张三把好消息告诉了李四”就表示信息的转移。对转移概念的描述主要包括以下几个要素:一是转移概念本身,二是转移的物或信息,即转移的内容,三是转移内容的接收者。此外,转移概念中还可能包含有转移的起点、终点和途经(路径或中转点),转移的起点和终点可以与转移的发出者或接收者重合。

二 概念依存理论

(一)概念依存理论概述

概念依存理论(Conceptual Dependency Theory,简称CD理论)是由美国计算语言学家R. Schank于1973年提出的,主要用于描述自然语言中短语和句子的意义。

概念依存理论的核心是三大基本原理:(1)对于任意两个意义相同的句子,即便它们属于不同的语言,语义表达式也是相同的;(2)蕴涵在一个句子中的任何为理解所必须的信息都应该得到显式的表达,这样的显式表达式一般描述为概念依存表达式,即将概念表达式化(conceptualization);(3)在句子的意义表达式中,必须尽量把隐晦地蕴含在句子中的信息表面化,往往通过在表达式中增加概念节点来实现。[1]

概念依存模型由若干个语义基元(semantic primitive,或称概念基元)和概念间的关联组成,这些语义基元可以分为基本行为和基本状态两种。其中,对基本行为的定义有利于制订动词框架和推理规则,是概念依存理论的一项重要内容。Schank等人共列出了11个基本行为,包括PTARNS、ATRANS、INGEST、PROPEL、MTRANS、MBUILD、MOVE、GRASP、EXPEL、SPEAK、ATTEND等,尝试用有限个基本行为描述人类社会的所有活动。而基本状态数量众多,描述的是事物的物理状态或生命体的精神状态等。

将基本行为和基本状态结合起来,可以得到语句的概念依存表达式。例如,句子“John told Marythat Bill was happy.”用基本行为和基本状态表示为:

John MTRANS (BILL BE MANTAL-STATE(+5)) to Mary

其中,MTRANS表示John把某种精神信息转移给Mary,MANTEL-STATE(+5)表示Bill的精神状态及程度,而Bill的精神状态是精神信息转移的内容。

此外,在概念依存理论的基本原理之上,Schank等人提出了脚本(script)、计划(plan)、目的(goal)和主题(theme)等知识结构来理解故事,有助于实现句法、语义和推理相互融合的一体化处理模型。

(二)概念依存理论中的转移类概念

概念依存理论主要研究的基本行为中大部分是属于转移类概念的,其中包括PTRANS、ATRANS、INGEST、MTRANS和EXPEL。

PTRANS描述的是物体的物理位置的转移,ATRANS描述的是占有、物主或控制等抽象关系的转移,INGEST描述的是摄入食物、流体或气体等的行为,也是转移的一种表现,MTRANS描述的是人与人之间或在一个人身上的精神信息的转移,而EXPEL描述的吐出的动作,与INGEST相对。

三 概念层次网络

(一)概念层次网络的概述

概念层次网络(Hierarchical Network of Concepts,简称HNC)是面向整个自然语言理解的理论框架,这个理论框架是以语义表达为基础的,它对语义的表达具有概念化、层次化、网络化的特征。[2]

HNC理论的目标是以概念联想脉络为主线,建立一种模拟大脑语言感知过程的自然语言表述模式和计算机理解处理模式,[2]认为概念联想脉络的表述是理解语义的根本问题,将认知结构划分为局部联想脉络和全局联想脉络。局部联想是在词汇层面的联想,体现为一个概念表述体系,并设计了五元组和语义网络来表示抽象概念,通过挂靠展开近似表达具体概念。全局概念是在语句及篇章层面上的联想,提出了语义块和句类理论从语言深层上描述语句。

为了描述抽象概念,HNC设计了三大语义网络:基本概念、基元概念和逻辑概念。语义网络描述的是概念之间的关联,这三大语义网络同时也是对抽象概念的基本分类。与概念依存理论相似,HNC的语义网络中也有概念节点,指的是语义网络每一层中的若干个节点,每一个节点都可以由从最高层开始到该节点结束的一串数字或字母来唯一地确定或指称。语义网络中的任一节点都是一个概念而不是某个特定的语义,同时它们又都是概念的基元,可以通过不同的组合形成复合概念。[3]

概念依存理论中的概念节点虽然已经脱离了词汇符号的所指,指的是概念本身,但是仍然是自然语言的形式,对于计算机来说依然难以处理,而HNC构建了网络式概念基元符号体系,每个概念由唯一确定的符号串表示,不仅清晰无歧义地表达了概念的所指,而且还可以把概念间的联想关系形式化地表现出来,便于计算机进行理解和推理。

(二)HNC中的转移类概念

HNC理论将万事万物发生、发展和消亡的过程用作用效应链来表示。作用效应链包括作用、过程、转移、效应、关系和状态六个基本环节,反映一切事物存在和发展的基本法则,也是语言表达和概念推理的法则。[2]“转移”是HNC理论强调的作用效应链六大环节中的一个基本环节,实际上是“过程”的一个子类,但“过程”侧重于事物在时间状态序列中的表现,而“转移”更强调事物在空间状态序列中发生的变化,因此,“转移”虽然继承了“过程”的基本特征,但倾向于认为是一个独立的基元概念。

在HNC中,转移基元概念二级节点的设计从概念依存理论中得到不少启发。概念依存理论中研究了转移的不同表现形式,如物的转移、信息的转移、食物的摄入和排出等,HNC将其进行归纳并扩展出转移类概念的四个二级节点:21 接收;22 物的转移;23 信息的转移;24 交换、替代和变换。

HNC中用于描述“转移”概念的句类称为转移句。上文已说明了转移概念应包含的要素,而事实上,在转移句中,转移动作的发出者所处的位置即为转移的起始位置,而转移动作的接收者所处的就是转移的结束位置,除此之外,转移的途经不是必须知道并加以描述的,所以转移句一般包含转移的特征语义块(T)、转移发出者(TA)、转移的内容(TC)和转移接收者(TB)这四个要素。

四 对转移句处理的异同

(一)概念依存理论对转移句的处理

概念依存理论设计基本行为的依据是转移的类别。PTRANS表示的是物体的转移,可以是外力使其转移,也可以是具体物自身的转移,若是物自身的转移,可以对应到HNC中的22b节点,包括来、去、回、别离等概念,以及在空中、水中或陆地的自身转移。ATRANS表示的是物主占有关系的转变,也是具体事物的转移,INGEST指的是食物、液体、气体等进入体内,对应到HNC中的221表示入概念的节点,包括气态物、液体物、固体物的输入、抽、吸,与之相对的EXPEL则可以对应到222的“出”概念,221和222表示“入”和“出”是一对对偶性概念,是同一个高层概念下的两极。总的来说,这四个基本行为实际上都是物的转移,不论是食物、气体还是金钱,它们的转移对象都是具体概念。而概念依存理论中还有MTRANS,表示人与人之间或一个人精神信息的转移,也就是抽象事物的转移。

在对具体的语句进行理解和处理时,概念依存理论采用概念依存表达式或概念依存模型来对表示语句中概念之间的关系。例如句子“John gives Mary a book.”,句中的转移概念“give”对应着基本行为ATRANS,表示占有关系的变化,即“a book”在转移的过程中所有者也发生了变化。这个句子的概念依存表达式如下:

图1 概念依存表达式

在这个表达式中,John、book和Mary均为概念节点,ATRANS这个节点表示的是基本行为,描述give这种抽象关系的转移,标有R的三个箭头表示Mary是book的接收者,即Mary、John和book之间的接受或给予的依存关系,而标有O的箭头表示宾位的依存关系,即book为受事格,是ATRANS的转移内容。对于句子“The book was given to Mary by John.”来说,由于与上句表示的是相同的意思,所以可以用同一个概念依存表达式描述。

对于基本行为MTRANS而言,转移物为抽象的信息,通常需要用语句来实现对抽象信息的表达,因为信息需要用语句来描述。在概念依存理论中,可以将基本行为和基本状态结合起来,得到概念依存表达式。例如,句子“John told Mary that Bill was happy.”可以表示为:

John MTRANS (BILL BE MANTAL-STATE(+5)) to Mary

其中,基本行为MTRANS表示John把信息转移给Mary,基本状态MANTEL-STATE(+5)表示Bill的精神状态是高兴的,而Bill的精神状态是转移的内容。

概念依存理论在一定程度上能够摆脱句法结构和语种的限制,用概念依存表达式将自然语言的深层语义表达出来,但是存在的问题是,概念依存表达式中的概念节点虽然指的是概念而不是词汇意义本身,但依然是自然语言形式的概念,对于计算机来说依然不容易处理。并且,11个基本行为数量较少,只能够描述自然语言中常见的情境,若想深入进行详细的描述是有一定难度的,而且每个基本行为的涵盖面过广,对语义的描写颗粒度较大。

(二)HNC对转移句的处理

根据上文提到的的转移概念的二级节点划分以及句中强调的要素,HNC理论将转移句分为:基本转移句、自身转移句、接收句、传输句、自身转移句、交换句、替代句和变换句,基本转移句中包括一般转移句、物转移句和信息转移句。

除了物的转移和信息的转移这两类概念基元,HNC的转移概念中还包含“接收”这个概念。“接收”指的是转移全过程的后一半,是转移过程的一部分。通常,人们理所当然地认为“接收”是包含在转移的过程之中,不管转移的内容是什么,转移的要素中包含着转移的接收方,而且对转移过程的描述更多的是从转移发出方的角度进行描述。但是HNC认识到“接收”对转移过程的重要性,将“接收”设立为与物和信息转移并列的节点,因为“接收”其实是转移的本质所在,意味着转移的结局和目的。例如感知和审查,还有天文观测等,都只涉及单方面的接受,但这些显然都是重要的信息转移。因此,HNC的接收句弱化转移发出者,强调从接收端的角度描述转移。HNC的这种处理方式使得对转移概念的描述更加全面深入,丰富了转移概念的内涵,也有助于对转移概念更加深刻的理解[4]。

此外,HNC中将交换、替代和变换作为转移的一个子类,体现了“涉及两项转移内容并且两项交互”的共性。这个共性在转移概念里比较突出,例如谈判和贸易都具有这个共性。交换显然具有交互性,替代虽然一般不具有交互性,但也涉及两项转移内容,而变换也具有交互性且通常能可逆,因此,HNC将交换、替代和变换合并且单列为转移概念下的一个节点。

采用HNC理论处理转移句还有一个优点,就是对于具体的句类,语义块的类型会有一定的限制,这对计算机识别和处理来说格外重要。在转移句中,转移发出者TA优先是pp类(广义的人,包括组织、机构、团体等)和jw62(动物)类概念,一般转移的TA优先选择具体概念,而物转移句的TA一定是具体概念,信息转移句的TA一定是pp类和jw62类概念,或者r(效应)和gw(信息物)概念,其中r主要是r232(信息输出的效应,比如言论、声明、讲话等)、r8(思维活动的效应,比如学说、理论、见解等)和ra5(法律法规)等,gw概念主要是gwa34(出版物)。然而,转移接收者TB必须是具体概念或空间概念,并且信息转移句的TB一定是pp或jw62类概念,因为只有具有思维活动的生命体才能接收理解抽象的信息。对于省略了TB的转移句,其TB一般都是显而易见不必关注的,例如由v62221(人或动物的生理活动:吃、喝、抽、吸、吞、咽等)形成的物转移句,TB即为TA的生理器官,比如对句子“Jack has eaten three sandwiches.”接收者就是Jack的胃,这在语义理解上是显而易见的,不需要在句中另外强调。

对于物转移句(T2J)和信息转移句(T3J),转移的内容分别记为T2C和T3C,而一般转移句的转移内容TC既可以指具体概念,也可以是抽象概念。物转移句中的转移内容T2C一定是具体的概念,而信息转移句的转移内容T3C一定是块扩,因为抽象的信息需要用语句来表达,而且为了更好地对句类进行划分,HNC规定了信息转移句的转移内容必须是块扩,如果有例外的情况会通过用信息转移句和效应句的混合来处理。T3C的表达形式很丰富,一方面它可以是隐含的,即在上下文中有指代概念,例如“John told Mary this good news.”这个句子中的T3C“this good news”并不是块扩,但是它在上下文中的指代概念,即“this good news”的内容一定是用语句来表达的。另一方面,块扩也可以变换为原型包装句蜕,例如“John told Mary [ # Bill would get married # ].”①和“John told Mary the good news {that Bill would get married}/.”②具有相同的语义信息,前一句的T3C是块扩,加了“the good news”转换成了原型包装句蜕。此外,T3C的形式还可以是多个句子,也可以是一段话,甚至是加了引号的直接引语。

(三)两种理论对转移句处理的对比

对于涉及基本行为PTRANS的句子,如果是外力使事物发生转移的,可以归为一般转移句或物转移句,例如“John sent the letter to Mary.”为T0J(一般转移句),“John put the bottle in his pocket.”是T2J(物转移句)。如果是自身发生转移,表示出发、到达、来、去、回等自身转移的概念,可以用自身转移句来处理,比如“Jack will go to Shanghai.”是T2bJ(自身转移句),“Mary has just come back to Beijing from Shanghai.”是T2b0J(自身转移句,与T2bJ结构上不同),“He passed down the tunnel.”是T2b3J(不同形式的自身转移句)。

概念依存理论的基本行为ATRANS表示的是占有、物主关系的转移,在HNC中没有直接对应的概念,但是HNC采用多种句类来对此类行为进行描写。例如“John gave Mary a book.”中的give就是占有关系的ATRANS,这个句子对应HNC中的一般转移句T0J,“John bought the book from Jack.”表示“the book”的物主从Jack转移到John,buy的概念表示换入的一方具有主动性,对应于HNC中的换入交换句T491J。若句子转换为“Jack sold the book to John.”表示换出方是主动的,该句为换入交换句T492J。

INGEST和EXPEL分别表示的是固态物、液态物或气态物的入和出的概念,在HNC中可采用一般转移句或物转移句来描写。例如“We should often ingest fresh air.”是物转移句T21J。

包含基本行为MTRANS的句子表示信息转移的概念,可以是人与人之间信息的转移,比如“tell”,也可以是在自身发生的信息转移,比如“see”。在HNC中,人与人之间信息的转移一般归为信息转移句,而将自身的信息转移归为接收句。接收句分为一般接收句和针对性接收句,针对性接收句中的转移内容是与转移无直接关系的对象及其表现。例如“Jack saw Mary was dancing.”,这类句子并不强调信息的发出者,而强调的是接收者和接收的内容,这个句子中Mary不是转移发出者,“dancing”是表现而不是转移内容,因此该句是针对性接收句T19J。

根据转移句中强调要素的不同,HNC中还有基本转移句的变体:传输句、替代句和变换句。传输句以转移的内容为中心,突出TBn(转移的起点、终点和途经)信息,TBn在基本转移句中不是必要要素,但在传输句中是必要的。与基本转移句相对应,传输句分为一般传输句、物传输句和信息传输句。例如句子“The book was bought by John from Tom.”与句子“John bought the book from Tom.”“Tom sold the book to John.”表达的意思相近,但强调的要素不同,用概念依存语法来分析的话,这三个句子中的基本行为都是ATRANS,可以用相同的概念依存表达式来表示,但对HNC而言则是不同的句类,第一个句子是物传输句T2a0J,第二个句子是换入交换句T491J,第三个句子是换出交换句T492J。以此为例,HNC通过句类的划分清晰地将“买”、“卖”概念中包含的主动、被动关系表达了出来,说明HNC的句类知识能够细致、准确地表达语句的深层语义,将概念间的差别清晰地区别开,这是其他理论所不具有的优势。

替代句强调替代的双方和替代的内容,比如“Jack will replace John as chairman of the company.”是基本替代句T4a1J,Jack和John是替代动作的双方T4B1和T4B2,替代内容“chairman of the company”是T4C。变换句T4bJ是转移和效应之间的边缘概念,变换句中需要有变换前后的对象及其表现T4BC1和T4BC2,并且T4BC1和T4BC2之间具有源流关系。例如“Products of labor are transformed into commodities.”就是典型的变换句,劳动产品是T4BC1,商品是T4BC2,它们之间具有对仗性。在概念依存理论的基本行为中没有可以与替代句和变换句相对应的表达,可以说概念依存理论在这一点上并没有将转换句的分类考虑得如HNC这般透彻。

五 结语

从上文的分析可以看出,概念依存理论提出的用概念节点和语义基元来描述语义的方法尝试对人脑的认知模式进行模仿,很大程度上突破了句法结构对语义理解的限制,也意识到深层语义是与语种无关的,概念是不局限于在某语种的表示符号。HNC借鉴了概念依存理论通过语义基元和概念间关联来分析处理自然语言的方法,提出了概念联想脉络并建立语句的语义表述模式,基本上穷尽了自然语言句子语义的基本表达式。

概念依存理论尝试用基本行为描述所有行为活动,缺点在于基本行为数量不够,对于活动的描述有疏漏的地方,每个基本行为的涵盖面太广,对语义分析的颗粒度较大,并且概念依存理论对于概念节点没有进一步的描述。而HNC的句类设计在吸收概念依存理论优点的同时进行了扩展,从两种理论对转移类概念及转移句的分析上可以看出,HNC在吸取概念依存理论的精髓之上,以具有完备性的符号体系将自然语言的语义描述提升到了一个新的高度,用语义网络和概念基元符号体系来描述概念,并用句类表达式来描述自然语言语句,能够更深刻全面地描述自然语言,并且这种高度形式化的符号体系更有利于计算机对句子进行理解和处理。

注释:

①块扩的语义块用[#...#]来标出。

②{...}表示原型句蜕,.../表示包装句蜕。

[1]冯志伟.自然语言处理简明教程[M].上海:上海外语教育出版社,2012.

[2]黄曾阳.HNC(概念层次网络)理论——计算机理解语言研究的新思路[M].北京:清华大学出版社,1998.

[3]苗传江.HNC(概念层次网络)理论导论[M].北京:清华大学出版社,2005.

[4]苗传江.HNC句类知识研究[D].北京:中国科学院声学研究所,2001.

[责任编辑 张永杰]

On HNC Theory’s Expansion of CD Theory from the Prospect of TRANS Concepts

QI qi
(University of Foreign Language of PLA, Luoyang 471003, China)

The CD (Concept Dependency) theory and HNC (Hierarchical Network of Concepts) theory are two theories aiming at natural language processing. CD theory describes and analyzes natural language through semantic primitives and the connections between the concepts. It inspired the design of semantic network of HNC theory, especially the study of TRANS concepts provided a lot experience for the construction of semantic network and sentence knowledge. Through the comparative study of how the two theories deal with the TRANS concepts, the HNC theory’s expansion of CD theory is generalized and summarized.

CD theory; HNC theory; TRANS concepts

H136

A

1008-9128(2017)03-0054-05

10.13963/j.cnki.hhuxb.2017.03.0014

2016-09-05

祁琪(1990-),女,广西钦州人,博士生,研究方向:中文语言处理。

猜你喜欢

基元表达式语义
关注基元反应的考查
一个混合核Hilbert型积分不等式及其算子范数表达式
表达式转换及求值探析
语言与语义
浅析C语言运算符及表达式的教学误区
人体细胞内存在全新DNA结构
“上”与“下”语义的不对称性及其认知阐释
认知范畴模糊与语义模糊
Numerical Modeling and Analysis of Gas Entrainment for the Ventilated Cavity in Vertical Pipe*
议C语言中循环语句