基于词典的名词性隐喻识别
2011-06-28贾玉祥俞士汶
贾玉祥, 俞士汶
(1. 郑州大学 信息工程学院,河南 郑州 450001; 2. 北京大学 计算语言学教育部重点实验室,北京 100871)
1 引言
认知语言学认为,隐喻本质上是用一个事物来理解另外一个事物的认知现象[1]。从这个角度上说,隐喻贯穿语言发展的整个过程,语言中的隐喻使用非常普遍,除涵盖比喻、比拟(拟人、拟物)、移就、移觉(通感)等修辞表达外,还有更广泛的内容,如新词构造、词义演变等。隐喻计算也成为计算语言学领域的一个重要课题。
本文采纳认知语言学的观点,将语言中的隐喻定义为“用一个事物(源域或称喻体)来表达另外一个事物(目标域或称本体)的语言现象”,并且表达的基础是两事物之间的相似性(喻底)。这不同于传统修辞学中的“暗喻”。
按照隐喻词的语法属性可以将隐喻分为名词性隐喻、动词性隐喻、形容词性隐喻、介词性隐喻等。本文研究最基本的一种隐喻类型——名词性隐喻。所谓名词性隐喻,就是由名词构成的隐喻,在句中充当主语、表语、宾语、同位语等成分[2]。
根据隐喻表达的语言形式,名词性隐喻又可以分为指称型隐喻和搭配型隐喻。指称型隐喻是指目标域和源域同时出现,构成指称关系,通常由指称词“是”“像”“如”等连接,如(下划线是目标域,波浪线是源域):
知识是力量。
人生如梦。
有时也用标点符号“,”“——”等连接,如:
书,人类进步的阶梯。
大部分情况下,目标域在前,源域在后。也有少数情况下,源域在前,目标域在后。如:
最漂亮的服装是谦虚。
本文把指称型隐喻也称为“X是Y”型隐喻。
搭配型隐喻是指由于搭配词的修饰,使源域名词的本义发生了隐喻性改变,通常的搭配词是名词,构成名词组合或名词短语,如知识的海洋、金融风暴等。此时,目标域和源域不一定都出现,如祖国的花朵(目标域“儿童”没有出现),春天的脚步(源域“人”没有出现)等。本文把搭配型隐喻也称为“XY”型隐喻。
有些隐喻表达是指称型与搭配型的嵌套形式,如:
教师是人类灵魂的工程师。
是“教师是工程师。”“人类灵魂的工程师。”二者的混合。这类隐喻的识别需要将指称型隐喻与搭配型隐喻结合起来,二者有一个判断为隐喻,则整句为隐喻表达。
本文主要针对指称型隐喻,提出基于词典的识别方法(只考虑目标域和源域,暂不考虑句子上下文)。也考察了该方法用于搭配型隐喻识别时的效果。
2 相关研究
隐喻计算可以分为隐喻识别、隐喻理解和隐喻生成三个子任务,目前的研究重点是识别和理解,而识别又是理解的基础。围绕名词性隐喻和动词性隐喻两种基本的隐喻类型,出现了基于知识、基于机器学习等隐喻识别方法[3]。
王治敏[4]提出基于机器学习方法的汉语名词短语隐喻识别。为特定名词的短语选择一定的语料,标记隐喻和非隐喻用法。用标记语料训练分类器,从新的名词短语中识别出隐喻。该方法的优点是机器学习方法在大规模数据的分类中具有优势,缺点是要为每个名词标注一定数量的语料,耗费人力。
对于名词性隐喻的识别,基于现有知识库的方法是一个很好的选择。Krishnakumaran[5]利用WordNet中的上下位关系来判断“X is Y”是常规表达还是隐喻表达。如果Y是X的上位,则是常规表达;否则是隐喻表达。如“A lion is a wild animal”,animal是lion的上位概念,是常规表达。而“All the world is a stage”,stage不是world的上位概念,是隐喻表达。
然而,只考虑上下位关系还不够,如果X和Y不是上下位关系,而是兄弟关系(如朋友是律师,朋友和律师具有共同的上位“人”)或存在某种关联(如律师是职业,这里律师指代的是律师这类人所从事的职业),仍是常规表达。
杨芸[6]利用同义词词林和HowNet来判断指称型隐喻。结合同义词词林的类别相似度和HowNet的上下义相关度定义了一个指称异常度指标。如果指称异常度大于给定阈值则为隐喻表达,否则为常规表达。但是,指称异常度指标不能反映X与Y在词典中的位置及语义关系情况,不能清楚体现隐喻与语义距离及语义关系之间的关联,而这些信息对于隐喻的进一步处理是很有用的。
3 识别方法
本文利用同义词词林的语义距离和HowNet的语义关系来判断隐喻表达和常规表达,考察隐喻与语义距离及语义关系的关联。两部词典相互印证,只有当两部词典都判断为隐喻表达时,才认为是隐喻表达,否则认为是常规表达。
3.1 同义词词林
同义词词林(简称词林)[7]的分类体系如图1所示。从上到下分为大类、中类、小类、词群、原子词群(同义词集合)五个层次。大类由A到L标记,分别为A人、B物、C时空、D抽象物、E特征、F动作、G心理活动、H活动、I现象与状态、J关联、K助语及L敬语。
图1 同义词词林五层结构图
由于词林是对词语的一种划分,词语均分布在树的叶子节点,中间节点没有相应的词语表示。因此,词语之间的语义距离,即路径长度,只有以下六种情况(设词语w1,w2):
当w1或w2出现在多个语义类中时,两个词之间存在多条路径,这时取最短路径作为语义距离。
一般来说,语义距离越短,是常规表达的可能性越大,如:“北京”与“首都”的语义距离为0,词典认为二者是同义词,则“北京是首都”是常规表达;“中国”与“国家”的语义距离是2,“中国是国家”是常规表达;“睡觉”与“休息”的语义距离是4,“睡觉是休息”是常规表达。
反之,语义距离越长,是隐喻表达的可能性越大。如:“律师”与“狐狸”的语义距离是10,“律师是狐狸”是隐喻表达;“知识”与“力量”的语义距离是8,“知识是力量”是隐喻表达。
但也有例外,比如,在“A人”这一大类里,即使两个词的距离是8,也不是隐喻表达,如,“他”和“流氓”,“你”和“老师”的距离都是8,但“他是流氓”,“你是老师”都是常规表达。因此,规定在“A人”类内词之间的指称为常规表达。
对于“X是Y”表达,隐喻判别方法如下:
如果语义距离小于等于6,为常规表达;
如果语义距离等于10,为隐喻表达;
如果语义距离等于8,
如果X和Y都属于语义类A,则为常规表达,
否则,为隐喻表达。
3.2 HowNet
HowNet(2000版)[8]使用1 500多个义原来刻画概念。义原根据上下位关系,形成树形结构,父节点是子节点的上位概念,子节点是父节点的下位概念。图2是HowNet义原树形结构的截图。
图2 树状的义原层次结构
词的义原表示举例:
律师={human|人,#occupation|职位,police|警,#law|律法}
职业={affairs|事务,#earn|赚,#alive|活着,#occupation|职位}
鲨鱼={fish|鱼}
朋友={human|人,friend|友}
考虑HowNet中的以下语义关系:
上下位关系(hyper):词语定义中的第一义原是该词语的直接上位(direct-hyper),上位的上位称为间接上位(indirect-hyper),也属于上下位关系。如鱼是鲨鱼的上位,动物、生物也是鲨鱼的上位。因此,HowNet中存在大量的上下位关系。
兄弟关系(brother):如果两个词语的第一义原相同,则二者称为兄弟关系,如律师、朋友,第一义原都是“human|人”。
相交关系(intersection):如果两个词语的义原有交集,称二者为相交关系,如律师和职业,义原定义有交集“occupation|职位”。
从语义关系的紧密性来说,上下位关系>兄弟关系>相关关系。当两个词语之间存在多种语义关系时,取紧密性最大的那个。
对于“X是Y”表达,隐喻判别方法如下:
如果Y是X的上位概念(包括直接上位、间接上位),则是常规表达。如:律师是人。
如果X与Y是兄弟关系,则是常规表达。如:朋友是律师。
如果X与Y是相交关系,则是常规表达。如:律师是职业。
其他,认为是隐喻表达。如:律师是鲨鱼。
4 实验分析
结合同义词词林和HowNet进行隐喻判断。词林输出X与Y的语义距离{0,2,4,6,8,10}与X、Y所属大类。HowNet输出语义关系{hyper,indirect-hyper,brother,intersection,metaphor}。只有同义词词林和HowNet方法同时判断为隐喻时,才认为是隐喻表达,否则为常规表达。
表1表示的是文献[6]中的22个例子的实验结果,左边为隐喻表达用例,右边为常规表达用例。
从表中可以看出,只有最后一行的两个例子做出了错误的判断,比单独使用一个词典效果好。错误分析如下:
表1 隐喻识别结果
1. 影子是画面。
词林中“影子”与“画面”的语义编码分别为:
影子 Bg03C01
画面 Dk29E01
“影子”属于自然物,而“画面”是文教领域的抽象事物,二者属于不同的大类,语义距离等于10。
HowNet中“影子”与“画面”有以下义原定义:
影子 image|图像
画面 image|图像,shows|表演物
因此,计算出“影子”与“画面”是兄弟关系,因为二者的第一义原即直接上位相同,都是“image|图像”。其实,“影子是画面”的隐喻性并不明显,是否是隐喻还需要具体上下文来确定。
2. 跑步是锻炼。
词林中“跑步”与“锻炼”的语义编码如下:
跑步 Fb01B01
锻炼 Hg06B01
“跑步”是下肢动作,“锻炼”属于教卫科研活动方面的术语,二者属于不同的大类,语义距离等于10。
HowNet中“跑步”与“锻炼”的义原定义如下:
跑步 run|跑
锻炼 cultivate|培养
基于HowNet现有的知识,算法无法将“锻炼”与“跑步”建立联系,因此判断为隐喻。类似的例子还有:
他 aValue|属性值,kind|类型,other|另
他 ThirdPerson|他,male|男
你 SecondPerson|你
流氓 human|人,undesired|莠,evil|恶,crime|罪
老师 human|人,teach|教,education|教育
由于人称代词与“human|人”这一语义类中的词无法从义原上建立联系,因此将“他是流氓”“你是老师”判断为隐喻。可以通过进一步丰富词典的知识描述并建立起知识之间更好的关联来解决这一问题。
进一步采用两个由“是”连接的指称型隐喻例句库来测试隐喻识别效果。例句库Wang选自《实用比喻语词典》[9],例句主要摘自文学作品、名人名言等;例句库Li选自文献[10],这些例子主要用于隐喻的认知、心理研究。选择例句时去掉了源域或目标域在词林或HowNet中是未登录词的句子。隐喻句库的情况及识别效果如表2所示。可见,隐喻识别的正确率(此时即隐喻的召回率)在数据集Wang上为89.38%,在数据集Li上为73.28%。
表2 隐喻识别效果
识别错误的句子是把隐喻判作了常规表达。以数据集Li为例,表3及表4给出了部分判为常规表达的句子与语义距离和语义关系的关联。可见,这些语义距离近及语义关系密切的隐喻句都是人们所熟知的表达,新颖性不强,在某种程度上可以认为是常规表达。这也体现了隐喻的生命周期,随着新颖性由强变弱,从活隐喻转变为死隐喻。
表3 语义距离为0的目标域源域对
表4 兄弟关系的目标域源域对
表5 搭配型隐喻识别结果
把识别方法用于搭配型隐喻的识别。选择33个名词,为每个名词分别选择一个常规表达和一个隐喻表达,共66个名—名短语。如表5所示,每一组前一个短语为常规表达(如芭蕾舞台),后一个短语为隐喻表达(如历史舞台),短语后的字母为程序判断结果,y表示是隐喻,n表示不是隐喻。识别效果如表6所示,隐喻识别效果优于非隐喻识别效果,隐喻识别的F1值为72.29%。
表6 搭配型隐喻识别效果
5 总结与展望
本文提出了一种简单的基于词典的名词性隐喻识别方法。结合同义词词林的语义距离和HowNet的语义关系进行识别,并考察了隐喻与语义距离及语义关系之间的关联。
下一步将构建更大规模的语料,进行更充分的实验,更好地考察隐喻识别的性能,改进隐喻识别算法。完善词典知识,建立知识之间的关联也是提高识别效果的一个方向。
[1] Lakoff, G., Johnson, M. Metaphors We Live By[M]. Chicago: University of Chicago Press, 1980.
[2] 束定芳. 隐喻学研究[M]. 上海: 上海外语教育出版社, 2000.
[3] 贾玉祥, 俞士汶, 朱学锋. 隐喻自动处理研究进展[J]. 中文信息学报, 2009, 23(6): 46-55.
[4] 王治敏. 汉语名词短语隐喻识别研究[D]. 北京大学博士学位论文, 2006.
[5] Krishnakumaran, S., Zhu, X.J. Hunting Elusive Metaphors Using Lexical Resources[C]//Proceedings of the ACL 2007 Workshop on Computational Approaches to Figurative Language, 2007: 13-20.
[6] 杨芸. 汉语隐喻识别与解释计算模型研究[D]. 厦门大学博士学位论文, 2008.
[7] HIT-IRLab. 同义词词林(扩展版)[DB/OL]. http://ir.hit.edu.cn.
[8] 董振东, 董强. 知网[DB/OL]. http://www.keenage.com.
[9] 王雅军. 实用比喻语词典[M]. 上海辞书出版社, 2003.
[10] 李玉莲. 本体和喻体在中文隐喻句理解中的应用[D]. 西南大学硕士学位论文, 2007.