汉语复合名词语义信息标注词库:基于生成词库理论
2015-04-21宋作艳赵青青亢世勇
宋作艳,赵青青,亢世勇
(1. 北京师范大学 文学院,北京 100875;2. 鲁东大学 文学院 山东省语言资源开发与应用重点实验室,山东 烟台 264025)
汉语复合名词语义信息标注词库:基于生成词库理论
宋作艳1,赵青青1,亢世勇2
(1. 北京师范大学 文学院,北京 100875;2. 鲁东大学 文学院 山东省语言资源开发与应用重点实验室,山东 烟台 264025)
复合名词分析一直是语言研究和自然语言信息处理中的一个重要问题,涉及未登录词的识别、自动释义以及词典编纂等。生成词库理论是目前较新的一种语义学理论,我们拟利用该理论对汉语复合名词进行语义信息标注,建立一个词库。该文首先介绍了这一词库的标注框架,然后通过对“纸”、“石”构成的复合词的对比分析,展示了这一词库在复合名词构词、语义研究中的应用。研究结果显示,物性角色、自然类和人造类是非常重要的语义信息,能揭示复合名词构词和语义的一些模式和规律。
语义信息标注词库;复合名词;生成词库理论;物性结构;语义类型
1 引言
复合名词是复合词中最能产的格式,是新词语、新术语的主要来源之一。因此,复合名词一直是语言理论研究的重要内容,也是自然语言处理中的一个难题。研究的重点主要在复合名词内部复杂的语义结构、语义模式、释义等方面,如文献[1-3]。
生成词库理论是目前较新的语义学理论。Johnson 和Busa[4]较早在复合名词(短语)的研究中系统引入了这一理论,建议用物性修饰(qualia modification)来刻画偏正式名名复合词内部的语义关系,并据此分析了英语和意大利语中名名复合词的语义模式。例如,bread knife、lemon juice、glass door中的bread、lemon、glass分别修饰中心名词物性结构(qualia structure)中的功用角色(telic role)、施成角色(agentive role)和构成角色(constitutive role),即说明中心名词所指事物的功用、来源和材料。这三种物性修饰关系在意大利语中分别对应不同的介词,说明物性角色是非常重要的语义信息,具有语言学价值。自此,很多学者开始在多种语言的复合名词研究中引入了物性结构。汉语方面,黄洁[5]、王洪君[6]分别在隐转喻复合名词(如“扇贝”、“雪花”)、含“锅”、“碗”的复合名词的分析中利用了物性结构。Lee et al.[7]从跨语言的角度例举了名名复合词中的四种物性修饰关系: 形式(Formal)、构成、功用、施成。宋作艳[8]利用物性结构揭示了类词缀词(如“钢琴家”、“豆浆机”)中隐含的谓词,为其释义做出了新的解释。Song和Qiu[9]考察了含有动词性成分的名词性复合词(如“剪刀”、“叫声”),发现其中的动词性成分可以通过不同的方式显示复合名词的功用角色或施成角色,其中功用角色最为常见。
不过,基于生成词库理论的汉语复合名词研究还不够深入和系统,表现在主要借鉴其物性结构,并未涉及其语义类型体系;研究仅限于举例式,并未进行大规模的统计分析;多关注名名复合词,尚未涉及形名等复合名词。我们拟基于此理论中的物性结构和语义类型体系,对汉语中的各种复合名词进行标注,建立词库,在此基础上进行构词、语义分析。建立此词库的目的主要有两个,一是希望能从物性信息、自然类与人造类的角度揭示汉语复合名词的构词、语义特点,找出能产的构词、释义模式,以期用于中文信息处理中未登录词、术语等的自动识别和自动释义,以及词典编纂;二是希望在此基础上进而建立基于生成词库理论的汉语语义类型体系(知识体系)。利用生成词库理论进行语义标注的想法最早源于Pustejovsky et al.[10],他们提出了系统的生成词库标注语言(GLML: A Generative Lexicon Markup Language),其中包括复合名词物性关系的标注。Bouillon et al.[11]则设计了一套方案在上下文中标注意大利语和法语复合词中的物性关系。与这两种标注框架不同,我们不仅要标注物性信息,还要标注语义类型;不仅标注名名复合名词,还标注形名、动名、名动等复合名词;而且我们的标注在词库中进行。
下文首先简单介绍生成词库理论,然后描述复合名词词库的语义标注框架,在此基础上以“纸”、“石”构成的复合词为例,说明这一词库在复合名词构词、语义研究中的应用。
2 生成词库理论简介
生成词库理论是基于计算和认知的自然语言意义模型,关注词义的形式化和计算。该理论的核心思想是,词的意义是相对稳定的,但词与词在组合中,可能会通过一些语义生成机制(组合机制)获得延伸意义,可以通过丰富词项的词汇特征(Lexical representation)和语义生成机制来解释词的不同用法以及在上下文中的创新性用法。其理论框架主要包括两大部分: 词项的词汇表征和语义生成机制。这里重点介绍前者,关于这一理论的详细介绍参见文献[12]。
词项的词汇表征包括四个层面[13]: 论元结构(argument structure)、事件结构(event structure)、物性结构(qualia structure)和词汇类型结构(lexical typing structure)。物性结构是词库生成性特征(generative feature)的核心,包括四种物性角色: 构成角色(constitutive role)、形式角色(formal role)、功用角色(telic role)和施成角色(agentive role)。构成角色描写事物与其组成部分之间的关系,包括材料、重量、部分和组成成分等;形式角色描写事物在更大的认知域内区别于其他事物的属性,包括方位、大小、形状和维度等;功用角色描写事物的目的(purpose)和功能(function);施成角色描写事物是怎样形成或产生的。以“书”为例,它的构成角色包括封面、封底、章节等,形式角色包括书的大小、形状等,施成角色和功用角色分别是“写”和“读”。需要说明的是,每个角色的赋值可能不止一个。例如,“出版”也可以看成“书”的施成角色。除了上述四种角色,最近,自然功用角色(natural telic role)和规约化属性(conventionalized attributes)也开始被纳入广义的物性结构[14-15]。自然功用表示事物的天然功能,与意图和目的无关。如“抽压血液”是“心脏”的自然功用。规约化属性指事物的典型特征,包括自然物的典型用途、与事物相关的常规活动等。例如,“叫”是“狗”的规约化属性,“消化”是“食物”的规约化属性。
根据物性角色,名词可以分为三类[16-17]。
1) 自然类(natural types): 只与形式角色和构成角色相关的概念。例如,兔子、石头、树、水、老虎、女人。
2) 人造类(artifactual types): 与功用角色和/或施成角色相关的概念。与自然美之间最大的区别是有“意向性”(intentionality)。例如,刀、啤酒、医生、老师。
3) 合成类(complex types): 至少由两个类型组成的概念。如“午饭”既可以指事件,也可以指食物。
动词、形容词根据其与名词语义类的对应(搭配)关系也相应地分为三大类,如rabbit(兔子)是自然类,die(死)就是自然类,因为可以说 The rabbit dies。图1是三大范畴的上层分类,最上层概念被结构化成实体、事件和性质三个域,每一个域又被结构化成自然类、人造类和合成类,由简单到复杂。
图1 三分的概念网格(Tripartite Concept Lattice)
与传统的以动词为中心的理论模型不同,生成词库理论强调名词在语义组合中的重要性,因此,像刻画动词一样对名词的语义进行了详细的刻画。尤其是物性结构的引入,把与语言相关的日常知识引入到名词的语义描写中,说明了与一个事物相关的事物、事件和关系,表达了一个名词中典型的谓词和关系。物性关系是一种语义关系,而自然类与人造类的区分也体现了认知语义、概念体系中非常根本的分类。
3 标注框架
我们标注的复合名词主要来源于HowNet词典(2000版)和《现代汉语词典》(第6版),少部分是通过内省的方式补充的,包括名-名、动-名、名-动、动-动、形-名等复合名词,多是二音节、三音节名词。具体说来,主要标注以下信息(图2)。
图2 复合名词词库标注样例
1) 构词成分的词性: 形容词(a)、动词(v)、名词(n)等。
2) 构词成分的语义类: 自然类(N)、人造类(A)、不确定(U)。
3) 复合名词的语义类: 自然类(N)、人造类(A)、不确定(U)。
4) 复合名词的结构关系: 偏正、主谓、述宾、并列等。
5) 构词成分与复合名词之间的物性关系*我们把物性修饰关系改成了物性关系,因为前者只适用于偏正结构,关注的是修饰成分与中心名词之间的语义关系,即修饰成分修饰了中心名词的哪种物性角色,如“白”修饰的是“纸”的形式角色(颜色)。后者适用于各种结构的复合名词, 关注构词成分与复合名词之间的语义关系,即构词成分显示了复合名词的哪种物性角色信息,如“白”是“白纸”的形式角色,动词“编辑”是名词“编辑”的功用角色,“刷牙”是“牙刷”的功用角色。: 包括构成、形式、功用、施成、规约化属性五种。有些还需要细分小类,如构成角色分为材料、成分、部分-整体关系等;形式角色分为颜色、形状等,功用角色分为自然功用和人为功用;施成角色也分为自然和人为两类。例如,“胶”与“胶纸”之间是构成关系,“白”与“白纸”之间是形式关系,“吸墨”与“吸墨纸”之间是功用关系、“剪”和“纸”与“剪纸”之间是施成关系。
6) 词义变化: 隐喻(前隐喻、后隐喻、整体隐喻)、转喻、转类等。
7) 英语对应词或释义。标注自然类、人造类的目的是想检验这种分类对于构词和词义是否有系统性影响,有的话表现在哪些方面。标注物性关系是为了揭示构词成分之间,以及构词成分与复合词之间的语义关系。
需要说明的是,这一标注框架只适合处理那些语义透明度(semantic transparency)比较高的词,或者说语义组合性(semantic compositionality)比较强的词,即复合词的词义全部或部分由其构词成分的意义组合而成的词。根据李晋霞[18]的统计分析,现代汉语中绝大多数词是比较透明和完全透明的。而且根据我们的初步考察,语义透明的词更易形成能产的模式。因此,这一标注框架的覆盖面、适用面是足够广的。
利用标注的词库,我们可以对复合名词的构词、语义关系、语义类、语义模式以及它们之间的相关性做定性和定量分析,也可以对特定语素构成的复合词进行定量和定性分析。下文将以“石”、“纸”构成的复合词为例说明。之所以选这两个语素,是因为二者所指的事物常常被用作材料,但却分别代表了典型的自然类和人造类,适合做比较分析。
4 实例分析
本节首先分析了含“纸”的复合名词,然后与含“石”的复合名词做了比较,接着分析了两类复合名词中的隐喻词,最后概括了构词成分的语义类与复合名词语义类之间的推导关系。
4.1 含语素“纸”的复合名词
图3和图4分别呈现了“纸X”和“X纸”的分析结果。除了“剪纸”,“纸”构成的复合词都是偏正结构,都是人造类名词。“纸X”只涉及两种物性关系: 构成和功用。其中,表材料的构成关系最多,即“纸”通常说明复合名词所指事物的材料。中心名词可以是人造类、自然类。例如,“纸盒”指纸做的盒子,“纸鱼”指纸做的鱼状的东西,涉及隐喻。修饰类别不确定的形状名词时,有两种释义,例如,“纸条”可以理解为“纸做的条状物”, 也可以理解为“条状的纸”。表功用时说明复合名词所指事物的功用, 中心名词只能是人造类。如“纸厂”是用来造纸的工厂,“纸篓”是用来装废纸的篓子。
图3 “纸X”的物性信息和语义类
图4 “X纸”的物性信息和语义类
“X纸”涉及四种物性关系,其中表功用的最多,然后是形式、施成和构成。修饰成分X既可以是人造类,也可以是自然类。表功用时,X可以是名词、动词和形容词。“N纸”表功用时,需要在释义时恢复隐含的谓词。例如,“信纸”是用来写信的,“写”是“信”的施成角色;“打印纸”是用来打印的;“废纸”是失去使用价值的纸,是就“纸”的功用而言的。表形式时,修饰成分也可以是名词、动词和形容词。例如,“玻璃纸”是像玻璃一样透明的纸;“感光”体现了“纸”的特性;“白纸”、“薄纸”,是就纸的颜色、厚薄而言的(可与“废纸”比较)。修饰成分是名词时大都涉及隐喻。表施成时,往往涉及原料、来源。例如,“竹纸”是用竹子造的纸*竹纸造成后基本上看不出原料,不能说竹纸里含有竹子,所以“竹”并非“纸”的材料,而是原料,因此体现的是施成关系,而不是构成关系(可与“纸盒”比较)。,“竹子”是纸的原料;“道林”是最早生产道林纸的公司,体现了这种纸的来源。“剪纸”比较特别,是动宾结构,转指剪纸后生成的东西。表构成时,通常说明纸上有某种东西,例如,“字纸”是上面有字的纸;“图纸”是上面有图的纸,而不是用来画图的纸。
不同物性关系反映了不同的构词、语义模式,有些模式非常能产。如“纸X”几乎都表材料,释义模式是“用纸做的X”。26例“V纸”中,24例表功用,因此,表功用的“V纸”也是非常能产的模式。如果在文本中发现新的“V纸”,几乎可以断定其中的V就是表功用的,可以对这个词自动释义为“用来V的纸”。
4.2 比较: “石”、“纸”构成的复合名词
我们对含“石”的复合名词做了类似分析, 并与含“纸”的复合名词做了对比。结果发现,二者构成的复合名词几乎都是偏正结构,但在物性信息和语义类型方面不尽相同。如表1所示,“石”、“纸”做修饰成分时差别不大,体现的最主要的是构成关系。也就是说,“石”、“纸”都用来说明复合名词所指事物的材料,只是一个指天然材料,一个指人造材料。这类复合名词的释义模式是“用N1做的N2”。例如,“石碑”是用石头做的碑,“纸杯”是用纸做的杯子。当然,有些复合名词的语义透明度没那么高,内部语义结构比较复杂,释义没有那么直接,需要进行细节调整。例如,“石狮”释义为“石头做的狮子”还不够准确,应该是“石头做的狮子状的东西”,涉及隐喻。“纸包子”简单理解为“纸做的包子”也不太准确,这里的纸不是一般的纸,而是做纸箱的纸,做的不是包子皮而是馅儿。所以更精确的释义是“用纸箱做馅儿的包子”。不过,我们重点关注构词、释义的模式。“石X”还体现了形式、施成和功用关系。例如,“石油”通常聚集在岩石的空隙中,“石灰”是石头煅烧而产生的,“石匠”是开凿石料和用石料制作器物的工人,“石”分别说明了复合名词所指事物的位置、来源和功用。“纸X”则没有形式和施成角色修饰关系。“纸X”都是人造类名词,“石X”大部分都是人造类名词。这是因为绝大多数“石X”都体现构成关系,而构成关系中绝大部分又是表材料的。准确地说,表材料时通常都涉及施成,因为材料和成品之间是制造关系,如“石舫”、“石笔”等。“石笋”、“石钟乳”是天然形成的,虽然也是构成关系,但不表材料,可以看作组成成分,是自然类。理解为“笋状的石头”、“钟乳状的石头”可能更合适。
表1 比较“石”、“纸”构成的复合词
“石”、“纸”做中心成分时差别比较大,“X石”中涉及的物性关系依次是: 形式、施成、规约化属性、功用和构成。例如,“滑石”指光滑的石头;“碎石”是粉碎来的,“大理石”是大理产的;“吸铁”是“吸铁石”的规约化属性;“界石”是用来标志地界的石头;“礁石”主要是“礁体”组成的。值得注意的是,“X石”中的施成关系通常与人为无关,例如,“陨石”、“化石”、
“结石”都是自然形成的。“X纸”中最主要的物性关系则是功用,然后才是形式、施成和构成。“X纸”都是人造类名词,但“X石”绝大部分都是自然类名词。“石”、“纸”的上述差异体现了自然类、人造类名词在语义和构词上的差别: 以自然类为中心的复合名词多是自然类,主要体现形式关系;以人造类为中心的复合名词通常是人造类,主要体现功用关系。
特定构词语素的构词、语义分析能帮助我们更好地理解它所表达的概念。例如,纸是人造物,通常用作材料,经常按用途分类。石头是自然物,通常用做天然材料,经常按性质分类。
4.3 隐喻式名名复合词
含“石”、“纸”的名名复合名词很多是隐喻构词。隐喻基于事物之间的相似性,这种相似性表现为复合名词与其中的喻体名词具有相同的某种物性角色。例如,“石狮”与“狮(子)”的形式角色相同,因为它们所指事物的外形相似。隐喻式“石X”、“纸X”表构成(材料)都是后喻式复合词,即后面的名词是隐喻用法,多利用中心名词的形式角色(外形)。中心名词X如果是类型不确定的名词和自然类名词,一定存在隐喻,如“石板”、“纸条”、“石狮”、“纸花”。形状名词最初其实也指具体事物,如“板”的本义是“片状的木头”,只是隐喻引申成了形状像木板的物体,而且这个义项成了中心意义。“纸老虎”除了后隐喻,还存在整体隐喻。X如果是人造类,大部分不存在隐喻,如“石碑”、“纸盒”。少部分是后喻式复合词,如“纸船”、“纸巾”,有些不仅涉及外形上的相似性,还涉及功用上的相似性。如“纸巾”不只是外形上像毛巾,而且功能上也像,可以用来擦拭、清洁。这些隐喻式复合词如果指人造物,释义模式是“石头/纸做的X”;如果指自然物,释义模式是“X状的石头或纸”。如“石笋”通常释义为“笋状的石头”,而“纸花”通常释义为“纸做的花”“石板”可能是天然形成的,也可能是人为了某种目的专门造的,意思分别是“板状的石头”、“石头造的板子”。这说明人造类、自然类的区分影响释义模式。
1) 石/纸+U: 石板、纸条、纸屑、纸带、纸片[后喻式: 外形]
2) 石/纸+N: 石笋、石狮、石林、纸花、纸鱼、纸鸢、纸鹤、纸人、纸老虎[后喻式: 外形]
3) 石/纸+A: 石钟乳、石锁、纸船[后喻式: 外形]纸巾、纸钱[后喻式: 外形和功用]
与其它复合名词不同,后喻式复合名词能体现两种物性关系,因为定语名词和中心语名词都能激活复合名词的物性角色。如“纸鹤”中“纸”说明了纸鹤的材料(构成角色),而“鹤”说明了纸鹤的样子(形式角色)。个别“石X” 是前喻式名名复合词,即前面的名词是隐喻用法。如“石煤”、“石女”。
“X石”、“X纸”中多是前喻式名名复合词,主要与定语名词的形式角色有关,但与“石X”、“纸X”不同,不只是利用了名词形式角色中的外形特征,而且还涉及颜色、特性等。如“鹅卵石”形状像鹅卵,“鸡冠石”颜色和形状如鸡冠,“萤石”可以像萤火虫一样发光。如果定语名词是人造类名词“纸”,可能还涉及功用。如“玻璃纸”、“塑料纸”有时可以代替玻璃、塑料的部分功能。
1) N/A+石: 鹅卵石、鸡冠石、白云石、卵石、萤石、油石、钟乳石 [前喻式: 外形、颜色、性质等]
2) N/A+纸: 马粪纸、牛皮纸、绵纸、糯米纸、瓦楞纸 [前喻式: 外形、颜色性质等]玻璃纸、塑料纸[前喻式: 颜色、性质、功用等]
有意思的是,“钟乳石”和“石钟乳”指同一种事物,但命名方式不一样,字面意思也不一样。一个是前喻式,意思是“钟乳状的石头”;一个是后喻式,意思是“组成成分为石头的钟乳状的东西”。
总而言之,后喻式通常涉及物体外形的相似性,前喻式不仅涉及外形,还涉及颜色、性质等。人造类名词做喻体,无论在前在后,都可能会涉及事物之间功用的相似性。
4.4 语义类的推导关系
根据构词成分的语义类型,复合词有四种可能的组合: 自然类+自然类(N+N)、人造类+人造类(A+A)、自然类+人造类(N+A)、人造类+自然类(A+N)。复合词的类型能否从构词成分的类推导出呢?我们研究发现偏正复合名词有两条规律:
1) 如果中心名词是人造类,复合名词一定是人造类,不受物性关系的影响。例如,
N+A=A: 石碑、石雕、面纸、彩纸
A +A=A: 纸箱、纸篓、纸船
有两个例外,“钟乳”、“柱”都是人造类,但“石钟乳”、“石柱”指自然物,这是因为“钟乳”、“柱”是隐喻用法,并不指钟乳和柱子,而是外形像钟乳和柱子的东西,实际上是自然物。
2) 如果中心名词是自然类,复合名词的类受物性关系的影响: 如果修饰成分表形式、规约化属性和自然施成,复合名词是自然类;如果修饰成分表构成(材料)、人为功用或人为施成,复合名词是人造类。如:
N+N=N: 卵石、滑石、石笋(形式);试金石、吸铁石*“吸铁石”可以用来吸铁,这是它的自然属性,与人的意愿无关。因此“吸铁”看作规约化属性,而不是功用角色。(规约化属性);结石(自然施成)
N+N=A: 石林、石狮、石羊(构成)
A + N=A: 界石、柱石、纸鹤、纸花(人为功用);电石(人为施成)
5 结语
本文介绍了基于生成词库理论的复合名词语义信息标注词库,主要标注四种物性信息(构成、形式、功用和施成)和两种语义类型(自然类、人造类)。“纸”、“石”构成的复合词的对比分析显示: 1)物性关系是一种语义关系,不同的物性关系体现了不同的构词、语义模式,这些模式可以用于复合名词的释义。2)不同物性关系与人造类名词和自然类名词的相关度不一样;3)物性信息和两种语义类型可以用于隐喻复合词的解释;4)构词成分的类与复合名词的类之间存在推导关系。总之,物性信息、自然类和人造类是非常重要的语义信息,能揭示复合名词构词和语义的一些模式和规律。
词库的建设才刚刚起步,目前标注了4 000多个复合词,接下来需要进一步扩大规模,细化要标注的语义信息,实现部分自动标注;列出构词、释义模式;把复合名词的分析方法进一步扩展应用到粘合式名词短语的语义分析中(如“爱情故事”、“电影公司”[19]“网易养猪场”、“瘦肉精羊”[20]);并进一步开发其在词汇研究和中文信息处理中的应用,包括未登录词的自动识别、自动释义、词典编纂等。
[1] 董秀芳. 汉语的词库与词法[M].北京: 北京大学出版社, 2004.
[2] 邱立坤.单音节名词(缀)的释义模式与三音节名词的语义结构关系[C].内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集, 2007: 203-208.
[3] 谭景春.名名偏正结构的语义关系及其在词典释义中的作用[J]. 中国语文, 2010, 4: 342-355.
[4] Johnston M, F Busa. Qualia Structure and the Compositional Interpretation of Compounds[C]//Proceedings of E. Viegas. Breadth and Depth of Semantics Lexicons. Dordrecht: Kluwer, 1999:167-187.
[5] 黄洁.汉英隐转喻名名复合词语义的认知研究[J].外语教学, 2008,4: 25-29.
[6] 王洪君.从两个同级义场代表单字的搭配异同看语义特征和语义层级——以“锅”和“碗”为例[J]. 世界汉语教学, 2010, 2:147-157.
[7] Lee, Chih-yao, Chia-hao Chang, et al. Qualia Modification in Noun-Noun Compounds: A Cross-Language Survey[C]//Proceedings of the 22nd Conference on Computational Linguistics and Speech Processing (ROCLING-2010), 2010: 379-390.
[8] 宋作艳.类词缀与事件强迫[J]. 世界汉语教学, 2010,4:446-458.
[9] Song, Zuoyan, Likun Qiu. Qualia Relations in Chinese Nominal Compounds Containing Verbal Elements[J]. International Journal of Knowledge and Language Processing, 2013, 4(1):1-15.
[10] Pustejovsky J, A Rumshisky, J L Moszkowicz, et al. GLML: A Generative Lexicon Markup Language[C]//Proceedings of the Generative Lexicon Workshop, Instituto di Linguistica Computazionale (CNR), Pisa, Italy, September 2008.
[11] Bouillon P, E Jezek, C Melloni, et al. Annotating Qualia Relations in Italian and French Complex Nominals[C]//Proceedings of the LREC-2012 Workshop on “Challenges in the Management of Large Corpora”(CMLC), 2012:1527-1532.
[12] 宋作艳.生成词库理论的最新发展[J]. 语言学论丛, 2011, 44: 202-221.
[13] Pustejovsky J. The Generative Lexicon[M]. Cambridge: The MIT Press, 1995.
[14] Pustejovsky J, E Jezek. Semantic Coercion in Language: Beyond Distributional Analysis[J].Special Issue of Italian Journal of Linguistics, 2008, 20(1): 181-214.
[15] Jezek E. Acquiring Typed Predicate-Argument Structures from Corpora[C]//Proceedings of the Eighth Joint ISO-ACL SIGSEM Workshop on Interoperable Semantic Annotation. 2012:28-33.
[16] Pustejovsky J. Type Construction and the Logic of Concepts[M]. The Syntax of Word Meanings. Cambridge: Cambridge University Press, 2001: 91-123.
[17] Pustejovsky J. Type Theory and Lexical Decomposition[J]. Journal of Cognitive Science, 2006, 6: 39-76.
[18] 李晋霞.《现代汉语词典》的词义透明度考察[J].汉语学报, 2011, 3:54-62.
[19] 王萌,黄居仁,俞士汶,等.基于动词的汉语复合名词短语释义研究[J].中文信息学报,2010,6:3-9.
[20] 魏雪,袁毓林.基于语义类和物性角色建构名名组合的释义模板[J].世界汉语教学,2013(2):172-181.
A Lexicon of Chinese Compound Nouns with Semantic Annotation: Generative Lexicon Theory Approach
SONG Zuoyan1, ZHAO Qingqing1, KANG Shiyong2
(1. School of Chinese Language and Literature, Beijing Normal University, Beijing 100875,China; 2. Key Laboratory of Language Resource Development and Application of Shandong Province, School of Chinese Language and Literature, Ludong University, Yantai, Shandong 264025, China)
The analysis of compound nouns is always an important topic in linguistic study and natural language processing, which is involved with the recognition and automatic interpretation of Unknown Words (UWs), and dictionary compiling. With the up-to-date semantic theory named Generative Lexicon Theory, this paper builds a lexicon of compound nouns with semantic annotation. In addition to the annotation scheme, this paper also demonstrates its potential application in the word-forming and semantic analysis of compound nouns via a comparative analysis of compound nouns containing zhi(纸)and shi(石). It is revealed that qualia roles, natural types and artifactual types are important semantic information to disclose some patterns and rules of the formation and semantics of compound nouns.
lexicon with semantic annotation; generative lexicon theory; compound nouns; qualia structure; semantic type
宋作艳(1978—),副教授,主要研究领域为词汇语义、句法语义接口和中文信息处理。E⁃mail:meszy@163.com赵青青(1989—),博士研究生,主要研究领域为词汇语义学和计算语言学。E⁃mail:zhaoqingqing0611@163.com亢世勇(1964—),通讯作者,教授,主要研究领域为现代汉语词汇、语法、辞书编纂、语言信息处理。E⁃mail:kangsy64@163.com
1003-0077(2015)03-0027-07
2013-04-08 定稿日期: 2013-07-28
国家社会科学基金(10CYY032、12BYY123);北京高等学校青年英才计划项目(Beijing Higher Education Young Elite Teacher Project)(YETP0271);中央高校基本科研业务费专项资金;山东省语言资源开发与应用重点实验室开放基金;国家社科基金重大项目(12&ZD227)
TP391
A