基于认知属性库的原型范畴研究

2016-06-01银思琪曲维光

中文信息学报 2016年6期

关键词：范畴相似性原型

李斌，宋丽，银思琪，曲维光，王萌

(1. 南京师范大学文学院，江苏南京 210097；2. 南京师范大学计算机科学与技术学院，江苏南京 210023；3. 江南大学人文学院，江苏无锡 214122)

基于认知属性库的原型范畴研究

李斌1，宋丽1，银思琪1，曲维光2，王萌3

(1. 南京师范大学文学院，江苏南京 210097；2. 南京师范大学计算机科学与技术学院，江苏南京 210023；3. 江南大学人文学院，江苏无锡 214122)

原型范畴是认知科学研究中的重要理论，使用属性来区分范畴中心成员及边缘成员有着较强的解释力，但该理论一直缺乏基于频率信息的属性数据支撑。该文借助认知属性库的23万条数据，对原型理论研究中经常讨论的“鸟”、“水果”、“交通工具”等范畴的典型成员和非典型成员进行分析验证。认知属性库的数据显示，在汉语中，“鸟”的典型成员是“麻雀”、“燕子”等，和“鸟”具有较多的共同属性；而“企鹅”、“鸵鸟”则只共享了“鸟”很少的属性，且缺少关键的属性“飞”。大体上验证了原型理论的观点。同时，我们也发现“小鸟”的属性特别丰富，具有典型成员的特性。在进一步观察了“水果”和“交通工具”两个范畴后，我们探讨了范畴的跨类现象，进而从数学模型上区分了树结构的层次分类体系和图结构的范畴化体系。

认知属性；原型范畴；语义分类；语义计算

1 引言

原型(Prototype)范畴理论是认知科学的重要理论，是对古希腊的亚里士多德以充分和必要特征为分类依据的范畴论[1]的扬弃，是吸收家族相似性理论[2]，以行为实验为依据而形成的，在认知语言学研究中占有重要地位。在亚里士多德那里，从对万事万物分类的角度出发，主要关心分类的标准，并不区分同一范畴里面成员的典型性和重要性[1]。20世纪上半叶，维特根斯坦[2]的家族相似性(Family Resemblance)理论则从词语如何判断为某个范畴的分类依据出发，认为范畴不是因为共同特性而是因为成员之间重叠交叉的相似性结合在一起的，范畴中的成员因其与原型的相似性而被认为是范畴的成员。而现代的认知科学则进一步从人类认知能力的角度考虑，认为范畴内的成员有典型性的问题。Rosch[3]使用水果、家具、交通工具、武器、蔬菜和衣服六类共120个常用词语，对400名大学生进行行为测试，以证明范畴中最典型的成员具有本范畴成员中最多的共同特征，而与其他范畴的成员具有最少的共同特征。

Rosch[4]进一步研究了基本层次范畴(Basic Level Category)问题，认为：基本层次范畴拥有同一个范畴内的大量公共属性，它在范畴化的过程中最为重要，在儿童语言习得的过程中最早被范畴化和命名。她用行为实验的方法，对200位美国大学生进行测试，对英文中的“bird(鸟)”等九个范畴的典型词语进行判定。如“鸟”范畴下的“老鹰”、“麻雀”等，通过观察下位词语“秃鹰”、“歌雀”的典型性，进而区分出上位范畴、基本层次范畴和下位范畴(见表1)。

表1 Rosch对基本层次范畴的实验材料样例

Rosch[4]做了一系列相关实验，包括各种类型的词语和视觉实验，结果发现：在范畴化过程中，范畴内的典型成员在共有属性方面有优势，有些典型成员的重要性甚至超过了上位范畴。从而将典型成员划为基本层次范畴。

总结起来，原型范畴理论有四个要点： (1)同一个范畴内的成员存在梯度差异，有一些成员是典型的原型(prototypical，译作原典型)成员，其他成员依靠和原典型成员的相似性得以进入该范畴；(2)特征也是具有梯度的，有的特征是重要的，有的是不重要的；(3)同一范畴内的所有成员并不一定存在共同特征，而是呈家族相似性逐步扩散，范畴的边界也并不明显；(4)在上位范畴、基本层次范畴和下位范畴中，最重要的范畴是基本层次范畴。

尽管Taylor[5]发展和完善了原型范畴理论，但该理论仍然存在三个基本问题： (1)属性特征的选取存在主观性和随意性[6]。该理论使用的行为实验在准确度、可靠性上来说，是经得起验证的，但是在测试用词的覆盖面上显然存在数量上的局限。而在使用特征进行论证的时候，特征的数量很少，往往只是举例性质。行为实验关注的是验证典型性的问题，特征并不是研究的重点。如果能够将这些特征较为客观地罗列出来，则可以更好地验证原型范畴理论；(2)到底存在多少基本层次范畴，是不是在所有的分类层级上都存在基本层次范畴,并不清楚。按照这个理论，“苹果”是“水果”基本层次范畴中的原典型成员，那么“苹果”有没有自己的典型成员，“水果”是否是其上位范畴的“植物”或“瓜果”的典型成员，“植物”是否是“生物”的典型成员，这些问题都值得讨论；(3)范畴化是自然认知分类而不是有意识的科学分类。亚里士多德是科学分类的代表，层层划分，每层有明确的分类标准。而自然分类的范畴化过程，是把相似的事物按照家族相似性逐步地归并在一起。这两种分类到底会引出哪些问题，应该在哪些场景下使用哪种分类方法都是值得探讨的问题。

因此，如果能为原型范畴理论提供较为客观的数据支持，在特征的数量和典型度上予以量化，则可以更好地发现这个理论存在的问题。过去特别缺乏大规模的特征属性数据库，而近年来李斌等[7]、Li等[8]构建的汉语认知属性库正提供了这样的量化数据。该工作将传统研究中的联想意义和文化意义在认知语言学的视角下重新定义为日常感知知识之下的认知属性，从互联网上获取了数百万条汉语“像+喻体词语+一样+喻底属性”的原始数据，人工校对后形成了23万余条带有频率信息的“词语—属性”对，如“猪”的“懒”、“笨”、“肥”，“鸟”的“飞”、“自由”等。该库共覆盖了82 937个词语和100 271个属性，其中具有五种以上属性的词语达到6 745个。这个数据恰好可以用于验证词语的属性以及范畴化问题。认知属性提供了词语概念所具有的属性，而频率信息则可以模拟这些属性的重要程度。

我们使用认知属性库校对后的23万条数据及其配套的可视化查询系统*http://www.cognitivebase.com/，来分析“鸟”、“水果”、“交通工具”这三个前人研究和讨论较多且范畴差别较大的语义类别。探讨测试词语的认知属性这种来自于互联网的数据能不能用于验证原型理论，能不能更好地讨论原型范畴理论的三个问题。使用认知属性库的缺陷是没有声音和图像的表示，例如，“鸟”的轮廓信息，难以用文字表达，却在范畴化过程中扮演重要角色。不过，限于全方位的特征属性数据库尚未出现，本文只尝试用文字表达的认知属性来测试原型范畴理论。

2 原典型成员的验证

要验证“水果”、“鸟”、“交通工具”三个类别的原典型成员，首先需要像Rosch[3-4]一样，列出十个左右的常见下位词和干扰词，通过上位词和下位词认知属性的匹配程度来确定原典型成员。匹配的属性数量越多、频次越高，则认为典型性越高，反之则越低。进而再观察成员之间的属性匹配程度，以验证家族相似性。

2.1 水果

水果的品种很多，我们选取了十种常见水果，包括“香蕉”、“苹果”、“梨”、“西瓜”、“桔子(橘子)”、“芒果”、“橙子”、“桃子”、“草莓”和“葡萄”。希望通过认知属性库来观察人们平时常见的“水果”到底有哪些是典型成员，是“苹果”的典型性更高，还是“葡萄”更高。另外，人们对“黄瓜”、“西红柿”到底算不算水果的争议一直存在，我们将其作为干扰词一并分析。

表2给出了这些词语和“水果”一词的属性共享情况。“水果”一词有59种属性；“苹果”有113种属性，其中12种和“水果”共有；“葡萄”有78种属性，其中七种与“水果”重合。

表2 水果词语的属性

表2中，按照和“水果”相同的属性数量多少计算，水果的典型成员依次为“苹果、葡萄、草莓、西瓜、桃子、梨、橙子、芒果、桔子、香蕉”，这与前人的研究和普通人的直觉基本相似。虽然“西红柿、黄瓜、番茄”被排除在外，但它们与“水果”没有共同属性，则与直觉有些冲突。其实，在“西红柿”的十个属性中，有一个是“甜淡可口(频次2)”，也近似地拥有“甜”的属性。而“黄瓜”则没有“甜”的属性。如果我们进一步利用认知属性库的可视化查询的功能，将这些词的属性同时呈现出来(图1)，则可以看出一定的家族相似性。“西红柿”与“苹果”、“桃子”共有“圆”的属性，与“苹果”、“草莓”共有“红”的属性。“黄瓜”

与“葡萄”共有“绿色”的属性，与“苹果”、“梨”共有“脆”的属性。这大致上可以验证原型理论的成员梯度差异说。“香蕉”虽然是水果，然而属性统计却显示它属于最不典型的水果。从图1可以看出，其实“香蕉”和“苹果”、“桔子”、“梨”都有一些共同属性，可以印证家族相似性理论。

图1 水果词的属性图注：深色结点表示概念词语，浅色结点表示属性词语，连线的粗细代表“概念”和“属性”之间的强度(同现频率越高则线条越粗)，而线条的长短不表示任何意义。

再从属性上看，“甜”为我们所观察的水果类词语共有(在“橘子”和“桔子”合并的前提下)，而“黄瓜”没有，“甜”似乎具备了划分类别的能力。但是，(1)“甜”这个属性并不是“水果”频次最高的属性，也不是水果类词语频次最高的属性；(2)“甜”也不是人们对于水果划类的最主要依据，因为“糖果”等食品也很甜。利用认知属性的属性扩展查询功能，自动生成一个词图，包含“水果”、水果的属性以及具备这些属性的词(图2)。图上可以看出“水果”和“蛋糕”、“糖果”确实拥有不少共同属性，以至于位置非常接近。“美丽”、“可爱”、“饱满”为多种水果的共同属性。但是这几个属性并没有被“香蕉”、“西红柿”所共享。所以，原型理论认为的划类特征不一定存在的说法仍然是成立的。

值得注意的是： (1)每个词语还有着大量的属性没有和其他水果词共享；(2)“苹果”的电子产品意义下的诸多属性都没有和其他水果词共享，在很大程度上也有了词义消歧的作用。

从图2上看，“水果”和“红苹果”、“苹果”、“草莓”最为接近。“水果”和其他类别的“蛋糕”、“甜点”、“果冻”等甜食接近，与“阳光”、“雨”、“空气”、“向日葵”也很接近。这说明，我们在调查原典型的时候，其实已经限定了相似词语的语义类别，把不是水果的词排除在外。可是，如果从口感和视觉上考虑，“水果”和“果冻”确实有很多相似之处。因此，我们认为，典型成员含有较多的共同属性，但是与其他类别的词语也可能具有很多共同特征。认知上相似的事物，按科学分类法则会列入不同的类别。

2.2 鸟

下面我们再对鸟类词语加以分析。和水果词相似，我们预期的有： (1)哪些鸟是典型的鸟，它们有哪些典型特征；(2)“企鹅”和“鸵鸟”是否具备“鸟”的典型特征，是否也呈现出家族相似性。

图2 “水果”的属性二级扩展图

我们考察的词语有八种比较典型的鸟： “麻雀”、“老鹰”、“燕子”、“鸽子”、“乌鸦”、“喜鹊”、“鸭子”、“天鹅”，它们作为鸟类的原型范畴。同时以“企鹅”、“鸵鸟”两种不太典型的鸟作为干扰词。

表3 鸟类词语的属性

根据表3的统计，和“鸟”共有属性最多的是“老鹰”和“燕子”,都有15个共有属性。其他依次为“鸽子”、“麻雀”、“鸭子”、“天鹅”、“乌鸦”、“喜鹊”。“企鹅”、“鸵鸟”这两种鸟与“鸟”的共同属性非常少。这与人们的直觉基本相似，不同的鸟的典型性可以根据属性的多少和频次形成梯度关系。

除了“企鹅”和“鸵鸟”，其他八种鸟都具有“飞”这个属性。与水果的“甜”不同，“飞”几乎位居各种鸟的属性的前三位，是特别重要的属性。可是“蝙蝠”、“蝴蝶”、“蜻蜓”、“飞机”也会飞，“飞”也很难作为划类的单独依据。我们把这些词按照属性生成词图(图3)，同样可以看出，“飞”这一属性为各种鸟所共有，唯有“企鹅”和“鸵鸟”不具备。“鸟”和“老鹰、乌鸦、燕子、麻雀、鸽子”都具有相当多的共同属性，呈现出家族相似性。“企鹅”和“鸭子”具有十种相同的属性,“摇摆”、“呆”、“笨拙”等等；和“鹅”有四种共同的属性: “笨”、“游”、“快乐”、“点头”；和“天鹅”共有属性“优美”，和“麻雀”共有属性“蹦蹦跳跳”。“鸵鸟”和“鸭子”、“燕子”共有属性“跑”。

图3 “鸟”类词语的属性图

值得注意的是，“企鹅”和“天鹅”同有“鹅”字，属性方面的差异却很大，它们只有一个共同属性“优美”。这与认知语言学的理论判断基本一致，也与行为实验的结果基本一致，即下位范畴概念的属性差异可能是较大的。认知属性库，实际上也可以看作是一种语言行为实验的材料，是人们在网络上的语言表达所凸显出来的属性。

如果从属性二级扩展图上观察(图4)，则与我们预想的差别较大。和“鸟”最相近的词有“小鸟”、“水鸟”、“鸟儿”、“候鸟”、“大雁”，这些词居然都没在我们之前考察的鸟类词语之列，这说明范畴化研究在缺少数据支撑的条件下，纯粹依靠内省法选择实验材料，可能会存在一定的缺陷。只根据语义类别来选择词语，可能会遗漏属性高度相关的词语。另一方面，“猫”、“鱼”、“天使”、“箭”、“蚊子”也呈现出和“鸟”的相似性，但这些相同的属性并不能从家族相似性那里得到解释，而应看作普通的属性相同。离开语义分类条件下的语义类家族，就不是家族相似性，而只是普通概念之间的相似性了。

“小鸟、大鸟、候鸟、蜂鸟、水鸟、飞鸟、百灵鸟”也具有大量的属性。“大鸟”和“小鸟”，用原型理论有点难解释。“鸟”前面加了定语，它们应该属于下位范畴，可它们具有的属性数量较多，特别是“小鸟”的属性数量为226个，甚至超过了“鸟”的200个。“小鸟”的属性数量和强度已经具备了基本层次范畴的能力。该如何对此进行解释就成了一个问题。

2.3 交通工具

带着上面的问题，我们接着来看交通工具类词语。这里同样选择了12种交通工具“车”、“船”、“汽车”、“货车”、“公交车”、“自行车”、“火车”、“地铁”、“马车”、“摩托车”、“飞机”、“轮船”。作为上位范畴的“交通工具”，只有“方便”和“挤”两个属性，属性数量之少有点出乎意料，所以很难像前两节那样用表格展示，只能直接分析这些交通工具词语的词图(见图5)。

从图5可以看到： (1)认知属性的数量不均衡。“车”、“飞机”、“汽车”、“火车”、“地铁”、“公交车”、“船”、“自行车”的认知属性都较为丰富。而“马车”、“摩托车”相对较少；(2)没有一个属性是全部词所共有的。覆盖度比较高的属性是“快”、“跑”、“行驶”。交通工具的速度不同，所以“快”没能覆盖所有的交通工具。交通工具内部差异巨大，而海上、陆上、空中的区别，也使得驾驶和行进的方式不同。所以，交通工具之间有一些共同属性，但不是全体所共有的属性，呈现出一定的家族相似性；(3)相比水果和鸟类词语，成员之间的属性共享程度并不高，大多数词语的属性都是独享的。

图4 “鸟”的属性二级扩展图

图5 交通工具类词语的属性图

上述三个语义类的词语，基本上验证了原型理论、家族相似性的基本要点。不过，仍然遗留了一些问题： (1)为什么“交通工具”的认知属性如此少？(2)“小鸟”和“鸟”到底是什么关系？(3)“小鸟”是否可以进入基本层次范畴？我们在下一节集中讨论。

3 基本层次范畴与层次分类体系的讨论

3.1 分类体系的讨论

“交通工具”作为上位范畴的认知属性少，让我们对于基本层次范畴有了新的认识。基本层次范畴的原意是相对于上位范畴来说的，人们对一个上位范畴的认知，实际上是通过基本层次范畴中典型的原型成员来完成的。然而，“交通工具”是否属于其上位范畴的基本层次范畴？我们遇到的“水果”、“鸟”的认知属性众多，是否也属于基本层次范畴？交通工具的上位范畴一般来说是“人造物”，而词语“人造物”或“人工物”却只有0个属性。是不是越抽象、越上层的词语，其认知属性也越少？

带着这些问题，我们重新审视这三个类别的词语。“水果”的上位范畴“植物”有148个属性，“鸟”的上位范畴“动物”有116个属性，“动物”的上位范畴“生物”有46个属性，属性的种类依然较多。所以，并非越上层、越抽象的词语的属性就越少。那么，问题出在哪里呢？我们当然可以说，上位范畴本身不一定需要有很多属性。可是，如果不需要很多属性，那么如何判断其与基本层次范畴之间的关系呢？

如果换一个思路来看，原型范畴所采用的层级型(树形结构)的分类体系也许是个牢笼。“交通工具”似乎有个“人造物”的上位范畴，“马、牛、驴”也曾是农业社会的重要交通工具，也可以纳入交通工具的范畴，可它们的上位范畴更应该是“动物”。所以，人们的分类体系本身可能是交错的，而不完全是层级的。再以水果词语来说，水果里面的“草莓”和“苹果”，其实差异很大，其宿主一个是草本植物，一个是木本植物。而且，人们只是称呼这些植物的果实为水果，而不是植物本身。所以“交通工具”和“水果”都是比较交叉的分类或范畴。层层分类的体系，也许并不是人们自然的分类方式，而是至少在亚里士多德那里就开始的二值逻辑的硬性层次分类。相反，人们的自然认知模式可能只是从某一个角度对事物进行范畴化，不是层层分类，而是归类，把事物归为一类或几类。范畴化的归类过程并不一定具有强烈的排他性，不那么泾渭分明。在很多情况下，范畴化可能只归为一类，即把具有某些相同属性或功能的对象统一命名而已。所以，如果按照层次分类方法，“马”既属于动物范畴，又属于交通工具范畴。可是，如果抛弃层次分类方法，众多范畴自然归类的组织方式更值得探讨。

层次分类方法的本质是建立分类标准，利用二值逻辑建立分类树。而范畴化则是不断从新的角度建立新类，新类与原有的类别可能界限分明，也可能有交叉。从离散数学建模的角度看，范畴化形成的自然归类体系，不再适宜采用树(tree)形结构，而应使用图(graph)结构来表示。在图结构上，范畴和范畴之间可以有关系，同一个范畴内部也可以划分层次，范畴内的成员也可以和其他范畴及成员通过属性发生关系。属性可以有很多种，关系也可以有很多种。这种讨论看起来并不新鲜，现在流行的语义网(semantic web)和语义网络(semantic network)[9]都是基于三元组<概念1，概念2，关系>构成的图结构。我们并不想否认层次分类方法的作用；相反，基于树结构的层次分类由于结构性好，使用范围很广。我们想强调的是，人们自然的范畴化并不是树形的分类体系。正是因为人们自然形成的范畴体系不是树形结构，才需要做好层层分类的树形分类体系，这种体系从亚里士多德一直做到今天。从这个意义上来说，认知属性库中词和属性所构成的图，正体现了人们自然形成的范畴化体系。词和词之间通过属性进行关联，形成多样的关系。认知属性库做不到的是确定词语的上下位关系。

从这个角度回过头来讨论原型理论，也许更为清楚。人们在创立某一范畴的时候，根据典型成员来归纳范畴；人们在习得范畴的时候，也是通过典型成员的共同属性来习得；在使用范畴的时候，则依据典型成员的共同属性。某一新事物能否进入某范畴，就看能不能和典型成员具备一定的共同属性。共同属性多或具备了关键属性，则接近典型成员；共同属性少且强度低，则成为边缘成员，形成梯度的成员集合。只要抛掉层层划分的等级分类体系，原型范畴理论就会更加自然，不存在分类交叉的矛盾。

3.2 带权二部图

进一步来说，与语义网的三元组不同，认知属性所构成的图，可以抽象为一个带权的二部图。

图6 二部图示例

二部图(Bipartite Graph)的一般定义是，设G=(V,E)是一个无向图。如顶点集V可分割为两个互不相交的子集V1、V2，并且图中每条边依附的两个顶点都分别属于这两个不同的子集，则称图G为二部图。如果每条边上带有权重，则称为带权二部图[10]。

由带权二部图的定义可知，认知属性库的结构与语义网络的普通图之间确实有区别。认知属性库正好分为词语和属性两类，“词语-属性”有频次信息，可以作为权重，所以是典型的带权二部图。在这个图上可以做三种基本操作： (1)给定一个词，可以寻找其属性；给定一个属性，也可以寻找具有该属性的词；(2)给定一批词，则可以找到它们的属性的并集或交集；给定一批属性，也可以找到具有这些属性的词语的并集或交集；(3)给定两个不同的词，可以依据各自的属性集合判定它们的相似程度；给定两个不同的属性，也可以依据具有一种属性的词语集合判定这两种属性的相似程度。

所以，原型范畴理论的相关实验可以看作第三种操作。即给定两个词，判定其相似程度。但是原型范畴理论并不仅止于此，而是附加了层次分类的树形结构。在词语集合V1中约定了词语的树形层次关系，如“交通工具”的下位词有“汽车”，“汽车”的下位词有“小轿车”等各种汽车。然后每个词语再根据属性进行原典型的判定。我们把这种附加了树形结构的二部图呈现为图7。词语集合的树形层次关系，并不是完整的分类体系，而是只有三层： “上位范畴—基本层次范畴—下位范畴”。

图7 原型范畴的附加树形结构的二部图

由此可以更清楚地看到，Rosch[3-4]的原型范畴理论虽然抛开了完整的树形分类体系，却依然使用了树形层次结构。这三层树结构，也许可以反过来解释为何很难取得一致公认的完整的树形分类体系。每个范畴建立的角度不同，建立后就会形成三层树结构，而全部或很多的范畴放在一起要建立层次的时候，这些范畴的三层树就会出现大量的成员交叉现象。

4 结论与未来工作

本文就认知科学和认知语言学中的原型理论进行了考察，使用认知属性库的数据，对“水果”、“鸟”、“交通工具”三个类别的词语进行典型性分析。根据属性的种类和频率信息，基本验证了原型范畴理论。然而，我们也发现“小鸟”这样认知属性丰富的词语，它也具有典型成员的特性；而“水果”和“交通工具”中存在范畴的跨类现象，进而从数学模型上区分了树结构的层次分类体系和图结构的范畴化体系，利用二部图探讨了认知属性库和原型理论的模型差异。最后总结了认知属性库对于原型理论和心理学研究的价值。

我们得到的主要结论是： (1)认知属性库可以用于验证原型理论关于原典型成员的界定；(2)原型范畴理论可以用带树结构的二部图来描述；(3)原型理论可以解释为何构建完整的层次分类体系是困难的。依然存在的问题是： (1)在原型理论中，“小鸟”这样的词语该如何定位；(2)如何构建更好的结构来描写词语关系。

在未来的工作中，我们将继续关注词义组织方式的研究进展，继续构建符合人类认知特点且便于计算的词义知识库。在认知科学和语言计算的双重视野下，进一步研究词义理论存在的问题，以提出更符合行为实验和语言材料的数学模型。

[1] 亚里士多德著. 方书春译. 范畴篇[M]. 北京：商务印书馆, 1959.

[2] 维特根斯坦著. 李步楼译. 哲学研究[M]. 北京：商务印书馆, 2000.

[3] Rosch E, Mervis C B. Family Resemblances: Studies in the Internal Structure of Categories[J]. Cognitive Psychology. 1975, 7： 573-605.

[4] Rosch E, Mervis C B, Gray W, et al. Basic Objects in Natural Categories[J]. Cognitive Psychology. 1976, 8(3)： 382-439.

[5] Taylor J. Linguistic Categorization： Prototypes in Linguistic Theory[M], Oxford: Clarendon Press, 1989.

[6] 汪桂英. 原型范畴理论缺陷再议[J]. 厦门大学学报(哲学社会科学版), 2011(6)：42-48.

[7] 李斌, 陈家骏, 陈小荷. 基于互联网的汉语认知属性获取及分析[J]. 语言文字应用, 2012(3)： 134-143.

[8] Li Bin,Bai Xiaopeng, Yin Siqi, et al. Chinese CogBank: Where to See the Cognitive Features of Chinese Words[C]//Proceedings of the Third Workshop on Metaphor in NLP, Denver, Colorado, 2015: 77-86.

[9] Berners-Lee T，Hendler J, Lassila O. The Semantic Web[J]. Scientific American. 2001： 34-43.

[10] Reinhard Diestel 著. 于青林, 王涛, 王光辉译. 图论(第4版)[M]. 北京：高等教育出版社, 2013.

A Prototype Theory Study Using Cognitive Property Bank

LI Bin1, SONG Li1, YIN Siqi1, QU Weiguang2, WANG Meng3

(1. School of Chinese Language and Literature, Nanjing Normal University, Nanjing, Jiangsu 210097, China;2. School of Computer Science and Technology, Nanjing Normal University, Nanjing, Jiangsu 210023, China;3. School of Humanity, Jiangnan University, Wuxi, Jiangsu 214122, China)

As an important theory in cognitive science, the prototype theory is plausible to use properties to distinguish the central and periphery members in a category. However, there’s no quantitative evidence to support the theory. In this paper, we apply the cognitive property bank including 230,000 “word-property” pairs to validate the theory via 3 categories:bird,fruitandtransportation. The results show that in Chinese, the typical members of bird aresparrowandswallow, which share many properties withbird. While thepenguinandostrichshare very few properties withbird, especially lacking the key propertyfly. The data in cognitive property bank basically supports the idea of the prototype theory, but we also notice that thelittlebirdhas many properties, which make it available for a typical member in the category. We also distinguish between the tree based ontology and graph based categorization by bipartite graph.

cognitive property; prototype theory; semantic categorization; semantic computation

李斌(1981—),博士,副教授,主要研究领域为计算语言学。E-mail:libin.njnu@gmail.com宋丽(1993—),硕士研究生,主要研究领域为计算语言学。E-mail:songli1105@sina.com银思琪(1990—),硕士,主要研究领域为计算语言学。E-mail:nnuyinsiqi@126.com

1003-0077(2016)06-0090-10

2016-09-27 定稿日期： 2016-10-15

教育部青年基金(16YJC740034)；山东省语言资源开发与应用重点实验室开放课题；江苏高校哲学社会科学研究项目(2016SJB740004)；国家自然科学基金(61272221，61300152)；国家科技支撑计划课题(2014BAK04B02)

TP391