现代汉语形容词资源库的构建
2018-05-29王厚峰汪梦翔
饶 琪,王厚峰,汪梦翔,李 慧
(1. 北京大学 计算语言学教育部重点实验室,北京 100871;2. 北京大学 计算语言学研究所,北京 100871; 3. 教育部语言文字应用研究所,北京100010)
0 引言
知识库构建在自然语言处理研究诸多分支领域中具有基石意义,是整个自然语言处理研究系统架构中不可或缺的组成部分。知识库的规模与质量很大程度上决定了自然语言处理系统的成败[1],这已成为自然语言处理技术研究者和系统开发者的共识。但语言资源建设的核心问题:构建一个什么样的知识库以及怎样构建?对此不同的语言知识工程存在显著分歧,这可以从“WordNet、FrameNet、ConceptNet”等最具有代表性的英语知识工程的构建理念和细节方面清晰看出。汉语资源建设情况具有相似性,近年来面向中文信息处理的大型知识库构建工作不断得到推进,先后形成了若干具有代表性的大型知识工程:如知网(HowNet)、同义词词林(扩展版)、北京大学综合型语言知识库(GLKB)等,但它们却有各自的构建侧重点:1)HowNet以“义原”为基础全局刻画人类的概念体系;2)同义词词林(扩展版)以“语义”为视角实现汉语词汇的同义汇集;3)GLKB则以“词类”为纲描述词的各种语法信息。尽管存在理念差异,但这三大汉语知识库都是以词为基础构建对象的。
以词为基础表示单元,构建一个覆盖面大、加工精良的汉语知识库,能够有效推动面向汉语的文本理解、文本生成以及自动问答等多方面研究的深入。词是语言的基本单位,也是短语、小句、篇章等更大语言单位衍生的基础。认知神经研究也表明了词在心理词库的表征与长时记忆存储、提取中的基础地位[2],事件电位相关技术(ERP)的实证调查也表现了对这一观点的支持[3]。虚词与实词是汉语词类的基础两分体系。郑州大学构建了一个涵盖副词、介词、连词、助词、语气词、方位词,包括词典、虚词用法规则库、虚词语料库的“三位一体”汉语虚词知识库[4]。实词知识库方面,名词、动词是汉语知识库构建的重点,形容词的关注显得还不够,同义词词林(扩展版)和北大综合型知识库(GLKB)虽然也对形容词有所涉及,但前者主要从“语义”角度揭示形容词是如何组织的,后者的形容词部分更多追求是对“词例”各种语法功能信息的展示,还缺乏对形容词全景知识图景的展示。更为遗憾的是,截止目前还未见到专门的形容词知识库构建情况的报道。本文主要讨论与现代汉语形容词知识库(以下简称PAKB)构建相关的问题。
1 相关问题1.1 形容词知识库构建的目标
从已有的汉语大规模知识库来看,它们出发点与落脚点多是适用于中文信息处理的,在语言学本体研究领域中难以得到充分应用。需要看到的是,汉语形容词研究积攒了丰富的学术成果,如果这些研究构建在一个公共的、方便用来比较的资源平台之上无疑会显得更加客观。例如,形容词的重叠是汉语本体研究中的一个重要问题,重叠的类型有AA、ABB、A里AB、AABB、BBAA等,以ABB型形容词为例,《现代汉语八百词》附录《形容词生动形式表》、《现代汉语词典》(第7版)(以下简称《现汉》)、《现代汉语重叠形容词用法例释》[5]在收录ABB型形容词方面就存在差异,具体情况可见表1。
表1 三种辞书ABB型形容词的收词情况
从表1可以清晰看出,这三种辞书在收录ABB型形容词数量方面存在较大的差异。无论以何种视角来介入汉语ABB形容词重叠问题研究,对重叠现象层面上的观察与把握都是首要的问题,如果每一位研究者都从调查、构建词表开始入手,不仅费时费力,研究结论也缺乏相互的可比性。在PAKB构建目标上,我们不仅追求知识库对中文信息处理的推动作用,也在意知识库在汉语本体研究中的基础平台意义,希望构建的形容词知识库能够成为汉语本体研究领域中可供比较的基础资源数据集。
1.2 形容词集构建
在开始讨论如何构建汉语形容词知识库之前,有个问题需要首先予以回答: 现代汉语中到底有哪些形容词?一个对现代汉语语料高覆盖率、完善的形容词词集是构建汉语形容词资源库的重要前提。为了回答这一问题,我们进行了分“两步走”的工作。
第一步是“求全”。上述问题的答案显然来源于各类辞书,首先调查了目前出版的两部形容词词典: 郑怀德、孟庆海编撰的《汉语形容词用法词典》收形容词1 067条[6];安汝磐、赵玉玲编撰的《新编汉语形容词词典》收词2 268条[7],整体收词规模较小。其次利用《现汉》带词性标注的特征,以第7版为蓝本,对词典中所收录的形容词进行了人工整理,共得到形容词5 069条;同时也考察了《现代汉语语法信息词典详解》对形容词的收录情况,在该书中形容词被细分为形容词、状态词和区别词三个子类,分别收有形容词1 473个、状态词203个;区别词194个。综合这四种工具书对“形容词”收词情况,取它们的合集作为构建PAKB的词条基础。
第二步是“补全”。任何一种汉语工具书囿于其自身的局限,在事实上难以穷尽枚举日常语言生活中所有的词。同时行进中的语言演变也会造成“词汇总藏”中新成员的涌现,其中的一部分留存到语言中来,这就是得到语言的过程[8]。就形容词来说,其中的一个子类“区别词”(也称之为“非谓形容词”或《现汉》词性标注体系中的“属性词”),如“大型、中型、小型、大中型、中小型”等是汉语新词的一个重要“出生地”,其繁殖率仅次于名词[9]。新的形容词与已有的它类词扩张出形容词用法是现代汉语形容词词集版图扩大的两条最主要途径。下面各举一例略加说明。
先说新的形容词,如: 【结构化】:
在《现汉》的“结”字头下共收录有53个词,未收录“结构化”一词。“结构化”一词指的是在思考、分析、解决问题时,以一定的范式或者流程顺序进行,以假设为先导,对问题进行正确的界定,假设并罗列问题构成的要素,其次对要素进行合理分类,排除非关键分类,对重点分类进行分析,寻找对策,制订行动计划。如下面几例:
例1广东教师招聘结构化面试模拟题(29): 如何遏制幼儿园暴力事件。(http://gd.offcn.com)
例2目前各种类型的结构化金融产品的规模已经达到了十多万亿元,并且这种结构化产品的设计思路,在鼓励民间资金进入基础设施领域的PPP投融资模式中得到了进一步推广。(http://opinion.jrj.com.cn)
例3人行长春支行举办“我与行长面对面”结构化研讨活动。(http://finance.jrj.com.cn/)
在以上三例中,“结构化”均是属性形容词,使用在“面试”“产品”“研讨”等名词前头,对这些名词进行次范畴的分类,用来凸显与强调这三个名词具有按照一定的范式、流程进行的特征。
再说已有词形容词用法的涌现,如【旗舰】
例4第一个屏幕下指纹识别?三星新旗舰机Galaxy Note 8。(新浪手机,2017-6-8)
例5吉利新款旗舰轿车最新谍照,年内将上市。(新浪汽车,2017-6-8)
例6首家全系列、全品类穗宝旗舰店国庆节盛大开业。(房天下,2016-12-1)
例7CCL是国内最大的自然语言处理专家学者的社团组织——中国中文信息学会(CIPS)的旗舰会议……已形成了十分广泛的学术影响,成为国内自然语言处理领域权威性最高、口碑最好、规模最大的学术会议。(http://www.scholat.com/vpost.)
在过去,“旗舰”是一个名词,指的是海军舰队司令、编队司令所在的军舰。舰队一般是由多艘军舰构成的集合,“旗舰”的名词语义体现的是该军舰在整个舰艇集中的重要性。近年来,“旗舰”可以与部分名词组配,如以上几例中的“~机”、“~轿车”、“~店”、“~会议”。对于生产厂商来说,生产的“手机”“轿车”也是一个集合,通常是多种多款,但它们在这个集合中的地位并不一致,“旗舰”与“手机”“轿车”等名词组配,实际上是对这款“手机”“轿车”在整个产品集中重要性的一种评价,这也是人类类比认知能力对[旗舰: 军舰]关系在不同名词域的映射扩展,这个步骤如下:
(1) 具体: [旗舰: 军舰]刻画了旗舰在{ 军舰1军舰2, 军舰W,……}中的重要性;
(2) 类比关系的转域: [旗舰: 军舰]的关系类比映射CCL在中文信息处理学会举办的会议集中地位、价值中来;
(3) 域的扩张: 专卖店、手机、轿车、会议;
(4) 用法的习得: 评价X在{X1,X2,XW,…}中的重要性。
从旗舰店到旗舰会议,“旗舰”的形容词用法在广泛使用的过程中得到不断的强化,从而沉淀于汉语之中。最近十几年来,汉语的载体形式发生了颠覆性的改变,网络媒体正在日益成为汉语的一种重要载体形式,中国互联网信息中心2017年发布的《中国互联网发展状况统计报告》(第39次)显示,截止2016年12月,中国网民规模已达7.31亿,互联网普及率为53.2%。黏性极高的交互性互联网应用为互联网用户提供了高强化的汉语阅读机会与规约度降低的表达空间。活跃于互联网空间的“新词”与“旧词新用”给中文信息处理带来了新的挑战,这意味着我们需要在知识库构建上能够有效对这些崭新的语言事实予以追踪。我们对最近十年来的新词年度报道类工具书《汉语新词语》(2006—2015)进行了全面的考察[10-11],手工遴选出了近年来产生的形容词98个,如表2所示。
表2 新出现的汉语形容词(2006—2015)
结合这两个步骤的工作,得到了一个含有5 671个词条的形容词词集。为了进一步验证这一词汇集的规模,我们使用了清华大学研发的中文词法分析工具包THULAC,该分词包具有分词、词性标注一体化特征。在出版物和互联网两类载体形式语料上进行了覆盖率的考察,情况如表3所示。
表3 三类语料中形容词词表覆盖情况
严格意义上来讲,我们构建的形容词词库也没有做到完全的覆盖,但已经在不同类型的语料上跨越了90%的覆盖率阈值,表现出了针对不同语料的一定的适用性。进一步分析原因,主要是没有收录若干强势方言中典型常用的形容词,如“苕、二、尖货”等。
1.3 现代汉语形容词的兼类
名词、动词、形容词是汉语的三大类实词,同时也是汉语从“词库”到“句法”得以实现的骨架力量。需要指出的是,部分形容词存在兼类现象,与形容词发生兼类现象的主要是名词、动词。例如,“超前”在现代汉语中就兼有形、动两类词的特征: 动词性的如“~绝后”等,形容词性的如“~消费、~意识、~教育”;“绿色”有名、形两类词的标签,作为名词的“绿色”指的是“绿的颜色”;而作为形容词的“绿色”,通常指的是符合环保要求,无公害,无污染或简便、安全、快捷的途径或渠道,如“~食品、~经济、~通道”等。这在另一个侧面也说明了形容词与名词、动词之间的天然联系。这一点能够得到人类语言中词类演化的证据支持,Heine and kuteva对跨语言中词类的演化进行了模拟[12],如图1所示。
图1 词类范畴演化图
图1中,可以清晰看出,作为词类的形容词处于名词的下级节点中。换句话说,从历史来源的角度上来讲,语言中形容词的涌现是早期名词分化的后果。有研究者注意到“端正、丰富、密切、孤立、健全、状大”等词在20世纪40年代的汉语中只有形容词义项,但从20世纪五六十年代开始起就常用作动词[13]。我们也注意到,20世纪80年代以来,“潇洒、清洁、方便、规范、完善、突出”等词具有了动词用法。现代汉语中到底有哪些形容词存在兼类现象,是和名词发生兼类、还是和动词发生兼类,或者是与名词、动词均发生兼类?厘清这些语言事实,对汉语本体研究以及词性自动标注问题都具有十分重要的意义。因此在构建汉语形容词知识库过程中,PAKB极其注重形容词的兼类现象信息的揭示。
1.4 形容词的子类与核心功能
词类子类的出现反映了研究者对该词类认识的深入。在汉语研究文献中,存在不少术语来表征形容词的子类体系,如简单形容词、复杂形容词的两分[9];一般形容词、非谓形容词的两分[14];性质形容词与状态形容词的两分[15]。尽管这些术语在表述上有参差,但都清晰地指出了形容词内部存在差异,并且这种差异可以得到真实文本里句法上的验证。比如非谓形容词(区别词)在句法层面上一般只能做定语,如“活期存款”中的“活期”,在句法上如果要进入谓语的位置,是需要存在于“是……的”构式之中的,并且在句法上有一个重要的约束条件,就是它前头出现的否定词只能是“非”,不能是“不”。这些充分说明在PAKB知识库构建的过程中需要对具体个案词条的子类打上标签。
长久以来,在词类本质问题认识上,学者们考虑较多的是句法的分布式特征,对同类词在语义层面的共性缺乏足够的讨论。事实上,词类一方面与句法分布表征有着密切关联,另一方面也与语义类存在对应关系,这种对应背后体现并反映了人类对不同语义类语法编码的共性认知基础。Dixon提出了鉴定形容词的三条标准: (1)与动词和名词有语法上的区别;(2)语义上包括部分或全部典型形容词的语义类型,如“维度、年龄、价值、颜色”等[16]; (3)具有充当不及物谓语和/或充任系词补语、名词短语的修饰语的功能。Croft在此基础上将句法范畴、语义和语用功能结合起来,提出了句法范畴的原型关联[17],如表4所示。
表4 句法范畴的原型关联(引自Croft,1991)
在汉语形容词的本质认识问题上,我们在部分承认Croft观点的基础上,对汉语形容词提出了如下的主张性认识。
(1) 句法上,汉语的形容词与名词具有天然的联系。在句法层面上,形容词几乎离不开名词,单独的形容词不具备成句的功能,除非出现在问答对子中。
(2) 语义上,形容词是对名词多维属性中的一个侧面的刻画,对名词多维侧面中的某一维进行评价,如“大房子”中的“大”就是对具有多维属性的“房子”在空间维度上进行评价,这是形容词的核心本质。
(3) 语用上,形容词多具有情感性。正面、负面两分并不能很好地传导出形容词的情感,部分形容词的情感体现的是话语的态度,如“A里AB”类形容词多体现话语的言说者埋怨、责怪的语气。
(4) 非谓形容词是以团簇的方式存在的,在语用上主要是实现对名词的再分类,起到次范畴化的效果,如“男、女”永远是相对存在。
2 形容词知识库的表示体系
词具有多种信息标签。以往研究主要关注词的形式和意义两端,这种观察无疑生发在静态层面,而动态的语用通常会赋予词几何维度上的信息,从而建构起词的整体知识图景。词的信息标签以外显和内隐的方式存在: 外显是能够被直接感知的,如韵律、结构、高熟悉度的语义等信息;内隐是需要进一步挖掘才能获得的信息,如频率、情感、语体、极性等信息。这也是我们所需要知道和最大程度上试图表示出来的信息,同时也是计算机所需要配备用来学习的知识库。PAKB试图从多个层面来展示汉语形容词的知识全景。
2.1 形式特征集
PAKB对现代汉语形容词形式层面特征的刻画主要包括语音、音节数、重叠形式、语义、重叠情感、语体表现等六个方面。在汉语的形容词词汇集中,不少的形容词存在“语体”使用偏置现象,胡明扬从语体风格方面区分了形容词在口语和书面语中功能上的差异[18]。比如“哀戚”,就是一个典型的只使用于汉语书面语的形容词,但更多的形容词表现出书面语、口语两可的分布,如“哀伤”。有关形容词“语体”信息的标签是已有的汉语大规模知识库所未有刻画过的,同时也可以为自动问答研究提供有效的口语形容词汇集。综合起来,汉语形容词知识库的形式特征集刻画示例如图2所示。
2.2 基于名词的形容词组织与表征
上文中,我们提出了形容词的核心本质是对名词的某一侧面维度进行评价。进一步从跨语言的角度来观察,不同语言里形容词数量上存在多寡的差异。尼日利亚的伊博语是已报道出来的形容词数量最少的语言,只有八个,分别是“大”“小”“黑(暗)”“白(明)”“新”“老”“好”“坏”。据Bhat考察显示,在形容词数量较少的语言中,如Supyire语10个,Bamha语约20个,Luganda语约30个,Acoli语约40个,Kilivila语约50个,Sange语约60个[19]。尽管这些语言形容词数量较少,但仍然对名词评价、刻画了如下的属性:
图2 汉语形容词知识库形式特征示例(前20)
(1) 维度: 大、小;高、低;宽、窄;深、浅;长、短;粗、细;厚、薄;
(2) 价值: 好、坏、纯洁、好吃;
(3) 年纪: 新、老( 旧) 、小( 年轻);
(4) 物理属性: 硬、重、光滑;
(5) 颜色: 红、白、黑;
(6) 速度: 快、慢、迅速。
这说明了这些抽象概念的表征具有跨语言的共性,这些有限的抽象概念可能是词汇组织与表征的重要指针。大脑究竟如何安置词汇和概念? 最近的一项研究利用985个英语常用词汇来绘制大脑的“语义地图”[20],这项研究表明,并不存在一个单独的大脑区域来储存一个词汇或者概念与许多相关词汇存在联系,而是每一个单独词汇会点亮许多不同的大脑位置,形成了一张词汇汇聚网络。研究结果一共识别出12个簇群(clusters),其中每个簇群均保存着与特定概念相对应的词语,这些词语以相关的方式存在。比如,大脑左边,耳朵小面积区域代表着单词“受害人(victim)”,同时这块区域会对诸如“杀害(killed)”“宣告有罪(convicted)”“谋杀(murdered)”“认罪(confessed)”有反应。
从早期汉语的“幽、黄、黑、白、赤、大、小、多、少、新、旧、高”等12个单音形容词到今天汉语里面数量几千的形容词[21],书面语的高度发达催生了汉语中形容词数量几何级数的增长。在PAKB的形容词如何分类组织的问题上,我们是以名词为观察视点,将表征与共享了相同“概念空间”的形容词看成是“自组织”性的簇。举个例子,汉语里面存在数量众多的形容女性外貌的词,如单音节的“美”;双音节的“美丽,好看,漂亮”;四音节的“楚楚动人、闭月羞花、沉鱼落雁、冰清玉洁、粉妆玉琢、国色天香、国色天姿、惊鸿一瞥、明眸皓齿、明眸善睐”等(限于篇幅,不能够列举出所有的词)。这些形容女子外貌的词构成一个自组织的集,“美”在这个集合中是最常用的代表者。与形容女子外貌的集相比较,汉语里面用来形容男子外貌的词在数量上就要少得多,如单音节的“帅”;双音节的“英俊、潇洒”,以及通用性的“好看”;四音节的“一表人才、眉清目秀、气宇轩昂、风流倜傥、高大威猛 、温文尔雅”等 ,在这些词语中,“帅”是该集合的代表。
我们以常用的现代汉语单音节形容词,以及PAKB中形容词解释的元语言作为指针。同时也结合了认知中注意力机制(attention mechanism),需要指出的是,这里的注意力机制与通常意义上“深度学习”中的注意力机制不同,事实上,机器学习中的这一术语也借用自视觉图像认知领域。在这里引入“注意力机制”是想说明: “名词”通常具有不同的侧面维度,但汉语的使用者在观察、刻画名词的这些不同侧面的时候,总会将注意力聚焦在几个有限的维度之上。比如“房子”,人们注意的焦点一般都是“空间的大小、价格、地段价值、舒适程度”等几个维度。这几种维度的注意力将名词映射到形容词之中,就会构成“大房子、豪宅、交通方便、空气好”等“形+名”或“名+形”组配上。因此,我们在构建PAKB的过程中,以“名词”为观察视点,构建了一个形容词所表征的抽象概念体系:
(1) 人: 外貌、性格、气质、品德、情绪、态度、关系、年纪;
(2) 物: 价值、作用、评价、水平、垂直;
(3) 事: 性质、状态、结果;
(4) 时间: 长短、快慢、性质;
(5) 空间: 大小、长短、宽窄、高底、远近、深浅、厚薄;
(6) 感官: 视觉、味觉、嗅觉、听觉、触觉;
(7) 心理: 哀、愁、烦、恨、羞、愧、惊、慌、骄。
在上面这个分类体系下,我们对PAKB中所有的形容词进行了人工的分类与聚类。
2.3 搭配特征集
词汇通常会在更加抽象的语言能力层面上构建起一个涵盖范围极广的知识库,主要包括语音知识、词义知识、词类范畴知识、句法知识、形态知识以及与论元组配的可能与限制等方面。语言使用者通过基于概率的统计学习来学得这一知识库,因此这一知识库兼具有公共性和个体性: 公共性指的是对于某一语言来说,这个词汇的知识库的构成是基于所有语言使用者的经验浮现,对单一的语言使用者来说具有不可逆转性;与此同时,个体对于知识库学得的情况又不尽相同,有程度的深浅和范围宽窄的区分。但个体的词汇知识库源自并服从于集体的词汇知识库。一项来自英语个人词汇知识库如何构建的研究表明: 在随机游走学习过程中,词能和什么样的论元,以及与不同类型论元分布式搭配情形,在长期记忆中会以概率框架的抽象形式留下痕迹,并且与单词的频率水平呈现出正相关,在高频效应的催化下这种记忆痕迹会得到加强[22]。沿着这一思路来理解汉语形容词划分,会看到不一样的风景,形容词及其毗邻成分的共现刻画是汉语形容词资源库构建中重点关注的问题,具体包括两看: 一看给定的形容词能够和什么名词组配;二看给定的名词能够与什么形容词组配,如图3、图4所示。
图3 汉语形容词知识库搭配特征示例(前20)
图4 汉语名词联想示例(前20)
3 PAKB的应用
3.1 面向本体研究的基础资源平台
从业已构建的现代汉语形容词知识库来看,并非所有的形容词都能够重叠。在整个形容词知识库中,观察到1 212个形容词是可以重叠的: 在227个单音节形容词中, 可以重叠的有114个,约占50%;在985个双音节形容词中,309个是可以重叠的,约占31%。由于双音节形容词远远多于单音节形容词,所以总的来看, 可以重叠的形容词约占形容词总数的35%。形容词重叠问题是面向本体的汉语形容词研究中的一个重要问题,全面调查清楚汉语形容词中到底哪些是可以重叠的,哪些是不能够重叠的,不仅是观察汉语形容词重叠式语法意义的一个基本点,也可以为后续的有关形容词研究提供可以用来比较的基础资源平台。表5是结合北京大学的《人民日报》标注语料中230个形容词重叠的频率,取其中的前十位示例。
表5 汉语形容词重叠使用情况表
3.2 面向自动问答的口语形容词集
近年来,智能问答已成为自然语言处理中的一个热门研究领域。在如何让计算机模拟人进行对话的问题上,已经有多种方法、手段介入。但由于现代汉语口语资源的相对稀缺,还未见到有报道针对性地使用自然口语中的对话语料作为训练集。在构建PAKB知识库的过程中,我们采样了20MB的自然口语对话语料,用来对知识库中形容词的语体性质进行辅助判断,在这个过程中,我们发现汉语的书面语形容词与口语形容词存在着交集,也存在着差异。但与汉语书面语相比较,自然口语对话中,形容词主要存在于:(1)说A不A,说B不B; (2)那叫一个A;(3)要多A有多A;(4)还能再A点吗;(5)要不这么A;(6)是有多A等六种类型的构式之中,在20M自然口语语料中的分布情形如图5所示。
图5 形容词在自然口语构式中的分布情况
3.3 面向基础教育领域的形容词集
语言是一个精密的逻辑自洽系统,蕴涵其间的“经济原则”提醒了这个系统不会有一个多余的词,因此严格意义上的“等价词”是不存在的。Schmitt(1998) 将词汇知识定义为六个方面: (1)形式;(2)词义(包括同义、反义、上下义);(3)语法图景;(4)搭配信息;(5)使用;(6)语体风格与语域限制[23]。对应的认为,语言使用者的词汇能力分为感知能力与产出性能力,前者对应了语言理解,后者对应了语言表达。在词汇感知上包括词汇的深度和词汇量,词汇的产出则包括词汇的宽度和质量,体现了构成语篇的能力。PAKB能够在最大程度上显示某一抽象概念空间下汉语形容词集,这对于基础教育领域中作文教学具有参考价值。
4 结语
过去这些年的自然语言处理研究每一次大的进展与飞跃,都再一次强调了通过人工构建的方式为计算机提供有效的语言知识库的重要性。但是,从中文信息处理的终极目标——计算机能够“理解汉语”与“表达汉语”来看,让计算机初步具有类人的语言使用能力现在看来仍是一件具有非常挑战性的事情。目前计算机处理自然语言的能力仅仅停留在“处理”层面,还远不能达到“理解”的水平,未来的任务艰巨且充满挑战。这在一个侧面说明了,有必要对已有的汉语资源构建的理念、方式、规模与手段进行检讨。从这个意义上来说,本文的工作可以看成是一种初步的尝试,试图在局部层面上模拟人类是如何使用语言的,为计算机构建一个与人脑更接近的可以用来增强学习、预测学习的汉语形容词资源库。
[1] 俞士汶,段慧明,朱学峰,等. 综合型语言知识库的建设与利用[J].中文信息学报,2004,18(5): 1-10.
[2] 杨亦鸣,张珊珊,刘涛等. 综合型语言知识库的建设与利用[J].语言科学,2006, 5(3): 3-13.
[3] 张珊珊,杨亦鸣. 从记忆编码加工看人脑中的基本语言单位-一项基于单音节语言单位的ERPs研究[J].外语与外语教学,2012,11(2): 1-6.
[4] 昝红英,张坤丽,柴玉梅,等.现代汉语虚词知识库的研究[J].中文信息学报,2004, 21(5): 107-111.
[5] 王国璋,等.现代汉语重叠形容词用法例释[M].北京: 商务印书馆,1996.
[6] 郑怀德,孟庆海.汉语形容词用法词典[M].北京: 商务印书馆,2003.
[7] 安汝磐,赵玉玲.新编汉语形容词词典[M].北京: 经济科学出版社,2004.
[8] Pinker S. Language Instinct: How the Mind Creates Language[M]. New York, NY: Harper Perennial Modern Classics, 2007.
[9] 吕叔湘,饶长溶.试论非谓形容词[J].中国语文,1981,10(2): 81-85.
[10] 周荐.2006汉语新词语[M].北京: 商务印书馆,2007.
[11] 侯敏,周荐.2007汉语新词语[M].北京: 商务印书馆,2008.
[12] B Heine,T Kuteva.The genesis of grammar: A Reconstruction [M]. Oxford: Oxford University Press, 2007.
[13] 郭伏良.新中国成立以来汉语词汇发展变化研究[M].保定: 河北大学出版社 ,2001.
[14] 朱德熙.现代汉语形容词研究[J]. 语言研究,1956,1(1): 1-37.
[15] 朱德熙.语法讲义[M].北京: 商务印书馆,1982.
[16] R Dixon. Adjective classes in typological perspective[M]. R Dixon & A. Aikhenvald (Eds. )Adjective Classes.Oxford University Press,2004: 1 - 49.
[17] W Croft. Syntactic Categories and Grammatical Relations: The Cognitive Organization of Information [M]. Chicago, The University of Chicago Press, 1991.
[18] 胡明扬.语体与语法[J].汉语学习,1993, 10(2): 1-4.
[19] Bhat D N S, Word classes and sentential functions[M]. Comrie, B. (Eds.), Approaches to the Typology of Word Classes. Berlin, Mouton de Gruyter, 2000: 47-63.
[20] Alexander G Huth, et al,Semantic information in natural narrative speech is represented in complex maps that tile human cerebral cortex[J]. Nature. 2016,532(7600): 453-458.
[21] 杨逢彬.关于殷墟甲骨刻辞的形容词[J].古汉语研究,2001,13(2): 63-69.
[22] D Kemmerer,et.al. Behavioral patterns and lesion sites associated with impaired processing of lexical and conceptual knowledge of actions[J]. Cortex. 2012,48(7): 826-848.
[23] Schmitt. N. Tracking the incremental acquisition of second language vocabulary: A longitudinal study [J]. Language Learning, 1998, 48(2): 281-317.
E-mail:wanghf@pku.edu.cn