回顾与展望:汉语词和短语区分研究
2016-03-15郑友阶
饶 琪 郑友阶
(华中师范大学文学院,湖北武汉,430079/湖北科技学院人文与传媒学院,湖北咸宁,437100;黄冈师范学院外国语学院,湖北黄冈,438000)
回顾与展望:汉语词和短语区分研究
饶 琪 郑友阶
(华中师范大学文学院,湖北武汉,430079/湖北科技学院人文与传媒学院,湖北咸宁,437100;黄冈师范学院外国语学院,湖北黄冈,438000)
汉语中词和短语的边界并不清晰,如何有效地对二者进行区分是一个长期存在的问题。文章主要对已有的相关研究进行了全景式概述,在此基础上主要分析研究中存在的几个难点和关键性的问题,指出“词感的一致性及其阈值的确定”是问题解决的核心,也试图对这一问题的后续研究作出展望。
词;短语;词感
近年来在语言历史演变、中文信息处理及神经语言学等领域的推动下,汉语的词和短语区分问题被重新审视。注重实证是现阶段研究的特点,在王立的《汉语词的社会语言研究》[1]、李晋霞的《词与短语区分的理论与实践》[2]两本论著上有着充分体现。本文试图对已有的相关研究进行概述,并在此基础上分析持续存在的几个难点问题。
一、 “词”是什么?
在讨论词和短语如何区分的问题之前,有一个前提需要明晰:汉语的词是什么?
(一) 作为术语的“词”
在比附和构建汉语语法研究体系的过程中,章士钊在《中等国文典》里首次具体阐述了作为术语的“词”,明确提出了词和短语是不同级的语法单位[3]。但在当时这一术语并没有得到普遍性认可,或仍使用“字”来表述词,如刘复的《中国文法通论》[4];或对词有别解,如陈承泽的《国文法草创》[5]。真正意义上让术语“词”被广泛接受的是黎锦熙的《新著国语文法》一书,该书首次界定了词,即说话的时候表示思想中一个观念的语词,明确提出了汉语的四级语法单位是字、词、短语和句子[6]。尽管这一观点不无瑕疵,但该书在当时乃至此后的一段时期内影响甚广,几乎被当作唯一的语法教材在使用。据孙良明考证,《新著国语文法》一书先后再版24次之多[7],作为术语的“词”逐步成为汉语研究的基础术语。
建国初期,由于语法教学的需求和多种语文期刊的创办,形成了语法知识普及化的浪潮。词是什么的问题浮出了水面,曹伯韩、傅东华、彭楚南、林汉达、史存直、郑林曦、赵恩柱等人先后撰有专文讨论。从吕叔湘的一段话里不难明白为什么讨论会如此热烈:“我们讲语法是从语言出发的,词是语法里最基本的东西之一,所以非把词的意义弄明白不可,否则就讨论不下去了。”[8]强调功能层面的“自由运用”和句法上的“最小单位”是讨论的共识。1956年刊行的《暂拟汉语教学语法系统》采取了提取最大共识的办法,将词定义为最小的、能够自由运用的语言单位。由于这一系统的巨大影响力和中小学语文教材的传播效应,直到今天有关词的基本认识在知识传授层面上依然没有脱离这一范围。
(二) 多元视野下的“词”
汉语的使用者可能不关注词的定义,但并不妨碍他们具有词感。这里不打算对词进行完备定义,主要是讨论有关“词”的几点认识。
(1)词具有心理现实性,是心理语言的基本存储单位。“凡被认为是一个词的必定当作一个统一体标记在心头”,是陈望道在《文法简论》中的前瞻性认识[9]。有实证研究支持这一观点。张珊珊、江火系列研究通过“学习——再认”范式,运用事件相关电位技术(ERPS),从记忆编码加工的角度实证了词是大脑中的基本语言单位[10]。研究发现:短语和复合词具有不同的加工机制,词具有更好的通达和更有效的记忆编码,这种差异在P2上体现明显。同时词的反应时长均值要小于短语,说明了词的通达更加迅速,在准确率指标上也要优于短语。
(2)词具有多种信息标签。以往研究主要关注词的形式和意义两端,这种观察无疑生发在静态层面,而动态的语用通常会赋予词几何维度上的信息,建构起词的整体知识图景。词的信息标签以外显或内隐的方式存在:外显是能够被直接感知的,如韵律、结构、高熟悉度的语义等信息;内隐是需要进一步挖掘才能获得的信息,如频率、情感、语体、极性等。
(3)词感的影响因素是多方面的。语义、音节长度、结构和频率都有可能影响词感的强弱。这里包含了两个层次:第一,结构与意义是词感的基础。一般而言,结构稳固、意义凝聚是词的典型特征。整体义的浮现是汉语词感知的重要方面。郭桃梅等采用了ERR手段来考察汉语词汇产出中词的各种信息通达过程,发现由语义信息引起的N200潜伏期要早于语音信息引起的N200潜伏期,实验表明在汉语词汇产出中,语义加工要早于语音加工[11]。第二,结构类型、音节长度和频率呈现交互影响,高频的双音节动宾结构往往具有词感,如“吃饭、喝水、关心、走路、跑步”等。
(4)词是相对于某一具体的共时层面而言的。词库是历时和共时交融的产物,其间有承传,也有创新。近年来的词汇化研究报道了汉语中不少从短语固化而来的词,只是这种固化往往需要足够时间或空间来获得语用力量。因此在一个相对共时层面里面,语言单位可能存在词和短语并置的情形。
二、 如何区分
怎样区分词和短语?已有研究可以分为三个阶段:早期的理论探索、后续的应用研究,以及近来的实证调查。
(一) 理论探索
王力(1944)提出“插入法”和“转换法”来处理词和短语颇难划分的问题。[12]陆志韦(1957)在结构主义语言学的视野下,初步运用了“扩展法”来探求汉语词的边界和形式特征[13]。赵元任(1968)进一步具体了词和短语的五条鉴别原则:(1)构成成分带轻声的;(2)构成成分是黏着的;(3)构成成分拆不开;(4)内部结构为离心结构的;(5)整体意义不是部分的组合[14]。吕叔湘(1979)对这一问题也有相似阐述[15]。他们的看法其实是一个从形式到意义、附加上语音的多元操作框架,在具体细则上可能有差异,但基本思想趋于一致。
王洪君(1994)试图通过排除的方法来确定词,分析了两字复合短语规则,认为词是有内部结构但结构方式不符合短语规则或句子规则的多音节音义结合体[16]。邢福义(1996)从音节优选的角度出发,主张在区分两难的状态下,双音节单位应该判定为词,三音节结构划归为短语(如猪肉为词,野猪肉是短语)[17]。冯胜利(2009)在对赵元任的五条原则进行检验的基础上,针对古汉语中的复合词提出了语义综合性标准[18]。
这些研究无疑在理论层面上拓展与深化了有关词和短语区分的认识,但都未能得到大面积的应用,主要是这些规则在面向大规模真实文本之时,均表现出了可操作性不强的特征,在词的判定上仍然十分依赖语感。
(二) 应用研究
分词系统的设计与实现是自然语言处理的基础平台,无论何种分词软件和方法,优秀的词典构建是分词系统指标优化的不变基础,这个环节的困难主要和词与短语的界限问题息息相关。尽管先后形成了《信息处理用现代汉语分词规范(GB/T13715—92)》《现代汉语语料库文本分词规范》等纲领性文件,但仍难以在可操作层面上解决“什么是词”的问题(参看孙茂松、邹嘉彦,2001;黄昌宁、赵海,2007)[19][20],以至于相关文献中术语“分词单位”一直在使用,人机结合、定性与定量并举的方法在词典构建上依然发挥着重要作用。
歧义切分和未登录词是影响分词系统评测指标的两个重要方面,词和短语的区分对覆盖型字串的歧义消解有重要影响。SIGHAN已经举办了数届国际汉语分词评测大赛,历届评测所提供的训练语料仍需人工的介入和干预,黄昌宁、赵海(2007)报道了由于人工标注的不一致所导致的评测误差。
(三) 实证调查
有研究者很早就提出以语感作为确认“词”的标准(赵恩柱,1956)[21]。王立(1998)引入“公众词感”概念,采用问卷调查方式,对6种汉语普通话和对外汉语教材中的25个“V单+N单”动宾结构进行考察[22]。研究表明,25个双音节动宾结构认定为“词”的一致率高达95%,这和专家词感差异显著。她随后两次对43个双音节定中结构进行了调查[23],调查显示认定为词的概率值分别为99.47%和96.13%,结论基本趋向稳态。
据胡明扬(1999)报道,相似调查陈松岑也进行过,见于其未刊稿《词与非词的界限——语法专家与群众语感的异同》[24]。研究显示专业因素和词感存在关联,“蓝天、白云、小鸟、湖边、松树”一般人认为是“词”,可大多数语言研究者和词典编纂专家认为这些是“短语”。王立(2002)主要研究的是“大众词感”,李宇明、李晋霞(2007)则集中讨论了“专家词感”,也采用“问卷调查”的方式对影响词感的因素:频率、结构类型、音节长度、自由和黏着、概念类型等五个方面进行了控制变量的逐一考察。研究发现,词感有显著的频率效应,不同的结构类型对词感的影响排序为:定中>联合/状中>主谓/动补/动宾[25]。李晋霞、王忠玲(2011)将研究对象扩展到了三音节语言单位,对101个不同音节类型的三音节结构进行了词感调查[26]。结果表明,在三音节结构成词倾向上[2+1]>[1+2]>[1+1+1],但细分起来,也和三音节结构的内部结构类型、组构方式有关。陈衡(2013)的实证研究构建在大规模语料的基础上[27],讨论了频率和词感之间的关联,发现频率和词感之间并不存在必然关联,如频率最高的双音结构“一个”就不是词,而是短语。频率的作用更多地存在于那些具有相同组构、同构造槽和相同概念域的候选串上。
三、 词感的制约因素
在前文已略有论及影响词感的因素,语义、语音、结构类型以及频率都有可能会对词感产生制约作用。下面我们进一步讨论这个问题。
(一) 语义
语义是词感通达的核心。张金桥(2011)探讨了SOA在57ms、157ms和314ms条件下汉语的双音节复合词在语义、词类和构词法等方面词汇信息激活的相对时间进程[28]。结果表明,在57ms时语义信息已经被激活,在157ms时语义和词类两种信息均被激活,在314ms时激活了语义、词类和构词法三类信息。结论表明语义信息在整个词汇信息激活中的优先地位。复合词是“词”和“短语”区分的交汇点。文献中常使用“语义透明度”(semantic transparency)或“语义融合”(semantic compositionality)来刻画组构成分语义和整体语义的联结情况,前者更为常见。对“语义透明度”的定义有两种方式:一种和语义的可预测性相关,高透明度词可以根据这个词的构成来判断它的词义(Plag,2003:46),但这种推测会受到个体已有知识经验的制约,表现出一定的局限性;另一种与可分析性有关,完全透明的词由它不同组成部分的当下语义构成(Zwisterlood,1994:344)。近年来,结合“语义透明度”的结构体词汇化程度考察已有不少,相关工作可参看(李晋霞,2008/2011;罗耀华,2015)[29]。
还有相关的两个问题亟待解决:一是应该借鉴心理学领域中量表设计的理念和方法,构建通用的“语义透明度”测试量表。尽管有研究也对“语义透明度”有分层刻画,但囿于个体知识经验的不同,难以达到面对不同研究对象保持一致性。通用的“语义透明度”量表可以有效解决测试的标准化问题,对研究的信度和效度有显著提升。二是加强复合词语义通达方式的实证研究。尽管在复合词的语义通达模式上已经取得了较为一致的共识:即构成成分和整体都起作用,既有分解表征过程,也有整词表征过程(参看彭聃龄、丁固盛,1997;陈曦、张积家,2005;丁固盛、彭聃龄,2006),但还没有看到典型的复合词和短语的比较研究,尤其是高频组合造成的可离可合的“离合词”应当成为这方面研究的“富矿”。
(二) 语音
语音是感知词边界的重要因素。语音上的停延最能直接感知词的韵律边界,轻重音是区分词和短语的辅助手段。同时,在汉语普通话中儿化、变调是成词的语音手段,变韵是方言中大量报道出来的构词方式。这些充分说明了语音和词的内在关联,从已有研究来看,主要体现在两方面:
一是双音节是汉语词的优选音长形式。已有的词汇计量研究充分表明了这一点。周荐(1999)统计了《现代汉语词典(修订本)》,在全部58481词条中,双音节词条数为39548个,占67.625%[30]。更大规模的语料统计也支持这一点:2005年首次进行了语言生活的大规模普查,课题组统计了来自全国15家主流报纸、6家新闻网站、13家电视台、9家广播电台的总字符数高达909429700、词种数1651749个的语料,显示汉语的平均词长为2.28音节。
二是韵律与汉语词的交互作用。冯胜利(1997)明确提出了汉语的“基本韵律词”是两音节的“标准音步”,王洪君(1999)又进一步从词法—韵律两方面定义了汉语的韵律词、韵律类词和韵律短语。三音节语言单位涉及韵律和词汇的界面互动,韵律构词的基本观点是:[2+1]构成的超音步有成词的可能,大部分的[1+2]是短语,词的可接受度较低。端木三(1997)则发现了音节单双在汉语构词中的不同作用,用“切菜刀”和“蔬菜加工刀”进行对比说明,发现如果复合词的定语是述宾结构,则音节上1-1配置的述宾式定语用VO语序,音节上2-2配置的述宾用OV语序,后续研究参看(庄会彬、刘振前,2011)[31]。
(三) 结构
在通过定义的方式来界定词的描述中,“结构稳定”往往被强调。黄月园(1995)从词的组成部分和修饰语的组配、词不允许插入和词的组成不能够并列三方面来论证了复合词组成部分的不可分离性。结构对词感强弱的影响主要表现在以下两方面:一是结构紧密度,可以通过“互信息”来刻画。但此方法抛开了语义,仅仅只能说明双音结构体之间的紧密度。二是结构类型,需要调查不同结构类型的语言单位词感的强弱。汉语里面高频的双音节动宾短语、动补短语具有显著词感(如:吃饭、喝水、洗澡、理发;打破、搞到)。李晋霞(2013)以问卷调查的方式对频率水平相当、意义具有字面性的不同类型的双音结构进行了词感调查。调查表明,定中结构的词感最强,其次是联合结构和状中结构,主谓结构、动补结构和动宾结构的词感最低:定中>联合/状中>主谓/动补/动宾。
(四) 频率
频率对词感的形成具有催化作用。刘云(2009)讨论了频率对词感的制约作用,详细论述了频率对词感的动力作用、高频单位认知的优先性以及频率对语言单位感知的效应[32]。同时,在历史视角下讨论词的形成问题上,频率一般都会作为原因之一被论及。高频可能是导致相邻语言单位的附着化和合并的一个重要动因,会引起线性毗邻的语言单位组块化(Krug,1998/2000;Bybee,2002)。
频率对词的形成和词感的制约研究还有两方面问题需要进一步具体讨论。一是所谓的“高频”并不具体,缺乏相应的量化数值作为标准,彭睿通过区分“笼统频率”和“临界频率”,明确指出了单纯的频率统计并无意义,诱发语言单位演化的动力是临界状态下的高频使用[33]。二是“高频”一定会带来词汇化吗?频率的高低同结构体语法化、词汇化的程度呈正相关吗?彭睿(2011)通过对“的+N”在古今语料中频次的对比,指出“的话”在“的+人”、“的+事”、“的+话”三类非结构词串中无论是古代汉语还是现代汉语中频次都是最低的,但结果却是“的话”成为典型词。
四、 难点问题
汉语的词和短语区分研究已经走过了几十年的历程,但离圆满解决还有不短的距离,这里面既有以往研究中存在的一些问题,也有一直存在的难点。
难点之一:词感的一致性问题。汉语里面语言单位是词还是短语缺乏标准答案,因而对不同的对象来说给出的答案可能并不一致。黄昌宁、赵海(2007)指出了汉语词的认同率均值在0.76左右。这种不一致现象对词感实验和语料标注都会有制约作用:造成了词感实验难以对受试的正确率进行统计,语料标注中不同标注者的词感差异常常导致标注不一致的现象,所以早期的分词评测采用“柔性标准”。
难点之二:词感一致性的阈值。从已有的词感实证研究来看,涉及词的判断这一块,基本上采用的方法都是通过量表的方式来确定。目前所看到的研究而言,阈值确定的主观性还是较强的,如王立(2003)使用了七点量表的方式,对受试的词汇化程度进行分层,70%是其设置的一个确定成词的阈值,但是这一阈值的信度、可重复性还值得进一步研究。
难点之三:是不是词,谁说了算?从理论上来说,这个问题有三种可能答案:一是专家说了算,二是辞书说了算,三是语言使用者投票说了算。但细究起来,这几个方案都有一定的局限:第一,专家和一般的语言使用者在词的感知能力上应该存在有差异。第二,应该考虑到任何一本辞书都不可能囊括语言生活中可能存在的词。有研究表明,语感中词的数量要大于辞书收录的范围。第三,如果是语言使用者投票说了算的话,就会遇到前面讨论过的阈值确定问题。
难点之四:个体已有的知识经验是否会影响词感?吕叔湘在《汉语语法分析问题》一书中指出,“不同文化程度的人对什么是词的感觉是完全不一致的”,但并没有证明。胡明扬希望通过调查的方式来看专家和普通人的词感是否存在差异。已有研究显示出相左的观点:王立(1998)的第二次调查对象为不同年龄、不同职业、不同文化程度、不同工作单位的社会公众,相关分析显示,年龄、职业、文化程度等因素和词的感知无显著相关;但前文谈到了陈松岑在北京的调查却显示,拥有语言学知识的研究者和大众的词感是存在差异的。由于个体的知识经验难以刻画,这一问题在未来还难以得到有效实证,可行的方案应该是分步骤、分批次地进行控制变量的调查,首要的任务是比较专业知识是否会影响词感。
*本文系国家社科基金重大招标项目“面向网络文本的多视角语义分析方法、语言知识库及平台建设研究”【12&ZD227】、教育部人文社会科学研究基金“基于大规模通用语料库的汉语词和短语区分研究”【12YJC740085】和华中师范大学优秀博士学位论文培育计划【2015YBYB062】阶段性成果。
注释:
[1] 王立:《汉语词的社会语言学研究》,北京:商务印书馆,2003年。
[2] 李晋霞:《词语短语区分的理论与实践》,北京:中国社会科学出版社,2013年。
[3] 章士钊:《中等国文典》,上海:商务印书馆,1907年,第1页。
[4] 刘复:《中国文法通论》,北京:中华书局,第44~45页。
[5] 陈承泽:《国文法草创》,上海:商务印书馆,1922年,第22~23页。
[6] 黎锦熙:《新著国语文法》,上海:商务印书馆,1924年,第15页。
[7] 孙良明:《黎氏文法重印24版,为全国大学中学汉语语法教学采用30多年及其原因——纪念劭西师〈新著国语文法〉出版90年(五之三)》,《鲁东大学学报》2014年第5期。
[8] 吕叔湘:《语法学习》,北京:中国青年出版社,第3页。
[9] 陈望道:《文法简论》,上海:上海教育出版社,第18页。
[10] 张珊珊、江火:《离合词是词还是短语?——一项来自神经电生理学的证据》,《语言科学》2010年第5期。
[11] 郭桃梅等:《汉语词汇产生中的义、音信息提取时间进程的ERP研究》,《心理科学》2007年第5期。
[12] 王力:《中国语法理论》,上海:商务印书馆,1944年,第46~47页。
[13] 陆志韦:《汉语的构词法》,北京:科学出版社,1957年,第1~6页。
[14] 赵元任:《汉语口语语法》,吕叔湘译,北京:商务印书馆,1979年,第65~84页。
[15] 吕叔湘:《汉语语法分析问题》,北京:商务印书馆,1979年,第19~29页。
[16] 王洪君:《从字和字组看词和短语——也谈汉语中的词的划分标准》,《中国语文》1994年第2期。
[17] 邢福义:《汉语语法学》,长春:东北师范大学出版社,1996年,第152~153页。
[18] 冯胜利:《汉语的韵律、词法与句法》(修订本),北京:北京大学出版社,2009年。
[19] 黄昌宁、赵海:《中文分词十年回顾》,《中文信息处理学报》2007年第3期。
[20] 孙茂松、邹嘉彦:《汉语自动分词研究评述》,《当代语言学》2001年第1期。
[21] 向若等:《关于〈什么是词儿〉一文的讨论》,《中国语文》1956年第6期。
[22] 王立:《从“单音动词+单音名词”结构的拼写看正词法规则的客观依据》,《语言文字应用》1998年第1期。
[23] 王立:《“双音节名词偏正性结构”词化倾向之思考》,《华中师范大学学报》1998年专辑。
[24] 胡明扬:《说词语》,《语言文字应用》1999年第3期。
[25] 李宇明、李晋霞:《现代汉语词感制约因素的问卷报告》,《汉藏语学报》2007年第1期。
[26] 李晋霞、王忠玲:《论音节模式、结构类型对三音节词感的影响》,《南开语言学刊》2011年第1期。
[27] 陈衡:《词和短语区分的频率因素:基于超大规模语料库2-gram串的考察》,华中师范大学硕士学位论文,2013年。
[28] 张金桥:《汉语双字复合词识别中语义、词类和构词法信息的激活》,《心理科学》2011年第1期。
[29] 罗耀华:《介词并入与“V+到”类结构的词汇化研究》,《语言研究》2015年第2期。
[30] 周荐:《双字组合与词典收条》,《中国语文》1999年第4期。
[31] 庄会彬、刘振前:汉语复合词的构词机制与韵律制约,《世界汉语教学》2011年第4期。
[32] 刘云、李晋霞:《论频率对语感的制约》,《语言教学与研究》2009年第3期。
[33] 彭睿:《临界频率和非临界频率:频率和语法化关系的重新审视》,《中国语文》2011年第4期。
【推荐人语】汉语中词和短语的区分是汉语研究和应用中长期存在的大难题。本文对这一问题的历史渊源和研究现状作了全面的介绍,在此基础上探讨了制约词感的各种因素,并指出了若干需要解决的难点问题。本文对这一问题的认识比较全面、深入,对最终妥善解决这一疑难问题具有一定的启发性。(吴振国)