制约“X单+于”词汇化的公众词感及相关因素
2021-05-24饶琪李慧
饶 琪 李 慧
(1.华中师范大学 文学院、国家语言资源监测与研究网络媒体中心,武汉 430079;2.北京大学 计算语言学教育部重点实验室,北京 10087; 3.教育部 语言文字应用研究所,北京 100010)
一、引言
单音介词与其毗邻前项融合具有跨语言普遍性。Krug(1998)报道了非洲南部Lwo语族中动词后介词向动词后缀演化的事实①,更为多见的融合方式是“动+介”形成规约化的习用搭配(interested in、think of、think about),成为口语与书面语表达中重要的“预制件(prefabs)”(Bybee)②,口语与书面语的调查表明习用搭配在话语表达中使用高达55%(Erman &Warren)③。西班牙语“persaren”(to think about)脱胎于“动+介”结构(Bybee)④;英语动词“take”与不同介词组构形成了意义迥异的短语词(take on,take in,take along,take to);不同单音动词与不同单音介词构成的习用搭配(look after,deal with,come about,stand by)具有显著的词汇特征,《柯林斯在线英语词典》都标注为“phrasal verb”,它们在形式与意义两方面都能得到很好的推测,个体长期记忆之中拥有相对独立的表征。这充分说明了“X单+P”具有融合成词的倾向,然而在具体演化后果上却形成参差:1)多词性动词(point out,think about);2)组构谓词(lose sight of);3)复杂介词(onto);4)关联词(due to,regardless of)等。
类似现象在汉语中也存在,现代汉语里面就有不少含有单音介词的双音节、三音节词。在参与成词的单音介词群体中,“于”是最典型的个案,部分“X单+于”(如“过于、关于、有利于、不至于”等)已成为常用词。这些词如何形成?解惠全敏锐观察到双音节副词、连词(至于、终于)来源于早期汉语的“动+介”,“于”伴随虚化为类词缀⑤。近年来,随着作为语言演化子框架的“词汇化、语法化”理论注入,不少研究者讨论“于”参与构词的个案情形:董秀芳探讨了“至于、关于”的词汇化⑥;刘丹青注意到语法化的演进连续性,认为汉语里作为语法化后果的虚词有可能与其所结合的词语发生紧密联系,衍生出新的实词或虚词,并举“敢于、勇于、善于、迫于、对于、至于、关于”为例⑦;徐丹站在汉语语序从OV到VO演变背景下,观察到伴随“于”语法化为典型的前置词,有一些VO语序的短语发生了词汇化现象,如“善于、乐于、苦于、害于”等⑧;高苗红指出现代汉语中“单音节语素+于”结构在词汇化程度上存在差异,认为“单音节语素+于”是句法结构降格成词的结果⑨;李德鹏以《倒序现代汉语词典》收录的9个“单音节动词+于”动词为研究对象,讨论了为什么“在于、处于”发生了词汇化,而“盟于、战于、娶于”却没有发生词汇化⑩。刘红妮对“终于、由于”的词汇化过程进行了考察,曹秀玲、王玲玲分析“至于”在若干辞书中词性的标注情况,考察了“至于”的语法化过程,认为“至于”等话语标记的出现与汉语话题优先的类型特征存在联系。有研究者从语言接触的视角来讨论介词“基于、关于”的形成;也有从词汇化和语法化角度对“鉴于”的形成进行个案讨论。
已有研究从不同侧面推进了“X单+于”演化成词的相关认识,形成具有纵深的三个研究问题:1)个案“X单+于”形成过程的细节展示;2)形成过程的性质,是词汇化还是语法化?“于”有没有进一步语法化?3)为什么有的“X单+于”在汉语演化过程中固化成词了,有的却没有?要清晰回答这几个具有内在联系的问题,首先需要搞清楚一个基础性问题:现代汉语中到底有哪些成词的“X单+于”?回答这一问题最简便、可行的办法是综合若干出版的汉语辞书形成一个合集式清单,但每种辞书囿于收词容量的局限,不可能囊括语言生活中所有的词,这会使那些游离于辞书之外,使用频率却较高、词感也较强的“X单+于”成为“漏网之鱼”。有别于已有研究举例式讨论,本研究以2000—2011年电子版《人民日报》为语料来源,在大规模真实文本基础上抽取出“X单+于”,在此基础上对这些“X单+于”的词汇化程度进行分类刻画,并探讨制约它们词汇化程度的因素。
二、基于大规模语料的“X单+于”抽取
开始讨论之前需要交代两点:一是“X单+于”在词感程度上具有差异,不太好用一个统一的术语来囊括所有的成员,这里使用了“结构体”来指称下文所要讨论的“X单+于”成员集合;二是部分三音节“X单+于”也具有较高的词感,如(有助于、取决于)等,本文的研究对象聚焦于双音节的“X单+于”。
(一)“X单+于”候选集的构建
已有“X单+于”词汇形成研究主要讨论典型的个案,迄今为止还未有一个全面、详细的现代汉语“X单+于”词汇清单,制约了全局意义上深入考察“X单+于”的成词与“于”演化之间的关联。构建一个既能够超越辞书收词局限,又可以反映语言生活中“X单+于”真实使用状况的详单,成了首先需要解决的问题。因此进行了分步骤的三方面工作:
首先选取北京大学构建的人民日报生语料(千万级),该语料由北京大学计算语言所和日本富士通公司共同研发,对1998年全年《人民日版》进行了分词和词性标注,总共约1300万字,是目前世界上最大的汉语标注语料库。为避免标注语料已分词的局限,这里使用未加工生语料作为语料来源,基于大规模真实文本自动提取所有含“于”字符串165条,囿于篇幅,本文不能全部展示这一数据。其中使用频数前20的字符串见图1:
图1 基于人民日报语料的“X+于”使用情况考察
其次结合人工方式对数据进行了“去噪”,主要剔除了三种类型的“噪声数据”:1)含“于”三音节结构体,从图1可知,部分三音节的含“于”结构体使用频数较高,在前20之中就有“有利于、有助于、取决于、致力于”等4个;2)去除部分含“于”的成语、熟语等固定用语,如“不绝于耳、防患于未然、立于不败之地”等;3)去除若干人名、地名、器乐等专有名词(淳于、鲜于、朱于)等。
最后使用国家语委通用语料库的生语料进行类似工作,并将这个“X单+于”候选词表和前面词表进行了合并与去重,同时参照《现代汉语词典(第7版)》《现代汉语双序词典》等辞书的收词情况,得到一个“X单+于”候选集,共186个,具体如下:
(二)词汇化程度的分类表征
词是语言的组构与表征要素。在非形态语言中,“词”形式边界的缺乏通常会带来身份确认难题。上述186个双音“X单+于”结构体,在形式构造层面上具有一致性,但在具体语言单位性质上却存在参差:有典型的词(如“至于”“关于”等);也有典型非词形式(“跨层结构”,如“建于”等);还有若干像词却又没被词典收录(如“安于”“长于”等),它们的性质如何确定?汉语里如何区分词和非词具有挑战性,汉语语法研究进程中不同时期具有代表性研究者都进行了回应:“插入法、转换法、扩展法”是关键词,语音在这一问题上的重要性也被注意到,这些方法具体有所差异,实质趋于一致,是一个综合了形式与意义、附加语音的多元操作框架。
语言本体研究领域区分词和非词的准则,在实践层面具有局限,这集中体现在模糊地带的语言单位性质判断上。特别是遭遇大规模语料,可执行性通常会打折扣,如中文信息处理上游经典任务“自动分词”,先后经历了基于词典方法、基于统计方法、基于深度学习方法演进,形成了《信息处理用现代汉语分词规范》(GB/T13715-92)《现代汉语语料库文本分词规范》等纲领性文件,但仍难以在可操作层面上解决“什么是词”的问题,“结构体”语言单位性质判断上依赖语感,这反映了本体领域对“词”认识提供的支撑还存在不足。“词”与语义、韵律在大脑中的神经认知加工、信息存储息息相关,有研究使用事件相关电位技术(ERP)对“离合词”是词还是短语进行实证研究。这一脑认知问题在语言研究中被粗糙表现为“词感”,把那些不能确定是词或者不是词的公布出来,让大家讨论来确定,多数人认为是词的就是词,多数人认为不是词的就不是词,但并没有得到足够的应有重视,直到两项研究的进行才改变了这种局面:引入“公众词感”概念,结合问卷调查方式对给定语言结构进行了实证调查。
“词感”调查首先面临的问题是如何对词汇程度进行分层,近年来研究者趋向将词和非词形式,特别是与词具有衍生关系的短语、跨层结构等看成非离散的连续统。词和非词形式(短语等)的本质区别是词汇性和语法性在程度上的差异。“结构体”内部成分语义和语法信息晦涩(opaque),属于“强词汇化”词;相反“结构体”成分在语义和语法信息上具有明晰性,可以用语法解释,就属于“弱词汇化”词,“结构体”语言单位的性质体现了词汇性强弱。王立采用了七点量表方式,对“词感”进行了分层表征:1)非词倾向;2)临界状态;3)准词化倾向;4)基本词化倾向;5)显著词化倾向;6)强烈词化倾向;7)显著强烈词化倾向。但过于详细的分类存在两种弊端:一方面不能有效针对词和非词区分的难点,特别是认定为“词”的进一步分类意义不大;另一方面也带来了寻找分类边界阈值的困难。
整体上看“X单+于”内部所表现出来的词汇特征强度并不一致,有的已成为典型的词汇词,被辞书收录;而有的处在词与非词之间,从语感上来看像是一个词,但又没有被辞书收录;还有的处于典型非词阶段,这三者之间构成了一个连续统,在语言演变背景下审视语言单位之间的差异,会发现词汇范畴和语法范畴的内在统一性,这个连续统两端中间的“结构体”的特质是词汇性和语法性均匀,没有哪一种特质占据显豁优势,反映在语感上就是结构体受制于不同个体认识差异,有的倾向于判断成一个词,有的判断为一个非词形式,词汇化程度中性,我们使用“短语词”来描述,是词和短语的中间站。
典型词汇词>短语词>非词形式(跨层结构)
从左至右,是一个词汇特征逐步减弱的过程。从“X单+于”结构体整体来看,其词汇化等级呈现于一个连续统之中,典型词汇词>短语词>跨层非句法结构。我们需要对这186个结构体进行分型,找出潜藏的是词的“X单+于”,特别是那些词感强但又未被词典收录的“X单+于”。下面我们在基于视觉的公众词感实验基础上拟对“X单+于”的词汇化程度进行分类刻画。
三、基于E-Prime的“X单+于”词汇化程度实验
这一部分在“E-Prime”实验平台下,通过“词感投票”的方式来对“X单+于”的词感程度进行分类刻画,对前文挖掘出来的具有一定频率水平的双音节“X单+于”的词汇化程度进行分型,寻找词感“投票”实验的门槛阈值。
(一)“公众词感”一致性实验
1.实验介绍
(1)被试:30名本科高年级阶段学生(男女各15名),年龄范围20—22岁,矫正视力正常,均为右利手。
(2)设计:实验为被试内单因素设计,因素是词和非词的判断(TRUE和FALSE的判断)。
(3)材料:“X单+于”词项表,共有186个判断项。
(4)仪器和程序:实验程序使用心理学实验软件E-Prime编写,186个刺激项目以视觉方式随机呈现,为个别测试,实验包括准备阶段和实验阶段。首先在屏幕中央呈现红色注视点“+”500ms,接着随机呈现186个判断项,字体大小为宋体32号,在白色的屏幕上呈现黑色的二字组“X单+于”,呈现时间为500ms,空屏100ms后屏幕出现下一个判断项,要求被试既快又准地判断是词还是短语,并以按键的方式做出反应,按右手的“F”键表示判断为词,按左手的“J”键表示判断为短语。如果被试在2s之内没有反应,自动跳过,并记录被试的反应错误,同时窗口有一个时间记录器,记录被试的反应时长,计时单位为ms,误差为±1ms。共包括5580次试验。准备阶段:预备实验为10个左右的练习项目,要求被试熟悉实验环境和实验内容,熟悉之后自主进入正式实验阶段。
(5)相关说明:1)理论上讲“专业因素”有可能构成本实验的干扰因素,语言学知识的多少有可能会对研究结论带来偏差。但据王立的研究表明,专业因素与汉语双音词的相关系数Tau-y值为0.033,趋近于0,说明两者之间并无显著相关性。2)词汇化等级与词判断的一致性。假定词汇化等级与被试判断存在着正相关性,所以我们拟使用判断频次作为词汇化等级的一个观察指标。
2.实验结果与讨论
(1)词感实验投票结果:30个被试的“词感实验”的投票结果见下表:
表1 “X单+于”的公众词感调查表
(2)判断为词的均值与标准差
根据上表统计,186个“X单+于”判断为词的均值为11.236,样本总体标准差为8.755。反映了对于样本中的个体,在词和非词的判断上,一致度并不高。某一“X单+于”结构体,有被试判断为词,也有被试判断为非词。少数结构体获得了高一致性,有两种情况:1.有一些典型的词汇词在词的判断上获得了高一致性,所有的被试都判断为词(如对于、关于、过于、基于、鉴于、由于、在于、至于、终于、属于);2.有一些词在非词的判断上也获得了高一致性,表现在成词判断上,判断为非词获得了高一致性(如传于、降于、拘于、拒于、配于、损于、围于、游于、注于)。所有的测试对象都没有出现0次判断为词的现象。
图2 “X单+于”公众词感一致性分布图
(二)不同置信水平下的公众词感阈值
从上述公众词感一致性分布图中可以看到,绝大多数“X单+于”判断为词的频次都分布在[0,10]这一区间。为了找出公众词感阈值,我们引入了统计假设检验方法。
记二字组“X单+于”为假设W,其属于一个词语即成词的概率为β,不属于一个词语的概率则为1-β,将每个被试者回答W是否是词语这一问题可以看成W的一次抽样。并记:
E(P)=30·β,D(P)=30·β·(1-β)
根据中心极限定理可得:
将上式标准化为:
假设检验的目的是判断二字组“X单+于”是否显著属于某一类(是否为词),而β=0.5表示判断最模糊的情况,下面基于假设检验的方法来判断β是否显著等于0.5,找出判断“X单+于”是否为词的模糊区间。从而可得:
本文选取置信水平α取0.05,0.1以及0.01这三个典型值为代表,对上述假设检验过程进行了分析,考察“X单+于”在不同置信水平下的词感阀值。
综合上述三种情况,可得表2:
表2 不同置信水平下的词感频次区间
通过上述在不同的置信水平下的假设检验结果,可以得出如下结论:90%(α=0.1)和95%(α=0.05)的置信水平时,频次P变量取值以10、20为界分为三类(非词、模糊、为词);在99%(α=0.01)的置信水平时,频次P以8、22为界同样分为三类(非词、模糊、为词)。
(三)平均反应时长
反应时分析时删去错误反应和M+3SD之外的数据,被试的错误率很低,平均为0.9%,而且在各个水平上的错误率相当。因此,只分析反应时,结果见下表:
表3 三类“X单+于”的反应时长表
使用上面公式反应时长进行均值,其值为1168ms。同时,也对反应时长的均方差进行了计算,其值为817ms。通过平均反应时长的具体数据指标,可以看出在判断“X单+于”结构体之时,被试耗时的长短同词和非词形式的典型性相关,呈现倒U型曲线:处于典型词汇词与跨层结构区间的“X单+于”的平均反应时长相近,而处于短语词区间的“X单+于”平均反应时长均值较大,我们对反应时长的进行了拟合,如图3所示:
对该CSS样式,可以将其属性视作为公共属性,并通过单独的颜色修改来控制各个不同的样式,使其形成新的优化代码,如:
图3 “X单+于”反应时长曲线拟合图
(三)两种不同类型的“X单+于”
1.短语词
取α=0.05置信水平,X>20是一个词,X<10则不是一个词,区间[10,20]是模糊区,即介于典型词和短语之间的“短语词”。词表如下:
2.跨层结构
取α=0.05置信水平,X>20是一个词,X<10则不是一个词根据上面标准,我们提取出处于跨层结构的“X单+于”结构体表:
不处于这两个集合中的“X单+于”是典型的词。
四、词汇化程度的影响因素
前文从“共时”角度对藏身于现代汉语中的“X单+于”的词汇化程度进行了分型,结合上文分析可知,“X单+于”结构体最终成为典型词、短语词占整个“X单+于”结构体的42%,还有58%的“X单+于”结构体并没有发生词汇化现象,这表明了“X单+于”对词汇化具有较强的选择倾向性。它们的词汇化程度为什么会存在差异?下面拟对制约“X单+于”词汇化程度的因素进行分析。
(一)前项性质:成词概率比较
在具有较强成词倾向的“X单+于”结构中,对整个结构“X单+于”而言,由于介词的语义较虚,充当结构体语义核心的是左向的“V单”或“A单”。“V单”或“A单”的性质与语义是“X单+于”成词与否的重要因素。不同前项性质对“X单+于”是否融合成词具有抑制作用,为了比较“V”或“A”性质的不同对“X单+于”成词的影响,这里引入“成词概率”来进行分析,这里的“成词概率”指的是“X单+于”词项与《现代汉语词典(第7版)》中收录的“X单+于”之间的比值。情况如下:
(1)“X单”为动词或动词性语素
图4 “X单+于”成词情况分析图
从“X单+于”成词之后的词性来看:“X单”为动词或者动词性语素的可以成为动词、副词、介词与连词等四类词;而“X单”为形容词或形容词语素只有一种转类,即形成动词。其中,“X单”为动词性语素成为动词、副词、介词与连词的概率值p(以《现代汉语词典(第7版)》标注词性为依据)也不一样,它们之间构成了一个等级序列:
动词(p=0.75)>介词(p=0.15)>副词/连词(p=0.05)
这反映了大部分“X单+于”在成词之后都演变为动词了,成为较虚的语法功能词为数甚少。
(二)语义融合
“X单+于”在汉语史早期是非句法的“跨层结构”,从“跨层结构”到“典型词汇词”过程是“X单+于”语义重新融合的过程。融合结果使得形式与意义的关系变得扭曲,理据性有可能丢失。比较词汇化之前形式组成成分的语义和成词之后的整体语义,有三种类型的变化:1.部分语义弱化或脱落;2.发生隐喻和转喻引申;3.由转类而引起语义变化。“X单+于”中具有明显词汇化倾向的词,“V单”或“A单”同“于”的语义融合存在两种情况:1.“于”的语义进一步弱化,演变为一个纯粹的表音成分,参与构词。高度词汇化的词,如前文统计中所提到的“公众词感”高一致性的词,如(在于30;至于30;终于30;属于30;对于30;过于30;关于30;鉴于30;基于30;由于30)等,意义都经历了一个隐喻引申的语义演变过程,意义从字面上的可推及程度较低,从“语义透明度”角度来看,这些词都是低语义透明度词;2.在词感测试中,处于10≤频次<20之间的短语词,这类词基本没有通过隐喻、转喻等方式产生新的语义,因而从字面上的可推导程度属于中等,从“语义透明度”的角度来看,这些词都是中语义透明度词。
核心语素义是诱发“X单+于”词汇化的前提允准条件,但并非可推导的蕴涵关系。当“V”为动作义动词时,“X单+于”基本上不会发生词汇化现象。“X单+于”主要用于客观事件报道句中,动作往往要求处所、时间等论元共现,对于动作动词而言,处所题元和时间题元是其常规题元,这种常规的句法组配制约了“X单+于”整体的词汇化。在108个跨层短语的“X单+于”中,89.8%的“X单”为动作义动词。前文已经指出,当“X”为“A”时,成词的概率要高于“X”为“V”,进一步看,当“A”为性质形容词或语素时,结构体发生词汇化的可能性要大于“A”为状态形容词或语素。
(三)句法因素
1.句法结构内部移动
已有的个案“X单+于”演化成词研究,都是孤立地考虑“X单+于”,认为是“于”语法化导致的后果。这种观察并不能回答为什么有的“X单+于”形成词了,有的“X单+于”却仍然保持较强句法结构性质。应该考察“X单+于”存在的整个句法结构,特别是“于”的后项成分。
部分双音词与句法结构存在衍生关系。线性序列上邻接的两个词经常在一起出现时,就有可能把它们看作一体来加以整体处理,原有句法距离缩短或消失,导致双音词从句法结构中脱胎而来。这一过程中伴随有句法结构内部边界的重新移动,在不改变“表层形式”的情况下,“底层结构”发生“重新分析”,最典型、常见的重新分析是两个成分融合,使原有边界消失。词汇化程度较高的“X单+于”结构体中,“X单+于+宾”被“重新分析”,形式表征重新解读为[X单+于]+宾],没有成词的“X单+于”,“重新分析”并没有启动。“重新分析”对结构体构成成分的语义、形态存在影响:语义上,“X单”和“于”语义融合,“于”的语义进一步淡化,是一个较纯粹的表音成分,结构体表现出“去理据性”,源语义可推及程度降低。“X单+于”中的典型词汇词里面的“于”去范畴化过程已经完成,“于”整体并入到前项“V单”或“A单”,构成新词,“V单”或“A单”表现出强吸附能力;“X单+于”短语词中“于”的去范畴化过程还没有完全完成,“于”部分并入到前项“V单”或“A单”,“V单”或“A单”的吸附能力相对弱一些,是否为一个词不同被试有不同的看法。
2.引介处所能力弱化
“于”是上古汉语时期最具有代表性、典型性的介词。这时期汉语介词数量有限,“于”是最典型的介词,具有多能性,用于多种语义格(如处所、源点、终点、对象、当事、与事、比较对象等)。据郭锡良统计,甲骨文时期介词“于”组配的论元有三种类型:1.处所论元,占可辨识的甲骨文献用例18%;2.时间题元,占9%;3.对象题元,占68%。到了铜器铭文时代,“于”主要引介处所论元,占全部用例的55.8%。这表明了在这一阶段里,介词“于”发生了演变,具体表现在引介的论元类型分布的优先性发生了变化,从以对象论元为主到处所论元为主,引介处所是介词“于”的典型句法功能,这种情况下“于”的语法信息具有较强明晰性。
春秋战国时期是介词“于”句法功能的高盛期,多种用法集于一身的后果是其中的某些功能被分化。汉代以后介词系统出现了词汇兴替,刻画多种论元关系的格标记“于”的职能被后世新功能词分化。这一时期,出现了新兴介词“在”,介词“于”最典型的句法功能——引介处所能力受到“在”的严重挑战。张赪指出,古代汉语中的典型介词“于”在元明时期已退出了口语,其引介处所的句法表现在口语性强的文献中只是偶尔出现。“于”的句法功能被不断损耗,导致“于”向词内成分演变成为可能。但长期“仿古”和“拟古”的语用需要,介词“于”并没有在语言演变中消失,而在汉语中一直存在。现代汉语中,“于”不仅在使用频率上比不上其他介词,使用场合也受到了语体限制,基本上只能用于书面语。介词系统内部调整使得“于”同“处所”“时间”“对象”论元的组配大部分被其他介词所代替,这些功能后世被“在”“对”“向”“比”“被”等词取代,这是汉语追求表达精密化的结果。“于”的句法功能上的抑制给汉语带来的影响不仅表现在语法层面,还波及词汇领域,促发了“于”同部分单音节前项融合成词。
“X单+于”演变是“于”后续论元类型组配优先性演变的结果,介引能力的弱化及其毗邻单音节成分互动共促的后果,句法因素对“X单+于”成词的影响有三方面:1)句法位置。小句句法位置大体上可以在句首、句中、句尾三个位置,三个位置韵律自由度的差异影响处于不同句法位置的“X单+于”成词的可能性。句首位置的韵律要求低,典型的“X单+于”在成词的演变阶段有出现在句首的情况,比如“至于”其经常处于小句句首的位置决定了它有可能向连词、介词演变;2)句法环境。上古时期介词“于”的多能性,“V单”或“A单”同“于”的组配可能出现在各种不同的句式中,但有些句式是结构体发生词汇化的温床,如“过于”词汇化就发生在差比句中;3)“于”后接题元的典型性。上古汉语时期“于”组配的典型题元有两种情况:1)“X”为“V单”时,“于”后接典型论元是处所论元;2)“X”为“A单”时,“于”后接典型论元为对象题元。具有较强词感的“X单+于”成词的一个很重要的原因是同“V单”、“A单”“V单、A单”共现的“于”的后接题元的典型性发生转移。“V单”或“A单”后“于”的后接成分为处所或对象论元时,“V单”或“A单”很难同“于”发生句法边界的融合。“过于、终于、至于、在于、对于、由于、基于、鉴于、终于”等发生词汇化,这些词中“于”表现对处所论元排斥。词汇化程度极高的“X单+于”,如“至于”“在于”等,后续题元表现出了对处所、对象题元的强烈排斥。
(三)频率因素
从非词形式到词,使用频率是重要因素,频率是词化的内在动力。“X单+于”的核心项“V单”、“A单”同“于”的高频共现是发生词汇化的重要推手。据《现代汉语频率词典》涵盖了报刊政论、科普书刊、生活口语、文学作品等共四类180万字语料统计,“X单+于”的使用频率如表4:
表4 “X单+于”词例频率表
从上表中可以看出两点:1)典型的词汇词无一例外地是高频词,并且高频同“公众词感”高一致性呈正相关,如上表中词次>100的几个词(如由于、对于、关于、终于、至于、属于);2)频率低的词也有可能词汇化,词次<10的词条中,除(赋于、介于、宜于)三个词之外,其他全被《现代汉语词典(第7版)》收录。可见频率是发生词汇化的一个动因,但不是决定因素。
频率同语言演变之间是什么关系?高频共现会引起线性毗邻的语言单位组块化,但在某一结构体词汇化的过程中频率到底起到什么样的作用?频率高低同结构体词汇化的程度呈正相关吗?一些研究也表明,低频的结构体也会发生词汇化。如彭睿通过对“的+N”语串在古今语料中的频次的对比调查,指出“的话”在“的+人”“的+事”“的+话”三类非结构词串中无论是在古代汉语还是现代汉语中频次都是最低的,但结果是词汇化候选者“的话”胜出。在前面依据《现代汉语频率词典》统计中发现,在词次<10中除了(赋于、介于、宜于)三个词之外,其他词(富于、陷于、勇于、忠于、基于、鉴于、利于、归于、甘于、苦于、乐于、难于)等12个词全都被《现代汉语词典(第7版)》收录,这些词显然经历了词汇化过程。频率对结构体的演化是否具有推手作用?从本质上来讲,高频共现反映了语用力量对词汇创新的维系,失去了这种力量维持的词汇创新很难在语言演变的背景下承传下来,成为某一语言中的承传词。关键是如何理解频率的内涵,彭睿研究指出临界环境中的使用频率才是语法化候选项获得惯常化的重要力量,但并没有对词汇化领域中的频率内涵进行解释。已有词汇化领域中频率研究存在两种弊端:一是笼统说由于高频诱发了词汇化,缺乏实证支持;二是统计多集中在词汇化前的使用频率上,并不能回答词汇化项能否成词。词汇化需要经历三个阶段,词汇化前的句法环境,两可阶段的句法环境及稳定成词后的句法环境。真正对能否成词具有决定性影响的频率,是两可阶段的使用频率。词汇的创新始自于个体,个体创新被播撒、泛化,被同一语言社团的其他使用者接受、使用,需要经历较长时间厚度的累积,才能获得让结构体稳定的语用力量。
五、结语
基于大规模真实文本,我们构建了一个迄今为止最为全面的“X单+于”候选集,通过“词感投票”方式对186个“X单+于”成员的词汇化程度进行了分型,找出了“X单+于”中演化成词的成员,可以有效弥补《现代汉语词典(第7版》)和其他已有词典在相关词条收词方面的局限,提供更详细的参考清单。通过具体实证研究,首次报道了词感实验的阈值0.67,这一结论与黄昌宁、赵海分析语料加工过程中“双盲标注”不一致现象时指出的汉语词的认同率均值0.76左右存在一定差异。本文还从词性比较、语义融合、句法、频率角度对影响“X单+于”成词的因素进行了讨论,研究表明,“X单+于”能够演化成词是多方面因素整合的结果,很难说哪一个主要,哪一个次要,它们之间彼此关联,在“X单+于”的历时演化过程中发挥各自的作用。部分“X单+于”结构体表现出较强的成词倾向,但是具体成词时间、方式、途径上应该有其特殊性。这些演化成词的“X单+于”在汉语演化进程中是如何具体形成的,需要展开更进一步的详尽个案研究。
注释
①Manfred Krug, “String Frequency: A Cognitive Motivating Factor in Coalescence,Language Processing,and Linguistic Change,”JournalofEnglishLinguistics,vol.26,no.4,1998,pp.286-320.
②Joan Bybee,“From Usage to Grammar: The Mind’s Response to Repetition,”Language,vol.82,no.4,2006,pp.711-733.
③Britt Erman and Beatrice Warren, “The Idiom Principle and the Open Choice Principle,”Text&Talk,vol.20.no.1,2000,pp.29-62.
④Joan Bybee,“Sequentiality as the Basis of Constituent Structure,”TypologicalStudiesinLanguage,vol.53,2002,pp.109-134.
⑤解惠全:《谈实词的虚化》,见吴福祥主编:《汉语语法化研究》,北京:商务印书馆,2005年,第132页。
⑥董秀芳:《词汇化:汉语双音词的衍生和发展》,成都:四川民族出版社,2002年,第276-278页。
⑦刘丹青:《话题标记走向何处?——兼论广义历史语法化的三个领域》,见《语法化与语法研究》(三),北京:商务印书馆,2007年,第107页。
⑧徐丹:《“是以”、“以是”——语法化与词汇化》,见《语法化与语法研究》(三),北京:商务印书馆,2007年,第292页。
⑨高苗红:《“单音节语素+于”结构的词法化研究》,《现代语文(语言研究版)》2008年第7期。
⑩李德鹏:《论“动词+介词”的词汇化》,《齐鲁学刊》2009年第2期。