内部因素与元音范畴化感知*

2019-08-28王士元

语言科学 2019年4期

陈飞张昊王士元彭刚,3

1香港理工大学中文及双语学系香港九龙 2上海交通大学外国语学院上海 200240 3中国科学院深圳先进技术研究院广东深圳 518055

提要为了探讨元音内部的固有共振峰信息对元音感知的影响，文章采用范畴感知研究范式中的辨认和区分测试，考察普通话母语者对于普通话单元音之间(/i/-/a/)、前响双元音和单元音之间(/ai/-/a/)以及后响双元音和单元音之间(/ia/-/a/)的刺激连续统感知情况。结果表明：当不同元音之间(单元音与单元音)内部的共振峰曲线在走向上处于相对稳态时，其感知的范畴化程度较低；相反，当不同元音之间(复合元音与单元音)内部的共振峰曲线在走向上存在着相对动态变化时，其感知的范畴化程度则会显著提高。结合文献中有关其他音位范畴化感知的现有研究，文章还进一步总结了影响音位感知范畴化程度的多种内部和外部因素，并提出了在行为学和脑电研究中衡量音位感知范畴化程度高低的客观量化指标。

1引言

范畴化是认知科学研究中的一个焦点，是指大脑通过感知器官对实物和现象的突出特征进行遴选和归纳，并利用认知符号系统加以分门别类，将纷繁复杂的外部刺激转化为范畴化的信息。范畴化感知(categorical perception, CP)现象广泛地存在于人们感知外部世界的多种模态，视觉上的范畴化感知现象已被众多学者所论述，比如基于视觉感知对不同颜色(Bornstein et al.1976)或者对面部表情(etcoff & Magee 1992)的分类。在听觉领域，人们同样倾向于将无限多样的语音信号归纳为有限的类别，将连续的语音变化感知为离散的音位范畴(王士元和彭刚 2007)。有研究证明，刚出生不久的婴儿就能对一些语音对立表现出范畴化知觉(eimas et al.1971; Werker & Tees 1984)，并且这种言语范畴性知觉会随着儿童年龄的增长、母语语言经验的丰富而逐渐完善和成熟(席洁等 2009；Chen et al.2017)，从而帮助人们准确理解语音信号所传达的信息，提升日常言语交际的效率。

言语感知的范畴性体现为人类对连续物理属性的非连续性感知，语音刺激连续统被感知为离散的、数量有限的语音范畴，即音位；听话者对范畴间(between category)语音差异比对范畴内(within category)语音差异的感知敏感得多。对语音范畴化感知的研究最早可追溯到二十世纪五十年代，Liberman et al.(1957)通过修改英语浊塞音/b/、/d/、/g/后接元音/e/时在F2维度上共振峰过渡音征(formant transition)(吴宗济和林茂灿 2014：140)的起始位置，等步长合成出从/b/经/d/并最终到/g/的语音连续统，并首次提出了包括辨认任务(identification task)和区分任务(discrimination task)的研究语音范畴感知的行为学研究范式。另外，他们将语音范畴化感知的主要特点概括如下：1)在辨认实验中，辨认曲线在不同语音范畴的边界位置附近有陡峭的上升或下降；2)在区分实验中，区分正确率曲线有一个突起的峰值；3)辨认曲线的边界位置与区分曲线的峰值位置相对应，即“峰界对应”。如果满足了这三个标准，则说明语音感知是范畴性的；反之，则属于连续型感知(continuous perception)类型，也就意味着两个语音间没有明确的感知边界。Liberman et al.(1957)的研究为语音范畴化感知研究奠定了重要的方法论及理论基础。其后，从辨认实验和区分实验两种心理语音学任务模式出发，探讨语音范畴表征的心理机制，成为语音范畴化知觉实验研究的经典范式。

语音中的辅音感知呈现出了非常典型的范畴化感知特征(Liberman et al.1957；Liberman et al.1961；Miller & eimas 1977)。然而，以共振峰(formant)为主要声学线索的元音感知是否为范畴感知，在学界一直还没有定论。Fry et al.(1962)最早运用范畴感知实验范式，探讨了英语单元音/i/、/ε/、//的听觉感知，通过改变英语元音的F1、F2这两条共振峰，等步长合成由元音/i/经/ε/并最终到//的包括13个语音刺激的连续统，相邻两个语音刺激间有等量的共振峰参数差异。感知结果显示，元音辨认曲线的陡峭程度并不如浊塞音/b/、/d/、/g/那么高，从一个元音范畴到另一个元音范畴的转变更像是渐变而非突变；在区分实验中，被试对各个元音刺激音对的区分正确率普遍较高，而且没有表现出显著的区分峰值，因而也就缺乏所谓的“峰界对应”。Fry et al.(1962)将元音的这种感知类型定义为“连续感知”，以同塞音的“范畴感知”相区别，并且认为元、辅音在感知模式上存在差异的主要原因在于各元音和辅音在发音时的连续性程度不同，这种观点后来得到了Liberman et al.(1967)所提出的“肌动理论”(motor theory)的支持。

然而，有一些学者后来发现单元音的感知也具有类似范畴性感知的特点，如Studdert-Kennedy(1976)报道的一项研究表明，对“辅元辅”音节结构(CVC)中的单元音和相应的孤立单元音(V)音节分别作辨认和区分测试，发现CVC音节结构中的单元音感知的范畴性特点相对而言更为明显。还有一些学者直接比较孤立单元音感知和在外部语境影响下的单元音感知的不同，认为语境中单元音感知的范畴化程度更高(Repp et al.1979; Healy & Repp 1982)。另外，Pisoni(1975)指出，元音感知在某些特定的任务模式(如ABX区分设计)或语境因素影响下会呈现出某些范畴化感知的特点，但这源于特定区分任务或语境阻碍了区分实验中对听觉声学信息的检索，使得范畴内刺激对的区分正确率下降。Cowan & Morse(1986)认为对范畴内和范畴间语音刺激对的区分并非仅仅分别依赖听觉记忆(auditory memory)或语音记忆(phonetic memory)那么简单，并且重点探讨了区分实验设计中的元音次序效应(vowel order effect)的影响。除了从上述语境、区分任务设计等因素探讨元音范畴化感知问题以外，还有一些学者从共时层面着手，探讨母语经验对元音感知范畴化程度的影响(Stevens et al.1969；Zhang et al.2016)。总之，虽然在特定外在因素(如受语境影响或者在特定的区分任务)的影响之下，母语者对单元音感知呈现出一定的类似于范畴化感知的模式(categorical-like perception)，但是参照Liberman et al.(1957)归纳的音位感知范畴化的基本特征，我们发现：这种感知结果的范畴性特征并不是完全充足。后人(Hallé et al.2004)进一步把这种新的感知类型定义为“类范畴型感知”(quasi-categorical perception)。

目前有关普通话元音的感知研究相对比较薄弱，研究成果也比较少。Cheung(2004)对汉语普通话中具有鲜明特色的两个舌尖单元音//、//进行了范畴化感知研究。实验结果显示 F3 是普通话的两个舌尖单元音//、//听辨中最为重要的感知线索，对舌尖单元音的辨认和区分需要操控 F3 才能实现，F2 在两个舌尖元音的听辨中只起辅助作用。Cheung(2004)认为，母语者对于普通话舌尖单元音的感知也是介于“范畴感知”和“连续感知”之间的第三种感知类型，即“类范畴型感知”。最近，相关学者(刘掌才等 2016)对普通话中的一级元音感知进行了探索，他们不再去论证普通话单元音的感知是否是“范畴化”感知的问题，而是分析辨认边界位置得出了各相邻单元音的听感分界，并在此基础上大致勾画出了普通话基础元音的听感格局，通过与其声学格局的对比，发现了它们在空间分布上的一致性关系。

总之，以往元音感知的研究大都关注于受外部因素影响下(如语境因素、区分实验设计或者听者的语言经验)，对单元音感知在属性上是 “范畴型”“类范畴型”或是“连续型”的鉴别，而针对元音内部的固有共振峰信息对于元音感知范畴化程度高低的影响，却鲜有学者关注。一般而言，单元音的共振峰的走向随着时间改变并不会发生太大的变化，我们称之为稳态特征(steady-state property)，而复合元音的前几条共振峰的走向则会发生渐变或者突变，我们称之为动态属性(dynamic property)。元音内部的固有共振峰属性对感知结果的影响，反映的是一种普遍性的感知模式，即对元音共振峰相对稳态vs.相对动态的感知模式，探讨这类问题对于进一步了解人类的普遍认知和感知机制具有重要的理论意义。然而，目前有关元音感知的研究均着眼于共振峰处于稳态的单元音感知，且相关研究结果均表明稳态单元音感知的范畴化程度偏低。虽然有研究者(Nearey 1989)已经提出过这样的假设：元音的稳态特征，如单元音中的稳态共振峰是元音听辨的重要声学线索，另外一些元音固有的动态属性，比如复合元音中共振峰的动态改变也可能会对元音感知产生重要影响。但是，到目前为止尚未有实证研究去探讨有关复合元音的范畴化感知问题，并与单元音之间的感知范畴化程度高低进行对比。

范畴化感知考察的是不同音位之间的感知情况，不同单元音之间的共振峰曲线在其走向上相对而言是一致的、稳态的；而复合元音与单元音之间在其共振峰曲线的走向上相对而言是不一致的、动态的。本研究采用范畴感知研究的经典行为学范式，通过探讨普通话中单元音之间(/i/-/a/)、前响双元音和单元音之间(/ai/-/a/)、后响双元音和单元音之间(/ia/-/a/)的范畴化感知的表现，对比不同类别元音内部共振峰信息的稳态与动态属性的差异在元音听感上的差异表现，从而探究元音内部共振峰曲线在走向上的相对稳态(单元音之间)和相对动态变化(复合元音与单元音)对于元音感知的影响。我们提出这样的实验假设：单元音之间的感知范畴化程度不足(文献已证明)，而复合元音与单元音在共振峰走向上的相对动态变化模式会使得其感知的范畴化程度得到提高。更进一步，我们综合其他音位感知的相关研究成果，探讨音位本身所固有的内部频率信息会如何影响音位感知范畴化程度的高低。

2研究方法

2.1被试

本研究所招募的被试是来自某研究院的17名在读硕士研究生(9男8女)，平均年龄为23.32岁(标准差=2.37)。所有被试均为普通话母语者，且来自北方方言区，视听能力正常，非语言学、心理学专业学生, 无阅读、听力障碍与口咽部疾病，均没有接受过正规音乐训练。被试均为自愿参与，实验前签署了知情同意书，在安静的语音实验室中完成实验任务，并得到一份礼品作为报酬。

2.2实验刺激

当我们发复合元音时，口腔和舌头从一个元音滑到另一个元音的位置上去，两个(或三个)元音成分的分量往往不相等，其中有一个往往特别显著，被称为韵腹。由于普通话的复合元音属于假性复合元音(吴宗济和林茂灿 2014)，对于其二合元音而言，按他们在元音成分分量上的差别又可以分为前响二合元音和后响二合元音。其中前响二合元音的韵腹在前、韵尾在后，如普通话中的/ai/、/ei/、/ao/、/ou/；后响二合元音的韵头在前、韵腹在后，如普通话中的/ia/、/ie/、/ua/、/uo/、/ye/。从元音的共振峰模式上看，后响二合元音的后一元音成分(韵腹部分)普遍存在着较长稳定段；然而，对于前响二合元音的共振峰模式存在争议，王萍(2008)通过大样本分析了52位北京人的发音语料，归纳了普通话前响二合元音的两种主要类型：一种是韵腹部分先有较长的共振峰稳定段，后面紧接着斜率较大的韵尾过渡段；另外一种是韵腹部分共振峰先会有缓慢变化的过程，后面再连接斜率较大的过渡段。在本实验中，我们将选取前响二合元音中的前一种共振峰模式作为参照，以保持前响、后响二合元音在共振峰模式上的相对统一。

我们将选取普通话元音系统中的单元音/i/、/a/以及前响二合元音/ai/、后响二合元音/ia/作为语音材料。由于/i/、/a/均属于普通话顶点元音，且其组合的两个前响和后响二合元音在普通话音节或者音节成分中的出现频率很高，从而在一定程度上排除了发音频次等自上而下的加工信息对于感知结果的影响。在本实验中，这些单元音和复合元音均将独立作为普通话零声母音节的感知材料，且负载声调统一为高平调(即普通话音节“衣、啊、哀、鸭”)，以排除辅音声母、韵尾、声调等其他因素对元音感知结果的影响。另外，石锋(1983)指出在自然发音时，汉语音节内部在时长上存在着补偿调节作用，以保证各个音节的发音时长不至于相差太大。因此，本实验中的单元音音节和双元音音节在总时长上是保持一致的(见下页图1)。此外，曹剑芬和杨顺安(1984)通过声学测量得出：普通话中所有二合元音韵腹与韵尾、韵腹和韵头的时长比值的平均值约为6∶4；而吴燕萍(2008)的研究进一步表明，当二合元音中的韵腹由低元音/a/来充当时，韵腹部分/a/所占时长比例会显著变高，最高时可达7∶3。因此，本研究中将二合元音中(/ai/、/ia/)的韵腹和韵尾、韵腹和韵头的时长比例统一定为一个适中值2∶1，如下页图1所示(图中11号刺激均为典型的单元音/a/)。

由于元音的前三条共振峰是其听辨的最重要物理线索(Ladefoged & Broadbent 1957；Liberman et al.1967)，因此我们修改了元音的F1、F2、F3的值，共合成了三套语音刺激连续统：/i/-/a/单元音间的刺激连续统、/ai/-/a/前响双元音和单元音的刺激连续统、/ia/-/a/后响双元音和单元音的刺激连续统(见下页图1)。三套刺激连续统中的各个元音刺激都是借助Praat软件下(Boersma & Weenink 2009)Akustyk程序包里的 “Create Continuum”命令来实现(Plichta 2012)，除操控变量F1、F2、F3外，其他声学参数(F4、F5、基频值、音强等)均保持一致，以排除这些变量的影响，共合成了从/i/到/a/、从/ai/到/a/、从/ia/到/a/的三套连续统。所有语音刺激的音强均为72 dB, 音长均统一为270ms。F1、F2、F3维度分别以63Hz、73Hz、70Hz为一个步长，每套刺激连续统下均合成了11个语音刺激。其中，三套刺激连续统中的11号刺激均为典型的单元音/a/；/i/-/a/连续统中的1号刺激是典型的单元音/i/；/ai/-/a/连续统中的1号刺激是典型的前响双元音/ai/；/ia/-/a/连续统中的1号刺激是典型的后响双元音/ia/。这些典型的单元音和双元音刺激的语音频谱图如下页图2所示(图中红色虚线为共振峰曲线，各图中从下至上的三条分别为F1、F2、F3)，在听感上均比较自然。

图 1 /i/-/a/组、/ai/-/a/组、/ia/-/a/组的刺激连续统

图2单元音/i/、/a/和双元音/ai/、/ia/的频谱图

2.3实验流程

实验通过e-prime软件实现，利用笔记本电脑呈现语音刺激和探测界面，实验采用范畴感知经典行为学范式，包括辨认实验和区分实验，每位被试均需参与并完成这两部分测试。正式实验开始前有练习环节，确保被试理解实验任务并熟悉按键。

辨认测试：每次呈现一个语音刺激后，就要求被试根据所听到的刺激音，尽量迅速地按键反应。按照刺激连续统的不同分为三个辨认单元：如果判断为/a/，按键盘上的数字1键；如果判断为/i/、/ai/或者/ia/，则按数字2键。每个语音刺激重复10次，以随机顺序呈现，每个被试共计需完成330个辨认任务(11个刺激×10次重复×3个单元)。三个辨认单元以乱序形式在被试之间实现。在完成一定量的辨认任务后，被试会有足够的休息时间。每个被试完成整个辨认测试共需要25分钟左右。

区分测试：采取AX区分任务模式，由两个属于同一连续统的语音刺激组合成一个刺激对的形式呈现。刺激对的内部时间间隔(ISI)为500ms，每个连续统下均包含了29个区分刺激对，即18个间隔为2个步长的不同刺激对(9个顺序刺激对：1-3，2-4，……，8-10, 9-11等和9个逆序刺激对：3-1, 4-2，……，10-8, 11-9等)与11个相同刺激对(1-1, 2-2，……，10-10,11-11)。要求被试尽快判断其所听到的一对刺激是相同还是不同：若相同，按“V”键；不同则按“N”键。按照刺激连续统的不同分为三个区分单元，每个刺激对重复7次，以随机顺序呈现，每个被试共需完成609个区分任务(29个刺激对×7次重复×3个单元)。三个区分单元之间的顺序在被试之间实现乱序。在完成一定量的区分任务后，被试会有足够的休息时间。每个被试完成整个区分测试共需大约45分钟。

2.4数据处理

计算出共17位被试的感知数据，包括辨认边界位置、辨认边界宽度以及区分正确率(包括范畴内和范畴间区分正确率)。

辨认边界位置与边界宽度：边界位置是指两个辨认函数的曲线在辨认率达到50%处(即两条曲线的交点处)所对应的刺激序号值；边界宽度是指辨认率为25%与75%间的线性距离, 这个数值由概率分析中的均值与标准差决定(Peng et al.2010)。边界宽度越窄，表明在边界附近从一个音位范畴到另一个音位范畴变化的速率越快。本实验中边界位置与边界宽度均采用Probit分析拟合(Finney 1971)得到。

区分正确率：采用了Xu et al.(2006)提出的计算公式。我们把所有的区分刺激对重新划分为九组，每组中均包括四种类型的刺激对形式，即AA、BB、AB、BA，比如2-4组包含了2-2、4-4、2-4和4-2这四种刺激对。相邻的组会包含重叠的AA或者BB刺激(比如4-4刺激对同时存在于2-4组和4-6组中)。对于每组的区分正确率P值的计算方法为：

P=P(‘S’/S)×P(S)+P(‘D’/D)×P(D)

式中，P(‘S’/S)代表了被试在听到相同刺激对后，做出“相同”判断的百分比；P(‘D’/D)代表了被试在听到不同刺激对后，做出“不同”判断的百分比。P(S)代表在每组内相同刺激对占所有刺激对的百分比，P(D)代表在每组内不同刺激对占所有刺激对的百分比。在本实验中，P(S)和P(D)均为50%。

范畴内与范畴间区分正确率：基于每一个被试的具体辨认边界位置，我们又进一步把区分测试中九组的区分正确率二分为范畴内和范畴间区分正确率(具体方法参看Chen et al.2017)。比如对于某一个被试而言，其辨认边界位置为5.8，那么跨过该边界位置的两组区分组(4-6组和5-7组)的区分正确率平均值即为该被试的范畴间区分正确率，其余七组的区分正确率的平均值即为该被试的范畴内区分正确率。

3实验结果与分析

3.1辨认、区分曲线

三套刺激连续统下(/i/-/a/组、/ai/-/a/组、/ia/-/a/组)的平均辨认和区分曲线如下页图3所示，可以直观地看到，对于单元音/i/-/a/组的刺激连续统，辨认曲线在交点附近的变化相对较为平缓，区分曲线虽然整体正确率较高，但是有较大的波动和起伏，并且没有在辨认边界附近呈现明显的凸起峰值；而对于双元音与单元音/ai/-/a/组以及/ia/-/a/组的刺激连续统，辨认曲线在交点附近呈现相对陡峭的上升或下降，且区分曲线在边界位置附近有一个明显凸起的区分峰值。

图 3 三套连续统的辨认、区分曲线图

3.2边界位置与边界宽度

通过概率分析得到的所有被试的辨认边界位置和边界宽度的平均值以及标准差如表1所示：

表1 三套连续统下的边界位置与边界宽度

刺激连续统边界位置边界宽度平均值标准差平均值标准差/i/-/a/6.141.461.910.91/ai/-/a/7.201.011.320.45/ia/-/a/5.980.991.310.54

单因素重复测量方差分析的结果表明：/i/-/a/、/ai/-/a/、/ia/-/a/三组刺激连续统的边界位置主效应显著，F(2，32)=5.52, p < 0.01, ηp2=0.26。进一步的Tukey多重比较发现，/ai/-/a/组的边界位置(7.20)相对于/ia/-/a/组的边界位置(5.98)发生了明显后移(p<0.01)。另外，/i/-/a/、/ai/-/a/、/ia/-/a/三组刺激连续统的边界宽度主效应显著，F(2，32)=5.94，p<0.01，ηp2=0.27。这三组刺激连续统的边界宽度箱线图如图4 (图中盒子中的粗黑线代表中位数)所示。Tukey多重比较结果显示，其中/ai/-/a/组的边界宽度(1.32)和/ia/-/a/组的边界宽度(1.31)相对于单元音组/i/-/a/(1.91)都明显更窄(ps<0.05)，这说明在边界位置附近，双元音与单元音组的辨认曲线的变化速率更快，因此范畴化特点更强。

图 4 三套连续统下的边界宽度箱线图

3.3区分正确率

被试对于感知/i/-/a/、/ai/-/a/、/ia/-/a/三组刺激连续统的范畴内和范畴间区分正确率如图5所示。我们进行了3(三套刺激连续统)× 2(范畴内与范畴间两种区分类别)两因素重复测量方差分析，选用格林豪斯-盖斯尔检验矫正结果(Greenhouse-Geisser correction)。统计结果表明，不同的刺激连续统具有主效应，F(2，32) =59.16，p<0.001，ηp2=0.79；区分类别也具有主效应，F(1，16)=36.89，p<0.001，ηp2=0.69；另外，刺激连续统与区分类别具有显著的交互效应，F(2，32)=19.75，p<0.001，ηp2=0.55。

图 5 三套连续统下的范畴内与范畴间区分正确率

鉴于交互效应的产生，我们又分别对/i/-/a/、/ai/-/a/、/ia/-/a/三组刺激连续统下的范畴内与范畴间的区分正确率进行了简单主效应(simple main effect)分析。在单元音/i/-/a/组的连续统中，范畴内区分正确率(81.67%)和范畴间区分正确率(83.56%)没有显著差异，F(1，16)=0.53, p=0.48。然而，在前响双元音与单元音/ai/-/a/组的连续统中，其范畴间的区分正确率(73.94%)要明显高于范畴内的区分正确率(57.01%)，F(1，16)=74.09, p<0.001；对于后响双元音与单元音/ia/-/a/组的连续统，其范畴间的区分正确率(71.55%)也要明显高于范畴内的区分正确率(61.14%)，F(1，16)=37.21，p<0.001。

4讨论

为了探讨元音内部共振峰信息的相对稳态和动态变化对于元音感知的影响，我们考察了普通话母语者对于单元音之间(/i/-/a/组)、前响双元音和单元音之间(/ai/-/a/组)、后响双元音和单元音之间(/ia/-/a/组)的辨认和区分测试表现，这些前响、后响复合元音的内部共振峰的大小和走向在韵尾、韵头部分都存在着动态的变化。依据Liberman et al.(1957)提出的语音范畴化感知的基本特征，我们发现，普通话单元音之间(/i/-/a/组)感知的范畴化程度较低，具体体现为：/i/-/a/组在辨认测试中的边界宽度较宽，即边界位置附近辨认曲线的变化相对比较缓慢，并没有呈现陡升或陡降的特点；其次，/i/-/a/组的区分正确率曲线的波动和起伏较大，并且范畴内和范畴间的区分正确率无显著差异。相比较而言，普通话双元音与单元音之间(/ai/-/a/组、/ia/-/a/组)感知的范畴化程度较高，具体体现为：/ai/-/a/组和/ia/-/a/组的辨认边界宽度都更窄，即边界位置附近辨认曲线的变化呈现出了陡升或陡降的特点；其次，/ai/-/a/组和/ia/-/a/组的区分正确率曲线都在边界位置附近存在一个明显凸起的峰值，且同等声学差异下的范畴间的区分正确率要显著高于范畴内的区分正确率。因此，普通话双元音和单元音之间的感知表现出了典型的范畴化感知的特征，双元音与单元音之间共振峰信息在曲线走向上的相对动态变化使得感知的范畴化程度有了显著的提高。

4.1内部频率信息对于音位感知范畴化程度的影响

本实验研究结果表明，当不同元音之间(单元音与单元音)内部的共振峰走向处于相对稳态时，其感知的范畴化程度较低；相反，当不同元音之间(双元音与单元音)内部的共振峰走向相对而言存在着显著的动态变化时，其感知的范畴化程度会得到显著地提高，表现出了典型的范畴化感知特点。另外需要注意的是，本研究中单元音组中的相邻刺激之间的共振峰平均大小差异，实际上是大于双元音与单元音组相邻刺激的共振峰平均大小差异的(见图1)。因此，共振峰信息在走向上的相对动态变化而非共振峰的大小差异，才是影响感知结果的关键决定性因素。元音之间内部共振峰在走向上的相对变化与否，会对其感知的范畴化程度的高低产生非常重要的影响。

与此类似，基频信息F0才是决定声调的最重要的内部物理因素，相关文献中有关声调感知属于范畴型感知类型的判断，均来自不同调形(基频走向)的声调刺激对。一系列研究证明了普通话母语者对于阴平和阳平、阴平和去声、阳平和去声、上声和去声之间的声调感知呈现出行为学上的范畴化感知特征(Wang 1976; Xu et al.2006; Peng et al.2010; 荣蓉2013; Chen et al.2017)。学界在后来的研究中发现了其他汉语方言声调(Francis et al.2003; 高云峰 2004)、藏语声调(孔江平 1995)感知的范畴化现象。另外，借助于事件相关电位(event-related potential, eRP, 如Xi et al.2010; Zheng et al.2012; Zhang et al.2012)以及功能性磁共振成像(functional MRI, fMRI，如Zhang et al.2011)等技术，相关研究进一步揭示了普通话阴平和阳平、阳平和去声之间声调范畴化感知的大脑生理基础和神经机制。Wang(1967)进一步指出，声调中的曲折特征(contour feature)属于一种动态属性。然而，在有关平调之间或者其他调形相似的声调感知研究却得出了不一样的结论：平调之间的感知类型是连续型的(Abramson 1979; Francis et al.2003)，甚至于调型相似的声调对之间的感知在区分曲线上也没有呈现出典型的范畴性特点(王韫佳和李美京 2010；王韫佳和覃夕航 2015)。虽然后来有些学者在其研究中发现了广州话和东海话中平调之间的感知(金健 2010)或者相似调形声调的感知(阴平和上声，该实验中“上声”被设计为“低平调”)(荣蓉和石锋 2013)呈现出了范畴型或类范畴型的特征，但值得注意的是，他们都把目标声调置于负载句或是有意义的词语中，并不是经典范畴感知实验范式中的孤立音节感知，所以对目标声调的感知结果必定受到了前后语境的影响，语境中的基频信息的参照作用可能使得目标声调的感知更加清晰。因此，通过对比、总结可以发现，在没有语境因素参与的孤立音节单字调感知的条件下，导致声调感知的范畴型与连续型不同结果产生的原因很可能在于：前者使用的声调对材料包括了声调之间调形的相对改变，而后者使用的声调对的调形相似。因此，二种不同感知结果可能是由于使用的声调材料在“基频模式”或者“基频走向”上的差异所引起的。

综上所述，音位之间的范畴化感知的相关研究结果表明，当音位内部起决定性作用的频率信息在走向上处于相对稳态时(如声调间调形的相对一致、单元音共振峰的相对稳态特征)，其不同音位之间感知的范畴化程度较低；相反，当音位内部起决定性作用的频率信息在走向上处于相对动态变化时(如塞音的过渡音征变化、曲折调在基频走向上的相对改变、复合元音共振峰的动态变化)，其不同音位之间感知的范畴化程度则会较高。另外，除了频率外，音位的内部时长因素也会对其感知范畴化程度的高低产生影响，比如Pisoni(1973)的一项研究对比了在/i/-/I/ 刺激时长的长(300ms)和短(50ms)两种条件下元音刺激连续统的听辨结果，发现在元音时长较短时，承载刺激对间声学差异的听觉信息(auditory information)的呈现时间会相应变短，使得区分范畴内刺激对差异所主要依赖的听觉记忆(auditory memory)变得模糊，进而造成范畴内刺激音对区分正确率的下降；而区分范畴间刺激音对所主要依赖的语音记忆(phonetic memory)相对稳定，因此范畴间刺激对的区分正确率不会因时长变短而发生显著变化，从而范畴间刺激对的区分峰值相对而言会也更为显著，因此时长较短的元音感知的范畴化程度更高。另外，Gerrits & Schouten(2004)认为在连续语流中，由于元音发音时长缩短，元音感知线索呈现时间随之缩短，声谱编码更为复杂，使得元音的感知更具范畴性特征。当然，关于音位内部时长因素及其与频率因素的交互作用对音位感知范畴化程度的影响，还需要更多的研究去进一步探讨和论证。

4.2衡量音位感知范畴化程度高低的客观量化指标

有学者(刘掌才等 2016)非常明确地指出，无论是作为音段音位的元、辅音，还是作为超音段音位的声调，一个音位本身就应该是一个范畴，该音位的所有自由变体和条件变体即为范畴的成员。语音的听觉格局和语音的声学特征的确应该存在一定的对应性，特定的音位在发音人的语言系统中能够区别意义，在某种意义上它们就应该是范畴化感知的。如此说来，对语言中的声调、辅音，甚至是元音的感知在本质上都应属于“范畴化感知”类型，只不过人们对不同音位感知的范畴化程度有高有低，各种内部、外部因素均会直接或者间接影响到音位感知的范畴化程度的高低。

在上文的一系列讨论中已经指出，音位内部的相关时、频信息，音位外部的语言环境、实验方法和听者的语言经验(跨语言或者跨方言的差异，见Peng et al.2010)都会对音位的范畴化感知产生重要的影响，甚至于失乐症者(Jiang et al.2012)、自闭症谱系障碍患者(Chen et al. 2016; Wang et al.2017)等特殊人群对其母语中音位的范畴化感知也都存在着不同程度的缺陷。因此，音位的范畴化感知特征不仅由其物理属性决定，同样受制于听辨人的生理和心理属性，是由不同的内部、外部因素有机地组合在一起而形成的一个心理上的感知范畴，是一个极其复杂的“多维的感知场”。我们认为，以往的传统研究中将语音的感知类型截然划分为“范畴感知”“连续感知”或者“类范畴化感知”，并不能满足言语感知的实际，在典型的连续型和典型的范畴型感知之间还存在着非常多的中间状态。感知结果本身就是一个范畴化程度由低到高的连续统，由于Liberman et al.(1957)所提出的范畴化标准只是对感知类型二分的定性分析，因此我们需要在该标准的指导下，发掘在各类不同因素影响下衡量范畴化程度高低的具体量化指标。

音位感知范畴化程度高低的量化研究是近年来范畴感知研究中的新进展，音位感知的范畴化程度越高，表明对不同类别音位的区分度越高。那么，哪些感知参数可以用来客观衡量音位感知范畴化程度的高低呢？首先，辨认测试中的边界位置的作用主要在于划分不同音位类别在听感上的分界。如本文中的/ai/-/a/组的边界位置相对于/ia/-/a/组明显靠后，是由于/ai/-/a/组内部共振峰发生变化的位置在时长后1/3的韵尾部分，而/ia/-/a/组内部共振峰发生变化的位置是在前1/3的韵头部分。另外，有研究指出，相对于非母语者，成人母语被试的母语经验并不会改变其音位感知的边界位置(Peng et al.2010；Xu et al.2006)；并且儿童随着语言经验的增多，其音位感知的边界位置也不会发生变化(Chen et al.2017)。因此，我们认为辨认边界位置并不能作为衡量音位感知范畴化程度高低的有效指标。而对于音位感知范畴化程度的高低，可以使用辨认测试中辨认曲线的斜率(Xu et al.2006)或辨认边界宽度(Peng et al.2010)等参数来量化体现。边界宽度(辨认率为25%与75%间的线性距离)着重考察的是边界位置附近的辨认变化速率，而辨认曲线的斜率则受到了整条辨认曲线的影响。由于Liberman et al.(1957)所提出来的有关衡量范畴化感知的标准中，强调辨认曲线是在不同范畴的“边界附近”有陡峭的上升或下降，因此，我们认为辨认边界宽度比辨认曲线的斜率更适合作为衡量感知范畴化程度高低的有效客观指标。另外，在区分测试中，Liberman et al.(1957)强调了在边界位置附近区分正确率的显著提高，其实也就意味着“范畴间区分正确率”的重要性。在本实验中，虽然/i/-/a/组的整体区分正确率相比于其他两组均偏高，这主要是因为/i/-/a/组中区分刺激对之间在物理(共振峰)参数上差异较大；但是由于/i/-/a/组的区分曲线并没有在边界附近出现一个明显凸起的区分峰值，且范畴间区分正确率并没有高于范畴内区分正确率，因此其感知的范畴化程度仍然较低；而/ai/-/a/组和/ia/-/a/组的范畴间区分正确率要远高于其范畴内区分正确率，其感知的范畴化程度较高。因此，在范畴感知行为测试中，辨认边界宽度越窄、范畴间区分正确率相比于范畴内区分正确率越高，也意味着音位感知的范畴化程度越高；反之，则音位感知的范畴化程度越低。

另外，由于范畴感知的行为测试受限于被试的注意力、认知水平、记忆力等因素，很多年龄偏小的婴幼儿被试或者患有各类特殊认知障碍的人士并不能有效完成辨认、区分等行为测试。随着认知神经科学的发展，借助于脑电技术，可以在被试不需要主动注意力的前提下，采集其对不同音位刺激感知的脑电信号，实现对婴幼儿或者特殊障碍人士分析其范畴化感知能力的可能性。脑电中的eRP是一种特殊的脑诱发电位，是大脑对特定的刺激或事件做出反应的神经电生理体现。Xi et al.(2010)证明在不需要主动注意力的条件下，范畴间音位偏差比范畴内音位偏差能够引发更明显的脑电波成分，这说明属于不同范畴的音位刺激在大脑皮层已经有了生理表征上的显著差异。且相关研究结果表明，事件相关电位中的失匹配性反应波(Mismatch Responses，MMR)从正向波(Positive Mismatch Response，P-MMR)向负向波(Mismatch Negativity, MMN)的转换，一方面反映出声音刺激在物理属性上的差异由小到大的变化，另一方面可以反映出听者对刺激差异在感知区分能力上由弱到强的变化(Lee et al.2012)。一般而言，对于不同音位感知的范畴化程度越高，这种失匹配性反应波会倾向于负向波(MMN)，并且这种失匹配性负波的幅值会更负，潜伏期会提前；而对于音位感知范畴化程度偏低的听者而言，这种失匹配性反应波会倾向于正向波(P-MMR)。因此，听者对于隶属不同范畴的音位刺激的偏差感知可能在失匹配性反应波的极向、幅值甚至潜伏期上存在差异，这些脑电成分也可以作为衡量音位感知范畴化程度高低的神经生理指标。

5结论

本研究考察了元音内在的固有共振峰信息对于元音感知范畴化程度的影响，当不同元音之间(单元音与单元音)内部的共振峰信息在走向上处于相对稳态时，其感知的范畴化程度较低；相反，当不同元音之间(双元音与单元音)内部的共振峰信息在走向上存在动态变化时，其感知的范畴化程度会得到显著地提高。结合以往研究中关于声调范畴化感知的相关结论，我们认为音位之间内部的频率信息(基频或者共振峰)在走向上的相对稳态或动态变化会对感知结果产生重要的影响。由于音位感知是受到多种内部、外部因素影响下而形成的一个复杂的感知范畴，我们主张抛弃以往研究中对感知结果“范畴型”或“连续型”的粗略划分，而应该重点比较受到某种或某些变量影响下的音位感知范畴化程度高低的量化差异。我们还指出，在经典范畴化感知行为测试中所得到的辨认边界宽度、范畴间与范畴内区分正确率可以作为描写范畴化程度高低的客观行为学指标，而事件相关电位中失匹配性反应波在极向、幅值甚至潜伏期上的差异也可以作为衡量音位感知范畴化程度高低的神经生理指标。未来有关音位范畴化感知的研究应该走向定量化、科学化，而本文所总结和提出的有关音位感知范畴化程度的各类影响因素及其衡量指标具有重要的参考和指导意义。