声调的社会群体约定性*<br/>——来自跨方言单字调辨认实验的启示

声调的社会群体约定性*
——来自跨方言单字调辨认实验的启示

2020-12-02郭承禹

语言科学 2020年6期

郭承禹江荻

1上海师范大学人文学院上海 200234 2江苏师范大学语言科学与艺术学院江苏徐州 221009

提要文章对声调与音高的关系提出一个“社会群体约定”的假设。该假设是指同一地域内同一语言的使用群体对音高或声调具有相同的感知模式。文章设计了三个方言实验测试同一被试群体对不同方言音高形式的敏感性，分别是母语方言感知、相似方言感知和异方言感知实验。结果证实被试仅对母语方言中范畴化的音高具有辨别能力，这种特定的音高被称为声调。他们听辨其他方言时只能采用物理音高线索判断或者利用母语经验来比较判断。更准确地说，各类单字音节在声学上蕴含了无限多的音高形式，唯心理感知产生的或范畴化的音高形式才能获得声调地位。文章结论是：声调是同一社会群体约定的范畴化音高形式。

1 引言

1.1 音高与声调

声调与音高息息相关，国内外很多学者都对“声调”概念进行过具体的阐释。林焘和王理嘉(1992：123)认为能“区别音节的意义的音高就是声调”。美国语音学家赖福吉(2011：243)认为“对词义产生影响的音高变化叫做声调”。还有更详细的释义如“声调是利用语音(这里应当也是指音高)的高低、升降，或长短来区别词汇意义或语法意义的语音单位”(高永安 2014：1)。但声调就是单纯的音高吗？从理论上来说，音高模式有很多种，究竟有哪些音高最后成为了声调呢？就汉语方言来看，某个声调调类所对应的音高(调值)就不一而足，如阴平在不同方言中存在不同的音高模式。(1)材料来源于北京大学中国语言文字系，《汉语方音字汇(第二版重排本)》，语文出版社，2003年。例如：

北京话：[55] 济南话：[213] 太原话(平声)：[11] 扬州话：[21] 长沙话：[33]......

不仅是阴平，各方言其他调类的音高模式也有或多或少的差异。那么，这些不同音高模式究竟是如何形成的？实际上，音系的声调与物理的音高之间可能还有一个连接层面，即听觉感知。以上各方言的调值是研究者通过听辨拟定的(可通过语音实验进行验证)，母语群体使用者也是通过听辨音高直接理解词汇意义。

但是，个体发音的音高总有差异，母语人如何达成共同声调感知的呢？本文推测，汉语的声调是通过有限使用群体对音高形式感知模式的范畴化实现的，这个过程可称为群体约定。不同地区的使用群体对音高有不同的群体约定，即某方言的声调是其对应的社会群体所约定的具有特定音高形式的产物。

1.2 声调的感知模式

要论证“社会群体约定”假设，首先要弄清母语群体对于声调的感知模式。关于声调的感知模式，学界是有争议的。自Liberman等人(1975)提出辅音感知属于范畴感知的结论以来，他们所采用的辨认和区分实验成为了一种经典研究范式。此后，元音的感知研究也在此基础上展开，得出了元音属于连续感知的结论(Fry等 1962；Pisoni 1973；Rosen 和 Howell 1987)。从理论上来说，母语者对于声调的感知模式应当同辅音或者元音一样，要么属于范畴感知，要么属于非范畴感知。但其后的声调感知研究并没有得出统一的结论，很多国外研究者认为声调感知属于范畴感知(Chan等 1975；Wang 1976；Hallé等 2004；Xu等 2006；Peng等 2010)，而且国内学者的研究也得出了相似的结论(杨顺安 1992；刘娟 2004；王韫佳和李美京 2010；王萍等 2014)。但也有一些学者发现不同声调之间缺乏明显的心理感知边界(Abramson 1961，1979；Francis等 2003)，因此得出声调感知不属于经典的范畴感知的结论。

具体来说，Abramson(1979)发现泰语母语者尽管在三个平调的辨认实验中呈现了范畴化的倾向，但是在区分实验的结果中却缺乏相对应的范畴边界峰值。Francis等(2003)的实验结果也大致相同。在母语群体参与的辨认实验中，广州话的三个平调之间存在明显的范畴边界，但在区分实验却并未发现。Hallé等(2004)将这些情况称之为“类范畴化”(quasi-categorical)的感知模式。

实际上，之所以会出现上述情况，是因为研究者仅集中研究了两个(或三个)声调对立，而且这些声调往往都具有相似的调型特征。最后得出了诸如平调之间为非范畴感知，平调与非平调之间为范畴感知的结论。事实上，大多数的语言的声调对立绝非只有平调之间的对立。再次，单独从辨认实验来看，母语者对于所有声调的整体感知也倾向于范畴化。近年来，越来越多的神经科学和电生理学研究也证明了这一点(Xi等 2010；Zhang, Xi等 2012；Si等 2017)。

声调感知的研究不应集中于部分具有相似特征的声调对立，而是应当回归于语言的使用者，例如测试某个群体对母语或其他语言(方言)的声调是否具有范畴化的整体感知能力。因为语言使用群体才是最重要的研究对象。以母语群体为例，在他们的群体内部，(2)群体是个模糊概念，群体外部还存在竞争性，这部分内容超出本文主旨，暂不讨论。共同的地理群体遵循共同的生活规约，形成共同的社会心理，表现出人类生存的合作性天性。而且根据人类学家观点，语言是人类合作最关键的方式(Hurford 2007)。声调作为语言的一种超音段特征之一，无疑也受到了群体合作的影响。

1.3 声调感知的群体差异

近20年来，声调感知研究开始关注具有不同语言背景的群体，其中大多研究的结论反映出母语群体对于声调的范畴化感知程度高于非母语群体，而且对范畴边界的感知也更为敏感(Hallé等 2004；Xu等 2006；Peng等 2010；张林军 2010)。除此之外，还有很多值得深思的现象，例如声调语言的母语群体所具有的声调语言经验是否有助于判断其他语言的声调。Wayland和Guison(2004)发现北京与台湾的普通话母语群体比英语母语群体能够更好地辨别泰语的声调对立，这也就说明普通话母语者的声调使用经验有利于其他语言的声调听辨。同时也存在其他的观点，如Lee等(1996)发现有声调经验的普通话母语群体和无声调经验的英语母语群体在感知粤语声调时，两者的实验结果基本上是相似的，因此他们认为声调数量较少(例如普通话四调)语言的声调经验对判断其他语言的声调对立没有帮助。此外，So和Best(2010)也同样认为母语群体的声调语言经验并不一定有助于其他声调语言的听辨，被试群体的听辨结果与母语和目标语二者的声调特征的差异程度相关。

以上的实验研究大多比较了声调语言群体和无声调语言群体的声调感知差异和不同声调数量的语言群体之间的声调感知差异。但是，这些研究忽视了语言群体对具有相似声调系统的语言(方言)的感知问题。非母语声调听辨应当包括相似方言与“相异”方言两个方面。另外，以上研究所选用的方言大多是普通话或粤语，其他方言材料却很少受到关注，前贤得出的结论也有必要在其他方言中进行验证。例如以普通话材料为主得出听辨结果是否与使用西南官话材料的结果一致。

综上所述，声调与音高并不是对等的关系，本文就此提出“社会群体约定”的假设。所谓声调的“社会群体约定”是指同一地域内同一语言的使用群体，以单音节词的音节或组合音段可能呈现的多样性自然音高为基础，将某些随时间进程的高低曲折等音高变化形式约定为载义的或可别义的心理感知模式。为了验证这一假设，本文以昆明话母语群体为主要研究对象，分别考察他们对于相似方言(贵阳话)与相异方言(长沙话)的声调是否具有高度敏感性，主要目的在于比较母语方言群体和非母语方言群体的感知区别，据此说明声调的“社会群体约定性”。

2 实验设计和准备

2.1 实验被试分组

本研究的被试群体分为3组：长沙话母语群体(C组，下文沿用简称)，昆明话母语群体(K组)和昆明以外的云南方言群体(NK组)。C组人数为17人，男性7人，女性10人，平均年龄为37.5岁；(3)参与听辨的被试听力无障碍，能清晰地听辨各种调类，可以进行正常的交流与言谈。K组人数为20，男性8人，女性12人，平均年龄为20.3岁。C组和K组的所有被试都是在本地老城区出生，而且在本地长期生活，外出时间均不超过一年，除本地方言外，他们还能使用普通话交流。NK组的人数为20，男性11人，女性9人，平均年龄为22.1岁，其中5位被试来自于呈贡、富民和寻甸等昆明周边地区，还有15位被试则来自楚雄、文山、曲靖、丽江、普洱和迪庆等其他云南省的县市地区。NK组被试群体之间均可使用西南官话正常沟通，而且大多能够使用普通话。

实验的刺激材料为3种方言的单字录音，即昆明话，贵阳话和长沙话。(4)本文实验选字的长沙话材料来自《长沙方言研究》(1999)；贵阳话材料来自《贵阳方言词典》(1994)；昆明话材料来自《云南方言调查报告(汉语部分)上》(1969)，详见附录。长沙话刺激音节/s/系列中，“嗝”的实际读音为/k21/。贵阳话和昆明话的“啰”是语气词，例如“来啰”。根据实验目标，我们对K组和NK组被试依次进行母语方言感知、相似方言感知和异方言感知三项实验。(5)母语方言指社会群体相互认同为同一种话的语言或方言，一般为自幼习得的语言，语言群体生活于同一地域。相似方言指语言学分类上同一语言或方言之下略有差异的分支语言或方言，这些略有语言差异的不同群体经过一定时间交流磨合能听懂相互话语。相异方言指不同群体相互听不懂对方话语意义的语言或方言。其中K组为主要的实验被试群体，C组和NK组均为对照。被试情况如表1。

表1 三个感知实验的具体情况

此外，还有一个补充实验：NK组听辨昆明话。实验目的在于观察地理距离不同的相似方言群体对昆明话的声调感知模式。所有被试群体和听辨方言的关系如图1：

图1 被试群体和听辨方言的关系

2.2 三种方言的单字调刺激材料

实验的录音刺激材料主要涉及三种方言：昆明话、贵阳话和长沙话。贵阳话和昆明话都属于西南官话，(6)黄雪贞(1986)和《中国语言地图集》(1987)均把昆明话和贵阳话划归为“昆贵片”。李蓝(2009)讨论西南官话分区时，将贵阳话划归为川黔片，而昆明话则属于云南片。两者语言表层的声调格局很接近，均为阴平、阳平、上声和去声4调。其中阴平、阳平、上声三调调值相近，只有去声有细微的差别，因此我们把两者的关系称为相似方言。长沙话属于湘方言，去声有阴阳对立，而且具有独立的入声调，为6调方言，与昆明话和贵阳话有较大差别。三个方言具体调值如表2所示。

表2 长沙话、贵阳话和昆明话的声调调值

实验的刺激材料来自各方言规范的单字录音，无人工干预和修改。昆明话发音人为张先生，男，1958年生；贵阳话发音人为张先生，男，1946年生；长沙话发音人为胡先生，男，1956年生。上述发音人均长期住在老城区，无长期离开本地的经历。以音节[pa]为例，昆明话4调的例字为“巴，八，把，霸”，贵阳话的例字为“巴，八，把，坝”，长沙话6调的例字为“巴，爬，把，霸，稗，八”。图2为不同方言及各调类的基频图，从基频图可以观察出，实验单字录音与前贤的调值描述基本吻合。

图2 长沙话(左)、贵阳话(中)和昆明话(右)的单字调基频图。横坐标为基频点序号，纵坐标为赫兹值(Hz)

2.3 实验准备与流程

实验的准备工作分为三步：1)依据不同调类来选取代表字。选字原则是在声韵一致的前提下，找到调类最小对立的代表字。以昆明话为例，声韵组合[phi]音节所对应的四调代表字为：披、皮、鄙、屁，一共选取10-15组。(7)长沙话有10组，贵阳话12组，昆明话15组。具体调类例字可参见附录。2)按字表进行录音并制作刺激程序，(8)录音的设备是AKG C554L话筒与iCON4 nano VST声卡。每个方言的发音人1位。录音过程中每个例字朗读三遍，截取第二遍的录音音频，将其随机编排，(9)总量约为48-60个录音文件。并用E-prime做成感知刺激程序，每个代表字读音间隔为7秒左右，总时长为5-10分钟。3)按照录音播放顺序做好相应的问卷，每个录音对应一题，每题的选项是之前选取的调类代表字，4调方言有4个字，6调方言有6个字可供选择。因此昆明话问卷有4×15个题目，贵阳话问卷有4×12个题目，长沙话问卷有6×10个题目。实验开始前，每位被试在问卷上填写基本信息，并熟悉问卷上的文字选项。随后，我们依次确认被试能够理解文字选项，也能用本地方言进行朗读。所有被试的主要任务是依据听到的录音来选择对应的文字选项，例如C组被试听到一声长沙话录音“/pa33/”，则应当选择“巴”的选项，如不确定可以空选。每个录音均用扩音器播放，音量适中。

实验的具体流程为：C组群体仅听辨长沙话，每位被试发放一张问卷。K组群体和NK组群体依次听辨了昆明话、贵阳话和长沙话，每位被试发放3份问卷。实验结束后，C组共回收有效问卷17份，K组回收有效问卷60份，NK组回收有效问卷60份。

3 实验结果与分析

3.1 母语方言感知实验

母语方言感知实验的目的是考察母语者对自身方言声调系统的感知是否具有群体约定性，共包含两组实验：昆明被试听辨昆明话和长沙被试听辨长沙话，后者主要作为前者的对比和参照。按照我们的理论预设，K组和C组各自属于其母语的声调约定群体，对于不同调类的刺激是高度敏感的。具体表现为每位被试所选的听辨目标例字的准确率较高，也表现为不同调类对应的目标例字选择的准确率较高，这两种情况分别称为被试准确率和调类准确率。(10)例如母语方言感知实验中，某被试在1份昆明话问卷中选择正确例字54次，被试准确率为54/60=90%；阴平调在20份昆明话问卷中被选中对应例字289次，调类准确率为289/300=96.33%，调类错误率为3.67%。

3.1.1 母语方言实验的被试准确率

从整体情况来看，K组和C组被试的准确率基本在80%以上，且两类群体最高准确率均达到98.3%，这说明被试对母语方言的调类区别十分敏感，能够正确地选出与录音对应的调类例字，详见图3。

图3 母语方言感知实验的被试准确率

两组的差异在于C组准确率的浮动范围较大，最低仅有70%，而K组比较稳定，最低为80%，这种区别可能是由于长沙话的特殊性造成的。长沙话6个声调分别对应6个例字，相对昆明话4个例字来说，选项更多，听辨的干扰性更大。更关键的是，所选长沙话单字存在异读的情况，主要是阳去字有白读调[21]和文读调[45]两种异读，而且文读与阴去调值一致，例如“祸”有[xo21]和[xo45]两种读音。当其作为备选项时，被试则可能会出现无法判断的情况，而昆明话中的声调异读现象并不明显。总之，C组的不稳定情况是由方言的特殊性决定的。

3.1.2 母语方言实验的错误倾向

从准确率结果可知，同一社会约定群体在听辨中有着高度一致的准确性，同时其错误倾向也值得分析。造成错误倾向的原因可能有三：一是语言本体原因，例如上文提及的例字存在异读的情况，或者是由调类之间调型和调值的接近而造成的匹配错误；二是实验准备过程中的失误。如果本组所有被试都对某一个录音判断错误的话，有可能存在发音人的个人发音特征或实验录音操作方面的失误；三是个体被试造成的，例如某个调类的错误倾向都来自某一个被试，那么这种错误属于被试的个人判断困难。(11)匿名审稿人指出，母语方言实验的错误还可能与单字感知有关。日常语言中的双音节词更为常见，部分方言的连读变调甚至会“掩盖”单字调。除非是训练有素的语言学家，一般母语者很难做到100%正确。第一个原因是无可避免的，也是本文的研究重点，而后两个情况并没有出现在实验结果当中。

K组不同调类的整体错误率都在15%以下，其中错误率较高的有两调，阳平为13.33%，去声为13.67%。另外上声为10%，错误率最低的是阴平，仅有3.67%。具体来说，容易混淆的两组为：阳平[31]-上声[53]、阳平[31]-去声[22]。阳平[31]和上声[53]都为降调，K组被试将阳平判断为上声的概率为6%，而将上声判断为阳平的概率为9%。另一组阳平[31]和去声[22]则均为低调，K组被试将阳平判别为去声的概率为5.33%，反之为8.33%，详见图4。

图4 母语方言感知实验中K组的错误倾向

尽管这两组错误说明调类之间的相似性会对被试造成有一定干扰，但这种干扰均在10%以下，说明母语群体绝大部分被试能分辨相近调类，因此调型与调值的接近在整体上并不能影响母语人群的心理感知。此外，只有这两组的感知错误是双向的。这种所谓“双向错误倾向”是指被试把A调感知为B调，B调亦感知为A调，而且这两种倾向都比较明显。其他错误基本都是单向，而且均低于4%。单向错误基本可以忽略，属于随机错误，即造成的原因可能是噪声干扰或者被试精力不集中等等。

在参照组C组被试的听辨结果中，除入声外的其他调类整体错误率都在15%以下，这一点和K组基本一致，详见表3。

表3 母语方言感知实验中C组的调类整体错误率

C组中显著的双向错误为阳平[13]和入声[24]，被试把入声判断为阳平的概率为12.94%，将阳平判断为入声的概率为7.65%。其他的基本都为单向选择错误，而且错误倾向都在15%以下。我们认为C组双向错误的性质和K组一致，都是由调型和调值接近导致的。而其他单向错误倾向则基本无规律可循，详见图5。

图5 母语方言感知实验中C组的错误倾向

总的来说，母语方言感知实验中的错误倾向可以分为两类，双向错误和单向错误。双向错误是由调类之间调型或调值的相近造成的。Fok(1974)在母语者听辨实验中发现，两调之间的基频模式越相似，则越容易发生听辨混淆的现象，反之则不容易发生调类听辨混淆。王韫佳和覃夕航(2015)认为声学特征相似的调类之间并不存在清晰的区分范畴边界。不过声学相似的干扰并不能改变声调群体约定这一事实，因为母语感知实验中K组双向错误倾向均低于10%，C组低于15%，说明双向错误对于母语被试群体影响并不显著。单向错误一般是随机因素造成的，被试把A调当做B调，但很少把B调视为A调，这种随机错误不具有语言学上的意义。

3.2 相似方言感知实验

相似方言感知实验分为两个，以K组听辨贵阳话为主，再以NK组听辨贵阳话作为参照。如前文所述，无论是K组还是NK组都不属于贵阳方言声调的约定群体。但是贵阳话和昆明话同属于西南官话昆贵片，两者语言表层的声调系统基本类似，为相似方言关系。除了去声稍有区别之外，其他调类的调型和调值基本一致(参见上文表2)。

3.2.1 相似方言实验的被试准确率

从整体结果来看，K组和NK组两类人群的准确率集中在50%到70%之间(参见图6)。相对于K组而言，NK组的浮动范围较大，最高出现了87.5%的极值，最低只有33.3%。而K组除了31.25%的异常值之外，其余被试的实验结果则相对比较接近。NK组被试之间之所以会产生很大的差距，是因为NK组人群的地域来源范围较广，包括与四川省交界的楚雄彝族自治州、迪庆藏族自治州和丽江市，与贵州省毗邻的曲靖市以及南部普洱市等地。虽然地理上属于云南省，不过他们处于不同的声调约定范围内部，因此出现了很大的差异，详见图6。

图6 相似方言感知实验的被试准确率

就每个调类的准确率来说，K组和NK组基本相似。例如两组都对贵阳话去声[24]的判断比较准确，均达到了70%以上。此外两组对于阴平调[55]均有60%以上的准确率，而两组的主要区别在于对贵阳话阳平[21]的判断，NK组达到了66.67%，而K组只有43.33%，详见表4。

表4 相似方言感知实验中K组和NK组的调类准确率

值得注意的是，昆明话声调格局中没有中升调，那为什么K组对贵阳话去声的判断具有如此高的准确率呢，甚至比平调[55]更加准确。我们推测被试者可能使用了排除法来进行判断，因为昆明话声调格局中只有平调和降调，故听辨中升调[24]时则比较犹豫。不过昆明话阴平、阳平和上声的调型和调值均无法与[24]调对应，而去声[22]的实际调值为[212]，末尾有上升的趋势(杨时逢 1969)，所以被试基本排除了前三者，选择了去声例字。

3.2.2 相似方言实验的错误倾向

就K组来说，比较明显的错误倾向主要有两个，一是将贵阳话阳平[21]视为了去声，整体错误率达到了47.9%。二是把贵阳话的上声[53]听辨为阳平，错误率为33.75%。这两个错误倾向均是由于听辨的目标调与被试母语调类的调值和调型相似造成的。

昆明话的[22]和贵阳话的[21]调接近，且各为声调格局当中的最低调。K组被试在听辨相似方言中的低调时，会自然而然地以母语方言中的低调进行对应。但是这一低调在昆明话中属于去声，在贵阳话中则属于阳平。因此K组被试的匹配错误实际上就是相似调值在不同方言中分属不同调类的体现。不过昆明话的阳平[31]的调型也能对应贵阳话的阳平[21]，而且被试选择正确选项阳平的概率并不低，为43.33%。另一方面，贵阳话的上声[53]既可以对应昆明话的上声[53]，也可以对应昆明话的阳平[31]。55%的K组被试都正确选择了上声，但也有大约三分之一的被试选择了阳平，造成了匹配错误。

NK组整体情况基本同K组相似，最显著的错误是对于贵阳话上声[53]的判断，而且两组都倾向于选择阳平。不同的是，K组最为显著的错误倾向并没有发生在NK组之中，即NK组被试并未倾向于把阳平视为上声，而且NK组对阳平正确识别率高达66.67%，详见图7。

图7 相似方言感知实验的被试准确率

在相似方言感知实验中，K组和NK两组听辨准确率最高的调类是贵阳话的去声[24]，其次为阴平[55]。另一方面，听辨中显著的错误倾向往往是非对称的，即A调视为B调的概率，和B调被当做A调的概率是不对等的。

这种非对称错误倾向是听辨方言和母语方言的相似音高分属不同调类造成的，例如K组把贵阳话的上声[53]视为阳平，是因为被试母语的阳平调和目标调[53]接近。显著的非对称错误率可达到40%，其他错误倾向一般低于20%。

3.3 异方言感知实验

异方言感知实验为说西南官话的K和NK两组人群听辨长沙话。这两组被试听辨结果与前两组有明显的不同，出现了未选和多选两种情况。其原因在于长沙话和西南官话属于不同方言，声韵调三方面差别较大，被试对于例字的心理认知与实际听辨录音很难匹配。此外，长沙话有6个调，问卷上有6个不同例字与之对应。但西南官话只有4个调，也就是说其中有些例字对于K组和NK组的被试来说是同音的，因此出现了多选的情况，详见表5。

表5 长沙话和昆明话的声调调值

以[xo]组字为例，在长沙话听辨问卷中阴去例字“货”和阳去例字“祸”，阳平例字“河”与入声例字“活”在西南官话中同调，而在长沙话感知实验中却是不同的调类代表字。K组和NK组被试在无法辨别两者的情况下，可能认为两者皆为正确，因此多选。我们把多选归为选择错误，因为无法区分调类说明被试无法感知异方言声调。

3.3.1 异方言实验的被试准确率

从整体的情况来看，K组和NK两组的准确率都在30%以下，也就是对长沙话声调不具有辨别的能力(见图8)。上文提到的未选或多选情况，在母语/相似方言实验中均很少出现。对比两组被试，K组被试的准确率略好于NK参照组。K组被试的最高准确率达到了45%，最低为16.57%；而NK组被试最高为36.67%，最低仅为6.76%。K组比NK组准确率稍高的原因还有待进一步研究，详见图8。

图8 异方言感知实验的被试准确率

3.3.2 异方言实验的调类准确率

就K组来说，我们可以将调类听辨准确率分为三个梯度，如图9(左)所示。

图9 异方言感知实验的被试准确率(左)昆明话和长沙话的单字调对应关系(右)

第一梯度为准确率≥50%。只有阴平符合要求。之所以有着如此高的准确率，是因为昆明话的阴平为平调[44]，与长沙话的阴平[33]调型和调值接近，昆明被试的听辨准确率接近70%。同时，也可能是因为长沙话的单字调只有一个平调，与其他非平调差异较大，易于判断。(12)感谢匿名审稿人提出此条意见。

第二梯度准确率为10%-50%，从高到低分别是上声[41]、阳去[21]和入声[24]。其中昆明话上声[53]和长沙话上声[41]都为高降调，昆明话去声[22]和长沙话阳去[21]都为低调，在听感上比较相似，K组被试对这两调的判断准确率达到了30%左右。此外，还有一点值得思考的是入声判断的准确率达到了10%-20%，因为昆明话入声[31](归入阳平调)与长沙话入声[24]的调型有明显差别，但准确率却和前两者接近，其具体原因尚待分析。

第三梯度为准确率≤10%，包括阳平[13]和阴去[45]两类。K组和NK组对这两调无法感知是因为昆明话声调格局中没有中升调和高调，因此判断时存在困难。需要说明的是，在实验过程中，我们一直强调不要用普通话阅读调类例字，收到了实际效果，如长沙话阳平调[13]接近普通话的阳平调[35]，但被试判断的准确率却不高，说明被试仍是按照自身母语来进行判断。昆明话与长沙话的声调对应如图9(右)所示。

异方言的听辨准确率情况可以通过Best(1995)提出的“知觉同化模型”(PAM)(13)全称为Perceptual Assimilation Model。上文So(2006，2010)均以此理论进行分析。这个理论实际跟上文指出的“非母语人的物理音高感知”内涵是一致的。来解释。她认为被试听到非母语语音时，会依据非母语与母语之间的相似程度将其纳入母语范畴之中。在实验中，K组被试属于UC(Uncategorized V.S. Categorized)类型。长沙话和昆明话中都具有平调和非平调两个范畴的对立，K组被试将长沙话的这种对立同化至昆明话中来。由于长沙话平调[33]和昆明话平调[44]调值相似且均为阴平调类，因此长沙话的[33]被纳入了昆明话的阴平类，被试的准确率达到70%。但是长沙的非平调类(特别是中升调)在昆明话中不存在相似的调类对应，所以长沙话的其他5调则游离在昆明话的声调范畴之外，无法被同化。具体表现为非平调的准确率都在50%以下，而且不同调类的准确率也不平衡。

4 实验结果与三个层次

4.1 三个层次

以上三项实验的被试准确率呈现出三个识别层次。观察图9，具有最高准确率的是母语方言感知实验，除个别极值之外，准确率都在80%-90%之间。K组和C组被试分别是上文所指出的同一社会群体，其高准确率的听辨结果可以归结为他们对母语音高形成了心理上的“声调约定”。相比另外两项实验，母语方言感知的识别结果层次最高，可称作“声调约定层”。在相似方言感知实验中，K组和NK组对贵阳话的感知准确率在50%-70%之间，其准确率基本源自听辨方言和被试母语声调格局(调型和调值)的相似性，这种非母语的物理音高感知结果可名为“类声调识别层”。在异方言感知实验中，K组和NK组对长沙话声调感知的准确率在20%-30%之间，基本无感知能力，这个识别层次可看作“非声调约定层”，详见下页图10。

以单因素方差分析(one-way ANOVA)的结果来看，这三个方言感知实验的被试准确率在统计上具有显著的差异，即F(2,114)=415.5，p<0.001。此外我们还采用了Tukey HSD的事后分析方法，结果说明这三个实验之间两两对比的差异依然十分显著，详见表6。

图10 实验结果所对应的三个识别层次

表6 基于Tukey HSD两两比较实验之间准确率的结果

根据三个实验的结果具有显著差异的结果来看，据此划分三个识别层次有一定的客观性与合理性。

4.2 声调约定层

声调约定层与类识别层和非约定层有着本质的区别，实验结果中最为明显的特点是：约定层的被试群体在听辨中依赖范畴化的音高决断，显示出高度一致的准确率。从被试准确率的角度来说，在K组20人和C组17人中，只有4个被试低于80%。相比之下，类识别层中只有一个被试达到了极值87.5%，其余被试的准确率均在80%以下。具体到不同调类的准确率，约定层的调类准确率在77%-97%之间，而类识别层和非约定层的最高调类正确率均无法达到这一高度，详见表7。

表7 三个层次之间的调类准确率差异

如表所示，无论表层声调格局如何类似，仅仅依赖调型和调值(对非母语人即音高曲线和音高值)无法完全辨识每一调类。

约定层的另一个特点体现为轻微的双向选择错误。如前文所述，调类的相似性会给被试的判断造成一定干扰，而且对于不同约定层来说干扰的程度和性质也不一样。对于约定层的被试来说，干扰表现为错误率均低于15%的双向错误倾向。低于15%说明绝大部分的被试仍能正确辨识母语中的相近调类，双向则说明声调系统内部调型或调值的确具有相似性。但对于类识别层，调类的相似性干扰则体现为低于45%的非对称错误倾向。具体来说，非对称性表明类识别层被试基于母语经验来判断听辨方言调类的情况下，类识别层的显著错误倾向仍达到了40%左右。

此外，K组和NK组听辨昆明话的错误倾向对比也可以说明约定层的特点。K组听辨昆明话即是上文的母语感知实验，属于约定层；NK组听辨昆明话虽然不属于母语听辨，但昆明话作为云南省城的权威方言地位对NK组被试有很大的影响，因此既不属于类识别层也不属于非约定层。具体结果如图11所示：

图11 补充实验中K组和NK组的错误倾向，左图为K组，右图为NK组

相比之下，NK组每种调类的错误倾向都比K组更为明显，而且NK组有一个显著的错误倾向，即把昆明话去声[22]听辨为阳平[31]。这一倾向K组仅有8.33%，而NK组高达54.33%，说明声调的调值相似虽然不影响母语方言的声调感知，但是对非母语者的感知却影响极大，呈现的错误倾向也是非对称的。可以说，未经历声调社会约定的被试对相似调值缺乏敏感的判断。值得注意的是，调型的接近对NK组的感知影响并不大，如阳平[31]和上声[53]的混淆错误并不明显，其错误倾向与K组基本一致。

4.3 类声调识别层与非声调约定层

类声调识别层和非约定层的主要区别在于听辨目标方言与被试母语声调系统的表层相似度较高。就类识别层来说，K和NK两组被试的母语和贵阳话同属西南官话，西南官话内部声调格局的相似导致了其与非约定层有着很大的区别，主要有以下三点：

就最高听辨准确率的调类来说，K组听辨贵阳话去声[24]的准确率为71.25%，听辨长沙话阴平[55]的准确率为70%。两者准确率相似但正确原因完全不同，听辨贵州话时K组处在类识别层，被试之所以对去声[24]判断准确是因为贵阳话声调系统与母语方言相似，采用排除法确定中升调[24]只能对应母语方言的去声。听辨长沙话时K组处于非约定层，对于长沙话中平调[33]只能借助物理音高来判断。因为本实验三个方言阴平均为平调，且西南官话中没有其他平调的干扰，所以能得到正确结果。

此外，类识别层的调类准确率在各调之间大致分布均衡。K和NK两组在听辨贵阳话时，整体的调类准确率分别为阴平64%、阳平55%、上声47%、去声72%。听辨长沙话时，两组被试除了阴平达到63%，其余调值都在30%以下，如阳平为9%，阴去为8%。这说明非约定层被试仅能依赖物理音高或与母语方言的局部相似性进行判断，而不能像类识别层那样，可基于两方言的相似性并借助母语方言经验对不同调类加以判断。需要说明的是，类识别层的空选情况极少，且没有出现多选的情况，而非约定层的空选情况较为明显。空选情况可以反映被试对听辨方言声调系统的熟悉程度，例如在约定层的K组中没有出现空选情况，而类识别层和非约定层中均出现了不同程度的空选情况，详见下页表8。

综上所述，声调约定层是母语人听辨同属母语系的方言，他们通过音高范畴化感知声调。非声调约定层明显不同于声调约定层，听辨人仅能利用物理音高线索判断声调类别。类声调识别层与非声调约定层相同，听辨人不能直接判断音高类别，但是他们会利用母语方言经验对相似方言的物理音高加以比较判断(Qin和Mok2012)。

表8 类识别和非约定层次的空选情况

5 结语

本文通过跨方言群体对不同方言单字调的范畴化感知实验，说明了声调的形成与使用具有社会群体约定性。具体实验结果是：K组和C组分别对自身母语声调类别感知具有高度辨识性，被试对于声调的感知呈现出典型音高范畴化的特征；K组和NK组听辨贵阳话时，对整体声调类别有基本判断能力，这是由于贵阳话与其母语方言具有相似的声调格局和调值造成的；K组和NK组听辨长沙话时，除了对平调有较高的正确率之外，对其他调类基本无感知能力，属于物理音高感知或知觉同化模型(PAM)的UC类。显然，这三组被试群体对母语方言、“相似”方言、异方言的声调类别判断准确率呈现出有梯度的差异。这个差异正好对应着上文所确定的三个层次：声调约定层、类声调识别层、非声调约定层。就三个层次的关系而言，声调约定层与类声调识别层或非声调约定层有着本质区别，其高度一致的调类听辨准确性是其余两个层次均无法达到的。此外，类声调识别层和非声调约定层的区别是由被试母语与听辨方言的声调系统差异程度造成的。

总的来说，这三个层次的差异符合实验的目的和预期，也检验了声调的社会群体约定属性这一理论假设。不过，其中还有两点有待进一步探究：

一是声调是处在历时演变过程中的系统，任一方言的调类和调值都会不断发生变化，因此一时一地的人所约定的声调是相对正确的。结合声调与音段关系来看，声调的社会约定是一个动态过程，历史上的音段变化导致的“阴阳分调”、“送气分调”和“韵尾分调”(Gedney1972；王莉宁 2016)等促使群体自动形成新的约定。以当代长沙话来说，入声字失去了入声韵尾，独立的入声调[24]也正朝着阳平调[13]方向发展，那么上文实验中C组被试把入声判定为阳平的错误就是源于调值的演变模糊了调类的类属。这说明长沙话调类格局正处在变化中，一部分母语人保留了之前的“约定调”，另一部分已经倾向于新的“约定调”。

二是声调社会群体约定的具体地理范围。本文补充实验(NK组听辨昆明话)只是对于这个问题的初步探索。虽然NK组的阴平调类准确率为89%，但去声仅有34.33%，并非该声调的社会约定群体。那么究竟在地理上距离昆明市多远的社会群体属于约定群体呢？可能声调的社会约定群体概念需要增加社会学方面的内涵，同时需要大量的实验数据加以说明。

本文三项实验给我们的重要启发是，任何人都具有两种音高或声调听辨能力，即(范畴化的)音高类别感知和物理音高感知。当他听辨群体约定的母语方言声调时，必须采用范畴化声调感知机制；当他处于非声调约定地位，他仅能采用物理音高线索判断；当他处于类声调(相似方言)识别状态，他会利用母语方言经验对物理音高加以比较判断。

总之，社会群体对声调的约定本质上是对母语方言各种音节音高的调型和调值的范畴化感知分类，建立起心理上的有限音高类别并作为音节载义和别义的载体。本文结论可以简略地表述为：声调是同一社会群体约定的范畴化音高形式。