论声调语言的节奏与重音模式

2022-05-20刘春卉李可纯FrancisNolan

四川大学学报（哲学社会科学版） 2022年3期

刘春卉，李可纯，Francis Nolan

节奏指言语中可感知单位的凸显的规律性。早期有学者将 “规律性”解读为“等时性”(isochrony)，继而提出节奏类型假说，将世界语言分为音节计时型(syllable-timed，如汉语)和重音计时型(stress-timed，如英语)。(1)Kenneth Pike,The Intonation of American English,Ann Arbor: The University of Michigan Press,1945,pp.34-36.后续研究发现人类语言中无论是发音还是感知都不存在严格的等时性。(2)Bolinger Dwight,“Pitch Accent and Sentence Rhythm,” in Isamu Abe,Tetsuya Kanekiyo,eds.,Forms of English： Accent,Morpheme,Order,Cambridge: Harvard University Press,1965,pp.139-180；Ilse Lehiste,“Isochrony Reconsidered,” Journal of Phonetics,Vol.5,No.3,1977,pp.253-263.此后学界对节奏的研究转向强调整体结构相对凸显的规律性，即强弱的交替。(3)Francis Nolan and Hae-Sung Jeon,“Speech Rhythm: A Metaphor?,” Philosophical Transactions of the Royal Society B： Biological Sciences,Vol.369,No.1658,2014,p.20130396.相对凸显的交替模式往往同语言的音系特点有关，如音节结构、词汇重音、元音弱化等。(4)Rebecca M. Dauer,“Stress-timing and Syllable-timing Reanalyzed,” Journal of Phonetics,Vol.11,1983,pp.51-62.随后产生的各类节奏测量模型虽然仍常常被用于验证基于等时性的节奏类型假说，但以nPVI(Normalized Pairwise Variation Index，“归一化成对变异指数”)为代表的测量模型已经将相对突显的规律性作为节奏的核心概念。(5)Franck Ramus,Marina Nespor and Jacques Mehler,“Correlates of Linguistic Rhythm in the Speech Signal,”Cognition,Vol.73,No.3,1999,pp.265-292； Esther Grabe and Ee Ling Low,“Durational Variability in Speech and the Rhythm Class Hypothesis,” in Carlos Gussenhoven and Natasha Warner,eds.,Papers in Laboratory Phonology,Vol.7,Berlin,New York: De Gruyter Mouton,2002,pp.515-546；于珏、 Dafydd Gibbon：《节奏研究的语料库及研究方法探讨》，《当代语言学》2016年第1期。

nPVI通过计算语流中相邻单位的时长变化揭示语言的节奏特性。近年来对以nPVI为代表的节奏测量模型的争议主要在于对实验条件的控制和对测量结果的解读，比如，该模型容易受到材料选取、实验环境、个体差异等因素的影响，不同研究对同一语言的测量结果可能具有明显差异，对有些语言的分类定性存在困难，测量结果难以为节奏类型假说提供充分证据，等等。(6)Amalia Arvaniti,“Rhythm,Timing and the Timing of Rhythm,” Phonetica,Vol.66,No.1-2,2009,pp.46-63；Laurence White,Sven L. Mattys and Lukas Wiget,“Language Categorization by Adults Is Based on Sensitivity to Durational Cues,Not Rhythm Class,” Journal of Memory and Language,Vol.66,No.4,2012,pp.665-679.其实，在严格控制各项条件的前提下，nPVI仍然能够反映语言的重要韵律特征，而对条件的严格控制在相近语言的比较中很容易得到满足。比如，汉语官话各方言的音系、词汇、语法差异相对较小，理论上影响nPVI的要素并不多，加之普通话的普及，我们还可以在统计多人数据的基础上请方言母语者对同一段材料同时使用方言和普通话发音，这样就能在很大程度上避免各类外在因素对nPVI实证效力的影响。如果多人平均数据和个人普-方数据的nPVI都显示出明显差异，就足以说明不同方言的时长分配模式确实存在差异，此时再辅之以对各音节时长变化细节的具体呈现与对音系特点的分析，完全可以较为客观地反映其节奏韵律特征。

此外，nPVI所反映的节奏特点与该语言是否存在重音以及重音的作用密切相关，本文还将以此为基础讨论声调语言的重音实现及其凸显方式，为相关争议提供一个新的切入口和参照点。

一、声调语言的节奏差异

我们运用nPVI节奏模型对成都话与普通话的节奏进行比较，并通过多种方式保证实验结果的有效性，结果发现二者nPVI差别巨大。造成这一差异的因素主要在于成都话有以时长加长为主要特点的重音。同时，成都话的连读变调、焦点凸显等其他韵律特征也都跟其时长重音模式相匹配，体现了成都话重音节奏的多维特点。

(一) 测量控制和测量维度

为了保证nPVI测量数据的有效性，使其能够准确反映语言的节奏特点，避免各类外在因素可能的影响，我们从以下几个方面对实验进行了控制：

1．计算nPVI随统计音节数量增加的变化趋势，确保其最后到达稳定段，避免个别音节影响。

2．分语体提取多人数据以避免语体差异和个体特征的影响。

3．分普-方提取单人数据(普通话一级乙等的成都话母语者)进行对照，以排除个体差异造成的影响，同时也通过韵律迁移进一步验证普-方差异。

4．辅以各音节时长变化图以展示时长变化细节，以避免混同于非规律性时长变化所造成的nPVI值同实异。

(二) 发音材料和数据采集

本文实验选取了不同语体的两段材料，以避免语体对语言节奏可能产生的影响。(7)Arvaniti,“Rhythm,Timing and the Timing of Rhythm,” pp.46-63；Weijing Zhou,Huiping Song,Francis Nolan,Jian Gong and Xiaojiao Xue,“Style-specific Rhythms of Mandarin in 4 Different Genres,”《中国语音学报》第12辑，北京：中国社会科学出版社，2020年，第75-81页。语段1是书面语色彩较重的教学语言，语段2是口语色彩很强的日常会话。对应的普通话语段仅替换个别方言词(见附录)。

实验选取6位成都话发音人和6位普通话发音人。成都话母语者至少从父母辈就长期在成都生活，年龄22～45岁。普通话发音人包括北京话母语者和普通话母语者，普通话母语者为国家级普通话测试员或普通话水平达到一级乙等以上。发音人被要求以自然语速说出两个语段。

(三) 数据处理

nPVI以相邻单元的平均时长作为参照，计算相邻单元时长归一化后的差异性以避免语速的影响。具体计算公式如下：

对一个有m个音节的语段，每对相邻单元的时长差异与该对音节平均时长的比值进行加和后求取平均值，nPVI数值越大，表示相邻单元时长的差异性越大。nPVI公式中的d可以是韵母时长、元音时长、辅音时长、音节时长，甚至是基频等变量，而基于元音时长的nPVI最符合节奏关注相邻单位交替规律的理念。(8)Laurence White and Sven L. Mattys,“Calibrating Rhythm: First Language and Second Language Studies,” Journal of Phonetics,Vol.35,No.4,2007,pp.501-522.对汉语而言，韵母是较为合适的测量单位。韵母作为声调的承载单位, 在韵律感知中具有更重要的地位。选择韵母时长还可以排除声母因发音方法不同而导致的差异，所以此处nPVI节奏模型计算的是相邻韵母时长的成对变异指数。基于同样原因，本文所论音节时长的实际测量对象均为音节中的韵母时长。(9)本文其他部分所测量的时长均为韵母时长。声母时长受发音方法影响很大，且不同声母的组合能力和使用频率也各有不同，在自然语段中也很难控制所有音节的声母相同、发音方法相同或者都是零声母，而且统一声母仍然难以避免所选声母类型对相邻音节时长比的不同影响。在不能严格控制声母的情况下，计算韵母时长会更为合理，Laurence White and Sven L. Mattys(2007)的研究也表明以元音为基本单元计算nPVI在跨语言比较中更具区分度，这样可以排除辅音内部差异的影响。因此，为避免声母可能因发音方法不同而造成音节时长波动，本文以韵母时长作为测量对象，只是出于行文方便，文中多以音节时长指称。

(四) 实验结果

由于nPVI会随所选取的音节数量而发生变化，我们不是选择特定音节数终点位置的nPVI，而是计算该语段中每个音节位置的nPVI数值，将其随统计音节数量变化的曲线展示出来，并在走势趋稳后再持续统计数十个音节，以确保nPVI已到达其稳定段。

1.分语体比较结果

我们对6位成都话母语者语段1中各个音节位置的nPVI进行了计算，各发音人被要求尽量以自然语速说出这两个语段，作为对照，我们也请了6位北京话与普通话母语者说出对应的普通话语段。测量结果如图1。

实验结果显示，普通话nPVI在30～40之间，这和其他研究者的测量结果接近(30左右)。(10)Peter Ladefoged and Keith Johnson,A Course in Phonetics (Sixth Edition),Boston: Wadsworth Publishing,2010,p.253; Ee Ling Low,Esther Grabe and Francis Nolan,“Quantitative Characterizations of Speech Rhythm: Syllable-Timing in Singapore English,” Language and Speech,Vol.43,No.4,2000,pp.377-401.成都话nPVI在50～60之间，大大高于普通话(普通话nPVI平均值35.4，成都话平均值55.3，双尾t检验 p<0.001)。成都话和普通话nPVI在经过波动比较大的起始阶段之后，都在20～30个音节之间基本趋于稳定，其后稳定段的数值可以比较客观地反映其节奏特点。这种以变化走势稳定段代替固定数值的方法为nPVI的信度提供了重要保证。

语段1是属于正式语体的教学语言，各发音人的情感态度和语速都较为平稳。为排除语体差异的影响，我们又对比了成都话和普通话日常口语(语段2)的nPVI走势。实验结果如图2。

图2 成都话与普通话nPVI随音节数量变化趋势比较(语段2)

对比两图可以看出，成都话两种语体的nPVI差异不大，虽然两个语段语体不同，音节数量和语速也不尽相同，但计算结果基本一致，这说明跟普通话相比，成都话音节间时长波动较大，二者节奏差异显著。

2.同一发音人“普-方”对比结果

图3 同一发音人成都话和普通话nPVI随音节数量变化趋势(语段1)

为避免个体差异的影响，我们还选择了普通话水平为一级乙等的成都话母语者作为发音人(女，46岁)，结果显示同一发音人的成都话和普通话nPVI也同样存在明显差异(如图3)。

可见，普通话达到较高水平的成都话母语者能够很好地把握二者之间的节奏差异，而且普通话节奏特点还可能会对其母语产生迁移，比如该发音人成都话与普通话的nPVI差异就相对略小，终点值分别为53和37，而图1(同一语段)所反映的成都话和普通话nPVI终点值则分别为55和35。

当然，如果普通话水平较低，成都话高nPVI的负迁移就会较为明显，同样地，普通话低nPVI也可能会发生逆迁移，使成都话母语者的方言nPVI与之趋近。因此，跟很多方言不同，成都话母语者学习普通话还会受到方言节奏特点的干扰，但这在当地普通话培训中似乎尚未得到足够重视。其实，这种节奏迁移在二语学习中十分常见，比如，非英语母语者的英语nPVI会受其母语节奏特点影响，而且会随目的语水平提高而逐渐接近目的语。(11)Konstantinos Kyriakopoulos,Kate M. Knill and Mark J.F. Gales,“A Deep Learning Approach to Automatic Characterization of Rhythm in Non-native English Speech,” Proceedings of Interspeech 2019,pp.1836-1840.

3.各音节时长变化细节比较

为了更加清楚地显示成都话与普通话音节时长在语段中的变化幅度和变化频率差异，我们对语段1各音节时长平均值进行了对比，统计结果如图4。

图4 成都话与普通话语段1各音节时长比较

这段话中成都话时长变化幅度明显大于普通话，而且音长最高值344ms和最低值56ms都出现在成都话中。同时，普通话中时长超过200ms的音节只有5个，最高值是232ms。成都话中时长超过200ms的音节有11个，是普通话的2.2倍，而且其中时长超过300ms的就有5个，只有两个低于232ms。音节时长变化幅度也可通过标准差来体现，普通话母语者标准差平均值为46.93,成都话母语者标准差平均值为81.06，二者差异显著(双尾t检验p<0.001)。

我们还发现普通话时长超过200ms的音节都处于停顿边界前位置，都受到边界前延长的影响，而成都话时长超过200ms的11个音节中有10个都是双音节词和三音节词的首音节，虽然“研究生”的末音节超过200ms(284ms)，但它仍然明显小于其首音节时长(334ms)。

此外，虽然成都话和北京话的时长最低值相差不大，但成都话中时长较短的音节数量却多于北京话，成都话中时长小于100ms的有16个音节，普通话中小于100ms的音节是11个。成都话的长音节和短音节都多于普通话，这自然会造成其时长变化幅度大且频率高。

总之，多人分语体和个人普-方对照的测量结果均显示成都话nPVI明显高于普通话，几乎接近英语等“重音计时型”语言(60左右)。即使不承认节奏类型假说，我们也可以说，成都话和英语在时长分配的模式上接近，这是因为重音在两种语言中都普遍存在并较为凸显。Hyman(2009)提出尽管很多语言都存在重音，有些语言的重音会更加典型，在音系各个层面都被“激活”(activated)，比如在英语中，重音的规律会影响复合词、短语层面上的重音分配以及句子层面的重音指派。(12)Larry M. Hyman,“How (Not) to Do Phonological Typology: The Case of Pitch-Accent,” Language Sciences,Vol.31,No.2-3,2009,pp.213-238.成都话的重音与此类似，它广泛作用于词汇、短语和句子的信息结构等多个层面，只是其声学参数主要体现在时长维度上。下文将对成都话的词汇重音模式、短语重音分配以及信息焦点时长凸显、焦点前压缩和焦点后助词延展等贡献于成都话高nPVI的各种要素进行全面考察。

二、重音节奏与成都话词汇重音模式

成都话双音节词和三音节词都具有时长重音，我们以双音节词为主要讨论对象，三音节词作为参照。由于四音节以上的组合除单纯词外通常很难跟短语划清界限，而且其节奏也通常会分解为两个或多个双音节或三音节模式，所以我们不讨论四音节以上的组合。

(一)双音节词的首重模式

前人研究中已经注意到成都话的韵律词具有“首长尾短”的模式。(13)秦祖宣：《成都话二字组连读变调的实验语音学分析》，《语文学刊》2015年第8期。我们对双音节词的统计也完全符合这一特点。

讨论双音节词重音模式，可以从语流中截取双音节词并对其中两个音节时长进行对比，也可以选择双音词单独录音对比，前者可能会受句法位置和信息结构的影响，后者可能会受边界停顿的影响，为了使这些外在因素的影响降到最低，我们对两种情况分别进行了考察对比。此外，为了避免双音词内部构造的影响以及复合词可能与短语界限不清等问题，我们选择了双音节联绵词和外来词作为逐词单独录音的材料。

1.语流中双音词的重音模式

语段1中出现的双音词共计21个，包括“作为、硕士、毕业、论文、要求、非常、清楚、一定、全面、阅读、参考、文献、前人、研究、总结、其中、存在、问题、自己、研究、思路”。成都话中这些词前后音节时长比平均值为1.5，而普通话对应的时长比平均值为0.9(如图5)。

图5 语流中双音词前后音节时长比较

很显然，成都话双音词的首重模式比较典型，它甚至可以抵消边界前延长(pre-boundary lengthening)的影响。语段1中有6个双音词处于停顿位置，但他们仍然都是第一音节的时长大于第二个音节，只是前后音节时长比略低于所有双音词前后音节时长比，这说明处于停顿位置前的双音节词也存在边界前延长现象，但其延长限度仍然受制于双音词的首重模式。

2.双音节联绵词和外来词的重音模式

由于语流中双音词前后音节时长比可能会受到句法位置和信息结构的影响，我们也选择了一些双音节词逐词单独录音。我们选择了双音节联绵词和外来词以避免构词方式以及词和短语界限不清等因素的影响：

双音节联绵词：蜘蛛枇杷蝴蝶石榴蝙蝠葡萄柠檬葫芦枸杞橄榄玫瑰菠萝篱笆蚯蚓孔雀蚂蚁蟑螂蝌蚪

双音节外来词：可乐披萨摩丝伦敦纽约荷兰

三位成都话母语者逐词录音后求取各词音节时长比平均值的实验结果显示，即使单说可能存在边界前延长的影响，但并不会改变首重模式。双音节联绵词和外来词都是单纯词，其重音模式完全一致。三位发音人前后音节时长比平均值分别为1.32、1.35和1.37。

选择联绵词和外来词验证词汇重音模式，是因为这些词汇更具代表性：它们不受构词方式的影响，且外来词具有首重特点的唯一可能的解释只能是词汇重音模式的套用，足以说明该重音模式是相当稳定的词汇特征，所以外来词、普通话词或者其他方言词进入成都话都会被改造成首重模式以与成都话固有双音词首重特点协调一致。

双音节单纯词的首重模式非常典型，不过，对于复合式合成词而言，首重模式并非没有例外。一般而言，词汇化程度非常高的双音节词大都具有首重特点。根据我们的统计，“善良”“国家”“联系”“反正”等词语的前后音节时长比为1.2左右，略低于双音节联绵词。秦祖宣也认为成都话首尾音节时长差别显著，他对成都话471个二字组前后音节的韵母时长进行测量，计算出首音节平均值为303ms，尾音节为255ms。(14)秦祖宣：《成都话的连读变调与韵律结构》，《汉语学报》2015年第2期。基于这一结果可以计算出其前后音节时长比接近1.2，这跟我们的统计基本一致。可见，虽然成都话双音节词首尾音节时长比会因是否单说而发生变化，语流中也可能会受到句法位置的影响，但这些变化都只是量变，并不会改变其首重特点。

(二)三音节词的首重模式

成都话三音节词也同样具有首重特点，语段1出现的两个三音节词“研究生”“语言学”都是首音节最长，首尾两个音节时长比为1.45，中间音节时长最短，6人平均值如图6所示。

图6 语流中三音词各音节时长比较

由于语段1中三音节词数量较少，我们又单独统计了一些三音节外来词：哥伦布、华盛顿、巧克力、迪斯科、奥斯卡、法西斯、席梦思、麦克风、保龄球、汉堡包、冰激凌。实验结果显示这些单纯词都呈现出首音节时长凸显的首重模式，只是由于逐词录音，其末音节会出现一定程度的边界前延长，但其时长仍然小于首音节时长。可见，无论是否处于语流当中，三音节词也同样受制于其首重模式，而普通话的三音节词则通常是末音节最长。(15)Yi Xu and Maolin Wang,“Organizing Syllables into Groups—Evidence from F0 and Duration Patterns in Mandarin,” Journal of Phonetics,Vol.37,No.4,2009,pp.502-520.

四音节以上的组合通常会被分解处理，只有“澳大利亚”等多音节单纯词可能仍会保持首重特点，这也从一个侧面说明首重是成都话的词汇重音模式，能够作为判断词汇典型性的形式标准。关于重音模式和词化程度的关系，我们后面还会专门讨论。

(三)首重模式的辨义功能

成都话词汇重音模式和短语重音模式具有明显差异，我们以动宾结构为例加以说明。成都话双音词具有词首重音，而动宾结构则通常是宾语时长凸显。图7是从语段2中截取的动宾短语“做饭”两个音节的时长分配情况。

图7 “做饭”的动-宾时长对比

很显然，发音人的重音落在名词宾语“饭”上，而且其时长甚至可能数倍于其前动词“做”的时长。其他发音人这两个音节的时长比也都呈现同样的特点。

首重与否在成都话中可以把词跟与之同形的短语区别开来。以“修刹车”和“快刹车”以及“我吃烤肉”和“我去烤肉”为例(如图8)，作为名词，“刹车”和“烤肉”的第一个音节时长都明显大于第二个音节，作为动宾短语，“刹车”和“烤肉”则都是第二个音节明显长于第一个音节。

图8 “刹车”和“烤肉”的重音辨义

很明显，动宾式名词“刹车”“烤肉”具有明显的首重特点，而动宾短语“刹车”“烤肉”正好相反，都是前短后长，跟其他同类句法结构一样。

同样道理，多音节歧义结构“烤羊肉”“复印材料”等在成都话中也都可以通过时长重音模式区别开来，可见成都话中的重音具有区别意义的功能，这跟英语的重音辨义功能('content，n.内容；con'tent，adj.满意的)具有一致性。

三、重音节奏与成都话焦点重音凸显方式

成都话音节时长变化大的特征在语段中还会通过焦点凸显得以加强，如焦点延长、重音前压缩和助词延展以辅助承载重音等都是成都话凸显焦点常用的方式。

(一)焦点时长凸显

焦点词韵律凸显在很多语言中都普遍存在，成都话焦点词的时长重音也会得到加强，而且首音节时长凸显更为显著，这使得原本就具有首重特征的双音词前后音节时长比进一步加大。以“那个不是你的，是学校的”(16)成都话中跟普通话“的”对应的助词为“哩”，为便于理解，本文都写作“的”。为例，根据6位成都话母语者的录音数据，作为对比焦点的双音词“学校”前后音节的时长比是1.6。

在“她上的川大，川大在成都，不是绵阳”中，“川大”作为首句宾语(信息焦点位置)时的前后音节时长比明显高于其用作承接句话题主语时，而且前者总体时长是后者的两倍以上，这也使得处于句法焦点位置的双音词有更多的时长空间凸显其首重特点。如图9所示：

图9 焦点词的时长重音凸显

同样道理，对比焦点“成都”和“绵阳”的整体时长和首重特征也都更为凸显。可见，尽管双音词前后音节的时长会受到停顿边界、句法位置和信息结构影响，但这些都不会改变其首重特征，即使是处于边界位置的焦点词，其首音节的延长程度也通常比末音节的边界前延长更为明显，这进一步说明成都话双音词的首重特征比较典型。

因此，成都话凸显信息焦点主要是在词汇重音模式的基础上进行，即加强时长重音是其凸显焦点重音最主要的方式，这跟英语焦点词的重音音节更为凸显完全一致。王洪君指出非重音节不能承载强调重音是重音节奏型语言的重要韵律原则，英语的强调重音只能在词重音的基础上实现，要强调“blackboard”只能加重加高加长前一音节，形成“重者更强”的格局。(17)王洪君：《试论汉语的节奏类型——松紧型》，《语言科学》2004年第2期。

(二)焦点前压缩

焦点是句子中通过语音或句法手段被凸显的成分，而凸显焦点无外乎两种方式，一是强化焦点自身的声学特征，二是弱化焦点前后成分，两种方式并用可以构成合力。除焦点后压缩外，成都话还会出现焦点前压缩现象，而且由于其词汇首重模式的影响，焦点前压缩的作用似乎较焦点后压缩更为显著。

成都话的信息焦点和对比焦点都普遍存在焦点前压缩现象。前面图7中动宾短语“做饭”的宾语时长数倍于其前动词，这一方面源自信息焦点(宾语)的重音加强，另一方面也跟焦点前压缩密切相关；同样道理，图9中作为对比焦点的名词前也都出现了焦点前压缩。

单音节动词带双音节名词宾语时同样会出现焦点前压缩现象，双音节宾语的句法重音和词汇重音也都因此得到进一步强化和凸显。图10是从语段2中截取出来的三个“V单+N双”动宾结构。

图10 焦点前压缩

这些短语中的动词时长都非常短，这不仅有助于凸显其后作为信息焦点的双音词的首重模式，同时也强化了长短音节交替错落的节奏模式，贡献于成都话的高nPVI。

动宾结构中的述语一般都会出现某种程度的时长压缩以凸显作为信息焦点的宾语，不过，双音节动词述语的时长压缩还会受到词汇首重模式的限制，其压缩程度往往不及单音节动词，因为此时压缩的主要是双音节动词的末音节，试比较图11中的“种植”与“种”。

图11 动宾结构的重音凸显及其与音节数量的关系

图11是从承载句“那个人是种植白菜/种白菜/种菜的”中截取出来的三组动宾短语。很明显，宾语“白菜”和“菜”承载重音，述语“种植”和“种”都出现时长压缩，不过，四音节组合中的两个双音词“种植”“白菜”都是首音节凸显，二者的首重模式并未因句法位置不同而发生改变，只是双音节动词述语的末音节“植”出现了一定程度的压缩。因此，由两个双音词组合而成的动宾短语“种植白菜”中的述语和宾语因需要同时遵循首重的词汇重音模式，其宾语重音的凸显度略弱于单音节动词的宾语，或者说焦点前双音词的压缩程度由于同时受制于词汇首重模式而不及单音词压缩明显。

焦点前单音词压缩可以强化其后焦点词的凸显度，焦点前双音词压缩则除此之外还可以使该词语自身的首重模式也得到加强，因为其被压缩的对象以末音节为主，这无疑会增大它跟其前音节(词重音)和其后焦点词的对比度。如果是两个双音节词组合，则不仅焦点词的词汇重音会同时因焦点凸显和焦点前压缩而巩固增强，非焦点词也会因末音节压缩更明显而强化其词汇首重模式，这在语流中都体现为相邻音节的长短交替。

从理论上讲，焦点前压缩应该只是重音前压缩的一种特殊表现，多个双音词组合中末位词之外的其他双音词末音节都可能出现某种程度的重音前压缩以凸显其后双音词的首重特征，只是焦点前双音词压缩会更为典型，而且不受限于焦点词的音节数量。

(三)助词辅助承载焦点重音

与重音前压缩相反，成都话句尾助词通常会出现明显的时长延展，尤其是前接焦点词时。比如，成都话的语气助词通常可以拉很长，使得成都话在长短交替的同时还略带夸张的语气。与语气词相似，成都话的结构助词和动态助词在句尾通常也可以拖长。下面以“那个不是你的，是学校的”中的结构助词“的”为例：

图12 成都话结构助词时长延展

普通话中一般不会延长结构助词，即使是处于对比焦点的位置，而成都话的结构助词位于句尾时跟语气助词一样可以显著延长，尤其是位于对比焦点之后的结构助词，经常和其前焦点词同步延长，因此，成都话的句尾助词具有辅助提示其前焦点信息的作用，或者说成都话助词具有辅助承载焦点的作用，我们将另文专门论述这一问题。

成都话中出现在句尾的动态助词和结构助词大都可以拖得很长，而普通话结构助词和动态助词大多是轻声，而且不能像成都话那样自由延长，否则可能会影响话语自然度和接受度。

重音的时长凸显、重音前时长压缩和句末助词时长延展等因素都有助于加强成都话音节的长短变化，它们都对成都话的高nPVI具有一定贡献，这也刚好可以解释为什么单音节词为主的语段2也同样具有长短错落的节奏特点，其nPVI也跟双音词为主的语段1一样明显高于普通话。

四、节奏特点与声调语言的重音实现

当节奏的研究从“等时性”转向“相对突显”时，研究者就已经注意到重音现象对于节奏特征的重要意义。Dauer指出节奏的音系关联物多数都跟词重音相关。(18)Dauer,“Stress-timing and Syllable-timing Reanalyzed,”pp.51-62.对于普通话韵律的非量化研究，也有不少就是对重音和音步的分析。重音能够反映语言的韵律结构，而nPVI则是重音在时长维度上的具体表现，可以为重音在语言中的地位提供实证。

(一)声调语言的节奏差异与重音特点

影响时长分配模式的因素有很多，从计算公式上看，nPVI的数值差异可能源于以下因素：音段层面上的复辅音丛、长短元音、音段内在特征以及音段所处的位置等；词法和句法层面上的词重音和短语重音等；其他层面上的信息结构、边界前延长、元音弱化以及特殊语气的修饰等。(19)Arvaniti,“Rhythm,Timing and the Timing of Rhythm,”pp.46-63；于珏、Dafydd Gibbon：《节奏研究的语料库及研究方法探讨》，《当代语言学》2016年第1期。这些因素给解读nPVI差异带来一定困难。

不过，成都话属于西南官话，与普通话声母系统和韵母系统非常接近，其高nPVI基本可以排除音段层面的影响，二者边界前延长、元音弱化和特殊语气修饰等方面也没有明显不同。因此，造成二者节奏差异的关键因素是重音模式问题，成都话的重音比普通话典型且普遍。成都话是典型的左重语言，(20)有学者认为普通话也是左重，但也有人持相反观点或者认为左重右重跟是否位于停顿前有关，还有学者认为普通话左重、右重和等重并存。这跟成都话双音词普遍左重且前后音节时长差异显著具有明显不同。具有固定的词重音，重音通常有规律地出现在双音节词或三音节词的首音节上，以时长作为载体的词重音在多个双音节词连用时会形成多个“长+短”单元，词内“长+短”又刚好跟词间“短+长”循环交替，再加上句法重音或焦点凸显对词重音的强化，必然会使得计算相邻音节时长变化的nPVI相对较高。

根据Mok的研究，普通话的nPVI高于粤语。(21)Peggy P. K. Mok,“On the Syllable-timing of Cantonese and Beijing Mandarin,” 《中国语音学报》第2辑，北京：商务印书馆，2009年，第148-154页。在此基础上结合我们对成都话和普通话的测量结果，可以得出三者在nPVI数值上存在如下关系：

成都话>普通话>粤语

成都话更接近典型的重音计时型语言，而粤语更接近典型的音节计时型语言。可以说，nPVI差异反映了不同语言中“重音”的地位和作用：粤语是公认的没有重音的语言，普通话是否有重音存在争议但也有一些证据支持，而成都话的重音则普遍且凸显，存在明显的时长重音。跟其他官话方言相比，成都话听起来绵软舒缓，甚至有人说成都话就是西南地区的“吴侬软语”，这些感性印象的产生可能正是源自成都话的节奏特点。

声调和重音可以并存于同一个语言系统中，只是由于受到声调的影响，重音通常不能单独体现为音高的升高，而主要体现为时长的延长，但是在nPVI所反映的时长分配模式上跟借助于其他声学特征的重音语言是很接近的。

时长作为词重音载体虽然跟英语的音高音强重音具有明显不同，但它同样具有辨义功能和标记节奏的功能。声调语言选择时长重音的主要原因可能是音高已经作为声调载体用以区别意义。

(二)时长重音与声调特性

成都话长音节更凸显且出现更为频繁，这可能跟成都话声调的调型特点有关。相对而言，较为平缓的声调可能更有利于时长延展，而调域跨度大的声调不易延展，如普通话的去声。

成都话声调的音高跨度明显低于普通话，只是五度标调法在一定程度上掩盖了这种声学特征差异，因此我们采用半音值对成都话和普通话的声调进行对比分析。以下是我们使用praat脚本对6位成都话母语发音人各音节提取基频后求取半音值的调查结果：

图13 成都话和普通话半音值声调比较

成都话的阴平和去声是升调，阳平和上声是降调，这些声调的最大音高跨度是7个半音，而普通话声调的音高跨度则是13个半音，大大高于成都话。五度值声调把基频最高值和最低值分别换算为5和0，难免会掩盖不同方言声调的调域差别。下图就是对应的五度值声调：(22)图中所示成都话五度值声调跟其他学者调查结果基本一致。参见秦祖宣：《成都话单字调的实验语音学分析》，《语文学刊》2014年第7期；辜磊、黄旭男：《成都话的声调格局初探》，《第十一届中国语音学学术会议论文集》，2014年，第39-43页；何婉：《成都话单字调的实验语音学统计》，《成都大学学报》2015年第1期。普通话声调阴平略低于55，很多人普通话口语中阴平调的实际发音并没有达到55。

图14 成都话和普通话五度值声调比较

很显然，成都话原本很平缓的声调起伏度因适应最小值0和最大值5这一比例而被明显夸大，所以凸显调型区别度的五度值不能很好地揭示不同方言的声调在音高跨度上的差别。

音节可延展性主要基于生理和物理特征的可能性，成都话四个声调的起伏度都相对较为平缓，这可能使得成都话在时长伸缩方面更具弹性。

此外，从成都话半音值声调来看，成都话四个声调的区别度不是很高，存在两个微升调，两个微降调，尽管这些声调具有别义功能，但双音组合第二个音节通常会变调为短平调，秦祖宣对此作过专门论述。(23)秦祖宣：《成都话的连读变调与韵律结构》，《汉语学报》2015年第2期。非重读的末音节声调趋同也说明成都话声调的别义功能在重要性上不及普通话，这也许是成都话需要辅以时长重音的原因之一。(24)升调平缓只是时长延展的有利条件，并非充分条件或必要条件，而且调域起伏度与音节时长延展性以及时长重音有无直接关联还有待进一步研究确认。

(三)重音模式与词化程度

前文已经论证联绵词和外来词在成都话中都普遍具有首重特征。在进一步考察双音词重音模式的普遍性时，我们发现重音模式和词化程度密切相关。词化程度高的复合词大都具有首重特征，如“成都”“四川”“晓得”“安逸”“巴适”等，除大量偏正式和并列式复合词外，那些因转喻或隐喻而词汇化的词通常也具有首重的特点，如基于转喻的动宾式名词“刹车”“烤肉”等词化程度较高，跟同形短语意义差别明显，也呈现出首重特征。此外，首重特征跟词类也没有必然联系，所有词类的双音词普遍具有这一特征，如语段1中的“问题”“清楚”“阅读”“自己”“非常”等都是首重，它们分别是名词、形容词、动词、代词和副词等。

不过，由于词和短语界限的模糊性，成都话有些双音节组合并不符合首重的特点，或者这一特征不明显且存在个体差异。张一舟也指出成都话中动宾式、主谓式、非动趋式的补充式组合的第二音节往往重读。(25)张一舟：《四川方言几种连读音变现象研究》，《语言研究》2011年第4期。对于这种情况，我们可以根据首重标准把它们看作准短语，因为词汇化程度高的复合词大都符合首重特点，而未完全词汇化的双音节准短语未必如此。

成都话的首重模式可以为汉语词和短语的分界提供一个很好的观察角度。我们发现成都话中符合首重模式的非动宾式词语比动宾式组合要更为普遍，比如，“省俭”是首重，而“省事”“省心”则不然，这说明人们更倾向于把后者看作是动宾短语。再如，四川方言中的 “洋盘”“巴适”“晓得”“伸展”“脑壳”“抄手”“婆娘”等非动宾式词语都为首重，而 “成器”“抹黑”“遭孽”等动宾组合则通常是后重。这说明成都话中双音节动宾组合大多还是作为短语处理的，只有词化程度高的少数动宾式动词和意义转指的动宾式名词才被识别为词，符合首重的词汇重音模式。这也正是成都话的时长重音模式可以用来区别同形的词和短语的重要原因。

此外，成都话中主谓式的“地震”“日食”“月食”“海啸”多为首重，“眼红”“心疼”则有首重和后重两种可能，两读应该也是源自词与短语的重音模式不同；动补式“说明”“证明”“说服”等是首重，而意义整合度低的“降低”“提高”“缩小”等则大多处理为后重。这些词在普通话中通常都被看作是复合词，可见成都话对主谓式和动补式复合词的认定比普通话更为严格，这也许可以为词和短语的区分以及词汇化程度的判断提供一个有益的参考。比如，在成都话中“大小”类反义组合具有首重特征，而“扩大”“延长”“上网”等则是后重，对此一个可能的解释就是前者词汇化程度更高。钟奇也根据重音位置判断联合结构的松紧或词化程度，认为前重的“高低”是结构紧密的深度词化。(26)钟奇：《汉语方言的重音模式》，新加坡国立大学博士学位论文，2007年，第 153页。这刚好跟成都话是完全一致的。

(四)时长重音与变调方式

时长重音还会通过变调方式体现。van der Hulst指出声调也是一种重音的音系表现，汉语方言的韵律结构通常由声调的变化体现。(27)Harry van der Hulst,“The Study of Word Accent and Stress: Past,Present,and Future,” in Harry van der Hulst,ed.,Word Stress： Theoretical and Typological Issues,Cambridge: Cambridge University Press,2014,pp.3-55.

成都话的连读变调是后字变调为主。根据陈荣泽的研究，后字变调是西南官话中最主要、最典型的变调。(28)陈荣泽：《西南官话的两字组连读变调与轻声》，《西藏民族学院学报》2011年第2期。秦祖宣指出成都话除上声位于非叠音词二字组的左侧时变为高平调外，其余变调均发生在二字组的右侧。(29)秦祖宣：《成都话的连读变调与韵律结构》，《汉语学报》2015年第2期。我们认为这种变调模式跟成都话“首长尾短”的词汇重音模式密切相关，因为首音节时长较长，能充分实现其底层声调，尾音节时长较短，难以完全实现其底层声调，所以成都话连读变调大多发生在右侧，和普通话除轻声外的变调发生在左侧相反。

我们前面讨论过成都话可以用时长重音区分词和短语，张一舟认为成都话可以根据第二音节是否变调来区别“挂面”“画像”“泡菜”“运气”“地震”等多义组合，即当第二音节变调时是词，当第二音节不变调时是短语。(30)张一舟：《四川方言几种连读音变现象研究》，《语言研究》2011年第4期。这种变调模式也见于以上海话为代表的北部吴语。(31)端木三：《重音理论及汉语重音现象》，《当代语言学》2014年第3期。

其实，连读变调、时长重音是对同一语言事实的两种不同的分析方式。Duanmu、蒋平等都讨论过重音节保调，非重音节变调的现象。(32)San Duanmu,“Rime Length,Stress,and Association Domain,” Journal of East Asian Linguistics,Vol.2,No.1,1993,pp.1-44; 蒋平：《荔浦方言的轻重音与连读变调》，《方言》2005年第3期。此外，根据意西微萨·阿错对藏语和李兵对不同阿尔泰语的多项研究，藏语和其他一些阿尔泰语也存在类似的前长后短、前字保调后字变调的情况。(33)意西微萨·阿错：《藏语重音问题讨论》，冯胜利、马秋武主编：《韵律语法研究》第六辑，北京：北京语言大学出版社，2020年，第48-81页；李兵、李文欣：《鄂伦春语双音节词重音实验语音学报告》，《民族语文》2011年第3期。成都话的时长重音和重音节奏是否受到其他语言的影响，还值得我们进一步研究。

用重音来分析变调现象更具普适性，且不必考虑具体的声调变化模式。成都话的连读变调模式可以看作是时长重音导致的副产品，即非重读音节的时长不足以实现其完整调型，倾向于变调，重读音节则保持原调，这跟吴语是一致的。因此，时长重音在音系层面上作用于变调规律，非重读音节通常会因时长较短而发生变调，跟变调方式相比，时长重音更为根本。

五、结语

作为广泛应用的节奏模型，nPVI用于相近语言或方言的比较时可以很好地控制多种影响因素，在科学选择测量材料和测量方法的前提下能够有效反映韵律特征。语言的节奏还可以通过多种参数体现，nPVI也并非只能用来研究时长维度，其实在PVI提出之初，Low等人就已经将公式中的时长换为音强等要素。(34)Low,Grabe and Nolan,“Quantitative Characterizations of Speech Rhythm,”pp.377-401.后来Cumming还曾使用基频以及基频、时长的结合。(35)Ruth E. Cumming,“Perceptually Informed Quantification of Speech Rhythm in Pairwise Variability Indices,” Phonetica, Vol.68,No.4,2012,pp.256-277.因此，nPVI作为一个模型具有很大潜力，我们今后也会引入更多参数计算nPVI，以更加全面地反映语言的节奏特点。

语言的节奏特点和重音模式密切相关。基于nPVI节奏测量的结果显示，成都话比普通话更加接近 “重音计时型”语言，具有明显的轻重交替。该节奏特点刚好对应于“重音”这一韵律特征在成都话音系中的凸显。成都话的重音在词汇、句法和信息结构等各个层面都有充分体现：

1.重音在时长参数上具有稳定的体现。多数词汇化程度较高的词体现为稳定“首重”，前后音节的时长比远超普通话，且不会被边界前延长抵消。外来词和普通话的书面语词进入成都话时也都会被套用这种模式以实现其方言特征。

2.时长重音在焦点位置更为凸显，其前词语还可能出现明显的时长压缩。此外，结构助词和动态助词也可以辅助承载时长重音以凸显焦点。

3.时长具有辨义功能，可以区分词和短语，而且时长重音差异可以反映词汇化程度不同。

4.时长重音在音系层面上还作用于变调规律，词末音节通常会因时长较短而发生变调，且多变为短平调。变调与时长重音相比，可能后者更为根本。

不过，需要指出的是，成都话轻重音交替的节奏特点和双音词首重特点虽然都较为普遍，也较为典型，但仍具有一定的相对性和非强制性，而且节奏韵律特点相对较为隐性，即使出现偏离也很少会跟元音偏误和辅音偏误一样引人注意或作为纠偏对象。我们发现老成都人具有更强的一致性，而父母辈来自成都周边地区或者父母只有一方是成都人的发音人更容易出现较多的例外，其nPVI也相对低于我们统计的平均值。

时长重音的凸显在西南官话中具有一定的普遍性，只是成都话更为典型。其他汉语方言也可能存在重音，如湘语、西北汉语等，不同汉语方言中节奏与重音的关系都值得进一步研究。此外，重音指派的具体规律也需要通过控制词语结构、声母、韵母、声调等各类变量之后进行更加精确的定量研究。

附录：

语段1(教学语言)：作为研究生，对硕士毕业论文的要求心里要非常清楚，一定要全面阅读各类语言学参考文献，对前人的研究做个总结，找出其中存在的问题，提出自己的研究思路。

语段2(日常口语)：我那天都跟爸爸说，喊(普通话录音替换为“让”)他不要回去，就在这儿跟你一起带娃儿(普通话替换为“孩子”)，他要带娃儿你就去做饭，这样都不会那么累。那天黄子门来给他打电话，他就非要跟着黄子门回去，这两天还不是不好耍(普通话替换为“玩”)，一天饭都没人给他做，早上起来自己喝瓶奶就出去，上午就在外面找个地方打牌，打完牌就去饭店吃午饭，但晚上回去就难弄(普通话替换为“办”)了，他不会做饭，也没得人给他做，就只能胡乱对付一口。