吴语互通度与编辑距离之间的关系
2014-07-10王璐,张吉生
王 璐,张 吉 生
(华东师范大学 外语学院,上海 200241)
由于地理因素以及语言特点,吴方言通常被分为南北两大部分,即北部吴语和南部吴语。不管是对方言学家或是吴语作为母语的说话者来说,都有一个共识,即吴语内部的互通度(mutual intelligibility)程度差别很大。通常认为,北部吴语区内部的互通度比较大;而南北吴语间的互通度就低得多;南部吴语区之间的互通度也很低。涉及方言间可通度的因素很多,就语言本身包括语音、音系、词汇、句法以及文化等因素;就语言的使用者而言,涉及人的文化背景、社会背景、身体和心理状况、年龄与性别等因素。但决定语言(方言)间可通度的最重要因素当然是语言的音系结构(Gooskens 2007:445-467)。目前,有关吴方言内部互通度的研究不多。本研究旨在阐述可通度与音段层面的语言距离之间的关系。
本研究选取了吴方言内部的五个片区的五个方言点(黄岩、温州、永康、衢州、吴江),对它们相互间的互通度进行了测试,得出这五个方言之间互通度的一个相对值。然后根据Levenshtein(1966:707-710)的编辑距离(edit distance)计算方法,计算出不同方言间的语言距离(linguistic distance)与互通度之间的关系,从而在音段层面揭示导致方言间互通度差异的音系学原因。
一 互通度测试
(一)实验设计。本研究设计的语料选取了日常生活中常用的30个三音节的词,内容涵盖食品、身体部位、天气、称谓、节日、衣物等多个方面。选取的语料由从五个方言区土生土长的5名(3女2男)大学生录音而成①五位录音人都出生和成长于代表方言区,父母也都操该方言,虽然目前都在外读书,但和家人通电话等都用方言,在家交流都使用方言。。每个方言点的听音人都会听到所有五个方言点的语料,包括他们自己的母语。然而,为了防止出现预示效果(priming effect),听音人的母语都会被安排在其它四个方言之后。之所以需要听音人听自己的方言并且做互通度的测试,是为了证明本实验的语料的可行性。因为如果他们可以在自己的方言测试中取得较高的分数,那么至少证明了实验语料的设计的合理性。各个方言点测试的先后顺序安排的原则是将预计可懂度最小的,也就是最难听懂的方言排在最先被听的位置,然后依次而排。在到各个方言点进行实地测试之前,我们曾在华东师范大学内请了5位来自上述5个方言点的大学生进行过预测试。预测试的结果与我们对于方言听懂度的预期是一致的①本文涉及的互通度听音测试是整个研究项目《吴方言内部互通性音系研究》中的一部分。吴方言内部互通度的听音测试的全部过程和详细数据统计,可参见《吴语内部互通性研究实验报告》(张吉生、王璐、朱音尔2013)。。
(二)听音人。听音人必须是要识字的、受过教育的,因为他们需要写下他们所听到的词②与以往其它互通度测试方法不同(如Tang 2009;Heeringa, et al. 2005:312-336),本研究不用选择题方法,而采用听写方法,目的是为了测试出真实性更强的可通度。。本研究关注的是互通度, 所以需要的理想实验对象是几乎没有与其它四个方言有接触的听音人。
本研究所选择的听音人是介于17至19岁的75名当地高中学生,五个方言点各有15名,他们都是在当地长大,父母和本人的单母语(即母语)都是当地方言,没有在其它吴方言区生活的经历,(除普通话)不会其它方言③为确保听音人的合格条件,每位听音人需要填写问卷,回答关于家庭和语言背景、对其它方言熟悉程度等问题。。
(三)实验过程。实验分别在五个方言点的五个高中完成。测试是在当地学校的安静的教室里进行。在实验开始前,听音人会听到关于本次实验的简单介绍。测试的语料通过电脑以及音响播放。听音人记录下他们认为他们听到的内容。每个词组开始的时候均有普通话的基数词指出,且均连续播放两遍。两个不同的三音节的词组中间播放的间隔是5秒钟。如此,可以确保听音人的短期记忆不会对理解造成影响,同时也确保听音人能够有足够的时间写下他们的翻译。听音测试时,五个方言的30个词汇顺序是随机打乱的,不同的方言词汇顺序的排列不同,听音人一次性听写完五个不同方言(包括自己的母语方言)的所有语料。
(四)实验数据统计。一个方言语料被准确翻译的百分比即是这一方言的可懂度。三音节的词,每个音节得分为1分,全对得3分。比如,“八仙桌”这个词,如果被试者只写出了“八”,那么就是得1分。具体举例来说,黄岩与衢州,就“八仙桌”这个三音节的词而言,黄岩听懂衢州的百分比是100%,而衢州听懂黄岩的百分比只有13%。如此,就“八仙桌”这个词,黄岩方言与衢州方言的互通度是56.5%。那么基于所有30个三音节词的听懂度的平均值,我们得出对黄岩方言的听者而言,衢州方言的可懂度是36%,而对衢州方言的听者,黄岩方言的可懂度是48%。两个方言间词汇的互通度值为42%。下表是五个方言间30个词汇的互通度测试结果:
五个方言点的互通程度 表1
从表1我们可以清晰地看出五个方言点之间的互通程度差异。互通程度最高的前三名是黄岩、吴江、衢州三个方言之间的交错组合,位居榜首的是黄岩与吴江,其次是黄岩与衢州,接下来吴江与衢州。互通程度最低的三名是温州与黄岩、温州与永康,温州和衢州。由此可见,凡是与温州方言互通的,其互通度都很低,尤其是温州与其它两个南部吴语(永康和衢州),温州方言可以被称为吴方言中最难懂的方言。
二 语言距离
语言距离指的是不同语言或者语言变体之间的相似程度或者是相异程度。语言之间的相似度越高,语言距离就越近,反之亦然。语言距离可以包括许多层面:音系、句法、形态、词汇,它可以是指这些单独的语言层面,也可以是这些语言层面的不同组合。关于语言距离的测量方法,又可分成两大类:感知语言距离和客观语言距离。测量感知语言距离的方法通常为将语言距离的远近分成几个层级,通过让受试者聆听不同语言的录音,以调查问卷的方式,让受试者选出他们认为受试语言间的远近距离(参见Van Hout & Münstermann 1981:101-123)。一直以来,语言学家或者是方言学家都试图找到客观地测量语言距离的方法。Kessler(1995:60-67)最先提出运用编辑距离(edit distance)来计算方言间的语言距离①编辑距离最早由Levenshtein(1966:707-710)提出,因此也被称为Levenshtein Distance。。由于编辑距离能够通过定量研究客观地显示语言间的亲疏远近关系,近年来, 编辑距离被越来越多地应用到计算方言间的语言距离,从而达到将语言或方言归类的目的(参见Heeringa 2004,Tang 2009,Serva & Petroni 2008:1-5),因此通常被用在语言的类型学的研究。编辑距离的计算原理是计算将字符串A变为字符串B的编辑次数,而且是A转化为B所需的最少编辑操作次数。就音段层面而言,编辑的方式有三种:删除、插入和替换。编辑距离的一个强大之处在于它所强调的最少编辑次数,因为字符串A变为字符串B的方式可能可以通过好几种不同的编辑方式的组合而达到。那么相应地应用到语言学中,一个语言变体的一串语音可以相应地对应到另一个语言变体的一串语音。语音的对应通常是基于词的音节结构,元音对应元音,辅音对应辅音。那么半元音[j]和[w]可能对应的是元音,如此就可避免辅音配元音的非常不相配的对应出现。
下面以“八仙桌”这个词在黄岩话和衢州话中的各自语音表达为例来具体说明编辑距离。
黄岩话与衢州话“八仙桌”的编辑过程② 本研究只涉及音段层面,包括辅音,元音,并未涉及超音段层面的声调,因为就可懂度而言,声调对可懂度的影响最小。譬如,外国人说汉语,很多都掌握不了汉语的声调,但基本不影响他们的交流。 表2
表2说明,“八仙桌”这个三音节词,最多有九个音段,从黄岩方言的语音表达可以通过最少6个编辑过程(4个替换音段,一个删除音段,一个插入音段)变为衢州方言的语音表达。那么两者的编辑距离就是 6。但是由于音节的长度不同,编辑次数的多少在整个音节所占的比重也是不同的,从而对听懂度造成的影响也是不同的。如果将词的长度因素考虑在内,将编辑距离标准化,就是将编辑距离除以音段上可达到的最大对应数。上述例词“八仙桌”在音段上可达到的最大的位置对应数是 9。因此两者之间的语音距离(phonetic distance)就是6/9=0.67。为了回答元音和辅音在互通度中各起的作用是什么,两者之间谁的作用大?我们需要把语音距离再分成元音距离和辅音距离。同样以表 2“八仙桌”这个三音节词为例,元音部分最少可经过3次编辑过程而达到完全相同,然后再除以全部的最大对应数9, 两词间的元音距离就是3/9=0.33。辅音部分也是同样的道理,用辅音部分的最少编辑数除以全部的最大对应数,3/9=0.33。
本研究涉及的五个吴语方言两两相互配对(除去自我配对),一共是10对。根据上述编辑距离的计算方法,我们详细计算了30个被试三音节词汇10对方言之间的编辑距离。下表是本文所研究的五个方言点相互之间的语音距离、元音距离和辅音距离。
五个方言点相互之间的语音距离、元音距离和辅音距离 表3
温州 吴江 0.57 0.38 0.19温州 永康 0.56 0.42 0.15温州 衢州 0.64 0.43 0.21吴江 衢州 0.54 0.36 0.18吴江 永康 0.55 0.40 0.15衢州 永康 0.60 0.44 0.16
三 编辑距离与互通度之间的关系
本研究主要通过编辑距离与互通度之间的相关分析来阐述两个关系:(1)语音距离与互通度之间的关系;(2)辅音距离和元音距离与互通度之间的关系。
本研究除了对10对方言的互通度值与语音距离、辅音距离和元音距离做了相关性分析外,还对各个语言层次之间,即语音距离、辅音距离和元音距离相互间也做了相关性分析。各个因素间的相关性分析的结果如表4所示:
互通度值、语音距离、辅音距离、元音距离之间的相关① *相关在0.05水平上是显著的(双尾检验);**相关在 0.01 水平上是显著的(双尾检验)。 表4
从表 4,我们可以看出互通度值与各个语言距离之间的关系。其中语音距离、元音距离与互通值的关系在0.05水平上都是显著的。而其中辅音对互通度的影响为非显著性。元音距离与语音距离相比之下,语音距离与互通度的相关最大,但两者的差别并不显著。在各个语言因素间,元音距离和辅音距离与语音距离的相关度都为显著,但其中元音距离与语音距离的相关高于辅音距离与语音距离的相关度,且元音距离与语音距离在0.01水平上是显著的,辅音距离与语音距离在0.05水平上显著。由此可见,元音距离在互通度上起的作用更大。
此外,元音距离与辅音距离的相关并不呈显著性,这也说明了此两者间的关系是各自相对独立的。元音距离与辅音距离的具体区别可表示如下:
元音距离与辅音距离的比较 表5
从表 5,我们可以看出元音距离要比辅音距离在各个方面的值都大,包括平均值、标准差、以及全距,这说明五个吴方言间元音之间的差别比较大。
本研究通过测试吴方言内部五个方言点之间的互通度,从音段层面分析了五个吴方言之间的语言距离,揭示了吴方言内部的互通度程度与语言距离(音段层面)之间的关系,并且具体检验了辅音和元音不同方面的语言距离与五个吴方言之间的互通度之间的相关性。我们根据编辑距离的计算方法,检验了语音距离与互通度之间的相关性,相关性分析显示语音距离是具有显著性的预测因子,即吴方言内部相互间的音段编辑距离越大,互通度越小;反之,相互间音段的编辑距离越小,互通度则越大。在元音与辅音之间,我们发现元音有比辅音在互通度中起更重要的作用(r=-0.733),辅音在吴方言内部的互通度中起的作用很小。此结论与Ashby和Maidment(2005)关于不同语言互通度与语言距离的假设相反,他们认为辅音比元音包含更多的信息。这一区别也许反映了影响不同语言间的互通度与不同方言间的互通度的不同因素,也许辅音距离的大小可以用作鉴别语言与方言、或不同方言与同方言内部之间的界线的手段之一。当然这一假设需要我们将来做进一步深入、系统的跨语言、跨方言的实证研究来证实。
张吉生、王璐、朱音尔 2013 吴语内部互通性研究实验报告,游汝杰等主编《吴语研究》第七辑,上海教育出版社。
Ashby, M. & J. Maidment 2005 Introducing Phonetic Science. Cambridge: Cambridge University Press.
Gooskens, C. 2007 The contribution of linguistic factors to the intelligibility of closesly related lanaguages.Journal of Multilingual and Multicultural Development. Vol. 28, No. 6. 445-467.
Kessler, B. 1995 Computational Dialectology in Irish Gaelic. In Proceedings of the 7th Conference of the European Chapter of the Association for Computational Linguistics (pp. 60-67). Dublin: Association for Computational Linguistics.
Heeringa, W. 2004 Measuring Dialect Pronunciation Differences Using Levenshtein Distance. Doctoral dissertation: University of Groningen.
Heeringa, W., K. Johnson & C. Gooskens 2005 Measuring Norwegian Dialect Distances Using Acoustic Features. In UC Berkeley Phonology Lab Annual Report 2005, University of California, Berkeley:312-336.
Levenshtein, V. I. 1966 Binary Codes Capable of Correcting Deletions, Insertions and Reversals (in Russian), Dokl. Akad, Nauk SSSR 163, No. 4, (1965), 845-848; English Translation in Soviet Physics Doklady 10:8.707-710,
Serva, M. & F. Petroni 2008 Indo-European Languages Tree by Levenshtein Distance. Europhysics Letters 81, 1-5.
Tang, Chaoju 2009 Mutual Intelligibility of Chinese Dialects: An Experimental Approach. LOT Dissertation Series, Utrecht: LOT.
Van Hout, R. & H. Münstermann 1981 Linguistische Afstand, Dialekt en Attitude [Linguistic Distance,Dialect and Attitude]. Gramma, 5: 101-123.