核心词自动分阶的一种计算模型——以纳西族玛丽玛萨话为例<br/>

核心词自动分阶的一种计算模型——以纳西族玛丽玛萨话为例

2012-01-30陈保亚李子鹤

云南民族大学学报（哲学社会科学版） 2012年5期

陈保亚，李子鹤

(北京大学中文系北京大学中国语言学研究中心，北京 100871)

一、核心词自动分阶的迫切性

如何区分语言的同源关系和接触关系，是历史语言学急需解决的瓶颈问题，也一直是群体遗传学迫切期盼语言学家解答的问题。经过多年的探索，学界已经意识到语言纵向遗传成分与横向传递成分经常交织在一起，有时候甚至有多个时间段的横向成分叠加在一起，这就需要区分时间层次。问题的难点是：在找出最早时间层面的对应词？如何判定这些词是同源词还是借词？目前用核心词分阶的办法来判定这些最早对应词的语源性质有一定可操作性。该方法认为：越核心的词比例越高，是同源关系；越核心的词比例越低，是接触关系。［1］

目前学者们在如何判定词的核心程度上存在分歧，不同的学者提出了不同的核心词集。如何给核心词分阶，这是目前有阶分析方法迫切需要解决的问题，如果能够找到判定程序，对判定语源关系有着重要的意义。

我国语言学界经过几十年的语言调查，已经积累了大量可资利用的语言材料。如果用传统的观察或者手工计算来考察这些资料，几乎不可能完成核心词分解的任务，而如果实现核心词的自动分阶，不仅可以节省大量的人力和物力，而且可以提高语言谱系关系研究的科学性，大大减少研究工作中因人为判断而造成的各种复杂情形。同时，核心词自动化分阶的实现将大大增加同时处理的语言数量，使整个分阶过程成为开放过程：调查材料越多越准确，自动调节结果也就越有效。

二、现有核心词模型

早期研究汉藏语同源问题时，或者由于理论认识上的原因，或者由于技术手段和材料方面的限制，找出的同源词对应规则并不严格。最近，随着学界对语音对应层次的深入分析，汉藏语系中最早时间层面的对应词不断被发现，但是这些词是不是同源词，还没有定论。有人认为基本词汇的对应就应该是同源词。

Swadesh最早系统地提出了基本词汇（basic vocabulary)的概念［2］［3］，并先后给出了两个核心词表。但是这两个词表都没有经过严格、大规模的

1、可借贷率的计算。对每个意义在语言中的对应成分，根据借贷阻抗力来赋值：“显然为借贷(clearly borrowed)”的赋值最低， “可能为借贷(probably borrowed)”、“或许为借贷（perhaps borrowed)”、“少量证据显示为借贷（very little evidence for borrowing)”、“无证据显示为借贷（no evidence for borrowing)”的赋值依次增高，然后算出该意义在41个语言中的平均值。

2、代表性的计算。计算词的每一个意义在41种语言中的传递（分布)的比值，在此基础上计算每个词的代表性数值。如果一个意义在41个语言都有相对应的词，而且都不是借词，那么这是这个意义很难借贷的一个强证据，赋值便高；如果一个意义只在1个语言中存在对应的词，同样不是借词，这个作为难借贷的证据就不是很强，赋值便低。

3、可分析度的计算。把词分为3个等级：不可分析的（unanalyzable)、半可分析的（semi-analyzable)和可分析的（analyzable)。一个词可分析度越高，赋值越低。可分析的词（如day after tomorrow)很少发生借贷，不是因为它们很难发生借贷，而是因为它们更倾向于在自己的语言内部产生。

4、古老程度的计算。根据一个词最早见于文献的时间或通过构拟可以追溯到的时间来赋值，即首先确定一个词最早被证实（first attested)的年代，或能被重建（reconstructed)到的最古老年代。一个词不被借词替换而在语言中存在的时间越长，越能证明它的意义具有低的借贷可能性，故赋值越大。

Tadmor的办法在标准上更明确一些，但其中第2个标准，原文没有说明判定借词还需要语音对应规则的限制，有些借词也可以形成语音对应规律，我们还需要区分是同源传递的结果还是接触传意性。而且第2个和第4个标准要处理大规模语料，但没有提出可行的操作方法。

很多学者认为存在一个绝对稳定的核心词表，但大规模的检验工作证明这些词表中的词都有不同程度的借用。陈保亚认为没有绝对稳定的词表［1］，提出给核心词分阶的相对观念，并认为核心程度越高越稳定，从而在Swadesh的词表基础上提出第100核心词（高阶)和第200核心词（低阶)的两阶词表的区分。从已经公布的材料看，在已知有同源关系的语言之间（文献材料或其它证据)，高阶词集的同源词比例高于低阶词集的同源词比例。如日耳曼语族诸语言之间、台语诸语言之间、汉语北方方言诸次方言之间、傣语诸方言之间［1］，白语方言之间、彝语方言之间［9］［10］，同源词都满足这一条件。相反，在已知为接触关系的语言之间，高阶词集的借用比例低于低阶词集的借用比例。如傣语诸方言和汉语西南官话之间［1］，汉语和日语之间［11］，汉语和越南语之间［12］，核心词分布都满足这一条件。这应该不是偶然现象。后来郑张尚芳、黄布凡、黄行、江荻等也都提出了自己的分阶词集，有同有异。可见，分阶的思路是一致的，如何确定词的核心程度，是分歧的关键。

总之，要运用核心词有阶分布的差异有效判断语源关系，首先要解决分阶的标准和计算的可行性。要达到这一目的，目前有两个迫切需要回答的问题：

第一，有阶词表的确定方面，目前的各种基本词表所依据的语言数据都偏少，没有经过大规模检验，是否具有普适性存在疑问。另外，一个词属于高阶词集还是低阶词集，判断标准不一致，判断起来有一定的主观性。

第二，算法方面，目前确定核心词有阶词集，主要依赖手工调整。若所调查语言数量很大，调整一个词就会涉及到其他大量语言核心词分布的计算，最佳词集需要经过反复的大规模的调整试验，手工操作难以应付。

第三，材料基础方面，由于没有严格的语音对应规则库的支持，早期的对应词和晚期的借词没有区别开，造成核心程度计算的不准确。

目前，这三方面问题的解决已经具备了一定的条件。汉藏语言研究方面，汉语中古音的重构已经得到公认，上古音的重构也有了一些进展。侗台语、苗瑶语、白语、彝语的重构以及其它藏缅语言量的数据积累，这为判定同源成分和借用成分打下了基础。数据库建设及计算机技术方面，有学者已经开始利用数据库和电脑程序展开研究，一些包括100多个汉藏语各支系语言的词汇语音对应数据库已经开始建立。

三、核心词自动分阶模型

随着汉藏语言及其它民族语言语音对应数据库的完善，我们已经可以判定汉语各方言之间、藏缅语内部、侗台语内部、苗瑶语内部、阿尔泰语言内部属于最早时间层面的对应词。这批对应词可以确定为同源保留的语言成分，而其它时间层面的对应词，可以确定为通过接触传递进入的借用成分。这是我们在前人基础上基本完成的工作。据此我们提出一种算法模型：这种算法计算核心词的核心程度，以Swadesh的100词和200词表为基础，自动调整高阶核心词集和低阶核心词集，使得两阶词集在已知为同源关系的语言中，其分布与已知为接触关系的语言显著不同，即通过算法调整核心词集，使得有阶分布的显著性增加。这一调整可图示如下：

通过算法设计，把词的核心程度量化，以便进一步进行比较研究，并可根据具体语言数据的逐渐增加，动态地调整高阶核心词集和低阶核心词集，使语言接触和语言分化的有阶分布差异逼近最大值。这个算法模型分为两个密切相关的部分，由两个子模型来实现：核心程度算法模型和两阶核心词调整算法模型。

(1)核心程度算法模型或借用率算法模型。该模型根据大型语音对应数据库中每个关系词的语言分布情况，在数据库中自动搜索，自动计算每个词的借用率，并根据借用率来给词排序。一个词被借入的语言越多，借用率越高，核心程度越低。

(2)两阶核心词调整算法模型。根据核心程度算法模型算出的借用率，核心词调整模型自动把借用率低的词转移到高阶词集，把借用率高的词转移到低阶词集。在移动过程中核心词调整模型还自动寻找参数，确定高阶核心词和低阶核心词的界限，使得高阶核心词的借用率平均值达到最小值，低阶核心词的借用率平均值达到最大值。

目前划分高阶和低阶词集主要依据有限的语言调查经验，标准不够严格，涉及语言范围有限，比如说“膝盖、腿”，哪个是高阶哪个是低阶，不同学者有不同看法，关键问题是每个学者的出发点都不一样，所依据的标准不一样，有的依据常用性，有的依据词频，有的依据构词，有的依据重要性，等等。这些标准在量化上的可行性比较低。我们的算法将在已经建立的大规模语音对应库基础上，对每个词的语言分布进行自动统计，计算出借用率，这就使得词阶的比较成为可能。比如通过对大规模语音对应数据库中同源词和借词的计算，可以断定“腿”的借用率低于“膝盖”的借用率，由此可以断定“腿”的词阶高于“膝盖”的词阶，即“腿”的核心程度高于“膝盖”的核心程度。这就可以克服主观性，解决核心词分阶标准这一关键问题。

下面这个实例可以说明我们的操作方法。“玛丽玛萨话”是一群生活在藏区的纳西族居民所说的语言，①这一族群自称“玛丽玛萨”，生活在云南维西县塔城镇附近的几个村，有2000多人，与藏族、傈僳族、彝族等民族杂居。他们被识别为纳西族，他们的语言和文字在《纳西语简志》(和即仁、姜竹仪，民族出版社，1985)中有简单介绍。经过我们2011～2012年的实地调查发现，他们的语言与其它纳西语方言有较好的对应关系。通常认为其中有多种民族语言的成分。我们通过建立大规模语音对应数据库，找出了玛丽玛萨话与其它四个纳西语方言的严格语音对应。这样就可以确定玛丽玛萨话中哪些词是传承自原始纳西语，哪些词是其自身创新或从其它民族语言借用的。具体见表所列的玛丽玛萨话中部分核心词。

从表中所列，可见玛丽玛萨话的这些核心词中，大部分与其它纳西语方言有严整的对应，我们暂时不能判定这些词的可传递情况。但涂为灰色的三个词不能与其它方言形成对应，而是与藏语(分别与藏文和巴塘藏语对照)或傈僳语有对应关系。这样，我们就在数据库中把这三个词标注为借词。

数据库中的语言均可作这样的标注。经过标注后，我们可以统计一个词在哪些语言里作为借词出现，进而可以计算一个词的借用率。

汉义核心词序号玛丽玛萨借用玛丽玛萨丽江宝山宁蒗永宁原始声原始韵原始调参照语言一 011 ɖɯ52 dɯ21 ɖʅ11 ɖɯ33 ɖɯ35 d ɯ 2二 012 ni52 ȵi21 ni11 ni33 ŋi35 ŋ i 2狗 021 khɯ52 khɯ33 khɯ33 khɯ33 khv13 kh ɯ 6虱 022 ʂɚ52 ʂu33 ɕy33 ʂɚ33 ʂe33 sr u 6种子 024 la24 lɚ55 lɚ53 la11 ɻa13 lr ɚ 8犄角034 kho52 kho33 qho33 qho33 qhv33 qh o 6耳朵 039 xe21 xe33 xe33 ɫe33 ɫi33 hl e 6牙齿 043 xɯ52 xɯ33 xɯ33 χɯ33 hi33 χ ɯ 6舌头 044 ɕie24 ɕi55 ɕi53 ɕi11 hi13 x i 8咬 056 ■ha45 kha33 ■hɚ53 ■ha13 ■ha35 th ɚ 10睡 060 i21 i55 i53 ʑi11 ʑi35 z i 9水 075 t ʨhi52 dʑi21 dʑi11 ʨhi53 dʑi33 g i 2 藏文ʨhu，巴塘藏语ʨhu53五 122 uã52 uɑ33 ŋuã33 ŋuo33 ŋwɣ33 ŋ ua 6花 125 bɑ21 bɑ21 bɑ11 ʁua13 ba13 b ɑ 5雾 126 sɯ52 sɿ33 sɯ33 sɯ55 sɯ35 s ɯ 6四 127 ʐo52 lu33 lru33 ʐur33 ʐv33 zr o 6握(握笔) 135 t dzy52 t■hɚ55 tʂhɚ53 tshur13 tʂhɩ35 ■h ɚ 10 藏文ɦdzin，巴塘藏语ndʑu231草 130 zɯ52 zɿ33 zɯ33 zɯ33 zɯ33 z ɯ 6牵(牵牛) 152 ʂa52 ʂɚ21 ʂɚ11 ʂa11 ʂa35 sr ɚ 1盐160 tshe52 tshe33 tshe33 tshe33 tshe33 tsh e 6锋利164 thɑ45 thɑ55 thɑ53 thɑ13 thɑ35 th ɑ 10短 165 ɖa52 dɚ33 nɖɚ33 ɖa33 ɖa33 nd ɚ 6天 167 mv52 mɯ33 mu33 mv33 mv33 m ɯ 6稀(粥稀) 183 t ɕiu55 lu33lu52 bi21 xɑ55 tɕiu53 xõ33 ha35 / / / 傈僳语ʃu31lo31e55 pha31la31

四、核心词自动分阶的算法模型

我们首先确定一个判断核心程度的方法：一个词越经常作为同源保留成分出现，它的核心程度就越高；越经常作为借用成分出现，它的核心程度就越低。核心程度高的词应该被调整到高阶词集，核心程度低的词应该被调整到低阶词集，高阶词集与低阶词集之间核心程度的差值应尽可能大。这是核心词自动分阶模型的总体思路。两个子模型的算法设想如下：

(一)核心程度算法模型

这个子模型根据我们已经建立的大型语音对应数据库，设计算法来判定某个词在某一组语言中的核心程度。判定标准是，一个词作为借词的分布越广，借用率越高，核心程度（或称保留率)越低；一个词作为同源词分布越广，借用率越低，核心程度(或称保留率)越高。

在有些情况下，判定同源词和借词有一定的困难。为此，我们引入更为具体的判定标准：

一个核心词x在m种语言中，而另一个核心词y在n种语言中传递，且m＜n，如果：

(a)x在m种语言中满足核心一致对应，y在n种语言中也满足核心一致对应，则x的借用率高，y的保留率高。

(b)x在m种语言中不满足核心一致对应，y在n种语言中也不满足核心一致对应，则x的保留率高，y的借用率高。

(c)x在m种语言中满足核心一致对应，y在n种语言中不满足核心一致对应，则x的保留率高，y的借用率高。

(d)x在m种语言中不满足核心一致对应，y在n种语言中满足核心一致对应，则x的借用率高，y的保留率高。

以上的核心一致对应是指对应规则和核心词的对应规则一致，是在计算之前已经完成的工作。

核心一致对应通常是最早时间层面的对应，通常也指同源词的对应规则。以玛丽玛萨话中的“狗［khɯ52］”和“水［ʨhi52］”为例。在纳西语方言范围内来看，“狗”在玛丽玛萨、丽江、宝山、宁蒗、永宁5种语言（方言)中有传递，且满足核心一致对应，而“水”只在玛丽玛萨、宁蒗2种语言（方言)种有传递，且在这些语言(方言)中不满足核心一致对应。根据上述判定标准（d)，则“狗”的保留率高，即核心程度高，“水”的借用率高，即核心程度低。

(二)两阶核心词调整算法模型

该模型把核心程度（保留率)低、借用率高的核心词移动到低阶词集，把核心程度（保留率)高的核心词移动到高阶词集。

两阶核心词算法模型的目的是使高阶、低阶的差异尽可能显著对立。由于借用率和保留率要受语言亲属关系远近，语言接触深浅等因素的影响，移动后的词集需要再回到接触语言和同源语言中进行最大对立检验。检验标准是：某个核心词在高阶和低阶之间做出移动后，如果高阶词集和低阶词集的差数在同源语言和接触语言中都逼近最大值，或者两个差数的和逼近最大值，则这次移动就是有效的。然后再检验下一次移动。如果下次移动所得到的最大值比上次移动所得到的最大值要大，则这次移动也是有效的。否则移动无效，撤回移动。

举例来说，假设两个语言有同源关系，高阶核心词有80个对应，低阶核心词有50个对应；另两个语言有接触关系，高阶核心词有50个对应，低阶核心词有80个对应。现在各做出1个词的移动，可能的结果如下：

语言之间的关系 A同源B同源C接触D 接触移动前满足对应的高阶核心词数80 80 50 50移动前满足对应的低阶核心词数50 50 80 80移动前满足对应的高阶核心词与低阶核心词数量之差30 30 30 30移动后满足对应的高阶核心词数81 79 49 51移动后满足对应的低阶核心词数49 51 81 79移动后满足对应的高阶核心词与低阶核心词数量之差32 28 32 28移动结果有效无效有效无效

满足对应的高阶核心词与低阶核心词之差，理论上最大值为130，如果核心词在高低阶之间移动之后，满足对应的高低阶词之差更趋近最大值(如表中A列和C列)，移动结果有效，反之则无效。

所得到的模型将测试各种语言的核心词高低阶移动情况，我们还将在算法上设定一些限制条件，保证高阶词和低阶词的数量相当。最后我们选择能够反映同源和接触中核心词集差数之和为最大的词集作为高阶词集和低阶词集最终样本。

五、结论

以上我们提出并讨论了建立核心词自动分阶模型基本原则和算法。基本思路可以概括如下：

第一，在大规模语音对应数据库基础上，从保留率和借用率角度确定词的核心程度；

第二，设计出核心词核心程度算法模型、两阶核心词算法模型，计算机能自动生成两个用于有阶分析的核心词集，通过最佳模拟运算使核心词有阶分布逼近最大值。

第三，该模型是开放的，随着大规模语音对应数据库的语言不断增加，对应规则不断完善，同源词和借词的区分不断准确，两阶核心词的划分也不断准确。

目前，我们已提出了建立核心词自动分阶模型的基本原则和算法，我们正在进行基础数据库的调整和算法程序的初步构建，希望在不久的将来，能给出一个更为准确适用的核心词分阶表，供学界使用。

［1］陈保亚.论语言接触与语言联盟［M］.北京：语文出版社，1996.

［2］Swadesh，M.Lexico-statistic dating of prehistoric ethnic contacts［J］.Proceedings of the American philosophical society 96(1952).4.

［3］Swadesh，M.Time depths of American linguistic groupings［J］.American Anthropologist56(1955).

［4］Dolgopolsky，Aharon B.A probabilistic hypothesis concerning the oldest relationships among the language families in northern Eurasia［A］.Typology，Relationship and Time：A collection of papers on language change and relationship by Soviet linguists［C］. Ann Arbor： Karoma，1986.

［5］Starostin，S.A.On the hypothesis of a genetic connection between the Sino-Tibetan languages and Yeniseian and North-Caucasian languages［A］.Dene-Sino-Caucasian Languages：Materials from the First International Interdisciplinary Symposium on Language and Prehistory［C］.Bochum：Universtitatsverlag Brockmeyer，1991.

［6］Lohr，Marisa.Methods for the Genetic Classification of Languages［D］.University of Cambridge，1998.

［7］Holman，Eric W.，S？ren Wichmann，Cecil H.Brown，Viveka Velupillai，AndréMüller，Dik Bakker.Explorations in automated language classification［J］.Folia Linguistica 42(2008)：2.331-354.

［8］Uri Tadmor，Martin Haspelmath，Bradley Taylor.Borrowability and the notion of basic vocabulary［J］.Diachronica 27(2010)：2.

［9］Wang，Feng.Comparison of languages in contact：the distillation method and the case of Bai［M］.Language and Linguistics Monograph Series B：Frontiers in Linguistics III.Taipei： Institute of Linguistics， Academia Sinica，1996.

［10］汪锋.白彝关系语素研究［M］.国家社会科学基金项目结项报告，2010.

［11］陈保亚.非自然语言接触在词汇层面的无界有阶性——上古汉语核心自在日语中的分布［A］.中国语与中国文化［C］.日本大学大学院文学研究科中国学专攻文理学部中国语中国文化学科，2007.

［12］咸蔓雪.汉越语关系语素层次研究［D］.北京大学博士学位论文，2010.