壮侗语族民族肤纹特征的模糊聚类分析
2022-05-23华灿城余跃生陆玉炯杨小军
华灿城,程 骅,余跃生,陆玉炯,杨小军
(黔南民族医学高等专科学校,贵州都匀558013)
布依族、侗族、仡佬族、水族、毛南族、仫佬族、壮族、傣族和黎族同属汉藏语系壮侗语族民族,与我国古代南方“百越”族系有着密切关系。“百越”支系繁多,诸如于越、扬越、南越、闽越、骆越、东瓯、山越、滇越、西瓯等。由于历史上的民族迁徙、分化、融合等事件,居住在南方不同地区的越人,逐渐形成现今壮侗语族各民族[1]。目前,壮侗语族民族群体的文化人类学、体质人类学和群体遗传学等领域的调查研究较多[2-5],但有关肤纹特征的模糊聚类分析的报道鲜见。
肤纹是人类外露的生物学特征,因其性状稳定,终身不变,每人各异,无一雷同,而备受群体遗传学、体质人类学、临床医学、法医学等研究广泛关注,尤其是在当今大数据时代,肤纹学的重要性日益凸显。肤纹特征不仅存在个体差异,而且在不同民族或同一民族不同群体之间也有所不同,表现出生物遗传性状的多态性和民族体质特征的多样性,可以通过不同人群肤纹参数的多元分析来了解彼此间的亲缘关系[6-7]。为此,本文应用模糊数学方法,对我国壮侗语族10个民族群体的11项肤纹参数进行聚类分析,从群体遗传学角度探讨民族群体间的渊源关系。结果报道如下。
1 材料与方法
1.1 材料 我国壮侗语族10个民族群体的指纹脊线总数(TFRC)、a-b脊线数(a-bRC)、弓型频率(A)、尺箕型频率(Lu)、挠箕型频率(Lr)、斗型频率(W),以及大鱼际与第1指间区(T/I)、指间区Ⅱ、Ⅲ、Ⅳ、小鱼际区(H)出现率共6大类的11项肤纹参数来自《中国民族肤纹学》[8]。见表1。
表1 我国壮侗语族10个民族群体的11项肤纹参数
1.2 模糊聚类分析法 该方法主要步骤简化为[9-10]:(一)建立同趋势化的原始数据矩阵。(二)数据标准化。由于各指标的度量衡单位不同,往往会影响分析结果,需将数据进行无纲量化处理,使指标之间具有可比性。本文采用离差标准化,计算公式:u=(x-min)(max-min)-1。(三)建立模糊关系矩阵。根据标准化数据,采用SPSS欧氏距离法构建各民族群体之间的模糊关系矩阵。(四)选择动态直接聚类法。聚类步骤简述为:(1)在距离矩阵D中找出D 的基元,共有n-1。①找出双重主元,并记下该主元及其足码集。假设有P个双重主元。②找出单重主元,同样记下该主元及其足码集,并与双重主元的足码集进行填充变换。单重主元应有n-2P个。③找出连接元。在除去双重主元和单重主元后的其他元素中,依次从小到大找出连接元,应有P-1个。(2)绘制动态聚类图。
2 结果
2.1 数据标准化 因肤纹参数不存在高优或低优现象,所以对其原始数据不需进行同趋势化。但肤纹参数的单位不尽相同,则需进行标准化处理,使各指标数据转换在[0,1]之间。结果见表2。
表2 我国壮侗语族10个民族群体的11项肤纹参数标准化数据
2.2 模糊关系矩阵 使用SPSS18.0统计软件计算我国壮侗语族各民族群体肤纹特征之间的欧氏距离。结果见表3。
表3 我国壮侗语族10个民族群体肤纹特征间的欧氏距离
2.3 动态直接聚类 从表3中可得D的双重主元有:2.518=D10,5,2.541=D8,7,3.163=D4,1
单重主元有:3.221=D2,1,3.397=D8,6,3.533=D3,1,4.396=D9,2
连接元有:3.812=D10,2,3.926=D8,5
由此可见,D的基元为:
数值:2.518 2.541 3.163 3.221 3.397 3.533 3.812 3.926 4.396
足码:{10,5} {8,7}{4,1}{2,1}{8,6}{3,1}{10,2} {8,5}{9,2}
于是,易得D的动态聚类图(见图1)。
图1 我国壮侗语族10个民族群体动态聚类图
3 讨论
由表3可知,广西侗族与海南黎族的欧氏距离最小(2.518),遗传关系最近,其次为广西壮族与广西仫佬族(2.541),云南傣族与贵州水族的欧氏距离最大(6.283),遗传关系最远。但仅从民族群体间欧氏距离分析,只能看出两个民族群体间遗传距离的远近,难以了解壮侗语族10个民族群体间遗传距离的分布特征。有学者[7,11]采用普通聚类分析法对群体进行分类,来探讨民族群体的体质特征间的遗传关系。但该方法使用的前提条件是类别间的界限清晰,分类集合中的任意二个元素要么等价,要么不等价。事实上,民族群体之间的遗传关系往往是不清晰的,更多的是模糊关系,所以用普通聚类分析难以对模糊关系的群体进行合理分类。因此,本文应用模糊数学方法,对壮侗语族民族群体肤纹特征的遗传关系进行聚类分析。该方法的基本思想是:某一事物并不是要么“属于”某类,要么“不属于”某类,而是在不同程度上“属于”某一类。由于民族群体肤纹特征的分类往往伴随着模糊性,即“亦此亦彼”性,把模糊数学方法引入聚类分析,可使民族群体分类结果更符合实际。
从图1中可以看出,当3.533 ≤λ<3.812 时,置信度是最佳分类水平,我国壮侗语族10个民族群体聚为四类:贵州仡佬族、侗族、布依族和水族聚为Ⅰ类,海南黎族和广西侗族聚为Ⅱ类,广西壮族、仫佬族和毛南族聚为Ⅲ类,云南傣族独为Ⅳ类。由表3可得,Ⅱ类民族群体间的遗传关系较近(D=2.518),Ⅰ类和Ⅲ类民族群体间次之(D平均值分别为3.820和3.368)。从四类民族群体之间的遗传距离看,Ⅱ类与Ⅰ类、Ⅲ类民族群体间的遗传关系较近(D平均值分别为4.331和4.369),与Ⅳ类民族群体间次之(D平均值为4.959),Ⅰ类与Ⅲ类、Ⅳ类,Ⅲ类与Ⅳ类民族群体间的遗传关系较远(D平均值分别为5.314、5.436和5.104)。贵州侗族与广西侗族之间的遗传距离较远(D=4.563),分别聚在Ⅰ类和Ⅱ类(图1)。但是,贵州侗族除与贵州仡佬族、布依族和水族遗传距离较近外(D平均值为3.423),与海南黎族的遗传距离也较近(D=3.812),相似于广西侗族与海南黎族的遗传关系。可见,贵州侗族与广西侗族的肤纹特征既存在地域差异性,又具有本民族的许多共性。聚类结果提示:(1)壮侗语族民族群体肤纹特征具有一定的地域性,与他们居住的地理距离呈平行关系,分布距离靠近的民族群体的遗传关系较近;(2)不同地域的同一民族群体的肤纹特征具有丰富的多样性。有待民族学、体质人类学、群体遗传学等领域进一步研究验证。