基于系统聚类模型的萤火虫分类与识别研究
2021-11-24王铭萱
王铭萱
摘要:萤火虫是萤科昆虫的通称,全世界约2000种,分布于热带、亚热带和温带地区。根据中国专家统计现发现的种类约有100余种,再加上未发现的种类,共有150多种。由于分布广泛且较为常见,萤火虫常常作为科学家的研究对象,因此,对萤火虫的分类和识别就显得尤为重要。为便于专家进一步展开研究和发现,本文对于给出指标及数据进行了分析处理,使用双变量相关分析方法、非参数统计的H检验法、系统聚类分析等方法研究影响与萤火虫形体变化相关的影响因素、判断萤火虫与生活环境相关的生物特性、验证六地区间萤火虫的亲缘性以及寻找最能区分地区来源的生物指标。
关键词:相关分析,非参数统计,系统聚类分析
萤火虫,是萤科昆虫的通称,全世界约2000种,分布于热带、亚热带和温带地区。某昆虫研究所在6个地区捕获了大量的萤火虫,并测得了总共34个形体和生物指标值。z1-z3是捕获萤火虫初期的三个形体指标,培养一段时间后,这三个形体指标数据分别变成了y1-y3的数据。x1-x28是萤火虫的生物指标。本文的问题研究试图对研究萤火虫亲缘性问题提出建议,其中Zi为初始形体指标、Yi为最终形体指标、Xi为生物性指标。
1萤火虫形体变化相关因素分析
由于数据之间可能存在相互依存相互制约的关系,因此,考虑采取双变量相关分析模型通过数据分析找出各组对应指标之间是否有显著性差异。主要步骤如下:
1.1形体指标相关性分析
首先对指标数据z1-z3及对应的y1-y3之间进行双变量相关分析,主要通过SPSS软件在计算机上计算完成。对指标数据Zi和Yi分别进行双变量相关分析,由软件计算结果可知Pearson相关性系数分别为0.423、0.518、0.692,均大于0;显著性均为接近零的极小值,远远小于0.05,说明指标z1和y1,z2和y2,z3和y3在0.01水平(双侧)上显著相关,且呈正相关。该结果可以反应出实验室条件对萤火虫的形体变化有一定的影响。
1.2形体与生物指标的回归分析
回归分析指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。
对指标数据z1-z3,y1-y3和生物指标x1-x28进行线性回归分析,通过软件在计算机上计算完成,由计算结果可知形体指标y1,y2,y3与某些生物指标间存在一定的线性关系,例如,指标y3回归表中生物指标x16的系数为-1.379,显著性sig.为0.005<0.05,表明它们之间呈显著的负相关。根据回归分析表可列出以下回归方程:
(1)Y1=74.564+7.775x2+4.734x4+0.967x6+0.991x17+1.597x18-10.479x9- 0.731x15-1.090x16-1.746x28
(2)Y2=55.999-6.549x1+11.329x2+6.690x3+13.751x4+1.199x6+7.363x7- 29.420x9-1.456x15-2.131x16+3.469x18+5.066x26-4.004x28
(3)Y3=57.245+8.132x2+8.752x4+0.949x6-14.118x9-0.782x12-1.569x15- 1.379x16+3.279x18-1.615x28
通过回归方程分析得出如下结论:
①形体指标Z1与Y1的变化与生物指标x2、x4、x6、x17、x18呈正相关,与x11、x16呈负相关;
②形体指标Z2与Y2的变化与生物指标X2、X3、X4、X6、X7、X18、X26呈正相关,与X1、X9、X15、X16、X28呈负相关;
③形体指标Z3与Y3的变化与生物指标X2、X4、X6、X7、X18呈正相关,与X9、X12、X15、X16、X28呈负相关。
2生物性指标与环境影响因素的非参数统计
根据题目给出的信息,该问题研究的自变量为生活环境,即6个不同的来源地区;因变量为反映萤火虫生物特性的指标x1-x28,接下来建立模型研究萤火虫生活的环境对生物特性产生影响的主要指标。
2.1数据的正态性检验
通过对问题的阐述分析,自变量生活环境为分类变量,因变量生物特性为数值型变量,因此,考虑使用单因素方差分析方法指出其中存在影响的因素。根据单因素方差分析的前提,首先对数据进行正态性检验,观察每类数据是否服从正态分布。主要通过软件在计算机上完成。由运行结果h0=111111可知以上六个水平均不服从正态分布,因此排除单因素方差分析法,考虑使用非参数统计。
2.2非参数统计
非参数检验又称为分布自由检验,一种与总体分布状况无关的检验方法,它不依赖于总体分布的形式,应用时可以不考虑被研究的对象为何种分布以及分布是否已知,非参数检验主要是利用样本数据之间的大小比较及大小顺序,对两个或多个样本所属总体是否相同进行检验。
本文分析生物特性指标x1-x28是否受生活环境影响,主要通过MATLABR2018a軟件在计算机上自动完成。通过对28个指标结果按照方差大小顺序进行排列整理,受环境因素影响结果为:
指标x6,x5,x10,x28,x24,x25,x8,x3,x27,x4,x18,x21,x2,x11,x22,x15这16个指标的概率P值均小于0.05,不同水平的生物特性其地区分布不一致,说明以上生物指标与生活环境有关。其中指标x6,x5,x10的方差最大,即x6,x5,x10为最受环境影响的三个生物指标。
3基于系统聚类的萤火虫亲缘性研究
聚类分析是统计学中研究“物以类聚”问题的一种有效方法,它属于统计分析的范畴。聚类分析的实质是建立一种分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。首先是距离计算,本文选择欧氏距离,最后计算相似系数,绘制谱系图。
本文模型对数据进行系统聚类分析依据谱系图结果显而易见,若将六个地区按照亲缘性分为三类,地区1、地区5、地区6的亲缘关系较大,地区2、地区3的亲缘关系较大,地区4与其他五个地区的亲缘关系较小。
参考文献
[1]汪晓银主编.数学建模与数学实验[M].北京:科学出版社.2010
[2]雷怀英编著.管理统计学[M].北京:机械工业出版社.2014.
[3]聂云龙,朱家明,张国飞,赵洪淼,宗喆宇.基于因子-聚类法对西部各省经济实力的综合评价[J].哈尔滨师范大学自然科学学报,2020,36(02):77-82.