对应分析图解读方法辨析
2021-01-13孟颢光游秀峰李为争
孟颢光 游秀峰 李为争
摘要对应分析图可揭示多个多类别变量的关系,包括同一变量不同类别的相似性、不同变量类别的关联性和类别关联性排序等。然而,网上大量转载的对应分析图解读方法是错误的。作者分析了前翅主色和特征色不同组合出现的蛾类物种数,揭示了“四象限”“相邻点”“共垂线”“角余弦”和“同心圆”解读结果的矛盾,结合对应分析算法步骤给出了正确解读方法,即只有“共垂线”法和“角余弦”法才是正确的。
关键词 对应分析 解读 变量 类别
中图分类号:O212.1文献标识码:ADOI:10.16400/j.cnki.kjdk.2021.27.020
Analysis of Interpretation Methods of Correspondence Analysis Diagram
MENG Haoguang, YOU Xiufeng, LI Weizheng
(College of Plant Protection, Henan Agricultural University, Zhengzhou, Hunan 450002)
AbstractThecorrespondence analysis chart can reveal the relationship ofmultiplemulticategory variables,including the similarityofdifferentcategoriesofthesamevariable,therelevanceofdifferentvariablecategoriesandtherankingofcategory relevance.However,theinterpretationmethodofcorrespondenceanalysischartreprintedontheInternetiswrong.Theauthor analyzes the number of moth species in different combinations of front wing main color and characteristic color, reveals the contradiction between the interpretation results of "four quadrants", "adjacent points", "common vertical line", "angular cosine" and "concentric circle", and gives the correct interpretation method combined with the corresponding analysis algorithm steps, that is, only the "common vertical line" method and "angular cosine" method are correct.
Keywordscorrespondence analysis; interprets; variable; categories
对应分析(Correspondence analysis)是Jean-PaulBen ecri等开发的多元协变变量统计技术,是主成分分析的拓广。[1]其基本思想是在低维空间以散点的形式展示列联表行变量和列变量中各类别的结构,以定位图展现同一变量中各类别的相似性,及不同变量类别点之间的伴随性。[2-4]已广泛用于古生物学、社会学、经济学、语言学、生态学、医学和心理学等领域。[5]然而,网络上被大量转载的解读方法是错误的!这种错误的知识不加甄别地转载,势必对统计教学带来困扰,甚至某些统计教师也通过“百度一下”以其作为典型案例写入了课件。因此,本文辨析对应分析图的解读方法。
1数据来源
昆虫纲是全球生物多样性最丰富的类群。其中,蛾蝶类是仿生服装设计的重要源泉,也是地理生态学和进化的重要研究素材。本文关注蛾类前翅主色和特征色的关系。首先登录生命探索网(https://www.discoverlife.org/),沿下述路径进入检索数据库:all living things(所有生物)—insects(昆虫)—Lepidoptera(鳞翅目)—Lepidoptera(鳞翅目)—Butterflies;Moths;Skippers(蝶类、蛾类和弄蝶类)—Moth(蛾类)。进入界面后可以看到月份、休息姿势、前翅主色、前翅特征色、前翅图案、前翅长度、翅缘图案、前翅形状、后翅形状、大小、科、属共12个勾选项。以前翅主色和前翅特征色的每个勾选项相结合作为搜索条件,查看蛾类物种数,检索结果如表1所示。
2对应分析步骤及结果
步驟:(1)在Excel中把上述交叉表数据整理成3列,列标题分别是前翅主色、前翅特征色和蛾类物种数,并对前翅主色和前翅特征色的类别进行连续性数值编码;(2)在SPSS 19.0变量视图中定义3个变量:前翅主色、前翅特征色和蛾类物种数。前二者设置为名义型变量,蛾类物种数设置为度量型变量;(3)返回数据视图,将整理的数据导入,并对蛾类物种数加权;(4)点击分析—降维—对应分析,将前翅主色作为行变量,前翅特征色作为列变量,分别定义其最大类别数。点击“更新”后确定,返回主对话框;(5)点击“模型”,将解的维数限制为“2”,采用卡方距离度量。点击确定,输出结果如图1。
3网上常见解读方法
四象限:同一象限中不同变量的类别有关联性,不同象限中类别没有关联性。图1上方(象限1和象限2)是冷色调,下方(象限3和象限4)是暖色调。解读结论是,灰色前翅的蛾类通常没有特征色(象限1),黑、绿色前翅的蛾类通常有蓝色或绿色特征色(象限2),橙色前翅的蛾类常具有红、橙或黄色特征色(象限3)。第4象限就难以自圆其说了,“无特征色”也是特征色类别之一,不能认为第4象限具有白色、棕色前翅的蛾类“没有特征色”。
相邻点:根据不同类别点的距离判断关联性。如前翅主色“黑色”与前翅特征色“蓝色”距离很近,关系密切。可是从表1看出,前翅主色为黑色且特征色为蓝色的蛾类只有683种,在行变量各类别中排名倒数第二,在列变量的各类别中其频次也远远不如前翅主色为灰色、棕色的物种数。
共垂线:从原点出发连接一个变量的任一类别点构成“正向矢量”,将另一变量各类别分别做“正向矢量”的垂线。根据垂点位置(不是垂线长度)获得类别相关性强弱顺序。图2说明,前翅主色为绿色的蛾类,与不同特征色结合的顺序是:绿色>蓝色>红色>黄色>橙色>无特征色。当然,做出前翅特征色某类别的正向矢量,以每个前翅主色的类别点向这个正向矢量做垂线,分析方法相同。
角余弦:做同一变量任意两类别的“正向矢量”,根据其夹角判断两类别相似性,夹角越小两个类别越相似。如图3,前翅主色为黑、绿色的蛾类,前翅特征色非常相似(两条正向矢量接近重合);前翅特征色为黄、橙色的蛾类,前翅主色非常相似。
同心圆:以某变量任一类别点为圆心做一组同心圆,观察每个圆中另一变量的类别,分析其伴随性强弱。图4中以黑色前翅为圆心,内圆涵盖的特征色是蓝色,外圆还涵盖了红色、绿色特征色。
4不同解读方法的矛盾
上述解读结果明显矛盾。例如,图1“棕色前翅主色”在第4象限,“无特征色”在第1象限,按“四象限”解读法二者不相关;但按“同心圆”或“相邻点”解读法二者密切相关。按“共垂线”解读法,黑色前翅主色与绿色的前翅特征色关系最密切,但按照“同心圆”或“相邻点”的解读方法,很显然关系最密切的是“蓝色前翅特征色”。矛盾的原因,源于错误的解读方法。
5对应分析图正确的解读方法
对应分析的基础是主成分分析。其算法途径是:首先根据交叉表数据计算卡方期望值和标准化单元格残差,然后根据单元格残差计算任意两行之间和任意两列之间Pearson相关系数,构建相关系数矩阵;第三步是针对两个矩阵各做一次主成分分析,将原类别凝练为2个上位概念的类别(即主成分,一般解的维数限制为“2”);最后根据主成分因子载荷绘制2组散点图,叠加在同一坐标系中。
“共垂线”是最重要的解读方法。所谓“正向矢量”,指的是从坐标原点出发并连接某个类别点的有向射线。注意:“正向矢量”的出发点是坐标原点。反向延长线一侧的类别散点,不要再尝试解读与该类别散点的任何联系,因为它们没有相关性或相关性不显著,也就无所谓排序问题了。图2正确解读结果是,前翅主色为绿色的蛾类具有的特征色顺序是:绿色>蓝色>红色。
对应分析图是从“整体”出发绘制的。如果共垂线法得到的顺序和实际频次发生颠倒,是因为交叉表中纵向和横向类别的交互影响所致。如表1中前翅主色为黑色且具备蓝色或绿色特征色的蛾类分别有683种和589种,远不如这种主色和“无特征色”组成的物种数目(1965种)。但是如果我们观察“无特征色”这一列时,发现该颜色性状和“棕色前翅”的组合形成的蛾类物种数高达10445种,与“灰色前翅”的组合形成的物种数目为8015种。在对应分析的过程中,“无特征色”这种性状被“棕色前翅”和“灰色前翅”分走了太多的载荷,因此在单独抽取“黑色前翅主色”的类别点关系时,“无特征色”的优先性顺序便不如“蓝色前翅主色”和“绿色前翅主色”,因为这是蛾类中普遍存在的性状。
“角余弦”是另一种重要解读方法,但不仅局限于分析相同变量不同类别点之间的相似性,也用于分析不同变量两个类别点之间的伴随性。例如,图3中的“绿色前翅主色”和“绿色前翅特征色”,“棕色前翅主色”和“无特征色”,这两组类别点的关系是非常密切的,不能认为“棕色前翅主色”和“无特征色”的散点出现在不同象限就认为它们不相关。
“相邻点”和“同心圆”解读法都是通过分析各类别散点的绝对距离实现的,结果完全等价。遗憾的是,散点之间的距离不是交叉频次表原始数据的简单翻版,而是通过上述标准化单元格残差计算、相关分析、主成分分析等许多中间步骤实现的。对应分析的开发者和SPSS软件的开发商,从未提及“四象限”的解读方法(尽管在某些案例中这种分析比较有趣,但仅限于从主成分分析的角度看待,不能解释类别点之间关系的强弱)。
6结语
对应分析图的用途包括:(1)分析不同类别点的“特征性”。如果两个类别点分别来自两个不同变量,且二者正向矢量夹角呈锐角,那么二者离坐标原点越远,伴随出现的频次越高;(2)分析同一变量不同类别点的相似性;(3)分析不同变量的类别点之间的伴随性。正确解读方法只有共垂线法和角余弦两种方法。
*通讯作者:李为争
参考文献
[1]Beh EJ, Lombardo R. Correspondence analysis: theory, practice and new strategies. Hoboken: John Wiley & Sons,2014,130-186.
[2]曹玉茹.基于SPSS對应分析的定性数据分析方法研究[J].福建电脑,2018,34(10):4-6,20.
[3]孙道志.统计分析中对应分析方法应用[J].黄山学院学报, 2006,(03):13-16.
[4]高妍,张慧,李莲莲,等.计量资料对应分析在SAS和SPSS软件中的实现[J].中国卫生统计,2019, 36(02):302-305,308.
[5]Freudenthal M,Martνn-Suαrez E,Gallardo JA, Daroca AG, MinwerBarakat R.The application of Correspondence Analysis in palaeontology.Comptes Rendus Palevol,2009,8:1-8.