基于双成分双标图方法的学科学位点分布差异分析
2017-05-25张晓琴丁皓
张晓琴,丁皓
(山西大学 数学科学学院,山西 太原 030006)
基于双成分双标图方法的学科学位点分布差异分析
张晓琴,丁皓
(山西大学 数学科学学院,山西 太原 030006)
针对研究生学位点建设分布不均衡日益凸显的问题,应用一种有效可视化分析方法——双标图,分析学位点分布差异情况。在此基础上,考虑到学位点分布数据集的特殊性,应用双成分双标图分析方法对各学科间的分布差异进行分析,并验证了其有效性和合理性。
研究生学位点;分布差异;双标图;双成分;可视化
0 引言
自1980年2月我国开始建立学位制度,36年来,中国学位点建设与研究生教育快速发展,取得了长足的进步。而高等教育学位点分布以及学科建设成为学术界的热点话题,受到广大学者的关注。
在对中国学位与研究生教育的发展提出了很多建设性思路的同时,许多研究也揭示了其发展中的一些欠完善之处。骆四铭[1]从学位等级、学位类型、学位点分布以及学位数量比例四个方面分析了我国前八批学位点结构失衡的现象,但未指出学位点分布具体差异情况。于晓敏[2]等通过对2005-2011年间全国31个省市博士点数量的建模,发现博士点的发展存在明显的差异性。此外,罗云[3]和车如山[4]等分别指出了全国教育学学位点分布的不均衡性。李燕领[5]等对截至2009年全国体育学研究生学位点的比较也指出体育学4个二级学科发展不平衡以及研究生培养单位地域分布不均衡的问题。我国在对学位授权审核工作中,强调要发展学位授权体系,优化结构,不断探索和改革,完善中国特色的学位授权体制[6]。
武汉大学中国科学评价研究中心每年都会对中国研究生教育及学科专业进行评价和分析,根据2015年的评价分析报告结果,我国现阶段的研究生教育资源配置依然存在很大的不平衡,区域间存在较大的教育差异[7]。而针对高等教育学位点分布以及学科建设的问题,采用传统的数据分析方法来研究各学科学位点在各地区分布差异,需要处理大量的数据而且往往仅可以分析其中一部分的信息。
双标图是一种可视化数据处理方法,可以将两向数据集转化在平面图形中,进而进行直观分析。双标图在统计学的研究领域中是一种重要的分析工具。目前,双标图分析方法已经在对小麦、大豆等农作物的多点试验育种问题上广泛应用。除此之外,双标图方法还被应用于生物学、环境学与经济学等领域当中。
本文将引入双标图分析方法,对学位点与地区构成的数据集进行可视化图形描述,从而可以在图形中直观分析各学科学位点分布存在的问题。
1 双标图分析方法
双标图[8]最早是由Gabriel在1971年提出,该方法将数据矩阵转化为可视化图形,数据集中的每一个数据属性都可以在图形中找到对应,在图形中更加简单有效地解释数据的属性以及其内在联系。1996年Gower和Hand在Gabriel提出的双标图基础上加入新的见解[9],将数据分析方法与双标图方法结合,从而提出多种类型的双标图。Aitchison对双标图进行大量研究分析,将其应用于有条件限制的成分数据上,在2005年对成分数据双标图的理论进行具体阐述,并提出了双成分双标图[10]的思想。在国内,严威凯[11]最早引入双标图,并在用双标图分析农作物品种多点试验中,就如何选择适当的双标图、如何正确使用双标图的不同功能以及如何判断分析双标图的显示结果等问题进行了系统的阐述。最新的双标图方法被应用在杧果特殊基因的选择[12]及产油量与种子产量之间的关系分析[13]。双标图发展至今,已经成为一种被广大学者所接受的有效可视化数据处理方法。
本节将对双标图的理论知识和双成分双标图分析法作简单介绍。
1.1 双标图的理论基础
假设含有n个观测样本,p个指标变量的原始数据阵可用矩阵Xn×p表示,双标图方法就是找到一个r维子空间,使得n个观测值与p个指标变量映射到r维空间时近似残差平方和最小,使得原始数据集Xn×p可以由降维后的Zn×p与特征向量来近似代替。具体分析如下:
首先对原始数据矩阵Xn×p进行中心化处理,得到消除量纲后的数据矩阵Zn×p,且
.
矩阵Zn×p的秩为r,对矩阵Zn×p进行奇异值分解:
Z=USVT.
其中,U是n×r的左奇异值矩阵,V是p×r的右奇异值矩阵,S=diag(s1,s2,…,sr)。奇异值矩阵S中,其对角元素为奇异值且满足:s1≥s2≥…≥sr。
令Z=FGT,其中F=USα,G=VS1-α,α∈[0,1].F是n×r的矩阵,其内存储的行信息,用n个点表示;G是p×r的矩阵,其内存储的列信息,用p个向量表示,原点O是p个向量的中心。这样得到由原点、样本点及向量构成的双标图(如图1所示),该图中包含了单个数据集的所有信息:
Fig.1 Interpretation of elements in a two-dimensional biplot图1 二维平面中双标图基本构成元素
1) 双标图中的点,近似表示了矩阵Z中的行(样本)信息。
2) 双标图中的向量,近似表示矩阵Z中列(属性)信息。
3) 点之间的距离,反映它们对应的样本之间的差异大小,两点相距较远,对应样本差异大;两点相距较近,对应样本差异小,存在相似性。
4) 两个向量间的夹角余弦值cosθ,反映对应的两个列(属性)间的相关性。夹角余弦值为正时,两个向量正相关,表明在原始数据中两个属性互相促进;夹角余弦值为负时,向量负相关,对应的两个属性互相抵制。余弦值的绝对值大小反映两向量间的相关性大小,值越大表明两个向量对应的属性之间相关性越高。当两个向量近似垂直时,两个属性之间相关性很弱,几乎互不影响。
根据以上原理,分析图上点、向量以及它们之间的相互关系,可以直观分析数据集中包含的样本、列属性信息,进而对样本间的相互关系、样本与列属性的关系以及列属性间的相互关系进行研究。
在构建双标图的过程当中,要选取适当的比例,将每个奇异值分配到相应的行奇异值向量和列奇异值向量之间。根据n×p取值的不同,可以得到不同种类的双标图,α通常取0、0.5、1,进而得到三类不同研究目标的双标图:
α=0时,将奇异值全部分配到列奇异值上,称为协变量双标图,主要用于分析列属性信息以及列属性间的关系;
α=1时,将奇异值全部分配到行奇异值上,称为结构性双标图,主要用于分析样本间信息;
α=1.5时,将奇异值均衡的分配到行、列奇异值上,称为对称双标图,该双标图反映行样本以及列属性间的关系,用于综合研究分析当中。
1.2 双成分双标图
双成分双标图是在含有两个条件限制的数据集下构建的双标图。对同一组分析样本在两个成分下,分别有数据矩阵X1、X2,其中X1是n×p的矩阵,含有p列,表示第一成分下的数据矩阵;X2是n×p的矩阵,含有q列,表示第二成分下的数据矩阵。建立双成分双标图时,同单成分下构建双标图相同,首先对X1、X2进行中心化处理,得到消除量纲后的数据矩阵Z1、Z2。
其中,U是n×r矩阵,S是r×r的矩阵,V是(p+q)×r矩阵,V1、V2分别包含有对应数据集的列属性。
由F*=USα包含行信息,将矩阵F*中每行数据作为坐标值绘制点,绘制样本点。在图形中表现为n个点,与原始数据集的n行观测样本一一对应。理论上双标图可以是r维图形,实际分析中一般只在二维中直观分析。即r=2,取
.
绘制二维平面上的样本点。
在平面中与原点构成向量。
通过上述方法步骤,绘制出两个成分下的双成分双标图,图中同样包含原点、样本点及不同成分下的向量。为图中添加一些辅助线,例如向量间连线、点在向量上的投影等,而更利于在图形上进行分析研究。
2 用双成分双标图分析法处理学科分布差异
在学科学位点分布差异的研究中,由学科-区域构成了一个两向数据表。选取2011年学位授权门类的分布情况数据,应用双标图分析法研究学科学位点在不同区域的分布差异。
表1是全国12个学科分别在两个不同划分条件下的学位授权点分布数据,取X1为各学科在一区、二区划下的学位授权点分布数据,X2为个学科在东部、中部、西部划分下的学位授权点分布数据。
对X1、X2中心化,得到中心化矩阵Z1、Z2以及Z*,其结果见表2。
表1 2011年学科学位授权点的区域分布情况(个)
表2 各学科在一区、二区及东部、中部、西部下的数据中心化结果
为了综合研究各学科在不同区域的分布情况以及不同区域之间的相互影响关系,选取α=0.5,根据2.2节双成分双标图的构建方法,得到各学科在不同区域划分下的双成分双标图,其图示结果为图2。
Fig.2 Bicomponents biplot of the degrees’distribution图2 2011年各学科区域分布的双成分双标图
一、样本点2和5分别对应于经济学和文学,分布相近,存在的差异较小。分布差异最大的为样本点9与11,对应到农学与管理学在实际各分布中存在差异较大。同样与管理学相比较,法学(样本点3)在各区域的分布差异相比较小。
3 结论
通过以上分析结果可以验证,在实际分析一区、二区以及东部、中部、西部划分下,双成分双标图分析方法是可行的。应用双标图方法分析教育学位点分布差异,最大的优点是将传统数据可视化,简单直观的在图形中反映不同学科之间分布的差异大小,以及各学科在不同划分区域中的分布大小关系。本文重点在方法的引述,仅分析了一年的学科分布情况,可以进一步研究不同年份下的分布数据,进而分析我国教育体系的发展情况。
[1] 骆四铭.我国学位结构失衡浅析[J].现代大学教育,2005,1:83-86.DOI:10.3969/j.issn.1671-1610.2005. 01.019.
[2] 于晓敏,吴旸,樊文强,等.博士学位点区域发展差异与趋势研究——基于2005年至2011年追踪数据的实证分析[J].国家行政学院学报,2013,6: 73-77.DOI:10.3969/j.issn.1672-4038.2013.06.015.
[3] 罗云,裴怀涛.论我国高等教育学学位点布局的不均衡性[J].中国高教研究,2007,11: 48-50.DOI:10.3969/j.issn.1004-3667.2007.11.013.
[4] 车如山,刘文霞.论我国高等教育学学位点布局的不均衡性[J].国家教育行政学院学报,2009,3: 44-46.DOI:10.3969/j.issn.1672-4038.2009.03.009.
[5] 李燕领,王家宏,陶玉流.1979~2009年中国体育学研究生学位点的发展[J].体育学刊,2010,17(10): 59-63.DOI:10.3969/j.issn.1006-7116.2010.10.013.
[6] 宋晓平,梅红.我国学位授权审核的历程与动因分析[J].高等教育研究,2009(8):72-78.
[7] 邱均平,柴雯,马力.2015年中国研究生教育及学科专业评价报告的产生与分析[J].评价与管理,2015(2):21-34.
[8]GabrielKR.TheBiplotGraphicalDisplayofMatriceswithApplicationtoPrincipalComponentAnalysis[J].Biometrika,1971,58:453-467.DOI:10.1093/biomet/58.3.453.
[9]GowerJC,HandDJ.Biplot[M].USA,London:Chapman&Hall,1996.
[10]AitchisonJ,NgKW.ConditionalCompositionalBiplots:TheoryandApplication[J].Recercat Principal,2005: 6-8.
[11] 严威凯.双标图分析在农作物品种多点试验中的应用[J].作物学报,2010,36(11):1805-1819.DOI:10.3724/SP.J.1006.2010.01805.
[12]MaiaMCC,AraújoLBD,DiasCTDS,et al.SelectionofMangoRosaGenotypesinaBreedingPopulationusingtheMultivariate-biplotMethod[J].Ciencia Rural,2016,46(10):1689-1694.DOI:10.1590/0103-8478cr20130722.
[13]GhaniG,Raziuddin,KhalilIA,et al.BiplotAnalysisofSeedYieldandOilContentCombiningAbilityinRapeseed(BrassicanapusL.)[J].Australian Journal of Crop Science,2016,10(9):1238-1243.DOI:10.21475/ajcs.2016.10.09.p7214.
Analysis of Differences in Graduate Degree Distribution Based on Bicomponents Biplot Method
ZHANG Xiaoqin,DING Hao
(School of Mathematical Sciences, Shanxi University,Taiyuan 030006,China)
For the imbalance problem of the graduate degree distribution, a visible analysis method, biplot method, is applied to analyze the difference of graduate degree distribution. On this basis, considering the particularity of the graduate degree data set, the bicomponents biplot analysis method is used to analyze the distribution differences among various subjects, and its validity and rationality are verified.
the graduate degree; imbalance distribution; biplot; bicomponents; visibility
10.13451/j.cnki.shanxi.univ(nat.sci.).2017.02.006
2016-07-28;
2016-11-29
国家自然科学基金(61573229);山西省国际科技合作项目(2015081020);山西省自然科学基金(2015011044)
张晓琴(1975-),女,山西长治人,副教授.主要研究方向:数据挖掘,统计机器学习,E-mail:zhangxiaoqin@sxu.edu.cn
O213.9
A
0253-2395(2017)02-0229-05