基于K-means聚类分析与偏相关分析的高考质量评价体系构建与实施
2016-10-13孙景峰李秀丽王彦波欧阳晓松时圣永张欣荣邹璐璐
孙景峰,李秀丽,王彦波,欧阳晓松,时圣永,张欣荣,邹璐璐
基于K-means聚类分析与偏相关分析的高考质量评价体系构建与实施
孙景峰1,李秀丽2,王彦波2,欧阳晓松2,时圣永2,张欣荣2,邹璐璐2
(1. 齐齐哈尔市实验中学,黑龙江 齐齐哈尔 161006;2. 齐齐哈尔市招生考试办公室,黑龙江 齐齐哈尔 161006)
阐述了高考成绩中多学科间K-means聚类分析和偏相关分析的高考成绩分析方法,构建基于数据挖掘技术的高考质量评价体系分析方法,并利用齐齐哈尔市高考考生成绩数据进行评价体系分析,为高考质量评价方法提供了一种新的尝试.
K-means聚类分析;偏相关分析;高考质量评价体系
普通高等学校招生全国统一考试(以下简称“高考”)是为全国各类普通高等学校选拔优质生源的重要考试,也是评价本地普通高中教育教学水平与教学质量的重要内容之一[1].如何充分、科学、客观地评价本地高中教育工作,全面、科学、公平地分析高考质量,是各级教育行政部门、高中学校最为关心的问题.高考成绩不仅是考生录取的重要依据,还是衡量一个地区或高中学校的教育教学水平的重要依据,所以高考成绩历来受到各级教育行政部门及高中学校的高度重视[2].因此,各地教育行政部门、招生考试部门、普通高中学校都会对本地高考成绩情况进行统计分析.
由于高考成绩的特殊性、保密性等性质决定,除招生考试部门以外,其他人员几乎无法接触到,所以在国内进行高考成绩分析研究工作者较少.现阶段,高考质量受到社会各界的普遍关注,促使各级教育行政部门和教育工作者必须利用先进的理论进行高考成绩分析.在这样的环境和背景下,利用数据挖掘技术进行高考成绩质量分析符合社会的实际需要,也必将为高考成绩的分析注入生机和活力[3].
高考成绩分析主要进行2个方面的工作,一方面是进行常规的数据统计,另一方面是对高考成绩数据进行深层次的数据相关性、数据内在联系等方面的分析,而后者是高考成绩分析的重点,也是难点[4].数据挖掘技术正是能够进行数据相关性及数据间关联分析.通过数据挖掘技术中的关联分析[5]、聚类分析[6]等数据挖掘方法对高考成绩进行分析,将有助于高考成绩分析的深入研究,这些方法也是数据挖掘技术在高考成绩分析中的主要研究内容.
本文提出了通过数据挖掘技术相关性分析中的偏相关分析、聚类分析中的K-means聚类分析,构建高考质量评价体系,并利用齐齐哈尔市2014年高考成绩数据作为数据分析对象,实施实验分析,得出分析结论.实验数据分析过程中,采取对全市高考成绩数据进行分析,通过学科间偏相关系数检验学科间的关联程度,并以此为基础利用聚类分析数据进行检验,评估学科成绩是否符合预期效果.通过此方法,为各地、普通高中学校进行高考质量评价提供参考和借鉴.
1 基于标准偏移量的K-means聚类分析算法
K‑means算法(也称K均值算法)是一种基于划分的聚类分析算法.K‑mean聚类分析算法的基本思想是在聚类分析数据中按照相关选取准则选取个数据对象作为初始聚类中心,通过聚类目标函数度量准则对数据集进行处理,选取聚类中心最近数据合成一类,重新计算新类的聚类中心,反复迭代进行聚类处理,直至达到聚类收敛条件为止,完成数据集聚类,按照度量准则要求达到相似性较高的数据聚为一类.
在K‑mean聚类分析过程中,通过设立的目标函数进行类与数据对象间的距离计算,在距离计算内容上选取标准偏移量为各数据个体的距离衡量.标准偏移量为目标对象与整体数据平均数之差除以整体数据标准差(Standard Deviation,缩写SD).标准差表示组内个体间的离散程度,通过数据偏移量与标准差的比值计算,能够反映出个体数据在整体数据中的状况.标准差计算公式为
标准偏移量计算公式为
由此可以定义目标函数为
通过考生学科成绩与该学科成绩平均分偏离值除以标准差,借助标准差这一离散分布量,能够衡量学生该学科成绩的整体偏离程度,从而衡量出偏离值大的课程成绩,表明这一聚类集存在偏科现象,为成绩评估提供参考依据.标准偏移量有正负之分,正负代表评估数据与平均值之差的大小,正值代表大于平均值,负值代表小于平均值;标准偏移量的绝对值代表评估数据的偏离程度,数值越大,偏离程度越高.
2 偏相关分析方法
相关性数据分析是数据挖掘技术中关联性分析的一部分,是对统计学上2个及2个以上变量的相互关联关系的分析和描述.2个变量参与的相关性分析为简单相关分析,2个以上变量参与的相关性分析为多元相关分析.简单相关分析多采用皮尔逊积差相关法(又称“积差相关法”)计算两变量的相关系数来表示两变量的相关关系,其基本计算公式为
在多学科课程分析过程中,各学科间成绩是相互影响的,仅仅对2个学科进行相关性分析,割裂了各个学科间的相关关系,无法真实反映学科间的相关性.对多学科间两学科相关性表述,需借助偏相关分析法.偏相关分析是对具有多个变量相互影响下,考量2个变量剔除其它变量影响的相关关系.偏相关分析的量化结果也用偏相关系数来表示,偏相关系数可以利用简单相关系数进行表示,简单相关系数可以用式(4)计算而得.
偏相关计算公式的通式为
一阶偏相关系数计算公式为
即消除第3变量影响,分析两变量的相关关系.
二阶偏相关系数计算公式为
即消除第3、第4变量影响,分析两变量的相关关系.
对求得的相关系数,可以用显著性检验方法进行显著性检验.对相关系数显著性检验方法多选取检验进行检测.检验又称方差齐性检验,主要通过对比2个变量数据的方差,以确定其吻合度是否有显著性差异.当数据变量个数充分大时,统计量近似服从分布.
3 高考质量评价体系构建
在高考考生成绩中,黑龙江省现行高考科目实行“3+综合”的设置,即理科为语文、理科数学、外语、理科综合(包括物理、化学、生物)四大学科;文科为语文、文科数学、外语、文科综合(包括地理、历史、政治)四大学科.在考生成绩数据相关性分析与聚类分析过程中,将文理科中的综合学科分解成独自的3个学科,即每名考生高考成绩由6个学科构成.因此,可以将考生数据看做具有六维度的数据对象.
表1 黑龙江省高考各学科满分分值
在进行标准偏移量聚类分析过程中,要分别计算6个学科成绩的各自偏移量,将6科偏移量相加算出总偏移量.由于高考各学科成绩满分值(见表1)存在差异,所占总分比重的不同,在各个学科成绩偏移量计算过程中,要对其偏移量值进行调整,即设置各个学科在总偏移量中所占比重(见表2).
表2 文理科权重值
在进行各学科间相关性分析过程中,为挖掘数据间的相关属性,将对理科的总分、语文、数学、英语、理科综合、物理、化学、生物两两学科简单相关和一阶偏相关的相关性进行计算,对文科的总分、语文、数学、英语、文科综合、历史、政治、地理两两学科简单相关和一阶偏相关的相关性进行计算.
通过标准偏移量K-means聚类分析算法,将具有学科成绩属性特征的考生聚集到各自的聚类项中,通过计算各个聚类项的平均分、标准差、最高分和最低分4个特征值,进行数据分析对比,验证聚类结果.各学科间简单相关性分析中的相关系数,能够反映出2个学科间是否具有相关性及相关程度.偏相关分析能够剔除其它学科因素影响,而真实的表达出2个学科间的相关关系.如果2个学科间的相关性较强,即2个学科间高度相关,通过标准偏移量K-means聚类分析所得2个学科也具有相同的特征属性;如果2个学科间相关程度较低,即2个学科间不相关,那么这2个学科间标准偏移量K-means聚类分析特征属性值不具有可比性,其值相互间不影响.
在基于标准偏移量K-means聚类分析与学科相关性分析过程中,对学科间具有相关性学科聚类分析结果进行对比分析,利用分析结果进行高考质量评价.在评价过程中,利用全市高考成绩数据分析进行对比,得出评估结论,为高考质量评估提供一个新的途径.
4 高考质量评价体系在高考成绩分析中的实施
高考质量评价体系实验数据分析中,选取齐齐哈尔市2014年普通高中理科14 489名考生、文科8 796名考生高考成绩作为数据分析对象(为消除极值对实验数据的影响,实验数据已剔除总分小于180分及单科成绩为0分的考生和非英语语种考生),对文理科分别进行相关性分析和标准偏移量K-means聚类分析,并得出数据分析结果.理科各学科间简单相关系数见表3,文科各学科间简单相关系数见表4.剔除其他学科影响而得理科一阶偏相关系数和文科一阶偏相关系数.
通过表3可以看出,理科中除语文、英语与总分相关系数高,与其他各学科相关系数值都很低,学科间相关关系不显著;物理、化学、生物3科间相关系数值相对不高,这3个学科间简单相关关系成显著相关;其他学科间简单相关系数值都很高,按照相关性显著检验标准,这些学科间呈现极其显著相关关系.
由表4可以看出,文科中除总分与各学科、文综合与地理、历史、政治学科相关系数高外,其他学科间相关系数都不高,即总分与各学科、文综合与地理、历史、政治学科呈极其显著相关,其他各学科间呈显著相关.
表3 理科各学科简单相关系数
表4 文科各学科简单相关系数
在学科间简单相关系数基础上,进行剔除第3科影响的一阶偏相关系数计算,得出一阶偏相关系数(见表5、表6).由表5可以看出,理科各学科间偏相关系数中,受数学学科影响程度较大,除综合与物理、化学、生物外,剔除数学学科影响的两学科间偏相关系数比简单相关系数变化较大.例如:物理与化学学科间简单相关系数为0.769 8,而剔除数学影响的偏相关系数为0.285 1;物理与生物学科间简单相关系数为0.736 8,而剔除数学影响的偏相关系数为0.248 8.说明在物理和化学、物理和生物学科间受数学学科影响较大,这与数学学科基础性性质相关联.在总分和数学学科间,剔除第3科影响因素后,两者之间偏相关系数仍然很显著,如两者简单相关系数为0.884 3,剔除语文学科影响后,两者偏相关系数为0.910 6.这说明总分与数学间关联关系较为紧密,即如果数学学科成绩高,总分相应成绩也会较高;如果数学成绩低,总分也会低.
表5 理科各学科一阶偏相关系数
通过表6可以看出,文科各学科间,数学与总分的偏相关系数较高,两学科间未受其他学科影响,两学科间具有较强的关联关系.地理、历史、政治学科,在剔除语文学科影响后,偏相关系数都有所降低.例如:历史和政治间的简单相关系数为0.749 5,而剔除语文学科影响,其偏相关系数为0.461 7;地理和历史学科间的简单相关系数为0.717 6,而剔除语文学科影响,其偏相关系数为0.442 4.这说明在地理、历史、政治学科中,受语文学科影响较大,这与语文学科的基础属性相关.
表6 文科各学科一阶偏相关系数
按照标准偏移量K-means聚类分析算法,对实验数据进行聚类分析,并将各个聚类项进行聚类项内平均分、标准差、最大值和最小值4个属性值统计计算,理科4个属性值见表7、表8.
表7 理科聚类项平均分与标准差统计
由表7可见,语文、数学、外语学科平均分中,除数学最大值聚类项数学成绩高外,其他聚类项中数学成绩都是最低的,与物理、化学、生物学科相比,数学成绩也偏低;在各聚类项物理和化学平均分都较为接近,相对差别不大;标准差项除总分外,数学标准差较大,说明数学成绩离散程度较大,数学差值变化较多,数学成绩的变化必将影响到考生的成绩变化.通过分析,也印证了在偏相关分析中的数学学科具有影响总分、物理、化学学科成绩的结论.
表8 理科聚类项最大值与最小值统计
由表8可见,最大值项数学偏大,最小值项数学偏小;物理、化学与数学最大最小值变化具有一致性.
5 结束语
利用偏相关系数可以剔除其他学科因素影响,进而确定两学科间的相关关系,并通过标准偏移量K-means聚类分析结果进行相关性验证,找出学科间影响关系,实现了高考质量评价的目的.本文对全市整体数据进行评价分析,利用此方法对县区、高中学校高考成绩数据进行分析,并进行县区、高中学校与全市间数据对比评估,将有助于提高县区、高中学校的高考质量评价的效能.
[1] 汪朝杰.大学生在校成绩与高考成绩的统计分析研究[D].合肥:合肥工业大学,2012
[2] 曾水光.基于数据挖掘的河北省高考数据分析研究[D].石家庄:河北师范大学,2013
[3] 徐杨峰.数据挖掘在高考成绩影响因素分析中的应用研究[D].苏州:苏州大学,2015
[4] 庞业伟.高考理科综合成绩相关性分析[J].广西教育,2013(42):87-88
[5] 张峰,胡学钢.基于关联规则的高职学生成绩分析应用研究[J].滁州学院学报,2011(2):103-106
[6] 华婷婷.K-means聚类算法研究[J].黄山学院学报,2013(5):17-19
[7] 孙菲,张健沛,董野,等.基于标准偏移量的K-means聚类分析算法研究[J].齐齐哈尔大学学报:自然科学版,2015(2):57-64
[8] 任福栋,张宏烈,孙景峰,等.简单相关分析与偏相关分析在高考成绩相关性分析中的对比研究[J].高师理科学刊,2014,34(2):24-27
Construction and implementation of college entrance examination quality evaluation system based on K-means cluster analysis and partial correlation analysis
SUN Jing-feng1,LI Xiu-li2,WANG Yan-bo2,OUYANG Xiao-song2,SHI Sheng-yong2,ZHANG Xin-rong2,ZOU Lu-lu2
(1. Qiqihar Experimental Middle School,Qiqihar 161006,China;2. Qiqihar Admission Office,Qiqihar 161006,China)
The college entrance examination scores of the college entrance examination scores among the disciplines partial correlation analysis,K-means clustering analysis of the analysis method, the construction of college entrance examination quality evaluation system of technical analysis method based on data mining,and the Qiqihar city college entrance examination scores and data evaluation system analysis.It aims that providing a new attempt for the college entrance examination quality evaluation method.
K-means cluster analysis;partial correlation analysis;quality evaluation system of college entrance examination
1007-9831(2016)09-0032-06
TP301.6
A
10.3969/j.issn.1007-9831.2016.09.010
2016-08-15
黑龙江省教育科学“十二五”规划2013年度重点课题(JJB1213032)——基于数据挖掘技术的高考质量评价分析方法研究与应用
孙景峰(1966-),男,黑龙江齐齐哈尔人,副教授,博士,从事高中教学评价与高考成绩分析研究.E-mail:sunjingfeng@163.com