基于箱线图的学生成绩分析
2019-10-12王佃来宿爱霞
王佃来 宿爱霞
摘 要 以箱线图为基础,对某班期末数据结构成绩进行分析,并将结果与直方图分析结果进行对比,探讨两者的相同和区别,指出箱线图在计算量大小和直观展示数据分布方面有优势。
关键词 箱线图;成绩分析;直方图;数据结构成绩
中图分类号:G642 文献标识码:B
文章编号:1671-489X(2019)06-0098-03
Analysis of Student抯 Score based on Box Plot//WANG Dianlai, SU Aixia
Abstract The score of the data structure course is analyzed by using
the box plot and histogram, and two results is also compared and dis-
cussed. The experimental results show that the box plot has the ad-
vantage of showing the distribution of the data and less of calculation.
Key words box plot; analysis of score; histogram; data structure score
1 前言
箱線图是一种统计图,其在数据异常值检测、数据偏态与尾态检测和多组数据对比方面有优势,可宏观展示数据是否具有对称性和数据分散程度,被广泛用于质量控制和数据分析中。箱线图是一种利用最小值、下四分位数、中位数、上四分位数和最大值来描述数据的一种统计图。该图被广泛地应用于数据分析和质量控制中,例如:2010
年,孙向东等使用箱线图对动物卫生数据的异常值进行了检验[1];2014年,朱红霞等利用箱线图对中国典型城市主要大气污染物的浓度水平及分布展开研究[2]。其他学者对该内容的研究成果请参阅文献[3-6]。本文对箱线图的概念和画图步骤进行了详细阐述,并结合某班数据结构成绩给出应用实例,最后对比箱线图与直方图的区别和不足,指出应用箱线图的主要方向。
2 研究方法与研究数据
箱线图 箱线图(BOXPLOT)可用于归纳数据的分布信息。箱线图并不绘制实际的数值,而是显示出分布的统计概况。与直方图相比,箱线图的一个最大优点是大致呈现数据的分布信息,可从宏观上展现总体样本的整体分布信息,并能发现异常点。箱线图利用数据中的最小值、下四分位数、中位数、上四分位数和最大值等五个统计量来描述数据,可粗略地看出数据是否具有对称性、分布的分散程度等信息。箱线图的示例如图1所示。
画箱线图一般包含以下步骤。
1)对n个样本数据x(1),x(2),...,x(i),...,x(n)进行排序,一般采取从小到大的方式。
2)找出排序样本的中位数,计算公式见公式(1):
其中x(1),x(2),...,x(i),...,x(n)为有序样本。
3)计算下四分位数Q1和上四分位数Q3。
4)计算箱体长度为Q3-Q1。
5)计算下限和上限,计算公式分别为(2)和(3):
下限= Q1-1.5(Q3- Q1) (2)
上限=Q3+1.5(Q3- Q1) (3)
6)画出上限、下限、箱体、须触线,并标出中位数、上四分位数和下四分位数,最终画出箱线图。
直方图 直方图主要用于分析数据的分布情况,是一组数据的图形表示,可直观地呈现数据的分散程度和中心趋势。一般来说,直方图需要计算机辅助生成,也可使用Excel制作直方图。
直方图的构造步骤及要求如下。
1)从n个样本中找出最大值和最小值,并计算极差。
2)对样本进行分组,决定数据k和组距d。一般将样本分为7~15组为宜。
3)调整确定分组的区间端点a1,a1+d=a2,a1+2d=a3,
……,形成区间:[a1,a2],(a2,a3],(a3,a4],...,(an-1,an]。
4)统计样本落在每个区间中的频数ni 及频率fi=ni/n。
5)画出直方图。
研究数据 本文使用软件技术专业某班数据结构成绩进行数据分析,考虑到计算复杂度和文章篇幅等问题,数据样本控制在40个以内。详细数据见表1。
3 数据分析结果与讨论
为了比较箱线图和直方图在成绩分析方面的不同,本文针对表1数据使用两种方法分别进行数据分析。
基于箱线图的数据分析 分析表1中的数据,求出箱线图的统计量。最小值:20。下四分位数:43。中位数:(67+68)/2=67.5。上四分位数:81。最大值:95。下边界:
20-1.5*(67.5-43)=-16.75。上边界:81+1.5*(67.5-43)=
117.75。详细过程见图2。
通过对图2的分析,可直观地看出中位数不在下四分位数和上四分位数中间,而是偏向上四分位数,说明数据出现偏态现象。结合表1数据可以看出,分数集中在[70,90]的人数较多,占总人数的32.5%。
箱式图还有一个作用,就是可直观地显示异常值。结合数据的上下界可知,数据没有异常值出现,集中在区间[20,95]。
基于直方图的数据分析 为了与箱线图进行对比,本文引入直方图对表1数据进行分析。首先求出该班学生成绩的最大值和最小值,分别为95和20,极差为75;将数据分为八组,组间距为10,详细统计数据见表2。基于表2画出直方图,见图3。
从图3可直观地看出,成绩在区间(60,70]最多,占总人数的20%。直方图可以比较直观地显示成绩分布状况,并且各区间的数据一目了然,是一种非常有价值的成绩分析工具。
从教学的角度来说,应该注重基础薄弱学生的教学,因为不及格人数达到37.5%,花一些精力对基础较差的学生实行集中辅导,使班级的整体成绩得到更好的提高。90分以上人数相对较少,只占总人数的10%,可以适当针有潜力学生个别辅导,提高高分率。此外,从上述数据可以看出,学习成绩中等和优秀学生比例合理,应继续保持。
讨论 本文对一个班内成绩进行分析,可看出箱线图在异常数据检测和数据偏态方面显示比较直观,可做到一目了然。但是,箱线图的不足之处在于它无法提供数据分布偏态的精确度量;对于大批量数据,它反映的形状信息更加模糊;中位数在代表总体样本平均水平方面有一定的局限性,因为其只利用了部分样本的信息。箱线图只能从宏观展现数据的分布,如果要得到确切的数据值,需要借助于直方图或其他统计量。所以,箱线图最好能结合均值、标准差、偏度和分布函数等统计量来描述批量数据的分布形状。
箱线图的计算和绘制步骤比直方图简单,可使用Excel来完成制作,具体详细做法可参阅文献[4]。
此外,应该指出的是,本文只是给出箱线图在一个班级内的成绩分析,而箱线图可直观地对比两个以上班级的成绩,并且简单好用,请参看相关文献。
4 结语
箱线图是数理统计中進行数据分析的一种方法,它计算相对简单,能从宏观上展示数据分布特征,在异常值检测和偏态分析方面有优势。但是,箱线图无法提供精确的度量值,在实际应用中如果能与其他统计量结合,则可达到更好的数据分析效果。最后,箱线图应用到单班或两个班级的成绩评估与对比中,可直观展示班级成绩的差异,是一种不错的多班成绩分析工具,可帮助教师对学生成绩做出科学评价,为教师和教学管理部门提供一种简便易行的教学质量评估方法。■
参考文献
[1]孙向东,刘拥军,等.箱线图法在动物卫生数据异常值检验中的运用[J].中国动物检疫,2010,27(7):66-68.
[2]朱红霞,等.中国典型城市主要大气污染物的浓度水平及分布的比较研究[J].生态环境学报,2014,23(5):791-796.
[3]庄作钦.BOX PLOT:描述统计的一个简便工具[J].统计与预测,2003(2):34-35.
[4]雍红月.运用EXCEL进行经济指标的箱线图分析[J].统计教育,2007(2):35-36.
[5]查如琴.简谈几种“箱线图绘制”的描述[J].读与写:教育教学刊,2012,9(7):54,63.
[6]郭德清,廖祥文.基于箱线图的微博客热点话题发现[J].山西大学学报:自然科学版,2014,37(1):19-25.