APP下载

基于R语言的成绩分析方法

2018-09-29栾若星

智能计算机与应用 2018年4期
关键词:R语言关联规则考试成绩

栾若星

摘 要:考試成绩反映出学生一定的能力,对学习过程和课程教学给出有价值的意义反馈,并且作为评估试题质量的数据依据对制定更加完善的考试方案具有参考价值。因此,提出基于R语言的成绩分析方法,使用R的基本统计量计算和显示数据分布的绘图函数,实现成绩统计性分析和试题质量评估;使用R的arules添加包执行Apriori算法实现关联规则挖掘,发现成绩中隐含的有价值信息。以C语言程序设计课程期末考试成绩作为数据样本,分析了学生整体成绩水平和差异、试题的难度、信度、区分度和效度以及影响学生成绩的主要因素。

关键词:R语言; 考试成绩; 试题质量; 关联规则

Abstract: Examination results should reveal students' real academic level and give valid feedback to students and teachers, for helping them improve learning abilities and teaching quality. The quality analysis of examination paper can offer meaningful reference for making more consummated exam plan. Based on the above considerations, the paper puts forward a method of examination results analysis, using R basic statistics and plotting functions to perform statistical analysis, and using Apriori algorithm from arulets package to excavate association rules for searching valuable information which is hidden in papers. Taking final exam scores of "C language programming" course as example, the paper gives analysis results of students' overall level and differences, makes a quantitative evaluation on difficulty、credibility、discrimination and validity, and finds the key factors influencing student achievement.

Key words: R language; examination scores; quality analysis of examination paper; association rules

引言

考试是检验学习水平和教学质量的一种手段,而考试成绩从某种意义上反映出学生的学习能力和水平,揭示其学习过程中的薄弱点,帮助教师发现教学中存在的问题,进而提升教学质量。因此,对考试成绩进行分析是学校教学进程中必不可少的环节。比较典型的方法是使用Excel、SAS或SPSS等统计软件进行数据分析,这类软件操作简单,能够快速生成统计结果,但无法获取数据隐含的信息。随着数据挖掘成为研究热点,如何将数据挖掘技术应用于成绩分析是研究这类问题的新思路[1-2],可利用基于关联规则的机器学习算法提取成绩数据中有价值信息[3-4]。

R是一种编程语言,也是用于数据统计分析和绘图的自由软件环境[5],其强大的功能在于自身所拥有的统计分析、机器学习、生物信息学、绘图等多种功能包。基于R语言对考试成绩进行分析,主要使用R的基本统计量函数获取成绩统计数据和试卷质量的各项指标;使用R的arules添加包实现Apriori算法[6],挖掘成绩数据中的规则和模式。

1 数据处理

1.1 数据选取

以2017-2018学年第一学期“C语言程序设计”课程的期末考试成绩作为样本,总记录数为891条。成绩单为xls文件,从中选取所需的数据列 (包括学号(num)、程序设计题得分(program)、程序改错题得分(error)、程序填空题得分(fill)、总分(score) ),存储为csv文件(scores.csv)。如果有缺失值,可以采用人工填写空缺值或忽略元组等方式处理。

1.2 数据读入

使用R处理数据之前,需要将外部数据文件读入数据框。数据框通过类似于Excel表格形式整理要处理的数据,各列中保存观测值的名称,各行中保存实际的观测值。成绩单完全可以使用数据框进行保存。R的read.csv()函数可以将csv文件读入数据框,代码如下:

> (score<-read.csv (“scores.csv”) )

部分输出结果如下:

num program [KG-*2]error fill score

1 170101001 20.0 34.6 38.0 92.6

2 170101002 20.0 40.0 40.0 100.0

3 170101003 16.6 29.3 27.3 73.2

4 170101004 15.8 32.0 33.3 81.1

5 170101005 20.0 37.3 40.0 97.3

6 170101006 12.4 24.0 30.6 67.0

2 成绩统计性分析

2.1 统计量计算

使用R的基本统计量函数计算各題型和总分的平均值、方差及标准差(见表1)。平均分反映成绩的整体水平;标准差反映全部分数的离散情况,标准差越大,差异越大。

2.2 成绩分布趋势

直方图(histogram)可以反映每个值范围出现的频率,是了解数据分布的一种常用图形[4]。使用R的hist()函数绘制直方图,其分布特征可以反映试题的难度水平,对试题质量分析具有一定的参考价值。由于绘制直方图时,根据所选条形宽度的不同,绘出的形状可能完全不同。采用密度图能够解决这一问题,使用R的density()函数绘制核密度图,将直方图与密度图结合使用。

5 结束语

基于R语言对考试成绩的统计分析、关联规则挖掘,以及对试题质量的评估,充分发挥了R在数据统计与机器学习上的优势,并利用其绘图功能实现了数据可视化。使用R语言还可以对多门课程成绩进行分析,从学生专业和教师的角度进行教学效果比较与分析,以及通过对机考组卷进行评估来完善题库建设。

参考文献

[1] 李巧君,李伟. 数据挖掘技术在学生成绩分析中的应用研究[J]. 微型电脑应用,2015,31(4):35-36,40.

[2] 王海荣. 数据挖掘在学生成绩分析中的应用[J]. 电子设计工程,2013,21(4):54-56,60.

[3] 顾辉,杨青,蒋成功,等. 关联规则在成绩分析中的研究及应用[J]. 计算机应用,2015,35(S1):149-151,198.

[4] 王华,刘萍. 改进的关联规则算法在学生成绩预警中的应用[J]. 计算机工程与设计,2015,36(3):679-682,752.

[5] 徐珉久. R语言与数据分析实战[M]. 北京:人民邮电出版社,2017.

[6] Raghav Bali, Dipanjan Sarkar. R语言机器学习:实用案例分析[M]. 北京:机械工业出版社,2017.

[7] 李玉桃,宋长利. 对考试成绩和试题质量的科学分析与评价[J]. 现代教育科学,2006(S2):138-139.

[8] 崔妍,包志强. 关联规则挖掘综述[J]. 计算机应用研究,2016,33(2):330-334.

[9] 张启徽. 关联规则挖掘中查找频繁项集的改进算法[J]. 统计与决策,2015(4):32-35.

猜你喜欢

R语言关联规则考试成绩
基于GPS轨迹数据进行分析改善城市交通拥挤
基于R语言的Moodle平台数据挖掘技术的研究
关联规则挖掘Apriori算法的一种改进
基于关联规则的计算机入侵检测方法
跳过去
基于R语言的湖南产业结构对其经济增长贡献分析
斯诗私塾
注重统计思维培养与应用为主导的生物统计学课程建设