高校学生成绩数据库预处理技术及其统计应用
2012-08-01杨宏兰刘会青
杨宏兰 刘会青
(1.武汉工程大学学生处,湖北武汉 430074;2.武汉工程大学理学院,湖北武汉 430074)
高等学校学生成绩数据库管理着一个学校全部学生全部课程的各类考核成绩,是一个学校教师教学质量和学生学习质量的集中反映,是一个巨大的资源宝库,研究如何开发利用这一资源以获得更好的为教学服务的作用与效果是有价值的。比如通过成绩资源库的分析,可以知道专业、课程设置及更新状态;学生规模与专业分布;课程教学质量及趋势;分级教学、中期分流等改革措施的实际效果等[1][2]。
1 数据预处理
数据的预处理包括对异构数据库提供的原始数据进行导入、导出操作和数据的规范化处理等工作。具体来讲就是把以Access、Excel、文本文件等形式存在的原始数据统一导入到SQL Server数据库,然后对导入的原始成绩记录进行规范化预处理,包括同一门课课程名称的统一、成绩记分中百分制与等级制的统一、无用成绩和班级的删除等。
1.1 异构数据库数据的导入导出
异构数据库之间的导入导出是指数据在不同数据库之间的导入导出。SQL Server数据转换服务(DTS)是一组图形化的工具和可编程的对象集,它允许取出、转换和合并不同来源的数据到一个或多个目标数据库中。DTS可以导入/导出的数据型态包括:OLE DB和ODBC资料来源、文本文件、连接其它Microsoft SQL Server的执行个体、Oracle和Informix数据库、Microsoft Excel电子表格、Microsoft Access和 Microsoft FoxPro数据库、dBase和Pardox数据库。由于某高校学生成绩原始数据以Access、Excel、文本文件三种形式存在,因此需要利用导入数据工具从Access数据库、Excel数据库、文本文件导入数据到SQL Server数据库。下面以Excel表与SQL Server数据库为例介绍DTS的使用方法。
(1)运行SQL Server Enterprise Manager-->Tools-->Dtata Transfer Services-->Import Data;
(2)根据向导提示选择数据源:Microsoft Excel 97-2000以及Excel表文件具体位置;
(3)根据向导提示选择数据宿类型:Microsoft OLE DB Provider for SQL Server以及目标数据库;
(4)选择 Copy Table(s)and View(s)from Source Database,选择要复制的表名即可完成数据导入工作。
数据导出操作与导入过程相同,只是数据源与宿不同。
1.2 数据格式的统一
数据格式的统一就是对原始成绩记录的规范化预处理。包括同一门课课程名称的统一、成绩记分中百分制与等级制的统一、删除无用成绩和班级等。
1.2.1 课程名称的统一
由于任课教师的不同,所属专业、所属学院的不同,成绩录入时造成了同一门课课程名称的不统一,因此,原始成绩记录规范化预处理的第一步就是做好对同一门课课程名称的统一。统一课程名称的工作通常较复杂,关键在于若何判断哪些名称应属于同一门课程,实践中发现有的课程名称多达十余个,比如画法几何及工程制图、画法几何及制图、画法几何与工程制图、画法几何和工程制图、工程制图、画法几何、画法几何与制图等,这是需要仔细核对教学计划才能确定的,一旦清楚了一门课程的所有可能名称,就可以用程序来完成课程名称的统一工作。部分代码如下:
Update程序设计基础$
Set课程名称='程序设计基础'
Where(课程名称='…')
1.2.2 修改记分制
数据库中成绩可能是百分制,也可能是A、B、C、D、E或优、良、中、及格和不及格等等级制形式存放的,如果有缺考的情况,则成绩会记录为‘/’,为便于成绩分析往往要先统一记分制,比如统一成百分制。在后面成绩分析时,要用到与数据相关的函数Avg等,也需要把等级成绩转换成数据成绩,以便于后面进行成绩的分析。部分代码如下:
/*更新表 — 程序设计基础$*/
/*把表列成绩为’优’或是’优秀’的修改为90*/
Update程序设计基础$
Set成绩1='90'
Where(成绩1='优'or成绩1='优秀')
1.2.3 删除无用成绩及无用记录班
观察导入的数据表,发现有些学生的成绩是’/’或是其它的无效字符,需要把这些没有用的记录删除,还有一些班级是成教、二级学院、专科等系列的,这些班级往往不参加普通班成绩统计分析,也要将其全部删除掉。部分代码如下:
/*删除记录—删除无用成绩和无用记录班*/
Delete From程序设计基础$
Where(成绩1='/'or expr2like'%(信)%'or expr2like'%(信专转)%'or expr2like'%(成)%'or expr2like'%(专)%'or expr2like'%(信转)%'or expr2like'%1111%')or(课程类型like'%YD%')
2 数据分析及结果
要分析有代表性课程,如公共基础课、学科基础课、部分专业课程教学质量与变化趋势,需要选择科学的评价指标,大体上涉及横向和纵向两个方面的比较。以《程序设计基础》这门公共基础课为例,我们从以下两个不同方面进行数据分析。
2.1 纵向分析
纵向分析就是对不同年级的同一门课程进行成绩分析,目的是分析不同课程的教学变化趋势。统计年级为00级到04级共5组数据,统计指标包含属性有年级,总人数,平均分,标准差,标准差系数。分析结果见表1。
表1 某高校00~04级《程序设计基础》成绩分析表
对比各组数据,很明显可以看出:学生成绩从00年到04年的平均成绩普遍有所提高,总人数也不断增大;比较00级、01级、02级、03级、04级的标准差和标准差系数,成绩离散性明显缩小,整体教学效果明显提高。
2.2 横向分析
横向分析就是对同一门课程不同专业学生的成绩进行分析,以比较各专业的发展差异。统计专业包括2003级外语、经济管理、计算机、环境工程、材料工程、机械、电气、化工,课程为《程序设计基础》分析结果见表2。结果表明,不同专业的学生平均分、不及格率有较大差异,而标准差区别不大,反映了不同专业学生学习上的整体(群体)差异,这些差异则启示我们应注意教学过程中如何因材施教。
表2 某高校03级分专业《程序设计基础》成绩分析表
3 关于统计指标的思考
3.1 总量指标
应用于成绩分析的总量指标主要有:学生人数,每个分数段的人数,它反映了考试规模大小及考试的基本情况,是最直观的基础指标。
3.2 相对指标
成绩分析中的相对指标主要有:及格率,不及格率,各分数段的比率,这些相对指标一般都是由两个有联系的指标相互对比而计算出来的一种比值:它能够深刻地反映考试成绩的好坏,有利于不同班级,不同科目之间建立起一种直接的对比关系。
3.3 平均指标
成绩分析中最熟悉的平均指标是平均成绩,而计算平均成绩通用的方法是简单的算术平均为算术平均能够反映学生成绩的普遍水平和集中程度,便于同类科目在不同班级之间进行比较。但算术平均易于受极大值和极小值得影响,因此不足代表一组成绩的一般水平。
3.4 标志变异指标
全距R=最大变量值—最小变量值,R越小,平均成绩的代表性就越强;反之,成绩差距大,平均成绩的代表性就弱。利用全距进行统计分析,其计算简便,意义清楚,但过于粗劣,只考虑了最大值和最小值的影响,而没有考虑中间各个数值的影响。因此,不能够充分地反映学生成绩之间的实际离散程度。
3.5 标准差
平均成绩掩饰了成绩之间的差距,而全距计算又太粗劣。采用标准差来描述一组数据的离散程度,标准差的简单计算公式为:标准差小,说明学生之间的水平较为均衡,平均成绩的代表性较强,反之,说明学生之间的水平差距较大,平均成绩不具有代表性。
在两组平均成绩不等的情况下,用标准差系数来说明组与组之间平均成绩的代表性,标准差系数的计算公式是标准差系数又叫做离散系数,只有通过计算离散系数消除不同组间平均水平所产生的影响,才能做出正确的比较和判断。计算出来,标准差系数越大,说明成绩之间的差距越大,平均成绩的代表性就越小;反之,标准差系数越小,说明成绩之间的差距越小,平均成绩的代表性越大。
现实生活中,人们往往局限于总量指标、相对指标和平均指标对考试成绩的分析,而忽略了标志变异指标的应用。总量指标、相对指标和平均指标固然是一组相互依存的指标,而平均指标和标志变异指标也是一组相互补充的概念,两者从不同侧面说明了学生成绩的个性与共性。在实际中,只有将多种指标结合应用,才能深刻的揭示现象的本质。
4 结 语
对教师来说,通过对考试成绩的分析,可以了解学生对教材、教法的适应情况,以便调整教学内容和教学方法,进而改善教与学的关系。然而,学生成绩分析却是一项比较麻烦的工作,如计算平均成绩与标准差等,为此,我们采用SQL Server数据库,设计了一个简单用于考试成绩分析基本思路和框架,由此分析成绩数据表得出了一些结论,目的是减轻教师进行此项工作的负担,从而为改进教学活动提供依据。
1 马庆国.应用统计学:数理统计方法、数据获取与SPSS应用[M].北京:科学出版社,2005.
2 李德宝,孟超,吕堃,阮五洲.学生成绩分析系统设计[J].教育信息化,2005,(11):23~24.
3 石文华.基于VB的学生成绩管理系统设计与实现[J].山东电力高等专科学校学报,2004,7(1):32~34.