数据挖掘技术在计算机等级考试成绩中的分析研究
2015-07-13曾斯
曾斯
摘要:利用数据挖掘技术分析某高职院校全国计算机等级考试成绩,从中发现了影响考试成绩的一些隐藏信息,得到的结论对于提高学生的考试通过率和教师今后的教学起着指导作用。
关键词:数据挖掘;等级考试;关联规则
中图分类号:TP3911 文献标识码:A 文章编号:1009-3044(2015)13-0014-02
Abstract: Analysis of data mining technology the National computer grade examination results of Vocational Colleges, Some of the hidden information that has been found to affect the results of the exam is found. The conclusion is of guiding function for improving students' examination pass rate and teachers' future teaching.
Key words: data mining; grade examination; association rules
1 引言
随着计算机技术的不断发展,越来越多的高校开始重视计算机应用基础课程的教学,《计算机应用基础》作为一门必修的公共基础课,很多高职院校对该课程的考核不再是采用单一的期末考试,而是把计算机等级考试成绩列为对考核学生该课程的重要内容和对教师教学效果的评价依据。以笔者所任职的学院为例,学院将全国计算机等级考试一级的通过率作为考核学生的《计算机应用基础》课程的成绩,而且该证书也得到了很多用人单位的认可,也成为了学生毕业找工作的一个敲门砖,因此学院非常重视。鉴于各种原因,学生的通过率普遍不高,事实上,影响学生考试通过率的原因很多,本文就该问题引入了数据挖掘技术,目的是从中找到影响学生成绩的各种关联因素,以此来制定整改措施,为后续的教学活动提供参考,从而提高学生计算机等级考试的通过率。
2 数据挖掘技术
数据挖掘技术是从海量的、不完整的、模糊的、有噪声的以及随机的原始数据中搜索出隐含在其中的,之前未知的而具有利用价值的信息的过程。如何对一些直观的或隐含的海量数据进行分析,并且发现各数据间存在的联系,提取出有用的模式,用以指导实际工作是数据挖掘技术的关键所在。由于数据挖掘技术的优越性和不断成熟,目前该技术已经广泛应用到商业决策、生产控制、工程设计和金融业等多个领域。
数据挖掘的分析方法有多种,关联规则分析、聚类规则分析、预测分析、分类规则分析等都是常用的挖掘方法。
数据挖掘的过程包括以下几步:首先对数据进行收集和预处理,对其进行消噪,去掉错误或冗余数据等处理,使之成为目标数据,为下一步的操作做准备,同时要确定挖掘方法;然后是数据变换,根据之前的挖掘算法建立分析模型;接下来是数据挖掘和模式评估,将上一步得到的经过变换后的数据进行挖掘;最后是结果分析和知识同化,解释并评估结果,将分析后得到的知识应用到实际的案例中。在数据挖掘整个过程中,牵涉到了前期大量的准备与规划工作,几乎有80%的时间和精力花费在了数据的预处理阶段,而且数据预处理阶段得出的数据质量的高低也直接决定了挖掘后的结果。因此,在进行数据挖掘分析之前,还是很有必要做好前期的准备工作。
3 数据挖掘技术在计算机等级考试成绩分析中的应用
本文挖掘的数据来源于作者所任教学校的几次全国计算机等级考试一级成绩。由于每次考试都产生几千条数据,久而久之,大量的数据存储在教务系统中,并没有得到充分的利用,如何利用好这些数据为以后的教学提供服务是数据挖掘的目的所在。在数据挖掘之前,需要对数据进行清理,比如对于一些缺考的学生,还有一些因漏答造成数据不完整的记录等都需要将其清除掉。
3.1应用关联规则分析教师的教龄、职称、评教情况在计算机等级考试成绩中的影响
关联分析是在当前教学活动中使用很频繁的有效的方法。它用于发现数据库中数值之间的相关性,从中找寻一些潜在的有用信息用于指导以后的教学工作。目前比较常用的关联分析方法有关联规则和序列模式。比如从海量的超市购物数据中发现有趣的关联关系,可以帮助商家进行改变营销策略,如促销的时机、交叉销售、货架商品的摆放设计等。
对于某些高职院校,由于取消了单一的期末考试,往往将学生英语过级和计算机等级考试的通过率作为评价教师教学效果的依据。通过运用关联规则来分析学生的考试成绩,挖掘出一些可能会影响学生过级率的一些相关因素,对今后的教学过程起着重要的指导作用。现将我院计算机等级考试成绩进行如下分析:
随机抽取本院担任计算机教学的教师信息和学生计算机等级考试成绩集成教师教学综合信息表。然后将教师的教龄、职称、评教情况、所教授对应学生的成绩录入数据库中,其他信息不做处理。为了简化分析,接下来需要将数据进行抽象和离散化处理。优秀的为3(90~100),良好的为2(80~89),及格的为1(60~79),不及格的为0(0~59)。教龄分为四个阶段,分别用A1(1-5)、A2(6-10)、A3(11-20)、A4(21-30)表示,职称分别用B1(初级)、B2(中级)、B3(副高)、B4(正高)表示,评教情况分别用C1(好)、C2(一般)、C3(较差)表示,D1(3,2,1,0)分别表示考试成绩的等级。
数据经预处理后的视图如下:
根据关联规则算法,先预设最小支持度以及最小可信度,得到如下结论:教师的教龄和职称对于过级率的影响并不直接,而跟教师的评教情况却不无关系,教师的评教情况越好,对应的学生考试成绩也就越好。因此,通过及时反馈学生对教师的教学评价,来加强教师的教学质量,对提高学生等级考试成绩是非常重要的。
3.2 应用聚类算法对等级考试试题进行分析
众所周知,计算机一级考试题型有以下6种:选择题、Windows7操作题、文字处理、电子表格、演示文稿和网络操作题。在这里将采用聚类算法中的K-Means算法对这6个属性间的聚类分析进行挖掘。
为了更好地进行聚类分析,首先需要对数据实行标准化。在实行标准化时需遵循的原则是:将每个题型的实际得分数除以该题型的总分,如对于文字处理题,某考生得分为20分,文字处理题的总分为25分,20/25=0.8。同样的方法,由此得到最终的标准化值范围是[0,1]。其次是对数据进行聚类分析,传统的K-Means 算法采取的是随机选择初始聚类中心的原则,这就使得不同的初始聚类中心会造成聚类结果的差异和不稳定。为了使聚类结果具有更好的稳定性,现将学生的考试成绩分布情况大致分为优秀、良好、及格和不及格4个等级。通过不同的等级来确定该等级的初始聚类中心。最后是对生成的聚类结果进行分析。例如学生在网络操作题上普遍得分率较高,在电子表格处理题上面得分率较低。通过分析教师能够直观的了解学生对各知识点的掌握程度,便于以后在实际的教学中做出针对性的改进。同时,教师也可根据各类学生的学习特点做合适的指导,调整教学方法及相应内容,从而帮助学生顺利通过考试。
3.3 应用分类算法分析影响计算机等级考试成绩的其他因素,如有无计算机基础、平时上机作业成绩、是否参加了考前培训、学习兴趣等
所谓分类是对一个事件或者一组对象依据他们本身的特性来进行分类。分类的目的是找到一组能够科学地描述数据典型特征的模型。以便将来能够识别未来数据的类别或归属。使用分类模型不但可以分析现有的数据,而且可以预测未来。分类和预测作为两类主要的预测问题,根据它们的不同分别用于离散数据和连续数据的预测。对于影响计算机等级考试成绩的诸多因素以及数据的特点,将应用分类算法来对其各种影响因素来进行分析。分析的流程为:首先,采集数据,主要包括的数据有以下几个方面:学生基本信息(学号、姓名、性别、院系、班级);学生的学习情况信息(有无计算机基础、是否参加了考前培训、学习兴趣等);这些信息主要是通过对学生的问卷调查来获得,成绩(平时上机作业成绩、等级考试成绩)。其次,对获取的数据预处理。在预处理之前需要对数据进行集成和清理,这一步的目的是为了填补一些遗漏的数据,从而有利于将上述收集到的各种数据通过数据库技术生成一个标准的学生成绩数据库。然后就是数据转换,即对数据进行离散化操作。接着是数据消减,其目的是缩减挖掘数据的规模,但前提条件是不能影响最终的挖掘结果。最后是进行数据分类挖掘并产生分类规则。通过上述的几个步骤可得出哪些因素是影响了学生考试成绩的。
如IF平时上机作业成绩=优秀 AND有无计算机基础=有AND参加考前培训=是 THEN 等级考试通过率=96%
IF平时上机作业成绩=良好 AND有无计算机基础=有AND参加考前培训=是THEN 等级考试通过率=75%
IF平时上机作业成绩=及格 AND有无计算机基础=有AND参加考前培训=无 THEN 等级考试通过率=50%
…
4 结束语
本文利用了数据挖掘技术中的关联规则分析、聚类算法和分类算法对全国计算机等级考试一级成绩进行了分析,科学、客观地找出了影响考试成绩的一系列因素。其分析结果可以帮助学生发现《计算机应用基础》这门课程的某些薄弱环节,对于以后提高学生的考试通过率提供了帮助。同时对于教师今后的教学方法的改进和学院对于等级考试的相关工作也起着指导作用。
参考文献:
[1] 刘芳,林海霞.数据挖掘技术在高校计算机等级考试成绩分析中的应用[J].广西轻工业,2008(11).
[2] 曾旭,司马宇.K-Means算法在计算机等级考试成绩分析中的应用[J].软件导刊,2012(12).
[3] 袁小玲,李瑞. 数据挖掘技术在高职院校学生成绩管理中的应用分析与探究[J].网络与信息工程, 2014(13).