基于关联规则的计算机等级考试成绩挖掘研究
2021-12-18全同贵
全同贵
摘要:随着大数据时代的快速发展,数据挖掘辅助教育决策成为了热门的研究课题。全国计算机等级考试,积累了大量报名、学习、考试相关数据。该文基于湖南省某高校2247个学生真实的数据,采用Clementine数据挖掘工具中的Apriori模型,进行学生成绩关联规则数据挖掘;研究结果表明,学生参加考前操作考试训练、课前观看视频预习对提高计算机过级成绩至关重要。研究进一步发现学生程序学习兴趣度对过级成绩有较弱的影响。本来兴趣应该是强关联项,可是在应试教育下,目标才是学生学习的压力,动力来自压力。这为深化素质教育改革提供了参考依据。
关键词: 数据挖掘;关联规则;NCRE;数据仓库
中图分类号:G642 文献标识码:A
文章编号:1009-3044(2021)30-0041-03
Research on Mining Computer Rank Examination Score of College Students Based on Apriori Model
QUAN Tong-gui
(Hunan University of Medicine, Huaihua 418000, China)
Abstract: With the rapid development of the era of big data, data mining has become a hot research topic in the decision-making of supplementary education. National computer level examination, accumulated a large number of registration, study, examination-related data. Based on the real data of 2247 students in a university in Hunan Province, this paper uses the Apriori model in the Clementine data mining tool to do data mining on the rules of student achievement association. The study further found that students' interest in program learning had a weak effect on grade achievement. Originally, interest should be a strong correlation, but in test-based education, the goal is the pressure of students to learn, motivation from pressure. This provides a reference for deepening the reform of quality education..
Key words: data mining; association rules; NCRE; the data warehouse
1 引言
数据在当今信息化时代以几何级数爆炸增长,面对海量积累的历史数据[1],如何发现隐藏其中的有用的规律、规则、模式、约束等知识,以服务于决策,数据挖掘 (Data Mining, DM) 因运而生,它是通过一定算法从海量数据中发现隐藏的模式和知识的过程[2], 自诞生以来,在国内外迅速发展,方兴未艾,正逐步解决从海量的历史数据中挖掘知识为科学决策服务,在银行、医疗、教育等领域已得到了广泛的应用[3]。
全国计算机等级考试,积累了大量报名、学习、考试相关数据。如何利用这些数据分析出影响学习效果的主要因素,以期帮助学校管理者调整决策、老师改进教学、学生明确不足是一个非常有意义的研究问题。数据挖掘运行在数据仓库的平台上[4]。本研究首先建立学生成绩数据仓库结合高校教务管理系统学生成绩相关数据库、调查问卷、拷贝相关文件、整理历史资料等多个异构数据源,补全数据。在已有数据仓库的基础上,基于湖南省某高校2247个学生真实的数据,采用Clementine数据挖掘工具中的Apriori模型[5],进行学生成绩关联规则数据挖掘,实验表明:⑴全体学生中48.865%的学生观看了视频预习、参加考前操作考试训练且通过了过级考试。观看了视频预习且参加考前操作考试训练的学生99.636%通过了过级考试。⑵全体学生中58.879%的学生参加了考前操作考试训练且通过了过级考试。参加考前操作考试训练的学生96.145%通过了过级考試。⑶全体学生中57.677%的学生观看了视频预习且通过了过级考试。观看了视频预习的学生92.901%通过了过级考试。是否参加考前操作考试训练、是否课前观看视频预习对提高计算机过级成绩至关重要。在全国高校促进大学生自主学习具有很好的推广意义
2 学生成绩数据仓库构建
2.1 数据采集
犹如巧妇难为无米之炊,没有数据采集就不能做数据预处理。本文中,学生基本信息:学号,教师号,课程号,姓名,身份证号、平时成绩、应用基础成绩直接来源于教务管理系统。VB过级成绩由省教育厅考试中心下发。诸如算法初步高考题是否得分、是否课前观看教学视频预习、程序学习兴趣度、是否参加题库训练、是否购买资料等等,通过调查问卷获得,并及时输入电脑。课外上机时间,每个学生都有一个账号,在多媒体阅览室复制每个学期末的汇总数据。教师基本信息:教师号,课程号,教师姓名,职称,学历,授课班级号等,来源于教务系统。课程基本信息:课程号,教师号,课程名称,课程类型,学分等,同样来自教务系统。关于调查问卷的统计工作,为了节约时间,使表格填写规范,尽量减少缺失值与噪声数据,用Excel编制调查问卷表,由任课老师利用上计算机实验课时间在学校机房的局域网上组织学生填写。为了避免学生随心所欲填写调查问卷,利用Excel数据有效性检查,将Salgorithm、Sview、Strain、Sbuy设置成选择序列“是/否”,Sxqd设置为选择序列“爱好/一般/反感”,这样可以有效地避免了无效数据的产生。
2.2数据清洗
教务管理系统积累的数据以及外界补充的数据,来源不同,具有不完整性和不一致性,可能有缺失值,或者含有噪音,不能直接进行数据挖掘。数据清洗是获得高质量数据的必经之路,是数据挖掘的前奏[6]。以数据缺失处理为例处理具有大量缺失值的列的方法是直接删除。通过Clementine的Filter节点把具有大量缺失值的字段Salgorithm过滤掉。操作界面如图1所示,运行结果如图2所示。
2.3 数据集成
使用Clementine对数据库中学生成绩做数据集成。以集成具有相同结构的两个表的记录合并为例,把全校以班为单位的工作表文件合并成一个总文件。Clementine操作节点设计界面如图3所示,运行结果如图4所示,此时记录数为60,字段数不变。
3 学生计算机等级考试成绩挖掘
3.1 提出问题
制约学习成绩好坏的因素有哪些?
1)兴趣是学习的动力,对程序设计感兴趣,是否意味着计算机等级考试稳操胜券呢?
2)是否购买教育部考试中心指定的教材、资料,影响学生过级吗?
3)是否在课前观看计算机新课教学视频预习,影响过级吗?
4)是否参加考前操作考试训练,影响过级吗?
5)女生编程学习不如男生,所以女生考试通过率低,对吗?
想要回答这些与学生成绩相关的问题,仅仅靠统计手段是很难回答问题的,必须借助于数据挖掘技术。关联规则数据挖掘对大量样本进行关联分析后得到的强关联规则可以探讨性地回答上述问题。
3.2 学生成绩挖掘方案与步骤
大学生计算机等级考试成绩挖掘的方案以教务系统数据库为基础,通过调查问卷、复制相关数据文件等措施,补充完善数据,建立健全学生成绩数据库。以学生成绩数据库为对象,应用SPSS Clementine 12.0 中的Apriori模型作为数据挖掘工具[7],对影响成绩的几个可能的因素进行关联分析,找出强关联规则,指导教学活动。
1)确定分析对象与目标。本实验确定讨论“算法初步高考题是否得分字段Salgorithm”“程序学习兴趣度字段Sxqd”“是否购买教材资料字段Sbuy”“是否在课前观看教学视频预习字段Sview”“是否参加考前操作考试训练字段Strain”“性别字段Ssex”共五个因素对“是否过级字段Spass”有没有强关联关系。
2)数据准备。经过数据采集、数据预处理建立学生成绩数据仓库。选择湖南省某高校2247个学生的统考成绩,数据预处理后得到供关联分析的文件2012ncreA.xls。
3)选定模型。从Clementine提供数据挖掘模型中选择Apriori模型。
4)建立模型。
3.3 模型评估与挖掘结果分析
根据建立好的模型,把Salgorithm、Sxqd、Sbuy、Sview、Strain、Ssex六个字段的方向设为In,把Spass字段设为Out,其余无关字段设为None。设置Apriori结点模型参数Min_sup=40%、Min_conf=75%如图5所示,执行数据流,得到可视化结果。如图6所示。
从图6可视化挖掘结果输出关联规则可以得出如下结论:
结论1:全体学生中48.865%的学生观看了视频预习、参加考前操作考试训练且通过了过级考试。观看了视频预习且参加考前操作考试训练的学生99.636%通过了过级考试。
结论2:全体学生中58.879%的学生参加考前操作考试训练且通过了过级考试。参加考前操作考试训练的学生96.145%通过了过级考试。
结论3:全体学生中57.677%的学生观看了视频预习且通过了过级考试。观看了视频预习的学生92.901%通过了过级考试。
调整Apriori结点模型选项设置,将Min_sup降低到32%,Min_conf不变,执行数据流,得到一个新的关联规则,Salgorithm^Strain Spass,Support=33.912%,Confidence=96.457%如图7所示,可得出如下结论:
结论4:全体学生中33.912%的学生算法高考题得分、参加考前操作考试训练且通过了过级考试。算法高考题得分且参加考前操作考试训练的学生99.636%通过了过级考试。
调整Apriori结点模型选项设置,将Min_sup降低到28%和10%,Min_conf不變。执行数据流,得到一个新的关联规则,如图8所示,可得出如下结论:
结论5:“程序学习兴趣度”对过级成绩有较弱的影响。
结论6:性别和“是否购买资料”是不会影响过级的。
3.4 挖掘结论
结论1~3充分说明:是否参加考前操作考试训练、是否课前观看视频预习对提高计算机过级成绩至关重要。对于操作考试训练,很多同学临考前,重理论,轻操作,是考试挂科的一个重要原因。纸上得来终觉浅,要知此事须躬行。应让学生在学习过程中充分认识到程序设计是一门理论和实践并重的学科。同时,要注意循序渐进。平时只听课,不参加操作考试训练,临考前匆匆忙忙做几套卷,是不会侥幸过关的。
结论4:“算法高考题是否得分”对过级成绩有一定的影响。由于大学程序设计教学实行的是零起点教学,“算法高考题是否得分” 对过级成绩影响应该不大。结论有一定偏差。究其原因,“算法高考题是否得分”很可能是间接反映了学生的学习能力,从而对过级成绩有一定影响。或者,数据在调查问卷填写时,出现偏差。通过这个问题,拓宽来看中国的计算机教育,小学信息技术课与中学脱节,中学计算机教学与大学不接轨,浪费了中国青少年多少宝贵的青春年华。能否在大学程序设计课的教学计划里,安排几个课时,先复习中学所学的算法初步,教学承前启后,不再做没有意义的重复教学,留出时间多训练一下学生的编程技能。
结论5:“程序学习兴趣度”对过级成绩有较弱的影响。本来,兴趣是学习成绩的强关联项,可是在应试教育下,目标才是学生学习的压力,压力转化为动力。这个结论说明:我们的大学计算机教学及过级考试仍然是典型的应试教育模式。这个研究结论为深化中国素质教育改革提供了理论参考依据。
结论6:性别和“是否购买资料”是不会影响过级的。这很好地回答了两个问题:⑴女生不用担心性别差异影响计算机学习,造成不必要的心理恐慌。⑵在多媒体学习的时代,应当尽量少用纸质教材、资料,多建设共享的电子教材,逐步取消纸质书籍,允许学生自主选择购买教材,把高年级学生的教材回收再利用。
4 总结
本文以教务管理系统为基础,采用调查问卷、从学生档案管理系统转录、复制学生课外上机记录数据库、收集省教育厅考试中心转发的历届NCRE考试成绩表文件等形式建立健全学生成绩数据库,经数据清理和集成后,创建学生成绩分析数据仓库。然后根据数据仓库中的相关数据选择可能影响学习成绩的因素六个:课前是否看视频预习、是否参加考前操作卷的训练、算法初步高考题是否得分、性别、兴趣度、是否购买资料,以基于关联规则的数据挖掘算法对2247名学生的计算机等级考试成绩进行挖掘,探讨了影响学生成绩的因素。实验分析结果可以作为教师教学过程的指导和学生学习过程的建议。基于数据挖掘的影响学生成绩因素的分析研究还存在很多问题。在今后的研究中,进一步完善学校成绩数据仓库的建设, 为每个学习者建立画像,尝试更多的数据挖掘方法以达到能更好的为教师提供教学反馈,为学习者提供学习反思。
参考文献:
[1] 米允龙, 米春桥, 刘文奇. 海量数据挖掘过程相关技术研究進展[J]. 计算机科学与探索,2015,9(6):641-659.
[2] 王丽珍, 周丽华, 陈红梅. 数据仓库与数据挖掘原理及应用[M]. 北京:科学出版社,2009.
[3] 毛晓菊. 基于模糊关联规则的海量数据挖掘方法研究[J]. 微电子学与计算机, 2018,35(2):89-93.
[4] 李雯娟, 曾照芳, 陈睿. 基于医学信息数据仓库模型的数据挖掘[J]. 生物信息学, 2009,7(2):146-149.
[5] 朱晴. 融合关联规则挖掘算法的信息化教学管理系统设计[J]. 现代电子技术, 2020,43(23):159-163.
[6] 张婷婷. 基于关联规则数据挖掘技术在音乐分类中应用[J]. 现代电子技术, 2020,43(1):99-101,106.
[7] 张静端. 基于Clementine的数据挖掘技术对学科隐形关联的研究——以东华大学纺织学科为例[J]. 现代情报, 2013,33(9):145-149.
【通联编辑:王力】