基于数据挖掘的学生考试成绩分析研究
2020-03-26苏晓雨谢文才
苏晓雨 谢文才
武警警官学院 四川 成都610213
引言
军事训练是部队的中心工作,努力提高训练成绩是部队追求的目标,更是基层单位抓的经常性工作。随着部队实战化训练的深入,传统的训练成绩分析方法已不能适应科学组训的需要,无非是得到均值、方差、效度和可信度而已,只能从表面获取部队训练的成效,无法深层次反应训练成绩间的关联与特点,并不能从隐藏的因素中寻找真正影响训练成绩的核心环节。数据挖掘能为决策者提供重要的、极有价值的信息或知识,从而产生不可估量的效益。虽然数据挖掘产品尚不成熟,但其市场份额却正日益扩大,越来越多的大中型企业开始利用数据挖掘来分析公司的数据以辅助决策,数据挖掘正逐渐成为在社会市场竞争中立于不败之地的法宝。为训练成绩的分析提供科学的依据,为改进训练及弱势科目的改进具有重要意义。
1 成绩分析整体方案
科目与科目成绩之间的关系,使用关联规则分析总体流程图为图1所示。
图1 运用关联规则分析流程图
2 Apriori算法步骤
2.1 关联算法过程Apriori算法[1-3]主要利用逐层搜索的迭代方法进行挖掘,其中k项集用于寻找k+1项集。首先通过完整的扫描数据库,累计每个项的出现次数,并收集符合最小支持度的项,找出频繁1项集的集合。该集合记为L1。然后,利用L1找出频繁2项集的集合L2,再次利用L2找出L3,如此下去,直到不能再找出频繁k 项集。找出的每个Lk需要在数据库一次完整的扫描。它可以用于挖掘事件数据集内有价值的、未知的却又实际存在的数据关系,找到这些关系——关联规则,并利用即可达到某些预测功能。算法流程图如图2所示。
图2 运用Apriori算法分析流程图
2.2 挖掘频繁项集具体实现
1.连接步:连接的作用是生成候选K项集。对预先设定的最小支持度,通过对项数为1的候选1项集C1,删除小于最小支持度的项集得到频繁1项集L1;然后L 1由通过与自身连接生成候选2项集C2,保留C2中满足最小支持度的项集,
得到频繁2项集L2;而后由L2与L2连接生成候选3项集C3,保留C3中满足最小支持度的项集得到频繁3项集L 3,如此不断循环,将会得到频繁项集Lk。
2.剪枝步:紧跟着连接步后面的就是剪枝,剪枝的作用通过对比最小支持度,将不满足的项集剔除掉,为下一步的运算缩小搜索空间的范围。因为频繁项集的所有非空子集也是频繁项集,则Lk-1与Lk-1连接生成Ck也是频繁项集。
3.先验性质:频繁项集的所有非空子集也是频繁项集。其流程图如图3所示。
图3 Apriori算法流程图
3 实验结果及分析
采用Matlab语言进行编写,需要将等级用字符代替,其关系表如表1所示:
表1 科目等级与字符对应关系表
挖掘12000条关联规则,如表2所示。
表2 筛选后的关联规则
5 E1→Z2 77.1930% 83.8095% 5 E2→Z2 --6 F1→Z2 49.1228% 91.8033% 6 F2→Z2 18.4211% 95.4545%7 G1→Z2--7 G2→Z2 48.2456% 82.0896%8 H1→Z2--8 H2→Z2 73.6842% 84.8485%9 I1→Z2 5.2632% 85.7143% 9 I2→Z2 74.5614% 81.7308%
得到科目规则关系如图4、图5所示。
图4 单科目优秀与总评良好的规则
图5 单科目良好与总评良好的规则
为提取出多个科目之间对总评的影响,使用主成分分析法将“重要”科目先筛选出来,而后利用Apriori算法进行关联规则分析,选取两个科目进行分析,提取出两个科目与总评成绩的规则如下。通过主成分分析法,得到的两个科目分别为“科目7、科目8”,将两个科目个等级的成绩两两组合与总评良好之间的规则表如表4所示。
表4 科目7、科目8与总评关联规则
由上表可知,可以得到刺杀与擒敌术两个科目的成绩与总评成绩之间的关系,例如:“G2,H2→Z2”表示当刺杀与擒敌都取得良好的成绩时,总评取得良好的成绩的概率为43.8596%。而“G4,H2→Z2”表示刺杀取得及格,擒敌取得良好的情况下,总评良好的概率为28.9474%。其余科目与科目或与总评成绩之间的关系可以在结果中查找并进行分析。
4 结论
本文运用Apriori算法主要在给定支持度与置信度的情况下对科目与科目,科目与总评之间的关联规则的分析,结果较为详实,有较强的参考性。