基于ADriori算法的课程关联性分析研究
2022-04-29方林于燕平
方林 于燕平
关键词:数据挖掘;Apriori算法;专业设置;关联性分析
1引言
随着“互联网+”时代的到来,各行各业高速积累的数据流填满了每个社会参与者的时空环境,挖掘海量数据中的有用信息是各行各业研究者孜孜不倦的追求目标。本文利用Apriori算法对铁道供电技术专业学生往年的成绩数据进行数据挖掘,找出各课程之间的关联性,为科学规划和设置专业课程体系提供参考依据。
2研究背景
铁道供电技术专业旨在培养从事电气化铁道供电系统及其设备的运行、检修、维护与施工等的高素质技术技能型人才。开设公共基础课、专业基础课、专业核心课、专业主干课、专业限选课等5类课程,其中专业核心课是铁道供电技术专业课程体系中最核心、最重要的课程,专业基础课是为专业学习奠定必要基础的课程。即便近年来专业课学时一再地缩减,这两类课程的学时也维持不变或少量增长,由此也说明专业基础课和专业核心课在专业人才培养中的重要性。
专业课程设置遵循专业建设指导委员会的意见和建议,但在课程落实到具体专业后,各专业也会根据本专业师资、实验实训条件等适当调整课程学时、学分等,而调整的依据一般仅依靠本专业教师的经验,缺乏科学依据。本文的研究目的是通过对铁道供电技术专业的基础课程和专业核心课程成绩的数据挖掘,发掘出专业核心课与专业基础课潜在的关联性,为课程建设、专业人才培养方案的制定等提供更科学的决策依据。
3Apriori算法
Apriori算法是挖掘产生布尔关联规则所需频繁项集的基本算法。该算法利用了一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k项集来产生k+1-项集,即首先找出频繁1项集,记为Li;然后利用Li来挖掘L2,即频繁2一项集;不断如此循环,直到无法发现更多的频繁项集为止。挖掘出所有的频繁项集后,产生满足最小支持度和最小信任度的强关联规则。
Apriori算法可分为两个步骤:(1)通过迭代,检索出数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;(2)利用频繁项集构造出满足用户最小信任度的规则。
4基于Apriori算法的课程关联性分析
4.1数据准备
本次研究采集了柳州铁道职业技术学院2016级、2017级铁道供电技术专业6门课程的学生期末成绩,其中包含2门专业基础课,4门专业核心课。因为数据库中的学生成绩是以数值形式表示的,不便于进行数据挖掘,所以需要对各科成绩进行离散化处理。本文采用了以下两个步骤进行数据预处理。
(1)以离散字符替代课程名称。以离散字符D1,D2,D3,D4,D5,D6分别替代表示“电路分析与测试”“电子技术基础”“变电所运行与维护”“电力线路运行检修与施工”“接触网运行检修与施工”“电气化铁路供电系统运行与管理”六门课程。
(2)对连续型数据进行离散化分类。设定90分以上为优秀,70~89分为良好,60~69分为合格,60分以下为不合格。将以上分段分别以A-优秀、B-良好、C——合格、D-不合格四个等级替代表示。经过预处理后的学生成绩如表1所列,其中学生总人数为275人,分别对应275条记录。
4.2结果与分析
4.2.1挖掘结果
本文采用Microsoft SQL Server 2008软件进行数据挖掘,将预处理好的、已满足Apriori算法要求的数据导人,即可直接使用Apriori模型进行分析。关联规则如表2所列。
通过挖掘分析,分别获得:(I)D1-D2;(2) D1,D2-D3,D4,D5,D6;(3) D3,D4,D5-D6的关联规则表,如表3~表5所列。
4.2.2结果分析
挖掘的关联规则并不是所有条目都具有实际意义,接下来我们进一步地对挖掘出的规则进行分析,得出有意义的知识。
(1)学习“电路分析与测试”课程是学习“电子技术基础”课程的基础,如果“电路分析与测试”课程学习基础打不好,在学习“电子技术基础”课程时就会受影响较大。
在表3中,D1电路分析与测试=D-D2电子技术基础=D,支持度0.517,置信度0.6458。电路分析与测试和电子技术基础同时是D的概率为51.7%,电路分析与测试为D中64.58%的人电子技术基础也为D,说明如果“电路分析与测试”课程基础未打牢,“电子技术基础”课程也较难学好。
(2)学好“电路分析与测试”“电子技术基础”两门专业基础课是学好专业核心课(“变电所运行与维护”“电力线路运行检修与施工”“接触网运行检修与施工”)的基础。如果专业基础课基础打不牢,也会影响后面专业课的学习。表4数据说明,“电路分析与测试”和“电子技术基础”课程学不好,51.61%的人可能也学不好“电气化铁路供电系统运行与管理”课程。
(3)专业核心课“变电所运行与维护”“电力线路运行检修与施工”“接触网运行检修与施工”的学习与“电气化铁路供电系统运行与管理”的学习关联性较强。
从表5可以看出.D6电气化铁路供电系统运行与管理成绩的好坏很有可能与D3变电所运行与维护、D4电力线路运行检修与施工、D5接触网运行检修与施工三门课程成绩有关。D4电力线路运行检修与施工、D3电所运行与维护同时为A,D6电气化铁路供电系统运行与管理也为A的支持度0. 813,置信度0.99894;D5接触网运行检修与施工、D3电所运行与维护同时为A,D6电气化铁路供电系统运行与管理也为A的支持度0.769,置信度0.9462; D5接触网运行检修与施工、D4电力线路运行检修与施工同时为A,D6电气化铁路供电系统运行与管理也为A的支持度0.75.置信度0.9723。这表明前三门课程成绩优异,很有可能电气化铁路供电系统运行与管理课程成绩也优异。但如果D3电所运行与维护、D4电力线路运行检修与施工同时为D,D6电气化铁路供电系统运行与管理也为D的支持度0.8,置信度0.5589; D3电所运行与维护、D5接触网运行检修与施工为D,D6电气化铁路供电系统运行与管理为D的支持度0.72,置信度0.5726。即前三门D3,D4,D5课程成绩不及格,也有可能导致D6课程成绩不及格。
(4)本次挖掘结果表明:选取的2门专业基础课与专业核心课之间存在较强的依赖关系。课程设置时尽可能保持专业基础课的学时、学分不缩减。另外,“电气化铁路供电系统运行与管理”课程的综合性较强,需要以其他课程作为基础,应考虑将其放在其他理论课程学完后的学期进行开设。
5结束语
利用关联规则中的Apriori算法对铁道供电技术专业的2门专业基础课和4门核心课成绩进行关联性挖掘,从而探究各课程之间存在的内在联系,并将挖掘结果应用于该专业课程设置,可以為专业设置提供更可靠的理论依据。后续也可以将该方法应用于专业的其他课程,为专业建设,甚至是学生学习、教师的教学提供更科学的指导。