APP下载

基于数据挖掘的专业人才培养方案课程相关性研究

2022-02-20周剑云施秋萍唐秀忠

电脑知识与技术 2022年34期
关键词:关联规则数据挖掘人才培养

周剑云 施秋萍 唐秀忠

摘要:随着教育信息化的迅速发展,以及国家对高等教育高质量发展的进一步要求,人才培养质量评价的方法和技术手段的科学化和信息化在不断增强。文章通过数字媒体技术专业的人才培养方案的课程相关性分析,发现专业主要课程的相关性信息,对专业主干课程为一线教师和教学管理者提供了一种方法和思路借鉴,从而不断促进我们的教育教学水平和人才培养质量不断提升。

关键词:人才培养;课程;数据挖掘;关联规则

中图分类号:G642        文献标识码:A

文章编号:1009-3044(2022)34-0068-03

1 引言

“十三五”期间,我国已建成世界规模最大的高等教育体系,并提出了“双一流”建设要求。进一步推动了各高校更加关注学科建设。而专业建设是学科人才培养的基础,学科建设是专业持续发展的动力。可以说专业建设是高等学校最重要的教学基本建设,是教学工作中的重要生命线[1]。专业建设决定着人才培养的格局与办学水平,对高等学校的改革与发展具有深远的影响。

本文以本校数字媒体技术专业学生大学期间所上专业基础课程、专业主干课程成绩为数据对象,来示例分析专业人才培养方案中主要课程的相关性,从而为专业负责人和学院专业建设提供参考和决策支持。

2 相关技术

2.1 数据挖掘技术

随着教育信息化的普及,教学过程管理产生了大量的数据,需要通信息技术把这些海量数据中蕴含的信息挖掘出来,帮助我们更好地开展教育教学管理和改革,从而数据挖掘技术在教育系统也得到了广泛应用。

数据挖掘即指的是从数据准备到结果分析的一个完整的过程,该过程从大量数据中挖掘先前未知的、有效的、可使用的信息,并使用这些信息做出决策或丰富知识。数据挖掘按挖掘指导方法可分为有指导数据挖掘和无指导数据挖掘。有指导数据挖掘是利用可用的数据建立一个模型,这个模型是对一个特定属性的描述。无指导数据挖掘是在所有的属性中寻找某种关系。数据挖掘按功能来分,常见的有分类、估值、预测、关联规则、聚类等,也即分类、估值和预测属于有指导的数据挖掘;关联规则和聚类属于无指导的数据挖掘[2]。随着信息技术、大数据技术的发展,数据挖掘已不只这些。

分类,它首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘技术,建立一个分类模型,再将该模型用于对没有分类的数据进行分类。估值,与分类类似,但估值最终的输出结果是连续型的数值,估值的量并非预先确定。估值可以作为分类的准备工作。预测,是通过分类或估值来进行,通过分类或估值的训练得出一个模型,如果对于检验样本组而言该模型具有较高的准确率,可将该模型用于对新样本的未知变量进行预测。聚类,是自动寻找并建立分组规则的方法,它通过判断样本之间的相似性,把相似样本划分在一个簇中。关联规则,其目的是发现哪些事项总是一起发生。

2.2 数据挖掘工具之——Weka

Weka (Waikato Environment for Knowledge Analysis) 即怀卡托智能分析环境,是新西兰怀卡托大学基于JAVA环境下开源的机器学习(machine learning) 以及数据挖掘(data mining) 的著名开源软件,该系统自1993年开始由新西兰政府资助,至今已经历近30年的发展,其功能已经十分强大和成熟。它包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。

3 研究示例

数据挖掘过程主要包括:数据获取、数据预处理、模型建立、整体分析归纳[3]。本文数据直接从教务系统导出2016级数字媒体技术专业学生大学四年所修的10门主要专业基础课、专业必修课成绩作为研究对象。以此分析过程为专业人才培养课程相关性研究提供分析参考。

当得到原始数据之后,就需要对数据进行预处理,为后续建模奠定基础。

3.1 数据预处理

预处理包括数据清理、数据变换和特征描述等。总体目的就是去除无效数据、不规范数据、错误数据,补齐缺失数据,对数据范围、量纲、格式、类型等进行统一化处理,以便进行后续计算[5]。

对于初步获取的数据,首先需要去除那些与最终分析不相关的字段列,如学生类别、姓名、性别、班级等,保留学号、课程号、成绩值并删除那些缺考或是多次重修的成绩,保留所选的10门课程每名学生有一条记录。然后,为了分析课程之间的相关性,需要把数据转置为每名学生所修的全部课程为一条记录。最后由于关联分析需对数据进行离散化处理,处理数据对照表1,最终我们得到如表2的成绩数据,其中sNO是学号,其他列的列名是课程号。

3.2 课程相关性挖掘

将预处理得到的Excel数据另存为CSV格式文件,选择Weka数据挖掘软件导入数据。这里我们还需要注意一定要把数值型(Numeric) 数据转换为常规(Norminal) 数据,方法为选择Preprocess页的Filter组,点击Choose按钮选择NumericToNorminal选项,如图1。

關联规则分析,选择Associate选项卡进行挖掘算法选择,这里我们选择经典的Apriori算法进行关联规则(Association Rule) 分析。该算法主要分两步进行:第一步,生成所有的频繁项目集。一个频繁项目集(Frequent Itemset) 是一个支持度高于最小支持度阀值(min_sup) 的项目集;第二步,从频繁项目集中生成置信度大于最小置信度阀值(min_conf) 的规则。支持度和置信度是衡量关联规则强度的两个重要指标,他们分别反映着所发现规则有用性和确定性。例如最经典的关联规则的例子:婴儿尿不湿-->啤酒(支持度=10%,置信度=70%) ,这个规则是说,在所有顾客中,有10%的顾客同时购买了婴儿尿不湿和啤酒,而在所有购买了婴儿尿不湿的顾客中,有70%的人同时还购买了啤酒。在Weka中对Apriori算法设置的参数可参照表3。

可反复尝试设置最小支持度和最小置信度阈值,以发现最精练和有意义的规则。本文这里设置最小支持度0.3,最小置信度0.9,得到以下5条规则,如图2。若最小支持度0.2,最小置信度0.9,得到规则,如图3。

3.3 挖掘结果分析

在规则中课程号310200102是概率论与数理统计,14060093是绘画基础,618100603是计算机网络基础,618100902是广告策划与创意,618100803是计算机图形学,618101503是计算机平面设计。通过挖掘结果可以反映出:

1) 从选择的10门专业主要课程中,以上6门的相关性较高。

2) 课程之间,可以发现,若学生概率论与数理统计学不好,那计算机网络基础课程成绩只是勉强及格的概率也极高。而绘画基础课程成绩好的同学,广告策划与创意课程和计算机图形学课程成绩一般也较好。

3) 课程群,可以发现,要重点注意概率与数据统计、计算机网络基础两门课程之间;绘画基础、广告策划与创意、计算机图形学三门课程之间。

因此,对于该专业的人才培养方案中,要高度重视这几门课程的安排。重视对课程的学期设置,即前导课与后续课程关系的安排,以提升专业课程结构设置的合理性。同时,要求相应课程教师,注意关联课程中学生成绩状况,采取一定的改进措施,促进学生学业成绩提升。

4 结束语

在教育信息化日益发展的今天,诸多研究都表明,教师和学校决策者对数据的有效利用可以促使学生获得更高的学业成就,促进学校教学水平提升[6-10]。作为一线教师和教育工作者都需要掌握教育支持方法和分析工具,例如数据挖掘方法,开源的Weka工具等,通过了解并熟悉分析教育过程数据的方法,再借助方便的分析工具,对广大教师和教学管理者都是一种极大的教育教学能力提升,从而不断提高我们的教育教学水平和人才培养质量。

参考文献:

[1] 胡钦太,伍文燕,冯广,等.人工智能时代高等教育教学评价的关键技术与实践[J].开放教育研究,2021,27(5):15-23.

[2] 张曾莲.基于非营利性、数据挖掘和科学管理的高校财务分析、评价与管理研究[M].北京:首都经济贸易大学出版社,2014.

[3] 叶福兰.数据挖掘技术在教学质量监控中的应用[J].福建电脑,2020,36(6):102-105.

[4] 高铁刚,杜娟,王宁.学校智慧教育生态建设研究[J].中国电化教育,2021(12):26-32.

[5] 廖宣植.数据挖掘在医学高校课程关联和成绩预测上的应用[J].信息与电脑(理论版),2019(2):154-156.

[6] 冯仰存.数据驱动的教师教学决策研究综述[J].中国远程教育,2020,41(4):65-75.

[7] 付达杰.教育大数据对教学决策的影响及优化策略[J].湖北成人教育学院学报,2018,24(2):90-93.

[8] 管珏琪,孙一冰,祝智庭.智慧教室环境下数据启发的教学决策研究[J].中国电化教育,2019(2):22-28,42.

[9] McNaughton S,Lai M K, Hsiao S.Testing the effectiveness of an intervention model based on data use: A replication series across clusters of schools[J]. School Effectiveness and School Improvement, 2012,23(2):203-228.

[10] Schildkamp K,Ehren M.From “intuition”- to “data”-based decision making in Dutch secondary schools?[M]//Data-based Decision Making in Education.Dordrecht:Springer Netherlands,2013:49-67.

【通聯编辑:王力】

猜你喜欢

关联规则数据挖掘人才培养
基于并行计算的大数据挖掘在电网中的应用
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究