数据挖掘在高职院校医学生成绩影响因素分析中的应用
2020-07-07张彦张淑芳
张彦,张淑芳
(山东医学高等专科学校,山东 临沂276000)
高等职业教育是高等教育的重要组成部分,是职业技术教育的高等阶段。随着高校招生规模不断扩大,高职院校的学生数量也越来越多。他们的学习素质比起本科院校,生源知识结构参差不齐,基础较差,自制力较弱[1]。而随着科技的快速发展,智能手机普及,大数据潮流来临,影响学生学习成绩的因素也较以前繁多。大数据不仅是一门技术,更是一种全新的模式,利用大数据分析高职院校医学生的成绩影响因素,充分利用数据挖掘[2]、决策树[3]等对学生各门科目、纪律与考勤等日常行为进行研究,分析学生各种学习行为及成绩影响因素,从而使学校领导和一线教师对学生学习和日常管理有的放矢,有效提升高职院校教育教学质量。
1 对象与方法
1.1 研究对象 选取山东医学高等专科学校2017 级大一学生第一学期(2017 年9 月—2018 年1 月)考试理论成绩。成绩科目中,人体解剖学学包括期中和期末理论成绩,组织胚胎学和公共英语期末理论成绩。学生专业包括临床专业18 个班,护理、检验、影像等专业各随机抽取两个班。学生成绩不包括期末实训成绩,只是期中与期末笔试理论成绩,满分100。
1.2 方法 从临床专业18个班中,分析每个班不同分数段的人数,进行班级频数比较,分析每个班级是否符合正态分布、负偏态分布和正偏态分布。再从4个专业(临床、护理、检验、影像)中每个专业各随机抽取两个班,共8个班,以个人为单位进行纵向比较,生成决策树,见图1。
图1 决策树
1.3 统计学处理 应用SPSS20.0 软件进行数据录入分析,包括一般描述性分析,正偏态分布分析。应用数据挖掘中的决策树分析,决策树算法采用改进的C4.5算法并进行决策树修剪生成。
2 结果
2.1 临床专业18个班解剖学期末成绩各班频数比较见表1、图2。
2.2 临床专业男女生平均分比较 见表2。
表1 人体解剖学期末成绩临床各班各分段频数比较
图2 临床17班、10班和14班成绩频数直方图和负偏态分布曲线
表2 临床专业男女生平均分比较(±s,分)
表2 临床专业男女生平均分比较(±s,分)
性别 n 解剖学理论成绩 组胚学期末理论成绩期中 期末女生 483 76.15±9.49 72.67±10.26 67.96±9.78男生 455 67.13±12.51 63.45±13.34 60.10±13.67
2.3 决策树构造及生成
2.3.1 数据收集 学生成绩从2017 级临床专业、护理专业、影像专业和检验专业随机抽两个班,共8个班,431 名学生。学生成绩表中数据由学生信息表和教师信息表两部分组成。学生信息数据中有学号、性别、专业、课程名称、成绩和纪律考勤。教师信息数据中有教师姓名、职称和课程名称。
2.3.2 数据预处理 对采集到的数据进行数据“清洗”,通过数据转换与选择[4],将数据量缩减,如学生的纪律考勤用A 代表良好,B 代表较差;课程类型的属性用A、B、C 分别表示公共课、专业基础课和专业课;教师职称的属性值[5]用A、B、C、D代表教授、副教授、讲师和助教;学生成绩<60为不及格,用C表示;成绩<80 为良好,用B 表示;成绩>80 为优秀,用A表示。
由于学生成绩数据表中的属性个数较多,为了方便决策树模型的建立,选择性别、专业名称、课程名称、纪律考勤和教师职称这五个属性,简化形成训练数据集,作为建立学生成绩分类决策树模型的依据,生成决策树。
2.3.3 决策树模型 本文中对决策属性进行离散化处理,使其适合使用决策树方法。并采用改进的C4.5算法[6],简化计算量和计算复杂度,提升了建树效率。通过对重点数据进行分类,计算并比较每个属性的信息熵及信息增益率[7]。由于“专业名称”的属性具有最高信息增益率,所以被选为测试属性。创建这个节点,并对该节点递归调用上述方法进行分类,创建决策树[8]。当训练数据集中存在有噪声,在尽量忠于源数据的决策规则,必须对决策树进行剪枝。常用的剪枝方法有前剪和后剪。图3 为采用后剪枝法形成的决策树。
2.3.4 生成分类规则 决策树最大的优点就是可以直接提取类规则。将决策树进行广度优先搜索[9],对每一个叶节点,求出从根节点到该叶节的路径,该路径上所有节点的划分条件并在一起,并在每个叶节点生成规则,即构成一条分类规则。由改进的C4.5 算法建好决策树后,可以快速地将决策转换为分类规则,采用IF...THEN 的形式来表达,生成规则,例如,IF“专 业 名 称”=“临 床 专 业”AND 职 称=“助 教”THEN类成绩=“B”
图3 采用后剪枝法形成的决策树
3 讨论
高职院校医学生的成绩管理是高校教务管理工作的基础和核心[9]。传统的大学生学习成绩分析多由授课老师自己完成,将学生的考试成绩做简单排序和分析试卷难度,然后交由教务处存档。在大数据背景下,通过数据挖掘对医学生成绩的各种影响因素进行挖掘,研究找出教学活动过程中哪些因素对学生成绩具有重要影响[10],从而分析和识别出学生成绩的直接影响因素和间接影响因素,实时掌握医学生的学习状况,就可以及时准确的为整个教学活动提供信息反馈,更好的提高教学效果和学生成绩[11]。
通过人体解剖学期末成绩临床各班各分段频数比较(表1)和临床17 班、10 班和14 班成绩频数直方图和负偏态分布曲线(图2)的大数据分析,发现医学生成绩开始呈现负偏态和正偏态分布。例如同是临床专业,某些优秀班级90 分以上可达12 个,80 以上可达10 个,呈现负偏态分布。但是不及格者也可达10个,许多班级成绩呈现两极分化,极大的拉低了班级平均分。而某些极差班级80 分以上没有1 个,不及格的能达到20~25个,班级整体水平都趋于差,呈现正偏态分布。在大数据应用中,分析在一个大教室上课的两个班级成绩存在一定的关联性(我校学生上课大部分是两个班同时合堂上大课),比如,临床9、10、17、18 班,护理13、14 班,检验1、2 班等合堂班成绩偏好,临床13、14班,护理9、10班等合堂班普遍成绩偏差。采用大数据中的决策树生成来深入挖掘其背后隐藏的规则。
通过决策树的IF-THEN 简化规则,通过大数据分析发现对高职院校医学生成绩影响最大的是学生所学专业。如人体解剖学是影像专业的主要专业基础课,在临床、护理、影像和检验四个专业中,影像专业学生的人体解剖期末成绩最高。同理,检验专业的主要专业基础课是组织胚胎学,所以检验专业学生的组胚学期末成绩最高。
通过决策树分析还发现,学生的科目成绩与教师的职称高低并不成正比,但与课程性质是否是公共课、专业基础课和专业课有一定的关系。例如公共课如英语课,讲师和副教授的课业成绩比教授成绩要好;对于专业基础课,副教授职称一般好于讲师的课业成绩;对于专业课,副教授和教授课业成绩差别不明显。决策树还侧面验证了学生班级纪律考勤对成绩也有比较明显的影响因素。决策树分析发现,合堂班级整体学习纪律好,学习风气正,那两个班成绩都很好。反之,合堂班级纪律不好,两个班成绩都比较差,呈现明显的相关性。
综合分析认为,高职院校特别是高职医学类院校,课程繁多,又以记忆类内容为主;影响学生理论成绩的因素很多,但对于大一新生,专业和纪律因素最明显。应针对不同专业情况采取不同措施,尽量在大一就形成良好的班级纪律和学习风气。
综上所述,通过数据挖掘可以把学生日常纪律、选课数据、课堂活动、图书借阅、网上学习、自习室使用频率、实习实训和学生老师评价等进行分析归纳处理[12]。再通过深度数据挖掘,能发现一些没被人注意到,但又是较大程度影响教学质量的因素,如本课题通过决策树分析就发现班级纪律也是影响高职院校医学生成绩的重要因素。所以,数据挖掘能在详细掌握学生学习状况的基础上,获取大量有益信息,还能及时应对学生学习中遇到的问题,分析并做出学生成绩下滑预警、成绩关联预警、学生生活状态波动的危急预警[13]等,对学霸学习规律进行分析和推广应用,为学生全方面发展创造有利条件。