基于数据挖掘算法的大学生体育学习效果分析
2021-07-23张瑞全
张瑞全
(滁州城市职业学院 体育部,安徽 滁州 239000)
1 引言
在高校教学管理领域,学习成绩以及课堂表现是学习效果分析的主要依据,进而完成学生在体育课、专业课、公共课程方面的学习能力评定,大量的学科成绩为教师教学管理造成困难。伴随信息处理技术以及大数据技术的优化更新,教育者将学生成绩管理寄希望于智能挖掘算法[1],数据挖掘逐渐成为高校学科成绩管理与学习效果分析的有效工具。
数据挖掘用于高校体育的关键意义在于:可以考虑学生体能状况、课堂表现、课后训练等多元化评估指标以全方位、综合性评价学生的体育学习效果,避免学习效果分析的主观性与片面性[2]。数据挖掘相比人工数据处理的效率大幅提高,评价准确度更为精准。数据挖掘的大学生体育学习效果一方面可作为教学质量评价的依据,另一方面向教学管理人员提供优化教学评价模式的决策依据。
为此,本文利用数据挖掘在关联分析领域的优势,提出了一种基于Apriori 算法的大学生体育学习效果分析方法。
2 大学生体育学习数据采集与预处理
2.1 大学生体育学习相关信息采集
大学生体育信息数据采集具有显著的信息化特征,和传统教学中办公软件统计学生成绩的方式相比,大数据技术更加注重教学传感器、教学管理平台等渠道数据的整合。分析大学生体育学习效果所需的数据类型主要包括学生基本信息、体育课上训练情况、体育课后训练情况、体育考核成绩、体育赛事成绩等等[3]。其中,学生基本信息涵盖学生姓名、性别、学号、专业、兴趣爱好、个性等等,这些信息在学生入学阶段就登记在学校教学管理平台,数据挖掘平台通过特殊的数据接口即可与教学平台共享学生基本信息,将有关数据导入数据挖掘平台;学生课上训练情况一般由教师当堂记录并录入教学管理平台,体育竞赛成绩经汇总后录入信息化平台;学生课后训练情况可通过“自主体能训练监测系统”采集,分析处理后发送至教学信息管理平台后台数据库,作为学生体育学习效果分析的依据。所以,此处需要介绍两种关键的大数据采集技术,一是教学信息管理平台,二是自主体能训练监测系统。
2.1.1 教学信息管理平台
利用excel 表格汇总学生成绩实现了数据的长期性存储,但汇总数据、提取关键信息的智能化程度较低,作为教学决策的价值度和利用率不高。教学信息管理平台集成了信息技术、大数据技术的数据处理与分析优势,具有强大的资源整合功能;采用C/S 与B/S 混合性结构作为平台的整体架构,能够处理复杂的数据业务程序,妥善解决多元化决策参与需求,满足独立并行业务的使用需求[4]。平台管理员与平台的交互则由C/S 负责,其优势是高效处理教务人员与平台响应关系,平台管理员在权限范围内可直接向服务器下达指令、获取信息,无需中转,教学信息管理平台结构布局见图1。图1 所示的教学信息管理平台中,应用服务器与数据服务器可以进行交互式信息通信,应用服务器接收数据信息后将信息分为两路传输:一路经防火墙安全发送到教师、学生等各类型客户手中;一路直接由平台管理员接收,以方便对体育教学信息的管理,维护教学数据安全,控制用户的访问资格。
图1 教学信息管理平台结构布局
平台数据库是获得学生体育成绩信息、训练信息、个人基本信息的主要来源,因此数据库设计要符合教学数据日益增长的需求,安全存储数据的同时确保平台稳定运行。利用SQL 技术设计了平台数据库结构,基于E-R 图完成信息类别间的关系描述。
2.1.2 自主体能训练监测系统
本次依托安卓平台、基于多层架构设计了学生自主体能训练监测系统,其硬件设备主要包括加速度传感器、图像传感器、蓝牙通讯模块、训练信息采集模块、信息处理模块等等[5],基于安卓平台的自主体能训练监测系统布局见图2。
图2 自主体能训练监测系统布局
图2 所示系统利用加速度传感器与图像传感器采集学生自主性体能训练过程中的行为数据,如肢体幅度、动作力度等;这些信息一方面通过单片机以蓝牙通讯模式传输到信息处理模块进行原始备份,另一方面经过信息采集模块的集中整合传输到信息处理模块;最终由安卓平台接收处理后的体能训练信息以及原始体能数据。
此系统设计的目的是采集学生自主训练、无教师在场训练的相关数据,作为评价学生体育学习效果的关键数据来源。系统采集训练数据的思路如下:以羽毛球训练活动为例,利用加速度传感器采集学生运动中的加速度数据,基于力学理论与运动学原理求取球拍运动位移、力的大小、运动速度,利用这些数据绘制学生训练曲线,作为评估学生自主体能训练效果分析依据[6];图像传感器负责采集学生训练图像,基于轮廓提取算法分割学生运动特征,总结自主体能训练的要点信息。此外,系统配备了定位模块可实时获取学生训练的地理位置信息,保障了学生自主训练的安全性。自主体能训练监测系统一定程度上确保了无监督学习环境下的训练成效,是优化学生自主运动、自主训练意识的现代化教学辅助设备。
2.2 大学生体育学习信息数据预处理
大数据预处理一般包括数据清洗、集成、变换等步骤,旨在减少数据中的冗余噪声信息、补充缺失数据、删除重复性数据[7]。为提高大学生体育学习效果分析的准确度、降低数据分析难度,采用统一格式表达学生的体育学习效果,以真实可靠的数据为基础才能获得更为精准的体育学习效果分析结论。
导入来源于教学信息管理平台的异构数据,有必要以规范化形式表征数据。例如,学生百米跑成绩表达形式不一,此处对其进行归一化操作,方法如公式(1)所示:
(1)式中,初始百米跑成绩与归一化后的百米跑成绩分别采用xi、表示;成绩上限与下限分别采用xmax、xmin描述。最后以[0.1]间的数据描述学生的体育成绩,统一规范的数据简化了后期的数据挖掘计算过程。
此外,需要删除个人无效成绩、班级无效成绩、已转专业学生信息、休学学生信息等等,然后基于机器学习方法补充缺失数据。此方法分为两个步骤:第一,对统计得到的学生体育初始数据进行相关性分析,目的是获得与缺失数据关联性最大的已知值属性数据;第二,以关联性较大的数据作为训练样本数据,基于神经网络算法构建数据预测模型,以估计学生体育成绩缺失部分[8]。由此预测的学生体育成绩误差较小,科学考虑了学生常规环境下的体能特征、训练成绩,是解决学生成绩数据缺失的良好方式。
3 基于关联规则的大学生体育学习效果挖掘
3.1 关联规则数据挖掘原理
大规模数据集之间的关联可以通过关联规则准确描述[9]。本次大学生体育学习效果挖掘研究通过Apriori 算法实现,其中最小支持度负责寻找数据频繁项集,即高频数据集;最小置信度用于生成符合最小支持度与最小置信度条件的关联规则,且关联规则生成以频繁项集为来源[10]。具体过程如下:
3.1.1 频繁项集确定
频繁项集需要从大量候选项集中产生,运用宽度优先策略进行频繁项集搜索:
Step 1:定义Ur表示原始的候选项集,其中r取值为1。
Step 2:定义Er为频繁项集,设置Smin为项集筛选标准,求取Ur中所有项集支持度后以Smin为标准留下Smin之上的项集,得到Er。
Step 3:假设存在U r=θ,令其在
后停止运算;反之,基于自然连接算法处理频繁项集Er,以获取候选集Ur+1。连接当前集合与频繁项集Er-1获得一个候选项集Ur,此过程即为自然连接算法操作过程。
Step 4:令r=r+1,继续执行Step 2。
经过上述连接操作后采用以下原理进行剪枝:采用u描述Ur集合中的r 项集,假设子集Ur-1由u的r-1 个元素组成,且Er-1不包含Ur-1,c则是Ur中的剪枝对象。
3.1.2 频繁项集产生强关联规则
Apriori 算法运行过程是以循环扫描事务数据库推进的,频繁性是Apriori 算法中频繁项集的基本特性,生成的关联规则能精准描述两个事务间的关联关系。
3.2 基于关联规则的学习效果挖掘
Apriori 算法挖掘学生体育信息过程中由于数据处理对象规模庞大,所以需要执行大量的事务数据库扫描命令[11],导致算法运算量增加,加大了运算平台负荷,所以传统Apriori 算法运算效率不高[12]。为此利用对比与删除的方式去除Er-1中的无价值项集,精简运算过程。扫描Er-1时,依次记录项集,同时定义Ei包含r 个子项方便描述计算过程,则有
当Ur包含Ei时,则r-1 个r-1 项集也存在于Ur-1中。根据以上分析结果总结数据扫描规则:如果定义H1、H2为项集出现的概率,则相应存在H1≥r-1,H2≥r-2,进一步推断得到Hr-1≥ 1是出现的概率。由此确定删除和对比项集的方法如下:项集的扫描次数设置为H1、H2,此时存在两种操作执行情况:(1)删除操作。当r-1>H1时,删除Er-1中以Ei(1)为首的r-1 项集;当r-2>H2时,删除Er-1中以为首的所有项集。(2)对比操作。当r-1≤H1时,对比r-2 和H2;当r-2≤H2时,继续与后续项集扫描次数对比。上述优化策略减少了不必要的连接操作,有效节省了Apriori 算法运算量,是提高数据挖掘效率的有效之举。
为验证优化后的Apriori 算法对于学生体育的分析效果,将2018 级某专业两个班级学生作为对象,展开大学生体育学习效果分析测试。基于Apriori 关联规则的大学生体育学习效果挖掘原理示意如图3,其中,知识库为学生各项体育信息,样本信息来自校园教学信息管理平台,即学生基本信息、体育课上训练情况、体育课后训练情况、体育考核成绩、体育赛事成绩;评价库是对学生学习效果等级评定标准的设置,采用较差、一般、良好、优秀进行描述;数据预处理之后开始关联规则挖掘,得到的挖掘结果以可视化形式展示,基于Apriori 算法生成的关联规则分析出与学生学习效果相关的元素,即形成当前学习效果的有利因素与不利因素,帮助教师科学优化体育教学。
图3 关联规则在数据挖掘功能中的作用
基于本文方法挖掘得到某学生体育学习效果如表1 所示。
表1 某学生体育学习效果关联规则挖掘
限于篇幅,表1 仅展示了该生部分数据挖掘结果。其中支持度与信任度均为预先设置值,支持度值与挖掘规则量成反比、与挖掘效率成正比,支持度越大对应生成的规则数量越少、挖掘关联规则的效率越高。为了权衡体育学习效果关联规则挖掘的数量与效率,将支持度定义在35%~50%之间,既能保障在较短时间内得到学习效果挖掘结果,又能保障关联规则挖掘数量。
详细分析可知,此学生的兴趣爱好为慢跑,那么在耐力考核中取得良好成绩的信任度则为68.24%;同样,此学生柔韧性训练为良好等级,那么他在瑜伽项目中取得良好成绩的信任度为90.41%。以此类推,当此生身体灵敏度一般时,他取得羽毛球赛专业成绩的信任度为81.06%。
上述规则可以应用在体育教学中,如在健美操课前教师可以预先掌握学生在身体协调度方面的情况,明确哪些学生协调度较差,在课上采用针对性的教学方案给予这类学生关注与指导,解决健美操授课难题,提升全班学生整体学习效果。再如,在羽毛球课程中,教师可以用阶段性课程或者专业训练技巧培养学生身体灵敏度,以优化学生的羽毛球运动技能。
测试了本文Apriori 算法与未优化之前传统Apriori 算法的数据挖掘效率,结果如表2 所示。对比之下,本文算法数据挖掘响应时间明显低于传统Apriori 算法,当学生数量达到80 名时,本文算法相对节约了21.5 s。本文方法之所以取得了较高的计算效率、节约大量运算时间是因为减少了无效的数据挖掘计算量。详细而言,本方法基于对比与删除的方式去除频繁项集中的无价值项集,通过对比频繁项集子项数量r 与频繁项集出现概率H1、H2的关系,确定采取“对比”操作还是“删除”操作,两种操作的最终目的均是减少无效项集的挖掘计算量,以此减少Apriori 算法挖掘学习效果关联规则的步骤,数据挖掘的响应时间自然降低。
表2 数据挖掘效率对比
4 结论
总体而言,基于关联规则的数据挖掘算法以大学生个人基本信息、课上与课后体育训练信息、体育考核成绩、体育赛事成绩作为数据挖掘的基础,进行最小支持度与最小置信度选择获取体育信息之间的关联规则,从中可以得知学生体育学习效果如何,哪些因素影响学生体育学习效果,将此作为体育教学优化的决策依据。
本文选用的Apriori 算法对连接运算部分进行精简,通过对比与删除项集的方式省略了不必要的连接操作,此为该算法的优势所在。正因如此,改进后的Apriori 算法节省了运行的时间开销,减轻了数据挖掘平台的接口负载量。在实际的大学生体育成绩分析测试中,优化后的算法节约了大量运算时间,数据挖掘性能优于传统型Apriori 算法。数据挖掘算法在大学生体育学习效果分析中的应用是教育领域的重要变革,也是未来教育事业必然发展趋势。但是大数据带来的安全信息泄露、学生行为不被信任等负面影响也应引起关注。所以,教育者推广数据挖掘技术过程中要做好大数据算法的监测工作,不能一味信任智能算法挖掘的教学评价结果,而忽视学生不被信任的感受;教育者可将数据挖掘结果作为教学方案制定的依据,科学评估智能分析结果的合理性,防范负面因素对数据挖掘技术的侵蚀影响评估结果。