基于机器学习的学习者画像构建与教学预警研究
2024-09-13王春洁
摘要:本研究主要通过收集和分析混合式教学模式下学习者的多维数据,构建全面、立体的学习者画像,并基于这些数据,结合机器学习算法,建立教学预警系统,以发现学业困难学生。研究中,首先建立学习者画像的特征标签体系,形成了对学习者全面而深入的描绘;随后,运用决策树、线性判别分析、支持向量机等多种分类学习算法,建立了教学预警模型;通过对多种模型的评估,选择了性能最佳的支持向量机模型作为教学预警系统的核心组件。结果显示,这样的系统可以帮助教师及时发现学生的学习问题,并采取干预措施,从而提高教学质量和学生的学业成绩。
关键词:学习者画像;教学预警;机器学习;分类算法;混合式教学
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2024)22-0107-03
开放科学(资源服务)标识码(OSID)
0 引言
随着信息技术的发展,线上教学平台如超星学习通、中国大学MOOC、腾讯课堂、云班课、钉钉、学习强国以及虚拟学习空间等得到广泛应用,为教学培训提供了新的教学途径。学习者只需通过互联网就可以随时随地进行在线学习。软硬件和技术支持不断更新使得在线教育学习资源日益丰富多样,学习变得多源和便捷。此外,通过网络共享教育资源,不仅拓宽了教育的覆盖面,更促进了教育的公平与普及,让更多人有机会接触到优质的教育资源。
然而,在突破了传统的教育面对面的教育模式的同时,也暴露出一些问题。由于线上教学是通过网络和多媒体设备来实现的,缺少教师和学习者的面对面交流,教学的直观性、感性认识不够;教师无法观察到学习者的实际学习状态,无法全面地把控整个学习过程,学习者个性化需求也无法及时满足。同时,线上学习模式比较单一,一定程度上降低了学习者的学习兴趣,学习期间存在“刷课”的情况。
因此,如何准确把握学习者的学习状态,提升线上教学的质量,成了研究的重点。在这一背景下,学习者画像和教学预警两个领域显得尤为关键,值得深入探索。学习者画像是通过收集和分析学习者的学习行为、学习态度等多维度的数据,形成对学习者全面、立体的描述;而教学预警则是提前发现和解决学习问题的重要工具。
本研究以在线学习者为核心研究对象,通过收集和分析学习者的学习行为、学习态度等多维度的数据,构建一个全面且详尽的学习者画像。通过应用数据挖掘与机器学习算法,本研究从数据驱动和学习分析的角度,定量地研究学习者的学习规律,全面地了解学习者的学习情况。以为学习者提供更优质的在线教育为目标导向进行研究,促进学习者的个性化学习和实现基于学习者画像的学情预警。学习者画像和教学预警是预警学情和提供个性化学习策略的重要数据支撑和决策依据。
1 相关研究
1.1 学习者画像理论
学习者画像是用户画像技术在教育领域的重要应用。它通过收集和分析学习者的个人基本信息、学习行为数据、学习结果数据等多维度数据,形成对学习者全面、立体的描述。学习者画像技术可以帮助教师更深入地理解学生,从而提供更有针对性的教学,在教育技术领域中被广泛应用。
通过分析学习者画像,教师可以针对性地研究每个学生的学习状态和学习需求,并根据每个学生的需求和能力调整教学策略,这将大大提高教学效果。在实际教学中,学习者画像不仅可以帮助教师改进教学策略,也可以帮助学生更好地理解自己的学习过程。
肖君等人[1]从目标( Object)、数据( Data)、分析( Analysis)、服务( Service) 四个角度提出“ODAS”开放学习分析概念模型,并给出了基于 “ODAS” 的在线学习者画像构建流程,这是一个以目标为导向的循环系统框架,分为五个关键阶段:
1) 画像目标层:明确画像构建的目标,如学习者群体识别、学习者特征分析和学习者评价等。
2) 数据收集层:根据画像目标收集大数据,包括学习者的基本信息、各类行为日志以及调查数据等。
3) 标签分析层:根据画像目标抽取画像标签库中的标签进行数据分析。标签由学习者画像模型决定,通过对数据进行标签化处理得到。
4) 画像服务层:标签分析结果的输出,包括分析报告、个性化推荐、预警等服务形式。
5) 应用与评估层:将画像服务应用于教学,并通过评估判断是否达到了最初的画像目标,如果没有则进行下一轮的画像分析应用,构成闭环。
1.2 教学预警
通过对学生的学习行为、学习态度和学习成绩等进行数据分析,教学预警可以提前发现并解决学生可能会遇到的学习问题,并提供有针对性的帮助。借助教学预警,教师可以全面了解学生的学习状况,预测学生的学习风险,同时根据学生反馈调整教学策略,满足学生的学习需求。因此,教学预警在提高教学质量、保障学生学习效果以及提升学生的学习体验和自我管理能力方面发挥着重要的作用。
教学预警的相关研究主要关注如何有效收集和分析学生的学习数据,精确识别学生的学习困难,以及设计有效的预警机制和干预策略。李景奇等人[2] 使用多元线性回归方法和综合指标加权方法,设计了一个教学大数据预警平台。刘博鹏等人[3]通过数据挖掘技术,利用学生的行为、个人属性和历史成绩等数据对学生成绩进行预警。
一些研究者已经开始探索如何将学习者画像和教学预警相结合,以提供更全面和个性化的教学支持。成亚玲、谭爱平[4]从学习者的基本属性、知识掌握情况、学习行为和学习情绪四个维度刻画在线开放课程学习者群体画像和个体画像,在此基础上设计了基于学习者画像的在线开放课程学习预警模型,分别从学习行为、学业成就、学习情绪三个方面给出了预警策略。王春华[5]通过构建学习者画像模型,提出了精准教学干预策略。
尽管现有的学习者画像与教学预警的研究已取得了一定的成果,但大多数只给出了预警策略,缺乏深入的定量化分析。基于这一点,本研究将采用机器学习的方法,对学习者画像数据进行深入挖掘和分析,为教学预警的设计提供定量化的依据。同时,也将进一步研究如何将学习者画像与教学预警应用到各种教学环境和模式中,以满足不同类型学习者的需求。
2 教学案例研究
本研究选择了某高校开设的高等数学课程作为研究案例。该课程采用了线上线下混合式教学模式,共有502名不同专业的学生参与了该课程,他们分别来自5个不同的专业,其中,女生127人,男生375人;来自普高的学生291人,来自职高的学生211人。接下来将借鉴基于“ODAS”的开放学习者画像构建流程进行画像构建,并以画像数据为基础进行教学预警研究。
2.1 图像目标层
本研究的主要目标是构建一个学业预警系统,该系统能够根据学生的个人基本情况和学习行为表现,预测学生的学业风险。具体而言,大学生面临的一个主要学业风险是期末成绩不及格的问题。这一问题不仅会影响学生的学习综合测评,还可能对他们的学业进度产生直接影响,甚至影响毕业。因此,本研究的目的是根据学生的学习行为等数据预测其不及格的风险,以提供给教师和学生及时且准确的预警,为教师提供教学参考,同时帮助学生更好地应对潜在的学业问题。
2.2 数据收集层
为了实现教学预警目标,本研究收集了参与本课程学生的各种数据,包括基本信息、学习行为、学习结果等。这些数据从多个来源获得,如学校教务系统、“超星学习通”在线学习平台和线下课堂授课等。 具体数据如下:
1) 教务系统数据:学校教务系统提供了学生的基本信息,如姓名、学号、性别、年龄、专业、班级等,这些数据是学生基本属性的直观反应,有助于了解学生的基本背景和学习环境。
2) 线下课堂数据:在课堂教学中,授课教师详细记录了学生的包括考勤、课堂讨论等情况,同时教师也对学生进行了客观评价。这些数据是学习行为的最直观体现。
3) 线上平台数据:通过“超星学习通”等平台的后台记录,收集了学生在线学习的详细数据,如在线视频学习情况、任务点完成情况、作业完成情况和得分等。平台数据量巨大,能够很好地发现学习者的学习行为的细节。
4) 期末考试数据:课程结束时,通过闭卷考试评估学生的学习效果,并收集了学生的考试成绩数据。考试成绩是衡量学生学习效果的重要指标。
通过以上方式,全面收集了学生的各类数据,为后续的预警分析提供了有力支撑。这些数据来源多样、内容丰富,能够综合反映学生的学习状况和学业风险。
2.3 画像标签层
数据收集层获得的数据较为复杂,需要构建统一且规范化的标签体系,以全面描绘学习者的特征。对目标预测影响较小的数据,如学生年龄(因为学生均为大一学生,年龄差别不大),可以删除。最终,从基本属性特征、学习行为特征、学习评价特征、学习结果特征四个方面构建画像标签体系。画像标签体系如表格1所示。
按照上述的画像标签体系,需要处理多源数据,以“学号”和“姓名”为标识,按照画像标签体系进行数据的提取和融合。在融合的数据集中,需要分析空值和异常数据产生的原因,并进行相应的填补和删除,以形成统一规范的数据集。
2.4 学业预警系统
本研究的核心目标是构建一个学业预警系统,该系统能够根据学生的个人基本信息和学习行为表现来预测其成绩不及格的风险。为了实现这一目标,预警系统将采用多种机器学习分类算法,如决策树、判别分析、逻辑回归分类、支持向量机(SVM) 、朴素贝叶斯分类、最近邻分类(KNN) 等。这些分类算法各有优点,可以用来处理不同的问题,通过对比这些方法的表现,可以找到最适合解决本问题的模型。同时,通过使用多种方法,可以提高模型的鲁棒性,避免因为单一模型的缺陷导致的预测错误。
首先,使用已有的统一规范数据集,以期末成绩“是否不及格”为响应值,以其他画像标签作为预测变量,采用5折交叉验证的方式对模型进行训练。这种验证方法可以将数据集分成5份,其中4份用于训练模型,1份用于测试模型。这个过程将重复5次,每次使用不同的数据作为测试集,其余的数据作为训练集。通过这种方式,可以更准确地评估模型的性能和泛化能力。
其次,对训练模型进行评估。训练的目标是找到能够准确地描述学习者特征与学业风险之间关系的参数。模型训练完成后,需要对多个不同模型进行评估,以找到最优的模型。根据模型的预测结果,将计算以下评估指标:
1) 准确率:表示预测正确的样本数占总样本数的比例。准确率直观地评估模型的预测能力。
2) 精确率:又称查准率,表示在所有被预测为正例的样本中,真正为正例的样本比例。
3) 召回率:在所有正样本中,预测正确所占的比例。召回率用于评估模型对正样本的识别能力。
4) F1值:F1值是准确率和召回率的调和平均值,用于综合评价模型的准确性和稳健性。F1值越大,说明模型的表现越好。
几种分类模型的评估结果如表2所示。
通过表2中数据可以看出,线下判别分析(LDA) 和支持向量机(SVM) 在整体分类性能上表现较为突出。具体而言,SVM以83.1%的准确率和88.7%的F1值展现了优秀的分类能力,同时在精确率上也达到了最高的87.4%。这些指标均表明SVM在分类任务中具有较高的稳定性和准确性。
为了更直观地揭示SVM模型的分类效果,笔者进一步展示了模型的混淆矩阵和ROC曲线,分别如图1和图2所示。混淆矩阵提供了关于模型在不同类别上分类结果的详细信息,而ROC曲线则展示了模型在不同分类阈值下的性能变化。
从图1可以清晰地看出,SVM模型在分类过程中具有较高的准确度和可靠性,能够很好地识别不及格的同学。图2的ROC曲线,它展示了模型在不同分类阈值下的性能变化,ROC曲线下的面积(AUC=0.89) 较高,说明模型的分类性能较好。通过这两张图,我们能够更全面地评估SVM模型的分类效果,为后续的优化工作提供有力的参考。
鉴于SVM模型在多个评估指标上的优秀表现,我们选择使用SVM模型作为我们的主要预警模型。SVM模型不仅能够准确预测学生的学业风险,还能有效地描述学生特征与学业风险之间的关系,为教育预警提供有力的支持。
2.5 应用与评估层
学业预警系统建立并训练完毕后,可以将其应用于实际的教学环境中。预警系统会对每个学生进行学业风险评估,评估学生目前学习状态下,预测未来考试成绩不及格的风险。教师可以根据评估结果提供个性化的教学建议和干预措施。例如,对于风险较高的学生,教师可以研究其画像,发现学习中存在的问题,给予更多的学习资源和指导。
学业预警系统并非一成不变,学业预警系统与教学实践相辅相成。在应用过程中,会不断收集学生的反馈和学习成果数据,以此检验预警系统的准确性,并进行必要的维护和优化。同时,也会对预警系统的应用效果与预设的目标进行对比,以评估系统是否达到了预期目标。如果预警系统的应用效果不佳,或者未能达到预设的目标,将对系统进行进一步的调整和优化。
3 结论
本研究主要聚焦于构建学习者画像,通过机器学习的方法深入挖掘画像数据的潜在价值,来提前发现并解决学生可能遇到的学业问题。通过对学生的基本信息、学习行为和学习结果等数据进行挖掘分析,设计出了一套学业预警系统,能够有效地预测学生的学业风险。这一系统不仅帮助教师及时发现学生的学习困难,并提供针对性的帮助,同时也能让学生更好地了解自己的学习状态,并据此调整学习方法和策略。
在未来的工作中,计划收集更多的学习者数据,进一步优化预警系统,以更好地适应各种教学环境,满足更多类型学习者的需求。还将继续研究如何提高系统的预测准确性和应用效果,以便为学习者提供更个性化和全面的学习支持。同时,也会考虑开发新的预测算法,以提高预警的准确性和稳健性。
参考文献:
[1] 肖君,乔惠,李雪娇.大数据环境下在线学习者画像的构建[J].开放教育研究,2019,25(4):111-120.
[2] 李景奇,卞艺杰,黄波.教学大数据监测预警平台设计与应用[J].计算机应用与软件,2019,36(1):111-116.
[3] 刘博鹏,樊铁成,杨红.基于数据挖掘技术的学生成绩预警应用研究[J].四川大学学报(自然科学版),2019,56(2):267-272.
[4] 成亚玲,谭爱平.基于学习者画像的在线开放课程学习预警研究[J].当代职业教育,2022(4):102-112.
[5] 王春华.基于学习者画像的精准教学干预研究[J].济南大学学报(社会科学版),2023,33(2):136-146.
【通联编辑:王 力】