在线教育考试成绩预测与评估研究
2020-07-04徐洪峰
摘 要:研究机器学习和神经网络下的大数据与在线教育的预测和评估结果,对评估在线教育的学习效果和在线教育改革与发展具有重要的现实意义。以贵州某学院学生成绩的数据为基础,通过对五种机器学习模型方法进行比对,验证了机器学习算法的准确率与原有方法相比有较大的提升,促进了在线教育学习效果的提高,有利于对学生的客观评价和在线教育的发展。
关键词:在线教育;机器学习;成绩预测
中图分类号:TP311.5;G434 文献标识码:A 文章编号:2096-4706(2020)03-0028-03
Abstract:It is of great practical significance to study the prediction and evaluation results of big data and online education under machine learning and neural network for evaluating the learning effect of online education and the reform and development of online education. In this paper,student performance of an adult education college in Guizhou is taken as the data. Through comparison of five machine learning model methods,it is verified that the accuracy of machine learning algorithm is greatly improved compared with the original method. It promotes the improvement of the learning effect of online education,and is conducive to the objective evaluation of students and the development of online education.
Keywords:online education;machine learning;predict performance
0 引 言
2015年是中國的教育大数据元年[1],相关研究机构和科研学者都开始关注教育大数据,在教育教学环节和教学活动中产生了大量的相关教育数据,这些数据对教育评价和教学效果有着直接的影响,尤其是在线大数据、海量教育大数据对相关教育产业、教育机构的影响。教育大数据产生于各种教育实践活动,既包括受教育者在校园内的教学数据,也涵盖由此产生的相关数据;同时还包括网络环境下的远程的教育教学活动。
在线教育也称网络教育,是指在互联网环境下,以现代教育思想和学习理论为指导,充分发挥互联网环境下丰富的教育教学资源优势,向受教育者和学习者提供一种网络化教和学的环境,利用数字化的语音、视频和教育教学平台,开展以学习者为重的非面授教育活动。在线教育是远程教育的现代化表现,也是一种同时异地或者异时异地进行教育的形式。
总的来说,在线教育数据主要有以下三大特点:(1)数据间联系紧密;(2)数据存储存在异构性且处理困难;(3)在线数据分布广泛。但在目前的互联网环境下,海量在线数据分布的广泛性会提高数据收集和检索的难度,原有的很多不相关数据在深入剖析数据之间深层次的关系后,会发现大量数据之间依然存在一定的关系。
1 在线教育大数据面临的问题
在互联网和大数据时代,在线教育平台和在线教育机构不断增加,社会所拥有的教育资源也越来越多,每个教育平台、教育机构所拥有的数据都是独立的、非共享的。各种数据之间的格式、含义、表示等都有差异,虽然这些异构的大数据很多都具有相同的表征含义,但对于教育机构和很多研究者而言,它们之间都没有本质的关联,大量数据存在但没有得到有效利用。因此,高效利用大量的在线教育资源面临着巨大挑战:如何对互联网中看似不相关、纷乱无序的教育大数据进行有效的管理和利用[2,3],如何提升教育资源已获得更为优化的服务模式,以及如何有效评价服务模式的效率和性能已经成为急需解决的关键问题。
2 基于机器学习算法的在线教育成绩评价模型
在大数据分析的技术背景下,以贵州某大学成人教育学院的真实学生数据和网络爬虫爬取到的相关数据为基础,去构建一个大数据环境下的机器学习预测回归算法,分析该方法应用于在线学习结果预测评价中,以期提高在线成人教育的教学效果。为此我们选择了五种常见的分类算法进行对比:逻辑回归(Logistic Regression,LR)、支持向量机(Support Vector Machine,SVM)、决策树(Decision Tree,DT)、朴素贝叶斯(Na?ve Bayes,NB)和反向传播(Back Propagation,BP)神经网络[4]。
2.1 特征向量的选取
考虑到数据之间的异构性,首先将无效信息删除,同时对于原始信息中属性中的丢失率超过20%的特征和无效特征删除后,得到有效的原始数据。其次,可以进一步将异构数据进行处理和合并删除相同语义的数据,由此构建特征向量。最后,将网络爬虫爬取到的文本信息进行分词后获取情感信息,利用情感词库构建情感特征向量,将两者特征向量进行归一化之后进行级联,得到如表1所示的学生特征属性名称和特征描述表。
考虑到每种特征值的取值有很大的差异性,因此在特征空间量化的过程中,我们采用正则化的方法将所有的特征向量值都统一到[-1,1]的空间内。这样有利于后续的模型进行处理。
2.2 模型数据集和评价指标的选取
考虑到实际样本数量的采集,将数据集的70%和80%分别作为实验的训练数据集,10%的数据作为实验的验证集,剩余的20%和10%作为两次实验的测试集。采用的评价指标主要有准确率(Precision)、F1-Measure、精确度(Accuracy)和召回率(Recall)[5]。主要的评价指标计算公式分别为:
2.3 学习成绩预测框架设计
学习预测框架包括原始数据合并与处理、训练模型和预测应用三个阶段:(1)原始数据合并与处理阶段:首先需要对数据源进行选取,将原始数据清理之后进行采用主成分分析方法(Principal Component Analysis,PCA)进行特征提取,将提取后的特征和情感数据特征进行融合,构成最终的特征向量。并按照一定的比例将数据划分为训练集数据、验证集数据和测试集数据三类;(2)训练模型阶段首先将数据重抽样,利用合成少数类过采样技术[6](Synthetic Minority Oversampling Technique,SMOTE)對不平衡数据进行处理使数据类型平衡,再使用机器学习算法和深度学习模型进行训练,将训练好的模型利用验证集数据进行模型验证后,对得到的模型使用测试数据测试,不断地调整模型的参数和性能,直到最终完成模型;(3)在预测阶段,将测试数据输入训练好的模型进行预测,得到在线学习期末成绩趋势的预测结果。在线学习期末成绩预测模型框架图如图1所示。
2.4 模型结果分析
实验结果证明,与使用70%重采样的结果相比,选择80%重采样的数据集进行五种机器学习和深度学习模型,我们可以发现精确度和召回率有大幅度的提升。比较与其他四种方法,Logistic Regression获得了最好的实验结果。最终的Logistic Regression得到拟合模型表达式为:
在上式中,GPA_COURSE表示所有已完成课程的平均成绩/绩点,COURSE_COUNT表示已完成的课程数,STUDENT_LEVEL表示学生类别,PASS_COURSE_TIME表示通过课程的平均学习时长,COURSE_TIME表示课程所用时间,CHAPER_TEST表示课程章节测试成绩,HW_SCORE表示平时作业成绩。
从模型中我们可以看到作业成绩对于在线学习的成绩影响非常小,当采用后的数据量非常大的情况下,在实际测试过程中可以考虑删除该权重向量对预测的影响,以减少计算的复杂度和模型的开销。
此外,由于数据量的采集依然存在问题,由于学生的情感评价打分有一定的缺陷,没有有效利用情感等分进行模型训练,导致深度学习算法在现有样本数量下,训练模型的效果不佳,因此对于测试集最后的预测精度不高。当样本数量进一步增大,深度学习模型的预测结果将进一步提升。
3 结 论
随着社会的不断进步,远程教育、在线教育将促进每个人知识的不断获取和技能的不断提升。面对海量数据环境下的在线教育的预测和评估也将随着时代的不断发展而变得越来越充满挑战性。
此外,原有的、单一的评估模式和评估方法仅将学生的考试成绩作为唯一的评判标准,将其变换成多方法、多模型的在线教育的评估方法,兼顾学习时间、学习效率、学习态度的同时也充分考虑学生的个人学习能力等因素,用更客观的评测权重来得到最后的期末综合总分,这样才能有利于在线教育的长远发展以及对学生的有效评价。
参考文献:
[1] 杨现民,唐斯斯,李冀红.教育大数据的技术体系框架与发展趋势——“教育大数据研究与实践专栏”之整体框架篇 [J].现代教育技术,2016,26(1):5-12.
[2] LANE J. Big Data:The Role Of Education and Training [J]. Journal of Policy Analysis and Management,2016,35(3):722-724.
[3] ALEKSANDRA K M,MIRJANA I,ZORAN B. Data science in education:Big data and learning analytics [J]. Computer Applications in Engineering Education,2017,25(6):1006-1078.
[4] 李航.统计学习方法 [M].北京:清华大学出版社,2012.
[5] SANDEEP M J,ERIK W M,EITEL J M L,et al. Early Alert of Academically At-Risk Students:An Open Source Analytics Initiative [J]. Journal of Learning Analytics,2014(1):6-47.
[6] CHAWLA N V,BOWYER K W,HALL L O,et al. SMOTE:Synthetic Minority Over-sampling Technique [J]. Journal of Artificial Intelligence Research,2002,16(1):321-357.
作者信息:徐洪峰(1977-),男,汉族,江西上饶人,副教授,硕士,研究方向:机器学习、深度学习、企业信息化。