APP下载

一种基于分类算法的在线学习成绩预测策略

2019-08-05袁亚兴

关键词:准确率预测特征

袁亚兴

(国家开放大学,北京 100039)

由于互联网科技的普及教育模式的转变,在线教育越来越被人们认可和接受。截止到2017年12月,国家开放大学在校生达到333.4万,较2016年底增加2.5万人,年增长率为0.77%[1]。学生学习主要基于网络进行,如此庞大的在线学生数量,其教学质量及学生在线学习效果成为当前国家开放大学关注的重点问题。由于在线教育时通过网络在线连接师生进行教育模式的划定,如何根据在线学习者的学习行为进行成绩预测,并为教育管理人员提供教学辅助,是在线教育亟待解决的重要问题[2][3]。

当前数据挖掘技术飞速发展,通过探究数据间规律构建在线学习成绩预测模型,即从数据中学习预测模型是目前人工智能技术应用教育数据的研究热点。

然而,由于在线教育数据存在基数大、格式多样的问题,针对不同数据需要提供特定算法模型,面向不同的在线情景各类算法准确率也各有不同。本文基于国家开放大学2017年度学生网络在线学习者学习行为数据,使用机器学习中经典分类模型,通过对在线学习者的学习行为特征的提取确定影响成绩因素,然后提出基于机器学习预测方法对在线学习者学习成绩进行预测,在实验验证的基础上,通过对不同模型的实验结果的分析与比较,对模型的性能进行评估与分析,最后对课程适用模型做出总结。

一、相关工作

教育数据挖掘技术是利用数据挖掘技术在教育领域进行针对各类不同教育环境中的数据进行数据融合,挖掘出数据内蕴藏行为规律,以帮助教育工作者更好地了解学生,帮助学生了解自身定位,改善学习环境。如今各类基建设施日趋完善,获取的教育数据的质量大幅提高,然而由于数据表现形式单一,无法直观地从数据中发现其中潜在的规律,从而实现对事物的发展趋势的预测[4]。德国学者Hans-peter Kriegel等于2007发表一篇关于数据挖掘技术发展前景及规律发现的文章[5],为数据挖掘在教育领域应用奠定理论基础。Romreo.C等利用学习日志数据,构建学习者行为数据预测模型,对学生学习动机进行预估[6]。

随着教育数据挖掘技术逐渐发展,研究人员逐渐完成了针对教育数据的分类、聚类等相关分析工作,并利用数据统计分析方法完成了时序模型、关联分析、偏差分析等任务[7]。其中应用分类方法对成绩进行预测是分类技术应用频率最高的。通过对国内外研究现状的了解,针对教育数据进行分类的应用比较广泛使用的方法有:Decision Trees、Support Vector Machine、Neural Network等。我国学者崔人桀应用C4.5决策树算法对学生专业培养数据进行建模分析,挖掘学生行为规律[8]。随后姜丹等人利用慕课网在线教育的特点及实践现状设计了一个智能学习平台,用来提升在线学习用户的在线学习效果[9]。

综上所述,已有研究中大多结合平台自有数据进行建模并进行分析,少有结合在线课程行为数据以及针对网络课程设计的模型,本文基于国家开放大学学生在线学习行为数据进行方案的分析与设计。

二、研究内容

本文研究学生网络行为预测模型,首先通过对数据预处理,对数据进行清洗,确保数据完整与完善,进行特征提取,对特征进行重复筛选与计算其相关系数,最后使用经典机器学习算法模型进行预测,最后对预测结果分析得出结论,并对不同课程使用不同模型,分析适合课程的理想模型。

图1 模型流程框图

本文从国家开放大学学习网筛选出116592名学生的学习数据,主要包括用户信息、课程信息、在线学习行为数据(提问、作业、测验、论坛、成绩)等进行实验。

学生学习数据以关系数据形式进行存储,以网络构架模式进行采样,对每次学生交互行为进行记录,根据主观意识提取学生个人信息及学习情况作为实验数据。

通过获取的格式化数据进行处理,将数据转化成标准化数据,并进行特征筛选,最后合成数据训练集与数据测试集。

通过对数据处理获得相应数据训练集与测试集,为模型训练提供了数据基础。本研究第二重点为机器学习模型选取及模型训练。

本文使用神经网络、最近邻、决策树等多个经典机器学习算法,进行课程成绩的预测与分析,通过分析得出相应课程与适用模型的匹配规律。

三、数据预处理与特征提取

(一)数据预处理

数据处理后进行数据提取工作,其中成绩表为预测目的表,其中成绩分为测试成绩、最终成绩,最终成绩为目标成绩,也是我们的最终目的,由于成绩值为连续性,采用分类方法将成绩划分,优良中差四个等级,划分规律见表1所示。

表1 成绩分级表

由于学生基数大且影响学生的其他因素较多,并且已经获取到的学生数据中存在大量的质量问题,因此需要对数据进行数据清洗,主要存在问题分为以下三类:数据缺失、数据重复、数据错误等。我们对所选取数据及逆行处理分析如下:

1.数据缺失

针对学生成绩、学生学习信息缺失的情况进行统计主要分为如下两种情况,第一种为简单缺失,缺失某学生某一科目的或者某次课程时长,对于此问题采用向上采样方式,获取离其最近一次上课时长作为填补值进行填补。对于有的学生在选课表格中出现选课记录,在成绩表格中却不存在上课记录,此类缺失我们使用课程所属科目内同类科目上课记录,用其他科目对本科目成绩进行填充。

2.数据重复

数据出现重复记录是错误数据中最常见的,由于网络问题,或者是提交问题,重复数据多种多样,为避免重复数据对训练集造成影响,我们对于字段中重复出现的成绩、信息等数据进行简单去重,保留其最后一次提交数据。

3.数据错误

错误数据会影响预测准确度,其存在于各类表中,但若对成绩进行预测,成绩准确是最为客观的标准,我们对成绩中出现的空值、异常值进行遍历删除,用同类科目进行填充。

(二)特征筛选

在所有提取的学生行为特征中,有许多特征与目标成绩相关性极小,比如课程点击次数对于成绩影响较小。因此,可以进行相关性分析,增强特征与特征之间的理解,并以此对特征进行权重赋值,删除权重值较轻的特征,增加特征间关联性,以及与分类结果的相关性,以此达到改进数据关联强度,提高预测准确精度的目的。同时适当的特征筛选,在降低算法复杂度的同时也适当减小了工作量。

本文采取三种相关性分析方法即Pearson、RFE、Lasso,通过使用以上三种方法,进行对学习行为特征的提取,本文所提出的算法采用最相关的前十个特征作为输入数据进行成绩预测,并根据不同算法模型,选取不同的特征进行预测工作。

下文将对三种特征筛选方法进行说明。

1. Pearson相关分析:也称作皮尔森相关系数,是一种线性相关系数,对于给定的两个变量A和B,通过计算两个变量的相关系数进行相关性的判定。Pearson相关分析目的为了算出任意特征与目标特征线性相关值,当计算出所有相关系数,我们可以根据实际需求效果选定合适的阈值进行特征筛选,然后根据相关性的排布,将小于指定阈值的特征字段进行剔除。

2. RFE特征消除法:也称作递归特征消除法,旨在多次进行模型构建,通过衡量系数选择最为合理的模型,以减小差值作为修改标准,以此选择出最为合理的模型特征,用来进行特征的排序,确立了最优先使用的特征和最优先排除的特征,根据上述步骤循环进行训练,直到所有的特征均被遍历完成,RFE会给出一个次序特征,根据次序特征进行特征选择。

3. Lasso回归算法:lasso是基于第一范式的特征选择方法,其对数据要求极低,可以适用于一维连续因变量、多维连续因变量、非负次数因变量、二元离散因变量、多元离散因变量等线性模型,并且无论数据是连续值还是离散值,lasso算法均能很好地进行特征选择。同时lasso算法不仅可以选择相对重要的变量,还可以稳定的防止过拟合效应。针对学生学习行为预测未来学生成绩,根据学生在进行考试前一定时间内量化的行为数据对历史成绩进行训练学习,为了在降低算法复杂度的同时,更要保证成绩预测准确度,本文采用如上三种方法进行特征筛选。

四、基于机器学习分类算法预测模型建立

(一)特征提取

经过特征选择及特征降维,得到的特征数据为对成绩影响最大的特征属性,本文使用Pearson、Lasso、RFE等特征选择方式经过筛选剩余以下13类特征,详情见表2:

表2 特征选取分析

(二)预测模型选取

提取特征后,从116592名学生中抽取了2000个学生以及他们两个月在线学习数据作为样本。以采用神经网络为例,BP神经网络[10]是一个信号前向传播,误差反向传播的多层前馈神经网络,在该预测模型中,神经网络拓扑结构如图2所示。

图2 神经网络拓扑结构图

xi输入表示第i个输入样本数据,同时所匹配的Vij权重表示输入层到隐含层的第i个节点到第j个节点的权重代价,Wij权重表示隐含层到输出层的第i个节点到第j个节点的权重代价。对于输入相应的学生编号及提取隶属于该课程信息进行预测,对结果进行分析,并重复进行。

(三)预测流程

经过特征筛选与提取,利用机器学习中的神经网络、决策树、高斯回归、最近邻等经典算法进行模型的构建,对不同学生针对不同课程进行预测分析。预测流程如图3所示。

(一)特征选择分析结果

实验选取平均准确率ACC、均方误差MSE和均方根误差RMSE作为相关性分析评价指标。其中利用MSE、RMSE可以对预测方法的性能及准确率进行有效度量。假设Xi表示实际成绩值,Mi为利用模型所得的预测成绩值,则均方误差和均方根误差表示如下所示:

实验数据表明,分别采用神经网络模型、高斯回归模型、最近邻模型、决策树等模型,使用上述三种降维方式进行处理,准确率比不做降维处理有所提高。相关性分析结果如表3所示。

表3 相关性分析结果

(二)模型选择分析结果

本次实验针对不同学生参与同一门课程的学习行为进行分析,实验得出课程编号为23的课程,使用神经网络模型准确率,比其他模型高出近一个百分点。因此可以选择此类模型作为该课程预测模型。实验结果如表4所示。

本次实验以探究同一个学生对不同课程学习过程预测模型探究,实验表明,使用神经网络准确率较其他模型要高,但对于样本较少情况使用最近邻更能很好适合样本。部分实验结果如表5所示。

表4 同一门课程不同学生预测准确率表

表5 同一个学生不同课程预测准确率表

六、结论

本文基于国家开放大学在线学习数据,针对不同课程类型,选取不同特征数据进行成绩预测,有效降低了算法复杂性,并大幅度提高了预测精度。实验结果表明,相对于所有同学都使用一个模型来说,不同学生选取不同模型有较高的定制与实用性,但由于数据质量问题,学习者在线学习行为监督不足等原因,各种策略的使用存在一定缺陷。下一步将针对每个学生具体情况进行更为复杂的预测,引入深度学习相关算法,进一步改善特征选取的人为意愿的弊端,使得方法更具有实用性。

猜你喜欢

准确率预测特征
根据方程特征选解法
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
不忠诚的四个特征
高速公路车牌识别标识站准确率验证法
抓住特征巧观察