基于改进CART算法的M-learning过程中知识掌握程度预测
2018-10-31李六杏
唐 立,李六杏
(安徽经济管理学院 信息工程系,安徽 合肥 230031)
M-learning是moblie learing的简称,通常被译成移动学习,它是指利用智能终端设备 (如手机、PDA等)进行的远程学习[1].随着移动计算机技术不断地发展,移动智能终端设备几乎是每个人必有的设备,M-learning的学习方式是现代教育发展新的阶段,它越来越多地受到国家和教育界的重视.在《国家中长期教育改革和发展规划纲要(2010-2020年)》的指导下,M-learning作为教学辅助越来越多地被应用在高校的教学系统平台上,如翻转课堂,基于M-learning实验平台,基于MOOC的M-learning平台等[2].M-learning的出现,试图把传统的“教-学”模式改变成“学-教”模式,目的是为了提倡个性化教学,把教学精确服务到个人,使得教学效果大幅提高.而使用数据挖掘技术对M-learning进行挖掘分析,试图通过数据挖掘发现一些规律,预测学习效果,为个性化教学提供可靠的依据,采用先学后教即“学-教”模式,精准地把教学服务落实在每一个受教育者的身上[3].
数据挖掘技术在教学中的应用相当广泛,有很多专家和学者发表过相关的学术论文,如:攀妍妍将ID3决策树算法用于对学生在线学习信息的挖掘,找出影响学生学习效果的分类规则[4];范洁把C4.5算法应用更在在线学习行为评估系统中[5];谢修娟运用Fayyad和数学等价无穷小改进C4.5,提高运算速度,应用于E-learning教学辅助系统中[6];赵强利提出基于选择性集成的增量学习的在线学习模型,针对监督学习和分类问题,提出处理集成问题的相关算法[7];董彩云在教学系统中用关联规则挖掘算法,找出影响学生学习兴趣因素[8].
在学习和参考了多位学者研究成果前提之下,根据M-learning实际情况,把CART算法进行改进,构建一个以M-learning过程数据预测知识掌握程度的分类决策树模型,用于对学生知识掌握程度的预测,目的是为个性化教学提供依据,把更有针对性的教学服务于学生.
1 CART算法的概述
CART(Classification And Regression Tree)是一种二叉树形式的决策树算法,二叉树算法只把每个非叶节点引申为两个分支,它的结构比ID3和C4.5算法结构更简洁,易于理解.CART构树原理,先对样本数据进行二元分割成两个子集,对子集再分割,自顶向下不断递归生成树,直至分支差异结果不再显著下降,分支没有意义了,则树建成.由此可以看出决策树生长的核心是确定分枝标准,对于CART算法来说,它的分枝标准是从众多分组变量中找到最佳分割点,其方式就是用Gini指标来表示数据纯度.
1.1 Gini指标
Gini指标是样本杂质度量方法,假设一个样本共有G个类,那么节点L的Gini不纯度可以定义为:
其中pg为样本点属于第g类的概率.直观来看,Gini指标反映了数据集中随机抽取两个样本,其类别标记不一样的概率,也就是Gini越小,当前数据纯度就越高.
假设集合L在A条件下分成L1和L2,那么集合L的Gini指标定义为:
在划分属性时,选择使得划分后Gini指标最小的属性为最优属性,并以此为分支准则建树.
1.2 连续属性与离散属性处理方法
(1)对于离散属性.CART算法对离散属性分各值的不同组合,按不同组合将其分到树的左右两枝,对所产生的树进行Gini指标判定,从而找出最优组合项.如果只有两个值,那么就只有一种组合;如果是多属性(X1,X2,X3),则会产生(X1,X2)和 X3、(X1,X3)和 X2、(X3,X2)和 X1的 3 种组合.这是因为 CART 遵循着二元分割特性.对于n个属性,可以分出(2n-2)/2种组合情况.
(2)对于连续属性.CART算法对连续属性,先进行属性按值排序,分别取相邻两个值的平均值作为分割点,二分成左右两树,计算Gini指标,判定最佳分割点.对于连续属性分割一般运算量都比较大,本文后面章节将进一步介绍.
1.3 分类决策树建立步骤
S1:计算已有样本L的Gini指标值,利用公式(1)选择最小Gini指标作为决策树的根节点.
S2:整理样本集合的所有的子集组合,对于离散属性,计算所有子集得出最小Gini指数,对于连续属性,进行最佳分割阀值离散化.