数据挖掘技术在教学设计前端分析中的应用研究
2011-10-18欧阳明
欧阳明,肖 燕
(1.云南大学 职业与继续教育学院,云南 昆明 650091;2.云南大学 网络与信息中心,云南 昆明 650091)
数据挖掘技术在教学设计前端分析中的应用研究
欧阳明1,肖 燕2
(1.云南大学 职业与继续教育学院,云南 昆明 650091;2.云南大学 网络与信息中心,云南 昆明 650091)
教学设计前端分析是教学设计的第一步,在教学中起着至关重要的作用。数据挖掘技术(DM)是一种信息处理技术。在前端分析数字化的基础上,应用DM从中发现学习者的定量化特征,向决策者提供信息支持,有利于提高教学设计的质量水平。本文基于综合集成(Meta-synthesis)方法论,运用DM中的BP神经网络和层次聚类分析法对教学设计前端分析中的认知能力和学习动机做了研究,并对结果做了分析。
教学设计前端分析;数据挖掘;综合集成方法论;BP神经网络;层次聚类
教学设计对于教学工作科学化,提高学习者分析问题、解决问题的能力和培养科学思维能力与科学态度,促进教育技术的实践与理论的发展和适应信息社会发展的需求等方面都有着重要的意义和价值。前端分析,是教学设计的第一步,它是教学设计过程的基础,有助于理顺问题与方法、目的与手段的关系,其设计的好坏直接影响到后面的一系列工作。在不同的教学设计过程模式中,前端分析的内容略有不同,但主要包括:学习任务、学习需要、学习者特征和学习环境等。鉴于本文的研究主要定位于学科课程范围,学习需要和学习任务由学校学科专业所规定,学习环境一般在具体的情境中由授课教师掌握控制,又由于学习者是教学活动的主体,教学设计的一切活动都是为了学习者的学,学生之间存在着共性,也存在着差异,本文只对学习者特征做主要研究。对学生进行分析的目的是了解影响学生学习的认知能力、学习风格、学习动机。通过对学习者三个方面特征的研究,使得教师更好地把握学习者的情况,从而达到更好地实现因材施教、因风格施教的目的。
为了有利于后续教学设计自动化的探索,本文基于综合集成(Meta-synthesis)方法论,即将专家的知识与经验、统计数据和信息资料,以及计算机技术三者有机动态地结合起来,构成一个高度智能化的人机交互系统,把数据挖掘技术应用于数字化后的教学设计前端分析中,列举出实验过程,并对实验结果进行分析。[1]
一、理论基础
1.数据挖掘技术概述
数据挖掘(Data Mining,DM)是从大量的、不规则的、含有噪音的数据集中识别出有效的、新颖的、潜在有用的,以及最终可被人理解和利用的模式的高级处理过程。[2]它包含神经网络、聚类、粗糙集、遗传算法、决策树、关联规则等多种技术。它被广泛应用于各个领域,包括金融业、零售业、电信业及其他科技应用领域。
2.BP神经网络方法
BP神经网络 (误差反向传播网络)是目前使用最广泛、发展最成熟的一种经典的神经网络模型,它是一种监督学习型数据挖掘方法。BP神经网络是一种多层前馈神经网络,主要特点是输入信号前向传递,误差反向传递,并且在这个过程中不断修改权值直到达到目标值。[3]网络包括:输入层,隐层和输出层。其网络模型如图1所示:
其中,X1,X2……Xn是输入信号,Y1,Y2……Yn是输出信号,Wij,W jk代表权值。输入层输入信号,输出层输出处理结果信号,隐层处理信号,在处理的过程中,根据来自输出层的反馈信号,权值不断被调整,当输出层误差减小到预定值时,学习结束。可以说,BP神经网络学习的实质就是权值的改变。
3.聚类分析方法
聚类分析是一种无监督学习型数据挖掘方法,其实质是建立一种分类方法,它能够将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。[4]层次聚类是聚类分析中的一种方法,它是根据样本间的亲疏程度,将最相似的样本结合在一起,以逐次聚合的方式分类,直到最后所有的样本成一类。
根据聚类过程的不同,层次聚类法可分为方向相反的两大类:分解法(自顶向下)和凝聚法(自底向上)。[5]本研究采用的是凝聚法,其基本思想是:(1)假定N个样本各自成一类,计算类间距(等于各样本之间的距离);(2)选择距离最近的两类并成一个新类;(3)计算新类与其他类间的距离;(4)重复第2步和第3步,这样每次缩小一类,直到所有样本都成一类为止。
二、学习者特征测量方法
学习者特征主要包括认知能力、学习风格、学习动机三个方面。
美国著名教育心理学家布鲁姆(B.S.Bloom)的“教育目标分类”理论把教学目标分为认知、情感和动作技能三个目标领域,其中认知能力的目标按智力活动的复杂程度由低级到高级又可划分为六个等级:(1)认记——记忆或重复以前呈现过的信息的能力,也就是知识保持能力;(2)理解——用自己的语言来解释所获得的信息的能力;(3)应用——将知识(概念、原理或定律)应用于新情况的能力;(4)分析——把复杂的知识分解为若干个彼此相关的组成部分的能力;(5)综合——将有关的知识元素综合起来形成新知识块或新模式的能力;(6)评价——根据已有知识或给定的标准对事物作出评价和鉴定的能力。[6]根据认知能力的评估与测量方法的不同,可以把学生认知能力值测量方法分为两种:“小组评估法”和“逐步逼近法。”[7]本研究是根据“小组评估法”来设计量表测试学生认知能力的。
学习动机是指直接推动学生进行学习的一种内部动力,是激励和指引学生进行学习的一种需要。[8]本文学习动机测量是根据王迎、彭华茂、黄荣怀等[9]在《远程学习者学习动机测量工具的编制与应用》一文中提出的“远程学习者学习动机问卷”测量的,该问卷是根据奥苏贝尔的学习动机分类理论从三个动机维度,即认知内驱力、自我提高内驱力和附属内驱力来制定的一种测验学生学习动机类型和强度的表格。奥苏贝尔将学习动机划分为三个方面:即认知内驱力(cognitive drive)、自我提高内驱力(egoenhancement drive)以及附属内驱力(affiliative drive)。认知内驱力是一种要求了解和理解的需要,要求掌握知识的需要,以及系统地阐述问题并解决问题的需要,这是一种内部动机;自我提高内驱力是个体因自己的胜任能力或工作能力而赢得相应地位的需要,这是一种外部动机;附属内驱力:是个体为了保持长者(家长、教师等)的赞许或认可而表现出来的把学习或工作做好的一种需要,也是一种外部动机。[8]
学习风格 (Learning Style)的概念是由美国学者Herbert Thelen于1954年首次提出,在今天的教育和技能培训领域中,学习风格一词已是研究者最广泛使用的概念之一,学习风格理论已成为当今教育心理学一个新的领域。[10]学习风格是学习者持续一贯的带有个性特征的学习方式,是学习策略和学习倾向的总和。其测定方法主要有测验法、行为观察法、行为评定法和作品分析法。[11]其中,测验法是最主要的方法。学习风格的测量在手段上可以分为图式和量表两种形式。[12]大多数研究者采用量表方式来测定学习风格。学习风格的测量工具可以分为七种:场独立—场依存类型测量工具、荣格个性类型测量工具、感知觉类型测量工具、社会互动类型测量工具、多元智能类型测量工具、基于经验的学习风格测量量表、基于三维模型的学习风格测量量表。[13,14]所罗门学习风格量表属于多元智能类型测量工具。多元智力理论是由加德纳提出的,但他并未开发测量工具。[15]所罗门学习风格量表 (也称Felder-Silverman量表)是由Felder和Soloman于1997年开发的一种用来测量学生学习风格类型的量表,是教育领域比较有权威的学习风格量表。所罗门(Barbara A.Soloman)从信息加工、感知、输入、理解四个方面将学习风格分为4个组对8种类型,它们是:活跃型与沉思型、感悟型与直觉型、视觉型与言语型、序列型与综合型,比较全面地反映了学习者的学习风格,且具有很强的操作性,可以较好地进行学习风格的测试。因此,本文中学习风格测量选用“所罗门学习风格量表”测量。
三、调查问卷结果
本研究的调查对象是云南大学2008届职业与继续教育学院市场营销和财会专业现代教育技术学课程的89名本科生的认知能力、学习动机和学习风格。调查问卷共89份,经筛选整理后,有效问卷为89份。表1、2、3为问卷处理后的部分数据。
表1 认知能力
表2 学习动机
表3 学习风格
四、层次聚类方法分类
利用SPSS软件,用层次聚类分析法对上述问卷数据进行聚类得到分类结果,然后把结果反馈给被调查者,再由被调查者和专家对结果进行核实、探讨,取得共识,接下来对可疑或不合理的数据进行相应的调整,如此反复修改,最后形成用于接下来的实验研究中的学生特征分类结果。其中,把认知能力分为较强和一般两类,学习动机分为较强、中等和较弱三类。
学习风格的测量结果可以直接用于描述学习者,故不做进一步研究。
五、认知能力数据分析预测
1.BP网络设计
首先,需要获得网络的输入和目标样本。根据上面得到的学生特征分类结果,选取其中30组作为训练样本,样本被分为较强组和一般组。
接下来确定网络结构,根据Kolmogorov定理,采用一个N×(2N+1)×M的3层BP网络作为状态分类器。其中,N表示输入特征向量的分量数,M表示输出状态类别总数。对于本例,N=6。为了简化网络,用(1,1)表示较强状态,(1,0)表示一般状态。这样一来,就可以在网络中只设计两个输入神经元表示这两种状态类别。由此可得,该BP网络结构为:输入层有6个神经元,中间层有13个神经元,输出层有2个神经元。按照一般的设计方案,中间层神经元的传递函数为S型正切函数,输出层神经元的传递函数为S型对数函数,是因为该函数为0-1函数(后面我们必须将样本数据归一化到0-1内),正好满足状态类别的输出要求。
令P表示网络的输入样本向量,T表示网络的目标向量,由上表可得
利用如下代码建立一个符合以上要求的BP网络。网络的训练函数为trainlm,学习函数取默认值learngdm,性能函数取默认值mse。其中函数minmax设定了输入向量元素的阈值范围。
net=newff(minmax(P),[13,2],{'tansig','logsig'},'trainlm');
2.网络训练
可见,经过7次训练后,网络误差达到了设定的最小值,结果如图2所示。
3.网络测试与运用
网络测试的目的是为了确定网络是否满足实际应用的需求。选取7组“较强”状态数据和3组“一般”状态数据作为测试数据。利用上面设计的网络,判别它们分别属于哪一种状态。运行结果如图3所示:
图3 测试结果
由此可见,前7组数据预测其为“较强”状态,后3组数据预测其为“一般”状态,这与实际情况相符合,说明所设计的网络是合理的,可以投入运用。
六、学习动机数据分析预测
学习动机在BP网络设计、网络训练、网络测试与应用上的方法与认知能力相似,故不再赘述。在此只给出网络的目标样本T、训练的结果图(图4)、测试样本(表4)和测试结果(图5)。
目标样本为:
图4 训练结果图
表4 学习动机测试样本
图5 测试结果
由此可见,前2组数据预测其为“较强”状态,第3组数据预测其为“中等”状态,第4组不能判断其状态情况,第5组数据预测其为“中等”状态,第6组数据预测其为“较弱”状态,其中,第1、2、3、6组数据预测结果与实际相符合,第4、5组预测结果与实际情况不符合,故神经网络预测成功率为66.7%,基本可以使用。
七、小结
教学设计前端分析是一个复杂的问题,本文以从定性到定量综合集成方法为主,在大量实验数据的基础上,选用数据挖掘技术中的BP神经网络和层次聚类分析对教学设计前端分析中的认知能力和学习动机做了研究,系统预测成功率较高,这对于进一步开展后续的教学设计研究及实现教学设计自动化的研究起着很好的铺垫作用。☉
[1]于景元,涂元季.从定性到定量综合集成方法——案例研究[J].系统工程理论与实践,2002(5):2.
[2]陈文伟,陈晟.知识工程与知识管理[M].北京:清华大学出版社,2010:165.
[3]韩力群.人工神经网络教程[M].北京:北京邮电大学出版社,2006:59-64.
[4]杨晓明.SPSS在教育统计中的应用[M].北京:高等教育出版社,2004:247.
[5]瞿俊.基于重叠度的层次聚类算法研究及其应用[D].福建:厦门大学,2007.
[6]罗伯特·M·加涅.学习的条件[M].北京:人民教育出版社,1985.
[7]张正兰,张明,蔡绍稷.建造认知型学生模型的研究[J].南京师大学报(自然科学版),1997,20(1):2-4.
[8]陈琦,刘孺德.当代教育心理学[M].北京:北京师范大学出版社,1997:120.
[9]王迎,彭华茂,黄荣怀.远程学习者学习动机测量工具的编制与应用[J].开放教育研究,2006,12(5):1-4.
[10]李淑霞.成功远程学习者研究综述[J].成功(教育), 2007.
[11]陈晶,李玉斌,刘家勋.网络远程学习者特征分析方法初探[J].现代远程教育研究,2006(5).
[12]龙雪梅.WBI设计中的学习风格分析[J].西南师范大学学报,2001(8):480-483.
[13]陈丽.远程教育学基础[M].北京:高等教育出版社,2004(7).
[14]严加平.学习风格的理论与实践[D].上海:上海师范大学.2006.
[15]李康.远程教育理论中几个基本概念的探讨[J].中国远程教育,2005(2):5-7.
(编辑:金冉)
G40-057
A
1673-8454(2011)21-0084-04