基于属性相关的智能学习指导模型的设计与实现
2012-10-20张春飞李万龙魏久鸿
张春飞,李万龙,魏久鸿
(1.吉林大学计算机科学与技术学院,吉林长春 130062;2.长春工业大学计算机科学与工程学院,吉林长春 130012)
计算机网络技术的飞速发展,给教育事业注入了新的活力,使得在线教育成为当今社会的一个热门话题,同时也使其成为一个值得进一步发展的领域。与快速发展的教育理论相比,传统的教育组织和教育理论的矛盾是显而易见的。20世纪80年代后期,基于认知学习的建构主义理论在教学领域成为国际教育改革的主要理论。建构主义者强调以学习者的自主学习为中心[1]。此外,当代信息技术的最新成果也为该理论提供了强有力的支持,使得在线教育得以快速发展。在线教育是一个完整的过程,其中包括了教学的组织、教学的实施以及交互的过程。在线教育的目标是通过对教学资源的设计、开发和管理及对学习者评估来达到对学习者学习效率的提升。作为传统课堂教学的补充,个性化教学在教学理论和实际实施过程中得到了很好的应用。个性化教学离不开智能技术的支持,如数据仓库和数据挖掘技术等。但同时它也存在一些主要的缺点,如延迟反馈学生的学习情况。究其根源在于面向知识的系统只能提供同步或异步的学习材料。在综合考虑教与学的交互过程及个性化学习特点的前提下,智能指导系统应运而生。它主要是模拟人类的传统教学理论,在教学过程中能够快速接收学习者的反馈信息,并最终形成个性化的学习指导,使教与学的质量得到显著的改善。
1 Web数据挖掘
网上学习和在线学习领域已经取得了巨大成就。随着网络教育的快速发展,已经积累了大量的教学资源。同时,如何有效地利用这些资源,更好地为个性化教育服务成为一个亟待解决的重要问题[2-3]。解决智能教学问题是智能指导系统的核心,考虑到每一个学习者的特点和兴趣爱好的不同,系统设计的最终目标是实现个性化教和学。然而,由于系统不能同时满足学习者的所有要求,诸如,每个人课程的积累情况、不同种类学习资源的管理、及时的信息反馈、评估系统的效率及教学指导机制等,因此针对每一个学习者的智能指导是很难实现的。通过使用不同的数据挖掘技术和对学习者自我学习信息的分析处理,构建了学习者模型,学习路径主要由路径挖掘模块来实现。同时,将C4.5算法应用于学习评估模块,以此来改善自主学习者的学习效率,增强个性化教学的管理效果,为个性化教学提供坚实的基础。
2 模型设计
2.1 智能指导系统模型
智能指导系统主要由以下部分组成:信息采集模块、个性化分析和评估模块、个性化调度模块、学习工具模块、管理工具模块、领域知识、学生信息、教学规则和教学策略等。系统结构如图1所示。
图1 基于网络的智能指导系统模型Fig.1 Model of intelligent guiding system based on the network
信息采集模块负责收集不同类型用户的请求,并通过对领域知识集的使用来跟踪每个用户所采取的行动。同时,负责将研究的所有数据存储到系统数据库中。所有的学习信息和Web目录信息将被系统进行收集并作为输入数据源供个性化分析和数据挖掘过程使用。借助于个性化分析和数据挖掘这2种先进的技术,多用户所共有的普通特点和单用户所具有的个性特点也将被抽象并存入数据库规则集中[4]。教学策略库主要用来存储教学专家根据以往的实际教学经验所总结出来的教学策略,记录教学策略是通过利用分配不同的权重表示知识的方法来实现的。当授权的学习者登录系统后,这些结果将被传送给个性化调度模块。然后,系统将根据规则调度工具和资源,为每个学习者提供个性化的学习环境。通过上述步骤,个性化的学习请求得到了满足。根据每个学习者的学习效果,系统将及时修改相应的参数和系统规则的可信度。经过多次增值和修改后的规则将更好地反映每一个独立用户的实际需求,同时,规则的精确可信度也将得到显著提高。
2.2 领域知识库
领域知识包括教学相关的知识和可用的教学资源。它主要是由相关的教学领域的知识点和这些知识点之间的关系组成,代表一个知识点与其他知识点的关系。领域知识库包含2部分:知识点属性库和知识树库。知识点属性库是教学内容的集合,是最基本的单位。知识点可能是事实、概念、规则、公式、定义等,也可能是解决问题的方法。每一个知识点直接和一系列的相关教学材料关联,如多媒体资料、相关的问题集、测试资料、课件、案例研究等。在该系统中,这些知识点的所有属性和关系都是通过属性来记录的,诸如对于知识属性的理解用于标记课程的重要性,知识点之间的关系反映了知识点之间的关系属性。属性相关的知识点形成一个独特的网络结构,将更大程度的知识点聚集在一个子集,这些知识点将用来形成课程、单元和章节。如图2所示,由虚线表示的虚拟层由课程、单元和章节构成。知识点的编码结构为course code,chapter number,section number,knowledge point number。这些知识点间的关系采用树型数据结构来表示,并且存储在知识库中。
图2 领域知识模型Fig.2 Model of domain knowledge
2.3 高等数学学科的个性化评估模块的设计
在智能指导系统中,关键的一步是根据学生信息建立教学规则。当学习者访问知识库以后,这些学生的信息便自动留在信息库中,通过使用连续的挖掘方法,学习者的行为将被进一步挖掘[5-7]。这将进一步丰富教学策略库,为每一个用户提供个性化的学习指导,真正实现个性化教学理念。例如,经过一段时间的数据挖掘后,系统能够找到相对于某个学习级别的各个知识点的最佳组织顺序。这些最佳的组织顺序将被作为默认的学习路径或者推荐的学习路径。如图3所示,决策树分类算法用于实现个性化分析和评估模块。通过分析和评估学习结果,进一步优化教学策略。
图3 评估模块Fig.3 Evaluation module
3 算法设计
3.1 C4.5算法
决策树通常作为数据挖掘算法的工具使用,决策树分类算法采用自上而下、分而治之和递归等方法将数据划分为几个子集,在基于树的拓扑结构中建立相应的分类模型。在智能指导系统中,决策树分类算法是反映其智能性的关键因素。QUINLAN于1979年提出构建决策树ID3算法,在ID3算法中,决策节点属性的选择是应用信息论中熵的概念[8-9]。通过信息属性来获得最大值以创建决策树,节点的属性能保证决策树具有最小的分枝数和最小的冗余。后来,QUINLAN又提出了更先进的C4.5算法,C4.5算法是对剪枝算法ID3的修订,更适合于高分枝属性和空值属性[10]。笔者在C4.5算法的基础上,提出了新的C4.5r决策树分类算法。新的C4.5r算法主要是基于简化规则的相关性来实现的,应用该算法构建了高等数学个性化学习评估系统。
3.2 改进的算法
应用C4.5算法分类一些未知样本时,系统可能会遇到过度拟合的问题。因此,在分类前,有必要先简化样本集。以下是改进的C4.5算法的执行过程,把该算法命名为C4.5r算法。
使用C4.5算法构建一个完整的决策树T。
将T转换成规则集R,r对应T中从根节点到叶节点的一条路径。
R:riif Cond1∧Cond2∧…∧Condnthen class Cx。
简化R中的每一个规则ri的过程如下。
在上述过程中,引入参数λ表示P(Condi+1∧Condi)的阈值,它类似于关联规则中最小支持度的概念,默认值是0.15%,λ值用于控制删除规则中过度拟合的部分。最后合并和简化R中相同的规则,并得到一个新的规则集R′。
建立一个属性关联矩阵(tvs)n×n。根据矩阵中元素的取值来表示属性的相关性:
简化R′中的每一个规则r′的过程如下。
在这个过程中,首先判断属性Av和As之间的相关性,其中Av和As分别属于Condi和Condj。如果Av和As相关联,那么在规则中保留Condi和Condj;否则,重新计算2个条件概率,根据可信度,删除Condi或者Condj。最后,合并和简化R′中的相同规则,得到一个新的规则集R″。
4 实验结果分析
在本文中,对于给定的一组数据,分别对C4.5算法和新的C4.5r算法进行测试。测试的参数包括运行时间、分类的正确性、规则的数量和规则集的大小。实验结果如表1所示。实验结果证实,新的C4.5r算法在确保分类精度的前提下,在运行时间等方面具有明显的优势。
表1 C4.5算法与新的C4.5r算法的比较Tab.1 Comparison of C4.5algorithm and C4.5ralgorithm
5 结 语
智能指导系统的建设对于互联网教育具有深远的意义。数据挖掘技术及其应用对于系统在智能方面的实现发挥了至关重要的作用。通过分析和研究C4.5算法,本文基于新的C4.5r算法提出一个简单的应用。实现结果表明,新的C4.5r算法在运行时间、产生式规则集的规模及计算产生式规则的开销方面相对于传统的C4.5算法具有显著的优势。为了更有效地将该算法应用于智能指导系统,在执行时间、产生式规则集的规模等方面仍需要进一步改进。这也是后续研究中需重点解决的问题。
[1] 徐红艳,冯 勇.基于Agent集成学习情境的E-Learning系统设计与实现[J].计算机工程与设计(Computer Engineering and Design),2009,30(2):515-520.
[2] 汪启军,申瑞民.基于 Web Mining的智能化、个性化的远程教育模型研究[J].计算机工程(Computer Engineering),2000,26(12):157-159.
[3] 邓 晖.论网络环境下的学生特征分析系统设计[J].开放教育研究(Open Education Research),2003(1):30-32.
[4] 高 阳,廖家平.基于决策树的ID3算法与C4.5算法[J].湖北工业大学学报(Journal of Hubei University of Technology),2011,26(2):54-57.
[5] 谭俊璐,武建华.基于决策树规则的分类算法研究[J].计算机工程与设计(Computer Engineering and Design),2010,31(5):1 017-1 019.
[6] 李 萍,李法朝.基于决策树的知识表示模型及其应用[J].河北科技大学学报(Journal of Hebei University of Science and Technology),2009,30(2):87-91.
[7] 李国刚,李 艳,李云红.一种归纳算法的研究与改进[J].河北工业科技(Hebei Journal of Industrial Science and Technology),2009,26(5):325-327.
[8] 刘兴文,王典洪.一种基于变精度粗糙集的C4.5决策树改进算法[J].计算机应用研究(Application Research of Computers),2011,28(10):3 649-3 651.
[9] RAHMAT H,MUSTAPHA A.Measuring differences in accuracy,compactness and speed between C4.5and CPAR in classification[J].Journal of Communication and Computer,2012,9(1):42-46.
[10] 高长元,彭定洪.综合评价模型自动选择研究[J].哈尔滨理工大学学报(Journal of Harbin University of Science and Technology),2011,16(6):118-123.