数据挖掘技术在信息可视化教学中的应用研究
2011-08-15康婧
康 婧
哈尔滨商业大学,黑龙江 哈尔滨 150025
信息时代的来临让我们面临着海量的信息,于是从这些信息中检索和分析出我们想要的数据就变得越来越困难,而信息可视化技术以及数据挖掘技术却可以帮助我们处理这些洪水般的信息,信息可视化数据检索的优势就在于可以让用户直接参与数据挖掘的过程。我们先来看一下数据挖掘以及信息可视化的基本概念。
1 相关概念
1.1 信息可视化
信息可视化是现代计算机技术中一个迅速发展起来的领域,人们可以通过它来进行视觉信息搜索以及相关的信息探索,是“以计算机支持的、交互的用来表现抽象数据和扩大认知的视觉表示法”[1],信息可视化的信息搜索过程是在可视的界面上进行交互的数据浏览以及分析,用户可以规定要点或者方向,如果数据信息目标不明确或者信息量少,就可以成为信息检索以及数据库查询的有益补充。
1.2 数据挖掘的基本概念
数据挖掘DM(Data Mining),也可以称之为数据库中的知识发现,根据Usama、M.Fayyy等给出的定义就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程[2]。数据挖掘就是在大量的数据中提出有用的知识。
2 数据挖掘在信息可视化教学中的应用价值
而我们由以上信息可视化和数据挖掘的定义可以看出,把数据挖掘应用于信息可视化的教学活动中,也有着非常重要的价值,其主要可以体现在以下几个方面。
2.1 教材多媒体化
利用多媒体技术展示出可视化的信息,从而使教学内容更具形象化、动态化以及结构化。教学活动的辅助工具,比如教材、工具书、电子课件等都呈现出多媒体化的发展趋势,它们不但包含了更为丰富的、大容量的图像和文字,还可以呈现出动画、声音、录像等,甚至包括模拟的三维场景。通常情况下多媒体教材的制作采用的都是二进制的制作、处理和信息的传递,将相关信息附加其主体中,从而为数据挖掘提供了实现的可能性;而与传统的纸质教材相比,多媒体课件涉及到的信息量大、形式多样,于是数据挖掘技术就应运而生,迎合了多媒体课件中对海量信息进行搜索和分析的功能。
2.2 资源全球化
可以说网络资源是全世界最大的教育资源库,不仅信息量大,而且资源类型多种多样。其教育资源包括各种教育书刊、大大小小的教育网站、各类虚拟的图书馆、软件库等等,方便了教育工作者进行所需教育资源的查询和应用,但是由于网络资源还存在大而无当、缺乏组织性等现实情况,导致网络信息的利用率相对比较低。并且网络技术的发展越来越快,因特网每天都会新增上千万个文件,并且平均每8个月都会增长一倍,而在全球范围内的服务器数量更是每年都成几何倍数递增[3],在这种情况下的信息搜索就如同大海捞针。以上情况如果利用数据挖掘技术,就可以将海量信息实现数据结构化,从而方便了用户的搜索和查询。
2.3 教学个性化
传统的教学活动中老师与学生的交流是面对面的,老师凭借着经验对学生做出个性特点以及接受能力的判断。而信息化教学则是将学生相关信息的采集活动由人工的形式转向自动化,智能系统将输入的学生相关信息进行分析,从而为教学活动提供帮助。但是系统毕竟是根据一定的程序规则编写的,因此给出的信息是仅仅是在一定规则下形成的,很多时候还是无法判断其是否准确。这种情况下就可以借助数据挖掘技术,将大量的可视化信息进行深入挖掘,而后提取分析,从而得出更为准确的信息资料。
2.4 活动合作化
团队合作能力是现代社会中必不可少的一项基本能力,而合作学习的形式也多种多样,比如借助计算机进行网上合作学习,或者将计算机当做合作伙伴进行合作学习等等。但是不管哪种合作学习形式,都有大量的信息需要接受或者反馈,才能及时的做出判断达到提高能力的目的。如果信息处理不及时或者不妥当,那么面对“泛滥”的信息反而会有信息“匮乏”之感,因此在这种情况下运用数据挖掘技术可以将海量的数据信息进行有效的整合及传输。
2.5 管理自动化
计算机管理教学系统朝着在网络中建立电子学档功能的趋势发展,电子学档包括了学生的活动记录、身份信息、电子作品以及评价信息等各个模块。电子学档可以帮助改革教学评价模式,实现评价活动面向学习全过程的目标。但是实际设计开发中这种做法非常有难度。主要有3点原因:首先是系统分析处理的特性与学生进行事物处理的特性不同。一个计算机教育系统则相对要复杂,因此就要用到数据挖掘组件将处于同一环境中的两种应用进行协调处理;其次,一般计算机教育系统中的数据相对分散,对于信息的采集和分析都比较不利。这时就可以利用数据挖掘技术将这些数据集成、整合,并根据学生对信息的反馈进行及时的动态更新,最终将这些信息反馈给老师;最后,现在很多计算机教育系统对于历史数据的利用率不高,因此如要老师要想在大量的历史数据中找出教学线索是非常困难的,并且适时数据与历史数据相比较才可以反映出学生的变化情况。因此数据发掘技术的运用就变得非常有必要。
3 数据挖掘在信息化教学中的应用难点
第一,数据挖掘还仅仅只是一种信息工具,其作用是通过历史数据来预测出学习者未来的行为,但很多时候其实学习者自身都无法规划下一步具体要做什么,因此,这样的预测只能说一是种概率;第二,数据挖掘技术即使可以预测到学生将来的行为,但并不显示预测的依据和过程,即学生为什么会出现这样的行为等,比如一个课堂上很认真听讲的学生成绩却很差等等,这其中的根本原因无法通过数据挖掘来实现;第三,数据挖掘在信息化教学中的应用还处在发展中阶段,并且数据挖掘包含神经网络、人工智能、模糊理论、数理统计等多项技术。另外,学生的学习过程、学习特征和学习结果很多时候都无法用数量的方式表达,所以相对来说要进行数据挖掘的开发有一定的难度;第四,学生的特征需要利用数据挖掘技术来提取,这就会涉及到文化背景、社会环境以及价值理念等各个方面,因此对于该项技术的开发和应用都有一定的影响。
4 数据挖掘在信息可视化教学中的应用范围
4.1 教学管理
学生的知识结构和学习风格是在校学生的基本特征。其中,学生正在学以及将要学的知识的掌握构建了学生的知识结构,主要包括学生的基础技能、当前技能以及目标技能三个方面;而学习风格则更侧重于学生的社会特征、心理特征以及生理特征等。数据挖掘技术可以通过对学生状态的掌握以及学生特征的分析,达到帮助学生修正学习行为的目的。将学生的特征分析结果与行为目标标准做比较,学生根据比较的结果进行学习行为的修正,完善人格、提高能力。并且计算机在教学管理方面的应用越来越广泛,老师以及学生的各种信息,比如工作、学习、处罚以及奖励等都被储存在教学管理数据库中。所以利用数据挖掘的演变分析以及关联分析,可以在数据库中挖掘出更有价值的数据,从而分析学生的日常行为,找出行为之间的内在联系。
4.2 教学评价
教学评价的过程,就是根据教学的一般规律和教学大纲中制定的目标要求,通过系统收集相关信息,对教学活动和教学结果进行价值的判断。其主要内容是对学生“学”的评价以及老师“教”的评价。现在我国高等院校的评价指标主要以学生的课堂教学评价指标以及综合测评指标为主,但是却无法准确的判断出各指标的重要程度、它们之间的关联性以及指标的存在是否合理等情况。如果将数据挖掘中的关联规则模型以及粗糙集理论用于评价系统中,就可以对指标进行约简、排序,优化评价指标,从而找出更为简单易行的、科学的评价方法[5]。此外,学习评价也属于老师的重要职责,对学生的学习行为进行科学评价,既可以激发学生的学习动机,又可以通过学生所反馈的信息检查教学程序、课程计划等。利用数据挖掘技术对学生的行为记录、学习成绩、奖励处罚等各个数据库的信息进行处理分析,及时得出对学生的评价结果,如有偏差做出及时的纠正,还可以克服人为评价中不客观、不公正的缺点。
4.3 课程设置
高校的课程设置一般都是遵循“先基础、后专业”的规律,进行循序渐进的学习。不过即使一般规律是特定的,每个学期的课程也不能一成不变,因此要合理的设置每学期的课程,既要使其遵循一般的教学规律,又要符合学生的实际情况。比如同一课程由不同专业的学生学习时,其总体成绩会相差较大。这时可以将教学数据库中存放的历史成绩,利用数据挖掘的时间序列以及关联分析功能,从历史数据中挖掘出相关信息,并分析其中的回归性、相关性,从而找出具有价值的信息以及规则,最终得出影响学生成绩的真正原因[6]。
4.4 教学过程与教学方法
在一门课程的教学活动中,老师一般会利用多种教学方法实现教学目标,比如案例法、实验对比法、讨论法、参观学习法、调查法以及多媒体辅助法等。这些教学方法经过大量学生、多个班级以及不同教学任务的实践后,储存在教学数据库中。可以利用数据挖掘技术,对数据库中的相关数据进行深入挖掘和分析,从而找出对应专业可以采取何种教学方法,可以更好的满足教学要求。这种方法可以帮助学生有效的吸收和理解相关专业知识。当课程结束以后,再把每个学生的成绩结合教学方法的评价,运用数据挖掘中的关联规则以及回归线性分析做出判断,这种方法对于分层教学、分类教学都有着非常重要的指导意义和推广意义。
5 数据挖掘在信息可视化教学中的具体应用
我们以数据挖掘技术在信息可视化教学中的教学评价为例,来说明其具体应用。
5.1 采集数据
5.1.1 数据集成
把来自多个不同数据源的数据进行集成合并,将数据采集所得到的多个不同的数据库文件,利用相关的数据库技术生成分析学生成绩信息的基本数据库。
5.1.2 数据清理
数据清理最主要的工作,就是对遗漏的数据值进行补充。由于学生的成绩信息基本数据库中很有可能缺乏我们所需要的、对研究有所帮助的属性值,所以,我们可以利用数据清理技术来补充这些空缺。
5.1.3 数据转换
数据转换是针对数据做规格化的操作。因为除了个别的连续值属性外,大部分均为离散值属性,因此要把连续值属性作离散化处理。可以采用概念分层技术,把连续值属性离散化。直方图分析法是一种相对比较简单的离散方法,其分为等深分箱以及等宽分箱两种。
5.1.4 数据消减
数据消减的主要目的就是缩小挖掘的数据规模,但对挖掘结果却不会造成影响。可以利用消减维数法,从初始的特征属性中搜寻有用的特征属性,从而减少挖掘时需要考虑的变量个数或者特征属性。
5.2 数据分类挖掘
其目是就是为进一步建立成绩分析决策树的模型而做。通常在训练集相对较小的情况下,分类挖掘可以采用C4.5或者ID3算法,本文采用ID3算法。
5.2.1 ID3算法
该算法从决策树的根节点的训练样本开始,选择一个属性对这些样本进行区分,每一个属性值都产生一个分支,再把分支属性值的相关样本子集移至新生的子节点。这种算法递归的应用于各个子节点,直至一个节点中所有的样本都被分配至某类中。ID3算法采用的是由上至下、分而治之的递归方法构建决策树。
5.2.2 属性的选择
可以采用信息增益的办法来选择属性。通常选择有最高信息增益的属性,作为当前的节点测试属性,从而保证了在对训练样本子集分类时的信息最小化,确保决策树的结构最为简单。
6 结论
总之,信息化的教育使得信息容量急速增长,对于信息的搜索以及提取分析也有了更高的要求。利用传统的搜索技术从海量的信息中找出决策依据,变得越来越困难。因此我们必须借助数据挖掘技术,找出海量信息中隐藏的模式或者规律,从而为信息可视化教学提供更加有力的技术支持。虽然作为一种工具,数据挖掘不可能取代老师的作用和地位,但是它却为老师的决策分析提供更为科学和简便的依据,为传统教学中难以获取的教学模型的建立提供了更为便捷的途径。
[1]韩子良,毕杼.数据可视化在数据挖掘中的应用[J].计算机应用与软件,2003(11):71-73.
[2]祝智庭.教育信息化:教育技术的新高地[J].中国电化教育,2001(3):112.
[3]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2001:675-677.