计算机考试数据分析中数据挖掘技术的应用
2010-07-07刘俊熙
吴 英,刘俊熙
(上海政法学院,上海 201701)
0 引言
我院是一所文科类学校,计算机教研室承担全校所有的计算机基础课程,过去计算机考试都是采用局域网加FTP的上机考试形式,考试过程中存在一些弊端。在计算机课程的教学中,把传统笔试与计算机技术结合到一起的考试方式越来越被师生所接受。我院智能在线考试系统的设计和建立实现了学生上机考试。该系统通过网络服务器的设置,学生所用的计算机作为客户端来登录服务器获得试题,答题完毕后网上提交试卷,软件系统对学生的答卷按班级学号等进行分类、整理。然后进行智能化的判卷、给分(对部分题目类型能够实现)。
目前我们的考试系统经过一年多的实际运用已经可以快捷、安全的上传答卷,监考教师的负担大大减轻,并且可以通过该系统获取大量的、具体的考试数据。但是如何利用智能在线考试系统所积累的考试数据来分析教师的教学效果和学生的学习效果一直是该系统建立以来我们所需要分析和研究的,因为我们知道这些数据的分析有助于下一步的教学计划的制定和教学任务的实施,尤其是对学生对教学内容的兴趣、教学效果的检验等内容的分析和了解有助于我们有的放矢地进行教学活动的计划和实施。正是在这样的背景下,采用数据挖掘方法中的交叉表分析和相关分析,获得的分析结果将有助于完善计算机教学计划的更好实施。
1 数据挖掘技术的基本理解
人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。
对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能,从而更好地对决策或教学工作提供支持。正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于数据库的数据挖掘(Data Mining)技术得到了充分的应用。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。其方法通常可以分为两大类:
1)统计型。常用的技术有概率分析、相关性、聚类分析和判别分析等,统计学的领域包括概率论和统计推理,这些都惯用于创建代表数据集的模型。一些数学家还认为数据挖掘中使用的模型实际上都是统计方法。统计方法的优点是精确、易理解且已广泛使用。许多人认为统计方法是数据挖掘最准确的形式,事实上,许多数据挖掘技术都利用存在已久的统计技术。如关联算法使用了支持度和置信度;聚类技术使用A均值算法;
2)人工智能中的机器学习型。通过训练和学习大量的样品集得出需要的模式或参数。数据挖掘的应用中,最终的目标都是发现有价值的知识和信息,有共同的思路和步骤,但也存在很大的差异和区别。由于各种方法都有自身的功能特点以及应用领域,数据挖掘技术的选择将影响最后结果的质量和效果,通常是将多种技术结合使用,形成优势互补。
2 数据挖掘技术的方法分析
在本文中我们以SPSS中的多维交叉表分析和关联分析为例,阐述数据挖掘在我学院智能在线计算机教学考试系统中的应用。
2.1 多维交叉表分析
所谓多维交叉表分析是显示两个或多个变量的联合频数分布表,简称列联表或交叉表。它属于离散多元分析的范畴,生成二维或多维交叉表,主要用以分析各事物、现象的差异性,判明所考察的各变量之间有无关联。例如想了解不同性别,受教于同一教师情况下,对学习所关心内容之间的关系,可以利用该过程形成一个二维统计表,以显示不同性别,受教于同一教师情况下,对学习所关心内容人数频数分布情况、相关度,并可选择适宜的方式进行检验。在多维交叉表分析可以选择输出所选变量之间的相关系数表,下面就相关分析和相关系数做简单介绍。
2.2 关联分析
在数据挖掘中关联规则挖掘就是从大量的数据中挖掘出有价值描述数据项之间相互联系的有关知识。随着收集和存储在数据库中的数据规模越来越大,人们对这些数据中挖掘相应的关联知识越来越有兴趣,早先关联挖掘应用于超市和大卖场等零售行业,人们从大量的交易记录中发现有价值的关联知识,帮助进行商品目录的设计、交叉营销或帮助进行其它有关的商业决策。根据关联规则所涉及的关联特性来进行分类划分,关联挖掘可扩展到其它数据挖掘应用领域,如进行分类学习,或进行相关分析。
客观事物之间是相互联系、相互影响和相互制约的,事物之间的这种相互联系反映到数量上,说明相关的变量之间存在着一定的关系。一般来说,变量之间的关系可以分为两类,一类是确定性关系,即通常的函数关系,例如圆面积S与半径r的关系,S=∏r2。又如电流强度I、电阻R和电压V之间的关系I=V/R。另一类是非确定关系,即相关关系,例如人的身高与体重,身高不同的人体重有差异,但是身高相同的人,体重有不一样。同样,体重相同的人,身高也不一定一致。这说明身高和体重之间不是确定的函数关系。但是人们大概不会怀疑身高越高的人体重越重这一事实,身高和体重的关系就属于相关关系。相关分析就是是以分析变量间的线性关系为主的,研究他们之间线性相关密切程度的一种统计方法。
通过几个描述相关关系的统计量可以确定相关的密切程度和线性相关的方向。这些统计量中包括:
1)皮尔逊(Pearson)相关系数,通常用R表示。如果对变量X和Y进行观测,得到一组数据:xi,yi( i=1,2…,n),X 和Y之间相关系数的公式为:
|Rxy|≤1。0< Rxy<1,称Y与X正相关;-1<Rxy<0,称Y与X负相关;且|Rxy|越接近1,则
说明变量Y与变量X之间的线性关系越显著。如果Rxy则称Y与X不(线性)相关。当|Rxy|=1时,称X与Y完全(线性)相关。
3 数据挖掘具体实证及步骤
3.1 数据采集
数据采集就是从大量数据中取出一个与挖掘目标相关的数据子集,通过数据样本的精选,不仅能减少数据的处理量,还能突出相关的规律性,为此数据采集中的取样的代表性和质量尤关重要。本文选择以下数据作为分析指标,如表1所示。
3.2 分析数据、定义变量
对于选择题,要先考虑将每道题目定义成一个变量,如性别定义为Gender变量、上传时间定义为Time变量、考试得分定义为Score变量、任课教师定义为Teacher变量。又由于SPSS不能处理字符型变量,因此要将定性答案转换为数字型答案,转换前后变量值的对应关系如表2所示。
表1 数据采集样本表
表2 数据分析和定义变量表
替换好以后的数据表如下图所示。
3.3 交叉表分析
3.4 相关分析
4 结论分析
1)从交叉表中我们可以看出不同性别层次的学生、不同任课教师、学生考试成绩分布的交叉情况。例如对于男同学来说,共计15个人,任课教师分别为2和3(教师代号):其中2号教师取得90分以上成绩1人,60~70分3人,不及格一人;3号教师90分以上1人,80~90分1人,60~70分6人,不及格2人。从总体来看,男同学成绩两极分化比较严重,极个别男同学成绩优秀,而多数男同学成绩徘徊在及格边缘;与此相比,女同学成绩相对较好,多分布在70分以上。根据这一分析,授课教师应该加大对班级男同学的监督力度,授课时适当多考虑男同学的听课兴趣所在,一般来说,只要激发其兴趣,男同学会有很强的钻研精神和动手能力。
2)从相关分析我们可以看出,教师同学生成绩之间的相关系数并不高,仅为0.125,说明两者之间并不存在明显相关性,这可能同我校计算机基础课教师统一教材、统一试验、统一教学重点有关,因为课程内容高度统一,所以教师个性发挥在成绩中表现不明显。
应该指出,本文举例仅仅是是数据挖掘在我院计算机教学智能在线考试系统数据分析中的一个小样本数据具体应用,在实际统计工作中可扩大样本容量进行更深入的分析后再对问题下一个较准确的结论。事实上数据挖掘的功能远不止如此。采用数据挖掘方法可以将原本独立的、分散的问题联系起来,展现了问题的本质和潜在联系。可以帮助教师更深入的了解学习效果同哪些因素有关,从而加强相关因素的建设工作,以求达到更高的目标。
同时通过分析总结,笔者对数据挖掘应用到计算机考试系统数据分析运用上提出更具体的建议:
1)对需要解决的问题拟定更为详细的挖掘目标。虽然数据挖掘的最后结构是不可预测的,但对要探索的问题应该有所预见,不能盲目地为了数据挖掘而数据挖掘。清晰地定义出要解决问题,认清挖掘目标是数据挖掘的重要一步。
2)数据准备。数据挖掘对数据有着严格的要求,先期的数据准备工作要占60%的时间,且对数据挖掘的成败至关重要。如果是根据考试系统进行搜集,事先要根据待解决问题和打算采用的更为周全而完善的数据记录方式;在数据收集的过程中要注意收集指标的全面,对于缺失的数据要采用一定方法进行弥补。数据准备工作不到位,意味着后面的工作注定是不完整而且是缺乏代表性的。
3)选择适当的数据挖掘方法和软件。很多数据挖掘方法都是成熟算法,但根据挖掘对象和挖掘目标的不同而选择不同的算法则需要一定的经验或创新,借助数据挖掘软件可以使数据挖掘变得简单易行,目前使用最广泛的数据挖掘软件是SPSS和SAS。
[1] 袁燕.决策树算法在高校教学评价系统中的应用[J].浙江海洋学院学报,2006,04.
[2] 彭玉清,等.数据挖掘技术及其在教学中的应用[J].河北科技大学学报,2002,04.
[3] 韩冬.数据挖掘在学分制教学管理中的应用[J].教育信息化,2007,07.
[4] 盛宇,刘俊熙.数据挖掘在政府电子公共化服务中的应用[J].情报杂志,2007,7.
[5] 罗雨滋,付兴宏.数据挖掘在教育信息化中的应用[J].固原师专学报,2005,06.
[6] 林少培,董伯懦.工程MIS中的数据挖掘和知识深化的探讨[A].智能技术应用与CAD学术讨论会,论文集,2004.