数据挖掘技术在高校“思想道德修养与法律基础”课程评价的应用
2015-06-10邹静杨劼
邹静?杨劼
摘 要:课程评价方法的科学性、准确性和有效性一直是高校“思想道德修养与法律基础”课程改革的重点内容之一。本文尝试着将数据挖掘技术应用于“思想道德修养与法律基础”课程评价之中,通过对相关数据的择取、挖掘和分析,获得科学而可量化的课程评价结果,进而指导教学改革。
关键词:数据挖掘;关联规则;课程评价
1 概述
“思想道德修养与法律基础”课程是高校思想政治理论课的重要课程之一,其主旨在于帮助大学生提升思想道德素养与法律素养。思想道德与法律素养是人的基本素养,表现在人们协调、处理各种关系时的是非善恶判断和行为选择,决定着人们在日常生活中的行动目的和方向。“思想道德修养与法律基础”课程融政治性、思想性、知识性及实践性于一体,主要任务在于以马列主义、毛泽东思想、中国特色社会主义理论体系为指导,针对大学生成长成才过程中所面对的思想道德和法律问题,通过人生价值观、道德观和法律观的教育,使大学生成长为社会主义事业的合格建设者和可靠接班人。
因此,“思想道德修养与法律基础”课程在当代大学生的课程体系当中占据相当重要的位置。
2 数据挖掘
2.1 数据挖掘概述
数据挖掘(Data Mining)技术是指挖掘巨大数据背后潜在知识,找寻关系数据库里数据信息间隐藏的规则和联系的过程。这门技术属于跨学科技术,融合统计学、模式识别、数据库、机器学习、可视化技术以及人工智能等于一体,能够自动化地分析海量数据。随着信息技术的快速发展,在海量的数据信息中,数据挖掘技术能够预测数据未来的走向,给决策者提供有效的决策数据,从而做出有效决策,提高管理或行为控制效率。
2.2 数据挖掘的功能
描述和预测是数据挖掘的两大基本功能。描述即分析现有数据,刻画出数据的一般规律,进而发现数据之间的联系;预测是指分析现有数据,从而预测数据未来走向和趋势。
2.3 数据挖掘的特点
数据挖掘与传统信息基础相比,其特点在于:
(1)数据的海量性。数据挖掘的应用必须是在海量的数据基础之上,需要从多个数据库中抽取经过预处理后的有效数据。
(2)数据的离散性。数据挖据技术是针对离散型数据进行的分析和应用。因而,在进行数据预处理时,往往需要进行数据离散化处理才能供数据挖掘工具进行处理。
(3)技术的实用性。数据挖掘技术现已被广泛应用于金融领域、医学领域、农业领域、商业领域等诸多领域,其能够在分类与预测中给予决策者有效的决策信息,从而做出科学决策。
(4)结果的动态性。数据是瞬息万变的,随着数据的不断变化,数据挖掘结果也会发生相应改变,具有实时性、动态性的特征。
2.4 数据挖掘的常用技术
从创建至今,数据挖掘技术涉及各种学科领域。不同学科特点的挖掘技术存在着非常大的差异。因而,针对不同学科选取的技术也会有所区别。当前,数据挖掘的常用技术包括决策树、关联规则、人工神经网络、模糊集和粗糙集等,他们的基本概念和优缺点各不相同。目前应用较为广泛的几种挖掘方法,它们的特点是:决策树:易于构造,简单清晰,但难以预测连续性数据;关联规则:适应性强,结果清晰明了,但需要准确设置最小支持度和最小置信度;人工神经网络:适应性、自学习和容错性强,具有并行处理能力,但数据准备花费大,挖掘过程复杂难理解,且对设计者的要求高。可见,了解数据挖掘常用技术,掌握其不同优缺点,并依据不同的挖掘领域和挖掘任务,选取恰当的技术,对于挖掘结果的科学性至关重要。
2.5 关联规则挖掘
关联规则(Association Rule)是在数据挖掘的一个重要研究方向,用以描述事物间的相互联系,是数据中一种简单实用的规则。关联规则的定义是:在给定一个事务数据库的范围内,基于支持度(Support)-置信度(Confidence)框架中,发现数据之间大量有趣的相互联系,找出所有支持度和置信度均满足用户设定的最小支持度阈值和最小置信度阈值的关联规则。
支持度的算术表达式为:Support(X?Y)=P(X∪Y),即该条规则在所有事务中所占的比例,是表示这条关联规则的频度。
置信度算术表达式为: Confidence(X?Y)=P(Y︱X),即在包含X的事务中,出现Y的概率,它是关联规则准确度的衡量标准。
从上述关联规则的定义发现,任意两个事务之间都存在大量属性值的不同的关联规则。实际上,满足一定出现几率且具有实用性的关联规则才有价值、有意义。划定合理范围、选取恰当的最小支持度和最小置信度,这取决于对数据挖掘目的的估计:如果取值过小,会发现大量的关联规则,使有价值的关联规则容易被埋没,既浪费系统资源,又影响数据挖掘的执行效率;如果取值过大,则有可能错失比较稀有的规则。而在实际中,往往就是这类稀有的规则能带来利益,凸显价值。
3 “思想道德修养与法律基础”课程评价
3.1 数据挖掘对象及选择
教学评价是课程教学过程中的重要环节,其在指导教师开展教学效果评估,促进教学效果提升起着相当重要的作用。科学、有效、全面的教学评价能够帮助思想政治理论课教师准确把握教学进程,及时调整教学方法,有效改进教学模式。笔者所在的广西卫生职业技术学院,一直在努力提高“思想道德修养与法律基础”课程教育的质量,尝试过许多评价课程质量的评价标准,但都不尽如人满意。如:以调查问卷的形式向授课对象(学生)发放相关问卷,对回收问卷进行统计后得出学生对课程的满意程度。但此种形式,容易造成的偏差是学生大多关注于教师个人的人格魅力、课堂的活跃程度、授课语言的幽默风趣程度等因素,而忽略了教师授课本身的理论素养;以单纯的期末成绩来评价,此种评价即唯分数论,本门课程是一门行为养成的课程,唯分数论有悖于思想政治教育教学目的中“知性合一”的教学目标;以综合期末成绩来评价,教学效果缺乏统一的量化标准,往往受到科学性、真实性等方面因素的质疑。
为了解决上述评价标准的弊端,笔者尝试将数据挖掘技术中的预测功能应用于教学评价中,利用关联规则挖掘模式,试图从大量数据中挖掘一些隐含在数据之间,有价值的关联规则,另一个角度科学地分析某课程的教学评价。本次数据挖掘对象选定为2009年至2014年,广西卫生职业技术学院社管系(含原社科部),“思想道德修养与法律基础”课程的所有数据。该数据包含所有学生个人信息,平时上课、学习、考试以及实践信息,成绩由平时成绩、实践成绩和考试成绩三部分组成,以及承担该门课程任务的教师信息,将近2万条各类原始数据。
3.2 数据挖掘过程
通过对数据挖掘对象的选择,按照数据挖掘的要求,需要对原始数据进行数据准备方面的工作,包括数据选择、数据清洗、数据离散化。
数据选择过程,将原始数据中一些对挖掘结果的影响不大,不太需要的属性剔除出去,比如学生的姓名、年龄等信息;数据清洗过程,是将选择好的数据结果按照数据规范进行整理,主要完成明显错误数据的舍弃、使用全局变量或平均值修补遗漏数据、“噪声”数据平滑处理等工作;数据离散化过程,是将连续的数据转化为离散的区间数据,例如将成绩转化为“优”、“良”、“中”、“差”四等。
经过上述数据准备阶段的工作,可以将原始数据变为以下形式的待挖掘数据表:
表3.1 待挖掘数据表
年级 姓名 教师 平时成绩 实践成绩 考试成绩
2009 王X 1 A A A
2009 卢X 1 B B A
… … … … … …
2009 刘X 2 C A C
2009 赵X 2 B C B
… … … … … …
2010 张X 3 D C C
2010 秦X 3 A B C
… … … … … …
由于这次数据挖掘的目的在于对课程效果的客观评价,为的是能更科学评价各位授课教师的教学效果,更好地推进教学质量的提高,因此,本次着眼的挖掘结果只是“优”和“差”两个极端。根据关联规则有关支持度和置信度的定义,只分析成绩为A或者D的两种可能,可以将表3.1的挖掘结果如下表3.2所示:
表3.2 挖掘结果表
教师1 教师2 教师3 教师4 …
平时
A 支持度 0.04 0.14 0.09 0.13 …
置信度 0.55 0.28 0.33 0.76 …
平时
D 支持度 0.23 0.15 0.07 0.02 …
置信度 0.33 0.39 0.72 0.35 …
实践
A 支持度 0.19 0.13 0.01 0.05 …
置信度 0.44 0.72 0.10 0.52 …
实践
D 支持度 0.02 0.06 0.13 0.07 …
置信度 0.26 0.34 0.53 0.86 …
考试
A 支持度 0.06 0.10 0.04 0.08 …
置信度 0.45 0.61 0.11 0.54 …
考试
D 支持度 0.16 0.03 0.05 0.11 …
置信度 0.30 0.47 0.30 0.61 …
支持度是关联规则的频度,表明出现的几率。置信度是关联规则的准确度。关联规则挖掘结果也跟最小支持度和最小置信度的数值的选择有着直接的关系。因此,需要慎重选择。在实践中,可以多次尝试分别更改最小支持度和最小置信度的数值,找到较为合理的数值组合。经过多次调整,本次数据挖掘最为合理的数值组合,确定选取最小支持度为0.1,最小置信度为0.5。将最小支持度和最小置信度应用于数据挖掘结果表3.2,整理出最终的挖掘结果为:
教师4?平时A;授课教师2?实践A;教师3?实践D;教师2?考试A;教师4?考试D。
以上关联规则分别解读为:学生在教师4的课堂中,平时表现较好,获得评分较高,排除教师人为打分因素,可认定该教师在日常授课的方法较好;教师2在引导学生完成实践作业的方面做得较好;教师3则在引导学生完成实践作业的方面需要改进和提高;教师2在课堂理论讲授做得较好;教师4在课堂理论讲授方面有待提高。
通过将几年的数据整合起来,形成统一的源数据,可以最大程度降低学生自身的因素,如学习态度、学习方法、学习能力等,对挖掘结果的影响,更有效地将课程评价的决定因素锁定在教师自身的因素上。因此,该挖掘结果对于教师自我反思、交流学习、比较改进自己的授课方式方法和教学效果,具有较科学的指导意义,也对“思想道德修养与法律基础”这门课程整体教学质量提高具有明显的推动作用。
4 结语
在当前重视数据收集和积累的信息时代,合理运用新技术,更充分有效利用数据,更好地借助信息化水平发展带来的便利,使之为教学水平提高、进一步改善教学质量提供参考依据。实践结果证明,数据挖掘技术为课程评价提供了一个全新的视角和评价方法。该方法较之传统的评价方法,能减少明显的不足和弊端,能减少其他因素对结果的干扰,发现隐含在数据之间更有价值的知识,更科学地利用、分析数据。
参考文献
[1]Han Jiawei, Michelin Kamber.范明,孟小峰译.数据挖掘概念核技术(原书第2版)[M].北京:机械工业出版社,2007.
[2]纪希禹.数据挖掘技术应用实例[M].北京:机械工业出版社,2009.
[3]陈申燕.多层关联规则挖掘算法的研究及应用[J].计算机工程与设计,2010,31:885-888.
[4]夏李灿.基于关联规则的移动资费与手机上网收益相关性数据研究[D].长沙:湖南大学,2010.
[5]http://datamininglab.com/
作者简介
邹静(1981-),女,广东南海,法学硕士研究生,中级,宪法、行政法、数据挖掘。
杨劼(1981-),男,湖南长沙,计算机科学硕士研究生,初级 数据库应用、数据挖掘。