APP下载

数据挖掘技术及其应用

2016-05-14杨筱平徐驰

电子技术与软件工程 2016年6期
关键词:学生成绩数据挖掘大数据

杨筱平 徐驰

摘 要数据挖掘技术作为一项数据分析工具,已经在多个行业领域得到广泛应用,极大的促进了各领域的生产效率和管理效率。本文主要对数据挖掘技术的相关理论概念进行了简要介绍,然后以学生成绩分析为例,对该项技术的应用进行分析,希望能对教育管理者和教学人员提供一定参考。

【关键词】数据挖掘 大数据 教育 学生成绩

1 数据挖掘技术基础理论分析

1.1 涵义分析

数据挖掘是集合人工智能、数据库、机器学、统计学、数学等多个学科的一门交叉性学科,该学科不仅能为商业性企业提供决策依据,解决发展困境,还能为管理者优化管理方案提供参考。数据挖掘技术就是对数据信息进行提取、处理、分析和转化,以期从海量、杂乱的数据信息中发现隐藏的规律,从而为企业或用户制定科学的决策提供参考。

1.2 数据挖掘实施流程

数据挖掘过程是根据数据特征建立模型,然后通过科学检验,发现模型和数据之间规模的一系列活动,具体来说就是确定分析对象,对数据进行预处理,选择合适的数据分析方法进行数据处理,将分析结果进行可视化展现等,以下将对各个环节进行详细分析。

1.2.1 数据准备

从操作上来说,数据准备阶段主要执行的操作时数据选取、数据清洗和数据转化三相工作,具体来说就是选择数据源,确定数据挖掘处理的对象,根据实际需求从海量数据中选择所需要处理的数据内容,生成目标数据;目标数据多为原始数据,可能会存在数据不全、数据污染等异常情况。为确保数据挖掘效果,需要对目标数据进行清洗,就是通过一系列操作补全残缺数据、消除不合理数据,使其转为净化数据待用。

1.2.2 数据挖掘

这一阶段的工作主要是根据数据特征设定数据集合属性,将不参与算法的字段进行处理,然后将其他参与算法的字段看作一个新的数据集合;数据集合属性设定完毕后,需要根据数据挖掘的目的和业务需求选择合适的算法。

1.2.3 结果可视化呈现

数据分析处理结束后产生的结果不利于用户直接使用,需要将其进行转化,然后通过可视化手段将其进行展现,为用户决策或管理工作改进提供参考。

1.3 关键技术介绍

数据挖掘技术虽是一项新兴的数据处理技术,但其发展速度十分迅猛,至今已经形成了决策树、神经网络、统计学习、聚类分析、关联规则等多项数据挖掘技术,极大的满足了用户的需求。

1.3.1 决策树算法

决策树算法是分类和预测的常用技术之一,可用于深入分析分类问题,使用时,决策树能够利用预测理论对多个变量中进行分析,从而预测处任一变量的发展趋势和变化关系;除此以外,还能对变量发展趋势进行双向预测,既能进行正向预测,也能进行反向预测,因此具有方便灵活的优势。

1.3.2 神经网络算法

神经网络是将计算机技术与现代神经生物学结合的产物,该技术是通过模拟人脑信息处理机制,对数值数据进行处理,并在处理过程中表现出一种思维、学习和记忆能力。神经网络有多种分类方式,若按照互联结构分,可分为以下四种,如图1所示。由结构示意图可知,神经网络能对大规模数据进行处理,且容错能力强,具有很好的自组织和自适应能力,在解决非线性复杂问题方面具有较高的优势。

1.3.3 统计学习

统计学习是一种预测方法,该法是对数据进行深入分析,找出不能通过的规律,然后对所发现的规律进一步研究和分析,并结合实际情况对数据发展趋势进行预测。由此可见,统计学习能对人类无法确认的事务进行预测,这对了解进一步了解世界,探索未知事物具有重要意义。

1.3.4 聚类分析法

聚类分析作为一种非参数分析方法,可对样本分组中多为数据点间的差异及关联进行分析,使用该法时,无需对数据进行总体假设,也不需要受数理依据等原则的限制,只需要通过数据搜集、数据转换两个步骤,就能完成聚类分析的全过程。聚类分析能对数据的分布情况进行分析,还能对数据分布的局势进行快捷分析,准确识别出密集和系数区域;另外,聚类分析对单类的数据同样具有超强的分析能力,可对每个类的数据进行深入分析,发现其特征,找出变量和类之间的内在关联性。基于聚类分析原理基础上的方法很多,如层次法、密度分析法和网络法就是最常用的聚类分析方法。

1.3.5 关联规则法

关联规则的主要优势是能对数据与数据之间的依赖关系进行准确描述,该技术能对给定事物数据库进行深入分析,寻找各数据和项目之间的内在联系,然后将所有符合支持度和置信度的,符合一定标准的关联规则进行罗列。关联规则算法的典型代表是FP-Tree算法,经过实验证明,该算法在处理数据关系方面具有十分强大的优势。

2 数据挖掘技术的应用

近年来,数据挖掘技术得到了飞跃式发展,其应用领域也涉及到商业零售、电信数据分析、金融数据分析、生物医学分析、教育管理分析等多个领域。随着各行各业信息化建设的不断完善,大量的信息数据为数据挖掘技术的应用提供了基础和保障。本文将以教学为例,利用数据挖掘技术对学生学习成绩进行深入分析。

2.1 数据挖掘在教育教学中应用的可行性分析

数据驱动学校,分析变革教育的大数据时代已经带来,利用数据挖掘技术对教育领域的相关数据进行分析,探索教育变量之间的关系,为教育教学的科学决策提供有力支撑,已经成为教育发展的趋势之一。大数据时代的到来,将掀起人类教与学的又一次变革。对此,美国国家教育部于2012年就已经发布了《通过教育数据挖掘和学习分析促进教与学》的报告。报告中,列举了大数据教育应用的案例、领域、应用中所面临的困难以及应采取的态度和对策等。

计算机技术和互联网技术在我国起步较晚,但发展迅速,尤其是近几年“互联网+”时代的到来,极大的促进了各行各业的发展。互联网的发展同样会促进学校信息化的建设,加强教育教学领域的大数据研究和应用分析,具有重要的实践意义。教育学者在信息技术和网络技术的影响下,逐渐加大了对数据挖掘技术的研究力度,通过一系列研究,就“国家和地方应在技术层面、管理体制、法律制度上加大对大数据研究和应用力度,按照发展现状及未来规划,整合现有资源,发挥后劲优势,真正推动我国教育教学工作的改革进程。大数据给各个行业的发展带来的变革和挑战是前所未有的,就教育行业而言,教师的教学行为、学生的学习活动、教学管理工作、科学研究等数据都能为学校领导者制定决策提供依据,数据挖掘技术在教育教学领域具有广泛应用价值。

2.2 数据挖掘技术对学生成绩的分析

在教学领域,学习分析是其中最为重要的组成部分。学习分析就是收集与学习者有关的信息数据,然后构建数据模型,从中发现数据中隐含的规律;还可利用该技术对学习者的行为表现进行分析,根据学生表现制定合适的学习计划,提高学生的学习效率;总之,学习分析是涉及到社会学、心理学、计算机科学和信息技术等多种学科的一种理论方法,是利用海量数据的收集、分析、处理,发现影响学习者学校结果的因素,评价学生学习情况,根据分析反馈结果,对教学内容、教学计划和教学方式进行调整和改进,以此推进教学和学习的整体效率。

2.3 数据挖掘技术应用过程

2.3.1 数据选取

数据是数据挖掘的基础,也是整个数据挖掘流程中耗费时间和精力最多的环节,大概占整个数据挖掘项目的60%-80%。在这一环节中,若数据类型没有完成转换,则数据类型与模型中的算法匹配度就会受到影响;数据中存在的噪声过多或不完整度过高,就会影响模型的准确性,由此可见,数据选取工作具有十分重要的地位,应对其引起足够的重视。数据质量越高,越有利于实现挖掘目标,分析出来后所得出的规律结论更可靠。

2.3.2 数据挖掘过程

学生成绩数据可通过学校教学平台获取,其挖掘过程如下:

(1)数据准备阶段。首先,先数据导入操作,选择类型为Excel表格后,执行查询操作。然后,对数据进行清理。将原始数据中异常数据、噪声数据或不合理数据进行清除;对不完整数据进行字段补偿,待数据符合数据挖掘要求后,将其导入数据库。最后,数据转换。将以百分制记录的原始数据分为1-10个档次的成绩备用。

(2)数据挖掘阶段。本文选择决策树为算法,对学生成绩进行数据挖掘。首先定义成绩字段及其含义,可见表1所示。

本文以《C语言程序设计》、《Java应用》、《计算机网络》和《操作系统》四门课程学生成绩为研究对象,根据研究目的构建决策树,对目标数据进行计算,然后将处理结果通过转化形成可视化知识。

(3)数据可视化呈现及解释。将分析结果进行转化后,形成如图2和图3的关系图。

以上四门课程中,《C语言程序设计》成绩较好时,《操作系统》对《计算机网络》的影响较大;而《C语言程序设计》学习成绩一般时(90分以下),《Java应用》对《计算机网络》的影响较大。针对以上分析结果,可对教学管理提出如下建议:《C语言程序设计》这门课程较为重要,应该适当增加课时,尽量保证每周可开设六个学时,而且要确保每周都有实践课,提高学生动手操作的能力;《操作系统》这门课对其他课程的影响不大,可相应减少课时;网站开发是以《Java应用》课程为基础的,而且该学科也是学习其他编程语言的基础,应该适当增加总课时数和实践活动;《C语言程序设计》与《Java应用》课程可以结合在一起上,学完《C语言程序设计》课程后就可继续学习《Java应用》,不需等到下一新学期再上。

3 结语

数据挖掘技术在分析海量数据,寻找数据内隐含规律方面具有明显优势,通过数据挖掘分析,能为使用者科学决策,减少失误提供技术保障;该技术的应用还能促进教学工作的有效性,提升教学质量,促进学生学习成绩的进步。

参考文献

[1]崔广风.数据挖掘中的统计方法及其应用研究[D].四川:西南石油大学,2014.

[2]黄雯.数据挖掘算法及其应用研究[D].南京:南京邮电大学,2013.

[3]吴泽曦.数据挖掘技术及其在车辆监控系统中的应用[D].北京:北京邮电大学,2015.

作者单位

天水师范学院电子信息与电气工程学院 甘肃省天水市 741001

猜你喜欢

学生成绩数据挖掘大数据
基于并行计算的大数据挖掘在电网中的应用
浅析数据挖掘技术在学生管理系统中的应用
基于大数据背景下的智慧城市建设研究
Excel+VBA开发之《学生成绩管理系统》的设计与实现
基于MATLAB转置矩阵的学生学习成绩预警快速算法
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究