数据挖掘聚类算法在学生信息管理系统中的应用
2017-09-28陈志忠
陈志忠
(四川邮电职业技术学院,四川成都610067)
数据挖掘聚类算法在学生信息管理系统中的应用
陈志忠
(四川邮电职业技术学院,四川成都610067)
针对传统的K-means聚类算法在学生信息管理中受随机中心地址的影响,提出了数据分段方法进行中心地址选择。该算法将数据源进行K段划分,接着在每段内中选择中心地址,使用迭代回归方法进行中心选择。在现有部分学生信息上进行仿真结果表明,算法的迭代次数降低,所改进算法提高了传统K-means算法。
K-means;中心选择;学生信息
随着高校扩张,各高校在校人数不断增多,学生管理难度加大。同时对学生来讲,在学校中接受教育时,希望学生能接受多样化的管理制度,为学生提供轻松、自由的学习环境。在信息化进程日益加快的今天,学校管理中也开始引入计算机、互联网等信息技术,通过先进技术的应用提高管理水平。学生人数的增多,给学校管理带来了挑战,为了提高学生管理效率和水平,很多学校都开始致力于学生信息管理系统的研究和应用。在学生信息管理系统中,除了实现学生基本信息如专业、学籍、班级等的管理外,还将学生选课服务、学习进度、毕业论文管理、就业信息管理等相关内容融入其中,实现了学生所有信息管理的“一条龙”服务。通过专门的学生信息管理系统,将学生各项信息都融合在一起,实现了所有信息的高水平管理。
当今时代属于信息时代,各类信息数据较多。在学校中,学生相关信息也多,而在互联网的帮助下,学生信息也呈现出价值、海量特点。学校在开展学生信息管理时,需要根据学生信息情况合理进行分类,并根据学生具体需求开展相应的信息管理,以提高信息管理水平。而要实现这些就需要借助学生数据信息的分析,如何从海量的信息中提取到真正有用的信息,则成为学校开展学生信息管理时面临的一个重要问题。在这种情况下,就需要用到数据挖掘技术,通过数据挖掘对海量的学生信息进行深度挖掘、分析,提取到真正有用的学生信息,并用到学生信息管理中,提高学生信息管理水平。数据挖掘技术较多,如聚类算法、分类算法、回归分析、关联规则算法等,都是数据挖掘中经常采用的方法。本文主要对数据挖掘中的聚类算法在学生信息管理系统中的应用进行了分析,为数据挖掘在学生信息管理中的具体应用提供参考建议。
1 数据挖掘概念
数据挖掘是计算机学科中的一门重要技术方法。数据挖掘是从好靓数据信息中搜索出有用或潜在的信息。一般情况下,数据挖掘主要通过统计、分析等实现。数据挖掘技术产生以后,最初在统计、数据库、人工智能等行业和领域内进行应用。随着大数据时代的到来,各行各业都开始加大数据挖掘技术的应用。数据挖掘时,在数据信息来源判断的基础上,获取到相关数据信息,并将相关数据信息整合到一起,进行数据检查,将不符合要求的数据去除,然后建构数据模型,实现数据的挖掘、分析,从而完成数据挖掘工作。在数据挖掘过程中,最重要的一步工作是对数据进行预处理,保证数据信息、格式等和要求相符,从而进行深度挖掘、分析。
数据挖掘技术较多,如聚类算法、分类算法、回归分析、关联规则算法等,都是数据挖掘中经常采用的方法。如下是对几种方法的具体分析:
关联规则分析:关联规则分析方法主要是对数据信息中隐藏的关系进行挖掘分析。采用关联规则分析法进行数据挖掘时,主要是通过两个环节实现:第一个环节是从海量的数据信息中寻找出真正符合要求的数据;第二环节则是对这些数据信息中存在的关系进行挖掘。在金融行业中,关联规则分析法应用较为广泛。
分类:将海量数据中的具有相同点的数据按照类别归为一类,并通过分类模型等实现数据的挖掘分析。在应用分类、趋势预测等领域中该方法应用方法,如目前电商平台都会采用分类算法向用户推荐相关联的商品信息。
聚类算法:将海量数据中相似的数据聚集到一起归为一类,从而实现数据挖掘分析。
在聚类算法中,相似的数据在一个聚集内,实现了数据挖掘。聚类算法在学生信息管理系统中应用时,将具有相似特征的学生信息聚在一起;基于学习目标将选课相同的学生汇集一起等。聚类算法也较多,如下对几种聚类算法在学生信息管理系统中的具体应用了详细分析。
2 K-means聚类算法改进
2.1 算法描述
假设样本数据用Y={y1,y2,..yn}表示,其中yi(1<i<n)表示一个对象;用C={c1,c2,..cm}表示有m个类;对于两个对象之间的距离使用欧式距离其中m表示维数y表示第k个类中的中心类。
1)从数据Y中随机选择K个对象作为初始中心;
2)根据欧式距离方法计算所有的yi(1<i<n)到中心的距离;根据最小距离将对象进行划分;
3)计算聚类均值;
4)计算目标函数,如果函数值最小则算法终止;如果算法不满足则跳转到(2)。
2.2 算法改进
在K-means聚类算法中,初始点的选择直接影响到聚类效果。为了防止初始点选择过于集中导致聚类效果不佳,本文提出了一种选择中心点尽可能互相原理的算法,这样既可提高聚类效果也可使得算法性能得到提高。算法过程如下所示:
1)假设Y={y1,y2,..yn}表示聚类样品数据,采用矩阵Dist=表示聚类距离矩阵,在该矩阵dij表达式中d(xi,xj)。
3 K-means聚类改进算法在学生信息管理中的应用
3.1 算法应用
在学生信息管理系统中包含的结构主要有:学生信息、学生班级、学生专业、学生考试成绩等。表1为某部分学生信息表。
表1 某部分学生信息表
3.2 结果分析
如图1为距离代价函数很K值的关系。从图中可以看出随着K值增加距离变化逐渐降低,这表明算法性能有效。
图1 K值和距离函数的关系
图2 改进算法和传统算法效率比较
从图2中可以看出随着K值的增加改进算法性能逐渐优于传统K-means算法。表明对距离进行多次划分可以提高算法性能。
4 结束语
传统的K-means算法中心地址选择是随机选择,这样算法需要经历多次递归才能收敛,使得算法性能不高。本文提出了分段中心地址选择,通过对性能分析,结果显示改进算法能够提高算法性能。
[1]李绍中.数据挖掘改进算法在学生成绩分析中的应用[J].科技通报,2012,28(8):208-209.
[2]刘美玲,李熹,李永胜.数据挖掘技术在高校教学与管理中的应用[J].计算机工程与设计,2010,31(5):1130-1133.
[3]王全旺,赵兵川.数据挖掘技术在Moodle课程管理系统中的应用研究[J].电化教育研究,2011(11):69-73.
[4]孙力,程玉霞.大数据时代网络教育学习成绩预测的研究与实现——以本科公共课程统考英语为例[J].开放教育研究,2015(3):74-80.
[5]王华,刘萍.改进的关联规则算法在学生成绩预警中的应用[J].计算机工程与设计,2015(3):679-682.
TP311
A
1009-3044(2017)24-0021-02
2017-07-06