基于距离的孤立点挖掘改进算法在教务管理中的应用
2017-08-30辽宁石化职业技术学院
辽宁石化职业技术学院 杨 迪
基于距离的孤立点挖掘改进算法在教务管理中的应用
辽宁石化职业技术学院 杨 迪
目前,国内高校的在校生人数都已达到上万的规模,并且运行着成绩管理等各种各样的软件系统,这些系统中的数据库积累了大量的数据。利用这些数据理性地分析学校各方面工作的成效特别是在学生培养过程中的得失变得十分重要。本文通过对经典的基于距离的孤立点挖掘算法的分析与研究,提出了一种改进的孤立点挖掘算法,并将该挖掘模型应用到教务管理系统学生成绩历史数据的挖掘中。
数据挖掘;孤立点;教务管理;学生成绩
1 建立模型
(1)数据预处理
本文选取数据对象为辽宁石化职业技术学院石油化工生产技术专业2013级学生。选取该专业167名学生入学后三个学期考试成绩作为实验的数据集,在数据预处理过程中,将考试成绩不及格的学生成绩统一记为50分,以便能够参照学生平均绩点公式计算。
(2)平均绩点计算公式其中,Si为第i门课程的分数,Ci为第i门课程的学分,n为课程门数。(3)孤立点定义
文中以学生平均绩点分析为例,选取数据对象同上,将三个学期的学分绩点看做检测属性,该问题归属于多变量的孤立点检测问题。经过数据分析,通过孤立点挖掘算法检测学习成绩,其中上升、下降幅度变化较大的即为孤立点。
2 孤立点数据挖掘流程
(1)系统结构
经过改良的挖掘算法与传统的基于距离的孤立点检测算法相比,首先能够查找出相似的孤立点,并明确了孤立点的程度,去掉了设置参数p和d;其次,引入关键属性后,数据集中非关键属性的数据可以在数据预处理阶段中删除掉,以便提高效率;再次,通过距离度量的改进,可降低错误的概率。本文将辽宁石化职业技术学院教务管理系统中的数据用改进后的算法计算,对学生的平均绩点进行孤立点挖掘,尝试挖掘出“其他的”但是有用的信息,以便管理者和教育决策者做决策。程序框图如图1所示:
图1 程序框图
(2)关键属性的确定
针对学生的平均绩点,可求出相应的属性隶属度,分别为λ1=0.137932,λ2=0.279831,λ3=0.036037,可以看出λ2>λ1>λ3,λ2即为关键属性。因此在数据预处理阶段,可删除属性1和属性3的数据,使孤立点挖掘的效率提高。
(3)改进距离度量
本文采用了基于改进距离度量的方法,降低数据分布不均匀给孤立点挖掘结果带来的影响。
(4)孤立点挖掘程序代码
3 结果分析
通过结果数据比较得出,在辽宁石化职业技术学院石油化工生产技术专业2013级157名学生数据中挖掘出11个孤立点,大部分是成绩不稳定的同学,比如吴皓、张强、刘晶晶等,成绩上升的有张华军,成绩下降的学生有刘瑶、田梓萌等。结果数据可以作为教育管理者制定人才培养方案和教学计划时的参考依据,可以为教育者提供专业的“特殊”学生,尤其是成绩下降幅度大的学生,班主任以及任课教师可以有针对性的进行辅导和帮助,从而能够在短时间内将学生的成绩提高上去。
此外,在改进算法中引进关键属性概念,使非关键属性的数据不参加计算,以提高了算法效率。通过结果数据对比,孤立点的挖掘结果基本一致,只在顺序上略有不同,可忽略不计。与传统的孤立点挖掘方法相比,上文采用的算法取消设置参数p和d,使用者只需指定需要挖掘出的孤立点个数,即j值,就可以检测出j个孤立点。在时间复杂度上,本文采用的算法也优于其他算法。
[1]张京民等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002.
[2]孟浩.孤立点挖掘技术在入侵检测中的应用研究[D].大连海事大学硕士学位论文,2007.
[3]黄浩,王建军.WEB使用挖掘研究[J].计算机系统应用,2008(1):125-128.
[4]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002, 13(10):1952-1961.
杨迪(1980—),男,满族,辽宁锦州人,硕士,讲师,主要从事应用数学及图论的研究。