APP下载

基于距离的孤立点挖掘改进算法在教务管理系统中的应用

2014-07-24牛永鑫

新媒体研究 2014年8期
关键词:数据挖掘

摘 要 通过对经典的基于距离的孤立点挖掘算法的分析与研究,引入“关键属性”,即减少了挖掘数据量,提高了孤立点挖掘的效率,并将该挖掘模型应用到教务管理系统学生成绩历史数据的挖掘中,从而实现了该系统的设计。

关键词 教务管理系统;孤立点;数据挖掘

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)08-0052-02

教务管理系统是一个面向学校教务管理人员,为其提供服务的综合管理系统。教务人员通过本系统完成日常教务工作。从学生入学开始到毕业离校,其在学校内的所有和教务相关的数据都通过教务系统进行管理。目前,这些数据还未得到有效利用,只是一个待开发的“宝藏”。鉴于社会对高等学校发展的需求和目前高校数据管理现状,利用这些数据理性地分析学校各方面工作的成效以及学生培养过程中的得失变得十分重要。

目前,教务管理系统中的数据挖掘大多利用关联分析或分类分析,以发现一些大的模式。但关联规则在发现大的规则的同时也会忽略那些不经常出现的情况,有时这些例外情况更应该引起教育决策者和管理者的注意。本文尝试利用孤立点挖掘技术,对辽宁石化职业技术学院教务管理系统中积累的数据进行分析,发现那些值得注意的例外对象,为教学管理者和学生管理者提供有用的信息。

1 应用模型的建立

1.1 数据预处理

本文选取的是辽宁石化职业技术学院石油化工生产技术专业08级57名学生在入学后的三个学期的基础必修课和专业必修课的考试分数作为实验应用的数据集,在数据预处理阶段,为了在下面的学生平均绩点能够参照公式计算,所以将考试分数小于60分的学生成绩均修改为50分,因为在公式中如果不及格的分数除以10再减5则就是负数,但是学生的学分绩点不可能为负。

1.2 孤立点定义

图1 学生成绩平均绩点图

本文中以学生成绩绩点分析为例,选取辽宁石化职业技术学院石油化工生产技术专业10级57人的第一、二、三学期的学生考试分数作为原始数据,三个学期的学分绩点作为检测属性,属于多变量的孤立点检测问题。通过对数据的分析,利用孤立点挖掘算法可以检测出学生的学习成绩下降、上升幅度大的和成绩不稳定的即为孤立点。经过数据预处理后的学生平均绩点如图1所示。

2 孤立点数据挖掘过程

2.1 系统结构

相对于传统的基于距离的孤立点检测算法,经过改进的挖掘算法同样可以寻找出相似的孤立点,并给定了孤立点的程度,取消了设置参数p和d的要求;同时通过引入关键属性,可以在数据预处理阶段删除数据集中非关键属性的数据,从而提高了效率;第三通过改进距离度量,可以降低将正常点误认为是孤立点的概率。在本文中,将改进后的数据挖掘算法应用在辽宁石化职业技术学院教务管理系统中,对学生成绩的平均绩点进行孤立点挖掘,以期挖掘出“例外的”但是有用的信息,提供给教育管理者做决策。数据挖掘的程序框图如图2所示。

2.2 确定关键属性

对于图1中的学生三个学期的成绩平均绩点,可以计算出相应的属性隶属度,分别为λ1=0.142253,λ1=0.288887,λ3=0.035729,可以看出λ2>λ1>λ3,λ2即为关键属性。所以在数据预处理阶段,可以将属性1和3的数据删除,提高了孤立点挖掘的效率。

2.3 距离度量改进

图3 对于图3.1的挖掘结果图

为了降低数据分布不均匀给孤立点挖掘结果带来的影响,即把正常点误认为孤立点,本文中采用了基于改进距离度量的方法来降低这种影响,挖掘结果如图3所示。

3 结果分析

程序运行结果如图4所示。

图4 基于所有属性的孤立点挖掘结果图

通过图4可以发现,在辽宁石化职业技术学院石油化工生产技术专业57人中挖掘出的8个孤立点,绝大多数是成绩不稳定的学生,比如王文涛、杨恒等,成绩下降的学生有彭海州、刘强等,成绩上升的有吕泽华,这给教育管理者提供了很好的工作参考信息,能够使教育者抓住班级的特例学生,特别是成绩下降很快的学生,老师可以经常关注他们的学习,以使学生能够在短时间内将成绩提高上来。

另外,在算法改进的过程中,对于引进关键属性的概念,可以将非关键属性的数据不做计算,提高了算法的效率,节约了时间。如图5、6所示。

图5 基于λ2的孤立点挖掘结果图

由图4-6相比较来看,孤立点的挖掘结果基本相同,只是在顺序上略有差别,但这点儿差别对于教育工作者来讲并不会受到影响,所以在数据预处理阶段,本文通过计算出的属性隶

图6 基于λ1和λ2的孤立点挖掘结果图

属度,确定出关键属性,在之后的孤立点挖掘算法中只对关键属性的数据进行挖掘,在挖掘结果中也保留了记录的全部属性,这样就给出了孤立点孤立程度的量的表示。

与传统的孤立点挖掘方法相比,本文采用的算法消除了对参数p和d的设置,用户只需指定需要挖掘出的孤立点个数,即k值,就可以检测出k个孤立点。在时间复杂度上,本文采用的算法为o(n2),稍优于基于索引o(kn2)的挖掘算法。

参考文献

[1]杨永铭,王喆.孤立点挖掘算法研究[J].计算机与数字工程,2008,1(36):11-14.

[2]韦佳,彭宏,林毅申.基于改进距离的孤立点检测方法[J].华南理工大学学报(自然科学版),2008,36(9):26-27.

[3]邵峰晶.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

[4]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2001.

[5]C.Gerior.Software Data mining.DATAMATION,1996.

[6]任承业.校园信息系统中数据挖掘的研究与应用[J].2003.

[7]陶兰,王宝迎,吕建军.数据挖掘技术在高等学校决策支持中的应用[J].中国农业大学学报,2003(1):82-84.

作者简介

牛永鑫(1969-),男,汉族,辽宁锦州人,副教授,硕士,主要从事计算机网络,数据挖掘,计算机应用设计。endprint

摘 要 通过对经典的基于距离的孤立点挖掘算法的分析与研究,引入“关键属性”,即减少了挖掘数据量,提高了孤立点挖掘的效率,并将该挖掘模型应用到教务管理系统学生成绩历史数据的挖掘中,从而实现了该系统的设计。

关键词 教务管理系统;孤立点;数据挖掘

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)08-0052-02

教务管理系统是一个面向学校教务管理人员,为其提供服务的综合管理系统。教务人员通过本系统完成日常教务工作。从学生入学开始到毕业离校,其在学校内的所有和教务相关的数据都通过教务系统进行管理。目前,这些数据还未得到有效利用,只是一个待开发的“宝藏”。鉴于社会对高等学校发展的需求和目前高校数据管理现状,利用这些数据理性地分析学校各方面工作的成效以及学生培养过程中的得失变得十分重要。

目前,教务管理系统中的数据挖掘大多利用关联分析或分类分析,以发现一些大的模式。但关联规则在发现大的规则的同时也会忽略那些不经常出现的情况,有时这些例外情况更应该引起教育决策者和管理者的注意。本文尝试利用孤立点挖掘技术,对辽宁石化职业技术学院教务管理系统中积累的数据进行分析,发现那些值得注意的例外对象,为教学管理者和学生管理者提供有用的信息。

1 应用模型的建立

1.1 数据预处理

本文选取的是辽宁石化职业技术学院石油化工生产技术专业08级57名学生在入学后的三个学期的基础必修课和专业必修课的考试分数作为实验应用的数据集,在数据预处理阶段,为了在下面的学生平均绩点能够参照公式计算,所以将考试分数小于60分的学生成绩均修改为50分,因为在公式中如果不及格的分数除以10再减5则就是负数,但是学生的学分绩点不可能为负。

1.2 孤立点定义

图1 学生成绩平均绩点图

本文中以学生成绩绩点分析为例,选取辽宁石化职业技术学院石油化工生产技术专业10级57人的第一、二、三学期的学生考试分数作为原始数据,三个学期的学分绩点作为检测属性,属于多变量的孤立点检测问题。通过对数据的分析,利用孤立点挖掘算法可以检测出学生的学习成绩下降、上升幅度大的和成绩不稳定的即为孤立点。经过数据预处理后的学生平均绩点如图1所示。

2 孤立点数据挖掘过程

2.1 系统结构

相对于传统的基于距离的孤立点检测算法,经过改进的挖掘算法同样可以寻找出相似的孤立点,并给定了孤立点的程度,取消了设置参数p和d的要求;同时通过引入关键属性,可以在数据预处理阶段删除数据集中非关键属性的数据,从而提高了效率;第三通过改进距离度量,可以降低将正常点误认为是孤立点的概率。在本文中,将改进后的数据挖掘算法应用在辽宁石化职业技术学院教务管理系统中,对学生成绩的平均绩点进行孤立点挖掘,以期挖掘出“例外的”但是有用的信息,提供给教育管理者做决策。数据挖掘的程序框图如图2所示。

2.2 确定关键属性

对于图1中的学生三个学期的成绩平均绩点,可以计算出相应的属性隶属度,分别为λ1=0.142253,λ1=0.288887,λ3=0.035729,可以看出λ2>λ1>λ3,λ2即为关键属性。所以在数据预处理阶段,可以将属性1和3的数据删除,提高了孤立点挖掘的效率。

2.3 距离度量改进

图3 对于图3.1的挖掘结果图

为了降低数据分布不均匀给孤立点挖掘结果带来的影响,即把正常点误认为孤立点,本文中采用了基于改进距离度量的方法来降低这种影响,挖掘结果如图3所示。

3 结果分析

程序运行结果如图4所示。

图4 基于所有属性的孤立点挖掘结果图

通过图4可以发现,在辽宁石化职业技术学院石油化工生产技术专业57人中挖掘出的8个孤立点,绝大多数是成绩不稳定的学生,比如王文涛、杨恒等,成绩下降的学生有彭海州、刘强等,成绩上升的有吕泽华,这给教育管理者提供了很好的工作参考信息,能够使教育者抓住班级的特例学生,特别是成绩下降很快的学生,老师可以经常关注他们的学习,以使学生能够在短时间内将成绩提高上来。

另外,在算法改进的过程中,对于引进关键属性的概念,可以将非关键属性的数据不做计算,提高了算法的效率,节约了时间。如图5、6所示。

图5 基于λ2的孤立点挖掘结果图

由图4-6相比较来看,孤立点的挖掘结果基本相同,只是在顺序上略有差别,但这点儿差别对于教育工作者来讲并不会受到影响,所以在数据预处理阶段,本文通过计算出的属性隶

图6 基于λ1和λ2的孤立点挖掘结果图

属度,确定出关键属性,在之后的孤立点挖掘算法中只对关键属性的数据进行挖掘,在挖掘结果中也保留了记录的全部属性,这样就给出了孤立点孤立程度的量的表示。

与传统的孤立点挖掘方法相比,本文采用的算法消除了对参数p和d的设置,用户只需指定需要挖掘出的孤立点个数,即k值,就可以检测出k个孤立点。在时间复杂度上,本文采用的算法为o(n2),稍优于基于索引o(kn2)的挖掘算法。

参考文献

[1]杨永铭,王喆.孤立点挖掘算法研究[J].计算机与数字工程,2008,1(36):11-14.

[2]韦佳,彭宏,林毅申.基于改进距离的孤立点检测方法[J].华南理工大学学报(自然科学版),2008,36(9):26-27.

[3]邵峰晶.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

[4]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2001.

[5]C.Gerior.Software Data mining.DATAMATION,1996.

[6]任承业.校园信息系统中数据挖掘的研究与应用[J].2003.

[7]陶兰,王宝迎,吕建军.数据挖掘技术在高等学校决策支持中的应用[J].中国农业大学学报,2003(1):82-84.

作者简介

牛永鑫(1969-),男,汉族,辽宁锦州人,副教授,硕士,主要从事计算机网络,数据挖掘,计算机应用设计。endprint

摘 要 通过对经典的基于距离的孤立点挖掘算法的分析与研究,引入“关键属性”,即减少了挖掘数据量,提高了孤立点挖掘的效率,并将该挖掘模型应用到教务管理系统学生成绩历史数据的挖掘中,从而实现了该系统的设计。

关键词 教务管理系统;孤立点;数据挖掘

中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)08-0052-02

教务管理系统是一个面向学校教务管理人员,为其提供服务的综合管理系统。教务人员通过本系统完成日常教务工作。从学生入学开始到毕业离校,其在学校内的所有和教务相关的数据都通过教务系统进行管理。目前,这些数据还未得到有效利用,只是一个待开发的“宝藏”。鉴于社会对高等学校发展的需求和目前高校数据管理现状,利用这些数据理性地分析学校各方面工作的成效以及学生培养过程中的得失变得十分重要。

目前,教务管理系统中的数据挖掘大多利用关联分析或分类分析,以发现一些大的模式。但关联规则在发现大的规则的同时也会忽略那些不经常出现的情况,有时这些例外情况更应该引起教育决策者和管理者的注意。本文尝试利用孤立点挖掘技术,对辽宁石化职业技术学院教务管理系统中积累的数据进行分析,发现那些值得注意的例外对象,为教学管理者和学生管理者提供有用的信息。

1 应用模型的建立

1.1 数据预处理

本文选取的是辽宁石化职业技术学院石油化工生产技术专业08级57名学生在入学后的三个学期的基础必修课和专业必修课的考试分数作为实验应用的数据集,在数据预处理阶段,为了在下面的学生平均绩点能够参照公式计算,所以将考试分数小于60分的学生成绩均修改为50分,因为在公式中如果不及格的分数除以10再减5则就是负数,但是学生的学分绩点不可能为负。

1.2 孤立点定义

图1 学生成绩平均绩点图

本文中以学生成绩绩点分析为例,选取辽宁石化职业技术学院石油化工生产技术专业10级57人的第一、二、三学期的学生考试分数作为原始数据,三个学期的学分绩点作为检测属性,属于多变量的孤立点检测问题。通过对数据的分析,利用孤立点挖掘算法可以检测出学生的学习成绩下降、上升幅度大的和成绩不稳定的即为孤立点。经过数据预处理后的学生平均绩点如图1所示。

2 孤立点数据挖掘过程

2.1 系统结构

相对于传统的基于距离的孤立点检测算法,经过改进的挖掘算法同样可以寻找出相似的孤立点,并给定了孤立点的程度,取消了设置参数p和d的要求;同时通过引入关键属性,可以在数据预处理阶段删除数据集中非关键属性的数据,从而提高了效率;第三通过改进距离度量,可以降低将正常点误认为是孤立点的概率。在本文中,将改进后的数据挖掘算法应用在辽宁石化职业技术学院教务管理系统中,对学生成绩的平均绩点进行孤立点挖掘,以期挖掘出“例外的”但是有用的信息,提供给教育管理者做决策。数据挖掘的程序框图如图2所示。

2.2 确定关键属性

对于图1中的学生三个学期的成绩平均绩点,可以计算出相应的属性隶属度,分别为λ1=0.142253,λ1=0.288887,λ3=0.035729,可以看出λ2>λ1>λ3,λ2即为关键属性。所以在数据预处理阶段,可以将属性1和3的数据删除,提高了孤立点挖掘的效率。

2.3 距离度量改进

图3 对于图3.1的挖掘结果图

为了降低数据分布不均匀给孤立点挖掘结果带来的影响,即把正常点误认为孤立点,本文中采用了基于改进距离度量的方法来降低这种影响,挖掘结果如图3所示。

3 结果分析

程序运行结果如图4所示。

图4 基于所有属性的孤立点挖掘结果图

通过图4可以发现,在辽宁石化职业技术学院石油化工生产技术专业57人中挖掘出的8个孤立点,绝大多数是成绩不稳定的学生,比如王文涛、杨恒等,成绩下降的学生有彭海州、刘强等,成绩上升的有吕泽华,这给教育管理者提供了很好的工作参考信息,能够使教育者抓住班级的特例学生,特别是成绩下降很快的学生,老师可以经常关注他们的学习,以使学生能够在短时间内将成绩提高上来。

另外,在算法改进的过程中,对于引进关键属性的概念,可以将非关键属性的数据不做计算,提高了算法的效率,节约了时间。如图5、6所示。

图5 基于λ2的孤立点挖掘结果图

由图4-6相比较来看,孤立点的挖掘结果基本相同,只是在顺序上略有差别,但这点儿差别对于教育工作者来讲并不会受到影响,所以在数据预处理阶段,本文通过计算出的属性隶

图6 基于λ1和λ2的孤立点挖掘结果图

属度,确定出关键属性,在之后的孤立点挖掘算法中只对关键属性的数据进行挖掘,在挖掘结果中也保留了记录的全部属性,这样就给出了孤立点孤立程度的量的表示。

与传统的孤立点挖掘方法相比,本文采用的算法消除了对参数p和d的设置,用户只需指定需要挖掘出的孤立点个数,即k值,就可以检测出k个孤立点。在时间复杂度上,本文采用的算法为o(n2),稍优于基于索引o(kn2)的挖掘算法。

参考文献

[1]杨永铭,王喆.孤立点挖掘算法研究[J].计算机与数字工程,2008,1(36):11-14.

[2]韦佳,彭宏,林毅申.基于改进距离的孤立点检测方法[J].华南理工大学学报(自然科学版),2008,36(9):26-27.

[3]邵峰晶.数据挖掘原理与算法[M].北京:中国水利水电出版社,2003.

[4]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2001.

[5]C.Gerior.Software Data mining.DATAMATION,1996.

[6]任承业.校园信息系统中数据挖掘的研究与应用[J].2003.

[7]陶兰,王宝迎,吕建军.数据挖掘技术在高等学校决策支持中的应用[J].中国农业大学学报,2003(1):82-84.

作者简介

牛永鑫(1969-),男,汉族,辽宁锦州人,副教授,硕士,主要从事计算机网络,数据挖掘,计算机应用设计。endprint

猜你喜欢

数据挖掘
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘技术在物流企业中的应用
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势