APP下载

关联规则数据挖掘在评价系统中的实践创新研究

2015-01-08翟霞黄磊

中国科技纵横 2014年12期
关键词:Apriori算法关联规则教学评价

翟霞++黄磊

【摘 要】 本文首先介绍了数据挖掘在高校教学评价系统中使用的意义,明确了挖掘模块的功能定义及挖掘具体的实现方案,然后详细介绍了关联规则挖掘在高校评教系统中的使用。全文以哈尔滨华德学院为实例,综合了教务处、人力资源部、教学质量监督中心等部门的数据记录形成教学评价初始数据,经过一系列数据预处理操作,形成挖掘对象,通过使用关联规则的Apriori算法对教师属性与评教等级进行了挖掘分析,最终得出了有参考价值的挖掘结果。

【关键词】 教学评价 关联规则 数据预处理 Apriori算法

目前,在高校的教学管理中都引入了教学评价体系,通过记录相应的评教信息,教务管理部门可以掌握教师的授课效果及学生对课程的满意程度,并把相应的反馈信息及时的反馈给任课教师,帮助教师提高自身的教学水平[1]。许多高校已经将教学评价加入到教学管理规范的必要环节,将评教结果作为考核教师工作业绩的重要参考依据。而对于评教数据的内在关联学校却未曾做过深层次的思考。将关联规则的挖掘应用于教学评价系统之中,可以多角度全方位的分析评价数据,哪些老师受学生欢迎,授课效果好;评教得分较高的教师有哪些共同的特征;影响评教得分的主要因素有哪些等学校教务部门感兴趣的信息,都会以直观易于理解的信息形式展现出来,帮助管理部门完善教学质量监督并作为决策支持的依据。

目前我校已有在线教学评价系统,学生每学期末在规定时间范围内登录系统,进行本学期任课教师的评教工作,之后教务处教学质量监督中心会汇总学生的评教数据、专家评教数据及教师互评数据,综合三方面的整体情况,最终得出教师本学期的测评结果。现行的教学评价系统基本功能已经具备,只需在其原系统之上,增加数据挖掘模块,实现关联规则挖掘,使评教数据在完成基本功能外,可以实现数据分析功能,找出隐含在其中的有价值的信息[2]。实现过程如图1所示。下面,以哈尔滨华德学院为例,把数据挖掘模块应用到的评教系统中,帮助教学管理部门进行深层次的数据分析。

数据挖掘所要处理的原始数据通常情况下都是不符合预期要求的,因为在这些数据之中有一部分会含有不规范或冗余的现象[3]。哈尔滨华德学院的教务系统中包含教学评教模块,其中涵盖学生、教师和专家近几年的评价数据,下面将针对学院教务系统中的大量历史真实数据进行预处理操作[4]。根据现实分析问题的要求,实现哈尔滨华德学院教学评价数据挖掘功能的数据源涉及到多个部门的数据信息,主要有人力资源部门的教师信息表、学工处的学生信息表、教务部门的评教信息表等,为了统一数据格式均以Excel表的形式将其导出保存。初始数据信息表的表结构如表1所示。

教师年龄属性取值范围较广,直接用于挖掘分析会使挖掘结果较分散,使用数据泛化,将年龄概括到更高层次的抽象,分别取值为青年、中年和老年。划分的具体标准如表2所示。

学生在校成绩取值为连续的数值,直接用于挖掘会使得挖掘结果得到的规则较多,不利于分析,所以将成绩重新划分为优秀、良好、合格和较差四个等级,划分标准如表3所示。

我校教师的额定课时量是192,根据教师担任的行政职务级别,课时量会适当的缩减,但由于缩减量较小以及划分等级较多,这里为了便于分析,忽略这种差异。根据额定课时量将课时量字段数据分段划分标准如表4所示。

教师的科研能力主要从发表论文数量和科研课题来衡量,其中还考虑了论文所属期刊的等级,省级及一般期刊系数乘1,国家中文核心期刊系数乘2,SCI及EI等重点期刊系数乘4,根据这一原则将教师科研等级划分标准如表5所示。

综合上述各属性数据泛化准则将初始教师评教信息表转化为易于数据挖掘的新的数据表,Apriori算法要求挖掘数据来自于事物数据库,因此,将得到的转化后的数据表再进一步转化为每条记录由字符代码表示的数据表[5],代码转换依据表6和7所示。

一般情况下,在经过处理的挖掘对象中并不是所有的特征属性都有必要参与数据挖掘,因为有一部分属性自身和挖掘所要分析的问题联系较弱,而且对挖掘结果的影响也微乎其微,参与挖掘往往影响挖掘效率。这样,一般采取直接将其删除的策略。针对本文挖掘研究的分析目标,挖掘前将初始数据信息表中与评价等级关联较弱的教师编号、性别、是否进修、入学成绩四列做删除处理。本文对教学评价系统中的30600条数据记录进行了挖掘分析,得到了年龄、职称、学位、学生在校成绩与评教等级之间的关联关系。

设定最小支持度和最小置信度的阈值分别为12%和55%,得到的挖掘结果中满足条件的项集如表8所示。

基于以上挖掘结果,我们得出年龄在36-45岁之间或是具有研究生学历或是职称为副教授的教师评教等级为优秀的概率较大,现实中这些老师具有丰富的教学经验和良好的专业素养,深受学生的欢迎;而评教得分较低的大多数来自于35岁以下的教师;成绩为优秀的学生所做的评教等级多半为优秀。

以上是单一属性与评教等级的关联关系,下面我们来分析评教等级为优秀的教师具有什么样的特征。首先从初始数据信息表中把评教等级为优秀的记录抽取出来,大约15000条,忽略学生成绩和课时量属性,设定最小支持度和最小置信度分别为6%和45%,通过Apriori算法最终得到频繁项集L3,如表9所示。

由以上挖掘结果可以得出,年龄在36-45之间,职称为副教授,学历为研究生的教师被评为优秀的概率较大。

参考文献:

[1]蒋晖等.数据挖掘及其一种关联规则算法[J].计算机与数字工程,2011,39(6):38-42.

[2]王玉荣.关联规则挖掘算法在大数据集上的应用研究[D].江南大学硕士论文,2011:58-72.

[3]李云峰,陈建文,程代杰.关联规则挖掘的研究及对Apriori算法的改进[J].计算机工程与科学,2012,(06):85-87.

[4]LI C,YANG T Q. Effective Mining of Fuzzy Quantitative Weighted Association Rules[C].International Conference on E-Business and E-Government,2010:1418-1421.

[5]李清峰.数据挖掘中关联规则的一种高效Apriori算法[J].计算机应用与软件,2009,21(12):84-86.endprint

【摘 要】 本文首先介绍了数据挖掘在高校教学评价系统中使用的意义,明确了挖掘模块的功能定义及挖掘具体的实现方案,然后详细介绍了关联规则挖掘在高校评教系统中的使用。全文以哈尔滨华德学院为实例,综合了教务处、人力资源部、教学质量监督中心等部门的数据记录形成教学评价初始数据,经过一系列数据预处理操作,形成挖掘对象,通过使用关联规则的Apriori算法对教师属性与评教等级进行了挖掘分析,最终得出了有参考价值的挖掘结果。

【关键词】 教学评价 关联规则 数据预处理 Apriori算法

目前,在高校的教学管理中都引入了教学评价体系,通过记录相应的评教信息,教务管理部门可以掌握教师的授课效果及学生对课程的满意程度,并把相应的反馈信息及时的反馈给任课教师,帮助教师提高自身的教学水平[1]。许多高校已经将教学评价加入到教学管理规范的必要环节,将评教结果作为考核教师工作业绩的重要参考依据。而对于评教数据的内在关联学校却未曾做过深层次的思考。将关联规则的挖掘应用于教学评价系统之中,可以多角度全方位的分析评价数据,哪些老师受学生欢迎,授课效果好;评教得分较高的教师有哪些共同的特征;影响评教得分的主要因素有哪些等学校教务部门感兴趣的信息,都会以直观易于理解的信息形式展现出来,帮助管理部门完善教学质量监督并作为决策支持的依据。

目前我校已有在线教学评价系统,学生每学期末在规定时间范围内登录系统,进行本学期任课教师的评教工作,之后教务处教学质量监督中心会汇总学生的评教数据、专家评教数据及教师互评数据,综合三方面的整体情况,最终得出教师本学期的测评结果。现行的教学评价系统基本功能已经具备,只需在其原系统之上,增加数据挖掘模块,实现关联规则挖掘,使评教数据在完成基本功能外,可以实现数据分析功能,找出隐含在其中的有价值的信息[2]。实现过程如图1所示。下面,以哈尔滨华德学院为例,把数据挖掘模块应用到的评教系统中,帮助教学管理部门进行深层次的数据分析。

数据挖掘所要处理的原始数据通常情况下都是不符合预期要求的,因为在这些数据之中有一部分会含有不规范或冗余的现象[3]。哈尔滨华德学院的教务系统中包含教学评教模块,其中涵盖学生、教师和专家近几年的评价数据,下面将针对学院教务系统中的大量历史真实数据进行预处理操作[4]。根据现实分析问题的要求,实现哈尔滨华德学院教学评价数据挖掘功能的数据源涉及到多个部门的数据信息,主要有人力资源部门的教师信息表、学工处的学生信息表、教务部门的评教信息表等,为了统一数据格式均以Excel表的形式将其导出保存。初始数据信息表的表结构如表1所示。

教师年龄属性取值范围较广,直接用于挖掘分析会使挖掘结果较分散,使用数据泛化,将年龄概括到更高层次的抽象,分别取值为青年、中年和老年。划分的具体标准如表2所示。

学生在校成绩取值为连续的数值,直接用于挖掘会使得挖掘结果得到的规则较多,不利于分析,所以将成绩重新划分为优秀、良好、合格和较差四个等级,划分标准如表3所示。

我校教师的额定课时量是192,根据教师担任的行政职务级别,课时量会适当的缩减,但由于缩减量较小以及划分等级较多,这里为了便于分析,忽略这种差异。根据额定课时量将课时量字段数据分段划分标准如表4所示。

教师的科研能力主要从发表论文数量和科研课题来衡量,其中还考虑了论文所属期刊的等级,省级及一般期刊系数乘1,国家中文核心期刊系数乘2,SCI及EI等重点期刊系数乘4,根据这一原则将教师科研等级划分标准如表5所示。

综合上述各属性数据泛化准则将初始教师评教信息表转化为易于数据挖掘的新的数据表,Apriori算法要求挖掘数据来自于事物数据库,因此,将得到的转化后的数据表再进一步转化为每条记录由字符代码表示的数据表[5],代码转换依据表6和7所示。

一般情况下,在经过处理的挖掘对象中并不是所有的特征属性都有必要参与数据挖掘,因为有一部分属性自身和挖掘所要分析的问题联系较弱,而且对挖掘结果的影响也微乎其微,参与挖掘往往影响挖掘效率。这样,一般采取直接将其删除的策略。针对本文挖掘研究的分析目标,挖掘前将初始数据信息表中与评价等级关联较弱的教师编号、性别、是否进修、入学成绩四列做删除处理。本文对教学评价系统中的30600条数据记录进行了挖掘分析,得到了年龄、职称、学位、学生在校成绩与评教等级之间的关联关系。

设定最小支持度和最小置信度的阈值分别为12%和55%,得到的挖掘结果中满足条件的项集如表8所示。

基于以上挖掘结果,我们得出年龄在36-45岁之间或是具有研究生学历或是职称为副教授的教师评教等级为优秀的概率较大,现实中这些老师具有丰富的教学经验和良好的专业素养,深受学生的欢迎;而评教得分较低的大多数来自于35岁以下的教师;成绩为优秀的学生所做的评教等级多半为优秀。

以上是单一属性与评教等级的关联关系,下面我们来分析评教等级为优秀的教师具有什么样的特征。首先从初始数据信息表中把评教等级为优秀的记录抽取出来,大约15000条,忽略学生成绩和课时量属性,设定最小支持度和最小置信度分别为6%和45%,通过Apriori算法最终得到频繁项集L3,如表9所示。

由以上挖掘结果可以得出,年龄在36-45之间,职称为副教授,学历为研究生的教师被评为优秀的概率较大。

参考文献:

[1]蒋晖等.数据挖掘及其一种关联规则算法[J].计算机与数字工程,2011,39(6):38-42.

[2]王玉荣.关联规则挖掘算法在大数据集上的应用研究[D].江南大学硕士论文,2011:58-72.

[3]李云峰,陈建文,程代杰.关联规则挖掘的研究及对Apriori算法的改进[J].计算机工程与科学,2012,(06):85-87.

[4]LI C,YANG T Q. Effective Mining of Fuzzy Quantitative Weighted Association Rules[C].International Conference on E-Business and E-Government,2010:1418-1421.

[5]李清峰.数据挖掘中关联规则的一种高效Apriori算法[J].计算机应用与软件,2009,21(12):84-86.endprint

【摘 要】 本文首先介绍了数据挖掘在高校教学评价系统中使用的意义,明确了挖掘模块的功能定义及挖掘具体的实现方案,然后详细介绍了关联规则挖掘在高校评教系统中的使用。全文以哈尔滨华德学院为实例,综合了教务处、人力资源部、教学质量监督中心等部门的数据记录形成教学评价初始数据,经过一系列数据预处理操作,形成挖掘对象,通过使用关联规则的Apriori算法对教师属性与评教等级进行了挖掘分析,最终得出了有参考价值的挖掘结果。

【关键词】 教学评价 关联规则 数据预处理 Apriori算法

目前,在高校的教学管理中都引入了教学评价体系,通过记录相应的评教信息,教务管理部门可以掌握教师的授课效果及学生对课程的满意程度,并把相应的反馈信息及时的反馈给任课教师,帮助教师提高自身的教学水平[1]。许多高校已经将教学评价加入到教学管理规范的必要环节,将评教结果作为考核教师工作业绩的重要参考依据。而对于评教数据的内在关联学校却未曾做过深层次的思考。将关联规则的挖掘应用于教学评价系统之中,可以多角度全方位的分析评价数据,哪些老师受学生欢迎,授课效果好;评教得分较高的教师有哪些共同的特征;影响评教得分的主要因素有哪些等学校教务部门感兴趣的信息,都会以直观易于理解的信息形式展现出来,帮助管理部门完善教学质量监督并作为决策支持的依据。

目前我校已有在线教学评价系统,学生每学期末在规定时间范围内登录系统,进行本学期任课教师的评教工作,之后教务处教学质量监督中心会汇总学生的评教数据、专家评教数据及教师互评数据,综合三方面的整体情况,最终得出教师本学期的测评结果。现行的教学评价系统基本功能已经具备,只需在其原系统之上,增加数据挖掘模块,实现关联规则挖掘,使评教数据在完成基本功能外,可以实现数据分析功能,找出隐含在其中的有价值的信息[2]。实现过程如图1所示。下面,以哈尔滨华德学院为例,把数据挖掘模块应用到的评教系统中,帮助教学管理部门进行深层次的数据分析。

数据挖掘所要处理的原始数据通常情况下都是不符合预期要求的,因为在这些数据之中有一部分会含有不规范或冗余的现象[3]。哈尔滨华德学院的教务系统中包含教学评教模块,其中涵盖学生、教师和专家近几年的评价数据,下面将针对学院教务系统中的大量历史真实数据进行预处理操作[4]。根据现实分析问题的要求,实现哈尔滨华德学院教学评价数据挖掘功能的数据源涉及到多个部门的数据信息,主要有人力资源部门的教师信息表、学工处的学生信息表、教务部门的评教信息表等,为了统一数据格式均以Excel表的形式将其导出保存。初始数据信息表的表结构如表1所示。

教师年龄属性取值范围较广,直接用于挖掘分析会使挖掘结果较分散,使用数据泛化,将年龄概括到更高层次的抽象,分别取值为青年、中年和老年。划分的具体标准如表2所示。

学生在校成绩取值为连续的数值,直接用于挖掘会使得挖掘结果得到的规则较多,不利于分析,所以将成绩重新划分为优秀、良好、合格和较差四个等级,划分标准如表3所示。

我校教师的额定课时量是192,根据教师担任的行政职务级别,课时量会适当的缩减,但由于缩减量较小以及划分等级较多,这里为了便于分析,忽略这种差异。根据额定课时量将课时量字段数据分段划分标准如表4所示。

教师的科研能力主要从发表论文数量和科研课题来衡量,其中还考虑了论文所属期刊的等级,省级及一般期刊系数乘1,国家中文核心期刊系数乘2,SCI及EI等重点期刊系数乘4,根据这一原则将教师科研等级划分标准如表5所示。

综合上述各属性数据泛化准则将初始教师评教信息表转化为易于数据挖掘的新的数据表,Apriori算法要求挖掘数据来自于事物数据库,因此,将得到的转化后的数据表再进一步转化为每条记录由字符代码表示的数据表[5],代码转换依据表6和7所示。

一般情况下,在经过处理的挖掘对象中并不是所有的特征属性都有必要参与数据挖掘,因为有一部分属性自身和挖掘所要分析的问题联系较弱,而且对挖掘结果的影响也微乎其微,参与挖掘往往影响挖掘效率。这样,一般采取直接将其删除的策略。针对本文挖掘研究的分析目标,挖掘前将初始数据信息表中与评价等级关联较弱的教师编号、性别、是否进修、入学成绩四列做删除处理。本文对教学评价系统中的30600条数据记录进行了挖掘分析,得到了年龄、职称、学位、学生在校成绩与评教等级之间的关联关系。

设定最小支持度和最小置信度的阈值分别为12%和55%,得到的挖掘结果中满足条件的项集如表8所示。

基于以上挖掘结果,我们得出年龄在36-45岁之间或是具有研究生学历或是职称为副教授的教师评教等级为优秀的概率较大,现实中这些老师具有丰富的教学经验和良好的专业素养,深受学生的欢迎;而评教得分较低的大多数来自于35岁以下的教师;成绩为优秀的学生所做的评教等级多半为优秀。

以上是单一属性与评教等级的关联关系,下面我们来分析评教等级为优秀的教师具有什么样的特征。首先从初始数据信息表中把评教等级为优秀的记录抽取出来,大约15000条,忽略学生成绩和课时量属性,设定最小支持度和最小置信度分别为6%和45%,通过Apriori算法最终得到频繁项集L3,如表9所示。

由以上挖掘结果可以得出,年龄在36-45之间,职称为副教授,学历为研究生的教师被评为优秀的概率较大。

参考文献:

[1]蒋晖等.数据挖掘及其一种关联规则算法[J].计算机与数字工程,2011,39(6):38-42.

[2]王玉荣.关联规则挖掘算法在大数据集上的应用研究[D].江南大学硕士论文,2011:58-72.

[3]李云峰,陈建文,程代杰.关联规则挖掘的研究及对Apriori算法的改进[J].计算机工程与科学,2012,(06):85-87.

[4]LI C,YANG T Q. Effective Mining of Fuzzy Quantitative Weighted Association Rules[C].International Conference on E-Business and E-Government,2010:1418-1421.

[5]李清峰.数据挖掘中关联规则的一种高效Apriori算法[J].计算机应用与软件,2009,21(12):84-86.endprint

猜你喜欢

Apriori算法关联规则教学评价
基于Hadoop平台的并行DHP数据分析方法
对农村小学数学课堂教学评价的认识和看法
网络环境下高职英语课程多维度评价方式研究
小学数学“反思型” 教学的探索与实践