数据挖掘技术和在高校教学系统中的实际应用研究
2017-08-18李川
李 川
(重庆师范大学涉外商贸学院教务处 重庆 401520)
数据挖掘技术和在高校教学系统中的实际应用研究
李 川
(重庆师范大学涉外商贸学院教务处 重庆 401520)
数据挖掘技术优势明显,分析结果准确,可以为高校领导提供准确的数据依据,因此在各大高校开始应用和普及。下面主要分析了数据挖掘技术的基本理论,了解其基本原理;分析了挖掘数据的方法,针对企业需求的不同,分析的重点不同,合理选择数据挖掘方式;同时结合实际案例,分析了高校教师的教学质量,学生英语六级的通过情况,通过数据挖掘技术,总结了相关规律,发现了一些问题,为高校以后的教学工作提供了一些有建设性的意见。
数据挖掘技术 高校教学系统 实际应用
高校办学宗旨就是提高办学水平,提高学员升学率,为社会提供有价值的学生。对于高校教学管理系统而言,其收集整理了大量的教学信息,但是很多数据只是个摆设,没有发挥其价值,因此在一定程度上影响办学质量,影响领导做决策。相关技术人员将数据挖掘技术引入到了高校教学系统中,利用先进的分析方法,可以总结数据规律,对数据进行分类,为高校决策提供数据依据,将教学数据的作用发挥到最大。下面就对这些方面进行分析,希望给有关人士一些借鉴。
一、分析数据挖掘技术的基本理论
由于计算机技术的发展和普及,当前信息技术得到了广泛应用,人们也进入到了大数据时代,不同行业为了得到准确数据,以数据为依据进行决策判断,普及和推广了数据库系统,主要进行存储、管理企业发展过程中的所有数据。由于该技术发展时间较短,在很多功能技术方面还不成熟,智能进行简单的数据管理和处理,影响其作用的发挥。除此之外,当前社会快速发展,人们对数据越来越依赖,同时要求对数据进行快速分析和处理,提高工作效率。针对这一需求,相关单位研究出了数据挖掘技术,其可以从海量数据库、数据中找到人们需要的内容,通过在搜索这部分信息时,工作人员可以以模式、规律、规则、概念等规则进行搜索,缩小搜索范围,找到有效的信息。对于数据挖掘而言,主要是从大量的信息中挖掘没有加工整理的数据,这部分数据对相关需求用户是有价值的,该技术涉及到很多行业和领域,例如有人工神经网络、机器学习、数据库技术、高性能计算技术等,下面主要分析数据挖掘技术在高校教学系统中的实际应用情况,总结使用的经验和效果,对以后的技术发展提出几点建议和要求,为以后的发展奠定基础[1]。
二、分析数据挖掘技术中挖掘数据的基本方法
1、分析分类挖掘数据的方法
对数据进行分类挖掘主要是先设定不同的类别,对大量数据按照一定的规则进行分类,这样就可以构建出一个模型或分类函数,之后将数据项映射到所制定的类别当中,在此基础上,使用分类规则对相关数据进行预测和分类,这种方法必须应用到已经分类号的训练集中[2]。这种分类分析可以分为两个阶段,第一阶段,建立模型对一个已知的数据分类规则进行描述,利用已知的训练集、分类项等对分类模型进行训练,这种分类模型可以表示为人工神经网络、决策树、IF-THEN规则等,之后选用测试数据对模型的准确性进行检测,如果发现这一模型分类得到的结果不准确,技术人员可以对其继续进行训练,直到分类比较准确,达到一个稳定的值为止[3]。
2、分析预测挖掘技术的方法
对数据进行预测分析是先发现数据项随着时间变化的规律,主要应用回归分析方法,其属于典型的预测分析方式,在分析中需要大量的已知数据,将时间作为其中的一个变量,这样就可以得到相应的回归函数,这样就总结出数据随着时间变化的规律,一般预测是以分类作业工作基础的,对预测的结果只能依靠时间进行检验,因此只有经过一段时间后才能知道预测的是否准确。
3、分析关联规则挖掘数据的方法
采用关联规则方式进行数据挖掘时,对大量的数据进行分析,从而找到数据项之间的关联性,其通常表示为A=>B[4],简而言之,当满足A的数据项后,其也可能满足B的要求,通过不同的关联规则就可以反映出数据的不同规律,在此基础上可以很好的预测事件的发展情况。通过这一方法可以准确预测出实例数量,该技术应用范围十分广泛[5],例如沃尔玛超市发现对于男性顾客而言,在购买尿不湿的同时也会购买啤酒,因此沃尔玛管理人员果断决定将尿不湿和啤酒放到一起,在这两方面取得了很好的销售业绩。由此可见,从大量的数据中找到关联规则,对企业领导做决策有很大的帮助,除此之外,这一方法也是进行数据挖掘方法的基础[6]。
4、分析聚类挖掘数据的方式
对数据采取聚类的分析方式,就是将大量数据按照一定的特点将其自然的分成不同的组别,有效减少相同一类数据项之间的不同,从而增大不同类别数据之间的不同,这种分类方式可以保证同一类的数据内容的相似度,这样再进行数据挖掘中,就可以提高挖掘数据的效率,可以在短时间内找到所需要的大量数据,提高了数据的应用效果[7]。虽然挖掘数据的方法不同,但是一般其挖掘的流程都是一样的,为了保证得到相关规律的准确性,要确保各个环节工作的质量,尤其在数据准备中,确保数据的真实性和有效性,确保数据的权威性,否则以这一数据挖掘计算得到的结果实际应用价值有限。
进行数据挖掘过程中,要先定义目标,确定具体的挖掘目标,工作中就是进行需求分析;然后做好数据准备,针对调查对象的不同,准备相关的数据,数据要充足可靠,保证分析结果准确;在挖掘数据中,将隐含的规律挖掘出来,先确定分析方法的类型,结合具体的分析方法,选用一种合适的算法,最终找到相关的规律;在结果表示阶段,结合用户的需要,将发现的数据规律做进一步转换,一般都是转变为二进制的数字,方便使用算法进行计算,根据得到的数据规律,结合不同的领域需求,将结果应用到特定的领域中,为决策人员提供决策依据,确保决策的科学性和有效性。为了保证工作质量,工作过人员必须保证数据准备的充足,合理的选用算法,并结合不同的领域使用数据规律,总结其中的问题,提出合理化建议等。
三、评估高校教师的教学质量应用情况
1、关联规则数据挖掘方法分析
为了提高学生的能力,把好教师职称评定这一关,有必要使用数据挖掘技术对教师的教学质量情况进行评估。常用的评估方式是统计分析,对学生的评价、成绩等数据进行收集和整理,然后利用加权计算的方式计算出教师的得分情况,得到的数据就是评定的一项指标。但是这一评定方法科学性差,没有很强的权威性,在教学过程中很多重要的数据都没有进行挖掘,针对这一情况,技术人员通过关联规则方法进行评估,得到了很好的效果。关联规则是从大量数据中挖掘各个数据项之间的依赖关系[8],表示为X→Y,支持度=s%,置信度=c%规则;在全体事件中,在X的事件中有c%也满足事件Y,通过置信度可以直接表示X→Y关联的强度,记作confidence(X→Y,可以将最小的置信度记作minConf,通过用户就会给定[9]。对于关联规则X→Y的支持度s%而言,表示在全体事件集合D中,有s%事件同时满足X、Y。支持度表示X→Y关联的频度,记作Support(X),可以将最小的支持度记作minSup。分析中主要分为两个步骤,第一步,做到全体集合的数据库,分析所有的频繁项集;第二步,利用频繁项集生成关联规则[10]。这种分析方法可以得到很好的效果,一般针对收集的数据分析,很难得到相关规律,而且挖掘数据规律不细致,但是通过从海量数据进行关联方式分析,可以得到这一数据和另一数据之间的关系,进而加深对数据的理解,掌握数据背后对相关工作,领导决策的帮助。
2、分析Apriori的具体算法
对于Apriori算法而言,选用迭代法进行分析和计算,例如从频繁k-项集搜索得到频繁(k+1)的项集,具体进行计算时掌握其流程,先准确将频繁1-项集挖掘出来,其将会作为迭代的起点,之后利用迭代方法对频繁k-项集的数据进行挖掘,一般是先挖掘出候选频繁k-项集,结合最小置信度minsup进行数据的筛选, 最终会得到频繁k-项集,最终将所有的频繁k-项集都进行合并;在此之后,可以从频繁项集中将所有的关联规则都挖掘出来,结合minConf得到频繁关联规则,确保准确挖掘出相关的数据[11]。
3、分析管理分析方法实践应用情况
先准备相关的数据,以某高校为例,从其管理系统数据库中得到500条有关教师教学评价的信息,然后将其中的六个属性挑选出来,分别是评价分数、学历、职称、教龄、性别、教师编号,同时将这些指标转化成二进制数字,有利于后续的程序计算,例如可以将教授、副教授、讲师转换成00、01、11。之后选用上述管理规则分析方法进行分析,设定搜索目标是评价分数在90分以上,其可以判定教师的教学质量,如果满足这一要求,那么就说明教师教学质量属于优秀级别。通过这一方法进行搜索,得到了143条记录,计算出其最小的置信度minSup=15%,最小的支持度minConf=10%,最终得到了关联规则情况,可以参考下表。关联规则教授→优秀,置信度=82.5%,支持度=21%,其表示在教师当中,职称是教授、评价分数在90分以上,占到总人数的21%;除此之外,在所有教授当中,评价分数在90分以上,满足这两项要求占到总人数的82.5%。在此之后评价实验结果,通过分析得知学生青睐女教师和男教师的概率基本相同;当教师的学历越高时, 其整体的教学效果就越好, 说明高学历的教师基本功更为扎实,具有很高的科研水平,除此之外,由支持度得知该校的高学历教师较多,因此这一高校领导的办学水平很高。
四、分析评估学生成绩的方法实践应用
1、决策树方法评估学生的成绩
在进行高校教学工作中,学生成绩是教学质量的重要指标,也是衡量一个学校办学水平的重要指标,因此必须严格进行考核。传统的成绩评估就是利用简单的人工算法,虽然有海量的数据,但是不能对其进行全面、综合的分析,相关技术人员引用了决策树的方法进行数据挖掘分析。其属于一种分类分析方法,根据训练集对大量数据进行分类,搜索潜在具有价值的信息,进而有效预测事物的发展情况,对以后的决策提供数据支持。一般在应用中可以分为两个步骤来完成:第一,建立决策树,根据训练集的数据,利用递归方法训练生成决策树;第二,根据生成的决策树,输入相关数据,对数据进行分类和预测。构建时其从上到下进行递归构建,根节点可以判断起始状态,根节点到不同的叶子节点路径就是一个决策。
2、分析ID3计算方法的使用情况
使用ID3算法时,可以利用信息增益的方式作为属性的选择标准,对决策树中不同节点进行属性选择,各个节点都可以得到很大的类别信息,具体应用该算法时,第一,对数据项目中的属性宽度进行优化,选择其中信息增益最大的属性,将其作为决策树的节点,以这一节点为基础,结合属性不同取不同的值,构建这一节点的分支;第二,使用递归的方法继续构建分支中的分支;第三,当同一类别的数据都被相关子集包含时,这一算法就自动结束,最终得到决策树。这种算法操作简单,而且容易实现,具有较强的训练能力,但是也存在一定的缺点,例如对噪音敏感,得到的结果不稳定等。
3、分析C4.5算法的实践应用情况
传统的C4.5算法存在一定的问题,因此在以后的发展中,工作人员对其做了一定程度的优化,该算法继承了ID3算法的优点,在此基础上进行了优化,因此其达到的效果会更好。第一点,为了解决决ID3算法使用中,信息增益选择属性结果偏向选择取值多的属性问题,该算法利用信息增益率进行属性的选择;第二点,为了有效减小算法运行的开销,提高工作效率,这一算法在构造决策树时做了剪枝处理;第三点,这一算法可以把连续属性离散化,有效处理连续属性;第四点,该算法还可以对不完整的数据进行处理。和其他算法进行对比,这一算法优势较为明显,计算中得到的分类规则、结果很容易理解,表示非常清楚,但是在执行算法中需要大量扫描相关数据,并进行排序,如果数据集很大时,算法效率会很低,针对这一问题, C4.5算法在内存数据集中可以进行分类挖掘,不能大规模进行挖掘。在数据处理过程中,对于特殊情况有必要进行剪枝处理,利用C4.5、ID3方法构建决策树,如果受到异常数据的影响之后,导致其分支较多,因此决策的规模很大,严重制约了决策树算法执行的效率,对于得到的分类结果而言,对训练集产生很大的依赖性,就是所谓的训练过度。为了有效避免这一问题,执行这一算法中对相关的分支做修剪处理,一般分为事后修剪和事前修剪,得到的效果没有很大的差别。
4、分析评估学生成绩时使用决策树算法的效果
以某高校英语班为例,分析这一班级英语六级的通过情况,分析方法是决策树的方法。第一,做好数据的准备工作,从相应的教学管理系统中抽取1000条学生成绩进行记录,选择和研究目标相关的属性,包括英语六级通过情况、英语四级成绩、入学英语成绩、性别、生源地等,将数据进行离散化,可以将入学成绩分为 0~60、60~90、90~110、110~130、130~150,得到相关的训练数据集,最终将数据指标变为二进制数值,方便程序进行运算。
利用这种方法进行数据挖掘时,这次研究目标是六级通过情况,因此可以将其分为通过和未通过,使用决策树算法程序对各个属性信息增益情况进行计算,英语四级成绩是最大的信息增益,将这一属性作为决策根节点,之后按照顺序递归分支,做好剪枝操作就可以得到一颗决策树。
通过这次实践应用结果得知,在分析中使用决策树方式进行挖掘,可以得到相关的数据规律,通过高校管理层结合数据情况,分析管理中存在的问题,对以后的管理工作进行完善,提高管理水平。第一点,对于英语六级的通过情况而言,主要影响因素是四级的成绩,如果学生的具有很高的四级水平,那么其应用水平就很高,那么在以后学习中,通过英语六级的概率增大;第二点,和男生相比,女生通过六级的概率更高,男生一般比较贪玩,英语成绩达到老师的要求即可,没有进行深入的学习,而女生学习比较认真,因此英语基础较好。第三点,生源地是重要的指标,由于学生之前的学校办学水平不同,极大影响学生的学习成绩,很多学校不重视英语教学,因此这部分学生的英语水平一般,影响了其以后的学习和发展,导致英语六级的通过率低。第四点,通过数据显示英语入学成绩和六级是否通过没有必然的联系,二者的影响不是很大,因此针对这一调查中,高校在以后的办学发展中,可以针对四级成绩较低的学生进行英语培训,强化英语笔试训练,除此之外,教师日常教学中加强对男生、农村学生的培养,一般其英语水平比较薄弱,如果教学速度过快,或者没有让学生有一个适应过程,那么这部分学生很容易根本上,直接导致英语学习效果进一步下降, 因此教学中予以更多的关注,加强其学习方面的监督;教师在日常教学中,要具有虚心的态度,教学工作之余不断进行自我学习、自我深造,提高在英语方面的水平,补充在英语方面的知识储备,重点对教学方法进行学习,结合班级整体学生的特点和英语水平,选择合适的教学方法,针对英语能力较差的学生,抽出时间对其进行特殊教学,及时弥补其之前落下的功课。由此可见,为了提高英语六级的通过率,教师要具备较高水平的教学能力,分析班级现实情况,选择科学的方法有针对性的进行教学,提高学生的成绩,提高高校的办学水平。
五、总结
通过以上对数据挖掘技术和在高校教学系统中的实际应用分析,发现数据挖掘技术作用非常大,和传统的数据统计分析相比,这一技术可以总结、分析出很多有价值的数据,为高校办学提供决策依据。通过分析决策树。关联分析等方法,以高校为例进行了教学管理方面的分析,得到了一些有价值的数据规律,这样高校在办学过程中,可以根据数据情况进行完善、改革和做决策,传统数据统计虽然也具有一定的价值,但是其对数据的利用度有限,不能综合、全面进行数据分析,因此对决策的质量有很大影响,在以后的发展中要继续优化数据挖掘技术,让其发挥更大的作用。
[1]曹煜.高校教学质量测评系统的开发及数据仓库与数据挖掘技术在其中的应用[D].东北大学,2015.114-115.
[2]王可安,贾存良,李质勇.基于SQL Server 2015的数据挖掘技术在高校教学评价中的应用研究[J].枣庄学院学报,2011,26(5):99-104.
[3]高云辉.数据挖掘技术在高校教学评价中的应用研究[J].吉林省教育学院学报旬刊,2013(1):36-37.
[4]吴淼.数据挖掘技术在高校图书管理系统中的应用研究[J].内蒙古科技与经济,2012(3):83-84.
[5]孙艳.数据仓库与数据挖掘技术在高校教学管理系统中的应用研究[D].中国石油大学,2010.(11):44-46.
[6]姜文秀.数据挖掘技术在高校教学质量监控与评估系统中的应用研究[D].南京理工大学,2012.(13):201-201.
[7]严忠贞.高校教学质量评价信息系统中数据挖掘技术的研究与应用[J].今日科苑,2011(6):241-242.
[8]宋黎明.基于归纳学习的数据挖掘技术在高校教学研究中的应用[J].黑龙江科技信息,2010(15):144-144.
[9]李忻.数据挖掘在高校教学质量评价系统中的应用研究[D].华北电力大学(保定),华北电力大学, 2011.
[10]张敬,姚书科.探讨数据挖掘技术在教学评估系统中的应用[J].软件导刊, 2012,11(2):157-158.
[11]杜芳芳.数据挖掘技术在远程教学辅助系统中的应用研究[J].河南科技, 2011(6X):40-41.
G434
A
2095-3089(2017)27-0032-03