APP下载

教育数据挖掘技术应用研究

2017-11-30彭亚于翠波张勖

中国教育技术装备 2017年18期
关键词:数据挖掘

彭亚+于翠波+张勖

摘 要 教育数据挖掘是将数据挖掘技术应用于教育领域,以发现教育中的潜在问题。介绍教育数据挖掘的发展历程和研究现状,采用文献计量和内容分析法对教育数据挖掘从教育环境、应用类型和技术方法三方面进行分析,并对教育数据挖掘的应用有所发现。

关键词 数据挖掘;教育数据挖掘;e-learning

中图分类号:G642.0 文献标识码:A

文章编号:1671-489X(2017)18-0001-06

Applied Research of Education Data Mining Technology//PENG Ya, YU CUIBo, ZHANG Xu

Abstract Education Data Mining (EDM) belongs to a multidiscipli-nary research field which applies data mining technology to educa-

tion for finding the hidden value of data. This paper firstly introduces

the concept, development history and present research status of EDM,

then researches and analyzes EDM from aspects of education envi-

ronment, application type and the technical methods and last discusses

the current research status of EDM.

Key words data mining; education data mining; e-learning

1 前言

數据挖掘是从大量的数据中通过算法发现有用信息的过程,最早出现在数据库领域,与计算机科学和统计学联系紧密。数据挖掘用到了包括抽样、估计、建模、人工智能、模式识别、可视化等技术,并在近30年的时间里得到快速发展,目前已广泛应用在各个领域。

教育数据挖掘(Education Data Mining,EDM)是将数据挖掘技术应用于教育领域,并结合了教育学、计算机科学、统计学等学科的理论和技术,用以提高学习、教学和管理三方面水平的新兴的多学科交叉研究领域。教育数据挖掘技术可用来解决教学工作和教育研究中遇到的很多问题,比如了解学生喜好、辅助教学管理人员做出决策、帮助教师改进课程、对比学生知识掌握情况等。根据数据挖掘技术应用的业务领域,可以将数据挖掘分为e-learning数据挖掘、e-management数据挖掘和e-research数据挖掘。E-learning数据挖掘应用在教学领域,进行学习者特征识别、在线学习行为分析、师生交互分析等,数据来源于课堂教学、远程教学系统、学习软件系统等。E-management数据挖掘应用在教学管理领域,其数据来源于各种教学管理系统中。E-research数据挖掘应用科研领域,用以提高科研效率,数据主要是来源于各种科研数据库。

2 教育数据挖掘研究现状

关于教育数据挖掘的研究发展历程,起初是智能辅导系统(ITS)、人工智能教育(AIED)和用户建模(UM)等众多研究领域中的一个子方向。从2005年开始,国际上许多计算机应用(如ITS等)的相关会议都设置了关于EDM的议题。不同时间、不同会议上的EDM议题虽有差别,但宗旨一致。2007年,欧洲技术促进学习协会(EATEL)在希腊克里特岛举办第二届欧洲技术促进学习会议(EC-TEL2007),

其间举办了“Apply Data Mining in E-Learning”研讨会(ADML2007);之后,该领域研究者组成国际教育数据挖掘工作组,并创办在线学术期刊——《教育数据挖掘杂志》;2008年开始,该工作组每年都会召开教育数据挖掘国际会议;2011年成立国际教育数据挖掘协会(IEDMS)。EDM的研究历程见图1所示。

目前与EDM相关的学术会议主要有International Con-

ference on Educational Data mining(EDM)、Interna-

tional Conference on Learning Analytics and Knowle-dge(LAK)、International Conference on Artificial Intelligence in Education(AIED)、International Con-

ference on Intelligence Tutoring Systems(ITS)等。

与EDM相关的主要期刊有Journal of Engineering Education(JEE)、Computers and Education(CAE)、Journal of the Learning Sciences(JLS)、Expert System with Applications(ESWA)、Journal of Educational Data Mining(JEDM)等。此外,关于EDM的书籍,国际上主要有2010年Romero等人编写的Handbook of Educational Data Mining,该书详细讲述了EDM的概念、技术以及案例等;国内主要有葛道凯、张少刚、魏顺平等人编写的《教育数据挖掘方法与应用》,程艳编写的《教育数据挖掘与教育虚拟社区群集智能化构建方法》等。endprint

在Google Scholar中以包含Educational data mining

的完整字句对已有论文进行搜索,用每年论文发表数目体现教育数据挖掘的发展状况,能够形象地展示出教育数据挖掘的发展研究趋势。2008—2015年,教育数据挖掘论文发表数目随时间变化趋势如图2所示。

从图中可以看出,EDM论文数目呈现总体上升趋势。2008—2011年增长趋势比较平缓,2008年发表的关于EDM论文数量仅有不足200篇;2010和2011分别约为400篇;但从2011年以后,关于EDM论文数量递增的趋势明显增大,数目已达到近1800篇。因此,关于教育数据挖掘的研究呈总体递增趋势,且关注度逐步增长,国内外研究持续上升。

3 教育数据挖掘研究与分析结果

本次研究样本主要是来源于The 8th International Conference on Educational Data Mining(EDM2015)的论文集。EDM会议是关于教育数据挖掘的一个领先的高质量的国际会议,主要关注教学研究和学生学习过程,相关研究的数据集分别来自ITS、MOOC、教育游戏、学习软件、教学管理系统等。其中,EDM2015论文集中收录长论文(Full Papers)42篇、短论文(Short Papers)48篇、海报与展示论文(Poster and Demo Papers)46篇、博士交流(DC Papers)12篇。选择论文集中质量较高的长论文和短论文作为本次的研究对象;另外在Google Scholar上搜索教育数据挖掘相关的论文,并选取2009—2014年间下载次数超过50的16篇论文作为补充。如此一来,本次研究的论文样本总数计106篇。研究过程采用定量分析与定性分析相结合的方法,从教学环境、应用类型及数据挖掘技术方法三个方面对这些样本进行分析研究。

EDM应用的教学环境 教学环境是教师进行教学活动或者学生进行学习必不可少的软硬件及基础设施的组合,可以是物理上的教室,也可以是虚拟的互联网系统或学习软件等。教学环境是教、学活动实际进行的场所,其中产生的数据可以作为EDM研究数据的来源,同时也是实施调整、改进教师教学或者学生学习的实验场地。将教学环境主要分为相对较少采用现代信息科技系统的传统教学环境、以开放式的互联网信息系统为主的网络教学环境和大数据时代背景下涌现出的新型教学场所或载体的大数据教学环境。

通过对论文样本的教学环境进行分析和归类,在本文选取的106篇样本中,传统教学环境的有15篇,占论文总数的14.1%;网络教学环境的有32篇,占比40.6%;大数据教学环境的有29篇,占比25.5%;此外还有一些论文没有指出具体某种教学环境类型,称为其他,有14篇,占比19.8%,见表1所示。各种主要教学环境在样本中的分布情况见图3。

由表1和图3可见,来自网络教学环境下的论文数量最多,占比40.6%;来自大数据环境下的论文数量次之,比例达到总数的25.5%,且多于传统教学环境下的14.1%。这是因为相比于传统环境,数字化的网络环境与大数据环境下,教、学过程中的数据采集、存储及处理更方便、快捷。另外,虽然目前大数据环境下的教育数据挖掘研究还不算最多,但由于它可以在短时间对上万名学生的数据完成建模、预测等,其受到的关注度会越来越高。

传统教学环境下EDM的研究通常采用统计学方法对搜集的数据进行分析比对,以便于帮助教师根据学生的知识掌握情况相应地变动教学方案。传统教学环境下研究的数据来源有学生考试成绩、作业习题和课堂情况记录等。此类数据获取通常比较烦琐,需要逐个统计并录入,数据量也相对较小。传统教学环境下EDM的研究结果有通过学生的课堂表现来预测学生学习情况,以便于了解学生的知识掌握程度[1],根据学生上课回答问题情况对问题进行自动分类,有助于教师优化教学计划[2],对学生的CET成绩进行可视化分析和评价[3]。虽然各种新型的教学环境不断涌现出来,面对面教学的传统教学环境依然占当今校园教学的主流,因此,这些研究结果有利于改进课堂教学。

随着互联网的快速发展,网络技术也越来越多地运用到教学领域中形成网络教学环境,数字化的网络教学环境下产生的数据种类丰富、数量众多,获取容易。网络环境下用于EDM的数据来源可以是服务器,也可以是客户端的用户活动记录,这些数据包括学生的登录次数、学习记录和作业成绩等。在网络教学环境中最典型的应用就是智能导学系统(ITS),目前流行的ITS有MOODLE和ASSISTMent,以及其他一些小范围的智能导学系统。在教学应用中,可以基于ITS对个人学习曲线进行混合建模,比较几种模型优势并构建最适合的模型来描述学生学习,对学习情况进行估计[4]。将智能导学推荐系统用于在线教育系统中,使用分类的方法在网络教育环境中检索最合适的课程,可以帮助学习者找到最适合的课程[5]。网络教学环境中的数据获取相较于传统教学环境更方便,教学活动可以根据每个用户的特点自适应调整。

大数据教学环境的特点是拥有海量的学习活动数据,其数据来源有MOOC、益智类游戏记录数据、在线问卷访谈等,此类环境下的数据量最大。目前的MOOC平台有Coursera、edX、Udacity等。与传统课堂和一般网络课堂的区别是,大数据环境下的MOOC课堂通常有数万甚至数十万名学生,因此,记录的数据量是极大的,需要在大数据平台上处理。如通过将学生进行分类来强调学生之间的差异,并确定他们在MOOC中成功完成课程的路径和方法[6]。

此外,除了上述三种环境下的论文,本次研究中还有一些论文的数据集来源于网络上公开的数据集,如KDDCup、

PSLC DataShop等。此类论文通常是将模型进行优化,把几种EDM方法进行分析并对比优劣,或者是对EDM方法进行改进等,有助于教师或者管理人员制定学习方法或教學策略等。endprint

以上三种学习环境中,通常可假设传统教学环境下学生学习动机相同、知识水平类似,而且此环境下学生数量及可获取的数据相对较少,因此,用到的数据挖掘技术方法也相对简单。一般的网络教育相对于传统教育的特点是数据易于获取,学生更多;而大数据教学环境相较于一般网络教育的优点是课程更加丰富,自由度更大。目前教学中已开始尝试将在线教学应用于传统课堂并对学生学习情况进行预测,比较高中、大学和在线教学环境的交互学习情况等。

EDM的应用类型 在研究中,根据EDM结果的不同用途,将EDM的应用类型分成可视化(Visualization,即VS)、学生建模(Student Modeling,即SM)、学生表现预测(Pre-

dicting Student Performance,即PSP)、推荐系统(Reco-

mmender System,即RS)、自适应系统(Adaptive System,

即AS)五类。VS是指将信息或数据用图的形式形象化地展示出来;SM是指通过对学生的行为、动机和学习习惯等建立模型,揭示学生的学习特征;PSP是指通过已经掌握的数据去预测未知的结果;RS是指根据学生的特点向其推荐书籍、课程或者学习方法等;AS是指根据学生建模的结果做自适应变化的学习系统。

通过对论文样本进行分析,可知用于可视化(VS)的有19篇,占论文总数的17.9%;研究学生建模(SM)的有32篇,占论文总数的30.2%;进行学生表现预测(PSP)的有29篇,占27.4%;用于推荐系统(RS)的有14篇,占30.2%;用于自适应系统(AS)研究的有12篇,占11.3%,如表2所示。各种用途分类结果在样本中的分布情况见图4。

选中的样本中,用于学生建模(SM)研究的论文数量最多。EDM中学生建模采用贝叶斯网、序列模式挖掘、关联规则和逻辑回归等方法,对学生特点和学习行为进行自动建模。对学生建模,可以帮助教师及研究人员等更好地了解学生的学习特征,关注学习过程和教学研究。例如:利用最受欢迎的BKT推理模型推断学生的知识和能力,了解学生的学习情况[7];将多功能分层序列模式挖掘和水平分層均用于学习行为特征中,并进行对比,找出更适合的方式[8]。此外,学生建模还可以对集中模型进行优化、改进,从而得到最适合的模型,如针对Duolingo这一系统进行模型优化[4]。

进行学生表现预测(PSP)研究的论文数量仅次于SM。在EDM中,PSP的例子有预测学生的学习成绩、预测学生是否能完成某项任务以及学生未来表现等。PSP是目前非常流行的应用,用到的最主要的方法有分类、回归、决策树等。例如:利用分类器对学生成绩进行预测;用逻辑回归和贝叶斯知识追踪的方法,根据某中学的学生在ASSISTMent系统交互的数据,预测这个学校学生的大学入学率;根据学生参与论坛在线讨论的情况,用分类和聚类的方法来预测学生最终的成绩。

可视化(VS)研究可以帮助人们更加直观地理解教育数据,如在线评估过程中产生的数据、考试成绩、用户论坛数据等。可视化还可以帮助人们形象地对比不同的EDM技术与方法的差距,如在传统教育环境中,将可视化数据挖掘用于高等教育评价体系[3]。

推荐系统(RS)研究可以根据人们以往的购书内容以及浏览内容向其推荐合适的书籍,或者根据学生的学历、专业等向其推荐合适的课程等。例如:用分类的方法在网络教育环境中检索最合适的课程[5];用目前最先进的主题细分模型对课程进行选择[9]。

自适应系统(AS)的研究是根据学生建模的结果自适应地调整学习内容,即学习系统可以根据学生每段时间的学习状况,相应地去调整该学生下一阶段的学习计划。如用支持向量机和逻辑回归对资源进行优化以适应学生进行学习[10]。在自适应辅导系统中,首先要准确评估一个学生的能力,并对学生的表现进行预测,然后基于类型进行自适应。

由于本次研究的样本主要来自EDM2015,而EDM2015会议主题是关注教育研究问题和隐藏学习过程的,因此,研究用途为学生建模(SM)和学生表现预测(PSP)的较多,自适应系统(AS)和推荐系统(RS)相对较少。但在教学中,自适应系统(AS)和推荐系统(RS)同样非常重要,尤其是在网络教育环境及大数据教学环境中,自适应系统(AS)和推荐系统(RS)能够给学生的学习及教师的教学提供极大的方便。

EDM的技术方法 从本次调研的论文以及综合Romero和Venture、Baker和Yacef对EDM的分类了解到,统计分析与可视化、预测、聚类、关系挖掘是EDM研究中最常用的技术,同时也是最基本、最成熟的技术。此外,还有一些技术如文本挖掘、协同过滤等也会在EDM中用到,但出现的概率都很低,本文将其归为其他。

通过对样本论文的分析,发现部分论文的研究过程中会用到不止一种技术方法,因此,计算某种技术方法所占百分比,是按照用到该种方法的论文数占总论文的比例计算的。本次研究的论文中,以统计分析与可视化方法为主的是21篇,占比19.8%;以预测技术为主的是48篇,占比45.3%;以聚类技术为主的是22篇,占比20.8%;以关系挖掘方法为主的是28篇,占比26.4%;其他方法的有14篇,占论文总数的13.2%。可将此次研究的论文中的长论文、短论文、其他代表性论文等按照EDM的技术方法进行分类,得到分类数目见表3。各种主要EDM技术方法在样本中的分布情况见图5。

由表3和图5可见,预测是EDM研究中最常用的技术,跟随其后的依次是关系挖掘、聚类、统计分析与可视化,而文本挖掘、协同过滤等其他技术在研究中则用到得较少。在几种技术中,聚类包括聚类和离群点分析,预测包括分类、回归以及决策树,关系挖掘包括关联规则挖掘、序列模式挖掘等。

统计分析与可视化通常不算数据挖掘技术,但因可处理数据挖掘问题,因此也算教育数据挖掘的方法。统计的过程是先形成假设,然后在可视化中将数据转化为易于理解的图像来进行检验。统计分析与可视化的应用可以使研究人员更加直观地对数据进行理解和分析,如基于小的ITS样本对几种模型进行分析,并用统计分析与可视化的方法对几种效用进行评估[11]。endprint

预测是根据已知属性来预测未知属性的情况,分类、回归以及决策树均可实现预测功能。当未知属性为类别型时,特指分类,如用分类的方法来实现对学生课程完成情况的预测,并用自然语言处理检测是否成功预测[12]。回归中被估计的目标属性通常是连续的,常常会用到最小二乘和梯度下降算法,如使用回归对自适应系统中的命令的有效性进行预测,以实现将自适应系统用于教学中的功能[13]。决策树是一种树型结构,可根据某一属性对数据进行分裂,以达到某一标准的最优值。但在运用决策树的过程中要注意如何分裂以及如何停止分裂两个过程,如先将学生课堂表现是否活跃进行分类,将学生分为“积极”和“非積极两类”;之后将“非积极”的学生根据是否自愿购买课程进行分类[6]。决策树算法是目前预测算法中运用频率最高的。

将数据按照内在相似性划分成多个类别是聚类算法,其中较普遍的方法是EM算法和K-means算法等。如用聚类的方法,根据McGraw-Hill网络教育平台的学生登录数据来洞察学生的学习经验,其中有用到K-means算法[14];将几种模型进行对比,选出最适合论文中Duolingo数据集的模型并进行优化[4]。聚类与分类不同,它是一种在不知道样本类别及个数的情况下的无指导的学习过程。根据学生的学习信息,可以对学生进行个性化分类,如组成协作学习小组、实现个性化课程管理以及对学生分类推荐课程等。

关系挖掘是从关系数据库中的多个表中挖掘有意义的模式,可以挖掘空间上的共现关系,也可以挖掘时间上的序列关系,其包括关联规则挖掘、序列模式挖掘等。关联规则挖掘是挖掘空间共现关系,根据规则发现数据集中隐藏关联。如通过peer-submitted和peer-reviewed的关系,分析学生行为和学习成果[15];选取远程教育的在线学生为样本进行分析,根据年龄的不同来比较他们的学习能力差异以及学习态度,通过关联规则发现额外信息,并更好地帮助教师教学和学生学习。序列模式挖掘即是在某一时间相继产生的关系[16],教学中可以将序列模式挖掘技术用于学生学习过程。研究中有论述多功能分层序列模式挖掘,并对现有的序列模式挖掘算法进行扩展等。目前,国内外的关系挖掘研究虽仍面临一些挑战,但也已经获得大量成果。

文本挖掘即文本数据挖掘,数据一般是指文本处理过程中产生的高质量信息。典型的文本挖掘方法有文本分类、文本聚类、信息抽取、自动分词等。比如可以将数据挖掘技术用在跟踪学生整个学期学习情况的文本集上,并要求学生写课后评论,发现其中隐含知识,以此来预测学生学习成绩等。

4 结论与未来研究

本次研究的贡献与意义 本次研究调研了教育数据挖掘技术的发展历程及研究现状,并采用文献计量和内容分析法,重点对EDM从教育环境、应用类型和技术方法三方面进行了研究分析,有助于在实际应用中把各种应用与具体的数据挖掘情况相结合,找出适合的技术方法。例如:用学生建模(SM)来分析学生的学习效果以及绘制或预测学生的行为模式,帮助教师和学生更加清楚学习情况等;而学生表现预测(PSP)可以对学生的成绩、未来表现等进行预测等。针对不同的研究对象而言,对教师的信息进行挖掘,可以帮助教师改进教学方法,制订教学方案等;对学生的信息挖掘,可以了解学生的行为特征、日常学习情况、知识掌握程度等。

随着科技的发展和信息量的剧增,EDM得到巨大发展,并广泛应用在教育领域各个层次的教学中。在EDM的三种教学环境中,网络教育环境是占比最多的。起初,应用最广泛且教育领域的研究者们接触最多的教学方式,就是传统的教学方式。而随着网络的发展,依照传统方法在大量数据中寻找决策变得困难,为了更好地帮助教师教学和学生学习,网络教学应运而生,并被广泛地应用在教育中,因此,关于网络教学环境下的EDM研究数量越来越多。

之后,随着互联网的崛起,大数据背景下EDM又得到迅速发展。但相对于传统教学和网络教学环境,大数据背景下的教育数据挖掘的数据量巨大,技术更加复杂,对信息人员技能和成本要求也更高。因此,大数据环境下的EDM研究更加复杂,但研究的空间也是巨大的。

EDM研究的建议与展望 在教育数据挖掘中,数据是关键,只有拥有足够的数据,才能对学生的行为特征、日常学习情况、知识掌握程度等进行分析,从而将学生的情况表现得更清楚。在传统教学环境中,数据的获取比较困难,可以考虑在教学实践中运用传统教学与非传统教学相结合的教学方式来记录反映学生学习情况的数据。目前,有些学校已经实现了此种教学方式,但数据记录情况不够全面详细,未来仍需要对此种传统与非传统结合的教学方式进行优化。

在教学研究中,数据挖掘只是一种技术方法,其根本目的是了解学生特性,预知学生掌握程度,以便能够在教学中采取适合的教学方法调动学生学习的积极性,使学生能够更好地掌握知识。高斯也曾说过:“对数据挖掘、文本挖掘的无知不是没有相关知识,而是过于依赖数据挖掘和文本挖掘而忽视其他。”因此,应把常用的数据挖掘技术应用在教育的各个方面,把每一种应用与具体的挖掘情况相结合,根据教育中具体情况,选择适当的方法挖掘数据中的内在联系,找出教学中出现的问题,提高教学水平。

随着网络的发展,非传统教学环境下的数据量越来越多,需要引入大数据平台。同时,这些数据隐含着学习者的学习方法、学习路径、学习过程中思想活动等对提高学习效率非常重要的信息,数据十分复杂,对算法的复杂度的要求更高,要做的工作也更多,会有更多的研究课题。因此,大数据环境下的EDM将是新的研究趋势。未来将更关注大数据环境下EDM算法的设计和改进,以便于更好地服务智慧教育、教育信息化。

参考文献

[1]Samei B, Olney A M, Kelly S, et al. Modeling Classroom Dis-

course: Do Models that Predict Dialogic Instruction Properties Generalize across Populations?[J].International Educational Data Mining Society,2015.endprint

[2]Blanchard N, DMello S, Olney A M, et al. Automatic Classi-

fication of Question & Answer Discourse Segments from Teachers

Speech in Classrooms[J].International Educational Data Mining

Society,2015.

[3]Jin H, Wu T, Liu Z, et al. Application of visual data mining in

higher-education evaluation system[M]//2009 First International

Workshop on Education Technology and Computer Science.2009.

[4]Streeter M. Mixture Modeling of Individual Learning Curves

[J].International Educational Data Mining Society,2015.

[5]Mihaescu M C, Popescu P S, Ionascu C. Intelligent Tutor Re-commender System for On-Line Educational Environments[J].International Educational Data Mining Society,2015.

[6]Sharma K, Jermann P, Dillenbourg P. Identifying Styles and Paths toward Success in MOOCs[J].International Educational Data Mining Society,2015.

[7]Martori F, Cuadros J, González-Sabaté L. Direct Estimation of the Minimum RSS Value for Training Bayesian Knowledge Tracing Parameters[J].International Educational Data Mining Society,2015.

[8]Ye C, Segedy J R, Kinnebrew J S, et al. Learning Behavior Characterization with Multi-Feature, Hierarchical Activity Se-

quences[J].International Educational Data Mining Society,2015.

[9]Alharbi G, Hain T. Using Topic Segmentation Models for the Automatic Organisation of MOOCs Resources[J].International Educational Data Mining Society,2015.

[10]Alexandron G, Zhou Q, Pritchard D. Discovering the Peda-gogical Resources that Assist Students in Answering Questions Correctly-A Machine Learning Approach[J].International Educa-

tional Data Mining Society,2015

[11]Doroudi S, Holstein K, Aleven V, et al. Towards Understan-ding How to Leverage Sense-Making, Induction and Refinement,

and Fluency to Improve Robust Learning[J].International Edu-cational Data Mining Society,2015.

[12]Crossley S, McNamara D S, Baker R, et al. Language to Completion: Success in an Educational Data Mining Massive Open Online Class[J].International Educational Data Mining Society,2015.

[13]Tang S, Gogel H, McBride E, et al. Desirable Difficulty and Other Predictors of Effective Item Orderings[J].International Educational Data Mining Society,2015.

[14]Agnihotri L, Aghababyan A, Mojarad S, et al. Mining Login

Data for Actionable Student Insight[J].International Educa-tional Data Mining Society,2015.

[15]Bhatnagar S, Lasry N, Desmarais M, et al. An Analysis of

Peer-Submitted and Peer-Reviewed Answer Rationales, in an

Asynchronous Peer Instruction Based Learning Environment[J].

International Educational Data Mining Society,2015.

[16]Bravo J, Romero S J, Luna M, et al. Exploring the influence of ICT in online students through data mining tools[J].Interna-tional Educational Data Mining Society,2015.endprint

猜你喜欢

数据挖掘
探讨人工智能与数据挖掘发展趋势
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
一种基于Hadoop的大数据挖掘云服务及应用
数据挖掘的分析与探索
基于GPGPU的离散数据挖掘研究