人工智能视域下机器学习的教育应用与创新探索*
2017-05-18余明华祝智庭
余明华 冯 翔 祝智庭
(1.华东师范大学 教育信息技术学系,上海 200062;2.华东师范大学 上海数字化教育装备工程技术研究中心,上海 200062;3.华东师范大学 开放教育学院,上海 200062)
人工智能视域下机器学习的教育应用与创新探索*
余明华1冯 翔2祝智庭3
(1.华东师范大学 教育信息技术学系,上海 200062;2.华东师范大学 上海数字化教育装备工程技术研究中心,上海 200062;3.华东师范大学 开放教育学院,上海 200062)
新技术带来的教育变革方兴未艾,人工智能与智慧教育引领教育教学的创新,已经成为教育信息化发展的必然趋势。随着教育大数据的崛起,如何对大量数据进行分析以支持精准预测,是人工智能时代面对的一个新课题。机器学习作为人工智能的一个重要分支,能够满足教育大数据分析预测的需求。为此,基于“为何分析、分析什么、以何分析、何以应用”一系列问题,通过对机器学习的作用对象、作用过程、具体方法和利益相关者等方面的分析,探讨了机器学习和智慧教育的适切性。结合对近年来国外基于真实数据的机器学习教育应用案例研究成果的梳理和归纳,发现目前机器学习教育应用主要集中在学生建模、学生行为建模、预测学习行为、预警失学风险、学习支持和评测和资源推荐等六大方面。从跨界、技术和教学三个层面出发,基于智慧教育的框架对机器学习的教育应用与创新提出了相关建议。
机器学习;智慧教育;人工智能;个性化学习;教育大数据;教育创新
一、引言
智能革命浪潮正席卷全球。2017年开年,神秘棋手Master连胜中日韩多名世界级顶尖棋手的跨年围棋大战落下帷幕,随即Master被证实正是2016年3月战胜李世石的AlphaGo。这是人工智能(Artificial Intelligence,AI)史上绝对的“历史事件”。AI也正冲击着人们的日常生活。Google提出的自动驾驶汽车(Autonomous Vehicles)已经从教科书照进了现实,依靠车内的智能驾驶仪便可实现无人驾驶。机器人的脚步也从探索火星拓展到人体内,一种可吞服的微型折叠机器人进入人体,可以帮助修复伤口或挪走被误食的纽扣电池[1]。
在研究领域,美国国家安全与技术理事会于2016年5月和10月分别发布了 《为人工智能的未来做准备》和《国家人工智能研发战略规划》两份报告,指出人工智能研究在经历了20世纪80年代“专注于人类知识”和21世纪00年代“机器学习的兴起”两次浪潮后,即将迎来“解释性和通用人工智能技术”的第三次浪潮[2]。而实现和推动AI研究的核心技术正是当下最热门的机器学习(Machine Learning)。
教育领域在人工智能研究浪潮的影响和渗透下,也正发生改变。一方面,人工智能和学习科学相结合形成新领域——教育人工智能(Educational Artificial Intelligence,EAI)[3],其核心目标是“通过计算获得精准和明确的教育、心理和社会知识形式,这些知识往往是隐式的”[4]。知识以学习者模型、领域知识模型和教学模型等形式呈现,算法是获得这些知识的核心技术[5]。目前,已有大量教育人工智能系统被应用于学校,这些系统整合了教育人工智能和教育数据挖掘(Educational Data Mining,EDM)技术(如,机器学习算法)来跟踪学生行为数据,预测其学习表现以支持个性化学习。
另一方面,以智慧教育引领教育信息化的创新发展,从而带动教育教学的创新发展,已成为信息时代的必然趋势[6]。个性化学习作为智慧教育的核心要素,如何通过技术更好地支持和促进个性化学习的开展,已经成为智慧教育研究领域的诉求。目前,个性化学习的实践应用主要集中于自定步调学习、个别化指导和学习内容自适应等方面,但在整个学习过程中尚未实现差异化的学习服务[7],主要原因在于技术的发展尚不能充分满足个性化学习的需求[8]。
美国2017国家教育技术计划《重塑技术的教育角色》[9],在学习部分指出:在移动数据收集工具和在线协作平台的支持下,能够为所有学生获得个性化学习服务提供机遇;在领导力部分指出:个性化学生学习将作为有效领导力的核心关注领域之一,技术能够为学生提供个性化学习路径;在测评部分指出:形成性和总结性评价数据的收集和整合,能支持学习者生成个性化数字学习体验,以及教师制定教学干预和决策。由此可见,收集和整合大量的、不同源的数据支持实现个性化学习是必然趋势,而人工智能技术的应用将是实现这些数据价值最大化的关键。
机器学习作为人工智能领域最核心、最热门的技术,能够基于大量数据的自动识别模式、发现规则,预测学生学习表现,为满足智慧教育和个性化学习的需求提供了可能。目前,国内外尚未有研究对机器学习的教育应用进行系统梳理。为此,我们试图通过全方位地梳理机器学习教育应用的发展现状、潜力和进展、面临的挑战等,为研究者和教育者开展智慧教育和个性化学习提供一定的理论和实践依据。
二、机器学习的概念梳理
(一)机器学习的定义
机器学习是人工智能和数据挖掘中最重要也是最热门的算法。国外有些学者对机器学习进行了定义,Mitchell认为,机器学习是对能通过经验自动改进的计算机算法的研究[10];Alpaydin认为,机器学习是指利用数据或以往的经验,以此优化计算机程序的性能标准[11]。由此可知,机器学习是通过经验或数据来改进算法的研究,旨在通过算法让机器从大量历史数据中学习规律,自动发现模式并用于预测。换句话说,机器学习即机器从数据中学习,其处理的数据越多,预测就越精准。
(二)机器学习的两大阶段
机器学习的发展可以分为两个阶段:浅层学习(Shallow Learning)和深度学习(Deep Learning)。
1.浅层学习
20世纪80年代末期,用于人工神经网络的反向传播算法 (也称为Back Propagation算法或者BP算法)[12]的出现,拉开了浅层学习的帷幕。利用BP算法可以让人工神经网络模型从大量样本中学习出规律,并进行预测。但是,浅层学习模型依靠人工经验来抽取样本的特征,往往要求开发人员挖掘出好的特征。
2.深度学习
2006年,加拿大多伦多大学教授、机器学习领域的泰斗Hinton和学生Salakhutdinov在Science上发表文章 Reducing the Dimensionalitg of Data with Neural Networks[13],翻开了深度学习的新篇章。随后,深度学习在学术界持续升温,目前有多所知名高校纷纷加入深度学习的研究。与浅层学习模型依赖人工经验不同,深层学习模型通过构建机器学习模型和海量的训练数据,来学习更有用的特征,从而最终提升分类或预测的准确性。2013年4月,深度学习技术被 《麻省理工学院技术评论》(MIT Technology Review)杂志列为2013年十大突破性技术(Breakthrough Technology)之首[14]。
(三)机器学习的发展现状
机器学习的研究主要分为基于小数据和大数据环境下两类。一般而言,小数据指的是基于内存的数据。基于小数据环境下的机器学习通常被认为是传统的机器学习,研究问题主要包括理解并模拟人类的学习过程、研究计算机系统和人类用户之间的自然语言接口、针对不完全的信息进行推理的能力、构造可发现新事物的程序[15]。而随着传感器和连接设备的广泛使用,每年都有数百“泽字节”(ZettaByte,简称ZB,1ZB=270Bytes)数据产生[16],可见,大数据时代已经来临。一般而言,大数据是无法装载进内存的数据,如何从复杂、真实、凌乱和无模式的大数据中挖掘出对人类有用的知识,是目前迫切需要解决的问题,也是大数据时代下机器学习面临的挑战。目前,大数据环境下的机器学习研究主要包括大数据分治策略与抽样、特征选择、分类、聚类和关联分析等[17]。
三、机器学习与智慧教育的适切性
技术中介的智慧教育已经成为教育信息化的新境界、新诉求[18],通过构建技术融合的学习环境,让教师能够施展高效的教学法,让学习者能够获得适宜的个性化学习服务和美好的发展体验,是智慧教育的核心目标[19]。在智慧教育环境中,学习者的数据被收集形成教育大数据,迫切需要智能化手段挖掘这些数据,以发现潜在模式和知识来支持智慧教育的创新发展。机器学习的本质是使用计算机从大量数据中学习规律,自动发现模式并用于预测。因此,机器学习助力智慧教育深度理解学习者的学习是确定无疑的。
(一)作用对象和环境
机器学习方法的作用对象是教育数据,包括学习者与教育系统交互产生的所有数据,以及人口统计、情感、协作和管理数据等,这些数据源来自不同的教育环境。Romero和Ventura认为,教育环境可以分为传统教育环境和基于计算机的教育环境[20];Papamitsiou和 Economides认为,教育环境包括虚拟学习环境(Virtual Learning Environment,VLE)和学习管理系统(Learning Management System,LMS)、MOOCs和社会性学习、基于网络的教育、认知导师系统、基于计算机的教育、多模态和移动环境[21]。
我们认为,智慧教育环境可以分为传统教育环境和网络教育环境,如图1所示。
图1 智慧教育环境构成图
传统教育环境一般基于学校或课堂。根据数据存储的不同,可分为封闭式教学环境和开放式教学环境。其中,封闭式教学环境指单机版、在本地部署的教学平台或桌面版应用,数据存储于内存;开放式教学环境指基于网络的远程教育平台(受控环境,用来收集学习者和活动数据),数据存储于网络空间。
网络教育环境分为开放式教学环境和非正式社会性教育环境,其中,非正式社会性教育环境是指基于智能终端(如,PC、移动终端等)和以自主学习为主的学习环境,数据存储于网络空间。从数据的角度看,封闭式教学环境是教育小数据环境,开放式教学环境和网络教育环境是教育大数据环境。
(二)作用过程
机器学习一般作用于教育数据挖掘过程。教育数据挖掘涉及开发、研究和应用计算机方法在收集的大量教育数据中检测模式,是教育与数据挖掘的融合。数据挖掘技术最早于1995年应用于教育领域,拉开了教育数据挖掘研究的帷幕,此后逐渐发展成为独立的研究领域。教育数据挖掘涉及的学科主要包括教育学、计算机科学和统计学[22],如图 2所示。其中,机器学习作为计算机科学和统计学的融合,为教育数据挖掘提供了强有力的技术支持。
图2 融合多学科的教育数据挖掘
在教育数据挖掘过程中,机器学习主要作用于数据挖掘和解释部分,实现传统教育中缺少或人工难以完成的功能,通过对数据进行自动化分析来发现未知的新知识和模式,如图3所示。
图3 教育数据挖掘和知识发现过程
其中,在数据解释部分,机器学习方法通过建立预测模型(Predictive Model)和描述模型(Descriptive Model)分析教育数据来发现模式和知识。预测模型通过已知的数据预测未知的数据,例如,通过分析学生的成绩来预测学习表现;描述模型通过分析数据发现新的模式或结构。
知识是机器学习的发现,主要分为原理类、实践类和优化类知识[23]。其中,原理类知识旨在验证或修正现有的教育理论,例如,发现新的学习规律;实践类知识旨在帮助教师开展教学实践,例如,预测学生表现和成绩;优化类知识旨在改进学习系统的效果和性能,例如,通过分析学习者知识提高系统的自适应能力。这些知识将最终反馈给教育系统进行迭代循环,以促进和改善学习。
(三)作用方法
目前,应用于教育领域的机器学习方法有很多,例如,分类、回归、聚类、文本挖掘、异常检查、关联规则挖掘、社会网络分析、模式发现和序列模式分析等[24-26]。其中,预测和聚类是目前最热门的。
1.预测(Prediction)
预测旨在开发一个模型,从数据其他方面的集合(预测变量)中,推断数据的一个单一方面(被预测变量)。简言之,就是从已知事件推测未知事件的过程。在教育应用中,常用的预测方法是分类(Classification)和回归(Regression),一般用来预测学生的表现和检测学生行为。
(1)分类:一般用于预测学生的学习表现,常用算法有决策树、随机森林、角色规则、逐步回归和逻辑回归等。例如,Lauri′a等使用逻辑回归、支持向量机和C4.5决策树等机器学习方法分析了不同数据源的学生数据集[27];Thammasiri等使用逻辑回归、决策树、神经网络和支持向量机等机器学习技术对七年的学生学习数据进行分析,来预测新生是否会在第二学期继续学习[28]。
(2)回归:一般用于分析学习行为与学习表现之间的关系,常用算法有线性回归和回归树等。例如,Kotsiantis采用回归算法分析学生在线提交作业的评分数据和学生的关键人口特征数据,来预测学生的学习表现[29];Hachey等采用二元逻辑回归算法分析学生在线课程记录及其GPA,来预测学生能否完成在线课程[30]。
2.聚类(Clustering)
聚类通常用于发现数据集中事先未知的常见分类。在教育应用中,通常用来基于学生学习和交互模式对学生分组或对相似的课程材料分组。例如,Yanto等基于使用属性变精度的近似值的精度均值,论证了使用变精度粗糙集模型对焦虑学生进行聚类的适用性[31];Aher和Lobo采用聚类算法和关联规则挖掘,对Moodle课程的学习记录进行聚类和分析,然后向学习者推荐合适的课程[32]。
(四)利益相关者与目标
我们通过梳理文献发现,机器学习教育应用的利益相关者包括学习者、教育者、教育管理者、教育研究者和开发人员(课程或软件)等,如表1所示。其中主要目标体现在:支持学习者开展个性化学习,通过学习行为分析预测和可视化反馈,提高学习者的学习表现;支持教育者掌握整体和个体学生的学习情况,自动获得实时客观的教学反馈,促进教学表现的改善;支持教育管理者制定决策,提供客观全面的教育反馈;支持教育研究者和开发人员更精准地评估和维护教育系统和在线课程。
表1 机器学习教育应用利益相关者与目标
综上可知,机器学习方法能够自动从大量数据中提取隐含的、未知的、却潜在有用的信息和知识,支持智慧教育教师开展智能化教学和学生进行个性化学习。因此,机器学习应用于智慧教育是适合的,也是必要的。
四、机器学习教育应用的潜力与进展
如前文所述,机器学习属于数据挖掘的分析技术,而数据挖掘技术最早于1995年应用于教育领域。由此推论,机器学习教育应用的研究于1995年拉开序幕。同时,通过文献梳理发现,教育数据挖掘的研究成果在2000年前仅有7篇[33],其具有代表性的文献综述主要集中于2009-2010年前后[34-36],这一阶段的教育数据挖掘研究正接近青春期[37]。因此,从2010年起至今的国外基于真实数据的机器学习以教育应用案例研究成果为主,我们通过对机器学习技术在教育数据挖掘青春期阶段的研究进展及其教育应用的潜力进行梳理,以期为教育者、教育研究者和开发人员等在智慧教育中的应用提供理论和实践指导。其中,机器学习教育应用概念图如图4所示。
图4 机器学习教育应用概念图
(一)研究目标
我们通过对文献梳理发现,机器学习教育应用主要集中在学生建模、学生行为建模、预测学习表现、预警失学风险、学习支持和评测以及资源推荐等方面(见表2)。
表2 机器学习教育应用案例研究梳理
Thammasiri等[49]连续七年的真实学生学习数据 预测模型逻辑回归、决策树、神经网络和支持向量机预警失学风险学习支持和评测资源推荐Lauri′a等[50]学生人口特征数据、课程登记数据和Sakai日志数据预测模型逻辑回归、支持向量机和C4.5决策树Aulck等[51] 成绩数据和人口统计数据 预测模型逻辑回归正则化、k最近邻算法和随机森林Ahadi等[52]程序开发学习过程中的源代码快照数据预测模型 随机森林Xing等[53] 学生学习活动数据 预测模型 遗传程序算法Kinnebrew和Biswas[54]学生的交互跟踪数据描述模型 序列挖掘Klašnja-Milic'evic'等[55]学习者习惯和兴趣的相关数据 预测模型 AprioriAll算法Wang和Liao[56]学生英语在线课程学习记录和个人信息数据预测模型 神经网络算法Aher和Lobo[57] Moodle课程学习记录 描述模型 聚类算法和关联规则挖掘
1.学生建模
学生建模是创建和维护学生模型模块的过程,学生模型模块主要负责学生当前知识状态模型的开发和维护,旨在对学生的误解和次优表现做出假设,以便教师能够指出并建议修正。学生建模包括学生模型和诊断模型,学生模型存储学生知识的数据结构,诊断模型执行诊断过程并更新学生模型。其中,领域模型是学生模型的基础。例如,Yudelson等通过使用自动化方法提取领域模型来支持大学生编程语言的学习,在解决程序练习的过程中对学生知识进行建模,以支持系统推荐下一个解决问题。该研究所用的数据来自某大学三门程序入门课程的代码快照数据,处理方法主要基于两点:在每个程序提交之后,使用程序语言的内在结构来建模知识;使用一组测验自动测试程序的正确性。该研究选择Null模型和Rasch模型用于学生建模,并使用AFM模型结合PC算法对学生学习建模。研究发现,PC算法的使用能够提高AFM模型对过滤概念列表的精准度。
贝叶斯知识跟踪作为一种用户建模方法,常被应用于智能教学系统。例如,Eagle等在传统贝叶斯知识跟踪模型中插入学生个体参数,基于学生的活动数据,来预测其在智能教学系统中学习和表现的个体差异权重。该方法的优点是,如果个体差异权重在学生开始使用系统前能被赋值,将更容易集成入智能教学系统。研究中的学生活动数据包括阅读表现数据和概念知识预备测试数据,其中,阅读表现数据包括阅读时间和重访文本页面 (与元认知自我监管技能有关);概念知识预备测试数据包括预备测试的准确性、问题变化和任务完成时间。研究结果得到了四组最佳匹配的个体差异权重和三个贝叶斯知识跟踪模型的变体模型。研究发现,学生阅读文本的数据在智能教学系统中对于预测学习和表现非常有用。
类似的,Baker等采用贝叶斯知识跟踪和线性回归等方法构建学生模型,对学生在特定问题步骤中已获得技能的可能性进行检测。研究基于232名中学生的数学课程数据,主要分为两步建模:使用标准贝叶斯知识跟踪结合数据和贝叶斯定理来预测学生知识,生成可能性的标签;训练模型,使用更广泛的特征集来预测标签数据。
2.学生行为建模
学生行为建模是分析学生表现、排除潜在的误区、呈现学生目标和计划、确定先验和获得的知识、保持情景记忆,以及描述个性特征等的过程。机器学习方法能够支持学习行为的自动检测、识别和建模,旨在通过描述或预测模式行为让系统适应学习者的偏好倾向。例如,Doleck等使用机器学习方法来挖掘学习环境中与诊断推理的过程、结果相关的学习者行为,其中,隐马尔可夫模型用于问题解决的行为熟练指标建模,文本分类算法用于分析学习者的案例总结报告,这些算法的应用描述了不同问题解决阶段的学习者行为,旨在为系统的维护提供设计指导。
类似的,Huang等使用归纳推理(基于相似的学习)、演绎推理(基于解释的学习)和类比推理(案例推理)等多策略机器学习构建了黑板多策略机器学习模型,学习和发现学生学习过程中不一致行为的属性。根据这些属性,智能教学系统可以采取适当的方法防止学生不一致行为的再次发生,例如,加强教学和实践。
Wen和Rosé提出通过点击流分析确定学生的行为模式,以便为学生搜索信息和在线学习提供更有效的个性化支持。该研究分析了与课程成功高低有关的学生习惯性行为,以及情境信息对会话的影响。通过挖掘学生单个会话的习惯性行为,描述了MOOCs中的会话类型,采用局部N元模型对学习会话进行建模,以支持系统自动分配学习活动和活动序列。
也有研究对学生的分心行为进行了分析,例如,Cetintas等提出使用机器学习模型来支持智能教学系统自动检测学生的分心行为,数据来源于12名小学生行为记录的日志文件,方法采用最小二乘法和脊回归算法。该研究发现,结合时间、表现和鼠标移动等特征的模型对检测分心行为最有用,而考虑学生的个性化也能提高检测的有效性;同时发现,使用脊回归算法的模型比使用标准最小二乘法的表现更佳。
3.预测学习表现
预测学习表现,一般包括预测学生的最终分数或学术表现等,主要影响因素包括人口特征、分数(平时测验和最终成绩)、学生学档、多模能力、学生参与、活动的注册和参与以及情绪情感状态等。有些研究通过分析学生数据直接预测学习结果。例如,Kotsiantis使用机器学习回归算法,对学生少量写作任务的分数和学生的关键人口特征数据进行分析,以预测学生的成绩。研究实验分为两个阶段,其中,训练阶段使用收集的数据来训练算法;测试阶段使用收集的10组数据来检测算法的精确度。
San Pedro等将学生知识、学生情感和行为的细粒度模型,应用于3747名学生的数据分析来理解学生学习的发展和投入,以预测学生能否考上大学。该研究开发了一个逻辑回归模型,并且发现,学生投入和学生成功的特征组合作为预测指标,可以辨别出将考入大学的学生。
类似的,Hachey等使用二元逻辑斯蒂回归算法,对962名学生的先前在线课程结果和GPA进行分析,来预测学生完成在线课程的成功率。其中,先前在线课程结果和GPA作为自变量,在线课程成功率作为因变量。在二元逻辑斯蒂回归模型中,GPA作为连续变量。该研究结果发现,先前在线学习体验作为预测指标比GPA能更好地预测成功率。
也有研究对学习表现的影响因素进行了分析。Firmin等采用逻辑回归,基于三门MOOCs课程分析了学生及格与学习努力程度和个人基本特征的相关性。该研究采用二元逻辑斯蒂回归算法,发现学生的努力变量是学生及格唯一有效的预测指标,如,登录次数、学习时长和完成作业情况等,与学生基本特征无关,如,性别、年龄和家庭收入等。
4.预警失学风险
辍学率一直是教育管理领域的重要指标。机器学习方法能够对学生数据特征进行分析和归类,分析学生辍学原因,预测辍学行为。虽然教育管理部门存有大量的学生数据,但是由于缺乏适当的数据或受数据隐私性限制,预警失学的定量研究相对较少。
例如,Thammasiri等和Lauri′a等基于大量的真实学生数据对学生的学术成功展开了研究。其中,Thammasiri等使用机器学习技术对长达七年、特征丰富的真实学生数据进行分析,来预测新生是否会在第二个学期注册继续学习。该研究比较了不同的数据平衡技术来提高少数类的预测准确度,其中包括过抽样算法、欠抽样算法和合成少数类过抽样算法,并连同逻辑回归、决策树、人工神经网络和支持向量机等四种流行的分类方法,构建预测模型来进行比较。研究结果发现,支持向量机结合合成少数类过抽样算法数据平衡技术是表现最佳的分类器,三个数据平衡技术都能提高少数类的预测准确度。在开发的模型中应用灵敏度分析,能够为学生流失的准确预测识别出最重要的变量。这些模型的应用能够预测高危学生,开发有效的干预方法来减少学生的失学率。
类似的,Lauri′a等使用数据挖掘方法检测学生的学术危机来提高大学生的保留率。该研究的数据挖掘模型基于监督式学习技术,用来区分表现好和不好的学生。研究的方法框架包括收集数据、转化数据、分割数据、平衡训练数据、构建预测模型和使用测试数据评价模型。在构建预测模型阶段,该研究方法选用了三个分类器作比较:逻辑回归、支持向量机和C4.5决策树。数据来自四个不同数据源的3877条记录:学生履历数据和课程相关数据、课程管理事件数据和Sakai成绩单数据。研究结果发现,逻辑回归和支持向量机算法比C4.5决策树能够更精准地分类。
人口统计和学习成绩是预测学生辍学的重要数据。例如,Aulck等采用机器学习方法跟踪32500名学生收集成绩数据和人口统计数据,使用逻辑回归正则化、k最近邻算法和随机森林等方法来预测辍学变量,并对学生数据中预测辍学的最佳要素进行了检测。研究结果发现,逻辑回归正则化相比另外两种算法能够提供最有力的预测,并检测出学生流失的个人预测指标,包括数学、英语、化学和心理学课程的GPA以及入学和出生年月等。
5.学习支持和评测
学习支持和反馈是增强在线教育系统个性化和定制化的关键。在学习者与系统交互的过程中,学习支持提供个性化学习服务提高学习表现,或者纠正学生的学习误区。前者是“先发制人”,后者是“亡羊补牢”。例如,Ahadi等将机器学习方法和大学生编程过程中的源代码快照数据相结合,让系统能够在课程入门第一周,就精准地检测出高表现和低表现的学生。该研究首先对特征进行了抽取和选择,然后选择最精确的分类器来检测预测模型。其中,选取了贝叶斯(朴素贝叶斯、贝叶斯网络)、规则学习者(决策表、连接规则和PART)和决策树(AD树、J48、随机森林和决策树)等分类器进行评估,发现决策树分类器的整体准确度最高,而在决策树中随机森林的预测准确度最高,因此,选择随机森林作为分类器来评价学生的表现。
Xing等结合学习分析和教育数据挖掘方法,基于小数据来预测学生在CSCL学习环境中的表现,从而为学生提供相应的教学干预。该研究使用活动理论来整体量化环境中的学生参与情况,并得到六个特征变量,然后使用遗传规划技术来构建预测模型。结果显示,基于遗传规划的模型是可解释的,并且与传统建模算法相比预测率得到优化。
对学习者的领域知识获取、技能发展和完成结果,以及反思、探究和情绪等的监控和评价,也是机器学习研究的重要主题。例如,Kinnebrew和Biswas使用探索性数据挖掘方法,从学生的交互轨迹中评测和比较学生的学习行为。其中,核心方法结合迭代行为抽象和逐段线性分割,迭代行为抽象是区别识别频繁活动模式的序列挖掘技术,逐段线性分割是关于评估表现或进展衡量的活动阶段。研究结果发现,高表现和低表现学生具有不同的阅读行为模式和监控行为。
6.资源推荐
资源推荐通过分析学习者学习记录来预测学习者的喜好,为学习者推荐最合适的资源(内容、活动或服务)或资源序列。其最大的特征是通过分析学习者的行为,来“猜”学习者的表现和兴趣,并生成个性化推荐,旨在帮助学习者选择感兴趣的课程、科目、学习材料和学习活动等。例如,Klašnja-Milic'evic'等使用机器学习方法构建编程学习系统的推荐模型,能够自动地适应学习者的兴趣和知识水平。系统通过测试学习者学习风格和挖掘服务日志,来识别学习风格和学习者习惯的不同模式。研究首先基于不同的学习风格处理集群,然后,通过AprioriAll算法挖掘频繁序列,分析学习者的习惯和兴趣,最后,系统根据频繁序列的等级推荐个性化学习内容。
Wang和Liao设计了一个基于不同学生特征推荐个性化教学内容的英语自适应学习系统。系统的核心技术是人工神经网络 (ANN),并选择ANN的BP算法用于学生特征和学习表现的监督聚类分类。该研究应用了一个四步核心方法来构建每个学生的特征与词汇、语法和阅读的学习表现的关系,方法步骤包括构建学生特征和学习表现的关系、获得所有不同特征组合的学习表现、设置α-截和不同学习表现水平的α-截,以及为不同学生特征组合设置教学内容的不同等级。该方法支持系统根据学生的性别、性格和学习焦虑程度等特征,来适应、推荐不同层次的学习内容。
同样,Aher和Lobo发现聚类和关联规则算法等数据挖掘技术可用于课程推荐系统,系统能够基于其他学生在Moodle选择的课程来为学生推荐相关课程。该研究发现,使用朴素K均值聚类技术和Apriori关联规则算法的综合方法,无需经历数据准备阶段,而且关联规则的数目还更多。课程推荐系统能够根据学生的兴趣,帮助学生选择适当的课程组合。
(二)典型应用:个性化自适应学习平台
个性化学习是指优化学习步调和教学方法来满足每位学习者需求的教学[58]。基于学习者的需求,学习目标、教学方法和教学内容是不同的,并且对于学习者来说,学习活动是有意义且相关的,是受兴趣驱动且经常是自我发起的。智慧教育的发展目标之一就是为学习者提供个性化学习服务,体现学生的差异化,改变传统教育一刀切的局面。
根据前文的梳理可知,机器学习能够结合学生的知识、行为和情绪等有效地支持个性化自适应学习平台的构建。其中,在知识维度,机器学习支持学生建模,能够对每个学生的知识进行建模和跟踪,支持生成形成性评价,为学习者推荐自适应的课程和资源。在行为维度,机器学习支持学习行为建模,根据学生不同学习表现的行为模式对学生自动分组,提供相应的学习支持;通过分析学习历史(如,活动日志、学习结果等)和人口特征等数据,来预测学生的学习表现和成绩。在情感维度,机器学习能够发现学习者情绪状态与学习行为、结果的相关性,从而根据学生的情绪状态推荐课程资源。
目前,Knewton、DreamBox、ALEKS、Gooru等个性化自适应学习平台,结合机器学习技术已经得到了广泛应用。其中,Knewton作为目前影响力最大的自适应学习平台,能够为学习者提供自适应学习体验和预测分析,来提高学生的学习成就。在技术层面,平台使用机器学习方法作为核心技术,构建了分析引擎和推荐引擎,分析引擎结合内容数据和学生响应数据实时地对学生能力进行推断,然后,推断结果与学生学习结果结合,支持预测学生的学习表现,从而为学习者生成下一步的个性化学习路径。
随着收集的数据越来越多,基于机器学习的推荐引擎和分析引擎模型和参数会不断修改与更新,让预测更加精准。Knewton在学习过程中主要提供三种工具和三种核心服务,其中,工具包括个别化指导、预测分析和学习报告;服务包括为学生提供个性化推荐、为教师和学生提供分析、为应用和内容创建者提供内容解读。通过使用Knewton自适应学习平台,学生的通过率、退出率、提早完成率均有显著变化。
五、机器学习应用于智慧教育的几点建议
机器学习作为人工智能的核心技术作用于教育大数据,将帮助我们更好地理解数据、信息、知识与智慧之间的关系。但机器学习教育应用在技术方面尚不成熟,在教育框架下也没有规模化。因此,基于智慧教育框架,对机器学习的教育应用提出以下建议:
(一)跨界方面——支持智慧教育与机器学习的融合创新
1.机器学习与智慧教育的跨界融合
机器学习与智慧教育的融合存在跨界问题。一般情况下,懂教育的未必懂技术,懂技术的则未必深度理解教育。这就容易导致技术人员对数据挖掘结果无法从教育的本质出发进行解读,而教育者无法从技术的角度对机器学习应用提出准确需求,对预测结果也无法充分理解。因此,研究教育领域与机器学习和人工智能领域如何深度融合非常必要。例如,加大两个领域人员的合作、交流和协同开发等;在高校中加大机器学习与学习科学的跨学科人才培养;目前,利用可视化技术开发人机界面,可有效帮助教育者理解机器学习和人工智能系统,以促进跨领域深度融合。可视化学术交互平台也能支持教育领域人员更好地理解机器学习,例如,谷歌日前联手OpenAI等发布了一个交互视觉化期刊平台Distill(http://distill.pub/),支持读者理解机器学习的研究成果。
2.机器学习应用的教学场景提炼
机器学习助力智慧教育发展的潜力和价值是毋庸置疑的,但目前缺少机器学习教育应用的成熟案例,尤其是在不同教学场景中的应用,这将是机器学习应用发展的一大短板。机器学习虽然本身具有智能性,但是也具有一定局限性,尤其表现为容易被复杂的场景所迷惑,人们可能很容易完成的场景分析,对于机器来说却依旧困难。如果一直强调机器学习技术本身,而不直接面向教育应用提供整体的解决方案,随着技术壁垒越来越低,其教育应用的未来价值可能会越来越小。因此,基于智慧教育框架梳理和提炼机器学习不同教学场景应用的案例,将有助于体现机器学习的教学应用价值。
(二)技术方面——支持智慧环境的技术创新
1.教育大数据治理
教育大数据是机器学习应用研究的基础,其大量的、复杂的和凌乱的特点,给数据的采集和存储带来了难度。同时,在数据共享方面通常涉及数据隐私和伦理问题,如何保护人们隐私又最大化地合理利用数据支持科学研究,也是当前面临的挑战。因此,需要协同多方开展教育大数据治理,以提升教育数据质量、保障数据合理使用、保护数据隐私安全,以及促进数据合法共享。例如,建立健全的教育大数据治理模式,制定教育数据质量标准和管理规范,规范化采集和汇聚、共享不同平台的数据,形成智慧教育数据中心等。
2.数据标准化
在机器学习应用之前,通常使用标准化之后的数据进行分析,数据标准化是支撑机器学习应用和发展的重要基础。因此,为了实现数据标准化,需要对智慧环境技术架构进一步作顶层设计和研究,以考虑数据标准化,以及不同工具和平台之间的兼容性。智慧环境的技术架构应该融合学习内容、软件和平台等支持系统集成和资源共享,以开放标准和相关服务(网络服务和应用编程接口)为中心,制定统一的数据交换标准,实现低成本、敏捷无缝整合和数据交换。
(三)教学方面——支持智慧教学法的方法创新
1.提升教师素养
机器学习作为一种新型技术,容易造成教师对新型机器学习支持的教育软件和服务的用户体验不佳,原因在于教师信息素养与此类新型软件的不匹配。使用新型软件加重了教师的工作负载,如何将其与现有的教学进行整合,对教师来说也是一大挑战。因此,一方面需要不断提升教师的信息素养来适应新型技术的应用,另一方面在软件开发过程中需要考虑教师的需求,帮助教师更容易地接受新型技术并融入教学中。
2.提高教师参与
机器学习常应用于智能教学系统中,而这类系统通常会弱化教师的参与,学习者根据自己的学习步调就能开展学习。从短期来看,智能化推送减少了学习者的认知负载;但从长远来看,过度依赖系统建议,学习者自我反省、自我意识和自主学习的能力将不断弱化。虽然机器学习应用能够实现智能化和自动化,但是教师能为学生提供情感交互、学习辅导和教学法设计,这是机器学习目前无法实现的。因此,应该强调机器学习应用系统与教师的协作而非取代教师来优化效能。在应用过程中需要不断提高教师的参与并激发其积极性,从而与系统优势互补、共同参与,促进教学法的创新。
综上所述,机器学习可以有效助力智慧教育,其在教育人工智能和教育数据挖掘方面发挥的作用也是其他技术无法取代的。随着机器学习技术的不断发展和应用,其与教育领域的融合定会不断推动教育创新。
[1]Gordon R.Ingestible robots,glasses-free 3-D,and computers that explain themselves[EB/OL].Cambridge:CSAIL,2016-12-16[2017-02-12].https://www.csail.mit.edu/16_in_16.
[2]National Science and Technology Council.The national artificial intelligence research and development strategic plan[EB/OL].[2017-03-24].http://www.360doc.com/content/16/1015/20/37334461_598685262. shtml.
[3]闫志明,唐夏夏,秦旋等.教育人工智能(EAI)的内涵、关键技术与应用趋势——美国《为人工智能的未来做好准备》和《国家人工智能研发战略规划》报告解析[J].远程教育杂志,2017(1):26-35.
[4]Self J.The defining characteristics of intelligent tutoring systems research:ITSs care,precisely[J].International Journal of Artificial Intelligence in Education(IJAIED),1998(10):350-364.
[5]Luckin R,Holmes W,Griffiths M,etc.Intelligence unleashed:An argument for AI in education[R].London:Pearson,2016.
[6][18]祝智庭.智慧教育新发展:从翻转课堂到智慧课堂及智慧学习空间[J].开放教育研究,2016(1):18-26.
[7]牟智佳.学习者数据肖像支撑下的个性化学习路径破解——学习计算的价值赋予[J].远程教育杂志,2016(6):11-19.
[8]金慧,刘迪,高玲慧等.新媒体联盟《地平线报告》(2016高等教育版)解读与启示[J].远程教育杂志,2016(2):3-10.
[9][58]U.S.Department of Education,Office of Educational Technology. Reimagining the role of technology in education:2017 national education technology plan update[R].Washington:U.S.Department of E-ducation,2017.
[10]Mitchell T.Machine learning[M].New York City:McGraw Hill,1997:2.
[11]Alpaydin E.Introduction to machine learning[M].Cambridge:MIT Press,2014:3.
[12]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[J].Nature,1986,323:533-536.
[13]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[14]MIT.10 Breakthrough Technologies 2013[EB/OL].Cambridge:MIT,2013-04-23[2017-01-13].https://www.technologyreview.com/lists/ technologies/2013/.
[15]Simon H A.Why should machines learn?[M].Berlin:Springer Berlin Heidelberg,1983:25-37.
[16]Cisco.Cisco global cloud index:Forecast and methodology,2015-2020[EB/OL].[2017-01-13].http://www.cisco.com/c/dam/en/us/solutions/collateral/service-provider/global-cloud-index-gci/white-paper-c11-738085.pdf.
[17]何清,李宁,罗文娟等.大数据下的机器学习算法综述[J].模式识别与人工智能,2014(4):327-336.
[19]祝智庭,贺斌.智慧教育:教育信息化的新境界[J].电化教育研究,2012(12):7-15.
[20][22][24]Romero C,Ventura S.Data mining in education[J].Wiley Interdisciplinary Reviews-Data Mining and Knowledge Discovery,2013,3(1):12-27.
[21][25]Papamitsiou Z K,Economides A A.Learning analytics and educational data mining in practice:A systematic literature review of empirical evidence[J].Educational Technology&Society,2014,17(4):49-64.
[23][26]周庆,牟超,杨丹.教育数据挖掘研究进展综述[J].软件学报,2015,26(11):282-298.
[27][50]Lauría E J,Baron J D,Devireddy M,etc.Mining academic data to improve college student retention:An open source perspective [C].Proceedings of the 2nd International Conference on Learning Analytics and Knowledge,New York:ACM,2012:139-142.
[28][49]Thammasiri D,Delen D,Meesad P,etc.A critical assessment of imbalanced class distribution problem:The case of predicting freshmen student attrition[J].Expert Systems with Applications,2014,41(2):321-330.
[29][45]Kotsiantis S B.Use of machine learning techniques for educational proposes:A decision support system for forecasting students’grades[J].Artificial Intelligence Review,2012,37(4):331-344.
[30][47]Hachey A C,Wladis C W,Conway K M.Do prior online course outcomes provide more information than G.P.A.alone in predicting subsequent online course grades and retention?An observational study at an urban community college[J].Computers&Education,2014(72):59-67.
[31]Yanto I T R,Vitasari P,Herawan T,etc.Applying variable precision rough set model for clustering student suffering study’s anxiety[J]. Expert Systems with Applications,2012,39(1):452-459.
[32][57]Aher S B,Lobo L M R J.Combination of machine learning algorithms for recommendation of courses in e-learning system based on historical data[J].Knowledge-Based Systems,2013,51:1-14.
[33]Romero C,Ventura S.Educational data mining:A survey from 1995 to 2005[J].Expert Systems with Applications,2007,33(1):135-146.
[34]Baker R S,Yacef K.The state of educational data mining in 2009: A review and future visions[J].JEDM-Journal of Educational Data Mining,2009,1(1):3-17.
[35]Peña-Ayala A,Domínguez R,Medel J.Educational data mining:A sample of review and study case[J].World Journal of Educational Technology,2009(2):118-139.
[36][37]Romero C,Ventura S.Educational data mining:A review of the state of the art[J].IEEE Transactions on Systems,Man,and Cybernetics,part C:Applications and Reviews,2010,40(6):601-618.
[38]Yudelson M,Hosseini R,Vihavainen A,etc.Investigating automated student modeling in a Java MOOC[C].Proceedings of the 7th International Conference on Educational Data Mining,Massachusetts: International Educational Data Mining Society,2014:261-264.
[39]Eagle M,Corbett A,Stamper J,etc.Estimating individual differences for student modeling in intelligent tutors from reading and pretest data[C].Springer International Publishing:International Conference on Intelligent Tutoring Systems,2016:133-143.
[40]Baker R S,Goldstein A B,Heffernan N T.Detecting the moment of learning[C].Springer Berlin Heidelberg,2010:25-34.
[41]Doleck T,Basnet R B,Poitras E G,etc.Mining learner-system interaction data:Implications for modeling learner behaviors and improving overlay models[J].Journal of Computers in Education,2015,2(4):421-447.
[42]Mu-Jung Huang,Heien-Kun Chiang,Pei-Fen Wu,etc.A multistrategy machine learning student modeling for intelligent tutoring systems:Based on blackboard approach[J].Library Hi Tech,2013,31(2):274-293.
[43]Wen M,Rosé C P.Identifying latent study habits by mining learner behavior patterns in massive open online courses[C].The 23rd ACM International Conference on Conference on Information and Knowledge Management,New York:ACM,2014:1983-1986.
[44]Cetintas S,Si L,Xin Y P,etc.Automatic detection of off-task behaviors in intelligent tutoring systems with machine learning techniques[J].IEEE Transactions on Learning Technologies,2010,3(3):228-236.
[46]San Pedro M O Z,Baker R S,Bowers A J,etc.Predicting college enrollment from student interaction with an intelligent tutoring system in middle school[C].The 6th International Conference on Educational Data Mining, Massachusetts:International Educational Data Mining Society,2013:177-184.
[48]Firmin R,Schiorring E,Whitmer J,etc.Case study:Using MOOCs for conventional college coursework[J].Distance Education,2014,35(2):178-201.
[51]Aulck L,Velagapudi N,Blumenstock J,etc.Predicting student dropout in higher education[J].arXiv:1606.06364,2016:16-20.
[52]Ahadi A,Lister R,Haapala H,etc.Exploring machine learning methods to automatically identify students in need of assistance[C]. The Eleventh Annual International Conference on International Computing Education Research,New York:ACM,2015:121-130.
[53]Wanli X,Rui G,Eva P,etc.Participation-based student final performance prediction model through interpretable genetic programming:Integrating learning analytics,educational data mining and theory[J].Computers in Human Behavior,2015(47):168-181.
[54]Kinnebrew J S,Biswas G.Identifying learning behaviors by contextualizing differential sequence mining with action features and performance evolution[C].The 5th International Conference on Educational Data Mining,Massachusetts:International Educational Data Mining Society,2012:57-64.
[55]Klašnja-Milic'evic'A,Vesin B,Ivanovic'M,etc.E-learning personalization based on hybrid recommendation strategy and learning style identification[J].Computers&Education,2011,56(3):885-899.
[56]Wang Y H,Liao H C.Data mining for adaptive learning in a TESL-based e-learning system[J].Expert Systems with Applications,2011,38(6):6480-6485.
[作者简介]
余明华,华东师范大学教育信息技术学系在读博士研究生,研究方向:无缝学习、学习体验设计;冯翔,华东师范大学上海数字化教育装备工程技术研究中心,副研究员,研究方向:互联网教育服务技术与模式、教育大数据与学习分析、机器学习在教育中的应用;祝智庭,系本文通讯作者,华东师范大学教育信息技术学系终身教授,博士生导师,研究方向:教育信息化系统架构与技术标准、信息化促进教学变革与创新、网络远程教育、面向信息化的教师能力发展、技术文化。
责任编辑:吕东东
“iTeach”全国大学生2017(首届)数字化教育应用创新大赛通知
[本刊讯]为贯彻落实教育规划纲要和国务院办公厅《关于深化高等学校创新创业教育改革的实施意见》精神,将由教育部高等学校教育技术专业教学指导分委员会主办,南京师范大学教育科学学院承办“iTeach全国大学生数字化教育应用创新大赛”2017首届大赛。大赛主题:信息化+教育应用+创新,旨在引领高校大学生,面向真实需求进行作品开发,在完成作品的同时,提高面向应用、追求价值实现的意识,并通过学以致用的实践培养创新能力和合作意识,提高综合素质。
参赛对象:全国(含港、澳、台)普通高等学校的全日制在籍在读大学生,不限专业和年级均可报名参赛(包括专科、本科、硕士研究生和博士研究生)。参赛人员可以个人或团队两种形式参赛。为体现面向教育应用创新并方便大赛管理,参赛作品分为以下四类:知识类、工具类、系统类、项目类。参赛作品应与教育教学密切相关,在面向教育真实需求的基础上进行作品开发,并具有原创性。大赛报名方式分三种:(1)有相应省级赛事的学校,可由省级赛事的组委会向大赛推荐优胜作品参加本大赛。(2)各高等院校的教务处、教育技术学科或现代教育技术中心等行政主管部门,可以自主推荐作品参加本大赛。(3)各高等院校的学生可在教师指导下自主参赛,但参赛须征得所属院系、部门的同意,并在比赛报名时提交的报名表上加盖院系部门公章。
比赛方式分网络预赛和现场决赛两个阶段。(1)网络预赛:预赛作品通过网络提交。(2)现场决赛:决赛采取现场展示和答辩的方式进行。大赛设优秀作品奖、优秀指导教师奖、优秀组织奖。大赛组委会联系方式:“iTeach全国大学生数字化教育应用创新大赛”秘书处,电子邮箱:iteach@vip.163.com,官方网站:https://www.iteach.org.cn。联系地址:江苏省南京市宁海路122号南京师范大学教育科学学院,邮编:210097。
(伯 权)
The Educational Applications and Innovative Explorations of Machine Learning in the View of Artificial Intelligence
Yu Minghua1,Feng Xiang2&Zhu Zhiting3
(1.Department of Education Information Technology,East China Normal University,Shanghai 200062;2.Shanghai Engineering Research Center of Digital Education Equipment,East China Normal University,Shanghai 200062;3.Open Education College,East China Normal University,Shanghai 200062)
The educational reform which is brought by new technology,is more obvious than before.artificial intelligence and smart education leading the educational innovative development has become the inevitable trend of educational informatization.With the rise of educational big data,how to analysis the data for predicting accurately,is the new challenge in artificial intelligence era. Machine learning,as a branch of artificial intelligence,can meet the need of analysis and prediction of smart education.For this purpose,based on a series of problems including“why,what,how to analysis,and how to apply”as the main line,discuss the propriety between machine learning and smart education from the aspects of approach objects,process,methods and stakeholders.Then through combed and concluded the abroad case studies of machine learning educational application with real data in recent years,find that studies focus on six aspects including student modeling,student behavior modeling,predicting learning behavior,predicting student dropout,learning supporting and assessment,and resource recommendations.And from the view of interdisciplinary,technology,and pedagogy,propose some suggestions for the machine learning educational applications and innovation based on smart education framework.
Machine learning;Smart education;Artificial intelligence;Personalized learning;Educational big data;Educational innovation
G420
A
1672-0008(2017)03—0011—11
2017年3月3日
本文系全国教育科学“十二五”规划2014年度国家一般课题“智慧教育环境的构建与应用研究”(项目编号:BCA140051);2017年度教育部在线教育研究基金(全通教育)课题“在线教育系统中学生反馈文本的情感分析技术与应用研究”(项目编号:2017YB126)的研究成果。