机器学习理论在高中自主学习中的应用
2016-06-02陈筱语
陈筱语
摘 要 伴随互联网发展,以云计算和大数据为代表的信息技术,已经开始渗透至各个领域。以深度学习为代表的机器学习技术,在诸多行业逐步开始发挥革命性作用。而在教育领域,大部分学校依然遵循传统的教育模式,教学参与者如学校、教师、学生和家长普遍感到异常辛苦。本文就利用基于互联网和大数据的最新机器学习技术,实现自主学习,进而提高高中阶段教学效率的可能性和应用过程进行探讨。
关键词 机器学习 统计 数据挖掘 互联网
中图分类号:TP181 文献标识码:A
1机器学习技术介绍
根据南京大学教授周志华的《机器学习和数据挖掘》对机器学习的定义,“机器学习”是人工智能的核心研究领域之一,其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能。目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。事实上,由于“经验”在计算机系统中主要是以数据的形式存在的,因此机器学习设法要对数据进行分析,从海量的数据中,利用各种机器学习算法,提炼具有洞察价值的信息。
2机器学习核心技术简介
机器学习是人工智能研究发展到一定阶段的必然产物。R.S.Michalski等人把机器学习研究划分成“从例子中学习”、“在问题求解和规划中学习”、“通过观察和发现学习”、“从指令中学习”等范畴。20世纪80年代以来,研究次数最多、应用最广的是“从例子中学习”(即广义的归纳学习),它涵盖了监督学习(如分类、回归)、非监督学习(例如聚类)等众多内容。归纳学习另一个重要分支是神经网络和支持向量机,自从80年代BP“反向传播算法”的发明以来,神经网络得到了极大的发展,现在已经形成“深度学习”这一独立的领域,在图像识别和音频识别方面发挥着重要的作用。以下是主要机器学习核心技术的介绍:
2.1分类算法
分类算法属于监督式学习算法,其原理是通过研究历史数据,提取数据特征指标,依据历史数据结果,形成分类规则集合,通过信息熵最大算法,不断对这些规则进行筛选,最终形成对数据进行有效分类的规则集合,以对将来数据进行预测。分类算法包括决策树、随机森林等。
2.2聚类算法
聚类算法属于非监督式学习算法,与分类算法等监督式学习不同,聚类算法不包含数据标签,而是对原始数据特征运用距离算法,以推断出数据标签。常见的聚类算法包括k-Means、分层聚类等。
2.3关联算法
关联算法是从一个数据集中发现数据项直接关联规则的算法,关联算法的代表是基于频繁项集的Apriori算法。如果存在一条关联规则,它的支持度和置信度都大于预先定义好的最小支持度与置信度,我们就称它为强关联规则。强关联规则就可以用来了解项之间的隐藏关系。所以关联分析的主要目的就是寻找强关联规则,而Apriori算法则主要用来帮助寻找强关联规则。
2.4回归算法
回归算法基于统计学的线性回归和逻辑回归分析技术,线性回归是通过“最小二乘法”,对观测数据进行拟合,以对未来数据进行预测;逻辑回归与线性回归算法非常类似,但使用的是离散的数据分类特征,使用sigmoid函数,将线性回归的计算结果转化为0或1的概率,然后根据这个概率进行预测。
2.5支持向量机
支持向量机(SVM)属于基于核的算法,是90年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。
2.6神经网络
人工神经网络算法模拟生物神经网络,是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支,有几百种不同的算法,重要的人工神经网络算法包括:感知器神经网络(Perceptron Neural Network),反向传递(Back Propagation),学习矢量量化(Learning Vector Quantization,LVQ)等。
以上是对机器学习核心技术和算法的简要介绍,实际上机器学习领域发展很快,各种算法层出不穷。据统计,现有的机器学习算法已经超过1000种。我们这里主要介绍一些应用比较广泛的机器学习技术,为后续在高中阶段学生自主学习中应用做铺垫。
3基于机器学习的自主学习
高中阶段学生要实现自主学习,除了前文提到的机器学习技术已经成熟之外,还有两个先决条件也已经具备。一是随处可得的数据收集和处理技术;另一个是基于互联网的丰富的教学资源和多样的教学手段,包括课件、题库、多媒体课堂等。
3.1大数据技术
大数据技术是随着互联网发展起来的最新数据处理技术,它处理的规模和吞吐量是之前的计算机系统的几百上千倍,因而,随地收集各种数据成为可能。
大数据技术主要包括四个方面:
3.1.1海量数据收集
大数据收集技术能够实时地收集各种格式的海量数据,不仅包括原有各种格式化数据,还包括传统计算机无法收集的数据,如设备运行日志、视频和音频数据。
3.1.2数据处理和存储
大数据技术支持PB直至ZB级数据的处理和存储,有人统计过,现在Google一天处理的数据量,已经超过20年前全世界1年产生的数据量。
3.1.3数据挖掘和分析
大数据技术利用大规模计算机集群的超级计算能力,使原有的性能低下的数据挖掘和机器学习算法高速运行,从而使实时数据挖掘和分析成为可能。
3.1.4数据展现
大数据技术利用计算机图形学和认知心理学的最新研究成果,利用丰富的数据展示图表,支持各种图形界面的数据展示,提高了信息送达和知识传播的效率。
3.2互联网教学资源
互联网及其相关的数据搜索和数据服务技术,使传统的线下以书本中心的教学资源体系,转变为以互联网为中心的教学资源体系。以互联网为中心的教学资源体系,无论是容量、检索速度还是展现方式,都是传统的书本教学资源无法比拟的。
目前,在互联网上可以检索到高中阶段各科目的各种教学电子教材、教学课件、作业试题、考试试卷等,而且很多教学资源能够以具体、生动的方式来传播知识。因而降低了教学资源的获取门槛,拓宽了教学资源的获取途径,客观上非常有利于高中阶段学生进行自主学习。
4基于机器学习技术的自主学习过程
虽然有了互联网、大数据和机器学习等技术,但要实现高中阶段学生自主学习,即在提高学生学习兴趣的同时,提高应试水平,还需要采取很多切实措施。
具体措施包括以下几个部分:
4.1过程数据收集
要实现自主学习,必须对学生学习的行为过程和学习的结果数据进行全面收集,学习相关数据包括以下内容:
(1)学生基本信息:包括年龄、性别、地域、家庭条件等;
(2)学习过程数据:包括迟到、旷课、上课提问次数、听课积极度评价、作业完成时间、作业完成次数、作业未交次数、考试完成时间等;
(3)学习结果数据:包括作业、测验、考试的试题数据、分数数据、试题相关的章节、知识点等;
(4)学习相关其他数据:包括教师基本信息、教师对学生评价、高考数据等。
4.2行为和模式分析
心智模式是学生的思想方法、思维习惯、思维风格和心理素质的综合反映,是学生各项思维能力的“总和”,用以感受、观察、理解、判断、选择、记忆、想象、假设、推理,而后指导其学习行为。现代教育心理学认为,高中阶段学生已经形成一定的心智模式,且心智模式对学生的学习行为有很大的影响,进而对学习的成果起决定作用。
目前可以通过学生外在表征行为数据,对学生的心智模式进行建模。高中阶段学生的心智模式主要由三个维度构成:
(1)智力结构:包括观察力、注意力、记忆力、实践力;
(2)思维能力:思维的广度和深度、思维的逻辑性、思维的独立性;
(3)动力结构:主要是学习动机的强弱,包括学习兴趣、学习态度、学习目标和学习适应能力。
根据学生的心智模型,可以通过机器学习技术,对学生心智模式进行集群分析,定位学生心智模式,然后分析学生历史学习数据,确定有效的、针对不同学生心智模式的个性化学习方案。
4.3个性化路径定制
在确定每个学生心智模式的基础上,结合过往的优秀学习案例数据,为学生制定个性化的自主学习路径。自主学习是按照新课标的进度要求,为不同学生确定基本的学习路线图,而且根据反馈,及时调整自主学习路径,动态地适应学生的实际状况。
自主学习路径本质上是一个时间轴上的各个学习目标的动态关联。总体目标由阶段性目标质变而成,(例如,总体学习目标可以是高考一本线,那么在高中三年中,每个学年每个学期都要有月度目标,月度目标之下还应有周目标)最终形成一个基于每个学生心智模式的高效学习路径。
4.4预测与推荐
机器学习技术利用系统积累的大量学生的学习案例数据,实现对学生学习趋势的预测,并根据实际学习产出,调整预测模型。在预测模型的基础上,可以利用各种推荐算法,在适当的时间点向每个学生推荐最佳的学习资源。即根据自主学习路径,参照正常的课程进度,提供微课、作业、测验等适合每个学生的学习资源,确保阶段性目标的达成。
4.5监控与干预
机器学习系统收集学生的学习数据,按照自主学习路径,监控每个学生的学习异常,及时向学生、老师和家长提出预警,以便对学生学习进行帮助,确保学习路径与各阶段目标不偏离。
由于高中阶段学生还处于青春叛逆期,很容易出现抗拒学习的行为,因此在学习干预的触发设计上,必须保证有一定的余量,必须注意不能引起学生的逆反心理。
参考文献
[1] 周志华.机器学习与数据挖掘[J].中国计算机学会通讯,2007(9).
[2] T.M.Mitchell.Machine Learning.New York:McGraw-Hill,1997.
[3] R.S.Michalski,J.G.Carbonell,T.M.Mitchell,eds.Machine Learning:An Artificial IntelligenceApproach,Palo Alto,CA:Tioga Publishing Co.,1983.