APP下载

深度学习评价:理论模型、相关技术与实践案例

2023-12-22王梦珂陈增照

关键词:学习者深度评价

王梦珂,王 卓,陈增照

(华中师范大学 人工智能教育学部,湖北 武汉 430079)

“深度学习”(deep learning)的概念源于人工神经网络的研究,在20世纪70年代被引入教育领域。深度学习在教育领域最初是由马顿(Ferenee Marton)和赛尔乔(Roger Saljo)运用布鲁姆认知目标分类理论分析学生不同的学习取向而提出的,是用以描述学生学习效益的术语[1]。此后,有研究者系统比较了深度学习与浅表学习的区别,发现深度学习和浅表学习在动机、目标、知识结构、学习方式、思维方式、迁移能力和元认知等七个方面均存在差异[2]。反观实践,学校中存在着大量的浅表学习,这种学习是训练学生做计算机也能做的事情,而不是让学生利用计算机完成人和计算机都无法独立完成的工作,而后者才是真正有价值的学习[3-4]。基于此,深度学习成为国际教改的普遍趋势和核心素养发展的核心要求。

评价是检验深度学习设计和实施效果的关键环节,也是促进深度学习发展的重要方法。埃里克·詹森和利恩·尼克尔森在其代表性著作《深度学习的7种有力策略》一书中提出了深度学习的路线,这一路线涵盖了从课程设计到学习评价的各个环节。学习评价在整个学习路线中发挥着承上启下、促进迭代优化的作用:学习评价不仅是上一轮学习的结束,也是下一轮深度学习开展的重要依据和逻辑起点[5]。由此可见,如何评价学生是否进行了深度学习以及学习者的深度学习成效是一个值得深入研究的课题。

深度学习的评价离不开信息采集、处理和分析,而计算机越来越擅长解决良构问题,并在模拟人的理性方面做出了惊人的贡献,包括记忆和存储大量数据、智能化处理自然语言、智能识别图像和语言、监测情感等。科技的发展为评价信息的采集、处理和存储提供了重要的技术支撑,正在逐渐应用于深度学习评价领域。本文围绕如何开展深度学习评价以及技术如何赋能深度学习评价这两个方面,综述已有的深度学习评价的理论模型,理清深度学习评价的内容与方式,分析技术在深度学习评价中的作用,总结相关的评价案例,以期为深度学习的开展和智能技术在评价领域的应用提供参考。

一、深度学习评价的理论模型

(一)布鲁姆教育目标分类学

有学者指出,深度学习并不是一个新奇的概念,布鲁姆的教学目标分类中就规定了深度学习的目标。布鲁姆的教育目标分类学将认知学习目标划分为六个层次:识记、理解、应用、分析、综合和评价。对知识的识记或理解属于初步的浅层认知,后面四个层次属于较高级别的深层认知。值得注意的是,2001年,安德森(Anderson )和克拉斯沃尔(Krathwohl)修正了这一目标分类,将综合层删除,并在评价层之后添加了创造层。改进后的认知学习目标分为识记、理解、应用、分析、评价及创造六个层次。这一改进将学习评价的深度范围进一步加深,更加凸显了深度学习的重要性。深度学习强调学习者不仅具有记忆、理解必要的各学科基础知识,还能具有应用、分析、评价这些基础知识,并创造新知识和新产品的能力[6]。

(二)知识深度模型

2002年诺曼·韦伯(Norman Webb)建立了知识的深度模型(depth of knowledge,简称DOK),用以表征和评估学生对知识理解的深度,如图1所示。知识深度模型包含四个由浅入深的层次,依次为DOK1:回忆/复述;DOK2:概念/技能;DOK3:策略思维;DOK4:扩展思维。每个层次反映了完成任务所需的不同水平的认知期望或知识深度。其中,DOK3和DOK4被认为是深度学习层面的基本能力。随着学生所达到的知识层次的加深,学习深度也在逐步加深。在美国,知识深度模型已被许多州用于评估深度学习的效果[7]。

图1 知识深度模型

(三)深度学习评价的多维理论体系

鉴于深度学习是一个多元的概念,它不仅存在于认知领域,在情感领域以及动作技能领域同样存在。此外,深度学习以高阶思维运用和发展为特征,任何领域的深度学习的评价都需要重点关注学生思维的发展。基于此,张浩等从三大领域出发,以评测思维结构的SOLO分类法为支撑,构建了深度学习评价的多维理论体系,如图2所示[8]。图中三个顶点的元素分别表示认知、情感和动作三大领域各自具有代表性的深度学习评价理论模型。图中不同领域之间互相联系,表示学习不是孤立地存在于单一的领域,不同领域的评价模型共同为深度学习评价提供理论指导。实际使用中,可以根据课程的目标和学习的重点,单独使用某一领域的模型或者将多个领域的评价模型组合使用。

二、深度学习评价的内容与方式

(一)深度学习的评价内容

在评价内容方面,美国研究院(American Institutes for Research,简称AIR)组织实施的Study of deep-er learning: opportunities and outcomes (SDL)项目非常具有借鉴意义。SDL项目以深度学习的六个核心概念即学业内容掌握、批判性思维与问题解决、有效沟通、合作、学会学习(即自我管理能力)、学习心志(学习互动、学习的动力、毅力、心理控制能力和自我效能)作为深度学习的评价内容。具体的深度学习能力框架内容如表1所示。本文通过高中毕业情况、英语语言艺术和学校测试、基于PISA的学校测试、学生调查四个方面考察学生在上述六个方面的水平。

对学生深度学习的评价,不只包括知识技能层面的评价,还包括价值观态度、专业认同感和专业学科的认识论规则。学习科学专家戴维·谢弗认为深度学习是一种教化(enculturation),教化不仅包括知识和技能,还包括价值观态度、专业实践的决策依据和方式方法。相应地,深度学习评价的内容不仅是知识、技能,还包括价值观态度、专业实践的决策依据和方式方法等。即使是在知识技能层面的评价,也需要考察学习者对知识之间联系的掌握程度,在戴维·谢弗教授看来,理解知识不只是理解知识本身,更是理解知识之间的关联。需要注意的是,知识技能与价值观态度和专业实践的方式方法也是相互关联、相互影响、共同发展的,学习者在深度学习中运用到的知识、技能和价值观是相互联系的,基于社交网络分析的定量分析方法能够衡量这种联系。

(二)深度学习的评价方式

表现性评价是深度学习的主要评价方式之一。表现性评价是对学生在真实或模拟情境中完成复杂任务的过程和结果做出判断[9]。其主要特征是学生经历在真实情境中解决问题的过程,并根据评价规则引导自身进行反思[10]。完成复杂的任务不仅需要回忆信息、运用概念、进行概括及解决问题的认知能力,也需要态度与社会技能等非认知领域的技能参与[11]。因此,表现性评价不仅评估认知能力,非认知能力也能通过表现性评价进行衡量,如自我定向、与人合作的能力等。

指向深度学习的表现性评价需针对批判性思维、协同工作、有效沟通等要素设计多种多样的评价任务,例如,论文写作、实验与调查、表演、辩论等,教师通过建立评价规则,引导学生进行自我主导的学习。然而,采用表现性评价对学生的深度学习进行评估不是一个理论上的问题,而是如何实施的问题,评价者需要依据目标精心设计评价任务,并建立评分等级与具体表现行为之间的联系。

三、技术赋能深度学习评价

尽管教育理论界高度关注深度学习,但深度学习评价尤其是借助智能技术开展的深度学习评价仍寥寥无几。常用的评价工具有问卷调查、纸笔测验等。虽然这些方式的评价效率高且操作简便,但不能全面、准确地反映其特征;在开放活动和研究性学习中,手工收集和评价学生的深度学习也存在效率低、成本高的缺点。因此,如何利用智能技术支持深度学习的评价,降低评价成本,提高评价效率,甚至突破评价环境的局限性,成为推动深度学习评价的当务之急。从任务流程上可将技术赋能的深度学习评价分为评价信息搜集、评价信息处理和评价信息存储三个环节。

(一)评价信息采集

评价信息大致分为三类:学习者的生物特征信息(如脉搏、血压等)、学习的动作行为信息(如手势、面部表情等)以及人机交互行为数据信息(如鼠标点击次数和时间等)。学习者的生物特征信息能够通过传感器来获取,例如脉搏、血压、生物电等信息,用以分析学习者身体状态、情绪、心理特征等情况,为学习者提供及时的学习支持[12]。运用摄像机捕捉面部表情和手势即是行为特征采集的过程,同时,利用表情识别、语音识别等技术能够识别行为,进而分辨学习者在深度学习中的情感状态;此外,运用神经测量技术采集学习者的眼动数据和脑电活动,获取学习者的情感状态、认知活动相关的指标。交互行为数据采集,则需要对学习者在学习环境中的交互行为日志进行建模,构建包含点击数据、交互行为数据、响应反馈等信息的模型。

(二)评价信息处理

数据挖掘技术能对线上学习活动产生的海量信息进行实时计算和分析,对学习者的学习风格、学习方式、学习态度和学习需求等有较为精准的预测和了解,进而为全面评价学生的深度学习情况提供支撑。随着教学管理系统的应用及在线学习系统的兴起,教育数据增长迅猛,对海量数据的处理和分析已无法再用传统的技术手段,而数据挖掘技术则能很好地解决这一问题。国际教育数据挖掘工作组将教育数据挖掘定义为运用新的方法和技术,将教育系统中的原始数据转化为有用的信息的过程,以方便教育者、学习者和管理者使用,从而改善学生的学习环境和学习支持服务。在Internet环境下的数据挖掘被称为网络信息挖掘(web mining),可分为三类:内容挖掘(web content mining)、结构挖掘(web structure mining)和用户使用记录挖掘(web usage mining)[13]。根据不同的分析目的和数据来源,研究者可以选择不同的数据挖掘技术。

自然语言处理是处理文本数据的关键技术之一[14]。自然语言处理可对在线学习、网络培训和大规模在线开放课程(MOOC)中学生交互信息、发帖信息等文本类的信息进行分析。语义分析是自然语言理解的核心任务之一,它是指机器运用各种方法,理解一段文字所表达的意义[15]。借助机器学习和训练的方法,将文本中的词映射到具有固定长度的向量,不同的词向量组成一个向量空间,并通过分析模型计算文本。该技术已被广泛应用于论坛互动内容观点挖掘和互动文本情感识别分析中。利用这一技术能够分析真实的过程性学习数据,了解学生的前验知识,获取学生的知识漏洞,追踪和描绘学生的学习过程,进而达到个性化和智能化的评测目的。

深度学习是人工智能领域一种新的数据处理技术。它借助神经网络(neural network,简称NN) 模拟人脑的多层抽象机制,通过逐层特征变换实现对输入数据的深度表达。由于神经网络模拟了人脑的学习过程,因此它能够实现对现实世界中大量数据的抽象表达。这一技术在语音识别﹑图像手写识别等领域具有优异的性能。实践证明,深度学习可以获取具有潜在复杂结构规则的自然图像、视频、语音和音乐等数据中的潜在的本质特征或规则[16]。

(三)评价信息存储

信息存储方面,区块链技术支持开放安全的数据记录和分布式存储,为数据储存提供了一种更为灵活的储存方式。区块链的运作机理是将传统由中心机构统一记录和管理的记账账单变为全网公开并由各个节点共同维护的账单,全网的用户能够查询每笔交易信息,所有用户可以共同核对账本中的信息,这样交易无论是否存在第三方信用主体,均可得到信用担保,从而保障信息的真实性与可信度[17]。区块链技术的匿名性、有效的防篡改性、可追溯性、去中心化的特征,使得该技术在教育数据存储方面具有独特优势。运用区块链技术存储学生的评价信息,不仅能将信息永久安全地存储在云服务器中,而且能有效保护学生个人隐私,同时允许学生和教育者随时查询和获取。

四、深度学习评价的实践案例

(一)基于布鲁姆教育目标分类学的问题层次智能分类

教师设问的深度在一定程度上决定了学生学习的深度,有效的问题或提问方式能够帮助学生达到预期学习效果[18]。因此在提问或编排试卷时需要根据情况设置不同层次的问题。鉴于此,对问题的层次进行分类就十分必要,这个过程一般是由人工分类来完成的,但对于大量的数据,往往需要较长的时间,也可能由于个人认知差异导致分类的结果各不相同。随着人工智能的发展,利用技术实现问题层次自动分类的方法已经出现。

阿宁迪亚(Aninditya)等人[19]将布鲁姆教育目标分类学作为开发问题层次自动分类方法的理论指南。以布鲁姆教育目标分类学中认知领域的学习目标划分为基准,他们由浅入深将问题的层次划分成:(1)识记:要求学生了解或记忆知识;(2)理解:要求学生通过描述、转述等进行比较或解释;(3)应用:要求学生直接应用学习信息大致回答问题;(4)分析:要求学生将问题分解为多个子问题;(5)评价:要求学生用明确的标准评价一个想法;(6)创造:要求学生将知识重组为新的模式。其中前三类为浅层问题,为引导学生更深层次的理解奠定基础;后三类为深层问题,学生必须进行深度学习才能完成这类任务。

他们依照上述框架,提出一种利用自然语言处理(NLP)将问题自动分类为浅层和深层的方法。该方法首先需要预处理文本,包括标注数据集、分词、词干提取和过滤。其次,利用词频—逆向文件频率算法(term frequency-inverse document frequency)、朴素贝叶斯分类器(naive Bayes classifier)并且融入布鲁姆分类法认知领域构建的问题层次分类模型,选出具有较好区分能力的词语并给予相应权重,其结果将作为分类预测模型中的特征,依据这些特征预测属于各个类别的概率,从而实现分类。最后验证结果显示朴素贝叶斯和TF-IDF分类方法的准确率达到了85%,说明了该方法分类效果的有效性。

(二)基于SOLO理论的小学语文课堂深度学习评价

以往国内有关深度学习的研究多集中在理论探讨以及基于经验的建议上,鲜有人利用测评工具评价课堂深度学习的实际情况。近年来,越来越多研究者将关注重点聚焦于根据某种分类理论构建评价框架以诊断中小学真实课堂上的深度学习质量,这能够帮助教师根据学情合理设置深度目标并提供深度学习的机会和空间,为学生能够在差异化的情境中运用所学提供可能。

为了有效评估学生语文课程的深度学习,刘丽丽运用SOLO分类理论划分层次并且借鉴我国课程标准规定以及国际上的阅读素养测量框架构建了深度学习评价工具[20]。SOLO分类理论突破了个体内部思维的不可见性,能够从学生学习结果来推测其知识理解程度。它从能力、思维操作、一致性与收敛、回答结构四个维度出发将理解水平划分为五个层次,迁移到语文阅读深度学习中由浅至深分别为:前结构水平,指学生无法解决任务或提取文章要点;单点结构水平,指学生只能解决任务中的某一方面问题以至于得到片面的结论;多点结构水平,指学生主要基于记忆和复述回答学习任务中的多个要点,但缺乏知识点整合与联系;关联结构水平,指学生已能够把握各要点之间的联系,形成完整论点但仍然未融入自己的思考;抽象拓展结构水平,指学生能够连接新旧知识并结合自身经验积累提出自己的判断,最终形成有逻辑意义的结论。其中,前结构、单点结构和多点结构水平属于浅层学习,关联结构和抽象拓展结构属于深层学习。在构建该评估框架的基础上,运用德尔菲法通过专家评定来验证其有效性。

研究者利用构建的深度学习评价工具对某小学语文阅读课进行了具体分析。这节课教师共设置3个任务群,设置48个任务,其中理解性学习任务要求学生进行深度学习,共计 25个任务。全体学生对25个理解性学习任务进行应答反应,共生成26个学习结果,最后由3位打分者共同评定结果。通过对应答结果的描述性统计,结果表明约有65%的学习结果处于水平2,最好学习表现也仅达到水平4,仅占15%,即学生总体的学习程度还停留在浅层学习,可能原因是大部分学习任务设置也处于浅表层次,学生思维局限在课文浅表字义。因此,建议教师在设置学习任务时避免停滞在表层,而应该更多地侧重于思考与设计以促进学生的深度学习。

(三)利用深度学习技术自动评估MOOC论坛中学习者的认知参与深度和情绪参与状态

深度学习的发生离不开认知和情绪的高度参与,评价学习者的认知和情绪参与程度是深度学习评价的重要方面。随着MOOC等在线学习方式的兴起,越来越多的学习者参与到在线学习中,线上学习平台累积了大量的学生发帖数据。深度学习所强调的过程性评价恰好能够从这些过程性数据的分析和评价中反映,然而庞大的数据量使得人工评价成为一件极其耗时费力的工作。利用计算机领域的深度算法开展对论坛数据的自动化评价成为深度学习评价的新方式。

刘(Liu)等人将论坛中学习者的认知和情绪参与分别划分了层次和种类[21]。认知参与被分为主动认知、建构性认知和互动性认知三个由浅入深的层次。主动认知是指学习者重复或解释已经存在于课程材料中的概念和观点。建构性认知是指学习者基于课程材料中已有的概念表达新的观点,比如运用所学知识分析一个案例,或者将知识应用于实践。建构性认知是指学习者向学习伙伴提出新问题,评价其他学习伙伴的观点,或者基于他人的观点表达出自己的新观点。从分类中可以看出,主动认知是浅层学习的一种表现,建构性认知和互动性认知是深度学习的表现;而且,互动性认知的层次比建构性认知的层次更深。就情绪参与而言,学习者情绪参与被分为积极、困惑和消极三类。积极的情绪参与是指学习者表达出惊喜、好奇、愉快、骄傲、希望或平静情绪。困惑的情绪是指学习者经历了询问、怀疑、猜想等。消极的情绪参与是指学习者表达了焦虑、沮丧、无聊、愤怒、无望、羞愧等情绪。这三种情绪参与没有深浅区分,只有种类之别。

基于上述分类,刘等人开发了一种自动检测认知和情绪参与度的BERT-CNN文本分类模型。该模型结合了BERT和CNN的优越能力,通过捕获上下文语义词级特征和融合句子级特征来实现更高的性能。与以往研究中的模型相比,BERT-CNN模型分别将认知和情绪参与识别任务的 F1 值提高了 8%和10% 。研究者使用这一模型分析了8 867名在 MOOC论坛讨论生成的60 624条数据。为了验证这一模型的可解释性和可靠性,研究者采用注意力可视化工具分析了分类过程中的语言特征来解释BERT-CNN 的机制。基于自动分类得到的结果,研究者采用皮尔逊相关分析的方法分析了认知参与和情绪参与的相关性,结果显示,相比消极情绪,积极或困惑的情绪与较深层次认知参与的相关性更高,可以认为学习者在到达较深层次学习时通常伴随困惑和积极情绪。这一研究结果为教育实践者通过提高学习者的情绪参与进而提高认知层次提供了重要的依据。

(四)题目测试与技术评估结合的学术词汇知识深度评估方法(EAV)

评估学生关于词汇知识的学习深度是词汇发展中亟待解决的问题,因为单词知识的学习不是记忆孤立的信息片段而是一个高度复杂的问题。仅了解词义等表浅知识不足以支持学习者合理地运用词汇进行阅读或写作。要想恰当地使用词汇就需要对词汇各方面有更深层次的学习,例如理解它的形式、使用的条件以及词汇之间关联的方式。目前多数学校的词汇评估依赖于评估其语义,缺乏对词汇的使用限制等更深入知识的测量,因此开发一种词汇评估方法以衡量学生对一般学术词汇的知识深度已十分必要。

美国宾夕法尼亚州立大学学者克罗森(Crosson)等人开发了一种测试与技术评估相结合的词汇深度评估方法(EAV),旨在衡量以英语为母语的学生对英文学术词汇的理解深度[22]。为了评估学生的词汇理解深度,105名学生首先完成了一项学术词汇测试。测试题目为选择题,四个句子为一组并且每句提供四个选项,学生需要从选项中选择恰当的单词使得题目中的每个句子的含义完整。其中,对于单义词,设置一个正确选项和三个干扰选项作为备选;对于多义词,设置两个正确选项、一个语义干扰以及一个正字法干扰。干扰程度按照如下顺序逐渐增加:语法干扰最简单,任何可能适合句子的词都与语法干扰选项的词性不同,这样几乎没有使用过单词或没有记忆过词性的学生就不能排除语法干扰,区别的是对单词知识处于表层学习的学生;不相关和正字法干扰是指虽然词性适合填空句子,但语义不符合句子要求,这样能够识别词的语法作用,但不知道语义属性的学生就无法排除干扰,旨在区别处于浅层学习的学生;语义干扰最困难,测试对词义、单词之间的关联和使用限制的更深程度理解,区别出具有一定单词知识储备和稳定、精确单词深层知识的学生。学生在决定接受或拒绝干扰选项时的推理就反映了对要评估的单词知识深度的思考。语法干扰、不相关干扰、语义干扰分别被设定为判断学生词汇知识的表层、浅层和深层程度的标准。

EAV旨在通过测试学生能否排除不同难度的“干扰”项来捕捉学生对学术单词的学习深度,采用信号检测理论解决确定各干扰类别的排除难度的问题,以确定学生处于表层、浅层或深层学习程度。另外,由于学习者在完成选择题时可能猜想选择出正确选项,因此使用R语言中编写的贝叶斯信念网络(BBN)减少这种误差对真实结果的影响,最终结合测试结果得到词汇深度掌握的层次。最后,研究人员利用心理测量评估方法、信号检测理论、贝叶斯信念网络结合后续的认知访谈验证了评估的有效性和技术质量。EAV 植根于已有的词汇深度测量的方法,对框架进行改进并与技术结合纠正误差,形成了一种通过衡量干扰来判断学生学术词汇知识深度的新方法。

五、智能化深度学习评价研究展望

智能化深度学习评价是智能时代技术与教育深度融合发展的必然趋势。借助智能设备我们可以采集到学习者大量的行为数据,并通过统计方法寻找行为的模式和规律。目前的挑战是如何在处理海量数据时不失去对数据内在含义的理解。若孤立地处理分析数据,而缺少对数据来源和情境的认识,或未能把握数据潜在的含义,可能会面临“垃圾输入、垃圾输出”的风险,或易受到“统计相关”蒙蔽而做出对因果关系的误读[23]。西蒙·派珀特(Seymour Papert)的弟子戴维·谢弗(David Shaffer)提出的量化民族志(quantitative ethnography)方法对开展深度学习评价具有指导意义。量化民族志是一种融合了定量评价与定性评价的评价方法,既吸收了定量研究系统、客观、可泛化的优势,也借鉴了定性研究对意义的深层解读。量化民族志可用于解读开放的任务情境中的行为数据,对数据进行定量和定性解读。相信只有立足于坚实的理论基础开展深度学习的数据挖掘和评价研究,研究者才不会囿于“统计参与活动时长、资源点击频次”等浅表分析,而深入分析学习过程中更细致入微的现象和特征[24],实现有深度的评价研究。

猜你喜欢

学习者深度评价
中药治疗室性早搏系统评价再评价
深度理解一元一次方程
你是哪种类型的学习者
十二星座是什么类型的学习者
深度观察
深度观察
深度观察
汉语学习自主学习者特征初探
基于Moodle的学习评价
论远程学习者的归属感及其培养