APP下载

计算教育学国内发展现状分析与未来展望*
——基于语言模型和自然语言生成技术

2021-05-28贾维辰彭俊通讯作者任英杰

远程教育杂志 2021年3期
关键词:教育学范式研究者

贾维辰 彭俊[通讯作者] 任英杰

(1.澳门城市大学教育学院,澳门特别行政区999078;2.暨南大学人文学院,广东珠海519000)

一、计算教育学研究概述

2009年,拉泽(D.Lazer)等研究者首次提出“计算社会科学”(Computational Social Science)概念,认为计算社会科学能够在各个维度对大数据进行充分挖掘与分析[1]。经过十余年的研究探索与发展,随着新兴技术与各社会科学领域的深度融合,计算社会科学下的各个分支学科开始逐步走向成熟。与此同时,大数据、人工智能等新兴技术的赋能,也在逐步改变教育领域的实践,以个体数据为主的实证研究逐步向以海量关系数据挖掘的新范式推进[2]。2014年,李未院士提出要将教育科学的研究范式从基于定性和经验,转变为基于大数据、计算、模型的定量和精确分析[3]。随后,一些研究者对计算教育学的定义、研究对象、学科建设等方面进行了深入探讨。

在计算教育学定义层面,研究者均认同:计算教育学与传统定量教育研究范式在数据特征、数据获取、研究路径等方面存在差异[4]。目前,学界主要在计算教育学的研究对象上存在激烈争鸣。有研究者认为,计算教育学是“通过技术赋能,基于数据密集型的研究范式,以解释信息时代的教育活动与问题,揭示教育复杂系统内在机制与运行规律的新兴交叉学科”[5]。其核心是将教育各要素及要素间互动过程进行量化,以达到对教育学领域中各种现象、行为数据进行采集、分析、建模、解读、预测等目的[6]。但是,也有研究者针对教育的特殊性,认为教育现象、情境、主体等元素不是“工业流水线上的工序化过程”,不能简单地进行归约和划分[7]。即计算教育学不能过分强调对教育对象、内容、现象的可计算性,否则,就会陷入还原主义的怪圈。为了避免这一问题,计算教育学的研究对象只能是教育大数据本身。基于此,为了更好地对计算教育学发展现状进行客观分析,本研究将计算教育学界定为:借助大数据、机器学习等新兴技术,对教育学现象、师生行为等教育大数据进行采集、分析、解读的一种数据密集型科学范式。

在计算教育学的研究内容层面,刘三女牙按照创新人才培养目标,将计算教育学研究内容划分为计算教育伦理、教育主体计算、教育情境计算、教育服务计算等四个方面[8]。王晶莹等研究者使用UCINET进行凝聚子群分析,发现当前计算教育学主要围绕教育学规律、认知与行为模拟、学习动机和情感参与、师生人格和性别等四个主题进行研究,并将这四个主题细化为包含38个关键词的研究图景[9]。本研究参考王晶莹等研究者提出的计算教育学研究图景,同时结合2010年以来“新媒体联盟”(2010-2017)和EDUCAUSE(2018-2020)所发布的系列《地平线报告》,对计算教育学领域在技术支持、情境支持、参与者、评估等层面的关键词进行梳理。

我们认为,计算教育学作为一个新兴的研究领域,具有极大的创新潜力和应用前景,需要进一步对该领域的热点动态、发展脉络进行更加直观、全面的解析。为此,本研究以计算教育学为线索,使用“学术文本(摘要)主题分析框架”对国内计算教育学领域进行解读,以呈现该领域的研究热点并分析与展望今后研究的发展方向。

二、分析框架及参数设置

根据以往的研究发现,对学术文本(摘要)进行主题词聚类分析,能够在一定程度上揭示该领域的发展现状[10]。但是,仅基于生成的词频统计和关键词聚类图谱做出的解读,还存在一定主观性。为此,本研究提出构建“学术文本(摘要)语料库”,采用深度学习神经网络处理语料库所生成语言模型,并结合自然语言生成(Natural Language Generation,NLG),对学术文本进行更加客观的数据挖掘和解读。学术文本(摘要)主题分析框架(以下简称“分析框架”)主要包括三个环节:学术文本数据集构建,基于主题聚类结果的学术文本主题词列表生成,基于语言模型和自然语言生成技术的多主题文本生成。如图1所示。

(一)学术文本数据集构建

通常,学术文本有着较为严密的内部逻辑结构[11],摘要是学术论文的重要组成部分,传递了论文最主要和最有价值的信息,能够帮助读者预先了解文章内容与观点,更好地深入到文章中去[12][13]。我们通过对某一领域内文献的摘要数据进行数据挖掘,可以更加系统、清晰、立体地分析该领域的研究脉络。“分析框架”在学术文本数据集构建环节选取摘要数据,构建了学术文本数据集。摘要数据的采集必须遵循严格的数据检索策略,设置多个检索阶段以提高检索结果的查全率,以确保数据来源的规范性、权威性和丰富性。

本研究数据检索策略是在陈超美教授提出的综合检索策略基础上[14],构建起针对计算教育学领域检索策略。我们发现,目前计算教育学领域的主要关注点在互联网、大数据、人工智能、虚拟现实等新兴技术赋能教育实践(比如,自适应学习、学习分析、情感计算)方面。为此,围绕“计算教育学定义”“人工智能主要领域”“人工智能与教育”“大数据与教育的结合产物”“新兴技术在教育中运用”,分别设计三轮数据检索策略,检索年份设定为“2001-2019”。最终得到的数据集是包含有15821 条CNKI 记录的数据集。具体检索策略,如表1所示。

表1 检索策略

本研究使用Pandas①Pandas 是用于Python 编程语言的数据操纵和分析的软件库(https://pandas.pydata.org/)。和Scikit-Learn②Scikit-Learn 是用于Python 编程语言的开源软件机器学习库(http://scikit-learn.github.io/stable)。对CSSCI检索结果进行数据清洗,包括缺失值处理、检测和去除重复文献记录等操作,最终得到12011 条检索记录。再使用Jieba③jieba 是一个python 实现的分词库,对中文有着很强大的分词能力(https://github.com/fxsjy/jieba)。作为分词工具,对清洗后的学术文本(摘要)数据进行分词处理,构建了“计算教育学”领域学术文本语料库。

(二)主题词列表生成

首先,“分析框架”采用文献计量工具(Citespace[15]),对学术文本(摘要)语料库进行宏观主题聚类分析,筛选出每个宏观主题下所包含的学术文本(摘要)数据;然后,使用隐含狄利克雷分布(LDA[16])模型,抽取每个宏观主题所包含的学术文本(摘要)的主题关键词列表。

本研究使用Citespace 对2001-2019年计算教育学领域的检索结果进行主题聚类,使用g-index(k=30)构建当年聚类网络,最终合成文献关键词聚类网络图谱,如图2所示。该网络图谱模块值(Modularity,Q 值)为0.6504,平均轮廓值(Mean Silhouette,S 值)为0.8173,显示计算教育学领域主题聚类结果是合理的(正常情况Q>0.3,S>0.5)[17]。我们可以看到,图中共包含16 个聚类(Cluster),颜色深浅代表该聚类出现的时间先后,即颜色越深代表出现的时间越早。

总体而言,国内计算教育学研究领域主要围绕15 个主题展开,即“个性化学习”“智慧课堂”“物联网”“智慧校园”“创客教育”“地平线报告”“学习分析”“机器人”“教学改革”“教育信息化”“机器人教育”“智慧教育”“人工智能”“虚拟现实”“智能机器人”。

语言模型主要是基于计算教育学领域学术文本(摘要)语料库训练而成。语言模型是一种高维模型(实验中设置为100 维),涵盖了语料中的上下文信息和语义信息。本研究使用Gensim④Gensim 是一个开源库,使用现代统计机器学习来进行无监督的主题建模和自然语言处理。是基于计算教育学领域学术文本语料库训练(维度为100 维)的语言模型,并生成词向量Word2Vec[18]。为了便于观察分析,本研究采用PCA 方法,将高维度模型压缩至3维并进行可视化处理。图3为其中10 个宏观主题的语言模型可视化⑤可视化数据可以在本研究数据仓库中获取,并进行操作验证(https://github.com/jwc19890114/AI-EduWord2VecVisualization)。,研究者通过观察这些图谱,即可在一定程度上发现宏观主题词和其他关键词之间的关系,并基于自身知识背景进行解读。但是,这一解读方式仍会受到研究者自身经验的影响,这不是本研究的最终目的。因此,对学术文本的解读还需要更深层次的数据挖掘。

(三)基于多关键词的解读文本

“分析框架”通过LDA 模型,处理每个聚类下包含的学术文本数据,生成主题关键词列表,并进一步自动生成该宏观主题的解读文本。即“分析框架”使用学术文本(摘要)语料库配合语言模型,对多主题自然语言生成模型(MTA-LSTM)进行训练。MTALSTM 模型[19]采用LSTM 构建循环神经网络,隐藏层设定包含512 个单元,Batch_size 设置为32,使用优化函数RAdam(Rectified Adam)进行训练,使用束搜索(Beam Search,beam=2)生成主题词解析文本⑥聚类下各主题生成结果,见https://github.com/jwc19890114/AI-EduWord2VecVisualization/tree/main/NLGResult。

三、我国计算教育学发展现状的分析与解读

(一)计算教育学主要聚类解读

我们通过使用Citespace 对计算教育学领域学术文本(摘要)语料库进行处理后,生成16 个宏观主题聚类。通过对聚类进行合并、删减,最终得到具有代表性的4 个聚类,如表2所示。后继分析将基于这4 个聚类,使用“分析框架”探讨计算教育学领域的知识基础和研究前沿情况。

表2 计算教育学领域CNKI 检索结果聚类

1.聚类1“个性化学习”(合并)

个性化学习的表述有许多种,一般是指学习进度和教学方法都针对每个学习者的需求而进行优化的教学[20],学习者能够依据自身需求和兴趣开展有针对性的学习活动,最终达到“因材施教”的目的。随着大数据、学习分析、计算科学等技术的深入发展,个性化学习在实践层面有了可实现的场域。在计算教育学视域下,个性化学习自然成为人工智能与教育深度融合的产物,它能够促使学习者的能力与个性在学习活动过程中得到充分、自由、和谐的发展[21]。

以上论述与分析在聚类图谱中也得到了验证,个性化学习(个性化学习、学习分析)聚类成为计算教育学领域中最大聚类。使用LDA 模型对“个性化学习”聚类下所包含的摘要数据进行主题抽取和分析后,共发现7 个主题。

我们分析发现,聚类1“个性化学习”主要关注:“智慧校园”“人工智能”“算法”“课堂”“教育大数据”等主题。进一步使用基于“计算教育学”领域学术文本(摘要)语料库训练的NLG 模型,对以上主题进行关键词文本生成。对结果分析后发现:

(1)在“智慧校园”“智慧课堂”“图书馆”等教学环境类主题中,研究者主要关注此类环境下信息技术的应用情况,如,物联网、大数据、云计算技术在教学环境建设中的应用[22-24];研究者关注到智慧校园环境对学生学业水平的影响[25][26]。(2)在“人工智能”主题中,研究者主要关注人工智能环境下思想政治教育的转变、教学创新[27-31]。(3)在“算法”主题中,研究者主要关注与个性化学习相关的算法和系统开发,如,与“自适应学习”相关的推荐算法[32-34]、学习者模型构建算法[35-37],与“学习分析”相关的语言、文本、面部表情、肢体、眼动等多模态数据的采集与分析[38-43]。

2.聚类2“智慧课堂”

智慧课堂源于智慧教育理念[44],国内外研究者从不同角度对智慧课堂进行过阐述,我们综合后发现,智慧课堂具备新信息技术环境、学生自主、个性化、智能化等特征。智慧课堂能够对学习者的学习记录、课堂表现等多模态数据进行采集、分析和评估,配合不同学习者的学习风格,最终实现学习者的智慧培养目标[45]。“智慧课堂”聚类是计算教育学领域中第二大聚类,使用LDA 模型对该聚类下包含的摘要数据进行主题抽取和分析后,共发现7 个主题。

我们分析后发现,聚类2“智慧课堂”关注的主题与聚类1 有重叠,如,“智慧校园”“人工智能”“算法”等主题,这是由于智慧校园为个性化学习和智慧课堂提供了实施的载体;同时,二者均需要人工智能和各类算法的支持。除了重叠主题外,聚类2“智慧课堂”还关注“大数据时代”“职业人才培养”“智慧教育”等主题。进一步使用基于“计算教育学”领域学术文本(摘要)语料库训练的NLG 模型,对以上主题进行关键词文本生成。对结果分析后发现:

(1)在“大数据时代”的主题中,研究者主要关注大数据时代下思想政治教育方式、人才培养等的变革和创新,涵盖职业院校和普通高等院校[46][47],辅导员培养[48][49]。该主题与聚类1 中“人工智能”主题相似,研究主要集中在大数据应用于高校辅导员对学生信息管理和数据挖掘,与以往辅导员和思政教师凭借人工管理学生信息、根据自身判断学生思想动态不同,研究者尝试利用数据挖掘增强对学生的了解,以提高学生就业指导的针对性[50],降低辅导员决策偏差[51]。(2)在“职业人才培养”主题中,研究者主要关注人工智能在各领域人才的培养。随着人工智能在各个领域的发展,紧随其后的是对专业人才的培养需求日益凸现。其重点包括“财务管理”“新工科建设(智能制造)”“教师”以及“职业教育课程体系”。工业4.0是以智能制造为主导的第四次工业革命,传统职业教育培养出来的产业工人已无法满足多层次、多维度的生产任务需求,个性化和数字化产品生产模式,倒逼职业院校学生学习以人工智能为代表的一系列新技术和新工艺,以适应在人工智能、大数据协助下完成数据处理、决策分析、精准执行。“智能制造”“智能生产”等也不断推动教师升级知识储备与技能。

3.聚类3“智慧校园”(合并)

“智慧校园”是在“智慧地球”“智慧教育”之后,由国内学者提出的一个新的校园建设理念。黄荣怀教授认为,智慧校园是一种以面向师生个性化服务为理念,能全面感知物理环境,识别学习者个体特征和学习情景,提供无缝互通的网络通信,以有效支持教学过程分析、评价和智能决策的开放教育教学环境和便利舒适的生活环境[52]。我们使用LDA 模型,对该聚类下包含的摘要数据进行主题抽取和分析后,共发现13 个主题。

对这些主题分析后发现,聚类3“智慧校园”主要关注“智慧课堂”“智慧校园支撑技术”“智慧校园建设”等。我们使用基于“计算教育学”领域学术文本(摘要)语料库训练的NLG 模型,对以上主题进行关键词文本生成,研究发现:

第一,在“智慧课堂”主题中,研究者主要关注智慧课堂中的“课堂设计与教学”“数据挖掘与分析”。其中,“课堂设计与教学”主题,涵盖了智慧课堂教学结构变革,如,卞金金提出的“课前、课中、课后”教学结构[53],何克抗教授提出“促进课堂教学结构的根本变革”[54]等;以及教学模式变革研究,如MOOCs、翻转课堂等新教学模式中教学要素和教学方式转变[55][56]。“数据挖掘与分析”主题所涵盖的内容与聚类1、2 接近,集中于智慧课堂对学习者的多模态数据(语言、文本、面部表情、肢体、眼动等)的采集、分析、建模,以及学习者学习绩效的评估[57]。可见,在“智慧课堂”主题中,研究者主要关注点仍在教育大数据的采集和学习分析技术应用上。

第二,“智慧校园支撑技术”包括“智慧课堂”主题中学习分析技术,以及校园中学习情景识别感知技术等。如上文所述,国内不少研究者认为,“智慧校园”是数字校园的进阶模式,这在智慧校园主题下的早期(2010-2015年)文献中表现比较明显。研究者主要集中于学校图书馆[58]、后勤部门[59][60]的信息化构建,在关键词列表中也会发现此类词汇。

第三,在“智慧校园建设”主题中,研究者主要集中在“数据标准的制定及数据的统一与融合、建设的系统与协作”等方面,从早期仅满足技术、管理、信息查询、交互需求,开始逐步转向以用户为中心,打造教育信息生态系统的构建等[61][62]。尤其是在2015年李克强总理在政府工作报告中提出“互联网+”战略行动计划后,“互联网+”智慧校园的建设理念逐步成型,开始将智慧校园建设推进到新的阶段[63]。

4.聚类4“创客教育”

“创客教育”来源于“创客”,我国研究兴起于2013年,它是一种作为技术支持的基于造物或手脑结合进行创造的学习。该聚类包含“创客”“STEAM”“机器人”等领域学术文本,使用LDA 模型对该聚类下包含的摘要数据进行主题抽取和分析后,我们发现,聚类4“创客教育”主要关注“创客教育”“计算思维培养”“机器人教育”等4 个主题。我们使用基于“计算教育学”领域学术文本(摘要)语料库训练的NLG 模型,对以上主题进行关键词文本生成。对结果分析后发现:

第一,在“创客教育”主题中,研究者主要关注“创客空间建设”“创客教育教学模式”和“创客教育理论研究”。“创客空间”作为创客教育的主要学习环境,也是国内创客教育的核心载体。国内对创客空间的研究,已从传统的物理空间设计转向构建支持线上线下虚实融合的创客空间结构[64]。一些学者发现,直接照搬西方创客空间建设方案和创客教育理念,可能会进一步拉大数字鸿沟[65],需要重视在创客空间中对学生“创新思维”“创新意识”的培养[66]。研究者基于经典教学理论结合创客空间特征以及创客学习模型,先后探讨与构建了创客教育/学习模式和创客教育与课程体系[67-71]。

第二,计算思维的培养持续成为研究热点。计算思维的本质是抽象和自动化,它是运用计算机科学的基础概念求解问题、设计系统[72]。目前,主流的计算思维培养方式是通过项目式学习、探究式学习、编程训练等,以培养学生分析问题、抽象问题、运用技术解决问题的能力。计算思维的培养方式与“创客教育”教学/学习模式相吻合,一些研究者提出了在创客教育中通过基于项目/问题的项目式学习、体验式学习、个性化学习等学习模式[73],以及通过可视化编程[74]等手段,来培养学习者的计算思维。

(二)突显词分析

本研究使用Citespace 软件对数据集进行突显主题词分析,可以找到在短期内有较大变化的关键词,它能够从侧面反映该领域研究热点和研究前沿的演变。我们基于生成2001-2019年计算教育学领域突显词列表,选取突显开始年在2015年后的突显词,如图4所示。列表中“地平线报告”“翻转课堂”“数据素养”“深度融合”“大数据分析”“思想政治理论课”“自适应学习系统”“互联网+”“物联网技术”“大数据技术”等词汇,表明最近5年来计算教育学的研究热点和研究前沿情况。其中“大数据分析”“思想政治理论课”“自适应学习系统”“物联网技术”等关键词,在本研究聚类解读中均有涉及,再次验证了本研究解读具有一定的合理性与客观性。

四、计算教育学的未来走向与展望

(一)计算教育学研究所面临的挑战和突破口

近年来,计算教育学的快速发展,标志着教育学进入了全新的数据密集型研究范式的新时代;但同时,计算教育学也受到来自不同层面的质疑和挑战。例如,吴刚教授在对计算教育学学科概念和主张进行分析后,对学科的合理性进行了质疑[75]。我们认为,问题的根源一是在于计算教育学目前尚未构建起完善的学科架构;二是传统教育中的一些研究者对新兴技术带来的革命性影响,认识也显得有些不足。

1.加快形成计算教育学特有的研究范式

范式是常规科学内部在进行集体性知识创造时,被学术圈子约定俗成的一系列准则和共识[76]。库恩(Kuhn)认为,一个学科拥有成熟研究范式的标志,主要包括:该学科有被认为已知正确的基础知识和假设,学科明确了在这些知识和假设之上最值得研究的问题,这些问题进行研究的路径清晰,并具有明确可行的研究方法与解决标准等。

目前,对计算教育学质疑最多的主要集中在“教育大数据能否完整地展现教育的整个过程”。一些传统教育研究者认为,教育研究的特殊性(需要追溯引起教育现象的教师和学生的内在思维过程、内部主观世界、意识流动等),会导致教育大数据具有“不可解释性”,进而否定计算教育学的学科合理性。这种质疑本质上源于计算教育学尚未形成符合其学科特征的教育研究范式。传统教育学研究者在传统教育学研究范式(思辨研究范式、实证研究范式和质性研究范式)视域下,对计算教育学的基础知识、假设、研究问题进行审视和评判,其结果自然是代表未来教育学研究趋势之一的计算教育学,成为一种“想象中的学科”,自身还不过硬。因此,计算教育学目前最重要的突破口,就是构建计算教育学特有的研究范式。目前,郑永和等研究者已对计算教育学的研究对象、研究目标、研究路径、认知方式、研究进路、局限性进行了梳理与探索[77],我们需要在此基础上,更进一步地进行技术性的完善、丰富和拓展。

其一,教育大数据的有效应用。其核心是对教育实践过程中各个要素以及要素之间的互动过程所产生的静态原始数据、过程数据、结果数据等进行科学采集。与传统量化研究不同的是教育大数据包含有各类非结构数据(如,视频、音频、图像、文本数据等),同时具备较大规模、长周期、高复杂性等特征[78]。但教育大数据与传统教育学实证研究抽样数据相比,无论在体量还是覆盖面上,都具有绝对优势。

其二,科学的量化与计算。其核心是使用数据处理技术,对采集到的非结构数据进行科学量化,将计算机无法处理的非结构数据,转换为可以计算的向量矩阵。目前在计算机视觉等领域,对数据量化计算已有较完善的数学模型支撑。如,本研究即是将长文本数据通过构建语言模型的方式,转换为可以计算的词向量,并基于词向量完成自然语言生成模型的训练和预测任务。除了对教育过程和结果数据进行量化外,对教育参与者本身的量化也十分重要。这是“量化自我”的工具理性在复杂教育系统中的表征,计算教育学在对教育参与者的量化中所展现的作用和长远意义是需要值得重视的。只有经过量化的参与者,才能够真正作为数据嵌入教育系统中,进行计算、评估、建模、预测。随着技术的成熟,计算教育学针对参与者的量化操作,将逐步从学习环境和多模态数据采集,转向数据整合研究(算法、元数据规则、融合)以及数据安全等社会伦理问题的研究。

其三,计算教育学作为一个多学科(领域)融合的产物,自身具备良好的包容性与可拓展性。即所有能够应用于教育领域的数据采集、分析、解读技术,都应被纳入到计算教育学的领域中。由于计算教育学是一种与教育大数据密切相关的数据密集型研究范式,教育学研究者普遍认为,计算教育学的驱动模式目前仅仅是数据驱动模式[79-82]。但我们认为,计算教育学的驱动模式应是多元的,包括理论驱动、数据驱动、问题驱动等多种驱动模式,这在本研究的主要聚类解读中已得到初步验证。另外,近年来一些有研究者基于学习参与度理论,选择多种数据采集技术,构建多模态融合模型进行学习分析和预测,并根据预测结果验证假设并生成新知。这从本质上而言,就是理论驱动模式的表现。我们认为,计算教育学的目的是为了更好地服务于教育研究,在计算教育学的研究过程中,研究者可以根据实际需求选取合适的驱动模式。针对不同环境验证教育理论,可采用理论驱动模式,比如,基于理论模型筛选教育大数据进行分析;针对已有问题探究影响因素,可采用问题驱动模式对教育大数据进行影响因素分析;基于已有数据进行实时教学决策,可采用数据驱动模式。

其四,计算教育学的研究范式是可以随着“智能+”教育的发展而不断扩展,在条件允许的情况下,可以实现对教育系统中“为什么”的初步探索,也可以作为其他传统教育研究范式的补充。如,质性研究范式其核心是从大量访谈非结构文本数据中,提取结构数据(类属、属性、维度),最终生成中层理论(扎根理论研究)或完成叙事(叙事研究)。计算教育学可以在质性研究的数据处理环节辅助进行数据处理,并生成初步的解读文本。当然,计算教育学研究范式在研究路径、研究方法等层面,仍需进行更加深入的探讨,并最终生成一系列业内公认的准则和共识,以夯实计算教育学的学科基础。

在完成对计算教育学研究范式的构建后,更重要的从事计算教育学的研究者需要完成学科研究范式的转换:传统教育学研究者需要深入学习大数据等新兴技术原理并能胜任数据挖掘、学习分析等任务,以提升对计算教育学的理解;技术应用、开发人员需要了解教育学基本理论,深入到教学一线了解真实教育情境。不可否认,这种范式转换,将会伴随更大范围、更深层次的争鸣。但真理越辩越明,计算教育学的研究范式,也将在不断的探讨与争鸣中锤炼成熟。同时我们也相信,随着计算教育学研究范式的成熟,在未来智能技术不断融入教学研究实践中,技术思维的强化所带来的学术研究体系的扩展,孕育并生成新的研究范式必然水到渠成。

2.计算教育学技术应用前景

教育系统的复杂性和教育大数据的特殊性,对技术在教育学领域的发展和应用,提出了巨大的挑战。根据上述聚类和主题关键词解读结果,目前计算教育学中使用的技术,主要被应用于虚拟(线上虚拟学习空间、在线学习平台)和现实(智慧课堂、智慧教室、创客空间)两类教育环境中的数据采集、分析、建模、评估和预测环节。主要包括以下三大类:(1)环境支持技术。主要包括物联网、5G、虚拟现实、增强现实、混合现实与拓展现实技术等。(2)数据采集技术。主要是多模态感知技术,即对教育实践过程中各个要素,以及要素之间互动过程所产生的静态原始数据、过程数据、结果数据进行采集,以获取各类非结构和结构化数据(如,视频、音频、图像、文本数据、用户日志等)。(3)数据分析技术。主要包括学习分析技术、自适应学习技术、认知计算、分类算法、聚类算法、推荐算法、评估算法等。

从已有的研究文献来看,研究者们通常基于以上三大类技术配合不同教育环境,来构建各种智慧教育与智能化教育环境。但是,这种构建模式本身也对技术提出了较高的要求。与其他应用场景不同,教育系统具有高复杂性特征,同一个参与者(可以是教育者、学习者、管理者或研究者)在不同情境中、不同参与者在同一个情境中、不同参与者在不同情境中的表现,可谓千差万别。即传统定量的教育研究范式,对于此类非结构数据的采集、分析存在较大难度与盲点。随着AI+前端数据采集技术(多模态感知技术)以及相应数据分析技术(情感与认知计算、自然语言处理技术)应用于各类教育环境,教育的量化与计算必将迎来一次质的飞跃。但我们也应认识到,这对技术的可迁移性、鲁棒性、拓展性、高效性都是巨大的挑战。如何提升以上三类技术的相关特性与效用,将是未来计算教育学技术研究的重要课题。

如前文所述,计算教育学的快速发展亟需形成自身特有的研究范式,这就要求计算教育学需要形成一系列成熟的研究工具和研究路径。同时,对于教育场域中研究者而言,也亟需功能强大、易上手且可扩展的计算教育学研究助手。比如,在机器学习领域,已有不少成功的案例,大学和企业通过构建开源项目的方式,为研究者提供成熟的算法库、框架、平台,以此降低研究者重复开发的负担,提升技术迭代效率。我们认为,计算教育学领域应借鉴以上成功案例,由大学和企业牵头,构建涵盖软硬件的计算教育学生态新环境,这将有力推动计算教育学研究的发展与繁荣。

与此同时,我们也应认识到,对各种新技术的大规模应用,其在提升教学效率的同时,所带来的隐患或副作用也不可避免,如,加深不同地区、不同阶层学习者的数字鸿沟、用户隐私安全等问题。前者要求教育政策制定者对新技术或计算教育学可能会带来的一些问题有敏锐的嗅觉和清醒的认识;后者要求信息管理部门在顶层设计中,应充分考虑到教育大数据具有较大体量、长周期、非结构化、高复杂性等特征[83]。我们认为,数据采集和分析技术将是今后计算教育学领域发展的主要趋势,伴随着的政策和信息安全研究,也将成为计算教育学范畴的研究热点。

3.加强计算教育学学科人才的培养

学科人才培养是一个新兴学科发展的主要基础,计算教育学的人才培养包括研究人员、一线教师和学生。缘于计算教育学多学科(领域)融合的特征,使得计算教育学亟需大量大数据、深度学习、数据挖掘等领域的人才。由于传统教育学中真正掌握并能实际运用新技术的人才较为匮乏,能够同时兼顾教育理论、实践与新技术应用的跨学科人才更为稀缺。因此,跨学科专业人才将成为制约计算教育学发展的不确定因素,必须高度重视并落实在培养机制上,建议有条件的高校应尽快设置相关专业。

计算教育学领域的教师培养同样也是一个重点,多位研究者发现,部分教师在AI 时代的新技术环境下表现出较差的适应性,主要体现在对新技术的学习、使用存在抵触或消极态度与技术应用不熟练。与计算教育学研究者相似,教育学领域教师也同样面临这类挑战。因此,教师需要也应该掌握并使用基于数据的研究范式。该如何培养出适应新技术教学环境的教师,使之能够熟练运用计算教育学研究范式并辅助日常教学,将是未来计算教育学人才培养的一个重要任务。我们认为,在教师培养中应增加信息技术应用能力的学习时长,对于有志于智能化教育的学生,应让其能够在学生时代就全面接触计算教育学领域的各个环节。同时,应注重一线教师的技术接纳性培养,因计算教育学本身是一个开放发展中的学科,随着新技术的发展,必然会不断补充新的技术与研究方法。从事计算教育学的教师必须具备较强的包容性,才能够拥有更长的职业生命力。

(二)学术文本(摘要)主题分析框架的应用展望

本研究将传统的基于词汇统计的学术文本分析做了进一步扩展,提出了学术文本(摘要)主题分析框架,使用基于深度学习框架的自然语言生成模型,对词汇统计结果进行处理并生成解析文本。我们基于主题关键词列表和解析文本,对四个主要聚类进行了解读。结果表明,针对五个关键词采用多轮输出解析文本,可以在一定程度上展现计算教育学领域学术文本数据集中包含的信息,帮助研究者更加快速解读学术文本。但我们在应用过程中也发现,这种学术文本解析方式存在词汇重复和内部逻辑性较弱等问题。人工评价中专家均反馈多条解析文本,存在内部词汇重复的情况,比如,在对得分较低的解析文本分析时,发现重复出现的词汇多数为动词和介词。尽管不影响整体的内容表达,但仍与人类自然语言存在一定差距。

由此可见,学术文本(摘要)主题分析框架生成的解析文本,虽然能够在一定程度上涵盖主题词聚类内所有学术文本的信息,但其内部逻辑性依然较差,无法做到有条理地对学术文本所包含的信息进行阐述;其生成的解读文本尚无法直接应用于论文写作,仍需研究者进行二次加工。

总体而言,本研究是对基于语言模型和自然语言生成技术,在学术文本解读方面所进行的一次有益尝试,也取得了一定成果。我们认为,未来的研究中可以通过将深度学习(End-to-end)与手工特征(Hand-features)相结合,使用语法错误纠正等方式,去除生成文本中的重复词汇;可以采用大规模预训练语言模型在小样本微调(Fine-turning)或在文本生成技术中引入知识图谱,来提升输出文本的逻辑性与准确性。

猜你喜欢

教育学范式研究者
究教育学之理,解教育学之惑
——《教育学原理研究》评介
实践—反思教育学文丛
以写促读:构建群文阅读教学范式
范式空白:《莫失莫忘》的否定之维
高等教育中的学生成为研究者及其启示
孙惠芬乡土写作批评的六个范式
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
管窥西方“诗辩”发展史的四次范式转换
研究者调查数据统计
教育学是什么科学