数据赋能的理解学习
2020-01-10DavidShaffer
吴 忭 David Shaffer
(1.华东师范大学 教育信息技术学系,上海 200062;2.威斯康辛大学麦迪逊分校 教育心理系,美国)
我们置身于数据大爆炸的时代。新兴技术加速并彻底改变知识的生产周期及获取方式,这也使在诸如教育、政府管理、经济、公共安全、政治等领域,数据逐步取代经验,成为帮助人类作出重大决定的依据。然而,对大多数人而言,理解和分析数据,实现从数据到信息、信息到知识、知识到智慧的升华更像是一门黑暗艺术。
一、什么是数据?
在探讨数据的作用之前,我们需要对“什么是数据”有深刻的理解。这常常像是一个容易被人们忽略的技术性细节。“data”一词源自希腊文字“datum”的复数形式,人们通常谈论或书写所谓的“数据”时,指的是一般意义上的信息。韦氏词典对“数据”的定义是:作为推断、讨论或者计算基础的事实类信息。牛津高阶词典将其界定为“事实或信息,尤其是把它们用来核查、探寻事物的本质或进行决策时。”还原到日常生活对数据的理解,我们认为数据是一个连续体的一部分,它从原始信息发展到可操作的知识,从而帮助决策。它包括定量或定性的事实、数字、材料或结果等。
在信息时代,人类无时无刻不在生产数据,这为社会学家提供了前所未有的研究人类行为的机会。虽然计算机可以从海量数据中找到统计显著的关联模式,但再精妙复杂的算法也无法从海量数据的随机关联中区分出有意义的模式。“垃圾输入、垃圾输出(garbage in, garbage out)”的忠告暗示我们,如果不思考数据背后的意义,而将所能够收集的海量数据都扔进统计模型,得到的关联模式甚至会诱导我们作出错误的、带偏见的解读。
二、什么是教育数据?
教育数据常指围绕着教育活动所产生的数据集合。它产生于各种教育实践场景中,诸如课堂教学、学校管理、教师教研活动、校园活动等。在传统教学场景中,教育数据常常是课程活动、学习测评结果、学习观察、学习档案袋等以纸质或视频媒介记录的证据。随着创新学习环境的增多,学习的技术创新、模式创新、非正式学习场景下的多元化学习目标创新使教育数据也变得海量而复杂,教育大数据应运而生。教育大数据涵盖了教育系统收集的学校层面的大规模标准化考试数据,或者是利用在线学习系统、物联网传感器技术等数据采集技术收集的线上或者线下的学习行为数据。
面对海量的教育大数据,如何从混乱中找出有意义的信息,能够回答教育利益相关者所关心问题的数据有哪些,或者说分析数据的目的是什么,是了解学生的迷思概念、学科思维、元认知技能、社交能力、批判性思维、问题解决能力、创新能力?……在从知识导向向能力素养导向转变的教育大背景下,这些诉求并非以往直观经验所能满足,变得愈加复杂而难以决断,有赖于证据的支持。
基于证据的评估和决策绝非新生事物,在商业智能、循证医学、用户中心的产品设计、数据驱动的运动员训练等众多行业的应用由来已久。而教育领域为何这一问题今天会变得尤为突出,主要原因还是学习形态的日益多样化。这从学习科学的研究主题可以略窥一二:多媒体学习、慕课、移动学习、游戏化学习、创客教育、翻转课堂、基于项目的学习、问题解决学习、虚拟现实/增强现实的学习、基于场所的学习等。但是,人类如何学习至少在目前还是无法计算的问题。这就像搜索引擎对于搜索结果的意义一无所知一样,它仅仅是依据词与词之间的相关性进行计算而得到的结果。因此,教育数据本身不能保证我们对于学习有深入的理解,也不会自动呈现学习的证据,而需要人对数据背后的含义进行诠释。
教育研究和实践对数据的理解离不开与之相关的特定情境,这样的教育数据被称为胖数据(fat data),即对教学实践活动的现象和意义的深描,包括叙述和诠释。这里的情境包括生产和收集数据的全过程——谁、什么时候、在哪里、通过何种方式产生或收集这些数据?以及为什么会产生或者要收集这些数据?认识教育数据的情境性,或许是教育大数据分析能够被教师采纳并应用于教学实践的前提。
三、教育数据如何赋能理解学习
教育实证研究方法一直有定量与定性之分,但两种研究方法在教育研究中各具优劣。定量研究的目的是利用基于大样本的瘦数据进行统计分析,获得关于总体一般教学规律的证据,比如某种教学方法对提高学生成绩是否有效。然而,真实复杂的学习情境,比如课堂难以像封闭可控的心理学实验研究环境一样保证量化研究的生态效度和内在效度。定性研究则往往通过对小样本的胖数据的细致观察和深描,对特定教学现象形成深度的理解和认识,回答如何在课堂采用某种教学方法以及通过采用这种方法,学生如何学习,产生了怎样的效果等。但是,这种通过“典型”案例举证,常常因为分析过程缺乏透明性而带有主观偏见,并因为研究结论不具有泛化效果而常受到质疑。
近年来,教育实证研究的趋势是包含这两种方法的混合分析策略,即将定量和定性研究并列或按顺序进行,分别构建独立的定量和定性分析模型,希望通过两个模型结果的相互佐证,支持彼此的结论。但是,定性和定量研究一直存在彼此独立的鸿沟,如何整合两种研究方式,有效利用大数据时代所能提供的基于大样本的胖数据,需要新的研究思路。
首先,我们需要在定性和定量研究之间构建一套可以相互理解的话语体系。例如,定量研究的分类或者指标,与定性研究的编码,都对应于研究者所感兴趣的理论构念。而从大数据中识别特定理论构念,在定量研究和定性研究中分别被称为分类和编码的过程。定量和定性研究又通过统计显著和理论饱和确保数据发现的指标体系或者叫作编码方案在样本所在总体中是反复出现的。但不管定性还是定量模型,都不只满足于从数据中识别出单一的理论构念,而是揭示多个理论构念之间的关联模式,这在定量研究中被称为研究假设,在定性研究中是对编码之间关系的深描,又被称为叙事。这种数据(实证层面)和意义(理论层面)的双向互动就是研究的概念化和操作化过程。
有了上述方法论层面的相似性比较,再来看待理解学习的研究目标。当前,学习科学和教育测量领域分别倡导的学习设计和证据支持的测评设计,不约而同地指向能力模型、证据模型和任务模型三者的相互映射。培养学生像科学家、工程师或者其他特定社会文化的成员一样思维和实践,意味着在对特定文化群体调查的基础上,建立关于该文化群体的知识、技能、认识论、价值观和专业身份的认知模型。因此,学习也可以视作是一种教化(encultration)的过程,目的是使学生建立符合某种文化的规范和认识。这种进入真实学习情境,理解教化过程的研究工作,类似于社会学的民族志研究,是一种情境化的能力、证据和任务建模。而质性分析的扎根理论正是获得理论创新、建立可解释和可检验模型的有效途径,进一步通过定量分析大样本数据,提供该模型关于理论构念,以及理论构念之间关联关系的统计学证据。数据、理论构念以及构念间关联三者的双向迭代循环,确保了定量和定性的相互佐证,确保我们对于学习的深度理解是可靠的。
四、结 语
过去20年的技术进步彻底改变了人类消费和生产数据的方式。这些变化促使研究人员寻找新的方法,对现有的大量数据进行有意义的分析。教育和社会科学领域的类似变革正在到来。在数字时代,质性研究和定量研究、科学和人文、数字和理解这种旧的区分方式,在某些情况下限制了研究者的思维,而在另一些时候又迫使我们接受一些浮于表面的答案。这也正是当前对于学习的理解存在的误区。在教育大数据盛行时期,许多教育研究者和管理者主张教育元素能够通过数据处理完全捕捉和表达,甚至是简化为一些孤立的“指标”。这些关注远远超出了数据有效性的传统概念,挑战了使用数据充分地建模教育过程和实践的适当性。就模拟人类学习者和教师的行为而言,这些对胖数据的忽视其实值得警惕。学习分析要避免被用于夸大教育的普遍一般规律,而低估不同教室、学校和学生生活的独特性和复杂性。因此,真正的理解学习,需要我们在“学习和教学可以被客观地定义、测量和建模”与“所有形式的数据都是社会构建的,任何数据处理或分析的实例本质上都是由先验理论、思想、解释结构和假设形成的”之间建立关联与平衡。这也是质性和量化分析融合的关键,更是量化民族志(quantitative ethnography)研究方法的精髓所在。