多学科视域下教育密集型研究的机遇与挑战<br/>——基于美国《数据密集型教育研究》的解读

多学科视域下教育密集型研究的机遇与挑战
——基于美国《数据密集型教育研究》的解读

2017-04-15张婧婧

复旦教育论坛 2017年5期

关键词：密集型科学研究

张婧婧，封晨

·域外·

多学科视域下教育密集型研究的机遇与挑战
——基于美国《数据密集型教育研究》的解读

张婧婧1，封晨2

（1.北京师范大学教育学部，北京 100875；2.香港大学教育学院，香港）

数据科学（data science）的兴起给教育研究带来了新的机遇与挑战。在美国国家科学基金会的资助下，计算研究协会（CRA）牵头组建了两个工作小组，对如何在教育领域开展数据密集型研究进行了调研，并于2015年10月发布了题为《数据密集型教育研究》的报告书。本文提炼报告中不同科学领域的密集型研究对教育密集型研究的启示，进行结构性的呈现和解读。在多学科视域下，讨论教育密集型研究面临的机遇与挑战，并提出一系列可供参考的发展策略。

数据密集型研究；数据科学；大数据；第四种范式

Abstract:The rise of data science has brought new opportunities and challenges to educational research.In the United States,the Computing Research Association (CRA)held a two-workshop sequence on data-intensive research for the National Science Foundation (NSF)and the field.The ideas and insights from these workshops were summarized in a report"Data-Intensive Research in Education:Current Work and Next Steps",which was released in October 2015.Focusing on the first workshop,this paper summarizes insights from relatively mature data-intensive research initiatives in the sciences and engineering,and discusses the opportunities and challenges that could aid in advancing nascent data-intensive research in education.

Key words:Data-Intensive Research;Data Science;Big Data;The Fourth Paradigm

一、引言

大数据时代的到来，引发了人类认识世界和改造世界的重大变革。在工业革命时期，即使是在当今全球信息化的浪潮中，大量的学术研究主要还是依赖抽样数据或案例数据展开调研，甚至在无法获得实证数据的情况下纯粹依赖经验、假设或价值观去发现未知世界的规律[1]。然而，在互联网和社交媒体飞速发展的今天，人类的行为与各行各业的工作在很大程度上已被“数据化”[2]，使得数据成为当今世界重要的生产力[3]。研究者能够打破传统学科的界限，多渠道获取和使用全面的、完整的、系统的数据，来发现过去不可能认识的规律和不可能产生的知识，从而对社会、经济和文化的发展产生重要的变革[4]。

数据科学的兴起，直接推动了科学探索范式的变革。数据密集型科学被认为是科学探索发展到现今的第四种范式[5]，在商业、娱乐、科学、技术、工程与数学领域已经取得了相当大的成绩[6]。近年来，在教育研究领域开始重视数据密集型研究，比如《教育技术的蓝图》（A Roadmap for Education Technology）和美国计算研究协会与国际学习科学协会联合发布的《未来教育与学习的网络架构：愿景和研究议程》（Cyberinfrastructure for Education and Learning for the Future:A Vision and Research Agenda）这两份报告。2012年，美国教育部也发布了题为《通过教育数据挖掘和学习分析促进教与学》（Enhancing Teaching and Learning Through Educational Data Mining and Learning Analytics:An Issue Brief）的报告。这些研究表明，数据密集型研究可以在很大程度上加快教育实践的变革，形成教育改革的良性循环。比如，基于数据的教学方法可以大大提升教与学的水平，实时的诊断性数据可以潜在地提升学生的学习结果。

然而，由于教育学科自身面临的挑战与困难，数据密集型研究在教育实践中尚未能发挥出其应有的潜能。教育学科尚未能发展出相应的理论去指导什么样的数据可以揭示教与学的规律，从而推动教育大数据的收集工作。教育学科是一个包罗万象的综合性学科，很难通过对所有可获得的数据进行简单的分析来发现具有普适性的教与学的规律。在数据收集和分析阶段，教育研究中存在的隐私和安全问题在很多自然学科中也未曾涉及。同时，教育领域缺乏相对完备的计算基础设施、工具和人才资源，并且相应的人才需要具备高效的大数据收集、整理和分析的能力，使得教育领域的数据密集型研究举步维艰。在与教育相关的数据科学的方方面面，全面提升对大规模、异形和含有噪音的数据集的分析与解释工作来发现教与学的规律，成为大数据时代教育研究的一个重要命题。

为推进教育领域密集型研究的发展，计算研究协会（CRA）在美国国家科学基金会的资助下组建了两个针对数据密集型研究的工作小组。第一个工作小组主要关注科学领域的数据密集型研究，另一个工作小组则旨在推进教育领域中新兴的数据密集型研究。研究小组由哈佛大学Chris Dede教授负责主持和编辑，来自明尼苏达大学、麻省理工学院和乔治梅森大学等高校的多位相关领域的专家学者参与其中。2015年10月，小组正式发布了题为《数据密集型教育研究：现状与展望》（Data-Intensive Research in Education:Current Work and Next Steps）的研究报告（以下简称报告）。本文提炼报告中不同科学领域的密集型研究对教育密集型研究的启示，进行结构性的呈现和解读。在多学科视域下，讨论教育密集型研究面临的机遇与挑战。

二、科学领域中的数据密集型研究案例对教育研究的启示

数据科学的兴起，直接推动了科学探索范式的变革。数据密集型科学被认为是科学探索发展到现今的第四类范式[7][8]。实验归纳被认为是科学探索的第一类范式，可追溯至远古时期的希腊和中国，古人尝试使用实验的方法来解释所观察到的现象。直至以伽利略为代表的文艺复兴时期，开启了近代科学之门。第二类范式为理论推演，以17世纪的牛顿为代表人物，拉开了现代科学的帷幕。20世纪的后半叶，冯·诺依曼所提出的现代电子计算机架构，使得对科学实验进行仿真模拟成为可能，不能通过常规实验和理论推演来解释的复杂现象可以通过仿真模拟来进行研究，如模拟气候变迁和宇宙的形成。诺贝尔奖获得者Ken Wilson将计算与仿真模拟定义为科学探索的第三类范式。作为科学研究的第四类范式，数据密集型研究并不是在已知的规则或理论的基础上进行探究。这类研究以数据为驱动，通过对海量数据进行挖掘来发现相关性的规律，从而发现和建立新的规则与理论。这类研究之所以能以数据为驱动，主要是因为当今信息时代的数据具有的4V特性——体量巨大（volume）、传输高速（velocity）、类型繁多（variety）、质量混杂（veracity），可称其为大数据，其价值尚待挖掘。2001年《加特纳报告》（Gartner Report）最早提出了大数据的3V特性，在此基础上，本研究加入数据质量这一个维度。尽管每一个数据集可能都存在数据质量的问题，数据质量的迥异其实也可以视为数据类型繁多的一种变异，但是大数据分析所面临的特有挑战可能恰恰在于其质量混杂。大数据的4V特性，也可以被认为是数据的一种“4V分类法 ”（Velocity-Variety-Veracity-Volume Typology）。在数据密集型科学范式下，大数据的“4V分类法”可定位为解决问题的一种方法，而非问题所在。本部分以“4V分类法”为比较框架梳理大数据研究在五门科学和工程学科中取得的进展，进而讨论这些进展在教育研究领域的潜在对应价值。

（一）地球科学中的预测模型

在地球科学的案例中，储量（storage）和计算能力（computing power）的提高使得数据不再受到可容性（volume）的限制，从而能更精准地反映现有数据的真实性(veracity)。在过去，由于存储和计算条件的限制，水平分辨率只能达到200km～500km，因此在区域维度的气候模拟和气候变化实验等方面容易产生较大的偏差[9]。2010年至2014年期间，美国乔治梅森大学、欧洲中期预报中心、英国牛津大学和日本海洋科学技术中心组成的国际合作研究团队使用了当时在全球排名第30位的Athena超级计算机和排名第13位的黄石超级计算机，花费数以千万计的小时数，产生超过10亿兆的数据，来探究水平分辨率（horizontal resolution）对季节性气候预测的重要性。研究表明，水平分辨率由125km调整为16km，能直接分辨更精细时空尺度的物理过程，对南欧因全球变暖而引起的降水量减少的两次预测之间存在巨大的误差。也就是说，依靠大数据计算来提高水平分辨率会显著提升预测模型的准确性。对于气候模型而言，预测的准确性至关重要。这不仅体现在气候模型中需要来自不同地域的形态各异的数据，很多时候是依靠大量的人工进行测量，而且反映在气候模型中需要汇总所有收集到的历年的气候数据。

地球科学中的气候预测模型所取得的成绩可以更好地帮助教育密集型研究去建立精准的学习预测模型。在教育密集型研究中，需要考虑选取合适的时间跨度来收集或分析教育中的大数据。这里的时间跨度其实可以看成是时间维度上的分辨率，类似于地球科学中的水平分辨率。就如同气候模型中，降水数据的区域分辨率将对全球大气模型的测定产生重大的影响，针对微观学习行为数据的分析在时间维度上所选取的分辨率，决定了宏观学习行为测定的准确性。提高时间维度上的分辨率，特别是对于非正式学习（如游戏、社交媒体）而言，数据的可容性问题不可避免地需要得到解决。在数据可容性问题的基础上，何种分辨率能实现教育数据的匿名化是教育密集型研究面临的特有挑战。

正如气候预测模型是为了更好地回答未来我们的气候会发生怎样的变化，教育中的学习预测模型是为了更好地监测学生的学业情况。基于行为模式的高等教育预测模型（Predictive Models Based on Behavioral Patterns in Higher Education）综合考虑了77个与学生相关的变量来预测学生的学业。其中一些用来预测学生学业的数据来自学生家庭中的生活数据、课外活动数据，以及在社交媒体上能收集到的数据。有些学生数据可能需要与税收、人口普查和其他一些现阶段难以获得的数据集进行对比。不同数据集之间的互通性问题不仅是气候预测模型普遍存在的问题，对于教育预测模型而言，数据比较分析也是一项具有挑战性的工作。不同学科所用到的预测模型已经提出了一些较为有效的方法来处理数据库中变量不兼容的问题，值得教育密集型研究学习与借鉴。

（二）生物科学中的开放数据架构

在生物科学的案例中，美国国家植物基因组计划通过 Gramene、Ensembl Plants、Plant Ontology 以及iPlant等数据库和工具来全方位地认识植物系统。生物科学中的大数据研究已在4V特征维度上引领了大数据科学的全方面发展，其中数据种类繁多（variety）是生物科学大数据研究中亟待解决的难题之一。特别是美国国家植物基因组计划提出一个五年的规划来解释植物数据的所有类型，通过构建一定的标准使得不同的植物数据之间具有可比性。该计划有16个合作方，提供开放的资源库。美国自然科学基金委通过iPlant Collaborative项目建立生物信息学数据库，提供高性能计算平台，提升图像存储和分析能力，可存储多达427万亿条数据。iPlant数据库注册数每月以500次递增。通过国家植物基因组计划产生的数据均来自不同的渠道，如工业界、学术界、政府以及非政府组织。这些数据不但类型多样，而且以递增的速度被生成。

考虑到教育大数据种类繁多，教育密集型研究可借鉴生物科学案例的范式，首先排除概念上或定义上的分歧，然后建立可分享的数据架构，汇集全方位的数据集，并开展大规模的合作研究。可以构建类似于iPlant这样的教育资源库来进行数据的对比分析。与生物科学案例类似，教育研究需要在问题驱动（questiondriven）和数据驱动（data-driven）两类范式中进行一定的平衡。通过大数据分析发现一些规律，从而构建新的理论；在理论构建的过程中，提出研究问题，收集数据并进行分析；在研究发现中，又提出新的问题。这样便形成从数据驱动到问题驱动、再由问题驱动到数据驱动的良性发展。比如，关于在线学习的研究可以首先收集一定数量的学生在线学习点击流（click stream）数据，通过初步分析去发现一些有价值的学习发展趋势，从而提出研究问题，进而收集所需的数据并进行分析。这类研究问题是在大容量（volume）数据分析的基础上提出的，往往需要收集多样性（variety）的数据来回答这类研究问题。相比于数据的大容量需求，数据的多样性成为这类数据密集型研究最大的挑战。

（三）公共卫生科学中的健康档案

公共卫生科学的案例中，大数据分析面临的挑战主要表现为如何解决数据变化速度快（velocity）和多样性（variety）的问题。流行病监控案例是一个典型的数据密集型研究案例，需要实时处理不断生成与变化的大数据。比如，Arizona大数据所开发的BioPortal项目已经被用于跟踪SARS等疾病的传播。该项目进行热点分析，实时监控新产生的病例，并通过进化树来分析引发疾病的微生物是如何发生变化的。在大数据时代，公共卫生科学面临的一个重要任务是全面变革后二战时期建立的“救死扶伤”的医疗系统，使得大数据分析能够帮助我们积极地预防疾病在人类社会大规模的爆发。为了能及时预防疾病的爆发，我们需要多样化的数据，比如来自传感器的个人的身体状态、个人详细的家族健康史，以及过去和现在从社交媒体上获得的精神方面的数据。传感器可以测量一个人的身高、血压、肺功能、脑电图、血氧饱和度、心电图、姿势、步态等。即便是传感器能够获得这么多种类的健康数据，也不足以说明数据的多样性。在公共卫生科学研究领域，数据的多样性还表现在需要综合考虑个人每天可能参加的健身训练、慢性病调理和心情等方面的数据。

可以看出，公共卫生科学与教育密集型研究都面临数据隐私以及全面认识复杂的人体系统这两大难题。就隐私问题而言，对病人的健康数据进行挖掘与分析，同对学生的成绩、在线行为数据以及档案中的跟踪数据进行分析类似。就解决人体系统的复杂性问题而言，了解一个人全面的健康情况需要综合考虑来自不同渠道的数据，比如病史、饮食习惯、锻炼情况和精神状态，以及上面提到的诸多因素。

（四）计算机科学中的可视化环境

在计算机科学的案例中，复杂的高分辨率可视化技术，比如纽约州立大学石溪分校的现实甲板（reality deck），能有效地应对获取大数据的高速（velocity）的要求。当然，由于造价昂贵，这种大型可视化技术与设备的使用很难在教育领域普及开来。同时，在大型可视化技术的研发过程中，是优先提升可视化技术的物理性能，还是先针对需求提供可视化信息来回答研究或实践中亟待解决的教育问题，也是需要权衡的。

大型可视化技术和设备可用于依赖场景（如消防员培训）基于行为主义的教育培训中来。在这一类培训中，物理环境对所选取的教学策略起到决定性的作用，学生的学习行为也直接或间接依赖于所铺设的学习情境。同时，大型可视化技术和设备也可在智能学习环境中提供实时分析与监测。比如，这样的技术常用于智能教学系统（intelligent tutoring systems）、个人指导系统、基于社交媒体的非正式学习分析，以及教学改进中的学习评价和评估。

（五）天文科学中的人本计算

在天文科学的案例中，建在智利的大型综合巡天望远镜是一个集大数据数量、变化速度和类别三方面考量于一身的重要案例。这台望远镜于2014年8月开始建造，预计在7年后能全面展开长达10年的观测与采集工作。它每三天会捕捉一次夜空的照片，每20秒钟会产生10平方的6GB的图像，最终构建出一个100～200PB的图像资料库，并且配套20～40PB的数据库检索目录。整个图像数据库将公开使用。通过望远镜来完成数据收集的工作是几年以后的事情。在构建望远镜的同时，围绕数据分析的科学研究已经启动。实现实时事件挖掘（real-time event mining）至关重要，可用来监测近地天体的飞行速度和轨道，而且能够完全捕捉到随时间变化的动态天文现象（比如超新星爆发事件）。十年间，每天有上千万的天文现象产生，如何快速地识别什么样的天文现象值得观测是事件挖掘技术需要解决的重要问题。高维的多媒体PB数据库同时也面临大数据类别多样性的挑战，仅数据表自身就由不少于30兆行（观测的数量级）、多达200列（表征数据属性）的数据组成。

在天文学领域，在追求更高技术含量的天文观测仪器的建造与分析工作之外，在数据分析的初级阶段采取公众参与的方式。借助人工分析的优势，加快了数据分析的进程。星系动物园项目就是一个邀请公众（约15万人次）参与的在线天文学项目。参与该项目的公众在一年半的时间里，对超过100万个星系进行了分类。人为分类的介入看似对数据的真实性提出了质疑，因为参与者并非天文学家，他们的参与是否会导致数据质量良莠不齐？在这个项目中，对每个星系的分类都有不少于35次的尝试，同时采用多种数据分析技术来监测分类的质量，使得数据质量良莠不齐的问题得以解决。大规模的公众参与倒是引发了数据分析在数量级上的挑战。数据数量级的问题并不是要解决数据的存储问题，而是以何种方式使大规模的公众能够参与数据的前期分类工作。星系动物园项目开发了Zooniverse平台用于完成多人协作数据分析，有超过1300万名志愿者基于这个平台开展了40余个项目。这是一个将人本计算（human computation）用于大数据分析的典型案例。人本计算指的是结合人类认知的优势，完成计算机难以达成或不可能完成的工作。针对计算机（包括复杂图像分类、模式识别等）需要在一定的数量级和多类别上进行大数据运算才能部分实现或者现阶段根本不可能完成的工作，利用网络的分众性和协同性，达到人机互动的群体智能效果。

星系动物园的案例与生物科学依赖本科生收集数据类似，将人本计算用于数据密集型研究。同样，在教育研究中，参与者自主进行数据的初步人工处理将对这项研究大有裨益。天文科学的案例对于教育研究的启示是，可以通过一定的方式来使用教育数据库，使得一线教育工作者可以直接从数据中获得论据来帮助制定教育决策。在天文科学中，人类的认知系统能够很自然地完成简单的数据提取与分类工作（如星系动物园项目汇总的形状、颜色、大小、材质等）。同理，在教育研究中，前期的人工分类可以导入后期的数据分析和理论构建中。假如一线教育工作者和学生能够对教与学的数据进行简单的人工分类，这可以在很大程度上促进教育大数据分析的发展。星系动物园项目的开展证实了人本计算可以加快大数据分析的进程。除此之外，大规模的公众参与也在一定程度上表明，在教育研究中，公众是可以参与到严谨的科学研究中来的，只要研究中合理设计公众参与部分，吸引对教育研究有兴趣的非专业人士加入数据密集型研究是可行的，公众科学（citizen science）在教育大数据领域的应用也未尝不可。

三、教育密集型研究的发展策略

（一）加大跨学科合作力度，合力推进教育密集型研究

从以上五个案例可以看出，在科学探索的第四种范式下，亟待加大跨学科合作力度。数据密集型研究，即便是为了实现一个很具体的小研究目标，也往往需要跨学科合作，某个领域的专家也需要更多地关注其他领域的前沿成果和研究方法。这样的跨学科协作既能节约研究的时间和研究者的精力，又能对不同领域的发展起到促进作用。在数据密集型研究中，通过本体论建立统一的话语体系来实现跨学科对话。除此之外，建立数据标准的互操作性和数据存储与分析的架构对于合作研究至关重要。同时，企业或公司与研究者合作并共享数据会在很大程度上推动数据密集型研究的发展。虽然这些工作需要长时间的持续投入才能见到成果，但长远的收益仍是巨大的，而教育研究可以从这些已有大量投入的数据和计算机革命中受益匪浅。

（二）构建循证决策系统，深化教育改革

教育数据种类繁多，汇集各种类型的数据，形成了教育的复杂系统。从系统论的视角出发，有效的循证决策是保障教育改革得以推进的关键。基于学习分析的教学改革，既可以基于一个课堂的教与学数据来构建小规模的实时反馈系统，以此改进一位教师的教学方法，又可以基于大规模的、覆盖不同学校和不同学科的教学数据来建立模型，以此提升一个区域的教学水平。基于大数据的教学改革依赖于完整的循证决策系统，全方面考虑数据体量巨大、类型繁多和质量良莠不齐的问题。这种类型的教育密集型研究可定位为基于系统论的教育宏观决策研究。有必要建立一套共同的考量标准，以便在不同学校、学科和区域的教育密集型研究中开展可比较与可借鉴的实证研究，从而提出具有实践指导意义的政策建议。

（三）重新认识学习，建立新型的教育评估模型

提供全新的学习证据，创新测量学习的方法，可以在很大程度上改变我们对学习的理解以及教育系统中的评估方式。比如Shute[10]在提交的简报中提到，不中断地收集学生在校内和校外的学习交互数据。当不同类型的数据汇集在一起时，所能挖掘出的学习规律可以作为具有高信度和效度的证据，帮助我们理解学生是如何在不同的情境中学习的。这类教育密集型研究需要在以技术为支撑的学习环境中嵌入高质量、不中断、无干扰的测量，以此来评估学生不断变化的学习能力水平，并且通过聚合大量的学生评估数据来指导不同层面的教学改革（从课堂到学校、从地区到全省乃至全国的教育改革）。

（四）重审生成、收集、存储和结构化数据的过程

教育密集型研究中，生成、收集、存储和结构化数据的方式亟待改变。无论是微观层面的数据（如每一位学生在学习过程中每一秒的学习行为），还是中观层面的数据（如教学过程中老师的教学方式），还是宏观层面上聚合学生学习行为形成循证决策，都应通盘考虑构建一个开放的数据共享与分析平台。Ho[11]在提交的简报中强调，我们应重视数据的“生成”，学习分析应融合在数据生成的过程中。从数据生成的视角来看，大数据的兴起其实是因为出现了新的学习情境，其中产生了新的数据，需要我们能够对这样一类具有4V特性的数据进行解读，从而发现新的学习规律，而不是因为新的技术与方法使得我们从现有环境中获取数据的可能性增强。

（五）探索分析方法，创新数据分析模型

教育数据拥有形式与种类多样的特征，急需开发新的数据分析模型，来发现数据所蕴含的教育价值与意义。这其实已成为国际各类教育会议讨论的热点问题。例如，对于数据结构不明确的开放或虚拟的教学环境中产生的各类数据，如何找到准确的测量模型（包括贝叶斯网络、人工神经网络、模型跟踪系统）来模拟或表征学习。正如Mitros[12]在他提交的简报中所说，教育数据多样化问题面临的挑战是如何整合不同类型的行为与心理数据，包括同伴互评、能力测评、过程性评价以及论坛中的学习交互等。在过去的一个世纪，教育的科学与基础研究因为教育数据的多样化问题而停滞不前。在大数据时代的今天，教育数据的多样化反而成为推动教育基础研究走向科学研究的重要推手。这也预示着我们的研究方法将从传统的统计分析转型到有别于传统心理测量学的一系列新方法，如机器学习。为推进教育密集型研究的发展，我们需要研发与传统计量心理学中使用的完全不同的分析方法。分析方法上的突破，已明确成为数据科学在教育领域得到发展的重要先决条件。

（六）培养数据人才，学习使用数据分析工具

我们需要让更多数据领域的专家意识到数据科学在教育界拥有的巨大潜力。与此同时，在教育密集型研究中，很难绕开数据谈论教育问题。现阶段国内外鲜有成立与数据科学交叉的二级教育学科；现有二级学科的培养方案中，对学生的数据处理能力除了一门研究生统计课之外，几乎没有更高的要求。在教育学的人才培养方案中增加数据科学的相关训练，或者为数据科学家们提供在教育研究领域的发展空间，都将大大推进教育密集型研究的发展。同时，鉴于教育学仍然是社会科学的分支，每一阶段的数据分析课程都应涉及相关的伦理道德规范，以减少教育密集型研究中可能出现的非故意伤害等。其实，这是从另一个侧面扫清教育密集型研究发展的阻碍，从而更好地推动教育的科学与基础研究。

（七）关注数据的隐私、安全与伦理问题

在教育研究的每个环节，我们都应注意数据在隐私、安全和道德层面上的伦理问题。数据科学作为一个相对较新的领域，它的价值和伦理立场仍处于发展的婴儿期。需要开始关注大数据和算法中潜在的、或隐或现的偏见，以及随之可能带来的对参与者的伤害。要将伦理问题作为首要问题来抓，而不仅仅定位为研究中不重要的事后顾虑。对数据隐私问题的恐惧常常导致教育的数据密集型研究被禁锢在“宁可错杀一千也不放过一个”的教条中，导致对这类研究数据的收集滞后、犹豫不决和过度保守，这对推进教育密集型研究是有害无利的。实际上，大多数隐私风险问题可以通过恰当的技术和合适的信息政策进行规避。具体说来，隐私可以通过加密的服务器、匿名数据、控制对数据的访问和加强执行隐私政策等方式得到充分保护，以防止未经授权的、过量的数据访问。Hammer[13]在他提交的简报中指出，研究者使用的任何一项新科技都可能在某些方面带来一定的风险，而大多数风险其实是可以在现有的科技和政策下被控制和预防的。例如，美国国家标准与技术研究所曾为联邦机构拟定相关条例。该条例规定，在某人拥有机密数据获取权的同时，若违反相应保密条例，他亦将为此付出代价。这即是在面对风险时，用政策保护数据的一种方法。在教育的密集型研究中也存在数据量最小化的问题。数据量最小化将有利于降低去匿名问题带来的个人信息的曝光风险。在数据量最小化的过程中，应注意去除研究中不必要的个人信息，但同时保留一些必要的个人信息为个性化学习研究所用。基于此，在社会科学研究中建立一种以风险为基础的隐私和信息安全标准方法尤为必要，这样才能创造出充分解读各类教育数据、抓住研究机遇、分享规律与知识的教育研究学术共同体。

四、总结

本文提炼《数据密集型教育研究：现状与展望》研究报告中不同科学领域的密集型研究对教育密集型研究的启示，进行结构性的呈现和解读。在多学科视域下，讨论教育密集型研究面临的机遇与挑战，并提出一系列可供参考的发展策略。在认识新的机遇与挑战的今天，我们需要明确教育密集型研究的发展应该建立在教育学与数据科学深度融合的基础上，而不能简单地认为教育密集型研究是数据科学在教育学中的简单应用，即把数据科学作为解决教育问题的答案。这样的认识仍然没有跳出传统教育学范式的框架，是一种“拿来主义”思想在作怪。教育密集型研究可被视为达到目的的一种手段，而不是目的本身（ameans,not an end in itself），即在改进循证决策、解决教与学中长久以来根深蒂固的问题的进程中所开展的基于数据驱动的教育学的基础与科学研究。对教育密集型研究感兴趣的学者、政策制定者和实践者可通过详细阅读英文版报告来更加充分地学习。这份报告囊括了国际上相关领域最前沿的研究成果，对数据密集型研究方法在教育研究领域的启示具有高度的前瞻性，对全球技术促进教育变革的研究取向发挥积极的促进作用。更重要的是，希望通过这份报告以及此篇综述来激励大家就如何更好地推进教育密集型研究展开讨论。几年后，如果文中提到的观点被推陈出新的策略与方法所取代，这将是所有参加工作小组讨论的研究者以及作者认为对该领域最大的贡献。

[1]谢文.大数据概念混乱未来或将卷入混战[EB/OL].（2012-10-24）[2017-03-09].http://tech.qq.com/a/20121024/000193.htm.

[2]O'NEIL C，SCHUTT R.Doing Data Science：Straight Talk from the Frontline[M].California：O'Reilly Media，Inc，2013.

[3]MCKINSEY.Bigdata：The next frontier for innovation，competition，and productivity [EB/OL].[2017-02-20].http://www.mckinsey.com/business-functions/digital-mckinsey/our-insights/big-data-thenext-frontier-for-innovation.

[5]GRAY J.eScience：A Transformed Scientific Method[EB/OL].（2016-04-04）.http//research.microsoft.com/en-us/collaboration/fourthparadigm/4th_paradigm_book_jim_gray_transcript.pdf.

[6]HEY T，TANSLEY S，TOLLE K.The Fourth Paradigm：Data-Intensive Scientific Discovery[M].Washington：Microsoft Research Lab Redmond，2009.

[7]GRAY J，SZALAY A.eScience-A Transformed Scientific Method[EB/OL].（2016-09-10）.http://research.microsoft.com/en-us/um/people/gray/talks/NRC-CSTB_eScience.ppt.

[8]BELL G，HEY T，SZALAY A.Computer science.Beyond the data deluge[J].Science，2009，323，1297-1298.

[9]高学杰，徐影，赵宗慈，等.数值模式不同分辨率和地形对东亚降水模拟影响的试验[J].大气科学，2006，30（2）：185-192.

[10]SHUTEV.A Vision of the Futureof Assessment[C]//DEDEC.Dataintensive Research in Education：Current Work and Next Steps.Arlington，VA：Computing Research Association，2015.

[11]HOA.Before"data collection"comes"data creation"[C]//DEDE C.Data-intensive Research in Education：Current Work and Next Steps.Arlington，VA：Computing Research Association，2015.

[12]MITROS P.The potential value of MOOCs for assessing complex skills，briefing paper[C]//DEDE C.Data-intensive Research in Education：Current Work and Next Steps.Arlington，VA：Computing Research Association，2015.

[13]HAMMER P.Implications of and approaches to privacy in educational research，briefing paper[C]//DEDE C.Data-intensive Research in Education：Current Work and Next Steps.Arlington，VA：Computing Research Association，2015.

The Opportunities and Challenges of Data-Intensive Research in Education:A Multidisciplinary Perspective

ZHANG Jing-jing1，FENGChen2
（1.Faculty of Education,Beijing Normal University,Beijing 100875,China；2.Faculty of Education,University of Hong Kong,China）

2017-07-11

国家自然科学基金项目“教育科学基础研究资助战略研究”（L1624020）

张婧婧，1983年生，女，四川广元人，北京师范大学教育学部副教授，教育学博士，主要研究领域为教育技术、在线教育；封晨，女，北京人，香港大学教育学院硕士在读。