教育科学知识的积累进步<br/>——兼谈美国教育实证研究战略

教育科学知识的积累进步
——兼谈美国教育实证研究战略

2017-02-24柯政

华东师范大学学报（教育科学版） 2017年3期

关键词：教育学科学研究研究者

柯政

(华东师范大学课程与教学研究所，上海 200062)

教育科学知识的积累进步
——兼谈美国教育实证研究战略

柯政

(华东师范大学课程与教学研究所，上海 200062)

相比其他学科，教育科学知识的进步慢，积累少。要让教育学知识明显高于常识，成为一门可进行快速知识积累和进步的学科，就必须大力加强科学的实证研究。进入21世纪之后，美国在这方面率先做出了战略规划，发起了一场教育实证研究运动，对现有教育学研究范式进行大规模改造、升级，且已产生初步成效。很多教育学者对这场由外部势力主导的改革战略提出了若干质疑和反抗，认为这样做没必要、不应该也做不到。但这些质疑并没有对教育实证研究的意义和价值提出实质性挑战。

实证研究；教育科学；知识进步

几乎所有的教育学研究生或本科生都有被老师要求(至少是鼓励)读杜威、卢梭甚至孔子、柏拉图著作的经验。通常老师们说的理由是这些是教育研究的经典著作，是学生学术成长的基本养料。但同样是经典著作，为什么物理学、化学、生物学等学科的学生，却几乎没有人(除了个别研究学科史专业的学生)在今天去读牛顿、拉瓦锡、达尔文的著作呢？在学了多年教育学知识之后再读几千年前的作品，仍然觉得很有收获，这是不是能够说明我们教育学知识(至少在这些经典所覆盖的知识范围)在几千年中就几乎没有什么进步呢？

知识的进步与积累有其自身的逻辑与条件。要让教育学知识明显高于常识，成为一门可进行快速知识积累和进步的学科，就必须大力加强科学的实证研究。美国在这方面率先做出了战略规划，发起了一场大规模的教育实证研究运动。他们的出发点、主要举措以及所面临的问题都值得我们借鉴反思。

一、教育科学知识进步的逻辑和条件

美国国家研究理事会(National Research Council)由美国国家科学院(National Academy of Science)于1916年创建，现在由美国科学界最高水平的三大学术结构——国家科学院、国家工程院(National Academy of Engineering)和国家医学院(Institute of Medicine)共同管理。它在《教育中的科学研究》报告中对什么是科学做了如下描述：

在本质上，各个领域的科学研究是一样的，无论它是在教育学、物理学、人类学、分子生物学还是经济学中。科学研究是一个持续的严格推理过程，在这个推理过程中，方法、理论和研究发现三者是紧密互动的。它通过提出可以检验的理论或者模型来增进我们对世界的理解(National Research Council, 2002, p.2)。

纽曼在其著名的《社会研究方法》一书中也清晰地指出:“科学的知识是由理论组织起来的……社会理论就像是一张社会世界的地图，帮助人们预见这个世界的复杂性，并且对事情发生的原因提出解释。” (劳伦斯·纽曼, 2007, 第12页)由此可见，理论是科学知识的主要表现形式。

那什么是理论呢？Johnson和Christensen说，“理论其实就是对一个现象如何运作以及为什么如此运作的解释或者解释体系”(Johnson & Christensen, 2008, p.20)。纽曼还列出了四种理论解释形式(劳伦斯·纽曼, 2007, 第70-79页)。更简单地说，理论就是对事物(变量、要素、方面)之间关系结构的认识。一般来说，认识某一个单一的变量(如某人身高多少)不会被认为是理论，但如果对两个及以上变量的关系结构进行刻画(如身高跟教育水平有关系)，就可以说是一个理论(虽然它可能看上去会很简单或者是荒谬的)。

而对关系结构的刻画，简单地说有两种：一种是是否存在相关，一种是是否存在因果。从严格意义上来说，确定了相关关系最多只能说是阶段性成果，而弄清楚这个相关背后是否具有因果关系以及因果作用机制，才是理论的目标。只有弄清楚了因果作用机制，理论对现象的解释才是完整和彻底的。也只有这样，理论才能指导和改进实践。这里需要稍作拓展说明的是，社会科学中的因果关系与自然科学不一样。后者的因果关系一般是指条件一旦满足，那结果就必然发生。而在社会科学中，这种定律式的因果关系是不存在的，它的因果关系主要是概率性的。也就是说，当我们说A导致B的时候，指的是A的出现会导致B出现的概率明显增加。举例来说，如果我们发现学历提升会导致收入提高(即这两者是因果关系)，大家都能理解，但不是说学历提高了收入就一定会提高，而是说当一个人学历提高之后他收入提高的概率会明显增加。

当我们在说积累尤其是进步的时候，主要是基于真实发生的科学研究进程顺序而言的。但我们要清楚，在科学研究中，后来的研究结论不一定就比之前的研究结论更加可靠。甚至有时候，历史会来一个大转弯。比如，日心说取代地心说，直到今天在所有的教材里依然被认为是巨大的知识进步。但霍金及其合作者在2010年的《大设计》(The Grand Design)中却说，事实上，直到今天我们也无法确定地心说和日心说哪一个就是真的(real)，“日心说的真正优势是当我们把太阳看作不动的时候，我们构建解释方程能更加简单”(Hawking，Mlodinow，2010,pp.41-42)。即使有一天我们再次信奉地心说，物理学的进步也是有目共睹的。也就是说，当我们在说科学知识的进步时，主要说的是我们提出了一些能够更好地解释和理解这个世界各种事物之间关系结构(核心是因果关系)的理论。但同样地，我们也不能因此就说，知识就不会积累和进步。知识的进步大致可以分为拓展和深化两类。所谓拓展就是在量上的增加，发现了许多原来没有关注到的几个事物之间存在着某种关系结构；而深化主要是指对之前获得的关系结构认识进行补充、修正，比如发现原来所认为的关系结构是不完整的甚至是错的，而后用一个更一般、更简洁的理论来解释现象(rule of parsimony)(Johnson & Christensen, 2008, p.21)。伯恩斯坦认为世界上存在着两种不同类型的学科知识结构，一种是等级式的(hierarchical)，一种是分段式的(segmented)(Young & Lambert, 2014, p.100)。前者表示知识的进步主要是指获取的知识越来越深，而有些学科则是以水平扩展的方式来发展学科知识的。

那在什么情况下，理论会被更新或取得进步呢？从上述美国科学理事会对科学的描述中，我们也可以看到，一个理论被更新，大致是因为发生了这三种可能：一种是方法的改进，尤其是测量或数据分析方法的改进，让研究者能够观察到之前观察不到的现象，或者能让研究者分析出之前无法分析出来的数据，从而导致认识的深入。另外一种可能是来源于理论本身的改进。有时候，在其他条件没有大的改变的情况下，某些研究者可能会突然提出另外一种关系结构来解释事物之间的关系。如果这种解释得到了证据支持，那理论就会被更新。还有一种可能是因为，学术界发现了一些用现有理论很难解释的观察(observation)，促使研究者重新修正或者完全抛弃现有的理论。当然，在真实的情境中，这三者往往是纠缠在一起的。

前面简单阐述的是一般意义上的科学知识的积累逻辑，教育科学知识也不例外。其实，无论是什么学科或领域，或多或少都会有知识进步。这里的关键就是知识积累的速率。如果这个速率很低，那这个学科或领域所取得的知识就不会明显高于常识(因为常识也在积累)，甚至跟不上常识。只有当积累知识的速率达到一定程度后，它取得的知识才会明显深于常识，也才会让公众感觉科学的价值和优势。相比其他很多自然科学和社会科学，教育科学知识的积累进步相对比较慢，这是客观的。那么为什么有些学科知识进步这么快，而教育科学知识积累速率这么慢呢？相关因素有很多，但其中的两个因素可能是首要的。

其一是遵循证据原则的实证研究文化不够。实证研究在英语中有两种常见的表达，一种是positive research，一种是empirical research。一般理解，positive research肯定是empirical research，但empirical research则不一定是positive research。事实上，现在已经没有多少学者会认为自己的研究是positive research了，因为positivism是一种认识论，而现在社会科学领域，也包括自然科学领域，大体都接受了post-positivism的认识了，即认为所谓客观其实是一种“相互主观”(intersubjectivity)(Johnson,2009; Phillips, 2014)。现在实证研究也经常被用作evidence-based research。本文所说的实证研究大体是指empirical research或evidence-based research。

事实上，科学只是这个世界上的其中一种知识生产方法或机制，而且与其他诸如宗教、巫术、哲学、美学等方法相比较而言，它的历史也并不长。在人类历史的大部分时候，人们所依循的知识，绝大部分都不是来自于科学，但“现在大概已经没有人会真正怀疑科学是产生现代社会知识的最主要方法”(劳伦斯·纽曼，2007，第11页)。为什么科学能够在并不长的历史时期里取得这种优势呢？一个最重要的原因是，它遵循着证据原则(the principle of evidence)。证据原则是科学研究中最基本、最重要的原则(Johnson & Christensen, 2008, p.22)。也就是说，知识是否可靠、正确，其最终的标准只有一个，那就是是否有足够的证据支持。只认证据，不认权威，这是实证研究区别于其他研究(如哲学、神学、审美等等)的最大区别。当然，这也是从总体上来说的。从微观的层面来看，近半个世纪以来，有很多有关科学社会学的研究也发现，科学知识在生产过程中也渗透了很多政治、社会因素。但不能因此就说，科学研究跟其他探究形式是一样的。正如我们不能看到一碗饭里有两颗沙子，以及一碗沙子里有两粒饭，就说既然都是既有沙子又有饭，所以这两碗东西是差不多的。也正因为科学研究遵循证据原则，因此科学知识拥有了一个极为可贵也是极为重要的属性，那就是它具有自我修复能力，即只要一个知识或理论是错误的，那它迟早会被发现并得到纠正(虽然这个过程可能很漫长)。无论谁说的，无论多少人认可它，只要能找到更有力的证据，这些知识就会被替换和更新。这种制度也就给研究者以强有力的希望和刺激，激励他们不断去挑战、去更新现有的知识，于是一些错误或不完整的知识就不断被抛弃、修正，而那些被屡次挑战但无法证伪的知识就暂时被保存下来。而且因为任何一个重要的知识几乎都会同时接受来自世界各国科学家成千上百次的挑剔检验，所以人们对那些暂时“存活”下来的知识就相对比较有信心。

相比之下，教育研究的这种基于证据的研究文化还没有形成(Feuer, Towne,Shavelson, 2002)。一方面，从全球教育研究的现状而言，教育学研究中人文、审美、哲学等非实证研究的方法依然占据主体，学术共同体对证据重要性的认识还远远比不过其他科学学科。我们虽然有很多的研究，但由于缺乏足够的证据(知识生产者不重视证据，质疑者也不关心证据)，知识是否可靠也就失去了一个基本的评价标准。其结果就导致了大家只关注或引用那些符合自己现有认识的研究，或者只用观点来论证观点。由于有比较可靠证据支持的知识本身就比较少，因此知识积累的基础就更加薄弱了。另外一方面，即使在美国这样实证研究力量相对较强的国家，由于大家在一些基础问题上(比如怎么在高度情景化的情况下做概括、怎么用调查数据得出因果关系推论等)缺乏足够深入的讨论或训练，因此很多人对教育的科学研究经常持有观望、怀疑的态度。或者说，大家更多地看到了困难，更多地从教育学研究的特殊性来考虑问题，觉得用现在这样的方式来研究教育也是马马虎虎可以接受的。

其二是缺乏统一的测量或理论框架。所谓积累首先是指现有的研究要基于已有的研究基础之上。而要让前后两个研究呈现发展的关系，有一个前提条件就是两者说的要是同一个事情。假设两篇同样是研究家庭背景对学业质量影响的文章，如果他们对学业质量和家庭背景的认识都不一样，说的是两个不同的东西，那么知识积累谈何可能？另外，正如前面所说的，科学知识的积累过程也就是不同研究者从各个角度来验证、推翻知识的过程。而不同的研究者基于各自的背景，从不同的角度要展开有意义的交流，那么保证大家都在同一个平台上就是一个不可或缺的条件。而要做到这点，就必须对重要的基础概念有一个共同的测量。

综观所有科学学科的发展可以发现，对一些基础概念的理解和测量及其优化完善，都是科学知识交流进步的必然前提,所有科学研究都必须建基于这些概念之上。如果我们能有一个统一的(至少是明确的)测量，就能够在最基础层面上保证大家说的是同一件事情，这样知识才有可能积累。试想，如果没有科学家对温度做出统一测量，那么物理学、热力学等很多个学科有关温度的研究知识就不能有积累。而且，科学家对温度的认识与测量本身也是一个知识积累的过程，每一次更新都极大地推动了学科的发展。

在教育研究领域，让彼此的研究建立在一个共同的测量基础上的意识比较薄弱。首先，很多人喜欢自己提出一个新概念，用以标识思想的独特性。这样一来，知识积累从一开始就变得非常困难。其次，即使大家都使用同一个概念，也经常没有一个统一的测量。大家说得东西事实上是不一样的，这也会严重制约研究的深入，导致缺乏足够的知识积累。笔者以“课业负担”这个概念为例来说明这点。笔者及同事在研究中发现，虽然大家都在使用课业负担这个概念，但事实上并不存在着一个课业负担的共同测量(参见柯政，2013；胡惠闵，王小平，2013；汤兆武，杨若翰，2013)。“两个学习基础不一样的学生，在某一天做了相同的10道题目，这两个学生课业负担是否一样？”就这样一个问题，无论是专家还是普通公众，很多人的认识都不一样，这说明研究者连课业负担描述的究竟是外在课业任务还是学生自我感受，都没有搞清楚。在这种情况下就可以理解，虽然国内有很多对课业负担的研究(其中也不乏有高质量的研究)，但总的来说，学术界对这个问题的知识掌握得并不多，没有明显超出新闻报道的水平。事实上，如果我们能像当初科学家解决什么是温度及其测量一样，把课业负担到底是什么以及我们从哪里看出它的轻重等基础测量问题搞清楚，让大家都在这个测量基础上来研究课业负担，有关课业负担的研究才有可能逐渐积累起来。教育研究若要走向科学、走向实证，对一些核心概念做一个统一的测量是重要的前提。

二、为了教育学科的进步：雄心勃勃的美国方案

很多时候，我们不得不承认美国的改革创新精神。教育学知识积累速率低、进步慢，导致决策者、公众以及其他专业团队对我们的认同低，这种情况在中外都如此。大家也都知道，要改变这种情况不容易，甚至需要“伤筋动骨”。而且相对来说，美国在这方面做得还是比其他国家要好，实证文化也更健全。但美国却比其他任何国家更具忧患意识，它在21世纪初就开始掀起了一场针对教育研究属性和方法的大规模改革项目，也称教育实证研究运动(evidence-based movement)。

跟美国历史上诸多大规模的教育改革相似，这次改革也是从外部发起的。对教育学知识不可靠、不科学且进步缓慢提出最强烈不满的首先是联邦政府的决策者(教育资助机构、国会议员等)。美国负责联邦层面所有教育研究资助的“教育研究与改进办公室”(Office of Educational Research and Improvement, OERI)的助理秘书长曾说：如果这些(教育)研究成果送到国会去，议员们都会质疑说，你们花了几百万的钱，就告诉我们在小学四年级就已经知道的东西？(Kaestle, 1993, p.28)更糟糕的是，在他们看来，我们的知识不仅接近于常识，而且还看不到知识在积累的迹象。美国教育研究与改进办公室前助理秘书长M. Goldberg曾就这个问题在美国国会作证，当时的议员开门见山就说：“Goldberg先生，我不需要你告诉我说(知识的积累)需要很长时间之类的话，因为你的前辈们早就这么说了”(Kaestle, 1993, p.23)。

当这些决策者这样认识教育学研究之后，教育学者的境地就悲观起来了，其具体表现就是教育研究经费的锐减。由于长期缺乏足够的经费支持，美国的教育研究队伍萎缩明显。各大学的教育学院普遍面临经费申请困难、教育学教授的工资很低、吸引不到优秀年轻学者等问题。但从某种意义上说，这也达到了某种脆弱的平衡：决策者看不起教育研究就不支持教育研究，教育研究者不拿钱也就可以自己干自己认为对的事情。

但随着NEAP、PISA等国际测验结果不断公布，人们越来越清晰地看到，相比美国对教育的巨额投入，美国教育质量(尤其是基础教育)可以说非常不理想，公众对教育经费使用效益的问责开始加强。公众希望知道为什么我们投入了这么多钱，成效却这么低？历年的教育改革到底产生了什么效果？在这种情况下，决策者就希望能有更多的教育研究能够告诉他们怎么做可以更有效。但他们却再一次发现，这样的研究很少。于是，他们下决心改变这种情况，希望教育研究者能够产出更多可靠的、有用的知识。一方面，他们大幅度增加教育研究经费拨款，另外一方面又对获取这些研究经费提出了明确的要求，那就是必须从事高质量的实证研究，即能够提供确凿证据的研究。为了更充分地体现这种改革意志，决策者把这些意见以法律的形式写下来，那就是2001年《不让一个孩子掉队》法案的发布。这个法案明确提出，所有联邦政府资助的教育改革项目，其申请的一个要件就是要有科学研究的证据。也就是说，如果拿不出有力的科学研究证据来证明这样改革会对学生学习有帮助，那么就不可能申请到教育经费。人们普遍认为，这个法案的发布，标志着教育实证研究运动在美国全面启动。

接下来立刻跟进的是美国科学研究团体。美国国家科学院、国家工程院和国家医学院，是当今世界学术声誉最高的科学研究团体，他们马上介入了教育学研究的改造队伍中。由三大机构共同运行管理的美国国家研究理事会(National Research Council)(可以理解为这三家机构的共同秘书处)，在2001年《不让一个孩子掉队》法案发布后的第一时间就组建了一个特别小组，就教育科学研究到底是什么、应该怎么做进行了指导说明。其成果就是2002年发表的重要报告——《教育中的科学研究》(scientific research in education)。这是这场教育实证研究运动的起始阶段。在这一阶段中，改革者们初步完成了目标任务(做教育实证研究)、激励机制(把科研经费全部投往教育实证研究)以及能力建设(提供怎么做教育实证研究的建议)等基础制度设计。但还未等教育研究者从或惊诧或欣喜或愤怒的情绪中缓和过来，教育实证研究的推动者又开始了第二轮布局。他们认为，改变教育学研究，仅此是不够的，还需要资助机构、学术期刊、专业学术团体、研究者以及大学等各方共同参与，合作建立一套研究规则体系。

基于此认识，美国国家研究理事会召开了一系列的论坛，邀请了包括权威教育学家、院系所负责人、学术期刊负责人、科研资助机构负责人以及其他学科专家，专题研究教育实证研究推进过程中的几大焦点问题。这些论坛主题分别是：

◇ 联邦科研项目中的同行评议制度。这个论坛于2003年2月25-26日在国家科学院所在的城市华盛顿特区召开，会议的主要内容是讨论提供教育研究经费资助的机构在评审项目时，应该如何设计同行评议规则，以更好地引导、激励教育研究者更好地开展高质量的教育实证研究。

◇ 理解和促进教育中的知识积累：教育研究的工具和策略。这个论坛于2003年6月30-7月1日在华盛顿特区召开。会议主要讨论了若要推进教育中的知识积累，需要提供哪些最基础的工具、方法、标准等。

◇ 教育中的随机分配实验：实施与启示。这个研讨会主要关注的是在教育研究中到底应该如何实施随机分配实验，以更好地揭示事物间的因果关系结构。这个会议于2003年9月24日在华盛顿召开。

◇ 教育学术论文发表。顾名思义，这个研讨会的焦点就是学术期刊应该在推进教育实证研究中起到什么样的职责、作用，应该怎么重新设计发表规则以更好地推动教育实证研究。这个会议于2003年11月11日召开，地点也在华盛顿。

◇ 博士生教育课程设计。大家认识到博士生未来会成为或者应该成为从事教育实证研究的主体力量，所以国家研究理事会把最后一场讨论会的主题定位在博士生培养上，讨论应该怎么重新思考和设计博士生课程，让博士生更好地适应教育实证研究。这个研讨会在2003年12月12日召开，地点仍然是国家研究理事会的驻地城市——华盛顿特区。

基于这五场研讨会，美国国家研究理事会于2005年发布了另外一份报告《推进教育中的科学研究》。在这份报告中，改革者提出了推进教育科学研究的13条建议。这13条建议涉及教育研究共同体中的所有重要关联方——研究者自身、联邦资助机构、学术出版机构、大学教育学院以及主要的专业学会。其视野之宽、措施之实，令人感慨，充分展示了美国在布局、推动教育实证研究发展的决心与战略(National Research Council, 2005)：

建议一：提供教育经费资助的联邦机构在对申报书进行同行评议的时候，需要把评审标准清晰地表达出来，而且每一个维度的每一个分值到底代表着什么意思都应该有明确的界定，并且有清晰的样例。所有评阅人在评阅之前都应该接受如何使用这些评价标准的训练。

建议二：科研经费资助机构在组建评审小组的时候，要确保评委有评判申请书理论论证和技术方法是否合理的相应的经验和学识(不一定每个人都具备各方面，但这个小组必须具备)。另外，为了尽可能避免偏见和利益冲突，所邀请的评审专家应该尽量多元，要尽量吸收那些经常没有被充分代表的群体专家(under-represented groups)参加。

建议三：在真实的教育情境中展开教育研究时，研究者必须在满足方法的适切性的前提下(即适合回答研究问题)，选择那些最具科学性的方法。而且在采用这些方法进行研究时，必须满足最高等级的证据要求。

建议四：联邦资助机构应该提供相应的资源，帮助那些从事大规模教育调查的研究者，能够有时间和经费与具体实践者和政策制定者建立合作关系，以更好地在真实环境中实施大规模调查。

建议五：与教育研究有关的各种专业学会应该建立一套明确的数据分享伦理规则。数据分享对教育实证研究至关重要，它能够让别的研究者有机会去验证已有研究结论。数据分享伦理规则应该明确怎么保护研究参与者的隐私，以及作者的权益等。美国教育研究协会(AERA)应该在这方面率先垂范。

建议六：学术期刊应该要求把作者是否愿意分享数据作为发表的一个前提条件，而且确保这种数据共享是符合伦理规则的。

建议七：专业学会和学术期刊应该与资助机构一道，利用信息技术优势，建立一种机制，促进教育科学中的数据共享和知识积累。

建议八：教育学术期刊应该建立并执行规范化摘要制度，要求所有作者必须在摘要中提供研究目的、抽样策略、研究方法和主要研究发现等基本信息。

建议九：具有学术博士培养资格的教育学院应该明确表达自己的博士毕业生能够从事教育实证研究的能力标准，并设计出相应的课程来帮助博士生达到这样的标准。

建议十：具有学术博士培养资格的教育学院应该设计有效的课程，保证自己的博士生除了对所研究这个领域的本体性知识有足够的了解之外，还要对本领域研究方法和技能方面的知识有深刻的掌握。

建议十一：具有学术博士培养资格的教育学院应该为博士生提供丰富的、有意义的研究体验。提供机会让博士生在有同行评议的期刊上发表论文，在学术会议上做研究报告，这对博士生培养至关重要。博士生需要在那些自身学术研究非常活跃的导师组的指导下从事自己的研究。

建议十二：联邦科研资助机构的同行评议委员会的人员构成要多样化，让评审过程也成为一个促进研究者专业发展的过程。

建议十三：出版机构或学术期刊应该更好地设计评审过程，让作者、评阅者和编辑更好地进行学术交流批评，并在这个过程中促进各方的专业发展。

这些建议和措施也开始逐渐发挥效果。在多方力量的推动下，目前情况已经在发生改变。比如在2006年，美国教育研究协会(AERA)历史上第一次发布了一份实证研究成果标准——《Standard for Reporting on Empirical Social Science Research in AERA Publications》；大量的教育类 SSCI 刊物也开始要求作者提供结构化的摘要；目前承担联邦科研经费支持的教育研究超过八成都是实证研究等等，都反映出美国教育实证研究战略开始逐步发力。

三、教育学者的纠结与矛盾

面对这场由外部力量推动发展的教育实证研究运动，教育学者是比较纠结与矛盾的。

一方面，伴随着这场教育实证研究运动而来的是研究经费的大幅度增加，教育学者呼吁了几十年的目标——希望能够像其他诸如医学等学科一样得到重视，开始逐步接近了。而且国家研究理事会直接介入也传递出了一些积极信号，比如教育研究(至少有一部分)可以也应该被看做是科学的，是科学共同体的成员；也说明大家还是认为教育研究是否科学这本身就是一个科学问题，而不应该过多地受制于政治决定(Feuer, Towne, Shavelson, 2002)。在教育研究被越来越被看不起甚至有被科学共同体彻底抛弃的危险时刻，这些都是令人鼓舞的。

但另外一方面，这场由外界直接施加的运动直接告诉我们“教育研究应该怎么做，怎么做教育研究才算是科学的”，很容易被教育研究者们认为是对自身专业知识和权威的侵犯，使他们在本能上就有抵制的倾向。如本文第一部分所述，科学研究的一个基本特征就是，一旦某个知识被证明是错的，那么它就会抛弃，代之以此刻被认为是对的知识。这是科学知识进步的基本逻辑。而事实上，承载着这些具体科学知识的研究者自身，也受到这个规律的制约。那些做不出更好知识的研究群体，也必然会被其他群体所替代。但人的更新比知识更新难多了。事实上，正如很多科学社会学所揭露的那样，正是因为知识的更替在很多时候是跟人的利益紧密联系在一起的，所以就出现了很多知识进步过程中的人为社会因素(see Chu, 2013；托马斯·库恩，2003)。

斯坦福大学教育学院教授D.C. Philips是知名的教育哲学家，也是美国国家研究理事会《教育中的科学研究》报告的起草专家之一(教育哲学家参与起草这份报告，这本身也是一个有意思的现象)，他分析了英美两国(但主要是美国)教育学者对教育实证研究运动的反应后认为，教育学者对这场运动的反应大致可以分为左中右三派(Phillips, 2006)。基于他的分析框架，再结合对“教育研究者”(educationalresearcher)、“教育学报”(teacher college record)在2002年、2005年和2009年组织的两期专栏文章，以及其他一些文章的分析(包括中国的一些学者文章)，笔者认为还可以把教育学者的反应再细分为极左、中左、中、中右、极右这几类。极左观点对科学研究本身是否合理就有怀疑，更不用说讨论在教育学研究中要不要做科学研究的问题；中左观点虽然认同科学研究的价值，但他们认为教育学作为社会科学或文化科学(social culture)，本质上不适合用科学的方法来研究；中派观点则认为，教育学研究跟其他科学研究一样，可以而且应该使用科学研究的标准与程序，但教育学中的科学研究还是与其他自然科学不完全一致，应该对哪些才是科学的研究持一个更具包容的取向；中右观点认为，科学研究只是教育学研究中的一部分，其他非科学的研究也并非没有价值，但科学研究那部分则必须遵循严格的科学标准，采用随机实验的研究方法就是更加科学(准实验也马马虎虎可以接受)，并不认为那种质性的、个案的研究是科学研究；极右的观点则认为，科学研究是人类探究世界的唯一正确方式，教育学要么消亡要么就必然走向科学，那种哲学的、文学的、美学的等其他探究方式之所以能够存在，唯一的原因是科学还没有发展到这一步。

但在这些派别中，正如D.C. Philips所说的，目前在刊物、会议上讨论这个问题最多的，也是反对声最大的是左派阵营(Phillips, 2006)。这也非常好理解。因为在这场教育实证研究运动中，他们的立场、利益是受到最多挑战的，因而他们的反抗也是最激烈的。由于他们的若干观点跟大部分国内教育研究者对教育实证研究的看法有相当高的一致性，所以，本文就对这些意见做一个比较详细的介绍分析，以期能提升国内学者对这个问题的理智水平。

从目前已经发表的诸多文章来看，对教育实证研究或教育研究的科学化进行质疑否定的角度和依据可以说非常庞杂的，如果认真检视，经常可以发现虽然好几位作者都在反对教育实证研究，但他们的若干观点和假设却又是彼此矛盾的。如果观其大要，对教育实证研究的反对大致有这么三个理由：没意义，不应该，做不到。但这些否定意见也经常被再否定。

先说没意义。正如前面所分析的，教育实证研究运动有一个基本的假设，那就是通过实证研究，我们更有可能获取可靠、科学的知识，从而可以更好地为教育改革实践服务。但批评者认为，这背后的假设就有问题，因为决策者在做教育政策时，并不是完全理性的，不是说哪个方案有更多的证据支持就选择哪个；甚至在很多时候，政策决策的逻辑是反过来的，是先想到了政策方案，才去论证这个方案的合理性，科学研究其实往往是政治决定的附庸或者“化妆品”(Lather, 2004)。而且，任何方案的利弊都是具有群体或者阶层属性的，对这个群体是利的东西对另外一个群体可能就是弊的东西。所以，希望通过更多的科学研究来改善实践，这本身就是幼稚和错误的。

客观地说，这种质疑是有道理的。当前很多的政策过程研究文献确实证明了传统的那种“基于对各种选项的全面科学的研究结论再择其最优”的理性决策模式是不符合实际的。先有问题，再找问题的政策实践也确实很多。但这种质疑并没有在实质上威胁到教育实证研究的价值。目前确实有大量的政策制定都是由政治或者权力决定的，但如果有更多的实证研究证据，而且教育学知识积累到可以对什么样的政策会产生什么样后果提出有力的解释时，我们是否可以更好地平衡那些没有相应研究基础的权力干预呢？而且，在真实的政策实践中，对同一个问题往往会存在不同解决方案之间的竞争，那么，如果在其他力量方面相差不大时，那些拥有更强大的实证研究结果支持的方案是否更有机会胜出呢？在当前的工程、医学等科学知识积累相对比较多的领域，无论利益集团多么强大，如果某一个方案明显与已有研究结论相违背，那么其出台的概率也会相当小。而在教育领域，要想这样做就相对会简单很多，因为大家都不知道怎么做更好。所以说，科学研究对教育决策影响甚微，这不能说明科学研究就没有意义，相反，这恰恰说明我们需要更多的科学研究。

再说不应该。很多人认为教育研究的是活生生的人，教育是追求价值完善、生命完美的崇高事业，而这些东西在本质上根本不适合像自然科学那样用各种工具量表、数据来揭示。也就是说，根本就不应该在教育学中追求科学，因为教育学更多的是“人学”，更重视的是价值、规范(normative)(see Egan, 1983)。比如，英国谢菲尔德大学教育哲学教授W. Carr就认为，教育学本来就应该是亚里士多德所说的“实践哲学”(practical philosophy)，而现在把它看做是某种把方法置于核心地位的自然科学，这是不对的(Carr, 1997)。英国伯明翰大学教育哲学教授 D. Carr 以“投入”(engagement)为例论证，这种重要的教育行为或现象根本不适合用科学的或实证的方法来研究(not apt for “scientific or empirical study” at all)(Carr,2003, pp.54-55)。

这类质疑很容易占据道德制高点，具有很强的鼓动性，在教育研究领域有很深厚的存在土壤。中国的教育学者对这类观点也相对比较熟悉，也很容易、很喜欢用类似的逻辑与语言来反对教育实证研究。但在笔者看来，在几种有关教育实证研究的质疑中，这部分质疑事实上是最为无力的。D. C. Phillips提的几个问题就很清晰地回应了这些质疑(Phillips, 2005)：是不是有很多原来被认为是有价值的、有利的举措，后来都被证明是无效甚至是有害的？没有大量的实证研究，我们怎么知道哪些是真正有价值的？是不是经常存在这种情况，即同时有好几种不同的方案都认为是有价值的？如果是，那是不是需要通过实证研究才能检验、比较价值的大小，从而选出最优或次优的方案？

价值从来都是教育和教育研究中的一个不可或缺的东西，但事实和证据同样是不可或缺的。如果一定要在这两者之间做比较的话，与其让大部分研究者在争论价值，还不如让大部分研究者来争论证据。那些经常被批评为“眼中无人”的学科(如生物学、物理学、化学)，对人类福祉的贡献并不亚于或者说是大大地多于那些一直自我标榜为“人学”的学科。在笔者看来，推进教育实证研究，首先要摒弃的就是这种毫无根据的道德优越感。

最后说做不到。很多人认为教育行为是高度情境化的，而情境又是高度复杂的，同时有很多个作用因素，因此同一个行为主体在不同情境中的表现往往是不同的。教育学研究者所面临问题的复杂性，远远超出了物理学、化学等学科研究者可以忍受的范围。也因此，David C. Berliner认为，其实不应该有所谓的硬科学(hard science)和软科学(soft science)之分，只有困难科学(hard science)和容易科学(soft science)之分(Berliner, 2002)。所以，试图套用物理学、化学等这些“容易科学”的方法来研究教育学等“困难科学”，这完全是解决不了问题的，或者说是做不到的。

这确实是一个很有力的质疑。显然，如果真的不能提取出一些跨情境适用的规律，那么所谓的科学知识就是不可能的，实证研究战略就不可能有出路。而且，就目前的情况来看，教育领域能归纳和提取出一些跨情境稳定性的规律，即使不能说完全没有，也确实很少。

但困难并不意味着就不可能。教育学确实不会是一门“容易科学”，这只能说明，我们需要有更长时间的知识积累才能让公众感受到学科知识进步及其带来的好处。在这些方面我们也有样例可循。相比物理、化学等科目，生态学当年也遇到这个问题，那就是生态系统非常的复杂而且影响变量太多，以至于当时很多研究者也同样认为要在这么复杂的情况下确定科学规律几乎是不可能。但经过了生态学家100多年的持续知识积累，人类现在已经初步掌握了生态演变的很多可靠知识。再比如，经济学研究对象的复杂性也不会亚于教育学，但经过几百年的持续的科学化运动(主要是通过量化和实证)，经济学已经进入了诺贝尔评奖学科。而且在所有现代社会，重要的经济政策不咨询经济学家的意见，这几乎是不可想象的。所以，困难和复杂并不是一个充分理由。

美国国家研究理事会认为，由于教育的高度情景化特征，我们确实不能把一个情境中的发现简单地推演到另外一个情境，这几乎是不可能做到的。我们要改变研究思维，那就是把研究重点放在关系结构的刻画上，比如在甲这个情境中出现了 A 这种现象，我们不能把A 这种现象推演到乙这个情境中。而是要重点研究为什么在甲的这种情境中会出现 A 这种行为，而乙的情境中没有出现 A 这种行为。“解释差异是科学研究的核心目的”，复杂多样的情境事实上是教育科学研究的一个优势(National Research Council, 2005, pp.105-106)，它让我们有更多的机会去构建、检验各种理论假设。只有这样，我们才能慢慢地积累起科学知识。

D. C. Phillips也从另外一个角度为这方面的质疑做了回应。他说，在个体层面，由于影响变量太多，可能做这种跨情境的归纳是难以做到的，但如果研究者把抽象层级放高一点，从小组、群体或者系统层面来研究教育规律，则完全是可能的。他以物理学的例子来论证这点，认为在亚原子层面，运动逻辑几乎也是没有规律的(也因此有测不准定律)，但并不意味着分子乃至更高的层面(如我们所能经验到的世界)也难以提取出客观规律。

四、余言：我们怎么办？

心理学有“知觉具有选择性”和“认知协调”理论，说的是人们一般都喜欢关注和注意符合自己心理预期的事物，而会有意无意地忽略那些自身不关注或者会引起自身认知失调的事情。我国教育学者对教育实证研究的态度大致就是如此。连非洲某个国家或者欧洲某个小学的师资情况都有不少人去研究的今天，我们对美国近些年发起的如此大规模的重大战略改革却知之甚少，也未见重要讨论。其实，更多的可能是不愿意去知道。

我们这样做也是有理由的。因为，相比美国同行，我们教育学者的情况要好很多。我们没有研究经费剧减的窘迫，相反我们的研究经费还在大幅度上升。虽然决策者也已开始表现出各种不信任，但教育学者对政策和实践的影响力依然很大(至少相比国外同行)，国家重要的教育政策文件几乎都会咨询教育学者的意见。跟国外教育学院教授往往是经济收入最小的那群教授不一样，中国教育学院的教授因为各种各样的机会，他们的收入与其他学院的同事相比并不落下风(至少相比其他人文社科学院教授)。再者，我们也没多少比例的学者从事过严格的教育实证研究。

但我们应该知道的是，当前我国教育学者所享有的这些“福利”，其实都是在现有教育管理制度的“庇护”下而来的。一旦我国公众也开始强烈地要求重要的教育决策和支出必须有坚实的科学依据时，我们所拥有的所有繁荣和自信都会立刻消失殆尽。不走实证研究之路，教育学科就很难有知识积累和进步，我们对教育的认识就很难高出常识多少，我们这群教育学者就永远不具有不可替代性。

1783年，瓦特的学生默多克造出了第一台用蒸汽机作动力的车子，笨重、不实用、比马车跑得还慢，几十年都没人用它。当时很多人对花这么多金钱精力去制造这么一个无用的东西，觉得非常难以理解。但事实证明，只要方向对了，无论起点多么的低，其发展速度都是很惊人的。今天，科学家已经能造出时速600公里的火车了，但马车的速度仍然跟1783年差不多。

笔者一直担心的是，会不会在别人都开始研究火车制造的时候，我们还整天研制丹药让马车跑得更快，并时不时地晒晒自己的马车跑得比人家的火车还快呢？

胡惠闵,王小平. (2013). 国内学界对课业负担概念的理解:基于500篇代表性文献的文本分析.教育发展研究，(6)，18-24.

柯政.(2013). 公众对课业负担的理解: 基于2159份问卷调查结果. 教育发展研究，(6)，25-30.

劳伦斯·纽曼.(2007).社会研究方法(郝大海译).北京：中国人民大学出版社.

汤兆武,杨若翰.(2013). 从哪里看出学生课业负担过重——对课业负担测量的思考与建议.教育发展研究,(6),31-35.

托马斯·库恩.科学革命的结构(金吾伦、胡新和译). 北京：北京大学出版社.

Berliner, D.C. (2002). Educational Research: The Hardest Science of All.EducationalResearcher, 31(8)，18-20.

Carr, W. (2007).Educational Research as a Practical Science.InternationalJournalofResearchandMethodsinEducation, 30(3), 271-286.

Carr, W.(1997). Philosophy and Method in Educational Research.CambridgeJournalofEducation, 27(2), 203-209.

Carr. D. (2003).MakingSenseofEducation. London and New York: Routledge-Falmer.

Chu, D.(2013).TheScienceMyth:God,Society,theSelfandWhatWeWillNeverKnow. Winchester, UK: Iff Books.

Egan, K. (1983).EducationandPsychology. New York: Teachers College Press.

Feuer, M.J., Towne, L. & Shavelson, R.J. (2002).Scientific Culture and Educational Research.EducationalResearcher, 31(8), 4-14.

Hawking, S., Mlodinow, L. (2010).TheGrandDesign. New York: Bantam Books.

Johnson, B. & Christensen, L. (2008).EducationalResearch:Quantitative,Qualitative,andMixedApproaches. Los Angeles: Sage.

Kaestle, C.F.(1993). The Awful Reputation of Education Research.EducationalResearcher, 22(1), 23, 26-31.

Lather, P. (2004). This IS your Father’s Paradigm: Government Intrusion and the Case of Qualitative Research in Education.QualitativeInquiry, 10(1), 15-34.

National Research Council.(2002).ScientificResearchinEducation. Washington, D.C.: National Academy Press.

National Research Council.(2005).AdvancingScientificResearchinEducation. Washington, D.C.: National Academy Press.

Phillips, D.C. (2005). The Contested Nature of Empirical Educational Research (and Why Philosophy of Education Offers Little Help).JournalofPhilosophyofEducation, 39(4), 588-591.

Phillips, D.C.(2006). A Guide for the Perplexed: Scientific Educational Research, Methodology, and the Gold Versus Platinum Standards.EducationalResearchReview, 1(1)，15-26.

Young， M. & Lambert, D. (2014).KnowledgeandtheFutureSchool:CurriculumandSocialJustice. London:Bloomsbury.

(责任编辑童想文)

10.16382/j.cnki.1000-5560.2017.03.004