经验研究的过程：一个方法论角度的探讨*

2015-02-25赵泉吴要武

学术研究 2015年11期

赵泉　吴要武

经验研究的过程：一个方法论角度的探讨*

赵泉吴要武

经验研究是一个从提出问题到推导结论，再构建因果关系链条以证明研究结论成立的过程。它暗含着一个波普尔范式：假说—检验—证伪。以“科学上可识别”为选题原则，作者需要从现象精炼出特征化事实，在理论的指导下提出假说，寻找适用性数据，构建一个完整的因果关系链条，检验这个假说。最后，在一个规范的写作框架下，将这个研究过程展示出来。

经验分析波普尔范式可信性革命

2007年，Amy Finkelstein曾做过一个关于经验研究方法的讲座，开篇一句值得特别强调：“这些技巧，我希望当年也曾有人教过我”。①This is a semi-structured list of some tips Iwish someone had toldme….无论是Finkelstein的学术成就还是受教育经历，都使人无法怀疑，她接受了当今世界最优秀经济学家群体提供的完备训练。从MIT经济系历届毕业生所取得的卓越成就，2009—2012年连续获得四届克拉克奖，可见其教授们在训练研究生方面的强大实力。尽管如此，Finkelstein的语气，暗示MIT的教授们忽略了对研究过程和方法技巧的指导。

中国的研究生和青年学者，大多数没有像MIT那样的学习、研究和成长环境，也缺少训练有素的教授们组成的导师组进行完备的知识技能训练。如果连Finkelstein都认为给研究生讲解经验研究过程中的方法技巧是有价值的，那么，为了帮助中国的研究生和青年学者找到正确门径，对这个过程作专门的探究就是必要的。

探究经验研究过程的另一个诱因是看到很多大学的经济计量学教师，并不会做经验研究。其中，不少人教育背景为数量经济学、数学或统计学专业，他们会解数学题和统计学题——甚至很难的题，但却不知道解这些题有什么用。他们教学生做经验研究，是“瞎子领瞎子”。因此，中国的经验研究总体水平不高。即使在国内最优秀的经济学专业期刊上，对经济计量学的错误运用，也比比皆是。

如果没有良师指点，少数聪明颖悟之士，或许也能学会做规范的经验研究，但这个过程将是漫长的。因此，笔者想从经验研究的过程入手，尝试为研究生和青年学者寻找正确路径。揭示经验研究的过程，在一定意义上相当于“手把手地教人”做研究。写一篇规范的论文，与工程师建造一座桥梁，裁缝制作一件服装，具有类似性。本文会例示一些优秀的论文，剖析经验研究论文的产生过程，还要从方法论角度作探讨，使我们对经验研究过程的分析更具一般性。

经验研究不容易，因为它的研究对象是复杂的人类社会，“原因”常被各种混淆性因素所缠绕、遮盖。欲揭示真正的原因，不仅需要理论洞见，还需要掌握众多相关事实和专业方法。即使找到了事件真正的原因，还有各种复杂的技术难题要克服，很多不确定的因素要处理。有些问题可用数据来刻画，另一些问题却只能来自研究者的主观判断。当然，主观证据也要建立在理论和事实的基础上（DiNardo，Lee，2011）。［1］

一、模仿：倒立的影像

做经验研究是从模仿开始的，几乎没有例外。有经验的导师会选国际领先期刊上的论文，给研究生研读，训练他们掌握经验分析的方法：让研究生认真琢磨作者如何提出问题，如何分析研究对象面临的环境和制约因素，如何利用理论和约束条件构建假说，如何介绍数据，如何设定经验方程，如何处理内生性偏差，如何扩展模型和作稳健性检验等等。鼓励研究生比照这个思路与框架写出自己的论文来。那篇优秀论文作为模板，就立在那里。

通过模仿掌握研究方法是个共识，但大多数研究生并未学会做规范的经验研究。如果他们有锲而不舍的精神，坚持上5—10年，甚至更长，或许会找到正确的路径。但更可能的结果是，大多数人因挫折而放弃。“经济学不是科学”，“我与经济学无缘”，是一个轻松的借口。

难在哪里？当我们希望模仿一篇规范的经验研究论文时，除了要突破各种知识技能上的障碍，还有一个易被忽略的难点：那是一个“倒立的影像”——“原因—过程—结果”。文章本身并不显示真实的研究和写作过程，甚至误导了读者。真正的研究过程，却是相反的：

我提出了一个问题，接着，找到了答案，然后，还原事件发生的过程；再接着，我猜测事情发生的原因……。当我把一系列的因素都构建齐备后，通过写作过程，把这个“头下脚上”的影像翻转，在一个“规范的框架”里报告出来。

二、提出问题：科学上可识别

科学研究都始于一个客观事实。经济学也不例外，选题通常来自社会生活中的问题或历史事件。有经验的导师，会鼓励学生去现实生活中找问题（Davis，2001；Mankiw，2006）。［2］［3］

（一）选题原则：重要、新颖、科学上可识别

重要，是指问题的社会关注度。通常是现实生活中的重要事情。研究的问题过小，缺少社会关注度，哪怕作者自认为有趣，别人也会认为不值得研究，毕竟，一颗葡萄是难以与人分享的（Stigler，1988）。［4］有学者曾指出：在转型期的中国，“农民工的工作条件和收入”是一个比“脸蛋漂亮对工资的影响”更有价值的问题。

新颖，包括选题新和研究问题的切入点选得好。新颖的选题，不仅让作者感到有趣，也让读者感到有趣。但太阳下面无新事，对那些天天遇到的事情，大多数人会熟视无睹。一旦作者能从大家熟悉的事实，讲一个别致的故事，就会让人耳目一新。比如，女性地位是个老问题，无论发达国家还是发展中国家，都存在着争论，而性别比失衡，则是发展中国家面临的社会难题。钱楠筠将这两个因素结合起来，用中国市场上的茶叶价格波动来探讨女性收入和其社会地位的关系，并扩展到了性别比这个大问题上去（Qian，2008）。［5］就选题来说，是个成功的典范。

科学上可识别，意味着对问题的解释能够用经验证据检验。这个命题，你用某个大样本抽样数据可以检验它，别人使用其他的大样本数据，也同样能检验它，会得出一致或近似的结果。这体现了科学研究的可重复性，是客观性的一种经验表现。

可识别的另一层意义是把一个不清晰、不准确的表述精炼化，使之成为一个可以检验的科学命题。这个能力经由训练而获得，每个青年研究人员都必须练就这个能力。

（二）寻找答案

第一，从理论出发去“猜答案”。经济学之所以是科学，是因为他建立在“人性不变”这个准公理性假设的基础上——从阅读孔子、司马迁、修昔底德和普鲁塔克等人的著作，结合我们对自己的反思，对身边人的观察，可以相信，2500年以来，人性是稳定的，古今中外皆然。人性的稳定性，使人类社会有一种内在的和谐，因而是可以认识的。人是理性的，社会资源是有限的，寻求资源的有效配置，是任何国家和社群所关注的大事。以此为根基，经济学发展出一套完备的知识体系，理论能够给我们寻找正确的答案指出方向。

第二，直接去数据中“偷看答案”。经济学理论是我们解释世界的工具，但它本身仅仅是一套（空洞的）逻辑体系。要想解决问题，必须与问题发生的环境结合起来。这就需要学者熟悉研究对象，了解问题的来龙去脉，只有这样，才能重构事件发生的过程，找到事件发生的真正原因。学者应该在自己的研究对象上，成为真正的专家（List，2011）。［6］你运用理论推理时，可能忽视了环境的影响，但这个影响会体现在数据中。

在经验上，常常是先“猜出”或“偷看”了答案，才倒推出特征化事实（Stylized fact）。也可能会走相反的路径：先找到了特征化事实，然后顺推出事件的结果。因此，研究路径有两个：在理论的指导下，观察一个或多个可信的大样本数据；观察事件发生的过程和结果。

（三）特征化事实

理论为寻找正确的答案提供了方向，但能否发现正确的答案，则不一定。比如，工资水平提高后，人们会增加闲暇时间还是增加工作时间？这取决于每个代理人的效用评价：收入效应和替代效应这两个相反方向的力量谁占主导，是不能先验地判定的。不同的环境，有着不同的特征化事实，“修改了”真实的事件结果。

既然要对假说或推论的结果进行猜测，那么，可能猜对，也可能猜错。猜对了，接着要构建连接问题与结论的桥梁；猜错了，要重新思考为什么结果没有如理论推断那样，里面一定有原因。这个时候，不要轻易放弃。猜对了，你在讲一个合乎经济学逻辑的故事；猜错了，你可以讲一个同样合乎经济学逻辑但更加新颖的故事。这时的关键是弄清环境中有什么特征化事实没有被掌握，以至于你的模型里忽略了它。但一个可信的大样本数据却作证：它就在这里。

由于研究对象的复杂性，马歇尔告诫：经济学家要掌握尽可能多的事实。这些事实帮你修正理论预测的错误。要提醒一点：任何“现象”都“属于”事实，但只有用可信的大样本数据能检验出来的事实，才能称得上是特征化事实。需要借助抽象思维才能理解这个概念。

三、数据：找到答案

（一）数据产生过程（DGP）

洪永淼（2007）认为，经验分析有两个公理性假定：［7］（1）任何经济系统都可以看作是服从一定概率分布的随机过程；（2）任何经济现象（经济数据）都可以看作是这个随机数据生成的过程的实现。

以上论断并不易懂。我们从“自然实验”入手，更直观地介绍数据产生过程。作个场景模拟：“大自然”在做实验的时候，很少邀请你到现场观摩，更不会慷慨地一边向你演示一边为你解释：他做这个实验的目的，经历了怎样的过程，得到了什么样的结果。但实验结果会被记录在自然界或人类社会里。比如，人口控制政策的出台，导致1972年以后（城镇）独生子女的数量越来越多，在出生队列中的比例持续提高。虽然你没有亲自参观实验过程，但你看到这个结果（数据或事实），通过理论训练和分析事件发生时的社会经济状况，可以将事件发生过程重现在头脑中。

我们再回到洪永淼的论断上来。既然是随机的过程，那么，一个样本里包含的信息，既有确定性，也有随机性。没有一个样本能说，自己既“代表着客观事实”又做到了“准确区分”，但一个样本做不到的，用一组样本却可以做到：这组随机产生的样本，观测值越多，代表真实总体的能力也就越大。大样本代表“明天的太阳会升起”；观测值则允许“今天的风随意吹”。因此，在经验研究中，数据处于关键地位，因为它一头连接着形而上的理论——确定性，另一头连接着形而下的经验现象——随机性。如果数据产生过程是随机的，样本越大，越接近（理论上的）真实。

理论（假说）与数据之间是相互影响甚至是相互诱导的（Heckman，2015），［8］也就能理解数据的地位有多重要。作者在使用数据之前，要先对数据的适用性与可信性作评估。

（二）数据的适用性和可信性

当你从理论出发，结合研究对象面临的约束条件，刻画出一个故事轮廓了，接着，你需要寻找适用的数据，构建证据链条来检验它。这个链条应该与理论逻辑（故事）的方向相平行，在理论逻辑的每个“节点”，都要有数据结果来“与之对应”。两者之间当然可以调整，以相互适应，但最终能为同行接受的链条，应该是平行且有对应性的。

在寻找数据时，作者面临一个问题：本文的假说能用这套数据进行检验吗？作者需要去研究这个数据的结构，有哪些变量，如何定义的，与待检验假说是否有关，样本多大等等。

数据结构决定了模型设定。同样的命题，使用不同结构的数据都能得到检验，比如，研究工资变化的文献，有使用个人层面微观数据的，有使用城市（地区）层面汇总数据的；有用截面数据或混合截面数据的，也有用面板数据的。数据结构不仅决定了经验方程的设定，时间维度特征的有无，观测对象异质性的不同来源等，还意味着不同的内生性特征和处理手段。最受研究者欢迎的是以个人、家庭或公司为观测对象的微观数据，因为它有坚实的理论根基：经济学模型里必须有代理人。①参见哈佛经济学系微观经济学讲义，Econ 2010A，2013秋季学期，第一讲，主讲人：EdwadGlaeser。

数据的可信性，也是证据的可信性。由于大多数数据来自抽样调查，那么，样本应该能够代表总体。因此，要重视数据的产生过程。理论上的DGP是评估经验方程中的误差项是否符合高斯—马尔科夫条件，但经验上的DGP则是强调严格遵循科学抽样与调查的过程，处理好调查过程中的关键性细节，得到“最接近随机”的高质量数据——良好地代表了总体。思考与评估数据产生过程在理论与经验上的对应性，是研究者的一个重要技能。只有亲自参与过数据采集过程的学者，才容易理解与把握这种对应性，才敢说对数据的使用“双脚站在了磐石上”。②数据采集和整理是个苦活、累活，令人厌倦，却是一个学者不可或缺的多维度训练：养成细致准确的专业素养，也练就坚韧顽强的性格。

数据的可信性，可通过不同抽样调查数据的收敛性来评估。面对同一个社会总体，有几个学者都在做抽样调查数据，如果都遵循了同样的随机抽样过程，则不同数据的结果应该是一致的。不同来源的数据，起到了一个互证的作用。研究者应该“在数据上成为一个企业家”，经常搜集和关注不同来源、不同时期的数据结果，并且经常观察社会事实。不断比对，不断修正，才能在头脑中建立正确的影像——对社会状况的判断和认识。

当数据不支持假说时。可信的数据才能检验正确的假说并为之作证。当两者不一致时，作者就受到困扰：到底是假说错了，还是数据错了，还是两者都错了？假说错了，可以重新构建，如果数据错了，更可能绊倒作者。毕竟，假说来自头脑，而数据却是更严格的外在约束。

数据的有限性。在现实中，没有一个抽样调查真正做到了“随机性”，那么，每个数据都是有缺陷的，研究者应该清楚这个特征，扬长避短。比如，抽样调查数据的汇总结果，常常会偏离真实的结果，③用加权的办法能部分解决偏差，但加权的技术复杂且易被误用，故要慎用。但将抽样调查数据用于结构性分析，其偏差就会小得多。

有经验的调查者，通常会对数据做个评估，看自己的抽样数据偏差有多大，朝哪个方向偏。比如，谢宇等（2014）在评估CFPS的质量时，先找一个可信的数据作为基准——第六次人口普查数据，然后，将自己做的抽样调查数据与普查数据作比对，以判断偏差的方向和大小。［9］不做数据评估的人，必被数据所绊倒。

（三）数据的解读

数据自身并不会做因果分析。做因果分析的是研究者。他要把干预或事件发生的过程弄清楚，构建因果关系的链条和传递机制，展示给读者。读者会运用自己的理解力和判断力，决定是否接受这样的因果关系。在数据提供各种计算结果的同时，要辅以公认的经验事实——数据结果的经验内容。比如，历次人口普查数据都能看到：1959—1961年出生队列，有个急剧的下降。假如国外学者不了解中国当时发生“大饥荒”的事实，就可能作出其他的推测或解释：战争，瘟疫，或者干脆是数据错误。

数据结果和经验事实必须联系起来。你看到数据结果，要向有经验的学者请教：“Z老师，人口普查数据里，发现一个现象，当时，中国发生了什么事情？”Z老师会告诉你，那段时间，中国正在推行“晚稀少”生育政策，人口出生率下降，并不是始自1980年的独生子女政策，在1970年代初，就开始下降了。数据的背后是历史和事实。

（四）对大样本数据的偏好

“自变量要变”。在经济计量学教科书里，这是个公理性的假设。在经验上，它对应着“样本规模”和“变异程度”。从遵循“数据产生过程的客观性”原则看，小样本难题是无解的。无论研究者怎样创新估计方法，再抽样，模拟，等等，方法越复杂，越远离“客观性原则”。因此，什么样的估计方法都代替不了高质量的大样本数据。反过来则可以断言：时间序列方法在经验研究中，不是一个有前途的方法——样本小，内生性严重，很难得出可信的结论。

（五）数据的拷打

我们对“完美的证据”有着本能的渴望。然而，社会问题的复杂性，使我们很难找到“完美的证据”，或者说，根本就“没有完美的证据”。因此，几乎每个学者都有拷打数据的冲动：让数据提供我们需要的结果。

拷打数据的方式，形形色色，但都背离了研究的目标：创造（更接近真理的）新知识以增进我们对生活在其中的这个世界的理解（Stigler，1988）。［10］数据拷打的方法，常用的方法是加权。另一种拷打是模型误设，放一些坏控制变量，以获得主变量的统计显著。

不止一个学者遇到这样的诱惑：把不同产生过程的抽样调查数据混合到一块使用。这固然增大了样本，数据按照作者的需要“招供”，但这里的“样本”背后，没有“总体”。既没有内部有效性，也没有外部有效性。在科学法庭上，不接受拷打得来的证据，这是原则。

四、编织故事：步骤与证据链条

（一）编织故事的三个线索

1．问题—结果—过程。

现在，问题清楚了，也猜出了正确答案，如何报告研究结果呢？问题在认识之河的此岸，而答案却在彼岸。必须构建一个“桥梁”，把两个端点连接起来，读者才能看得懂和接受你的论证。这个“桥梁”，就是证据链条。

搭建证据链条要遵守规范的框架。需要数据和经验事实来充当“建桥材料”，还要有一套完备的知识技能，以组织、运用和剪裁这些材料，依照特定的框架结构展示证据。这个“桥梁”有两个链条：理论上的逻辑线条；经验上的证据链条。

从理论出发，加上中国的特征化事实，可以推论应该出现什么结果，这是“假说”。它在形而上的世界里。在形而下的经验层次上，假说会以什么方式表现出来？这是可以用经验证据检验的“推论”。形而上与形而下两个世界，在此有了对应性。这两个链条必须是一致的、平行的。两条线索就像“桥梁的钢筋”，将一块块的“材料”联结起来。经验研究论文必须有两条相互印证的线索，才有可信性。那一个个的桥墩（关键证据）如果不够坚固，文章就有硬伤。

2．问题—推论—结果。

不是所有的研究在提出问题后，接着就找到了答案，“桥梁”建设也不总是“从两头开始，向中间靠拢”。这种情况是常见的，从问题出发，不断自我追问：知道了这个事实，又能怎样呢？接着应该做什么呢？就像女孩子编辫子一般，不断地朝一个方向拓展故事链条，直到讲出一个完整的故事。

不少学者有这样的经历：开始动手写作了，但还不知道目的地在哪里。在一步步摸索前进中，找到了答案。“研究—思考—写作”，是个滚动前进的过程（McCloskey，2000）。［11］Goldin和Katz强调，至少重写十遍是真正的写作艺术。①参见Goldin and Katz（memo），“The Ten Most Important Rules ofWriting Your Job Market Paper”。“十遍”并不仅仅是打理文字，甄选材料，理顺逻辑，调整布局，还常常是修正结果甚至是重讲故事。文章写出来了，和最初的设想相比，已变得面目全非。要准备作这样的调整和修改。

3．现象—事实—假说。

我们观察到的是“现象”，既混乱又不稳定。要以经济学理论作指导，对这些经验材料进行梳理分析，运用奥卡姆剃刀，保留主干，砍掉枝节，才能从“现象”精炼出“事实”。事实相当于约束条件，与理论相结合，才能推演出假说来。②在经验研究中，是不能随意作假定的。任何假定，都必须得到可信的论证。我们将这个思维前进过程概括为“现象—事实—假说”。

假说的构建。就思维过程来说，是从复杂无序的经验层面跳跃到简洁优美的形而上层面。这很像飞机在跑道上滑跑、加速，然后，突然跃起并升入空中。在长长的跑道上，可以视为“现象”，而起飞的临界点，可以被视为“事实”。一般理论和特征化事实相结合产生“假说”那个瞬间，就相当于“跃起”。“假说”，则已经升入空中了。

（二）构建完整的证据链

1．证伪检验。

你编了一个故事，怎么能证明你这个故事是创造了更接近真理的新知识，而不是一个自圆其说的逻辑戏法呢？一个办法是做证伪检验，如果没有你所说的那样的原因或传递机制，就不会出现你所论证的结果。证伪检验的延伸，则是要证明其他竞争性假说不成立。

经济学说史上，最大的公案之一是人力资本学派和信号学派之争：双方的预测结果都朝着一个方向，然而，政策含义却是不同的。经验研究不接受“公说公有理，婆说婆有理”：条件一定，正确结果只有一个。如何把这个缠绕结给解开？Waldinger（2010）给出了一个精彩的检验：大学还是那所大学，学生还是最优秀的学生，但大师离开了，毕业生的质量显著下降了。［12］在一个自然实验框架下作证，人力资本假说得到支持。

2．剪裁与布局。

为了论证提出的假说，还需要各种相关的事实，作为主观的证据，只有把这些证据材料进行组织、整理、剪裁，纳入到一个合理的框架内，放在设定的逻辑链条上，才能构建出人们能理解的“认知桥梁”来。我们准备的材料或证据，既产生自头脑中的知识存量，也来自“研究—思考—写作”过程中的资料搜集，大多数是用不上的。要舍弃它们，并不容易，因为我们投入了心血，灌注了情感。我们希望把这些证据或材料，都用到文章中去。尤其是一些令我们洋洋自得的内容或“金句”，与作品的整体逻辑（或基调）并不吻合。对读者来说，那是阅读进程中一个讨厌的钩子（hook），必须剪掉它。重写，是最有效的剪裁手段，能让作者拉远距离，像个中立的旁观者，从思维的偏执中跳出来，客观评价材料在文章中的作用，是否保留。

3．数学工具。

有人声称，自己在模型中推导了多少步，才得出了正确的结果。这是一个误导。我们怀疑，没有一个经济学家真的会这样从事创造性工作。直觉和演绎思维在经验研究中起着重大作用，这才是找到正确答案的两个途径。

当我们发现正确答案后，可以把答案以数学的方法来准确表达出来。但数学既不是我们探索的动力，也不为我们的探索指明正确方向。可以断言，如果用数学推导可以找到正确的答案，那么，就不需要科学家的探索和研究了，买几台功能强大的计算机，就把他们全替代了。幸好这不是事实，科学家会不断地改进和利用工具，却不会成为工具的奴隶。

我们会从理论出发推论可能的结果。比如，通过把婚姻市场的结构变化与理性人假设结合起来，推演代理人选择的变化，得出女研究生“宁可在婚姻市场上剩下”的结论（吴要武、刘倩，2014）。［13］但我们是先看到了“女研究生在婚姻市场上剩下”这个“结果”，然后，去倒推“剩下”的原因。婚姻市场收益和劳动力市场收益的此消彼长（trade-off），从理论上能得到很好的解释，在生活中也能观察到这个经验事实。高等教育扩招后，女性占主导地位，却是一个新的特征化事实。美国和其他发达国家的高等教育群体中也有同样的性别特征。这样，就一步步找到了高等教育扩招为什么会导致“剩女”的原因。

始终要牢记的是，经验研究始于一个客观事实，结束于一个一般化的认识——另一个事实，而不是一串数学符号。①科学研究的起点是客观事实，一个理论的可信性也建立在“可以普遍推广的事实”的基础上。“从来没有一个真正有用的和深刻的理论果真是靠单纯的思辨去发现的”（参见“理论必须以经验事实为依据——1918年8月28日给贝索的信”，载于《爱因斯坦文集》第一卷，第180页，许良英等译）。经济学上的经验研究，其研究对象的客观性与物理学没有差异。当研究者不仅找到了正确答案，也找到了传递路径，甚至用形式逻辑将这个过程完整地刻画出来以后，才将形式逻辑转换成数理逻辑。孩子生出来了。那个名叫“数学”的阿姨，馈赠了一件华丽的外衣。数学本身是没有生命的，它装扮了生命。

科学探索中的想象力（直觉与演绎）——建立在训练的基础上，才是我们探索未知世界的真正工具。想象力找到了正确答案。当然，也不可轻看数学训练在经验研究中的作用：数学训练能让学者更加准确地刻画问题，帮助尖锐化思考，保持思维在逻辑上的一致性，减少出差错的机会。数学工具是一种大家共同接受的论证语言。

4．评估研究的可信性。

可信性是经验研究的灵魂。可信性不仅来自于科学的设计，还取决于关键性细节的处理。除了把因果关系的传递机制和路径说清楚，还要做到数量关系的准确区分，处理好内生性问题。证伪检验，通常是提供一个反证：本文所证明的相关是因果关系，如果没有本文所指出的这个传递机制，那么，两个变量之间就不再有相关性。稳健性检验：本文的因果关系不仅在逻辑上成立，在数量关系上还非常“结实”。敲上几锤子，故事链条的接口处都砸不破。

对估计偏差方向的判断，是可信性评估的另一个内容。由于数据不完美，技术有瑕疵，从样本中得到的结果到底有多可信？一个数据样本不能为自己的结果作证，但如果能找出偏差的方向，无疑是个有价值的信息：现有的估计数值，是朝某个方向偏斜的。

经济计量方法不是一个黑箱，各种回归分析也不是变戏法，因此，要避免欺诈的嫌疑（Leamer，1983）。［14］Stock（2010）曾经指出，今天的主流经济计量学教材显著不同于20年前，甚至不同于10年前。［15］可信性革命框架是今天经验研究的主流（Angrist and Pischke，2009、2010），［16］［17］要把因果关系的传递链条上的每一个重要环节，都清晰地展示给读者。

五、经验研究过程中的技法

（一）波普尔范式

一个规范的经验研究，需要用一套规范的话语体系来表达，在这个话语体系背后，隐含着一个特殊的范式——波普尔体系。看似简单的“假说—检验”，其实包含三个阶段的论证。第一步，要论证A（原因）导致了B（结果），这是假说；第二步要论证，如果A（原因）没有发生，则B（结果）就不会发生，这是证伪检验；第三步要排除竞争性假说或混淆性因素：其他非A因素（疑似原因），并不真是B的原因，必须排除。一个完整的论证过程才算完成。

波普尔范式也提醒了经验研究者，在检验假说时应抱持的正确态度：对结论留有余地，准备接受新的证据和检验。

（二）面对证据的不完美

由于人类社会的复杂性，经验研究几乎不可能获得完美的证据。限制通常来自经验层面，比如数据中缺少作者需要的变量、数据质量不高、找不到解决内生性的有效工具等。今天，随机受控实验方法受到研究者的青睐，但同样受到质疑：即使解决了内部有效性，外部有效性又受到怀疑。但经济学家通常相信，随机受控实验与自然实验可以起到相互补充的作用。前者在内部有效性上有说服力，后者则在外部有效性上可信（DiNardo and Lee，2011）。［18］如果两种方法得出的研究结果接近，则起到了互证作用，增强了可信性。这是一种最理想的状态。

即使国际领先期刊上那些最受人称道的论文，也很少有完美的证据。费曼曾无意中为经济学提供了一个有力的辩护：即使在物理学中，尚且缺少完美的证据，何况与人有关呢？如果证据过分完美，不可能是真实的。①参见《费曼手札：不休止的鼓声》，长沙：湖南科学技术出版社，2005年。这个论断是高度可信的。

再说，我们需要完美的证据吗？既然客观世界不存在这样完美的证据，无论我们主观上多么努力，都不可能得到完美的证据，那么，就要在某个地方做切割：接受一个达到某种“精度”的证据（Friedman，1953）。［19］

我们在估计教育回报率时，使用出生季度当工具变量，虽然这个工具的有效性是可信的，但结果本身却是一个“局部干预效应”：只有16周岁附近的人才受到影响（吴要武，2010）。［20］不能把教育回报率推演到初中以下和高中以上群体。以设计为基础的经验研究及其寻找的因果关系，常常是局部的（Local）（Cartwright，2007）。［21］但是，“能解释一部分总比不能解释好”（Stigler，1982）。［22］

没有完美的证据，应成为每个作者心里不容突破的底限。要时时提醒这个底限的存在：宁可接受不完美的证据，也绝不接受拷打得到的证据。

（三）再迈一步

当我们提出的假说，用可信的数据，依照规范的方法，严格检验以后，是不是故事就讲完了，可以对本文做总结和引申了呢？

不要停步。应在现有的约束条件下，继续努力，把自己的智识探索推进到尽头。很多人喜欢Duflo（2001）并把这篇文章当作模仿的对象。［23］这篇文章体现出一种积极进取精神：在别人认为研究已经完成的情况下，她再迈出去一步对印尼施行扩大教育项目的成本收益做个评估。这个评估是粗糙的，可信性有限。但我们仍然很喜欢。在科学的意义上，这是一个顽强的姿态：绝不向大自然冷酷的必然性屈服。

再迈一步，体现了学者智识探索上的精彩，后人因此超越了前人。迈出这“一步”，要花多少时间精力？笔者判断，大致相当于前面所有工作的总和。索尔仁尼琴借一个囚禁在古拉格群岛的工程师之口，将其称为“最后的一寸”：这不是为了完成，而是为了接近完美。①

（四）匠气

根据笔者的经验和对很多学者的观察，在学术攀登的道路上，存在一个若隐若现的“平台”：当我们经过很久的努力写出一篇规范的研究论文后，再接着写新的论文，会发现这些论文都在一个水平上，你想有新的突破，上升到更高的层次，但却做不到。

有经验的学者会提醒你：当心陷入“匠气”。观察欧美名校教授们的论文——哪怕是发表在最领先学术期刊上，似乎也都有一个平台——更高的平台。正因为如此，我们虽然相信今天的经济学家早就超越了亚当·斯密、马歇尔等前辈，但却想不起谁能有他们那样巨人般的身量。就像牛顿和爱因斯坦仍然是科学史上的两座高峰一般。

匠气是什么？我们猜想，作者丧失了自我追求和勤奋探究精神，不再因追求完美而削尖思维和深入挖掘，也就不再有创造性。对未知世界曾经充满激情的探索，蜕变为完成例行的公事或程序。

如何才能爬出“匠气”陷阱？我们不知道路径。但可以推测，逃出这个陷阱，需要长期的努力和探索。对每个已经会做经验研究的学者来说，攀升到更高的学术层次上，是你的决心、你的黑暗隧道、你的大马士革之路。除了信念和坚持，无人同行。

六、经验研究过程外的技法

（一）信念——在黑暗中独行

每个真正的学者，都有过这样的经历或正处于这样的过程中：一个人摸索在黑暗的隧道里，没有向导，没有伙伴，唯有自己的信念和直觉提供了一丝亮光，支撑着自己沿着似乎永无尽头的隧道走下去。不要惊奇，不要抱怨，因为这是探索者的工作状态。求仁得仁，你自己选择了这条最难走的路。

根据观察，中国学者会更多经历这种“黑暗”。因为他们中的大多数缺少严格训练，未曾掌握做经验研究的完备知识体系。这是不幸的。相当于让战士没有武器去战斗，没有鞋子去冲锋。大多数热爱科学研究的年轻人，因为看不到希望而最终选择了放弃。

也有很小一部分人，对真理有圣徒般的渴慕，把不幸转化为动力，把黑暗变成了忍耐，从挫折中学会了顽强，锻造出了坚韧，也终于掌握了做规范经验研究的知识技能。从长期看，信念是心中的一点烛光。在黑暗隧道里穿行时，这点烛光的有无，最终决定了成败。

（二）认识论的背后

探讨经验研究的过程，属于认识论范畴。在自然科学领域，牛顿之后，“大自然中有规律，我们可以揭示它”，成为科学家的信条。爱因斯坦又为这个信条背书。但在对人类社会的研究中，经济学家都无法回避这个问题：人类社会可以认识吗？这决定于“人类社会是否存在自然界里那种神秘的和谐”。

谢宇（2006）继承其导师奥提斯·邓肯的学术衣钵，不相信人类社会存在着物理学意义上的规律。［24］那么，他相信人类社会存在着不同于物理学但同样客观且可认识的规律吗？②人的本性是好逸恶劳的，这是经济学的基本假设。不可知论者，为拒绝“挑更重的担子”找到了一个不错的借口。从他的文章判断，他不相信存在这样的规律。既然没有规律存在，为什么还要去苦苦探索呢？他后来的所有论文，都是描述性的。

我们相信，人类社会也是有秩序的，它的运行同样能被我们的理性所理解。经济学家大都坚持斯蒂格勒和贝克尔所传递的信念：只有解释性理论，才有价值。那些描述性的理论，没有为我们认识世界提供什么有价值的工具。信念，就其本身来说，既不是个科学问题，也不是个哲学问题，而是个神学问题。可知论与不可知论，那个著名的“分岔路口”——任何学者都会遇到，③参见Frost著名的诗篇：The Road Not Taken。就出现在这里。这是一个需要作出断然抉择，却又不可论证的问题。

（三）尖锐化思考

达利有幅名画，一只尖刀刺穿了瞳孔。注意：这只尖刀是从内向外刺的，呈现在读者眼前的是露出的刀尖。像科学家一样，艺术家也在观察和解释这个世界，两者常常取得某种共识。我们对达利所表达意思的解读为：要尖锐化思考，这是观察复杂世界的有效方法。在看到这幅名画以前，我们也在课堂上教学生怎样做尖锐化：面对纷繁复杂的社会现象，从你的瞳仁里，探出一把手术刀来。

无论是问题的提出，还是逻辑链条的推演，证据链条的编织，都需要尖锐化思考。这起源于大家所熟知的事实：将现象转化为定义良好的事实和问题，必须不断地“削尖它”，不许有模糊的地方存在，我们才有思考、讨论和研究的起点。

与尖锐化思考相伴随的是不断深化自己的探索。

（四）好论文的标准

一个好的经验研究，不仅要满足前文提到的选题原则，还要让这个领域最领先的学者感到：这个研究创造了新知识，让我看世界的眼光与昨天不同了，在智识上，我又上了一个新台阶（Davis D.，2001）。［25］从直觉上，一篇好论文，会让读者眼前一亮，甚至会感到激动人心。虽然这是一种主观判断，却像阳光照在脸上，雨点滴在手上一般真实（McCloskey，2000）。［26］

好论文的标准可以概括为：重要的选题；严谨的论证；新颖的故事。

七、结语

为什么要做经验研究？为了创造更接近真理的新知识以增进我们对生活在其中的这个世界的理解。对中国青年学者来说，这个原则要强调一万遍！热爱真理和形而上的学问，并非中国经济学界的传统，更不要说爱因斯坦所推崇的献身科学探索的“宗教激情”。畏惧困难和贪恋功名利禄，是绝大多数人不学而能的。

再回到Amy Finkelstein不无抱怨的话题上。我们推猜，MIT的教授们并未秘技自私，也不缺少导师应有的细致和体贴，其实，这些方法和技巧，在耳濡目染中，已经教会了学生。2012年，Amy Finkelstein获得了克拉克奖，MIT的网页上一片欢腾。她提出的这个问题，不知道她是否已有了答案。有一个事实需要指出：笔者一直关注她的研究，却没有见到她再次谈方法论问题。

研读弗里德曼、斯蒂格勒和贝克尔等学者的文章可以看出，他们也很少触及方法论话题，比起他们更擅长的理论创造，毕竟，这属于另一个领域。这是我们善意的猜测。有一天，看恩斯特·马赫（2005）谈认识论：“自然科学家具有一种强烈的愿望，要彻底弄清楚他获得知识和扩展知识的进程，但他决不想成为或者只是被称为哲学家”。［27］像个冒失鬼，马赫扯开了遮掩真相的帷幕：科学家有一种理论和智识上的自负，不屑于撰写探讨哲学问题的文章。

笔者对方法论的思考与探索，持续了多年，此文写出后又有了新的认识：探究经验研究的过程并将其展示出来，对一个有创造力的学者来说，不仅是“为人作嫁”，且不为学术规则所鼓励（Moretti E.，2012）。［28］我们曾耗费了20多年寻找正确门径。看到一批批热爱科学探索的青年学子，眼里有神采，胸中有激情，最终却破灭了希望，黯然离去。再也不愿意那些“尚未离去者”，如此长期地摸索在黑暗中。中国没有MIT和芝加哥大学那样智力密集的学术环境，训练研究生和青年学者，必须另辟蹊径。

［1］［18］DiNardo John，David S.Lee，“Program Evaluation and Research Designs”，Chapter 5，Handbook of Labor Economics，vol.4A，Edited by OrleyAshenfelter and David Card，North Holland，2011.

［2］［25］Davis Donald，“Ph.D.Thesis，Where Do IStart？”，http://www.columbia.edu/～drd28/Thesis%20Research.pdf，2001.

［3］Mankiw Gregory，“Advice for Aspiring Economists”，Personal Blog，2006.

［4］［10］Stigler George，Memoirs of an Unregulated Economist，The University of Chicago Press，1988.

［5］Qian Nancy，“MissingWomen and the Price of Tea in China:the Effect of Sex-Specific Earnings on Sex Imbalance”，The Quarterly Journal of Economics，vol.123，no.3，2008，pp.1251-1285.

［6］List John，“Why Economists Should Conduct Field Experiments and 14 Tips for Pulling One Off”，The Journal of Economic Perspectives，vol.25，no.3，2011，pp.3-15.

［7］洪永淼：《计量经济学的地位、作用和局限》，《经济研究》2007年第5期。

［8］Heckman，J.，Gary Becker，“Model Economic Scientist”，IZA.Discussion Paper No.8827；Leamer，E.E.，“Let's Take the Con Outof Econometrics”，American Economic Review，vol.73，no.1，1983，pp.31-43.

［9］谢宇、胡婧炜、张春泥：《中国家庭追踪调查：理念与实践》，《社会》2014年第2期。

［11］［26］McCloskey Deirdre，EconomicalWriting，Second Edition，Waveland Press，2000.

［12］Waldinger Fabian，Quality Matters，“The Expulsion of Professors and the Consequences for PhD Student Outcomes in NaziGermany”，Journal of Political Economy，vol.118，no.4，2010，pp.787-831.

［13］吴要武、刘倩：《高校扩招对婚姻市场的影响：剩女？剩男？》，《经济学（季刊）》2014年第1期。

［14］Leamer，Edward，“Let’s Take the Con out of Econometrics”，American Economic Review，vol.73，no.1，1983，pp.31-43.

［15］Stock James，“The Other Transformation in Econometric Practice:Robust Tools for Inference”，The Journal of Economic Perspectives，vol.24，no.2，2010，pp.83-94.

［16］Angristand Pischke，Mostly Harm less Econometrics，Princeton University press，2009.

［17］Angrist and Pischke，“The Credibility Revolution in Empirical Economics:How Better Research Design is Taking the Con Outof Econometrics”，The Journal of Economic Perspectives，vol.24，no.2，2010，pp.3-30.

［19］Friedman Milton，The Methodology of Positive Economics，in The Philosophy of Economics，Edited by DanielM.Hausman，The third edition，Cambridge press，1966.

［20］吴要武：《寻找阿基米德的杠杆——出生季度是个弱工具变量吗？》，《经济学（季刊）》2010年第2期。

［21］Cartwright Nancy，Hunting Causes and Using Them:Approaches in Philosophy and Economics，Cambridge University Press，2007.

［22］Stigler George，Economistas a Preacher，and Other Essays，The University of Chicago Press，1982.

［23］Duflo Esther，“Schooling and Labor Market Consequences of School Construction in Indonesia:Evidence from an Unusual Policy Experiment”，The American Economic Review，vol.91，no.4，2001，pp.795-813.

［24］谢宇：《奥提斯·邓肯的学术成就：社会科学中用于定量推理的人口学方法》，《社会》2006年第3期。

［27］恩斯特·马赫：《认识与谬误》，北京：东方出版社，2005年。

［28］Moretti Enrico，The New Geography of Jobs，Mariner Books Houghton Mifflin Harcourt，2012.

责任编辑：张超

F011

1000-7326（2015）11-0074-11

*本文在南京财经大学召开的第二届香樟经济学会议（2015年5月15—17日）上得到参会者的建议与启发，朱玲教授、李亚楠和邓菁博士提出了重要修改建议，在此一并感谢！

赵泉，北京工商大学经济学院副教授（北京，100048）；吴要武，中国社会科学院人口与劳动经济研究所研究员、博士生导师（北京，100028）。