APP下载

中国离诺贝尔科技奖还有多远:来自跨国面板数据的启示

2014-09-14

关键词:科技奖诺奖诺贝尔

陈 强 李 晶

自改革开放以来,中国大陆的科研实力取得了长足的进步,但至今依然无缘全球科技界的最高奖项—诺贝尔奖。这一事实导致中国民众强烈的“诺贝尔奖情结”。有关“中国距离诺贝尔奖究竟有多远”之类的话题不时见诸报端。2008年1月,诺贝尔物理奖评选委员会委员Borje Johansson在复旦大学预言,中国将在2025年内首获诺奖。2010年10月,华裔诺奖得主杨振宁在硅谷清华论坛上预测,中国可能在20年内出现一位诺贝尔奖得主。2010年斯坦福大学校长约翰·汉尼诗在旧金山更是具体地断言,中国诺奖得主将会在近期回国的年轻学者中产生。而国家科技最高奖得主徐光宪院士于2009年也曾大胆预言,中国将在2060年成为诺奖大国、强国,与美国平分秋色。

由于以上种种预测较为主观,故本文试图利用跨国面板数据,较为客观地来做出预测。本文使用的预测变量为人口、人均GDP、人均高等教育年限、以及人均寿命,包括了全世界125个国家或地区、从1960年至2010年的非平衡面板数据。鉴于诺贝尔文学奖更多涉及价值观、审美标准及阅读爱好等方面,而和平奖更多牵扯到政治、人文因素,故本文中的诺贝尔奖特指科技奖和经济学奖两大类奖项。

本文的主要结论为,解释变量人口、人均GDP、人均高等教育年限与人均寿命均有显著的正效应。根据预测结果,中国获得诺贝尔科技奖的概率将从2011年的5%上升到2030年的35%;而获得诺贝尔经济学奖的概率将从2011年的8%上升到2030年的14%。

与本文相关的一个研究是,自从1989年以来,汤森路透(Thomson Reuter)通过研究学者文章的引用情况来预测可能获得诺贝尔奖的个人(citation laureates)①参见网页http://science.thomsonreuters.com/nobel/。,但并未从国家层面进行研究。在方法论与精神上,本文与近年来预测各国奥运奖牌数的系列文献有相通之处。Bernard and Busse(2004)②Bernard,A.and M.Busse,2004,“Who Wins the Olympic Games:Economic Resources and Medal Totals”,Review of Economics and Statistics,86(1),413417.通过Tobit模型,使用人口、人均GDP、东道主虚拟变量、前苏联与东欧虚拟变量,来解释各国占奥运奖牌总数的比例③由于此比例一定大于零,故使用Tobit模型。。Johnson and Ali(2004)④Johnson,D.and A.Ali,2004,“A Tale of Two Seasons:Participation and Success at the Summer and Winter Olympic Games,”Social Science Quarterly,85(4),974993.使用面板OLS进行了类似的估计,但被解释变量为各国的奖牌数而非比例。Bartneck and Rauterberg(2008)①Bartneck,C.and M.Rauterberg,2008,“The Asymmetry between Discoveries and Inventions in the Nobel Prize in Physics,”Technoetic Arts:A Journal of Speculative Research,6(1),7377.首次使用计数模型预测各国奥运奖牌数,并增加了解释变量。

本文其余部分的结构安排如下。第一部分为计量模型,第二部分介绍数据,第三部分汇报回归结果与预测,第四部分为对策分析及结论。

一、计量模型

虽然一国获得诺贝尔奖的个数为非负整数(0,1,2,……),但上限为12(共有物理、化学、生理学或医学、经济学四个奖项,每个奖项最多由3人分享),故并不完全适用计数模型。对于绝大多数国家而言,在某一年获得诺奖的个数要么为0、要么为1,极少能取值为2或更多,故将获得诺奖的个数简化为虚拟变量yit(=0,未获诺奖;=1,获得诺奖),并使用二值选择模型进行分析。由于面板Probit无法得到固定效应模型的一致估计,为了便于对混合回归、随机效应与固定效应模型进行比较,故本文使用面板Logit模型。

一个国家在某年获得诺奖的概率取决于若干年内该国的科研产出,而这些年内的科研产出又取决于若干年前的科研投入。基于数据的可获得性及长度,选择以下变量为解释变量:总人口(pop,人越多,则越多人可从事科研)、人均GDP(gdp,经济发展水平越高,则可投入的R&D越多)、人均高等教育年限(tertiary,研发取决于人力资本,而非普通劳动力)、平均寿命(longevity,诺奖仅颁给健在的学者)。记xit= (popitgdpittertiaryitlongevityit)′,则面板Logit模型可以写为,

其中,yit为是否获得诺奖,ui为个体效应,xit不含常数项,i表示国家,t表示年份,而p为滞后期数(包含科研投入转化为科研成果的滞后期、以及科研成果为诺奖委员会认可的滞后期)。在本研究中,取p=25年,以达到最佳的模型拟合效果(以样本内正确预测的比例来衡量)。对滞后期p的这一设定与常识相符,且与许多学者的认识一致,比如诺奖委员会成员Borje Johansson认为,取得诺奖需要2025年的努力;而汤森路透使用过去30年的论文引用情况来预测即将获诺奖的个人。本文的主要结果对于滞后期p的取值也不敏感。

由于选择了25年滞后期,使得解释变量的选择受到限制。比如,可能的解释变量还包括:R&D占GDP的比重(OECD提供了41个国家或地区,19812007年的年度数据)、每百万人口的科研人员数(世界银行提供了101个国家或地区,19962007年的年度数据);却由于时间维度过短而无法包括。由于解释变量人均GDP、人均寿命均与R&D比重、科研人员数有较强的正相关关系(相关系数介于0.50.7之间),故在一定程度上前二者可以视为后二者的代理变量(proxies)。而且,虽然遗漏变量可能导致估计系数不一致,但本文的目的主要是预测,并非估计因果关系。

由于诺贝尔奖牌个数有限,故一个国家获得诺奖的概率并不仅仅取决于该国科研投入的绝对量,更取决于它相对于世界各国科研投入的相对量。基于美国独一无二的科研强国与诺奖大国地位,以上所有解释变量均采用相对于美国的相对量。

对于方程(1)的估计,如果不存在个体效应,即对于任意i,都有ui=u-,则为面板混合回归模型。如果存在个体效应,且ui与所有解释变量xit均不相关,则为随机效应模型;如果ui与某个解释变量相关,则为固定效应模型。

对于随机效应模型,假设ui服从正态分布,进行最大似然估计,得到随机效应Logit估计量。在进行预测时,或令ui=0,或令ui=u-。显然,ui=0并不合理,故本文在使用方程(1)进行预测时,令ui=u-。当t≠s时,复合扰动项(ui+εit)的自相关系数为

如果ρ=0,则说明σu2=0,不存在个体随机效应。对于原假设H0:ρ=0,可进行似然比检验。

对于固定效应模型,由于个体效应ui与某个解释变量xit相关,故使用随机效应模型或混合回归将得到不一致的估计。可使用作为ui的充分统计量,并计算在给定情况下的条件似然函数,即条件最大似然估计法。所有=0(意味着y=…=y=0)或= Ti1iT(意味着yi1=…=yiT=1)的观测值并不包含待估参数β的信息,在进行固定效应的面板Logit估计时将损失这些观测值,导致样本容量减少。在本研究中,由于许多国家从未得过诺奖,即=0,故使用固定效应模型将损失很多样本容量。至于究竟使用固定效应还是随机效应模型,可进行豪斯曼检验。

二、数据说明

本文的研究对象为125个国家或地区、从1960年到2010年共51年数据组成的跨国非平衡面板,下面分别就变量的来源及处理进行说明。所有解释变量均采用相对于美国的相对量。

1.虚拟变量“是否获得诺奖”:一国获得诺贝尔奖牌数的原始数据来源于诺贝尔官网①参见http://nobelprize.org/nobel_prizes/。。科学家的国籍归属均按其获奖研究的完成所在地(而非国籍)来计算。由于科技奖和经济学奖的获奖规律可能不同,故对一国的获奖情况分两类进行统计,一类为科技奖(含化学、物理、生理医学),而另一类为经济学奖②如果将诺贝尔科技奖与经济学奖合在一起进行回归分析,则拟合效果不如将此两类奖项分别进行处理。另外,作为经济学家,显然也关心获得诺贝尔经济学奖的概率。。然后,再将获奖个数简化为两个虚拟变量,即是否获得科技奖(d_tech)与是否获得经济学奖(d_econ)。

2.人口指标pop和实际人均GDP指标gdp的原始数据来自于Penn World Table(PWT 6.3)。对于实际人均GDP,PWT 6.3除了提供传统的“rgdpl”指标外,还提供“rgdpl2”指标作为备选。Johnson et al(2009)③参见Johnson,S.,W.Larson,C.Papageorgiou and A.Subramanian,2009,“Is Newer Better?The Penn World Table Revisions and the Cross-Country Growth Literature,”NBER working paper,15455.发现,使用传统的“rgdpl”指标,会导致不同版本的Penn World Table之间的数据缺乏可比性与一致性,为此PWT 6.3推出改进版的“rgdpl2”指标。对于本文的结果而言,无论使用“rgdpl”还是“rgdpl2”,差别甚微。由于“rgdpl2”有更好的理论基础且拟合效果略好,故选择“rgdpl2”作为实际人均GDP的度量。

3.人均高等教育年限(tertiary,average year of tertiary schooling)的原始数据来源于最新的Barro and Lee(2010)④Barro,R.and J.Lee,2010,“A New Data Set of Educational Attainment in the World,19502010,”NBER working paper,15902.http://www.barrolee.com/.,包含19502010年每隔五年的数据,据此进行线性内插得到年度数据。Barro and Lee(2010)还提供了15岁以上与25岁以上的人均受教育总年限数据(average year of total schooling),但无论从理论还是实证出发,均不如人均高等教育年限更有解释力(绝大多数诺奖得主都受过高等教育)。

4.人均期望寿命(longevity)的原始数据来源于世界人均期望寿命网(World Life Expectancy)①网址为http://worldlifeexpectancy.com/history-of-life-expectancy.,包括19602009每隔十年的数据,据此进行线性内插得到年度数据。

我们还检验了是否存在“东道主效应”,即诺奖评奖委员会所在国瑞典可能偏向于本国的诺奖候选人。但引入瑞典国虚拟变量后,发现其极不显著,故认为不存在东道主效应,在解释变量中不再包括瑞典国虚拟变量。

整合以上所有数据,在样本中还剩下125个国家或地区、从1960年到2010年共51年的数据,组成一个跨国非平衡面板(每个国家数据的时间长度不同)。有关变量的统计特征参见表1。

表1 变量的基本统计特征

从表1可知,世界上多数国家在获得诺奖概率方面与美国的差距主要体现在人口总数(平均约为美国的10%)、人均高等教育年限(平均约为美国的20%)以及人均GDP(平均约为美国的30%),但在人均寿命方面差距不大(平均约为美国的80%)。

除人口外,中国的情况与上述平均水平接近。以2007年计,中国的人口是美国的4.4倍,人均GDP为美国的18%,人均高等教育年限为美国的16%,而人均寿命相当于美国的94%。显然,中国要在人均GDP与高等教育方面赶超美国,仍然任重而道远。

三、回归结果与预测

以诺贝尔科技奖为被解释变量的回归结果参见表2。表2第2列汇报了面板Logit混合回归的结果。其中,所有解释变量的系数估计值均为正,且在1%的水平上显著。整个方程的拟合优度也很好,准R2达到0.49,而正确预测的比例高达98.58%。

表2第3列汇报了面板Logit随机效应估计的结果,与混合回归的结果十分接近。所有解释变量的系数估计值全为正,且在1%的水平上显著。使用似然比检验对原假设H0:ρ=0进行检验,结果显示χ2(1)统计量为57.65,对应的p值为0.000,故强烈拒绝混合回归,认为存在个体效应,应使用随机效应模型。

考虑到美国是获得诺贝尔科技奖的大户,为了进行稳健性检验,将美国从样本中去掉,重新进行随机效应模型的估计,参见表2第4列。结果表明,尽管不包含美国的样本估计系数与全样本有所不同,但十分接近,而且所有变量依然在1%的水平上显著。

表2 诺贝尔科技奖的回归结果被解释变量:d_tech

表2第5列汇报了面板Logit固定效应估计的结果。由于许多国家从未获得诺贝尔科技奖=0),故损失了很多样本容量,该面板数据的横截面维度仅剩下12个国家,导致估计的准确性大大下降。除了人均高等教育年限(tertiary)尚在5%水平上显著外,其余三个解释变量均很不显著(p值超过40%),而且变量pop的符号竟然变为负数。整个方程也不在5%的水平上显著(p值为0.061)。豪斯曼检验表明,χ2(4)统计量仅为6.47,对应的p值为0.17,甚至无法在10%的显著性水平上拒绝随机效应的原假设,故接受随机效应模型,拒绝固定效应模型。

基于表2第3列的随机效应模型,可对中国获得诺贝尔科技奖的概率进行预测,结果见表3。

表3 中国获得诺贝尔科技奖的概率预测

从表3可知,在改革开放初期,中国获得诺贝尔科技奖的概率几乎为0。比如,1986年获科技奖的概率仅为6.07e10(小于十亿分之一)。随着改革开放的深入,中国的人均GDP及人均受教育年限相对于美国不断增长(见图1)。到了2011年,中国获得科技奖的概率已经达到5.1%(但仍为小概率事件)。进一步的外推预测表明,中国获得诺贝尔科技奖的概率在2030年可达到35%。

图1 中国的人均GDP与人均高等教育年限(相对于美国)

以诺贝尔经济学奖为被解释变量的回归结果参见表4。由于人均寿命变量(longevity)在此回归中很不显著,故略去。表4第2列汇报了面板Logit混合回归的结果。其中,所有解释变量的系数估计值均为正,人口与人均高等教育年限在1%的水平上显著,而人均GDP在5%的水平上显著。整个方程的拟合优度也很好,准R2达到0.55,而正确预测的比例高达99.59%。

表4第3列汇报了面板Logit随机效应估计的结果。在三个解释变量中,只有人口在1%的水平上显著,而其他两个变量均不显著。使用似然比检验对H0:ρ=0进行检验,结果显示p值为0.000,故强烈拒绝混合回归,认为存在个体效应,应使用随机效应模型。

由于美国也是获得诺贝尔经济学奖的大户,为了进行稳健性检验,将美国从样本中去掉,重新估计随机效应模型,参见表4第4列。结果表明,尽管不包含美国的样本估计系数与全样本仍比较接近,但所有变量均不显著。这说明,美国这个观测值对于随机效应的回归结果有一定影响。

表4 诺贝尔经济学奖的回归结果被解释变量:d_econ

表4第6列汇报了面板Logit固定效应估计的结果。由于许多国家从未获得诺贝尔经济学奖,故损失了很多样本容量,该面板数据的横截面维度仅剩下6个国家,导致估计的准确性大大下降。所有解释变量均很不显著,而且变量pop与tertiary的符号竟然变为负数。整个方程也不在5%的水平上显著。豪斯曼检验表明,χ2(3)统计量仅为0.16,对应的p值为0.98,故接受随机效应模型的原假设,拒绝固定效应模型。

基于表4第3列的随机效应模型,可对中国获得诺贝尔经济学奖的概率进行预测,结果见表5。

表5 中国获得诺贝尔经济学奖的概率预测

从表5可知,在改革开放初期,中国获得诺贝尔经济奖的概率虽然接近于0,但却显著地大于0。比如,1986年获经济学奖的概率仅为1.6%。到了2011年,中国获得经济学奖的概率已经达到8.2%。进一步的外推预测表明,中国获得诺贝尔经济学奖的概率在2030年可达到14%。与获得科技奖的概率相比,中国获得经济学奖的概率起点更高些,但此概率增长的速度却更慢。

四、对策分析及结论

从上面的分析可知,尽管中国获得诺奖的概率起步很低,但一直不断增长,日益远离小概率事件,而向大概率事件迈进。基于国民普遍的诺贝尔情结,中国应该采取怎样的对策来进一步提升获得诺奖的概率呢?当然,获得诺奖本身并不是目的,但在向诺奖靠拢的过程中,中国可以抓住这个契机成为科技大国。

从表2第3列随机效应模型可以看出,决定获得诺贝尔科技奖概率的四个解释变量,其作用大小不一,估计系数按大小排序分别为longevity (46.96),tertiary (6.92),pop (2.19),gdp (0.96)。其中,由于人均寿命在短期内很难大幅提高,故改善空间最大的因素为高等教育。一个国家受教育水平越高,其公民越有意识和能力去进行创新。以色列的崛起正好佐证了这一点。纵观战后以色列的发展历程,教育发挥了极其重要的作用。以色列并无广阔的空间,也没有良好的土地和充足的矿产资源,甚至没有和平稳定的国际国内环境。但它通过大力发展教育(人均高等教育年限已超过美国),培养了高素质的人才,掌握了先进的科学技术,所以最近几年才能在许多科技强国的夹击下屡次斩获诺贝尔奖。

当然,本文只是一个统计分析,其局限性也是明显的。比如,受限于数据的时间长度,我们没有包括“R&D占GDP比重”这个重要变量(尽管人均GDP与人均寿命可在一定程度上作为其代理变量)。相对于美国,尽管中国的R&D占GDP比重处于上升趋势(20世纪90年代下降或徘徊,2000年后稳步上升),但仍然仅相当于美国的一半(见表6),还有不少上升空间。

表6 中国R&D占GDP比重(相对于美国)

本研究的另一局限是,虽然考虑了高等教育的数量,但忽略了高等教育的质量;而中国大学的质量还无法与欧美发达国家同日而语。根据上海交通大学的全世界大学排名,中国最好的大学在世界上也排在100名之外,而且进入前500名的中国大学寥寥可数。因此,十分有必要认真贯彻国家十二五教育规划纲要,加大引进海外优秀人才的力度,增加教育投入,完善教育体制,切实提高教育质量。

另外,人口与人均GDP对于得奖概率的作用要小得多。而且,由于人口过多的副作用(资源压力、交通拥挤、环境污染等),中国一直在控制人口增长,人口绝对量将在未来几十年内达到高峰后下降。

对于诺贝尔经济学奖的决定因素,从表4第3列的随机效应模型可看出,只有人口因素具有显著效应,尽管人均GDP与人均高等教育年限的系数依然为正。考虑到印度以一个发展中国家的身份(人口大国、人均GDP与高等教育年限都很低)而获得过一次诺贝尔经济学奖,可能对回归结果有较大影响,故去掉印度后,重新进行随机效应估计,参见表4第5列。结果显示,如果样本中不包含印度,则人口变量的作用系数更小些,但仍在1%的水平上显著;而人均高等教育年限则变为在10%的水平上显著。这些结果可能意味着,由于经济学研究更多地依赖于人,而不受限于昂贵的实验条件,故获得诺贝尔经济学奖的概率更多地取决于人力资本(人口、人均高等教育年限),对于经济发展水平(人均GDP)的依赖性并不强。

根据以上分析,中国在未来获得诺贝尔奖的概率将稳步上升,逐渐告别小概率事件,向大概率事件迈进。但这毕竟只是统计分析的平均结果,综合了世界各国的共性,具有一定的局限性。中国何时才能够获得诺奖,从根本上取决于中国自身的特性,不可因以上预测而沾沾自喜,不思进取。中国科研体系仍存在许多致命弱点,比如高等教育质量低、科研投入不足、顶尖人才稀少、学术传统缺乏、创新精神不够等。唯有正视这些弱项,中国才能在未来赢得诺贝尔奖的同时,成为真正意义上的科技大国与强国。

猜你喜欢

科技奖诺奖诺贝尔
纺织科技奖见证行业飞跃
阿克苏诺贝尔
2019年度(第十八届)上海医学科技奖隆重颁奖
聚焦诺奖
残雪,为何能成诺奖热?
2019年诺贝尔颁奖
诺奖也征服不了的好莱坞
国家科技奖这五年
百年诺贝尔
屠呦呦获诺奖引发哪些思考