福利测度方法的研究述评
2009-10-12何强吕光明
何 强 吕光明
摘 要:文献中主要的福利测度方法可分为三类:基于国民经济核算体系及其扩展的单一指标测度方法;基于生活质量和社会发展的指数测度方法;基于生活满意度的测度方法。这些方法从不同角度展现了学术界测度福利的智慧。尽管它们在指标性质、权重分布、开发背景等方面存在一定差异,但彼此之间并没有绝对的优劣之分,也不能完全相互替代。从核算意义看,福利测度方法仍然有较大的完善空间。
关键词:福利;测度;核算
中图分类号:F222
文献标识码:A
文章编号:1000176X(2009)07003106
尽管人类社会长期以来一直没有停止过对提高福利水平的追求,但学术界从正式意义上对福利测度的规范研究最早只能追溯到1929年。80年来,福利测度方面的文献可谓汗牛充栋,这其中包括了James Tobin和Daniel Kahneman等多位诺贝尔经济学奖得主的重要工作,也包括Andrew Sharpe[1]、Nick Donovan et al.[2]和Stefan Bergheim[3]等分别从福利研究组织、福利及社会发展进程指标、GDP扩展等角度进行的相关研究。与它们不同的是,本文在充分吸纳最新研究成果的基础上,着重从测度方法论角度进行系统的评述,并将其分成三大类加以展开。
一、基于国民经济核算体系及其扩展的单一指标测度方法
这类方法的主要特点是:(1)都基于一个被广为接受的权威经济核算体系。虽然彼此之间有区别,但至少在构建指标时所用术语的内涵都是一致的。(2)都是以货币来计量的单指标,因此也就能直接与GDP数据进行比较。目前,该类方法主要包括以下四种指标。
1.以GNP或GDP为代表的传统宏观收入和生产指标
1929年,现代福利经济学创始人A.C. Pigou在其所著的《福利经济学》中,最早提出将国民收入与福利等价起来的思想[4]。1947年国民经济核算体系(System of National Accounts,简称SNA)问世后,以其核心指标——GNP或GDP为代表的宏观收入和生产指标被广泛地用作福利的替代指标,Pigou的思想得以在核算意义上真正实现。从理论上讲,这种指标替代做法有其内在逻辑。以GDP为例,它可以表示为最终消费、资本形成总额和净出口之和。如果假定福利只是消费的函数,那么最终消费这项就可以看做当前福利,后两项可以作为未来“或有”福利的替代指标,所以GDP就自然可以被近似地看做一个福利指标。
进入到20世纪50年代以后,人们逐渐注意到影响福利的因素不仅仅是经济因素,其他非市场性因素(比如收入分配、环境、不付酬的家务劳动等)也都对福利有着重要影响。而且,在GDP中一些用于应对自然灾害、污染等造成的支出,反倒意味着福利的下降。于是很多学者开始对这些总量指标进行各种各样的调整,或者干脆开发新的指标,福利测度方法研究也由此步入兴盛时期。
2.经济福利测度指标(MEW)
1972年,William Nordhaus和James Tobin尝试对以GDP(或GNP)为核心指标的国民经济核算体系用福利为目标进行全面调整,提出了经济福利测度指标(Measure of Economic Welfare,简称MEW)[5]。他们认为,福利是与消费而不是生产相关联的,因此以GNP为起点,首先应减去私人工具性支出、耐用品支出、私人健康和教育支出、城市生活中不愉快之处(如堵车、污染)等项,再加上耐用品资本服务、闲暇、非市场活动(如志愿服务)、政府消费和政府资本服务等项,最终得到的结果就是MEW。不难看出,它集中于测度经济意义上的福利。
学术界对MEW的批评主要集中在具体的加项或减项方面。有些学者认为,由于所有政府服务都只能被认为是中间产品,所以政府服务在MEW中不应做加项处理,而应做减项处理。有些学者认为,只能将直接提供给消费者或那些增加了资本存量的服务计入MEW[6]。MEW认为,预防性支出只是投入,而不是产出,对住户经济福利没有直接影响,即使在某些时候确实也能改善福利,但那也只是间接的,所以应当作为减项。但Abe Tarasofsky(1998)认为,一个地区预防支出越多,战争风险的可能越小,这对福利显然有着重要的影响,而且国家安全不仅提供保护经济制度所带来的福利,更重要的是会带来其他社会急需之物,所以应将其处理为加项。而且,MEW没有能够把住户部门中与政府预防性支出类似的支出排除在外,比如在防盗系统、保镖等方面的支出。此外,也有学者认为像闲暇、环境这类因素是不能进行价值测度的。
3.可持续经济福利指数(ISEW)
可持续经济福利指数(Index of Sustainable Economic Welfare,简称ISEW)最早由H. Daly和J. Cobb(1989)开发。它基于GNP,以私人消费支出为起点,然后从18个方面进行调整,以使其能更好地反映可持续经济福利的概念内涵。这18个方面的指标可以归为7组:收入不均等、非预防性公共支出、资本增长和国际头寸的净变化、对福利的非货币化贡献(如不付酬的家务劳动)、私人预防性支出、环境降级的成本和环境资本存量折旧。
ISEW和MEW都是假定消费越多,经济福利越高。在指标构造上,前者比后者多考虑了收入分配和更多的环境因素,但去掉了闲暇、私人工具性支出等因素,目的是突出“可持续性”。对ISEW在福利测度方面的批评主要集中在方法构造层次:(1)它试图既把自身定位为当前福利指标,也定位为可持续性指标,而这是矛盾的,因为影响当前福利的因素不总是会影响可持续性,反之亦然。(2)它给予研究者在福利指标选择和估值方法方面很大的选择自由,而且一些指标(如预防性支出)具有很强的区域效应,这降低了不同研究类别间实证结果的可比性。(3)它漏掉了人力资本因素,且没有注意到福利的测度是与收入的相对水平相关,而不是与收入的绝对水平相关。
4.真实发展指标(GPI)
1995年,著名的非营利组织——重定义发展(Redefining Progress)在ISEW基础上开发出真实发展指标(Genuine Progress Indicator,简称GPI)。与ISEW一样,GPI以私人消费支出作为起点,然后从收入不均等、社会环境成本和非市场生产等方面进行调整。不过,与ISEW相比,GPI中添加了志愿活动、原始森林资源损耗和闲暇指标。GPI 的重要创始人之一Clifford Cobb特别指出,编制GPI账户重要的目的之一是从短期账户的波动中提取一个显著的长期变化趋势,用以考察可持续发展状况。
由于GPI和 ISEW在指标构造上非常接近,很多文献都把两者放在一起进行评论,所以对ISEW在方法构造上的很多批评都适用于GPI,只是在批评的内容上有些换成了GPI中特有的组成部分。比如,在批评GPI指标选择武断性上,Lawn(2005)认为尽管GPI考虑了闲暇的成本,但没有考虑这种成本是否已经反映在住户和工人的行为决策之中。此外,GPI也没有对那些影响福利的因素给出客观解释。不过,由于GPI在核算方向上相对比较契合经济福利的内涵,其测度方法也比MEW等指标有更强的实践性,所以目前很多国家都编制了GPI账户,且其影响力有不断壮大之势。
二、基于生活质量和社会发展的指数测度方法
这类方法摈弃货币这种统一测度单位,主要使用综合指数指标来描述生活质量状况和社会发展过程。它包括以下六类代表性指数(以开发时间为序)。
1.加权的社会发展指数(WISP)
加权的社会发展指数(Weighted Index of Social Progress,简称WISP)的早期形式是社会发展指数(Index of Social Progress),它由宾夕法尼亚大学的Richard Estes于1974年提出。社会发展指数由46个社会经济指标综合而成,这些指标可以分成10组:教育、健康状况、妇女地位、预防性努力、经济、人口、地理、政治参与、文化多样性和福利努力。由于这些指标间的权重分布通过二阶段最大方差因子分析法来确定,所以,后来就依此将其改名为现在的WISP。
WISP的构造目的有二:一是观测“适度社会供给”能力的变化;二是测度区域在满足个体基本社会需求和物质需求的进展。然而,由于该指数使用了太多不同类型的指标,致使指数测度的整体意义不明确,降低了其实践意义和决策作用,也加大了指标数据采集和处理的困难。其实,设计福利指标就像绘制地图一样,与实际一样尺寸的地图并无太大意义。
2.物质生活质量指数(PQLI)和人类发展指数(HDI)
1979年,经济历史学家Morris D. M. 提出物质生活质量指数(Physical Quality of Life Index,简称PQLI)。PQLI是经济产出、预期寿命和教育水平三个指标的算术平均数,是现在比较著名的人类发展指数(HDI)的前身。自1990年起,联合国开发计划署开始采纳诺贝尔经济学奖获得者阿马蒂亚•森(Amartya Sen)“以人为本”的观点,在其发表的《人类发展报告》用一个综合指标——人类发展指数(HDI)反映人类生活质量。该指数由如下三个指标复合而成:反映卫生发展状况的出生时的预期寿命;反映教育发展水平的受教育机会,用成人识字率以及小学、中学和大学的综合毛入学率表示;反映富裕程度的用人均GDP。这三个方面对人类而言是最必要的和最基础的,其代表指标可以很好地反映人类生活质量。
在福利测度性能方面,Lucas(1988)认为人均GDP足以反映社会发展状况,没有必要再使用其他指标,因为虽然人均GDP和发展是不等同的,但它与度量发展的变量如平均寿命、受教育水平等存在非常强的正相关性。Peter van de Ven et al.(1999)认为,HDI的初衷其实并不是测度福利或幸福度,而是测度个体在社会发展中能拥有基本生活条件的权力水平。Rodrigo García–Verdú(2002)认为它缺乏一个好的理论基础,因而对其进行解释和比较是困难的。还有些学者认为它的三个组成部分的权重没有被合理设计,等等。这表明,尽管HDI是衡量人类发展水平的实用指标,但欲对人类福利变化做出更全面的判断,依然需要其他数据和深入分析作为补充。
3.社会健康指数(ISH)
1985年,Fordham University前社会政策革新机构提出社会健康指数(Index of Social Health,简称ISH),用以度量和追踪一个国家或地区的社会发展绩效。它把全社会的人口分成4组,并用16个社会经济指标分别度量(如表1所示)。对每年每个指标都从0到10进行打分,再将它们进行加权汇总即可得到相应年份的ISH数值。
ISH的最大特点是:由于少青中老四个年龄组在全世界各地都客观存在,而且大部分人都很可能会经历每个年龄组,所以该指数能对整个社会的福利提供一个全面的、直觉的度量,也很容易为公众所接受。不过,由于它只是用影响各年龄组的代表性问题来间接地表述社会福利,且指标覆盖面较窄,所以不能被认为是一个比较完整的福利指标。
4.生活质量指数(QLI)
生活质量指数(Quality of Life Index,简称QLI)由心理学家Ed Diener于1995年开发。他基于一个有关生活质量指标的通用集该集合包含45个变量,反映各种文化背景下都必须具备的三种人类生存条件:满足生物本性需求、协调人们的社会交往和保障各类人群的存活环境与福利需求。,编制出两类生活质量指数:一类称作初级生活质量指数,专用于发展中国家,包含
购买能力、凶杀案率、基本需求满足状况、自杀率、识字率、违背人权状况和森林砍伐状况等
7个变量;另一类称作高级生活质量指数,专用于发达国家,包含
人均医生数、储蓄率、人均收入、主观福利、高等教育入学率、收入不均等状况和环境公约数等
7个变量。在实证研究中,Diener还将两类指数加权编制了一个综合性的全球生活质量指数。
这种方法的优点是理论基础明确,指数的可比性好;缺点是不能进行发达国家与发展中国家间的对比,这也导致最后编制的全球生活质量指数并没有太大的意义。
5.经济福利指数(IEWB)
Lars Osberg和Andrew Sharpe(1998)[7]以Lars Osberg(1985)提出的框架为基础开发了经济福利指数(Index of Economic Well-Being,简称IEWB),详见表2所示。各指标间的权重可由使用者根据实际情况自行拟定两位创始人认为,权重的分配可以在公开的争论中变得更加合理。。目前,该指数在OECD国家有较大的影响力。不难看出,IEWB指数是一个纯粹的经济福利综合指标。其最大优点在于理论基础相对扎实,整体思路遵循了经典宏观经济学中对福利(或效用)的分析逻辑。特别地,它认为虽然保证长期平均收入持续增加很重要,但对个体来说,可能更关注其在繁荣中能够分享到的部分及其经济安全预期。IEWB指数在指标构造上首次公开把“经济安全”作为一个组分加进,也为它赢得不少赞誉。从权重上看,有些文献认为,IEWB指数的权重留给使用者自我决定,这种做法的后果比固定权重更糟糕。此外,该指数对指标数据的要求较高,更适合于发达国家。,这也可能是其在发展中国家分析中不太流行的一個重要原因。
6.幸福星球指数(HPI)和环境友好型幸福国家指数(ERHNI)
幸福星球指数(Happy Planet Index,简称HPI)由英国智库新经济基金会所开发他们还建立了一个专门的网站来介绍HPI的方法构成以及应用研究,其网址为:http://www.happyplanetindex.org。,是第一个把环境影响和福利结合起来测度人类生存环境性能的指数,其计算公式为:
HPI=生活满意度×预期寿命人均生态足迹=幸福生活年限人均生态足迹
其中,生活满意度的数据通过调研而得,人均生态足迹是每人拥有的具备生物生产力的土地数量。若某个国家或地区对应的HPI数值很大,就表明其公民能够在享受长寿及幸福生活的同时又不危害到环境。该基金会在2006年对178个国家进行的实证研究表明,幸福度与高消费及财富并没有必然的关联。
不过,Yew-Kwang Ng(2008)认为HPI没有考虑到环境破坏的负外部性,为此他开发出一个新的指数——环境友好型幸福国家指数(Environmentally Responsible Happy Nation Index,简称ERHNI)。ERHNI被定义为调整后的幸福生活年限和人均环境外部成本之差(两者采用统一的计量单位)。
从方法上看,HPI和ERHNI实际上暗含这样一个假定:对自己当前生活满意的人会更加关注自己的寿命和自然生存环境。但常识告诉我们,人们比较关注的重要福利因素绝对不仅仅是这两部分。而且,对当前自己生活满意的人一般已经考虑了部分自然环境因素。所以从福利测度角度讲,它们的理论基础和指标构造还需要完善。从实证研究上看,Stefan Bergheim(2006)认为,HPI过于强调环境因素,导致处于赤道附近国家的数据都偏高。
除了前面介绍的六种方法之外,其他还有一些类似的测度方法,比如由Christopher Sarlo在1990年开发的生活标准指数(ILS)它由八类指标等值加权而得:住户人均真实消费、住户人均真实收入、非贫困人口所占比例、家用设备、拥有中级学位或证书的人口比例、就业率、预期寿命和住户财富。。整体上看,这些方法都试图选择从某些侧面来度量福利,但因其影响力相对较小,这里不再赘述。
三、基于生活满意度(主观福利)的测度方法
前面两大类总体上都属于相对客观的测度方法,只不过某些方法中部分指标构造可能会涉及到设计者对福利内涵的主观判断。在传统的经济学家看来,像生活满意度测度这种基于个人主观感受的方法,是应该排除在正统的经济学研究方法之外的,因为经济学中有一个基本的假定:人们实际所做的比口头所说的更能反映其偏好。然而,随着生活满意度或主观福利测度数据的逐渐积累,该类研究日益蓬勃,有些还得到了诺贝尔经济学奖的肯定[8]。下面介绍五类代表性做法。
1.直接询问法
该方法通过直接询问一个代表性样本人群对自我生活的感受来测度福利。典型的做法就是让受访者回答一个“三选一”问题:综合考虑各种因素,你对自己的生活是非常满意,或是满意,或是不太满意?实践中,比较常见的还有“四选一”、“五选一”问题,甚至 “十选一”问题,如Inglehart et al.(2000)的全球价值调研。最后,将每个人的评价数据进行加权平均即可得到群体的福利测度值。
迄今为止,这类经验研究采用的几乎都是大样本。比如,全球性价值调研就横跨了80个国家,代表了全球80%的人口。这种做法的好处就是和成本相比,收益更大,还能得到全球大量国家不同时期的数据,而且方法简单易操作。
这种方法存在的主要缺陷有:(1)受访者的答案易受到问题的次序、措辞、等级的数量和心情等因素的影响。不过,这个问题是否会对研究者产生较大的负面影响要取决于数据使用的目的。通常,这类研究并不会比较个体间在绝对意义上的等级差异,更注重以此为基础甄别影响幸福程度的因素,这个目的下的研究通常不用假定自我报告的幸福度在基数意义上可测度,也不用假定个体之间的幸福度可比。(2)它不能直接给出受访者幸福或不幸福的原因,进而也不能为政府或个体决策提供具体的帮助。
2.经验取样法
经验取样法是通过搜集受访者在他们自然的环境条件和真实生活时间中的信息来实施的(Scollon et al., 2003)。代表性的样本人群每人都配备一个信号机或者便携式电脑,设计者随机地选择时间让受访者根据当时的感受立即回答一系列问题,并陈述当时感觉的强烈程度。然后,整合这些通过即时感受得到的数据,得出最终的福利测度结果。这种做法其实是借鉴了Edgeworth(1881)测度效用的思路。他建议使用特殊的计量仪来捕捉个体即时的感受,进而测度效用。到目前为止,该方法还没被用于大型的调研中,主要是因为它的成本要比直接询问法高出很多。
3.昨日重组法(DRM)
昨日重组法(Day Reconstruction Method,简称DRM)由以诺贝尔经济学奖得主Daniel Kahneman为首的研究团队于2004年開发。DRM要求受访者填写一个专门的调查表,首先把自身前一天的活动拆分成一系列的事件(episode),然后再将每个事件对自己的情绪影响按照积极的效应或消极的效应分别记录。最后,研究者分别从宏观和微观两方面将这些数据进行汇总。在应用方面,美国卫生与人文部从2004年末开始以该方法为基础构建一个国民福利账户来测度各年龄段的福利。
与直接询问法相比,DRM把答案限制在一个问题的做法,使受访者在回忆自己感受的时候不易出现偏差。同时,它还常用大样本统计数据来“修匀”个体对各个事件评价的差异,在方法论上更具科学性。不过,最终合成幸福度所选择的权重由设计者决定,它可能与受访者主观感觉有出入,进而会导致测度结果出现偏差。
4.U指数法
由于前面三种方法都不能保证测度中用到的等级能很好地转化成可用于个体之间进行比较的、基数意义上的数字,比如,回答“非常满意”对应的幸福度是否真的就是“不满意”的两倍?因此, Daniel Kahneman和Alan B.Krueger(2006)在DRM的基础上提出了U指数测度方法。U指数法中的“U”取自英文单词“unpleasant”,表示这样含义:个体每天感觉不快乐的时间段占全天的比例。U指数法的测度思路是:一般个体在大部分时间中的主要精神状态是积极向上的,所以一旦消极的感觉发生,就被认为是个重要事件。如果个体在某个事件发生的大部分时间中都觉得不快乐,那么该个体在整个事件中就被认为处于不快乐状态。显然,U指数法是从反面测度幸福度的,在实践中它常用作DRM测度结果的补充。
5.脑成像法
脑成像法(Brain Imaging Method)是通过扫描个体脑部的活动情况来完成的。它基于功能磁性共鸣成像原理,根据血液氧化对应的磁能变化来追踪血液的流向。感觉幸福的人,其脑部皮层活动的特征图会显示出特殊的性征:前额皮层的左边区域会比右边区域的活动性更强烈(Pugno, 2004)。这种不对称性还会进一步激化其行为,即使身体内部有应对流感疫苗的抗体(Urry et al., 2004)。需要指出的是,为提高这种生理学做法的有效性,应事先根据福利测度的目的进行校准。
四、三类福利测度方法的比较和评价
比较上述三类福利测度方法,可以发现:从指标性质上看,第一类方法使用的是相对客观的单一指标;第二类方法使用的是相对客观的复合指数指标;第三类方法使用的是相对主观的测度方法。从开发背景上看,有些偏向于知识驱动型,有些偏向于辩护(advocacy)驱动型。比如,MEW就属于知识驱动型,Tobin和Nordhaus当初开发它的目的就主要是想考察一下MEW和GDP的差距。相反,GPI则偏向于辩护驱动型,其开发者的目的是为了揭示GDP的缺陷以及促进环境测度研究。指标的类型会影响到用户对指标有用性的看法,以及对数据的信任程度。从权重分布上看,有些不涉及权重,有些是固定权重,有些是权重由用户自我决定,等等。自然地,对这些方法优劣性的宏观评价,可以转化成这样几个方面的对比:客观指标VS主观指标;单一指标VS综合指标;知识驱动型指标VS辩护驱动型指标;无权重VS固定权重VS用户自定义权重。从目前态势上看,上述方法都有一定的生存空间,大体上仍然是不相上下的态势部分内容的争论过程可参见Andrew Sharpe(1999)。,否则劣势一方的做法也不会被沿用到现在。
众所周知,所有的科学测度方法都存在偏差,因此,实践中使用者必须了解所应用方法固有的偏差,并在可能的条件下给予修正。然而,如何评价这些测度方法的偏差大小呢?著名的国际生活质量研究学会曾提出7条评判社会指标的权威标准:(1)应有明确的实践目的。(2)理论基础要坚实。(3)既能以单个指标来报告,也能细分到各个组成部分。(4)应基于时间序列数据,以便监督和控制。(5)指标及其组成部分应真实、可靠且敏感。(6)能有助于不同层次的决策和评价。(7)其他属性这条标准包含了8条更细的准则,但对福利测度指标来讲,有些不适合,有些过于严格,这里从略。。Andrew Sharpe(1999)使用前6条标准对MEW、GPI、IEWB、ISH和ILS进行了打分排序,结果显示IEWB得分最高,其后依次为ISH、MEW、GPI和ILS,详见表4(各指标在每个标准下的得分最高为4,最低为0)。可以看出,IEWB主要赢在理论基础和决策与评价实用性方面。当然,这并不意味着它可以完全取代其他指标。
此外,Andrew Sharpe(1999)、Nick Donovan et al.(2002)和Stefan Bergheim(2006)等对加拿大、美国、法国、德国等众多区域实证研究后发现,尽管这些代表性福利指数的构造都有一定程度的主观性,但其中大多数指数测度结果的变化趋势在每个區域上却很接近。这些福利测度结果的相对稳定性表明:虽然单个独立构造的指标反映的结果还不足以让人信服,但若将它们放在一起,却能给福利走势提供一个相对准确、可靠的描述,并得到传统社会经济研究不能提供的洞见。这是近些年来福利实证研究中为数不多的重要发现之一。
总的来看,尽管目前的福利测度方法从不同角度展现了学术界测度福利的智慧,但仍然有较大的完善空间。这也是当前全球最权威通用的国民经济核算体系一直对福利测度持保守态度的重要原因之一。在未来的发展方向上,笔者认为,要完善福利测度方法首先要完善福利概念本身。概念清楚地界定到哪里,方法就跟进到哪里。在此基础上,还要充分结合以人为本的发展观,加强非市场服务、环境和资本等方面的核算探索,促进经济学与社会学、心理学等学科的交叉研究,并以SNA作为基本数据生产框架,逐步推进福利测度研究的系统化和规范化。
参考文献:
[1] Andrew Sharpe.A Survey of Indicators of Economic and Social Well-being[EB/OL]. http://www.csls.ca/res_reports.asp,1999.
[2] Nick Donovan et al. Life Satisfaction:The State of Knowledge and Implications for Government[EB/OL].猆nited Kingdom Treasury Paper, 2002.
[3] Stefan Bergheim.Measure of Well-being:There is More to It than GDP[J/OL]. http://www.dbresearch.com,2006.
[4] A.C. Pigou.The Economics of Welfare[M].London:Macmillan,1929.
[5] William Nordhaus, James Tobin.Is Growth Obsolete?[A]. Economic Growth [C]. New York: Columbia University Press,1972.
[6] 曾志远,刘璐.GDP核算理论的修正与发展:一个综述与评价[A].新政治经济学评论[C].上海:上海人民出版社,2006.
[7] Lars Osberg, Andrew Sharpe.An Index of Economic Well-being for Canada[EB/OL].http://www.csls.ca,1998.
[8] Bruno S.Frey, Alois Stutzer.Should We Maximize National Happiness[EB/OL]. Discussion Paper for Conference on New Directions in the Study of Happiness,2006.