探索经济福利测度的可行性和必要性

2018-01-27邱东

统计与信息论坛 2018年7期

邱东

(北京师范大学国民核算研究院，北京 100875)

一、引言

对福利的测度，是经济学及其经济统计学的一个悠久传统。英国哲学家边沁(Jeremy Bentham)早在17世纪就创造性地编制“快乐指数”，德国“国势学派”及社会统计学派也特别关注社会福利。在“国民生产总值还是国民收入(GNP or NI)”论战中，美国经济学家、诺贝尔经济学奖得主库兹涅茨(Simon Kuznets)强调经济测度的重心在于社会福利。SNA核算范式确立之后，斯通(Stone)又设计了“社会与人口核算体系(SSDS)”。20世纪60年代自美国“社会指标运动”开始，福利测度更成为社会关注热点，各种测度指标涌现，各种测度方法争相流行。这个传统如此强大，以至于人们往往将福利测度视为天经地义。

2010年，Stiglitz、Sen和Fitoussi为首的“经济表现和社会进步测度委员会”发表报告(以下简称“SSF报告”，国外有的文献称之为“斯蒂格里茨报告”)，较为系统地梳理和总结了经济测度方法，福利测度(与GDP统计、可持续发展测度)成为其中三大内容之一[1]12-190。

然而，福利真的具备“可测度性”吗？种种流行的测度福利方法确实可行吗？其所依托的测度逻辑确实链接好了吗？甚至，为什么福利测度是必要的？至少，什么样的经济福利测度内容是必要的？它在什么成本约束下是必要的？无论是SSF报告，还是相关文献，对这些基本问题的系统讨论甚少。

本文基于SSF报告内容对福利测度提出质疑和批判，讨论经济福利的多元性及其对测度的可能障碍，作为测度方法展开的对象。剖析测度经济福利的三种理念：主观福利观、能力观和公平分配观，侧重于这些理念的方法论启示。揭示福利测度主要方法的可行性，包括问卷法、支付意愿法、样本代表性问题和合成指标法。

二、作为测度对象的多元福利

(一)测度对象的定义范围和格局

福利的外延不易把握，SSF报告采用“经济福利”这个限制，并将其与“生活质量”等同使用。至于福利与经济福利究竟有什么区别，SSF报告语焉不详。SSF报告也没有使用“幸福测度”这种流行说法，这些审慎做法对我们的警示是，一旦涉及实地测度，就需要注意对经济福利内涵与外延的适度把握。

经济福利测度与“GDP统计”不同，不再将测度重心放在生产发展水平或经济表现，是经济测度从生产过程转向其目的之升华。福利测度与GDP统计既有区别，又有联系。

需要注意的是，SSF报告特别强调当下福利与未来福利的区别，即应该将生活质量测度与可持续发展测度加以区分[2]32-50。笔者认为，从测度可行性与数据质量角度看，这种区分是相当必要的。经济测度总会面临各种约束，将比较有把握的测度与把握不大的测度分开，是对数据用户负责任的体现，也是对经济测度的一种敬畏。笔者提出一个区分：SSF报告的三大内容构成了经济测度的三个层级，对经济福利测度的认识，应该放在整个经济测度的大格局中来认识。

(二)生产测度与福利测度的区别

生产测度和福利测度存在区别，生产为了福利，但只是福利的来源之一。从测度角度分解，福利来源可以细分为四种：第一，本期本单位生产。第二，生产成果在不同时间段之间的转移，如公共服务的正外部性在各期发挥滞后影响，其中甚至应该包括各期成果的漏测部分。第三，生产成果的空间转移，一国至另一国的空间正外部性，当然也存在福利的空间负外部性转移。第四，自然资源、气候等自然禀赋对经济福利的作用。前三种经济福利均来自于生产，但其时间和空间范围不一致，导致测度特定时空的福利与生产测度之间的差异。第四种福利并非来自人类的生产活动，比如一个城市冬暖夏凉，可以节省空调设备及其运转的资源，转而可能用于满足其他福利需求。

福利的需求影响因素可以细分：第一，需求方的消费心理。个人消费习惯不同，存在悲观和乐观两种基本消费习惯，一种是追求最佳“现货”，每次都享受最好的；另一种是追求最佳预期，每次都有更好的在等待。第二，需求方原有的福利基础，客观的福利需求量在不同时期分布可以产生某种抵消效应，如果基础较好，短期福利差一些亦可忍受，此时供给如果减少不大会影响其福利水平。但若原来福利基础不好，经济状况再变得更差，或者福利水平长期无法改善，就难以忍受。第三，需求方不同空间比较所产生的满足感和不满足感。第四，文化、宗教、历史等影响。比如清教徒讲求节俭，某些极端节俭的教派甚至不用现代电器，过原始生活才真正幸福。

福利供给和需求的因素都可以且应该细分，两方面的不同因素再组合，又产生多轮次的交叉作用。这些都使福利测度和生产测度产生较大区别。

(三)多元福利与有限测度

福利多元，但测度资源有限，只能选取部分内容加以反映，无论选取哪部分都将是一种偏执。偏执的福利测度会成为一种信息诱惑，让人们产生“媚上心理”和从众心理。诱惑在客观上会干预民众的幸福取向，破坏福利的多元格局，这其实是文化专制的一种。欧美有人推崇不丹的“国民幸福总值”，不丹的幸福是物质困苦型的，以追求来世的宗教为依托，这样的福利测度究竟有何正面意义？时至今日，还有不丹人自己也不愿意完全用国民幸福总值(GNH)取代GDP。

经济福利的跨文化比较未必完全可行。不同文化，对安静和热闹的喜好不同。发达国家讲究寂静，用公德(日本人在公交车上不宜使用手机通话)、法律、技术等方式创造低噪声环境。不同文化有着不同的饮食偏好和禁忌，中医在东方文化造福于人，西方很多人却认为拔罐子、刮痧、放血等是巫术。父母与子女的关系各国也有相当大差异，表现在可否打骂、供养到多大、结婚费用等方面。欧美把无法出门度假称为“糟糕的休闲”，但穷国的多数人没有这种奢望，放假往往是做“非日常家务”的时间，如果能够不干活，让身体真正休息，就非常满意了。可见，不同国家不同经济发展水平，对生活质量的要求和看法都不同，东方的福利增项可能成为西方的福利减项，无法用统一的标准去测度。

就福利测度的国际比较而言，不同经济发展阶段的国家对此类公共品的需求程度是否相同？一国经济测度究竟应该与该国经济水平相匹配，还是向国际标准看齐？这是一个现实问题，对欧美人来讲，二者近乎等价，但这能反映穷国的需求和能力吗？是否应该提出标准的经济福利测度要求？在什么样的发展水平上才可提出深化福利测度的要求？但如果对福利信息的要求不同，比如福利信息分类粗细不同，又如何构建可深入进行国际比较的综合指标？

(四)休闲可测度吗？

休闲是关乎生活质量如何的一个重要组成部分，OECD《理解国民账户》给出一个休闲的定义，即花费在与生产和个人照顾无关活动上的时间。其实这个说法不妥，细究起来，休闲与生产和个人照顾难以截然分开，就是与无酬家务也纠缠不清，即使没有直接关系，也可以有间接关系。正是休闲的这个特性造成了测度困局，无论是休闲的数量还是质量都难以给出确切的测度结果。要测度，就要有相应标准，而休闲却因人、因事、因时、因空而异，人们往往无法制定统一的测度标准。

休闲与人的能力有关。能力强的人，工作时可有部分时间处于休闲状态。能力弱的人，下班后工作外的时间还需要加班。休闲、能力与工作管理方式可以相互作用，工作分为计件和计时两种。如果采用计时管理，能力强的人如果要保持工作节奏均衡，就得自觉降低劳动强度，劳动强度低到什么程度可以视为休闲呢？

休闲与人的精神状态相关。人与人不同，有的人不工作呆着难受。有的人很怕事，非工作时间心里还在担心工作的事，不能处于休闲应有的状态。

休闲与人的生活态度相关，如果能把工作和个人爱好合二为一，是工作又是休闲，无法判定究竟。好多市场工作都可以与闲暇相重合，比如画家、诗人、研究者等。灵感往往来自于闲暇过程，来自于自然现象的启发，来自于吃饭、喝茶等社会交往过程。智力工作者或许不加班，但是他们精神上从来不下班。人体基因“双螺旋模型”就是诞生在英国剑桥的“鹰酒吧(Eagle Bar)”，经济学的“拉弗曲线”也是在餐巾纸上画出来的。好多人羡慕大学老师职业，一年两个假期，然而很少人看到半夜仍亮着灯的书房，其实教师岗位的特点在于工作时间弹性大，休闲与工作难以区分。由于休闲容易与其他活动混淆，不能只看表面现象，还需深入考察区分。

休闲还可能是生产过程中必须的中间消耗。比如美国硅谷的高科技公司，大楼里专门设有休闲区，强制性地要求员工上班时间去休闲，可以用各种形式放松，否则脑力疲劳后工作效率更低。越是高科技工作，越是脑力劳动强度大的工作，越需要调节。高度紧张的脑力劳动要求员工每年定期休假，平日下班后需要从事文艺体育项目以放松神经。这样，休闲活动完全可以定性为生产过程付出的中间消耗，是个人为企业生产的付出。

休闲很可能跟“无酬家务”相混淆。某些活动究竟是休闲还是无酬家务，取决于个人的好恶。有的人以做饭为乐，有的人愿意逛商店，购物时就满足了此愿望。有的人愿意打电话，谈完正事儿就聊天。有的以上网为乐，有的以开车为乐。对这种家庭生活热情饱满的人而言，无酬家务就是休闲，福利测度的困难在于：究竟如何将时间分配给二者？

休闲还可能与“个人照顾(主要是吃喝睡)”相混淆。如果一个饭局两小时，其中多长时间算个人照顾？多长时间又算休闲？上床(go to bed)和入睡(go to sleep)通常是两回事儿，这段时间在床上躺着，是个人照顾？还是休闲？或者是工作？还是学习？取决于此时大脑在做什么。这段时间不仅状态难以归类，而且状态常常转来转去，无法固化界定。笔者将对测度休闲的质疑归结为以下三点：第一，休闲与人类其他活动有着太多的“亦此亦彼性”，无法满足统计分组“既不重复又不遗漏”的原则，无法判明个人每天究竟有多长时间用于休闲，其确切数量无法测度清楚。第二，休闲的质量也难以测度，不同的人，休闲无法统一估价，其“等值收入”也难以按一个标准计算。第三，可以为休闲计算出某些数据来，但是这种计算包含了太多的假设，随意性较大，结果似是而非，并不具有本应具备的社会经济内涵，不能真正减少社会认知中的不确定性，甚至可能误导民众的社会认知。

总之，休闲难以测度，而作为人类生活不可或缺的组成部分，休闲的不可测度性又将严重影响对生活质量的确切测度。

(五)不平等测度及其极大值提升对之影响

不平等的存在使社会总体生活质量的下降。不平等在经济福利中更为多元，不同类型的不平等各有其意义，不能用一种方法的测度。而且，各种不平等之间还可能相互强化，产生叠加效应，这就要求研究政策措施对其作用影响。

SSF报告强调了“多重劣势的累积效应”，比如，贫病交加所致的生活质量损失远远大于这两者分别造成的损失之和。与此相对应的，还应该注意到“多重优势的累积效应”，比如，既有颜值又有本事，比起只有颜值或本事，当然更容易在职场打开局面。两种情形合在一起就是众所周知的“马太效应”。所以研究不平等的时候，应该同时把握劣势和优势累积两方面。

需要特别注意的是，自然界存在着“红移现象”，各星球间的距离在扩大。笔者认为，在经济界也存在类似的现象，在经济规模及其相关指标上，也存在着极大值提升的趋势。极值单边扩大，导致被评价对象间的距离扩大，被评价事物的格局扩大。由于经济数量级的扩大，客观上不平等的程度一定会加大。因此，在不平等时序分析时，不同数量级的不平等水平存在不可比因素。同一不平等指标数值升高，不一定是不平等加剧，其中会有极大值提升的影响，计算相对数时，1% 差异所代表的绝对值不同，需要考虑其中的实际经济含义。不平等分析需剔除数量级变异的影响。由于极大值提升所带来的不平等程度扩大，将这种影响扣除之后，才是时空可比的不平等水平，即真正由于结构变化带来的不平等变化[3-4][5]337。SSF报告重视不平等问题，但没有认识到这一点。笔者认为，不平等分析时一定要充分考虑极大值扩大这个因素。

三、测度经济福利的三种理念

经济福利测度应该从哲学理念出发，哲学思考具有悠久的传统，关注什么赋予生活以质量。所以，应该采用哪种尺度来评估生活质量，取决于人们采用的哲学视角。SSF报告总结了经济福利测度的三种主要理念：主观福利观(the notion of subjective well-being，SWB)、能力观(the notion of capabilities)和公平分配观(the fair allocation approach)。

(一)主观福利观

在GDP统计中，价值指标方法主要是通过人们的交易行为来做评估，假定不同的交易选择显示出经济主体的偏好。部分经济学家以为只要观察人们的选择，就足以获得福利的信息，以为这些选择会符合一种标准的假设。SSF报告指出：这些年由心理学家和经济学家进行了相关专题研究，基于人们自述或福利体验的主观数据，侧重于人们的价值判断及其实际生活中的行为方式，凸显出经济学理论的标准假设与实际生活现象之间的巨大差异。

主观福利测度，一个重要功能是弥补“显示性偏好”信息的不足。将生活质量分为认知评价、正面感受、负面感受，采用问卷法，通过被调查者对相关问题的回答，观察其偏好和自我认定。

生活质量主观测度的一个特性是，人们对其自身状况的回答并没有明显的“客观对应项”。主观回答仅是被询问者所提供的心理状况和价值判断，这个特点使得测度的“可靠性”和“可理解性”打了折扣。相比而言，“感受到的通货膨胀率”和“实际的通货膨胀率”可以相互对应，个人感受到的与计算出来的指标数值可以互相印证。

快乐内省是指某人对自身幸福感和效用的主观度量。有研究证明，这种方法具有较为稳定的正确性和可靠性。信赖个体自身评判是一种传统哲学观点，所谓“鞋是不是舒服只有脚知道”，就强调了这个意思，但是主观福利测度也还存在许多问题，并不能完全取代其他方法。威尔金森教授指出：快乐体验与再意识(meta-awareness，或再察觉meta-conciousness)不同，按照贝姆的“自身感受理论”，人们倾向于从行为中推断出内心状态、态度和偏好，这种心理过程会带来很大的偏差，主要表现为错误归因[5]。SSF报告中也指出：个人回忆和判断失误，可能导致行为选择的系统误差。这种可能性反证了该哲学观点指导福利测度可能失灵，至少是部分失灵。故而可以质疑，主观福利观的机制基础并不十分牢固。

行为经济学中提出了“自我助益偏差”概念，其常见的例子是所谓的“好于平均”效应，人们往往认定自己是好于平均值的，至少应该如此[5]337。这样对自己的主观感受往往优于实际状况，而当受到现实的负面撞击后，远离预期所造成负面情绪也会更加严重。这两种可能都会造成主观福利测度与实际状况的偏离。还需要注意的是，主观福利测度强调正面感受和负面感受的区分，然而行为经济学将消极情绪看做一种保证机制，是一把双刃剑。这对主观福利测度带来的影响是，感受的正面负面的“一阶区分”意义不大，或者正负感受相互作用的每一轮(层次)都需要再区分。

主观选择基于记忆和价值判断。但有可能导致坏的选择，有的选择是无意识做出的，并未权衡各种替代的利和弊。这里需要注意“决策的时限问题”，选择和决策都受到时间约束，不管决策者是否准备好，有的决策必须在给定时间窗口之内做出。看似非理性的决策，如果加入时限因素后，很可能是理性的。

主观测度是一个传统工具，经济和社会中的许多特征是由人们对一组标准问题的回答来测度的。比如边沁计算“快乐指数”就需要了解人们的主观感觉。再看现代失业统计，问卷法发挥了重大作用。主要涉及“三个是否”：(1)在某个特定时期是否工作，(2)他们是否在积极寻找工作，(3)他们在近期是否处于可以开始工作的状态。还有“扩展问题”，比如说，在一个月内外出工作的时间是多少？只有一定时期内累计工作时间少于规定的小时数，才算失业。问题在于：当我们越来越倚重于主观测度时，对其中隐含的障碍就得更加小心了。

行为经济学、认知科学及其社会认知学近年来取得了较大进展，理论争议也不小，主观福利测度应该借鉴这些基础学科的经验和成果，作为经济测度方法论研究的一个重要方向。既然基础学科还在发展中，其所支撑的测度方法也就时时需要接受新的挑战。

(二)能力观和公平分配观

能力观与公平分配观，这两种测度观都特别重视人们生活的客观条件和拥有的机会，以之作为计算福利指标的基础。能力观方法和公平分配观方法都属于多指标综合评价，即将所选定的福利影响因素凝炼出一系列“构成指标”，再加以合成得到一个整体评判。那么，哪些因素应该被列入客观特征的单子？影响因素的选取既取决于评估目的，还取决于不同经济主体的价值判断。

既然选定福利影响因素也需要主观价值判断，那所选因素集合能不能反映客观现实？SSF报告认为，在实际操作中，不同国家和地区所考虑的大部分内容都相同，各种致力于测度福利所选择的特征也有很大程度的一致性。比如，强调社会组织方式对人们生活的影响。然而笔者以为，需深入思考这种“一致性”之源，一个不可忽视的基本事实是：福利测度规则的制定者、测度因素的选取者大多来自发达国家，测度方案是否包含他们的主观成分？只有各国测度者充分讨论，互相交叉多轮反馈，集中对各种福利影响因素的主观印象，才能真正收敛于客观性所在。SSF报告列示了8个影响生活质量的客观特征：健康、教育、个人活动、政治发言权和治理、社会关系、环境条件、人身不安全、经济不安全，并逐一阐释了其测度要义。

本研究认为，对这些因素的测度尚存在许多需要进一步思考的问题。比如：人类健康包含了多个不同的维度，已经有了数个测度健康的综合指数，但没有一种得到普遍认同，它们不可避免地取决于引发争议的伦理判断和不同病症被赋予的权重。无论中医还是西医，这种判断差异难以取得一致。问题在于，综合评价究竟能否在这一层级实现？如果答案是否定的，对更高层级的合成又意味着什么？

对健康测度也可以从不同角度进行拓展思考，比如设定场景A，若底层人口的健康质量提升 3%，而顶层人口的健康质量下降 1%，总人口的健康质量上升 1%，社会是否又能接受这一结果？而福利测度的现实是，质量评价往往由顶层人口的状况所主导。再设定场景分析B，生命长度和生命质量何者为先？生活质量测度若对此问题做综合考虑，标准应该如何确立？对安乐死到底如何判断？与现有测度指标如何协调？

欧美人通常看重民主政治，其实“政治发言权和治理”只是适度指标，其中隐含着一个悖境：若代理人可靠，民众不必过多参与，反之若政治本质上有问题时，人们容易选择远离政治。欧美国家自认为民主化水平最高，但民众有时并不乐意行使其拥有的选举权，可见该指标数值未必越大越好。此外，是否应该注重比较相近经济水平的政治发展状况？

富国精英认为“社会关系”涵盖的内容很多，所以需要设计各种指标加以测度。但同时需要思考，不同文化、不同阶层的人，对“独处”和社会关系的需求及其评价大有不同[6]136。因而，这些社会关系指标未必越大越好，设计、计算和解读构成指标时都需要注意不同文化人群类别的差异。

测度“工作不安全”需要评估个人手中工作的安全程度。需要特别思考的是：如何区分“向上的不稳定”和“向下的不稳定”？因为职场的提升也表现为不稳定，但并非工作不安全，不稳定不等价于不安全。

不同国家、不同发展阶段人们的福利偏好不同，对不同特征的重视程度也不同。还要思考：8个方面特征是否全面？此外还有哪些领域需要关注？每方面特征在福利测度时需要注意哪些问题，应该发动各国测度者讨论，而不只是由欧美专家开药方，其他国家仅仅遵守执行，不应该忽视设计优化中的反馈机制。

四、测度经济福利主要方法剖析

基于不同的福利测度观念，可以相应地发展各种不同的福利测度方法，国外国内用于测度福利主要有两种基本方法(此处方法是从测度一般的意义上指称的，而主观福利观方法中的方法是从测度特殊的意义上指称的，含义、层次有别)，一是问卷法，主要测度主观福利。二是合成指标法，能力观和公平分配观都是采用此方法合成诸福利因素的影响。应该充分注意到，这两种基本测度方法，包括GDP校正法和生物技术法等，在测度逻辑上都存在种种缺陷，需要进一步修正，也需要数据使用者警觉。

(一)质疑问卷法

问卷法主要用于主观福利的测度，也可为“能力观方法”和“公平分配观方法”提供补充信息。有一些信息是收入等指标无法传递的。比如在发达国家，幼儿和老人对生活的评价高于正当壮年的人，这与相应年龄段人的收入水平形成鲜明对照。然而并不是收入越高的人越幸福对生活的评价越好。此外，不同的人对上班、通勤、社交和婚姻等社会事务的看法不同，传递的信息也不同。

然而，问卷法用于经济福利测度也存在限制和风险，主要表现在以下三个方面：

1.问卷法对回复者认知能力的要求

并非所有人都具有认知生活质量的能力，问卷只能发给具有正常自觉意识的成年人，而非精神病人，但如何区分精神病人和神经不太正常的人？现代社会压力这么大，抑郁症人群比重很大。不管穷国富国，精神上存在障碍的人不少那么，障碍到什么程度应该取消回答问卷的资格？如何在正常人和精神病人之间完成“被调查资格”的确认和转换？最典型的是所谓“自闭症患者”，只因为他们不与外界交流，社会就视其为不正常。然而谁敢断言他们不幸福？从其中的绘画、音乐天才可知，他们的精神生活可能非常丰富，或许是幸福地孤独，没人能进入他们的世界，怎么能妄下结论？

还有未成年人和老年人，占比相当大的人口群体，需要多大年纪才具备(取消)他们回答问卷的资格？也需要关注。

进一步看，在具备了“自我陈述”资格的人士中，又有多少人能对自己的福利做出恰当的判断？2015年经济学诺奖得主安格斯·迪顿(A Deaton)指出，在关于生活总体评价的调查中，人们经常不能确定问卷中的问题是什么意思，也不知道自己需要做出怎样的回答[7]335。迪顿教授本人在世界银行工作过，他促成了生活标准测度调查。就这类调查而言，迪顿教授无论在理论还是实践上都是专家，所以他的评价或告诫语重心长。现在很多的评估和测度，远谈不上完美。国与国的比较结果也会因为各国受访者回答风格的差异而受到影响。在使用此类调查数据时，应当注意这些问题。

人的感觉(敏感度)区分能力存在差异，如何确定选项的数量级别？是好中差三级，还是五级乃至七级？对敏感者而言，级别少不能达到确切程度，对钝感者而言，级别多难以定位。如果用一个分级标准套裁不同敏感度的人，则会影响测度的可靠性。所以，问卷法还需要假定：回复者的认知能力相同或其能力呈正态分布，差异可抵消。

2.问卷法面临的道德风险

采信问卷法的数据结果，需要假定：回复者都会按其识别能力发挥，如实回答。然而即便本人能对自身的福利状况做出准确的判断，为什么一定要如实报告？现实场景是，正因为回复者具有自觉意识，才能利用回复问卷为自己谋利，这里不可忽视索罗斯所强调的社会现象中的“自反性(reflexivity)”。如果自我陈述渗入功利因素，平民想从政府和社会得到更多从而假装不幸福，或者害怕陈述后受压制而假装幸福，问卷结果就可能将我们引入歧途。如何剔除这种“伪陈述”或陈述中的种种干扰因素？这是问卷法面临的重大博弈之一，调查者需要把握：回复者是不是如实回答？如实回答的比重多大？能不能支撑研究结论？迪顿教授指出很多经济学家和哲学家对自我陈述型评估的可靠性和有效性保留态度，因为我们并不总能了解人们在回答问题时到底在想些什么[7]22。

3.问卷法对测度者的素质要求非常高

不仅问卷设计质量对调查结果影响非常大，而且不同地区的问卷设计质量还应该大致相当，否则其测度结果的可比性就无法保证，可能误导结果的分析结论。威尔金森教授在《行为经济学》中指出，快乐内省可能由情境因素引导，研究显示，人们事先被询问的问题会强烈影响他们对快乐体验的评价，这种效应被称为锚定效应。如何避免这种锚定效应，是问卷设计区别于客观指标记录的困难之处，需要特别注意。

(二)支付意愿法

支付意愿法是主观福利调查中的常用方法，“你愿意为某项选择付多少钱”将人们的主观福利偏好用支付意愿表现出来，用价值量计值并加总。然而笔者认为，支付意愿法存在三大局限：

第一是“现场效应”限制。人们通常是在构想的情形下给出自己的支付意愿，并没有身临其境，受到现场与非现场之间心理差异的影响，而且无法得知其影响究竟多大。

第二是“量级效应”限制，支付意愿问卷中设计的选择问题规模往往不大，由于心理调查对象的原因，相当部分是在大学生经济条件下就可以做出的决策。一般而言，决策问题的量级(规模)越大，具备该量级层次理性决策能力的人就越少，即可以做出理性选择的人就越少，答复的可靠性就越差。现实社会问题规模不一，支付意愿问卷难以准确涵盖人们的真实心理愿望。

第三是人群收入结构限制，对高收入者而言，“支付”的边际效用低，而达成某种“意愿”的边际效用高。反之，对低收入者而言，“支付”的边际效用高，而达成某种“意愿”的边际效用尚没有那么高。由此在加总处理后，问卷结果往往更多地反映高收入者的支付意愿，这是“数值平均方法”(如算术平均数、几何平均数和调和平均数)不可避免的结果。“位置平均方法”(如中位数和众数)可以避免这种偏差，但不易进行数学处理，分析时又面临“计算便利性”的限制。

如何减少这三大局限对问卷结果的不良影响，是采用支付意愿法应该充分注意到的关键。在解读支付意愿法所得数据的内涵时，需要注意这三个限制的影响。

(三)样本的代表性问题

抽样调查是经济统计的主要方法，在经济福利测度中，如何使用这种方法？原来对实物生产有效的抽样法，是否可以照搬挪用到福利测度？方法“能否”使用非常重要的一点即样本的代表性问题，笔者将其分解为两个方面：

第一，就报告者个体而言，报告时间的福利状况和情绪对其福利状况和情绪的代表性。个人不同时间的情绪不同，主观感受不同，喜怒哀乐无常，波动可能极大。SSF报告提出，个人感受最好是及时得到报告，从而在一定程度上可以减少因为记忆和社会压力而导致的偏差。然而回复者不可能时时刻刻都用来记录和报告，那么，问卷调查的频率究竟需要多高？样本时间的情绪能代表报告者的所有状态吗？

第二，报告者对全体对象的代表性。需要调查多少人才能得到整体的主观福利测度？整个人口包括不同的类型：成年人、未成年人和老年人，或者“宜回答问卷人口”和“不宜回答问卷人口”，被调查人口的主观福利陈述可以代表其他类型人口进而整个人口的主观福利吗？有一点是肯定的：我们无法代表所谓“自闭症患者”的主观福利自我评价。代表性偏差肯定存在，问题在于其大小，而且微观测度加总过程会将代表性偏差传导到宏观指标上，如何限制其可靠性损失？

由于测度资源与调查频率、样本量的反方向作用，使用“方便样本”在博弈中往往难以避免[8]64-120。如，“在 2010 年一项开创性研究中，约瑟夫·亨利希(Joseph Henrich)、史蒂夫·海涅(Steven J.Heine)和阿兰·洛兰蕯杨(Ara Norenzayan)三人针对心理学六大领域的顶尖科学期刊，系统性调查了所有发表的论文。研究结果发现，虽然论文常常声称人类的心智如何，但大多数的研究却只是以 WEIRD 群体的样本为基础。”WEIRD 群体就是西方的(Western)、受过教育的(Educated)、经过工业化洗礼的(Industrialized)、富裕的(Rich)、民主的(Democratic)这群人。他们研究的本应是人类的心智，实际上调查对象却局限于这个群体。六大领域当中的《人格与社会心理学期刊》，本是社会心理学这个心理学次领域最重要的期刊，其论文数据基础是这样的：96% 的抽样属于WEIRD群体，并且68% 都是美国人。此外，有67% 的美国参与者、80% 的非美国参与者是心理系的学生。心理系学生之所以参与这么多实验，是因为教授的要求[9]322。这些教授显然知道主观调查的方法论标准和要求，却采用方便样本进行数据分析，这典型地反证了主观调查的现实困难。

心理调查还存在着另一重大局限：无法剔除“自反性”影响。就算我们真的跑遍全球，研究每一个社群，仍然只能研究到智人心理频谱极有限的一段。现今所有人都受到现代性的影响，也都是地球村的成员[9]322。有个笑话说，在卡拉哈里沙漠，典型的狩猎采集队伍是20个猎人、20个采集者，再加上50个人类学家[9]322。心理学家讲究“体验式调查”，调查者跟被调查对象同吃同住同劳动，近距离观察社会现实。可被观察对象一共40个人，观察者却50个人，调查者的存在太强大了，被调查对象的行为完全可能已经有所改变。

可见，预先建立好经济测度的格局非常重要。所以，到底是实证还是虚证？如何保持经济测度者的职业操守？一则笑话讽刺中国记者在火车上做调查，询问乘客是否买到了春运车票，结果当然皆大欢喜，然而这种“调查”连起码的思维逻辑都成问题。涉及到主观调查的局限，那些美国社会心理学教授的错误在本质上竟然与中国记者相当。

(四)合成指标法的方法论质疑

能力观和公平分配观都需要以影响福利的各种客观因素作为构成指标，然后再计算合成指标，得出对总体经济福利的评价，像人类发展指数(HDI)和各种所谓幸福指数都属于此类。邱东指出了合成指标方法的两个主要缺陷[4]。

第一，诸构成指标间的相关性可能导致所使用信息的重叠，从而造成合成信息扭曲。构成指标需要与被评价事物相关，但各构成指标之间的相关性却应该尽可能小，这要求在经济现实中难以充分满足。另一方面，又存在基础信息不足的担忧。HDI在GNI之外，只选取了教育和健康两个代表性指标，前述影响生活质量客观因素中还有六方面特征没有考虑，而且没有考虑资源和环境因素，不是绿色的(曾有人提议构建“绿色HDI”)，三因素的综合究竟能否代表人类发展？构成指标的选取与基础信息采集究竟如何协调？“度”到底在哪里？

第二，合成指标存在“当量转换”问题。确定了合成公式，就确定了构成指标间一个固定的当量转换关系，以人类发展指数为例，说明数学可加性并不等于经济社会意义的可加性。SSF报告给出了合成处理的含义解释：把人均GDP的对数与预期寿命水平相加，等于是隐含地认为，美国人预期寿命增加一年的价值等于印度人相同增量的20倍。至于为何是这种数量等价关系，没有人从社会经济意义上给出说明。SSF报告还指出了合成指标方法的另外一个缺陷，即平均数对结构变化的掩盖。合成处理忽视了各福利影响因素之间的相关性，没有反映经济体内部的状态分布。即使实际结构变动，只要构成指标的平均数不变，合成结论也就不变。

笔者对这些缺陷的解读是：合成结果并不具备“遍历性”，即无法代表被评价事物变化所经历的各种时空状态，只是其多种可能结果当中的一种。合成是将被评价对象的部分状态认作被评价对象的全部状态。或者说，多种构成指标的分布结构即便相异，只要其平均数相同，都可以达成同一的综合评价结论。这样综合评价就没有减少所试图减少的不确定性，或者说综合评价数据结果并没有其应该具备的特定社会经济含义，在综合评价信息上仍然是不确定的。鉴此“非遍历性”，人们更不应该对综合评价结果做绝对的解读。

五、SSF报告福利测度部分的文本缺陷

(一)福利测度理念的缺限及发展

福利测度有四个大的缺失：第一，没有测度观念及其测度方法间关联的逻辑概括。每一种哲学理念之下有不同的测度方法，不同方法的测度机制不同。SSF报告这部分内容的论述过于宽泛。如，从能力观到HDI编制、从抽象到具象的过程测度逻辑如何贯穿？依据于此测度理念的计算方法是否唯一？其他方法是否也存在此种逻辑关系？其存在原因？诸方法之间的区别何在？在哪个环节相区别？本部分缺少“测度机制”的系统论述，而切实关注经济测度逻辑正是提升经济统计方法论的关键所在。

第二，SSF报告对福利测度方法的概括不够。SSF没有各种不同经济福利测度方法的列示和比较，这一点不如可持续发展测度的论述。

第三，SSF报告没有对改进建议的可行性分析和预算压力测试。SSF报告指出：福利测度并没有替代常规经济指标，却提供了丰富政策讨论、增进人们认知的机会。原来的福利测度不够，还需要追加五个方面：(1)将主观福利纳入统计调查；(2)测度各福利影响因素；(3)全面评估不平等；(4)评估各领域间联系；(5)为用户构建合成指数提供指标的数据平台。这些构成了专家委员会的改进建议。概括而言，SSF报告的问题解决之道就是“做加法”，这其中至少有以下问题需要注意：

首先，“做加法”的追加成本。以不同福利因素之间相互影响为例，比如健康、教育对就业、经济安全的影响，追加之难在于：常规调查中加入一个标准提问，它带来的成本增加在不同国家分别是多少？分类加细一层，调查费用增加多少？需要测度成本试算，比较测度的成本效益，做可行性分析。在经济福利测度的这五个方面中，人文关怀需要落地，社会能够用于测度的公共资源毕竟有限，不可能什么指标都加进来。

其次，未决问题的梳理。测度方法中还存在许多悬而未决的问题，笔者主张把这些问题尽可能列出来，理清解决不同问题的大致思路，学理上还值得探讨，这样才可能知道“加法”是否能做的。

再次，常规统计与专项调查的区别。作为经济统计的一个基本信条，小规模专项调查与官方统计常规调查在可行性上大有区别，起码二者的预算就相差非常大。在前者可行的，后者未必可行。

又次，不同经济发展水平对追加统计的承受力。发达国家能做的测度，发展中国家未必能做。将福利测度纳入常规统计需要什么条件？具备条件的国家有多少又有哪些？当下许多发展中国家连GDP统计都难以常规化，如何进一步开展经济福利测度？SSF报告认为，不仅在发展中国家有必要超越经济资源测度，而超越恰恰对于富有的工业化国家意义更为显著。福利测度的重心到底应该在哪里？SSF报告没有展开分析，需要跟踪关注。

SSF报告认为，最近的研究进展使得福利测度“创新而且可信”，其中有些测度结果能以可信的方式进行跨国比较，这个还有待于进一步论证。SSF报告宣称福利测度具备了从研究走向标准统计实践的潜质，但对这个重大结论并没有给出证明，就连较详细的说明也没有，实在令人担忧。

第四，价值指标方法在经济福利测度中的地位未能界定。物质生活水平主要通过收入来衡量，但金钱无法涵盖福利的其他方面。收入是人们评价生活状况时非常重要的标准，但并不唯一。不能说金钱就是幸福，也不能说金钱与幸福无关。对经济福利的非现金项目，可以采用“等值收入法”进行估算。由于经济福利本身的多元性，由于能力观不承认经济学理性及其模型，价值指标方法在经济福利测度中被弱化了，至少在SSF报告的生活质量测度中没有加以重点阐述。由此带来的潜在矛盾是，如果在对“当下福利(生活质量)”的测度中，价值指标方法都难以得到信任，处于三种主要福利测度观之外，那么在对“未来福利(可持续发展)”的测度中，校正GDP方法又如何立足呢？又让人如何接受呢？显然，SSF报告的这两个部分在此基本立场上尚待协调。

(二)质疑用生物技术法测度幸福

问卷法测度主观福利存在一定问题，有人主张采用生物技术法。人脑可以植入专用芯片，记录负责快乐神经的波动频率，可以用来测度个人的幸福程度。将来生物技术发达了，完全可以实现这一构想。著名华裔经济学家黄有光先生特别认可这种方法，认为比GDP统计更为可靠。

众所周知，有摄像头监视，人的行为就会不同。头脑植入芯片后，知道“老大哥在看着你”，一举一动都受约束，自由程度降低，幸福会有一个减量。这正应了管理的最基本特征——“管理是反人性的”。因此，用生物技术测得的幸福值，实际上是原始幸福感降低后的值。真正的幸福值应该再加上一项，即因为植入芯片带来的幸福减量。然而麻烦的是，个体的敏感程度不同，其幸福减量也不同。每个人的幸福究竟该加多少？又带出一个新的测度问题。

此外，生物技术法是进行全面测度还是抽样进行？孩子一出生就给他植入测度芯片，如果孩子长大了要求摘出来，是否允许？抗议的人多了，社会如何应对？如果尊重本人意愿，召集自愿者植入测度芯片，能否达到宏观福利测度的样本量要求？

迪顿教授认为，“即便是每个人的身上都有一个腕表一样的测量仪，把人的每一次快乐心情都记录下来，我们也无法用这些数据来评估我们的生活过得是否幸福。人类的幸福有多个维度，他们彼此关联又绝不相同。”[7]28

六、经济福利测度的必要性探讨

(一)经济测度作为公共产品的边界

经济福利测度属于公共产品的一种，因而天然就存在边界问题，也即其必要性(“当否”)问题：政府或NGO等经济主体究竟应该在多大程度上介入？作为“广义政府(general government)”产出的组成部分，经济测度究竟应该做到哪儿为止？已相当繁杂的GDP统计还不够吗？

测度经济福利，自然是为了提升民生水平。然而出于公心未必就天然具备了行为的法理性。如果测度生活质量本身就造成民众生活质量的沉重负担，如果公共品生产挤压了私人生存空间，事物性质就将逆转，就需要进行成本效益分析，就可能产生“福利测度的必要性究竟如何”这一问题。

世上有两种民权思想，一种如英国谚语所代表，“风能进雨能进，国王不能进”。老百姓的屋子再破，只要门框在那儿立着，国王进去之前就得征求主人允许。虽然贵为国王，也应该尊重私人权利。另外一种则以中国古语所代表：“普天之下莫非王土”，既然是王土，国王行无其限。如果按照前者行事，经济福利测度也需充分考虑对民权的尊重。“测度一切”与“计划一切”、“管理一切”有着天然的联系，因此经济测度需要注意适度性问题，经济福利测度更是如此。

(二)经济福利平台的边界性

一般来说，收入、财富是个人与社会的“交”——福利平台，由此个人和家庭自由生活，可进可退。社会应该做的，只是创造个人取得幸福的机会和环境，将福利平台搭好足矣。至于每个个人偏好幸福的哪个方面，社会不能去过度干涉。笔者认为，在某种意义上，这也应该是经济测度的重要边界。

经济福利测度究竟应该深入多远？所谓“老大哥在看着你”，《1984》的警告需要认真考虑。作为纳税人，百姓将公权授予政府，但对其提供什么样的公共产品却很难给出限定，从而政府官员仍具有相当大的自由裁量权。按SSF报告的提议，做经济福利测度要具体到每个人。应该质疑的是：民众个人生活质量的高低，一定要告之外人吗？即便是为了公众福利提升，也必须以暴露个人福利状况为代价吗？纳了税难道是要政府来测度我的私人生活吗？究竟谁应该是经济福利测度“当否”的决定者？

这涉及到经济测度的操作性边界，笔者曾专门做过论述，是第三种测度边界[3]7。事关测度相关性与测度资源可用性之间的平衡，不能误以为经济测度可以无所限制。经济福利测度发自于人文关怀，固然不错，但现代文明的一个标志，就是保持适当的距离感。过度的人文关怀，就侵犯个人私密空间。如果执意深度地测度经济福利，人文关怀和坚守私密空间之间恐怕矛盾不小。而且着眼于测度实效，相当部分人恐怕会对经济福利测度做出负面反应，反而会造成数据结果的失真，这又涉及到“经济测度的中性悖律”。

(三)经济福利测度的政策意义

到底为什么要测度经济福利？如果不知道其社会总量(假设其可测)，就不知道如何去构建幸福社会么？社会各界就不知道如何追求幸福么？认知社会福利水平对追求幸福究竟有多大意义？其实更重要的是实地提升福利的能力和机会。不丹的“国民幸福总量(GNH)”曾经名扬全世界，受到热捧，尽管经济水平与福利并非绝对正相关，可那么低下的经济社会发展水平，怎么能产生地球人公认的幸福？有一点倒是明确的，绝大多数人不可能长期生活在那种幸福状态下。

测度意味着标准，难道一定要被统一指导才幸福？幸福与一律相悖，生物要多样性，人更需要多样性。为人有没有“偷着乐”和躲开怜悯的权力？独处的权利，某种意义上也就是避开社会监管的权利，不在摄像头下生活，减少“随时被揪出来”的恐慌。需要填福利问卷，还要“每日情景重现”(DRM)，不是占用了人们本该休闲的宝贵时间么？倘若有这个时间，真正用来提升实际福利如何？本来痛苦经历令人难耐，为了公共测度，还要努力去回忆本该忘掉的事情，这样的问卷本身就降低了人的幸福水准。大量的研究表明，快乐内省会降低人们对幸福感的体验，而那些快乐的人不太进行内省。若此，主观福利问卷岂不是恰恰反福利之道而逆行？

(四)为经济福利测度而支付公共资源的正当性

经济福利问卷要求实时得到报告，以保障数据结果的真实性。SSF报告强调了在个人层面提供了可长期监测的生活质量测度，以笔者的理解，这就是要为福利测度建立一套系统化的微观经济统计。

问题在于，人们不可能花费一生时间来自觉地问自己有多快乐。为了测度总福利，要求测度单个人的福利，并且为之付出部分公共资源，其正当性究竟如何？这里存在两种正当性，测度本身的正当性和为测度支出耗用公共资源的正当性。

就付出公共资源进行福利测度和交出个人信息而言，在不同国家可能存在不同的意愿组合，又如何决策？发达国家，经济实力强，公共资源可付出，但个人隐私不愿意被监测。发展中国家虽然个人隐私保护不强，但用公共资源去进行福利测度，还不如直接用于提升生活。如果落实SSF报告的福利测度改进建议，社会，特别是欠发达国家，将不堪重负。

(五)强制性的信息税

税收完全可以非金钱的方式征收，日常生活中人们往往忽略的是：我们一直在缴纳“信息税”和“信息支付附加”，而且越是大数据时代，信息税费越重。

从广义上看统计，笔者断言任何人都与统计有关，不是“做统计的”(制造者)，就是“用统计的”(用户)，至少是“被统计的”(对象)，大家都是统计的“局中人”。

细致且高频的问卷调查就是社会的一种重税。有人不接受统计调查，但实际上躲不起，一开智能手机就已经身在“被统计”之中，支付宝、滴滴打车等等，个人数据不由自主全上去了。人总是贪婪的，生活方便的代价就是被统计。实际生活中为方便付出的并不少，不只是金钱，还有个人信息，甚至隐私。只不过，多数人对这种隐私信息的付出并没有自觉意识。如果充分意识到种种显在和潜在的信息代价，福利测度还是十分必要的吗？

(六)有限福利测度的可能性

GDP用于福利测度究竟如何？美国著名经济学家曼昆认为：“就大多数情况而言，GDP是衡量经济福利的一个好指标。”[11]19，如果曼昆的这个结论成立，还需要再另起炉灶去发展经济福利测度吗？

《理解国民账户》提出一个思路，“通过国民账户更好地测算福利”。因为GDP仅仅是一套成熟账户体系中的一个指标，比GDP更好的经济福利指标确实存在，也就是那些针对居民户(household)的测度，个人和居民户是估价福利的天然基础[12]456。

在SNA中，从生产到最终使用的指标逻辑关系是：GDP调整国内外要素净收入得到国民总收入(GNI)，减去固定资本消耗得到国民净收入(NNI)，再减去缴税得到可支配净收入(NDI)，加上实物转移得到“经过调整的可支配净收入(ANDI)”。可支配净收入减去储蓄是居民户的最终消费支出(final consumption expenditure)，而“经过调整的可支配净收入”减去储蓄为居民户的实际最终消费(real final consumption)。最终消费支出，特别是实际最终消费，便可作为测度经济福利的平台。当然，还需要进一步调整：(1)剔除人口规模的影响。(2)考虑收入分配和不平等因素，涉及不同类型住户的微观资料。(3)纳入存量因素，因为储蓄(负储蓄)与本期经济福利密切相关。

接续OECD专家勒盖耶和布莱兹的思路，可否考虑采用“常规统计 + 专项调查”的经济福利测度模式？调整SNA现有居民户收入和消费指标作为常规统计内容，而其他相关性强的福利信息则采用专项调查采集。

经济福利测度必要性的讨论，当然不是要全盘否定之，但至少应该有助于将其限制在一定的范围内。“做加法”并不是唯一的出路，动辄另起炉灶也未必是优选。