增强个体代表性:基于日志数据的长期时间利用预测①
2016-04-09檀学文
檀学文
增强个体代表性:基于日志数据的长期时间利用预测①
檀学文
[摘要]针对时间利用日志数据存在的个体代表性不足以及统计意义上的“多零”问题,文章借鉴已有文献的两部分回归方法,从日志数据预测长期时间利用数据。结果显示,利用人口和社会经济变量以及活动参与频率变量对长期时间利用的预测结果具有较好的稳健性,分布更均匀,同时大幅度减少了“多零”问题,清除了时间利用实证分析的一大障碍。因此,未来的时间利用调查如果添加非经常性活动参加频率的问题,将会有利于提高时间利用数据的利用程度和效果。
[关键词]时间利用福祉; 社会指标; 预测
社会科学的研究对象是人,主要是由个体组成的群体或社会,其中个体包括居民以及企业、社会组织、政府等法人。一般来说,研究个体的目的主要还是为了研究群体,个体主要充当样本或案例。统计学以抽样方法获取有限数量的个体作为样本,以推断其所代表的总体的情况。在意识形态领域和社会科学方法论领域均有集体主义和个体主义之争,但是后者通常还是为群体性目标服务。但是,近年以来出现了直接以个体为对象和目标的研究方法。一个典型例子是在福祉研究领域,在OECD创建的网站上②www.oecdbetterlifeindex.org。,网民输入自己的各项指标,便可计算出自己的福祉指数——“更好生活指数(BLI)”;澳大利亚居民在给出自己对7项主观满意度指标分值后,也可以得出自己的福祉指数(AUWBI)。
在样本量足够大且具有代表性的情况下,其统计特征能够用于推断总体特征。但是如果要评价样本本身,那么就需要考虑指标的样本个体代表性问题。在经济社会研究领域,一个经常性的问题是所使用的指标能在多大程度上体现该指标所应体现的含义。用统计术语来说,就是如何增强概念的名义定义和操作定义的一致性[1]。例如,在AUWBI指数中,福祉的含义是近期的主观福祉状况,其具体的组成变量是7个关于近期生活各个方面的满意度评估,这些变量的含义以及时限与近期主观福祉的内涵都是一致的。然而BLI指数使用了多个维度的客观指标,其指标代表性就值得讨论。例如,就业或失业都是指最近两周的情况,时间利用是指昨日的时间利用,这些指标口径对于个体样本的近期状况来说具有很大的偶然性,代表性比较差。
增强指标的个体代表性,一方面是为了顺应当前个性化的时代趋势,另一方面也是为了改进定量分析效果。如果以一日时间利用数据或一日消费数据来代表个体的时间利用特征,容易出现大量特异值,如0或特别大的值,损害实证分析结果的解释力。对于这种类型的指标,就存在增强个体代表性的必要性。增强指标个体代表性的方法通常可以分为三种:扩大数据记录的时间区间、使用估计的而不是记录的数据、使用替代性指标,三者各有优劣。就时间利用而言,日志记录数据准确但是代价高,如果增加记录天数则代价更高;估计数据的代表性增强,而且调查成本低,但是其准确性降低;替代性指标与原指标的一致性有时会存在问题。这就是社会科学调查研究中经常面临的数据需求与获取之间的权衡取舍问题。本文以时间利用数据为例,对此进行探索,希望为依靠调查或统计数据进行的微观研究提供有益的数据改进思路。
本文意图利用时间利用日志调查数据,估计具有更好样本代表性的长期时间利用数据,对其统计学特征进行检验,从而对时间利用数据的获取和应用提出相应的对策建议。正文包括四个部分。第一部分是关于长期时间利用预测的理论,包括作为参考的长期食品消费预测模型以及建立在这一模型基础上的长期时间利用预测模型。第二部分利用中国农民抽样调查数据,从日志时间利用预测长期时间利用。第三部分利用统计学原理,评价估计长期时间利用数据的统计学特征,评估其样本代表性。最后一部分对本文使用的研究方法和结果进行评价,对其可能的应用价值进行了说明。
一、长期时间利用预测理论与方法
(一)居民福祉与时间利用
从传统经济研究和福利经济学角度,经济增长被视为福利改进的主要甚至唯一标志。福祉研究超越传统福利经济学的上述强假设,提出多维度、多指标表征福祉的必要性和可行性。除了用消费指标代替收入指标外,还有健康、社会联系、时间利用、主观福祉等多个领域的指标[2]。已有的多维福祉框架中,无论是社会层面还是个人层面的,大部分都包含时间利用或个人活动维度。时间利用通常情况下都是以时间在不同活动间的分配和使用状况来表征居民在这项重要资源的利用方面的福祉状况[3]。根据对福祉的不同定义,时间利用与福祉的关系大体上有三条指标选择和研究路径,即扩展的经济福祉、实时性主观福祉和多维客观福祉[4](见表1)。其中,后二者属于个人福祉范畴,可以分别称为主观时间和客观时间[5]。本文遵循多维客观福祉理论,将时间利用视为多维福祉的一个客观维度,与教育、经济等其他维度并列。如表1所示,即使在多维福祉框架下,时间利用指标也有主观指标和客观指标之分。其中,主观指标主要是对时间利用状况的主观评价,而客观指标主要是对实际时间利用的记录或回忆/估计。
表1 对应于不同福祉内涵的时间利用指标及其数据来源
资料来源:根据文献[3] [6] [7]整理。
图1 2008年按大类划分的城乡居民时间利用状况 注:数据来源于《2008年时间利用调查资料汇编》,中国统计出版社,2009年。
本文的分析对象是作为客观指标的时间利用日志数据。时间利用日志调查记录受访人的基本信息以及在调查前一天24小时内的所有活动情况。调查表通常以10分钟为单位,将24小时划分为144个连续的时间单元。受访人按顺序依次填写每项活动的具体内容、持续时间、同时发生的其他活动、活动的地点以及与什么人在一起等。有时候,时间利用日志调查也通过问卷调查的方式进行,由调查员询问受访人并填写问卷。时间利用日志调查仅调查受访日前一天发生的活动,而且按时间顺序排列,所以是最为准确的时间利用数据。时间利用日志调查表在填写、回收后,经过对具体活动内容对照时间利用同类活动分类代码表进行编码、归类,便可获得受访者的一日时间利用数据。例如,2008年,国家统计局在10个省、市开展了第一次居民时间利用调查,共获得3.7万个居民样本[8]。这次调查的城乡居民大类平均活动时间如图1所示。从中可见,城乡居民时间利用有明显差别,主要体现在农民有酬劳动时间比市民长很多,而闲暇时间则短很多。
(二)从日志数据预测长期数据的方法
1.通常食品消费数量预测
从随机性短期数据估计长期数据的方法较早地以及较多地用于营养和健康领域的食物消费。居民食物消费数据具有与时间利用日志数据类似的形式,即受访者对某日24小时内所有消费的食物的记录或根据记忆的估计数据。类似于时间利用,一日的食物消费行为具有偶发性,实际食物消费数量对于通常食品消费数量而言存在典型的测量误差,包括个人误差和人际误差,一般通过回归校正法予以调整[9]。根据消费频率,食品可以区分为日常性消费食品和偶发性消费食品。一项研究对这两类消费数据的误差修正方法进行了区分[10]。对于日常性消费食品,在传统的混合模型基础上,通过使用Box-Cox变换,将实际消费数据的偏态分布转换为接近于正态分布,可以估计出实际消费数据的个人误差和人际误差。对于偶然性消费,论文采用了两部分测量误差模型:第一个方程用于估计消费某类食品的发生概率;第二个方程用于估计某类食品在发生消费的情况下所存在的两类误差,与对日常性消费食品所使用的模型相同。该模型具体表达如下:
(1)
(2)
其中,公式(1)为logistic回归,估计第i种食品消费在第j日的发生概率pi,X1i为有关的解释变量,μ1i为人际误差;公式(2)为OLS回归,估计第i种食品消费在第j日实际发生的情况下,其预测的消费数量,X2i为有关的解释变量,随机误差μ2i和εij分别表示人际误差和个人误差。
从而,第i种食品的通常消费数量,也就是长期估计值,等于其发生概率以及在发生情况下的预测值的乘积,即:
Ti≡E(Tij|i) =piAi
(3)
该模型为混合效应模型,每个方程都包含固定效应和随机效应。两个方程存在联系,不仅两者的人际误差μ1i和μ2i是相关的,而且它们的解释变量中至少有部分变量是共同的。
在进行经验估计时,解释变量的选择除了人口特征变量外,还包括了食品消费频率(FFQ)变量作为补充变量。利用美国健康与营养调查数据(NHANES),该论文证明,通过将食品消费数据和食品消费频率数据结合起来,即将FFQi添加为解释变量Xi的一部分,能够提高通常食品消费预测以及饮食—健康关系估计的精确性。
2.长期时间利用预测
食品消费数据和时间利用数据虽然都是记录24小时内发生的事件,而且也都包含日常性事件和偶发性事件,但是它们实际上存在着很大差别:时间利用数据的单位是时间,如小时和分钟,受总量约束,即一天的所有活动时间加总后必然等于1 440分钟;食品消费数据的单位是数量,如克或公斤,加总后无总量约束。由于总量约束,一天内不同活动的时间存在替代关系,一类活动时间的增加必将导致其他某类活动时间的减少;而食品消费则不存在这种严格的替代关系,不同类型的食品消费是相互独立的。
基于每日时间总量约束以及用一系列闲暇活动的参与频率代表个人行为“习惯”的社会学理论[11],Gershuny提出了一种基于上述两部分模型但是相对简化的估计方案[12],可以表达如下:
(4)
(5)
(6)
∑LTTi=1 440
(7)
公式(4)~(6)的函数形式分别与公式(1)~(3)相同。两个模型的差别在于:
① 食品消费模型使用面板数据,从而可以同时估计个人随机误差和人际误差;时间利用数据利用截面数据,只能估计人际误差。
② 食品消费模型中,添加的FFQi变量是单一变量,只在估计第i类食品消费时使用该类食品的FFQ;时间利用模型中,添加的习惯变量是组合变量,即一组各类闲暇活动的参与频率,对所有类型活动的估计是一样的。
③ 食品消费模型独立地估计各类食品的消费数量;但是时间利用模型同时估计各类活动的长期时间,结果受一日时间加总约束。
根据此项研究,上述长期时间利用估计方法至少可以解决日志数据存在的两个主要问题:一是闲暇活动等不经常发生的活动时间的“多零”问题*“多零”是指在居民时间利用调查数据中,当活动分类足够细化时,很多类型的活动时间都会显示为0,但这并不代表受访者的这些活动时间真的为0。如果以它们作为自变量进行回归,也会对回归结果造成干扰。;二是数据正向偏斜和右尾极端值问题,由此增强数据的个体代表性。
二、中国农民长期时间利用预测
(一)数据
长期数据预测的基本思路是,短期行为是长期行为的一部分,从短期行为数据一方面可以估计其长期发生的概率,另一方面估计该行为在发生情况下的数值,该估计值与估计概率的乘积即为长期估计值。利用这种方法,可以用时间利用日志数据估计长期的时间利用规律,即通常情况下个人的24小时都用于哪些活动。这种方法的前提是需要更多的变量支持,对于常规的时间利用日志数据或饮食日志数据是不适用的。上述Gershuny使用的“Time Diary Study 2000/01”数据中除了日志数据,还有一系列活动参与频率变量,后者是估计所需的重要解释变量,代表着人们的行为“习惯”。借鉴上述方法,我们在调查问卷中设计了类似的活动参与频率的问题,为预测长期时间利用提供了条件。
本文使用中国社会科学院创新工程项目“中国农民福祉研究”2013年农村居民抽样调查数据。调查内容包含家庭成员、主观福祉、劳动与就业等12个方面。其中,时间利用部分包括昨日时间利用日志、闲暇时间满意度以及闲暇活动参与频率三类问题。该调查在位于辽宁、江苏、湖北、宁夏和贵州5个省的10个县、市进行,在每个县、市各抽取5个行政村,每个村预定抽样规模为20人。样本省分别位于东部、中部和西部,具有一定的地域代表性。省内的样本县、市按照经济发展水平抽取,基本处于中等水平。县、市内的样本村通过随机抽样或者按照经济发展水平高低进行抽取。在样本村内,居民样本分布于不同的村民组和不同的收入和生活水平,具有一定的村庄代表性。调查问卷均由调查员提问和填写。本次调查一共回收1 000份有效问卷,其中860份问卷拥有完整时间利用数据,是本文预测长期时间利用的数据基础*通常情况下,考虑到一日时间利用数据代表性问题,时间利用调查需要考虑具体的时间选择问题,有些国家(如韩国)的时间利用调查甚至在一年内针对同一样本进行2次到4次调查,力图以此来增强其代表性。对于中国农民来说,应当考虑地域差异以及季节差异(农忙、农闲),而工作日和周末的差异是次要的。2008年中国居民时间利用调查时间为5月份,各地总体上都是农忙季节,具有较好的代表性。本研究使用的时间利用调查是与农户问卷调查结合进行的,调查时间受总体调查安排的约束。不过,2013年农村居民抽样调查是在7月至9月期间进行,总体上也都是农忙季节,但是并非最忙碌或农闲的时候,所以也具有一定的代表性。。
(二)预测步骤与结果
借鉴Gershuny建立的方法,本文以时间利用日志数据为基础,预测个人的长期时间利用分布。主要预测步骤如下:
1.原始数据处理
包括时间利用活动类型重新归类、部分解释变量重新编码、缺失值处理等。各种时间利用统计活动分类都有大小不同的差别。中国国家统计局2008年时间利用调查将活动分为10个大类、66个中类和115个小类。本文根据分析需要以及中国农民很多闲暇活动参与率极低的现实,将一些大类合并,将闲暇活动分为4种类型,合计将活动类型分为11类。为满足模型回归需要,对部分变量进行重新编码、缺失值处理。其中,对婚姻状况、健康状况、教育、社会身份等都进行了重新编码。
2.活动的参与概率预测
以重新归类的11类活动时间为基础,将其转换为以0或1表征的“是否参与”变量:若活动时间大于0,新变量编码为1,表示当日参与了该活动;若活动时间为0,新变量编码为0,表示当日未参与该活动。以该新变量为因变量,以特别选定的变量为自变量,用logit方程估计个人对各类活动的参与概率。自变量分为人口和社会经济特征等控制变量以及活动参与频率变量两类,前者包括年龄、年龄平方、性别、婚姻状况、健康状况、需照料家庭成员情况、教育、工作类型、调查日类型(工作日或周末)、最近一周累计工作时间以及省份虚拟变量;后者包括14类非经常性闲暇活动参与频率变量,代表个人活动习惯(表2)。
3.活动的参与者参与时间预测
以重新归类的11类活动时间为因变量,以上述两类变量为自变量,用最小二乘回归方程估计个人对各项活动的参与者参与时间。此处使用的自变量与步骤2中的logit回归相同。
4.活动的长期平均参与时间计算
将步骤2和3的结果相乘,得出个人各项活动的长期平均参与时间的预测值。
5.长期时间利用估计值调整
对步骤4的结果进行负值调整和总和调整。将小于0的估计值调整为0;并以加总值与1 440的比值为调整因子,对预测的长期平均参与时间进行调整,使得他它们的加总值仍然为1 440分钟。
由此得出的估计的长期时间利用分布如表3所示。
表2 代表习惯的不经常性闲暇活动参与频率变量
注:表中参与频次指过去一年内的参与次数,最高为365;参与频率分为5个等级:全年最多1次、每月不足1次、每周不足1次、每周1到4次、每周4次以上。
表3 长期时间利用预测结果 单位:分钟
注:此表及以后各表采用下述方案Ⅲ的结果。
(三)预测结果可靠性与稳健性检验
与Gershuny的依据类似,从日志时间得到的样本总体各项活动的平均时间和样本长期时间配置的总体均值应该近似相等,本文的计算结果符合此条件。为了进一步检验预测结果的可靠性,我们分别对3套解释变量方案进行估计:方案Ⅰ仅以上述控制变量对被解释变量进行回归;方案Ⅱ和Ⅲ同时以控制变量和不经常性活动参与频率变量对被解释变量进行回归,其中后者在方案Ⅱ中采取参与频次形式,在方案Ⅲ中采取频率形式(见表2)。结果显示,3套方案的预测结果都极为接近,分别是1 440.4分钟、1 442.0分钟和1 441.3分钟,这表明模型设置具有较好的稳健性。方案Ⅱ和Ⅲ使用了不经常性活动参与频率变量,各方程回归结果显示,它们的R2和PseudoR2值都明显地大于方案Ⅰ,表明模型的解释能力得到了较大的提升(见表4)。方案Ⅲ的R2和PseudoR2值总体上稍大于方案Ⅱ,但是差别非常小,表明不经常性闲暇活动频率变量可以用分类形式代替原始频率形式且不损失效率。
表4 长期时间利用预测的三套方案拟合效果比较
注:睡觉和个人活动的参与频率被设定为1,故没有为它们设立概率估计方程,从而也就不存在PseudoR2。
三、预测前后的时间利用分布比较
(一)总体时间利用比较
从近期研究成果看,在统计上,中国农民时间利用具有典型的发展中国家特征,即睡眠时间足够;有酬劳动时间更长;休闲娱乐和社会交往时间更短,且以消极闲暇活动为主;无酬家务劳动时间也偏短;女性劳动时间长而闲暇时间短[4]。农民的时间利用分布在2008年与2012年以及2013年都比较接近,表明他们的时间利用规律是比较稳定的。对2013年农民时间利用日志数据和长期估计数据的统计特征进行比较显示:在总体上,两类数据的平均值极为接近,T检验显示差异均不显著。但是预测的长期时间利用比日志时间利用的统计分布更加均匀,即估计后的标准差、偏度、峰度都比估计前大幅度下降了(表5)。
此外,预测的长期时间利用数据大大减少了日志数据中存在的“多零”问题。尽管我们在计算中使用的简化分类已经大大减少了活动类型的数量并降低了发生零的可能性,但是日志数据中仍然有大量的零存在。除睡眠和个人活动外,其他9种活动时间为0的情况平均达到65%之多。而在预测数据中,该比例下降到1.9%(表6)。
进一步地,我们可以形象地考察各类活动的时间分布特征。在图2所列举的三类活动中,睡眠时间的分布最为接近于正态分布,尤其是对于长期估计值而言;接下来是工作时间,其分布偏度较小,但是峰度明显比睡眠时间小,即显得更为平坦;闲暇时间分布的偏度比正态分布大,而且是向右偏,但是其峰度与睡眠时间接近。分活动的长期预测时间与日志时间相比最大特点就是其分布更加集中,不对称程度也有所下降。
表5 日志时间与预测时间利用描述统计比较 单位:分钟
注:社会和政治参与活动所发生的样本极少,为方便分类,将其并入未定义活动内。
表6 预测时间与日志时间相比含零样本数量及其变化
注:样本量为702个。
(二)分群体时间利用比较
我们对预测前后的时间利用进行了分群体比较,包括分性别和分年龄组比较,其中按年龄分为三组:40岁以下、40至59岁、60岁以上。对不同群体的日志时间和预测时间分别进行T检验,结果显示,除了极个别情况之外(40岁以下组的个人活动时间的日志值和预测值差异显著),包括性别分类和年龄分组,几乎所有活动时间的日志值和预测值的差异都是不显著的(表7)。为节约篇幅,分性别的结果比较省略。
四、总结与讨论
作为一项衍生性或工具性任务,本文致力于从日志时间利用数据预测长期时间利用数据,其目的是提高时间利用数据的个体代表性。我们借鉴一项英国学者的研究成果,利用课题组的抽样调查数据,估计了长期时间利用的预测数据。从预测数据的统计学特征看,预测数据具有较好的稳定性和比日志数据具有更好的个人代表性。对于日志数据存在的“多零”问题,预测结果对其有了很大的弥补。从而,预测的长期时间利用数据可以更好地用于时间利用指标构建以及福祉决定的实证研究。
如表1所示,时间利用指标有主观指标和客观指标之分,类型很多,通过比较判断各类指标的优缺点以及选择更好的指标是时间利用研究的一项有价值的任务。本文对长期时间利用的预测可以对这项工作有所贡献,可以用预测的长期时间利用指标与其他类型指标进行比较。长期时间利用预测对数据要求比较高,除了日志数据还需要大量的个人特征变量以及闲暇活动频率变量,对问卷长度和调查成本形成挑战。但是无论如何,该投入对于增加时间利用数据的整体价值是有利的。中国到目前为止只开展了一次官方时间利用调查。我们预期未来中国必将进行更多的时间利用调查。因此我们建议在未来的调查中对全体样本或者部分样本收集更多的信息,例如预测长期时间利用所需的控制变量以及活动频率变量,以便于更好地开展时间利用数据分析和研究。
图2 三类活动的日志时间与长期预测时间分布对比
单位:分钟
注:*表示在5%水平上差异显著,双尾检验。
[参考文献]
[1]巴比.社会研究方法(第10版).邱泽奇译.北京:华夏出版社,2005
[2]Stiglitz J E,Sen A, Fitoussi J P.ReportbytheCommissionontheMeasurementofEconomicPerformanceandSocialProgress. http:∥www.stiglitz-sen-fitoussi.fr/,2009
[3]Gershuny J.Time-UseSurveysandtheMeasurementofNationalWell-Being. Swansea, UK: Office for National Statistics, 2011
[4]檀学文.时间利用对个人福祉的影响初探——基于中国农民福祉抽样调查数据的经验分析.中国农村经济,2013(10):76-90
[5]Robinson J P. Using Time as Social Indicator.SocialIndicatorsNetworkNews(SINET), 2013(114-115):1-7
[6]Bloom N, KretschmerT, Van Reenen J. Work Life Balance, Management Practices and Productivity∥Freeman, Shaw (ed.).InternationalDifferencesintheBusinessPracticesandProductivityofFirms. The University of Chicago Press,2009
[7]檀学文,吴国宝.福祉框架下时间利用研究进展.经济学动态,2014(7):151-158
[8] 新莉,殷国俊.2008年时间利用调查结果简介.国家统计局网站(http:∥www.stats.gov.cn),2008-11-21
[9]Carroll R J, RuppertD, StefanskiL A, et al.MeasurementErrorinNonlinearModels:AModernPerspective, 2nd edition. Boca Raton, Florida: Chapman and Hall CRC Press, 2006
[10]Kipnis V, Midthune D, Buckman D W. Modeling Data with Excess Zeros and Measurement Error: Application to Evaluating Relationships between Episodically Consumed Foods and Health Outcomes.Biometrics, 2009(65): 1003-1010
[11]Bourdieu P.Distinction. London: Routledge and Kegan Paul, 1984
[12]Gershuny J. Too many zeros: a method for estimating long-term time-use from short diaries.AnnalsofEconomicsandStatistics,2012(105/106): 247-271
Enhancing Individual Representativeness:Predicting Long-term Time Use Based on Diary Data
Tan Xuewen
AbstractAs for problems of weak sample representativeness and “too many zeros” in statistical sense, this paper uses two-part modeling methods of existing literature to predict long-term data from diary time use data. The results show that, the predicted outcomes of long-term time use are statistically robust and more evenly distributed. Moreover, the large-extent reduction of “too many zeros” problems can be realized at the same time, which helping clearing a major obstacle involving in the time use of empirical analysis. Hence, there is no doubt that adding questions like non-recurring event participation frequency in the future time use survey, would improve the efficiency of the utilization of the time use data.
Key wordsTime use; Well-being; Social indicators; Prediction
(责任编辑:陈世栋)
[作者简介]本文是中国社会科学院创新工程项目“中国农民福祉研究”的部分成果。 檀学文,中国社会科学院农村发展研究所副研究员,邮编:100732。
[收稿日期]2015-06-14
①吴国宝研究员组织创新团队成员对论文进行了讨论,谭清香和杨穗专门提出了修改建议,特此表示感谢。