角解型内生Tobit模型交互效应和平方效应的估计与推断*<br/>——对家庭风险资产配置比例模型的应用

角解型内生Tobit模型交互效应和平方效应的估计与推断*
——对家庭风险资产配置比例模型的应用

2021-02-22周先波李赫扬

中山大学学报(社会科学版) 2021年1期

周先波，李赫扬

一、引言

微观数据建模中的因变量常具有归并数据特征，如病人住院时间长短、家庭风险资产配置比例、企业研发投入、老年人劳动时间供给等。造成这种归并的原因常有两种：一种是研究者（数据收集者）对因变量数据不能完全收集；二是研究对象个体的最优选择落于选择空间的边界上（即角解）。为简单起见，设因变量数据归并点或角解为0，则刻画归并因变量的模型为Tobit 模型：y= max{x′β+ε，0}。上述两种原因的区别在于，前者研究的是解释变量对潜变量y*=x′β+ε的边际影响，即β的估计；后者研究的是解释变量对受限因变量期望水平的边际影响，即E[y|x]偏导函数的估计。可见，两种原因对应的研究目的存在较大的差异。事实上，研究个体经济行为的问题常由第二种归并原因引起。例如，家庭对风险资产配置的选择可能为零，在边界上达到家庭消费效用最大化；企业对研究开发的投入可能为零，在边界上的选择使企业利润最大化；老年人劳动时间的供给可能为零，不参加劳动使老年人的效用最大化，等等。

在实证中，研究者常通过引入解释变量的平方项、交互项，以反映解释变量的非线性效应和调节效应。在上述第一种原因情形下，平方项、交互项的系数可以反映解释变量影响因变量的平方效应和交互效应，但在第二种原因情形下，角解型Tobit 模型平方效应、交互效应并非如此简单，正确做法涉及到E[y|x]关于平方项和交乘项中解释变量的二阶偏导函数的估计。Ai and Norton（2003）给出外生解释变量情形下非线性模型中交互效应估计与检验的正确做法。此方法在实证中被广泛应用，如Karaca-Mandic et al.（2012），Haywood（2016），Mulkay（2019），Meoli et al.（2020）等。国内学者也逐渐重视应用Ai and Norton（2003）方法估计Probit 和Logit 模型中的交互效应或平方效应。例如，严兵和张禹（2016）、邓慧慧和虞义华（2018）、夏后学等（2019）、周先波和欧阳梦倩（2019）等对交互效应或平方效应进行了正确的估计与分析。

不过，Ai and Norton（2003）方法及相应的实证研究只适用于外生解释变量情形。解释变量的内生性相当重要，是研究者在实证分析中经常碰到的问题（如见：方颖和赵扬，2011；李兵和任远，2015；薛景等，2019）。对于含内生解释变量的归并因变量模型，在上述第一种原因情形下，由IV-Tobit 估计，平方项、交互项的系数可以解释自变量影响因变量的平方效应和交互效应。但在上述第二种原因情形下，这种做法失效。此时，简单地以IV-Tobit估计中平方项、交互项的系数及其显著性来解释自变量影响因变量的平方效应和交互效应，或者应用外生解释变量情形下Ai-Norton方法所估计的交互效应来解释内生自变量影响受限因变量的交互效应，均是不合适的。目前文献没有给出内生解释变量情形下角解型Tobit模型中交互效应和平方效应的估计方法。鉴于此，本文着眼于研究此类角解型内生Tobit模型中自变量的边际影响、平方效应和交互效应的估计与检验方法，并给出应用实例。本文研究的贡献是将只适合于外生解释变量情形下非线性模型中交互效应的Ai-Norton估计方法推广至适合于内生解释变量情形。

本文其余部分安排如下：第二部分给出内生角解型Tobit 模型中边际效应、平方效应和交互效应的估计与检验方法；第三部分设计数值模拟，说明我们方法的良好有限样本表现，以及忽视角解性质与内生性的方法在估计真实效应时的较大偏误；第四部分应用本文方法，实证研究家庭新型信息化工具使用和家庭对外关系变量对家庭风险资产配置比例的边际影响、交互效应以及年龄的平方效应；最后是总结。

二、边际影响、交互效应和平方效应的估计与检验

因为平方效应是交互效应的特例（交乘的两个解释变量是相同的），我们重点讨论模型中含交互项时边际影响和交互效应的估计和检验。考察角解型Tobit模型（corner-solution Tobit model）：

其中y是被解释变量，其归并特征是由个体的最优选择发生于边界所造成；x1，x2为我们关注的两个解释变量，x1x2是它们的交互项，x1和x2均可能具有内生性（即与扰动项ε相关）。其他解释变量向量为x，均是外生的。因为y可能是角解（在边界上取零），故x1，x2影响y的边际效应和交互效应不是它们的系数α1，α2，α3，而应通过y的条件期望来计算和估计。

（一）Ai-Norton方法：解释变量均为外生

先简述解释变量均为外生情形下交互效应的Ai-Norton 估计方法。设x1和x2均与ε相互独立，且ε～N(0，σ2)，经计算知，y的条件期望函数是：

由此，x1，x2的交互效应是：

可见，由交互项系数α3的估计，或者交互项x1x2对y回归函数边际影响α3Φ(τ0)的估计作为x1，x2影响y交互效应的估计是不恰当的。

（二）本文方法：x1和x2为内生解释变量

当x1和x2均是内生的连续解释变量时①对于x1和x2只有一个变量是内生的情形，下文简化式方程只有一个，讨论是类似的。下文模拟也考虑了这种情形；实证应用也是这种情形。，Ai-Norton 方法不能用于估计角解型内生Tobit 模型中的边际影响和交互效应。本节给出一种合适的估计方法，它依赖于控制函数（control function）方法（Newey，1987；Rivers and Vuong，1988）的应用。记内生变量x1和x2的工具变量构成的列向量为z，设简化式模型为：

其中(ε，v1，v2)服从均值为零向量的联合正态分布，且独立于x，z。记ε=θ1v1+θ2v2+e，其中e服从正态分布且条件独立于变量x1，x2，x1x2，x，v1，v2。将ε=θ1v1+θ2v2+e代入模型（1），得

记在给定的条件下，y 的条件期望是E[y|x1，x2，x，v1，v2]=σe[τΦ(τ)+φ(τ)]，其中现v1，v2可由简化式模型估计的残差得到估计，故我们可由以下两阶段方法估计y的条件期望函数E[y|x1，x2，x]。

第一阶段：分别将x1和x2关于x，z进行OLS回归，得到残差

其中Ωλ是估计量的渐近方差。给定x1，x2，x，由Wooldridge（2010），条件期望E[y|x1，x2，x]可由一致地估计，其中记

则条件期望E[y|x1，x2，x]的边际影响的估计分别为：

对（6）第一式关于x2或对（6）第二式关于x1求偏导可得，x1，x2交互效应的估计为：

为了检验它们的显著性，我们利用Delta 方法，可得到原假设ME1= 0，ME2= 0 以及INTEFF= 0 的检验统计量分别为：

注1：除使用上述检验统计量（8）对原假设ME1= 0，ME2= 0 以及INTEFF= 0 进行检验外，还可以通过重抽样bootstrap方法进行检验。下文实证中，我们由bootstrap方法检验。

注2：如果上述模型中含有某外生变量w及其平方项②如果w也具有内生性，我们可类似使用前述二步方法估计平方效应。因篇幅所限，此处从略。，则类似地可估计此变量的边际影响和平方效应。将模型（5）中的x′β写成β1w+β2w2+x′β，相应地，在上述两阶段估计中也这样记号，则变量w对被解释变量的边际影响效应MEw和平方效应QEw的估计分别为：

其中τi修改为在实证应用中，我们应用bootstrap方法检验MEw和QEw的统计显著性。

三、数值模拟比较

本节构建Monte Carlo数值模拟，说明角解型内生Tobit模型的估计方法对交互效应的估计的有限样本表现，并比较在忽视角解性和内生性时常用的估计方法的模拟表现，以之阐明不当方法对真实交互效应的估计具有较大的偏离。此模拟比较的目的是为了强调角解型内生Tobit 模型中交互效应正确估计的重要性③这里仅模拟交互效应，对边际影响和平方效应等的模拟设计是类似的。因篇幅所限，不作赘述。。

假设数据生成过程为：这里α0= 0，α1= 1，α2= 2，α3= -1，β= 1，θ1= 1，θ2= -1，变量x1= 1+x+ 3z1+v1，x2= 1+ 2x+2z2+v2，而x～N(-1，4)，e～N(0，1)，v1～N(0，1)，v2～N(0，2)，z1～N(0，4)，z2～N(0，3)独立地生成。最终记录数据为

从可观察数据来看，我们要估计的是以下模型：

其中，εi≡θ1v1i+θ2v2i+ei与x1i，x2i相关，但与xi不相关，即解释变量x1i和x2i在非线性归并数据模型（10）中具有内生性，z1，z2是它们的工具变量。

由真正数据生成过程知，在x1，x2，x，v1，v2给定的条件下，x1，x2的真实交互效应是：

其中τ=τ(x1，x2，x) ≡α1x1+α2x2+α3x1x2+βx+θ1v1+θ2v2。所以，基于模型（11），在x1，x2，x给定的条件下，x1，x2的真正交互效应inteff(x1，x2，x)是：

其中f(v1，v2)是v1，v2的联合分布密度函数。按这里设定，因v1～N(0，1)和v2～N(0，2)相互独立，故inteff可用下面逼近方法计算：由N(0，1)和N(0，2)独立地生成M个点（这里取M=10000）计算inteff(x1，x2，x)为：

其中

为比较起见，我们还报告没有考虑内生性时交互效应的估计方法（即Ai and Norton 方法，2003），以及考虑内生性但仅用交互项的系数估计作为交互效应的估计的模拟结果。我们分别从模拟的偏误、标准差和根均方误等方面，考察上述三种方法的有限样本表现及其与真实交互效应的差异程度。

因为交互效应为(x1，x2，x)的函数，我们只对它在(x1，- 1，1)点处值inteff(x1，- 1，1)进行模拟，其中x1取值-1，-0.5，0，0.5和1。表1报告五个点处交互效应的模拟结果，其中样本容量分别是n=200和n=800。在我们内生模型设定下，Ai and Norton（2003）方法没有考虑内生性，理论上应该不适合，从表1第一栏看，其有限样本表现确实不佳；与本文方法相比，其表现要差得多，因为其偏误、标准差和根均方误都比较大。可见，由Ai-Norton方法估计角解型内生Tobit模型中的交互效应，在实际中是不合适的。

值得注意的是，在考虑到解释变量的内生性，将控制变量第二阶段估计中交互项的系数估计作为x1，x2交互效应的估计，也是不合适的。由表1的第二栏可见，相对于真实的交互效应，作为交互效应的估计量，其偏误很大，有限样本表现极差。这说明，实证应用中简单地基于交互项系数估计作交互效应的分析和推断具有方法论上的缺陷。

另外，由表1，在其他设定不变时，随着样本容量的增加，Ai-Norton方法对各点处交互效应的估计的偏误并没有呈减小的趋势。同样，交互项系数估计作为交互效应的估计量，偏误很大的性质并没有改变。而本文给出的交互效应估计相对于真实交互效应的偏误和根均方误均随样本量的增加相应减小。本文方法给出了内生Tobit模型中解释变量交互效应的一个可靠估计。

表1 交互效应inteff不同估计方法的模拟比较（x1，x2均内生）

续表

我们还考察了只有x1为内生变量时的模拟，其中数据生成过程为

除x2= 1+ 2x+ 2z2外，各参数和其他变量同前。x1，x2真正交互效应的计算与前类似，只是去掉与v2有关的项和积分。结果表明（此处从略），前述模拟结论不变。

四、风险资产配置比例内生模型的Tobit分析

家庭风险资产配置会受到家庭对外关系的影响，也会受到家庭利用新型信息化渠道（如财经APP、互联网）获得财经信息情况的影响。Hong et al.（2004）的研究表明，家庭与邻居沟通密切或去教堂频率较高，会提升家庭参与股票投资的可能性。Bertaut and Haliassos（1997）、Bogan（2008）均认为，互联网或计算机的使用会降低家庭股票市场参与成本，从而提升家庭股票市场的参与概率。在中国家庭金融情境下，家庭对外关系与对新型信息工具的使用对家庭风险资产配置比例的边际影响怎样呢？另外，家庭对外关系与家庭对新型信息工具的使用在影响家庭风险资产配置中的交互效应是怎样的呢？

新型信息化工具（如财经APP、互联网等）作为当前人们普遍应用、流行的获取财经信息的途径，可能会促进传统的家庭对外关系对风险资产投资的影响，因为新型信息化工具是对现有面对面交流以及电话联络的延伸，会促进家庭对外关系的发展（Wellman et al.，2001），所以，它与家庭对外关系在影响风险资产投资方面可能相互促进。不过，Nie and Hillygus（2002）认为，互联网在一定程度上会降低人们社会活动的频率，对家庭对外关系具有消极作用。因此，新型信息化工具的使用也有可能会削弱家庭对外关系对风险资产投资比例的影响，使两者间的影响互为削弱。

多项研究表明（如：吴卫星和齐天翔，2007；宗庆庆等，2015；Chen and Ji，2017），户主年龄对家庭风险资产（如股票）投资具有倒U 型影响，即家庭参与股市的可能性或投资份额随户主年龄的增加呈边际递减规律。作为本文方法的应用，我们还探讨年龄对家庭风险资产配置比例的边际影响和平方效应。为此，我们设定如下角解型Tobit模型：

这里，被解释变量rate_r是家庭风险资产配置比例，social是家庭对外关系变量，inf是家庭新型信息化工具使用情况变量，social⋅inf是两者的交互项，x是其他控制变量（包括年龄及年龄的平方），ε是扰动项。

本文使用中国家庭金融调查（CHFS）最新公布的2017年调查数据样本进行研究。我们将调查中的股票、债券、基金、衍生品、金融理财产品、非人民币资产和黄金等价值之和作为风险资产价值，它占家庭总资产的比重定义为风险资产配置比例，作为被解释变量。

家庭利用新型信息化渠道（如财经APP、互联网等）获得财经信息的情况是CHFS 早年调查问卷（2011、2013 和2015 年）所不具有的内容，这种新媒介对家庭资产配置的影响的研究具有时代感。我们定义家庭新型信息化工具使用情况变量inf为二值选择变量D的倾向得分，其中D的定义为：如果对题项“您关注财经类新闻的渠道是什么？”的回答是“财经类APP”或“互联网、手机等网页浏览”，则D＝1，否则＝0。具体地，将二值变量D关于“您目前是否使用智能手机”二值变量iphone、“是否有网购经历”二值变量onlineshop、“家庭是否使用手机”二值变量cell、“去年家庭每月平均水、电、燃料、物业管理、暖气等费用支出”we_fee以及其他外生控制变量x进行Probit 回归，我们将其倾向得分值定义为新型信息化工具使用情况变量inf。这里不用二值变量D，而用其倾向得分变量inf作为模型（12）的解释变量，目的之一是削除或减少inf变量在模型中的内生性（本质上，二值变量iphone、onlineshop为其工具变量，而cell和we_fee为social的工具变量，定义见下文）。另一目的是对家庭新型信息化使用程度作一定量刻画，使之成为一个在0和1之间的连续变量。

对于家庭对外关系变量social，我们选用题项“去年您家庭因春节、中秋节等节假日收入（包括压岁钱、过节费）和红白喜事收入（包括做寿、庆生等）”之和的对数刻画。类似做法见Chen and Ji（2017）等。较强的家庭对外关系可能对家庭风险资产配置有一定的促进作用，但家庭在风险资产投资（如股市投资）中也有可能与其他参与者建立关系，使social与模型（12）中的扰动项具有一定的相关性，从而具有潜在的内生性。我们选取其工具变量为iphone、onlineshop、cell和we_fee。这样选取工具变量的理由是：首先，手机是家庭与外界沟通、获取信息的重要渠道，是否使用手机与家庭对外关系具有相关性，但同时，是否使用手机不会直接影响家庭风险资产配置决策；其次，家庭水电费支出与家庭对外关系（人情礼金/请客吃饭）有一定程度的关联，但与家庭风险资产配置决策一般没有直接关系。

为避免信息重复，我们仅保留受访者是户主的家庭个体样本。在清除含有变量数据缺失值和一些不合理数据的个体后，我们共得到37 794 个家庭观察的样本，其中31 641 个家庭没有风险资产投资，被解释变量rate_r取值0（即家庭没有进行风险资产投资）的比率为83.7%。由变量的描述统计知，家庭风险资产配置比例平均仅为1.3%，可见，中国家庭对风险资产投资的份额相当低。

表2（II）和（III）给出IV-Tobit 和控制函数方法估计结果，为对照起见，（I）列出Tobit 回归结果。由（II）的Wald外生性检验和（III）的控制函数检验，social均具有显著的内生性。家庭对外关系变量与新型信息化工具使用变量的系数估计均显著为正，交互项系数显著为负。不过，由（6）和（7）式知，家庭对外关系与新型信息工具使用对家庭资产配置比例的边际影响是否也为正，两者的交互效应是否还为负，它们是否具有显著性，还不一定。具体结论需由（6）至（8）式估计和检验而得。另外，列（II）对其他控制变量的系数估计的符号与预期一致。特别地，户主年龄对家庭风险资产配置比例模型潜回归函数的影响具有边际递减的特征，它对风险资产配置比例的影响是否也具有边际递减特征，需由第二部分中注2的方法判断。以下分别考察这些问题。

表2 家庭风险资产配置比例Tobit模型的估计结果

续表

（一）家庭对外关系与新型信息工具使用的边际影响和交互效应

由表2（III）控制函数方法估计结果，并利用（6）（7）式，我们逐个计算家庭对外关系与新型信息工具使用对家庭风险资产配置比例的边际影响、交互效应在各样本观察点处的值。图1 给出它们关于被解释变量rate_r拟合值的散点图。

由图1（A）知，social和inf对风险家庭资产配置比例的边际影响在所有观察点处均为正，与表2中social和inf系数估计为正的结论一致。由图1（B）知，social和inf影响家庭风险资产配置比例的交互效应在大多数观察点处均为正（只在少部分观察点处为负），这与表2（II）中social和inf交互项的系数估计为负的结论不完全一致。可见，social和inf的边际影响及交互效应具有个体异质性，仅依IV-Tobit 估计中交互项系数的大小、符号和显著性，对交互效应进行分析和推断是不恰当的。

图1 social和inf边际影响和交互效应的散点图

表3 报告social和inf的边际影响、交互效应的样本观察值的描述统计结果。平均来看，social和inf对家庭风险资产配置比例的边际影响均为正，两者交互效应也为正。在不同分位点处，social和inf的边际影响均也为正；两者的交互效应在最小值处为负，其他分位点处均显著为正。

我们采用自助法对边际影响、交互效应均值是否等于零的原假设进行检验，其中对样本进行500次重抽样，结果见表4。平均来看，social和inf对家庭资产配置比例的边际影响均显著为正；两者的交互效应显著为正。正的交互效应说明，新型信息化对家庭对外关系影响资产配置比例的效应具有正向调节作用；同样，对外关系对新型信息化影响资产配置比例的效应也具有正向调节作用。

表3 边际影响和交互效应的统计描述

表4 平均边际影响与交互效应的Bootstrap结果

（二）年龄的边际影响和平方效应

由表2（II）估计知，年龄及其平方项的系数估计分别为正和负，即年龄对潜回归函数的影响满足边际效用递减规律。我们使用前述方法（9）估计年龄对家庭风险资产配置比例的边际影响和平方效应在各样本点处的值。图2给出它们关于年龄的散点图。可见，age对家庭风险资产配置比例的边际影响在年龄小于60岁时均为正，而在大于60处时均为负；age的平方效应总小于零。

图2 年龄的边际影响（左）和平方效应（右）的散点图

表5报告age的边际影响、平方效应的样本观察值的描述统计结果。平均来看，age对家庭风险资产配置比例的边际影响为正，其平方效应为负，故年龄影响风险资产配置比例符合边际效用递减规律，这与表2（II）中age与age2系数估计的正负相一致。不过，年龄的边际影响在低分位点处为负，在高分位点处（大于50%）才表现为正。年龄的平方效应除在最大值处为正外，在其他分位点处均为负。

表5 年龄边际影响、平方效应的统计描述

我们采用自助法对age的边际影响、平方效应的平均水平进行bootstrap 检验，其中进行500 次重抽样，结果见表6。从平均水平来看，age对家庭风险资产配置比例的边际影响显著为正，平方效应显著为负，进一步验证了年龄对家庭风险资产配置比例的影响符合边际效用递减规律的结论。

表6 age的边际影响与平均效应平均水平的bootstrap结果

五、总结与启示

角解型Tobit模型是基于个体最优选择可能落于选择空间的边界上所构建、反映个体变量之间的影响机制，它不同于原模型为线性回归模型而被解释变量因为数据归并而设定的Tobit模型。目前计量经济方法论文献没有给出角解型内生Tobit模型中解释变量交互效应、平方效应的估计与检验方法。

本文给出角解型内生Tobit模型中解释变量边际影响、交互效应、平方效应的估计与检验方法，推广了Ai and Norton（2003）在外生解释变量情形下的相应估计与检验。关于交互效应的Monte Carlo数值模拟显示，我们的估计方法在有限样本下表现良好，但不当的估计方法会对真实交互效应产生较大的偏误。

作为应用，我们设定家庭风险资产配置比例Tobit模型，并应用本文方法，估计家庭对外关系与新型信息化工具使用对家庭风险资产配置比例的边际影响、交互效应，以及年龄对风险资产配置比例的边际影响和平方效应。总的来看，家庭对外关系与新型信息化工具使用对风险资产配置比例的交互效应显著为正，新型信息化工具使用对家庭对外关系影响资产配置比例的效应具有正向的调节作用；同样，家庭对外关系也会促进新型信息化工具使用对风险资产配置比例的影响效应。户主年龄对家庭风险资产配置比例的边际影响显著为正，且平方效应显著为负，符合边际效用递减的规律。

实证研究中我们应区别角解型Tobit 模型和数据归并型Tobit 模型中解释变量边际影响、交互效应、平方效应的估计方法的不同。如果所研究的模型是角解型内生Tobit模型，则我们不可简单地将IV-Tobit模型中变量、交互项、平方项的系数估计作为变量边际影响、变量间交互效应、平方效应估计和推断的依据，也不可使用外生解释变量情形下的Ai-Norton 方法估计交互效应，而应按本文的估计和检验方法去做。在内生情形下角解型Tobit模型中交互效应、平方效应的估计与推断方法具有广泛适用性。