基金经理投资能力研究<br/>——基于多重假设检验两类错误控制的方法

基金经理投资能力研究
——基于多重假设检验两类错误控制的方法

2022-04-15廖长友李楠楠刘星意

公共财政研究 2022年1期

廖长友李楠楠刘星意

一、引言

每个投资者都希望挑选具有投资能力的基金经理管理的基金进行投资，从而实现资产的增值，同时尽可能避开没有投资能力的基金经理管理的基金以规避损失。Jensen（1968）以来，基金经理是否具有投资能力，一直是金融经济学领域的重要话题。研究者从不同的角度，采用不同的方法，对基金经理是否具有投资能力做了大量的研究，但是结论并不一致。

目前，研究者主要基于基金历史收益率数据，运用定价因子模型估计经过风险调整的超额收益率，并通过假设检验判断该基金是否具有投资能力①Berk and van Binsbergen（2015）的研究是一个例外。他们认为，运用定价因子模型基于基金的收益率数据计算的alpha并不能度量基金经理的投资能力，而应该采用基金经理从市场赚取的财富（他们称之为增加值，Value added）衡量基金经理的投资能力。本文仍然采用主流的方法，以基金的alpha度量基金经理的投资能力。。

其中，αi是第i只基金经过风险调整的超额收益率。当αi的p值小于预先设定的显著性水平（该显著性水平是研究者事前确定的能够容忍的犯第一类错误的概率）时，研究者拒绝原假设，该基金经理被判为有投资能力；否则，该基金经理被判为没有投资能力。但是，由于抽样随机性的影响，上述假设检验过程中会产生两类错误。在单个假设检验中，两类错误及其后果较易控制。然而，当研究者同时对多达几千个基金经理是否具有投资能力做出判断时，第一类错误和第二类错误带来的问题就比较严重而无法接受。

最近，在检验基金经理投资能力时，研究者越来越重视对多重假设检验中的两类错误的控制。Barras et al.（2010）采用Carhart（1997）四因素模型估计基金的alpha，基于Storey（2002）方法并结合自举抽样法控制运气因素对基金业绩评价的影响，发现仅有0.6%的主动管理基金具有投资能力。Ferson and Chen（2019）运用修改后Barras et al.（2010）的方法研究美国主动管理基金和对冲基金的投资能力，没有发现共同基金具有投资能力的证据，但发现有高达50%的对冲基金的alpha显著为正。Harvey and Liu（2020b）评估了Fama and French（2010）方法的两类错误，并修正了Fama and French（2010）的实施方法②Fama and French（2010）允许最低具有8个收益观测值的基金进入样本。Harvey and Liu（2020b）发现，当样本中基金的收益观测值数量较低时，会降低假设检验的功效，因而，他们的研究样本中只保留至少具有36个观测值的基金。，结果发现美国基金市场上确实存在有投资能力的基金。基于中国基金市场数据，运用Barras et al.（2010）的方法，Yi and He（2016）发现中国基金市场上至少有10%的基金经理具有市场选时能力。唐涯等（2014）也发现少部分国内基金经理真正具有投资能力。Chordia et al.（2020）通过检验随机生成的超过200万个交易策略后发现，在多重假设检验（Multiple Hypothesis Test，MHT）中如果不采取措施控制两类错误，第一类错误发生的概率高达45%。因此，在多重假设检验中必须采取措施控制第一类错误和第二类错误。

目前，在多重假设检验中，研究者更多关注对第一类错误的控制，Benjamini and Hochberg（1995）、Benjamini and Yekutieli（2001）以及Storey（2002）等提出了各种MHT调整方法。当面对各种MHT调整方法时，如何评价这些调整方法的可靠性？显然，研究者需要获得在假设检验中实施这些调整方法后犯两类错误的信息，然后根据对两类错误的关注重点选择最优的调整方法。然而，运用这些调整方法后，MHT两类错误的计算在过去一直未能得到满意地解决，因此，在特定应用场景下很难对各种MHT调整方法做出选择并进行检验。Harvey and Liu（2020a）提出的两阶段自举抽样法（Double Bootstrap）能够计算各种MHT调整方法的两类错误。本文首先运用两阶段自举抽样法计算多重假设检验中各种调整方法的两类错误发生概率；其次，通过比较各种调整方法的两类错误，从中选择最优的MHT调整方法；最后，运用筛选出来的MHT调整方法对国内开放式股票型以及偏股型基金是否具有投资能力做出判断，并确定具有投资能力的基金及其比例。

本文的贡献主要体现在以下两个方面：

第一，运用Harvey and Liu（2020a）的两阶段自举抽样方法，基于中国股票型以及偏股型基金数据，对各种MHT调整方法的两类错误做出评估，并筛选出最优调整方法评估基金经理的投资能力。现有相关研究一般直接选用某种MHT调整方法研究基金经理的投资能力。然而，不同的MHT调整方法，在实施中两类错误发生的概率不同。本文避免了运用同一种调整方法研究不同时间区间的基金经理投资能力，因此，能够更合理地判断基金经理的投资能力。

第二，在不同时间区间内，基金alpha之间的相关性等截面分布特征存在差异，这会影响特定的MHT调整方法的两类错误。本文将中国股票型以及偏股型基金的整个样本区间划分成若干子区间，并分别在每一个子区间内运用Harvey and Liu（2020a）的两阶段自举抽样方法筛选最优MHT调整方法，并对比分析各样本区间基金经理的投资能力。目前，在国内市场上，对基金经理是否具有投资能力存在争议。本文的研究有助于解释已有结论存在的差异并提供了关于基金经理投资能力的新证据。

二、多重假设检验的两类错误及其控制方法

（一）多重假设检验中的两类错误

当研究者评价某个基金经理的投资能力时，通常会犯两类错误。第一类错误是当一个基金经理没有投资能力时，错误地判断其有投资能力；第二类错误是当一个基金经理有投资能力时，错误地判断其没有投资能力。设置统计显著性水平或增大样本容量能够有效控制单个假设检验中的两类错误。

当评价多个基金经理投资能力时（本质是做多重假设检验），控制第一类错误和第二类错误变得更为复杂。当第一类错误发生的概率较大时，意味着有较多的没有投资能力的基金经理被错判为有投资能力，这会给投资者带来损失；当第二类错误发生的概率较大时，意味着有较多的具有投资能力的基金经理被错判为没有投资能力，投资者错失了投资机会。当研究者力图尽可能降低第一类错误，则必然会增加第二类错误发生的概率。因此，必须合理控制两类错误才能够确保基金经理投资能力评价的可靠性。然而，在多重假设检验背景下，定义、计算和控制两类错误发生的概率变得较为困难①Harvey and Liu（2020b）认为，在多重假设检验下，第一类错误的定义不同于单个假设检验下的第一类错误，而第二类错误的定义涉及高维向量；其次，在一维条件下计算两类错误发生概率的条件不再成立。。

（二）多重假设检验的第一类错误控制方法

在多重假设检验中，研究者更多关注对第一类错误的控制，并提出各种类型的控制策略。考虑到其他两类控制策略实施过程中的严苛条件、计算困难以及结果的不理想性，本文采用的是控制错误发现率（False Discovery Rate， FDR）的策略，FDR是FDP的均值，这类策略试图确保多重假设检验过程中错误发现率低于某个事先确定的显著性水平δ，即：FDR=E（FDP）≤δ。

这类策略主要包括三种方法，即Benjamini and Hochberg（1995）的方法（以下简称BH方法）、Benjamini and Yekutieli（2001）的方法（以下简称BY方法）以及Storey（2002）方法②三类方法的具体实施步骤可向作者索取。。在实施过程中可以看到，BY方法比BH方法在拒绝原假设时更为保守。BH方法要求多重假设检验中的p值相互独立，而BY方法则无需这个条件。对于Storey（2002）方法，Barras et al.（2010）运用bootstrap方法确定适合样本数据的λ。Bajgrowicz and Scaillet（2012）建议λ取值0.6。在本文中λ分别取值0.2、0.4和0.6。

上述调整方法能够在多重假设检验中实现对第一类错误的控制，但并不能计算并控制第二类错误。Harvey and Liu（2020a）的双重自举抽样法通过对样本数据实施两个阶段的自举抽样，能够计算假设检验中运用上述各种调整方法后两类错误的发生概率。本文运用Harvey and Liu（2020a）的双重自举抽样法计算假设检验中上述调整方法的第一类错误和第二类错误，从而筛选出最优的调整方法，在此基础上评价基金经理的投资能力③Harvey and Liu（2020a）的双重自举抽样法的具体实施细节可向作者索取。。

三、数据与描述性统计

（一）数据

本文的数据来自RESSET的金融数据库。本文分析基金经理的投资能力，因此仅将投资风格为股票型、激进配置型、偏股型、灵活配置型的基金纳入样本①这些基金在RESSET数据库中投资风格代码分别为1、10、12和59。值得说明的是，在2014年，证监会要求凡是基金名称中标明为“股票型”的基金，其资产组合中的股票持有比例不得低于80%（之前规定股票持有比例不低于70%）。一部分股票型基金为了规避股票持仓比例的限制，便将其基金类型变更为混合型基金，导致股票型基金数量大幅减少。为了将更多的基金纳入研究样本，本文将激进配置型、偏股型以及灵活配置型基金纳入样本。。研究样本中排除了各种指数型基金、LOF基金、分级基金以及ETF基金。同时，考虑到QDII基金投资标的与其它基金不同，基金业绩比较基准也完全不同，因而样本中排除了QDII基金。本文使用的样本涵盖的时间是2011年1月至2020年12月。此外，各基金成立时间不同，本文将成立时间不足3年的基金②Andrikogiannopoulou and Papakonstantinou（2019）、Barras et al .（2020）以及Harvey and Liu（2020a）均发现，当基金收益观测值数量较少时，将会影响alpha及其t值的准确性，导致两类错误的计算出现偏差。排除在样本外。截至2020年12月，在本文所研究的样本中共有2043只基金，共143535个观测值。

（二）如何估计基金的alpha、alpha的t值和p值？

运用定价因子模型估计基金的超额收益并进行显著性检验，是判断基金经理投资能力的常见做法。在美国金融市场上，研究者早期一般采用CAPM、Fama and French（1993）的三因子模型（FF-3）和Carhart（1997）的四因子模型（FFC-4）估计基金的alpha。近年来，Fama and French（2015）的五因子模型（FF-5），Hou et al.（2015）的四因子模型开始受到越来越多的关注。

在中国证券市场上，研究者应该选择哪一个定价因子模型估计基金的alpha并据以判断基金经理的投资能力呢？赵胜民等（2016）发现，相对于FF-5，FF-3具有更好的解释能力。李志冰等（2017）却发现，FF-5的解释能力优于CAPM、FF-3和FFC-4。Sha and Gao（2019）同样发现FF-5优于FF-3以及CAPM。Liu et al.（2019）认为，不能简单复制Fama and French（1993）以及Carhart（1997）的方法构建定价因子，他们检验了这些模型在中国金融市场上的适用性。Liu et al.（2019）根据中国金融市场运行的特点，在剔除了市值最低的30%股票并使用EP替代BM构建价值因子的基础上③EP即净利润与上月末收盘价和总股数的乘积之比（Earnings-price ratio），BM即账面市值比（Book-to-market ratio）。，重新构建了市场因子、市值因子和价值因子，由此形成了与FF-3和FFC-4对应的定价因子模型，即CH-3和CH-4。他们发现，相比FF-3和FF-5，CH-3和CH-4能够解释更多的市场异象，因此，CH-3和CH-4优于FF-3和FFC-4。

由此可见，到目前为止，在中国证券市场上，对于哪一个定价因子模型能够更好地解释资产预期收益率并未有一致的结论。我们认为，正如Liu et al.（2019）所言，在中国证券市场上，由于A股的IPO发审制度不健全，使得A股中市值最小的股票具有很好的“壳价值”，这些股票的收益率多与自身的“壳价值”相关，而与公司的基本面没有太大关系。如果不剔除市值最小的股票，通过复制FF-3或FFC-4的方法构建出来的规模因子收益率不能反映不同规模上市公司股票收益率差异的基本状况。此外，在不同的证券市场，研究者需要选择能够度量“价值股效应”的不同指标。Liu et al.（2019）认为，在中国证券市场上，EP较BM能够度量“价值股效应”。因此，本文选取Liu et al.（2019）的CH-3和CH-4估计基金的alpha。在本文的稳健性分析中，我们也采用根据CAPM、FF-3和FFC-4计算的基金alpha和p值。

（三）基金业绩的描述性统计

表1给出了各时间段内运用因子模型估计的基金alpha。首先，在计算基金业绩时选取的时间区间不同，基金业绩有很大的差异。在2011—2015年，基金的年平均超额收益仅为4.2%（以CH-3计算）。国内股市在2015年前后出现了暴涨暴跌，基金要获得好的业绩非常困难。而在2016—2020年，在CH-3模型下，基金的月平均收益率为0.83%，年平均收益率为9.96%，这是一个较高的收益水平。经过2015年年中的股市大跌，从2016年初开始，股市开始逐步恢复性上涨，股市波动性明显下降，在此期间，大多数基金都取得了较好的业绩。我们将样本数据分成三个时间更短的子样本后，发现基金的月平均超额收益在2014—2016年为-0.11%，远低于2011—2013年的0.52%和2017—2019年的0.53%。可见2015年前后的国内股市波动对基金业绩具有很大的负面影响。

表1 基金业绩的描述性统计

其次，我们发现，在同一时间段内，CH-3模型和CH-4模型计算的基金业绩非常接近，一般相差1—2个基点。CH-3模型和CH-4模型估计的基金业绩相关系数均在0.99以上，说明运用这两个定价因子模型估计的基金业绩高度趋同。因此，为节约篇幅，本文主要基于CH-3模型估计的基金业绩检验基金经理的投资能力。

（四）传统假设检验的结果

在假设检验中，传统上一般采用1%、5%和10%三个显著性水平（对于单侧假设检验，对应的t统计量的临界值分别为2.33，1.65和1.28）对是否拒绝原假设做出决策。①由于我们的原假设是H0：α≤0，因此，所进行的是单侧假设检验。基于CH-3模型计算的基金alpha的t值，我们统计t值超过临界值的基金数量及其所占比例，所得结果见表2。我们也绘制出alpha的t统计量分布直方图，见图1。

表2 alpha的t值超过临界值的数量及其比例

图1：基金alpha的t值分布

从图1和表2可见，2011—2015年，alpha的t值大多集中于-1.5—1.5之间，t值超过1.65的基金有56只，占比为12.61%。然而，在2016—2020年，与标准正态分布相比，基金alpha的t值呈现明显的右偏分布，大部分的t值均在0以上，t值超过1.65的基金比例高达63.63%。这意味着，如果不采用多重假设检验调整方法消除偶然性因素的影响，高达63.63%的基金经理具有投资能力。另一方面，在2014—2016年，t值分布在0附近较为集中，t值超过1.65的基金比例仅有4.92%。同样，在2011—2013年以及2017—2019年，t值超过1.65的基金比例也处在较高水平①2011—2013年、2014—2016年以及2017—2019年alpha的t统计量分布直方图可向作者索取。。

由此可见，表2的结果与表1的结果一致。在不同的时间段内衡量基金的业绩，具有投资能力的基金经理比例具有很大差异。显然，在数量众多的基金中（2016—2020年的样本共有2018只基金），少数基金由于运气的因素可能表现出较好的业绩。因此，我们必须采用MHT调整方法，尽可能减少由于运气因素对基金业绩评价的影响。

四、多重假设检验调整方法的筛选及运用

（一）P0的初步确定

前已述及，样本数据中各基金alpha之间的相关程度，以及具有投资能力的基金比例等具体特征不同，将会影响到多重假设检验两类错误的发生概率。本节运用Harvey and Liu（2020a）的方法评价各种MHT调整方法的两类错误，经过比较分析筛选出最优MHT调整方法。首先，我们需要初步确定具有投资能力的基金比例P0的取值范围。Harvey and Liu（2020a）认为，研究者可以根据自己的先验认知确定P0，也可以通过计算在不同显著性水平下t值超过临界值的基金比例确定P0。我们根据后者初步确定具有投资能力基金比例。由于随机性因素的影响，真实的具有投资能力的基金占比可能会高于或低于初步确定的比例。因此，我们取临近此比例的3个值作为P0。例如，在2011—2015年，t值超过1.65的基金的比例为12.61%，则设定P0的值分别为10%、15%和20%，在此基础上分别计算实施各种MHT调整方法后两类错误的发生概率。

（二）多重假设检验调整方法的两类错误及其筛选

根据初步确定的P0，运用Harvey and Liu（2020a）的双重自举抽样法，并设定第一阶段的自举抽样次数I=100，第二阶段自举抽样次数J=500，我们计算了各种调整方法的两类错误，所得结果见表3。

首先，从表3A可见，在2011—2015年，实施各种调整方法的第一类错误都低于预先设定的显著性水平。如当P0为15%时，在5%的显著性水平下，BH方法的第一类错误是2.86%，而BY方法的第一类错误为0.52%，远远低于预先设定的显著性水平；Storey方法的第一类错误为3.24%—3.32%之间。显然，BY方法在控制第一类错误时更为保守。相对而言，Storey方法的第一类错误更接近预定的显著性水平；另一方面，Storey方法的第二类错误约为9%，在各种控制方法中具有最低的第二类错误。当P0取值变化时，我们也得到相近的结果。可见，在2011—2015年，选取Storey方法控制两类错误更为合理。

表3 多重假设检验调整方法的两类错误

表3B 2016—2020年优选方法：BH

其次，通过观察表3B，我们发现，在2016—2020年，Storey方法的第一类错误大多高于预定的显著性水平，而BY方法的第一类错误却远远低于1%，且远低于预定的显著性水平；相比之下，BH方法的第一类错误更接近预定的显著性水平。例如，当P0为60%时，在5%的显著性水平下，BH方法的第一类错误为2.63%，低于预定的5%显著性水平。另一方面，BY方法的第二类错误最高，而BH方法的第二类错误为22.4%，介于BY方法和Storey方法之间。因此，在

2016—2020年，选用BH方法控制两类错误更为合理。

表4 多重假设检验调整方法的两类错误

表4B 2014—2016年优选方法：BH

表4C 2017—2019年优选方法：BH

我们进一步将样本数据分成2011—2013年、2014—2016年和2017—2019年三个时间段的子样本，分别研究实施多重假设检验后的两类错误，所得结果见表4。从表4A可见，在2011—2013年，BH方法和Storey方法的第一类错误都超过了预定的显著性水平，而只有BY方法的第一类错误在预定显著性水平之下；而且BY方法的第二类错误相对BH方法和Storey方法仅高出约5个百分点，为14.5%。因此，在此期间考察基金经理的投资能力，采用BY方法更为合理。在2014—2016年，只有BH方法和BY方法的第一类错误在预定显著性水平之下，而BH方法的第一类错误更接近预定显著性水平；从第二类错误来看，BY方法更高。因此，在此期间，选择BH方法更为合理。与此类似，从表4C可见，2017—2019年选择BH方法进行多重假设检验的调整更为合理。

（三）具有投资能力的基金的比例

运用筛选出来的最优MHT调整方法，我们计算了各时间段内的具有投资能力的基金比例，所得结果见表5。

表5 多重假设检验调整后具有投资能力的基金比例

从表5 我们可以得到如下结论：

1. 在2011—2015年，采用Storey方法后，当显著性水平为1%时，没有基金表现出投资能力，在5%和10%的显著性水平下，有1只基金表现出投资能力，仅占0.23%。而在未经MHT方法调整前，当显著性水平为5%时，有高达103只基金（占12.61%）显示出投资能力。可见，其中绝大多数基金的投资能力均是来源于运气，并不是真正具有投资能力。

2. 在2016—2020年，采用BH方法调整后，即使在1%的显著性水平下，仍然有30.87%的基金表现出了显著的投资能力。值得注意的是，在此时间段内，经过BH方法调整后的具有投资能力的基金比例，与没有调整之前相比，并未有大幅度的下降。如当显著性水平为5%时，未经MHT调整之前，有63.63%的基金表现出具有投资能力。经过BH方法调整后，具有投资能力的基金所占比例仍达55.6%，仅下降了8个百分点，超过半数以上的基金具有真正的投资能力。

3. 当我们将样本数据分成3个时间更短的子样本后，我们发现，在2011—2013年以及2014—2016年，没有基金经理具有真正的投资能力。而在2017年之后，基金业绩得以提升，至少有近1/3的基金经理获得了显著的超额收益，表现出了较好的投资能力。

在国内基金市场上，基金经理在近5年表现出了较好的业绩，在此之前的一段时间的业绩却相对较差。而在美国基金市场上，Fama and French（2010）以及Harvey and Liu（2020a）发现，2000年之前约15年之内基金的业绩较好，之后的业绩却变得很差。为什么在不同时间段内国内基金经理表现出不同的投资能力呢？我们认为，这主要有两个原因。

第一，监管机构有关基金持股比例的强制规定、缺乏有效的做空机制以及较差的市场行情导致基金经理很难获得较好业绩。首先，证监会规定，主动管理的股票型基金持股比例不得低于80%，混合型基金的持股比例不得低于60%。当市场向下运行时，即使基金经理预期市场行情变差也不能大幅减仓规避风险。其次，由于国内股票市场缺乏有效的做空渠道和机制，当股市下跌时，基金经理无法通过做空市场赚取收益。这限制了基金经理投资能力的发挥，导致基金业绩变差。最后，在经历了前期由于应对金融危机而出台的强力财政、货币政策带来的高速经济增长后，从2011年开始，国内财政、货币政策开始收紧，这对股票市场产生了冲击。相反，在2016—2020年，股市总体上逐步走强，持股比例的强制规定和做空机制的缺乏并不会限制基金经理投资能力的发挥，因而基金经理有可能展现出投资能力。

第二，从2014年下半年至2015年底，国内股市经历暴涨暴跌过程，股市波动性大幅度提高。而从2016年开始，股市波动性明显下降。国内三大指数在2011—2015年收益率的标准差均远远超过了2016—2020年收益率的标准差。在剧烈波动的市场里，投资难度增加，投资者（包括基金经理）很难取得较好业绩。

前面的论述是基于CH-3模型估计的alpha检验基金经理的投资能力。为了检验上述结论的稳健性，本文进一步基于CAPM、FF-3以及FFC-4模型估计的alpha检验基金经理的投资能力。稳健分析的结果与前述结论一致①为节约篇幅，此处没有列出稳健分析的结果，如有需要可向作者索取。。

五、结论

对基金的超额收益率即alpha进行假设检验是判断基金经理是否具有投资能力的重要方法。然而，在假设检验过程中会产生两类错误。由于基金数量众多，必须在控制多重假设检验中的两类错误基础上才能够对基金经理的投资能力做出正确判断。目前，研究者提出了各种MHT调整方法，如Benjamini and Hochberg（1995）的方法、Benjamini and Yekutieli（2001）的方法以及Storey（2002）的方法等等。这些调整方法各有特点，研究者应当如何对这些调整方法做出选择呢？Harvey and Liu（2020a）提出了两阶段自举抽样方法，这种方法可以评估在多重假设检验中实施这些调整方法后的两类错误，从而实现对MHT调整方法的选择。

本文首先运用Harvey and Liu（2020a）的方法，通过对基金样本数据进行两阶段自举抽样后，计算多重假设检验中各种调整方法两类错误发生的概率。其次，通过比较各种调整方法的两类错误，本文对各种MHT调整方法进行筛选。本文发现，在2011—2015年，Storey方法是更为合理的MHT调整方法；而在2016—2020年，BH方法是更为合理的方法。最后，运用筛选出来的MHT调整方法，本文检验了国内开放式股票型以及偏股型基金经理的投资能力。本文发现，在2011—2015年，基金经理整体上并不具有投资能力，而在2016—2020年，半数以上的基金经理表现出了显著的投资能力。

Harvey and Liu（2020a）的两阶段自举抽样方法，为检验基金经理投资能力提供了新的思路和方法。自举抽样过程中可以采取对回归残差独立随机抽样和联合随机抽样等不同的实施方法。目前，尚未有文献研究具体自举抽样实施方法对两阶段自举抽样方法有效性的影响，这是值得进一步研究的新课题。