投资者情绪综合测度指数的构建

2018-10-09朱淑珍顾海峰

统计与决策 2018年17期

贺刚，朱淑珍，顾海峰

（1.上海立信会计金融学院金融学院，上海201209；2.东华大学旭日工商管理学院，上海 200051）

0 引言

投资者情绪的测量问题一直是行为金融学研究的重点和难点之一，之前的研究多是从理论上来论证投资者情绪对证券价格的影响，而尚未形成统一的指标利用现实数据来测量投资者情绪。投资者情绪代理指标通常分为单一指标和综合情绪指标，根据现有文献来看，综合情绪指标的构建已成为情绪指标构建的主流。在此方面较为著名的是 Baker和 Wurgler（2006）[1]创建的 B-W 方法。现在学术界在投资者情绪复合指标的构建问题上大多遵照他们的这一方法[2-5]。

近几年一些学者也试图用其他方法来提取原始情绪指标当中的共同成分。Huang等（2014）[6]应用偏最小二乘法（PLS）构建了投资者情绪指数，消除多个情绪代理常见的噪声分量。基于此，本文也将采用偏最小二乘法来重构投资者情绪综合测度指数。同时,相比于偏最小二乘法，LASSO法对于数据的要求更低，应用程度更广，LASSO法主要是通过构造惩罚函数来最大程度地避免模型的过度拟合。本文尝试通过LASSO回归法来构造情绪综合测度指数，并与基于偏最小二乘法构造的指数进行对比分析。

1 指数的构建方法

1.1 偏最小二乘法

偏最小二乘法能够在小样本的情况下实现多变量对多变量的回归建模，后经Kelly和Pruitt（2015）[7]改进后可用来解决变量信息的提取问题。与主成分分析法不同的是，偏最小二乘法所提取的成分既能很好地解释预测变量中的信息，又能很好地概括响应变量，并排除系统中的噪声干扰。假设股指当期收盘价在一定程度上受到当期投资者情绪的影响，用公式可以表示为：

其中，SENTt表示第t期的投资者情绪综合测度指数，Pt表示中证流通指数第t期的收盘价，中证流通指数在第t期的真实收盘价为：

其中，εt为残差项，其不可预测且与投资者情绪SENTt无关，令It=(I1t，I2t，…，Ipt)′表示在第t期的n×1 阶单个投资者情绪代理变量向量，且假设各原始代理指标均具有结构：

SENTt应为SENTit的某种线性组合，即SENTt与SENTit之间的关系为：

综合式（2）至式（4）可以得到，单个投资者情绪代理指标It=(I1t，I2t，…，Ipt)′与中证流通指数收盘价Pt之间存在着关系：

每个代理变量对投资者情绪的贡献度具体为多少，可以通过各投资者情绪代理变量Iit与中证指数收盘价Pt之间的协方差来确定。然后，基于PLS法构造的投资者情绪综合测度指数可以表示为：

其中，It=(I1t，I2t，…，Ipt)′表示单个投资者情绪原始代理变量序列，π=(π1，π2，…，πp)′表示各代理指标在投资者情绪综合测度指数中所占的权重。

1.2 LASSO回归法

Tibshirani（1996）[8]提出的 LASSO 方法成功应用于COX模型的变量选择。之后，Tibshiralli和Sawnders（2005）通过加入约束条件控制了回归系数的波动性，对LASSO回归法进行了改进，可将其用于变量的筛选以及变量信息的提取。

假设有样本数据 (Xi，yi)，i=1，2，…，N，其中，Xi=(xi1，…，xip)′和yi分别是第i个观测值对应的自变量和响应变量。考虑多元线性回归模型：

不失一般性，在多元线性回归模型中，观测值通常彼此独立，或者响应变量yi在观测值给定的情况下独立，即yi关于Xi条件独立，同时假设xij是标准化的，也就是说此时，对应的LASSO估计为：

LASSO算法的优势及本质在于，它是在回归系数的绝对值之和小于一个常数的约束条件下，使残差平方和最小化，从而产生某些严格等于0的回归系数，以达到提高模型解释力的作用。在式（5）的基础上，结合式（8）中的定义，可通过式（9）来理解LASSO回归法在投资者情绪综合测度指数中的应用：

其中，Pt表示中证流通指数第t期的收盘价，It=(I1t，I2t，…，Ipt)′表示在第t期的n×1阶单个投资者情绪代理变量向量，πi为待估参数，代表原始代理变量Iit对中证指数收盘价的解释能力，λ≥0，用来控制LASSO模型的复杂程度，可通过观察若干次λ不同取值下的拟合效果来选取最优的λ，或者结合交叉验证法来确定最优λ。基于LASSO算法进行回归，可以求得式（9）中的πi，然后将πi带入式（6）中，可得到基于LASSO法构造的综合测度指数SENT_LASSO。

2 指数的构建

2.1 指标选取

在指标数据搜集的过程中，为了更精准地追踪市场上投资者情绪的变化，本文采用信息颗粒度更小、更高频的周度数据来捕捉即时的投资者情绪。本文将截取2008年1月4日至2014年5月30日的周度数据作为情绪指数构建的训练集，同时为了检验指数构建方法的有效性及鲁棒性，将截取2014年6月6日至2015年5月29日的周度数据作为指数构建的测试集，以对应周期的中证流通指数走势来代表国内A股的整体表现。在代理指标的具体选取上本文参考贺刚等（2018）[9]的做法，选取了五个客观指标，分别为同期的申万微利股指数LPM(0)、申万高市盈率指数HPEI(0)、申万高市净率指数HPBI(0)、滞后一期的每周新增基金账户数NAFA(+1)、滞后六期的每周新增IPO数量NIPO(+6)，以及一个主观指标：同期新财富最佳分析师指数 CAI(0)。基于 Baker和 Wurgler（2006）[1]的研究结论认为，投资者情绪在引导投资者决策的同时，本身也会受到宏观经济因素变动的影响，但这种是基于投资者心理因素影响的理性情绪，不包含在本文的考察范围之内，因此，将通过以下多元回归模型法先将投资者情绪中的理性成分分离出来，并予以剔除，仅保留投资者情绪中的非理性成分。通过回归得到的残差序列分别用ELPM(0)、ECAI(0)、EHPBI(0)、EHPEI(0)、ENIPO(+6)表示，代表剔除宏观经济基本面变动之后的非理性情绪代理变量。

2.2 基于PLS法构造投资者情绪综合测度指数

为了确定最优的主成分个数，本文根据“留一交叉验证法”的结果，选取误差平方和最小，或者误差平方和几乎不再变化时，所对应的成分个数作为最终模型选取的成分个数。基于“留一交叉验证法”选取不同的主成分，对模型进行初步拟合，结果见表1。

表1 PLS法模型初步拟合结果

图1不同主成分个数对应的误差平方和

基于表1中误差平方和结果并结合图1可以发现，当主成分个数为3时，误差平方和几乎不再发生变化，且对中证流通指数收盘价P、各原始代理变量I的方差累积贡献率均达到了85%以上。因此确定模型中主成分的最终个数为3，并基于该结论构造投资者情绪综合测度指数

2.3 基于LASSO回归法构造投资者情绪综合测度指数

基于LASSO回归法理论认为，利用LASSO回归法在变量筛选及信息提取方面具有一定的优势，本文尝试通过LASSO回归法筛选变量，并构造投资者情绪综合测度指数。首先通过交叉验证法确定模型的惩罚力度λ，结果见图2。左边虚线对应着最佳λ，右边虚线对应一个标准误内的最佳模型，横轴为λ的对数，纵轴是模型误差。

图2不同lambda取值下的交叉验证结果

从图2可以看到，最佳的λ取值就在曲线的最低点处，对应的变量个数为5个，而右侧虚线是在其一个标准误内更简洁的模型（对应变量个数为3），由于两个λ对应的模型误差变化并不显著，所以本文倾向于选择更为简洁的模型，确定对应的λ值为0.0083。基于该惩罚力度，可以通过LASSO回归法估计出各代理变量的系数，从而构造出投资者情绪综合测度指数SENT_LASSO：

根据式（11）的拟合结果可以看出，微利股股价的波动、新财富最佳分析师指数以及高市盈率股票价格的变化可以最大程度地反映出市场中的投资者情绪变动。这与理论预期相符，可见，LASSO算法在减少变量个数的同时，也降低了模型的复杂程度。

3 两种方法构建情绪综合测度指数的比较

本文从三个方面来比较两种方法的拟合效果，从而挑选出构建情绪测度指数的最优方法。一是模型的合理性检验。一般情况下，投资者情绪应该是股市收益率波动的原因变量，如果构建的情绪综合测度指数是股市收益率波动的格兰杰原因，则认为该指数通过合理性检验，否则，认为构建的情绪综合测度指数所反映出的情绪信息是无效的。二是模型的稳健性检验。在不同的市场状态下，分别构建情绪综合测度指数，观察各代理指标的系数是否发生显著改变，若无显著改变，则认为该方法构建的投资者情绪综合测度指数是稳健的。三是预测能力检验。如果构建的情绪综合测度指数对未来股指价格变动的解释能力较强，则可以认为其与市场走势趋于一致，具有较为理想的预测能力。

3.1 合理性检验

考虑到格兰杰因果关系检验只对平稳的时间序列数据有效，因此，在格兰杰因果关系检验之前，有必要对各投资者情绪指数序列SENT_PLS、SENT_LASSO，及其各自的一阶差分序列dSENT_PLS、dSENT_LASSO，和中证指数收盘价及收益率序列分别进行ADF单位根检验，以判断时间序列数据中是否存在着单位根。根据ADF检验结果，在5%的显著性水平下，投资者情绪综合测度指数的变动序列dSENT_PLS、dSENT_LASSO均为平稳的时间序列，中证流通指数收益率序列R也通过了单位根检验，故可对投资者情绪指数一阶差分序列与中证流通指数收益率序列进行格兰杰因果关系检验。

通过格兰杰因果关系检验结果可以看出，在5%的显著性水平下，通过两种方法构造的投资者情绪综合测度指数均是中证流通指数收益率变动的格兰杰原因。但是反过来，中证流通指数收益率变动却不是投资者情绪复合指数的格兰杰原因，即投资者的情绪单方面显著地推动着市场收益率的变动。总的来说，两种方法构造的投资者情绪综合测度指数均通过了合理性检验，对中证流通指数的变动均有一定程度的影响，从这个层面来看，两种方法并不存在着显著的差异。

3.2 稳健性检验

借鉴王镇等（2014）[10]的检验方法，根据中证流通指数的收盘价，将整个研究期间划分为“牛市”期和“熊市”期，然后在两种市场状态下，分别构建投资者情绪综合测度指数，观察各代理指标的系数大小、符号与上文中相比，是否发生了显著的变化。特别需要注意的是，虽然将样本期划分为“牛市”期和“熊市”期，但就样本期的跨度来看，从2008年1月1日至2014年5月30日，市场整体行情从未超过前一个高点，故还是将整个样本期视作一个大“熊市”。因此只要“熊市”期间，投资者情绪综合测度指数的因子构成与全样本指数不存在显著的差异，则可以认为该方法构建的投资者情绪综合测度指数是稳健的。

3.2.1 基于PLS法的稳健性检验

在“牛市”期和“熊市”期分别利用偏最小二乘法，将各原始代理指标所包含的投资者情绪信息提取出来，并拟合成投资者情绪综合测度指数，这里仍利用sLPM(0)、sCAI(0)、sNAFA(+1)、sHPBI(0)、sHPEI(0)、sNIPO(+6)六个指标，同样采用交叉验证法的结果确定模型中的主成分个数。其中，“牛市”期间选取前3个主成分，“熊市”期间选取前2个主成分，分别构建投资者情绪复合指数如下：

结合下页表2的统计结果，将式（12）、式（13）与式（19）中的全样本期间投资者情绪复合指数进行对比可以发现：式（12）中NAFA变量、NIPO变量的系数符号与式（10）中相反，式（13）中情绪综合测度指数的因子组成与式（10）相差不大。这可以说明，市场状态的改变使得各个情绪原始代理变量在构建投资者情绪综合测度指数时发生改变，且“熊市”时期构建的投资者情绪综合测度指数较为稳健，与全样本指数的因子组成相差不大，“牛市”投资者情绪复合指数的稳健性较差，即基于偏最小二乘法所构造的投资者情绪综合测度指数更适合预测“熊市”行情。但总体来说，基于本文预先设定的稳健性检验条件，认为偏最小二乘法所构造的情绪综合测度指数是稳健的。

3.2.2 基于LASSO回归法的稳健性检验

表2 “牛市”期和“熊市”期投资者情绪综合测度指标（基于PLS法）对比

同样地，在“牛市”期和“熊市”期分别利用LASSO回归法，确定各原始代理指标sLPM(0)、sCAI(0)、sNAFA(+1)、sHPBI(0)、sHPEI(0)、sNIPO(+6)对综合测度指数的贡献度，采用交叉验证法的结果确定惩罚的力度以及变量的个数，构建出投资者情绪综合指数：

结合表3的统计结果，将式（14）、式（15）与式（11）中的全样本期间投资者情绪复合指数进行对比可以发现，式（14）、式（15）中各投资者情绪代理变量的选取以及符号与式（11）中保持一致。但再从投资者情绪复合指数的因子组成大小来看，“牛市”期间，微利股指数LPM的系数以及申万高市盈率指数HPEI与式（11）之间存在显著的差异。其中，LPM的贡献度显著增强，HPEI的贡献度显著减弱，“熊市”期间则不存在显著的差异。这同样可以说明，不同的市场状态下，各个情绪原始代理变量在构建投资者情绪综合测度指数时的贡献度也不同，且“熊市”时期构造的投资者情绪综合测度指数较为稳健，“牛市”投资者情绪复合指数的稳健性较差，即基于LASSO回归法所构建的投资者情绪综合测度指数更适合预测“熊市”行情。但总的来说，基于本文预先设定的稳健性检验条件，认为LASSO回归法所构建的投资者情绪综合测度指数也同样是具有稳健性的。

3.3 预测能力检验

表3 “牛市”期和“熊市”期投资者情绪综合测度指标（基于LASSO回归法）对比

经过以上的合理性检验与稳健性对比，依然无法明确判断出两种方法孰优孰劣，因此，为了找到构建投资者情绪综合测度指数的最优方法，本文将检验两种方法所构建的投资者情绪综合测度指数对中证流通指数收盘价的预测能力。通常情况下，投资者的情绪越倾向于乐观，即投资者情绪综合测度指数取值越高，短期内中证流通指数的收盘价也会越高，反之则越低，也就是说，投资者情绪的高低与市场行情的变动轨迹理论上是趋于一致的。本文选取测试集（2014年6月6日至2015年5月29日）样本数据，经与训练集数据做同样的预处理之后，再分别分析两种方法对中证流通指数收盘价的预测能力。

分别绘制两种方法构造的投资者情绪综合测度指数与中证流通指数收盘价的时间序列对比图，如图3和图4所示。从走势对比图可以初步判断，基于LASSO回归法构造的投资者情绪综合测度指数对中证流通指数收盘价的预测能力要明显地优于偏最小二乘法，LASSO回归法的贡献在于，它仅提取了三个变量中的投资者情绪信息，便构建出了精度较高、预测能力理想的投资者情绪综合测度指数。

图3 PLS法构造的指数与中证流通指数收盘价对比图（测试集）

图4 LASSO回归法构建的指数与中证流通指数收盘价对比图（测试集）

4 结论

本文分别采用偏最小二乘法和LASSO回归法来构建投资者情绪综合指数，并从合理性检验、稳健性对比以及对中证流通指数收盘价的预测能力三个角度对两种方法所构建的投资者情绪复合指数进行对比。结果发现，两种方法在合理性及稳健性上并不存在显著的差异，但在对中证流通指数收盘价的预测能力方面，基于LASSO回归法构造的情绪综合测度指数的预测效果要优于偏最小二乘法。相比于偏最小二乘法来说，LASSO回归法更适合用于构造投资者情绪综合测度指数。