基于创业板的多因子量化选股策略分析
2021-09-25耿玉淦王刚贞顾天烨
耿玉淦,王刚贞,顾天烨,李 霞
(安徽财经大学 金融学院,安徽 蚌埠 233030)
一、选题背景
在我国,创业板也被称为二板市场(Second-board Market),即第二股票交易市场,与主板市场不同,创业板是专为暂时无法在主板上市的创业型企业、中小企业和高科技产业企业等融资和发展的企业提供融资途径和成长空间的证券交易市场,主要用于补充主板市场。
创业板以其进入门槛低,运作要求严格的特点,帮助有潜力的中小企业获得融资机会。但是,这些企业往往处于初创期,企业规模较小,没有突出业绩,所取得的成果较小。所以,在创业板上市的公司往往有很高的增长潜力和巨大的增长空间,根据投资效用最大理论可得,创业板的投资空间较大,值得进行投资。
2020年10月,深交所对股票市场中创业板进行了一次改革,改革的主要内容是完善创业板企业退市规则和信息披露制度。其中,对强制退市的情形、强制退市的流程以及交易安排等进行了相应的规定。同时,针对于2012年创业板暴露出来的问题,深交所对信息披露制度开展了进一步的完善,减少了投资者潜在风险的发生。
金融行业一直是新兴信息技术探索和应用的前沿。随着新兴信息技术特别是智能信息技术与现代金融产业的深度融合,智能金融应运而生。近年来,信息技术的发展,云计算、大数据、移动互联网、手拉葫芦、物联网、深度学习、数据挖掘、机器学习等人工智能技术成熟和应用,使人类社会的电子、信息、网络、数字智能时代逐步走向一个更高的阶段。
此外,对于像深圳和杭州这样的金融科技城市来说,他们也在努力建立自己的金融科技生态系统。所以,在这些新兴金融科技城市的企业能获得更大的机会。
二、量化选股
1.候选研究因子
对于Logistics模型来说,最重要的就是参数的确定,而选择参数所依据的是参数的代表性情况。所以,本文采用多因子选股模型进行有效因子的确定[1]。
首先,候选因子需要有一定的普适性,对大多数成分股收益率有一定作用;
其次,因子对股票收益具有一定的稳定性,波动率较小;
最后,候选因子与收益率之间的相关性较强。
根据上述要求,本文候选因子如表1所示。
表1 候选因子统计表
2.因子有效性检验
(1)单因子有效性检验
第一,检验准备
本文采用Fama-MacBech法对因子进行相关性检验,具体如下。
①由于需要进行相关性的检验,所以本文采用一元线性回归方程对候选因子和收益率进行回归,得到回归系数;
②完成回归系数的求解后计算相应系数的t-统计量,设置临界值为2,与其进行比较,最终得到显著性结果。
下面进行相关性的检验:
对于本文研究的对象进行相关性检验,选取当期因子值作为解释变量,下一期股票的收益率作为被解释变量,从而得到每个候选因子的统计显著性[2]。设定本文的回归方程如式(1)所示。
yt+1=at+btxt+et
(1)
其中yt+1表示的是t+1期的股票收益率,bt表示的是相应因子的相关系数,xt则表示因子在第t期时的大小,et则是随机误差项。
根据式(1),利用一元线性回归可求得各候选因子每期的回归系数,之后利用Fama-MacBeth对其进行检验。设定本文t统计量的计算公式如式(2)所示。
(2)
其中T代表的是时间周期长度,本文仅对前12期的数据进行相关性检验以及讨论。
第二,预处理检验因子
根据本文上述内容以及表1中候选因子的统计,我们发现在候选因子中依然存在类似于其他因子(股利支付率、资产负债率)的不确定因素,所以,在进行单因子检验之前,我们首先通过散点图以及残差图的比对对因子的有效性进行预处理[3]。通过Eviews对上述回归方程的相应系数进行散点图和残差图的绘制,如图1-图4所示。
图1 DBA资产负债率散点图
图2 DBA资产负债率残差图
图1-图2是资产负债率的收益率与相关因子取值的散点图和残差图。在散点图中,资产负债率的取值始终围绕在收益率曲线上下,可以看出二者之间具有很强的相关性,可以对其进行下一步的线性相关检验;从残差图中可以发现,除了少数极端值较为明显之外,其他的值大部分都围绕在0附近。所以,综合上述两点,我们可以对该因子进行下一步的相关性检验。
图3 股利支付率散点图
图4 股利支付率残差图
图3-图4是股利支付率的散点图和残差图。可以看出,与DBA资产负债率相比,其回归检验效果相对较差。从散点图可以看出在收益率曲线周围并未分布相应的股利支付率,散点图分布较为散乱,无明显的相关性;对于残差图来说,与DBA相比,并没有太大的集中性,仅从图中来看,并未获得太大的相关性信息。
之后,采用Fama-MacBeth方法对因子与股票收益率进行检验:
①将所有需要进行检验的单因子依次代入上文设立的一元线性回归方程式(1)计算其回归系数;
②计算相应因子回归系数的t统计量;
③设定置信度α=0.05,并对比各因子的t统计量和临界值2,若|t|>2或|t|=2,则通过检验,反之为不通过;
④带入数值,进行检验,结果如下:
在检验过程进行前,首先将因子分类为成长因子、估值因子、盈利因子、偿债因子、营运因子、流动因子及其他因子等几部分,其次对上述各类因子与股票收益率分别进行Fama-MacBeth检验,具体结果如表2所示。
表2 候选因子F-M检验结果统计表
从表2我们可以看出,由于t统计量临界值为2,所以表2中净资产增长率、净利润增长率、PS、净现金流量比、总资产周转率以及股利支付率由于t值中|t|小于2未能通过检验。所以,综合上述预处理以及分析,最终选取的候选因子为OGT、PE、PS、ROE、ROA等通过F-M检验的共计12个因子。另外,我们需要考虑的是,不同因子之间存在多重共线性,所以仍需进行进一步的处理,剔除不必要的候选因子,得到最终的实验因子[4]。
(2)剔除重复因子——因子间相关性检验
上文提到,不同因子之间由于计算方式以及分类方法相同,可能导致最终的检验结果具有很强的一致性,即为多重共线性。为了避免多重共线性对实验结果造成的干扰,还需要对不同因子间进行一定的相关性检验,减少实验结果的误差,并从中挑选出相关性较高的因子继续试验。对保留的12个因子进行的相关性检验分析如表3所示。
表3 因子间相关性校验结果统计表
表3是对通过F-M检验的12个备选因子进行因子间相关性检验的相应结果,从中我们可以很直观的看出有四组因子之间的相关性系数远远大于其他组,分别是资本回报率(ROIC)-资本负债率(DBA)、资本回报率(ROIC)-总资本增长率(TAGT)、总资产增长率(TAGT)-ROA以及营业收入增长率(OGT)-ROA,其相关性系数更是高达0.95、0.99、0.98、0.99。可以推断出这四组因子之间存在严重的同质化现象,现需要对这四组因子分别进行显著性(t)检验,通过对比分析实验结果,舍弃显著性低的因子。下面对四组因子中的5个因子进行显著性检验,结果如表4所示。
表4 剔除因子显著性检验结果
由表4可知,在上述5个因子中,显著性较好的是DBA、TAGT、OGT,所以,根据显著性检验结果以及模型建立要求,我们选择将ROA以及ROIC剔除。
3.构建多因子选股模型
本文利用MATLAB中的Stepwise函数对其进行构建,并进行计算,相应的计算结果如表5所示。
表5 逐步回归结果统计表
表5为10因子进行循环逐步回归分析后所得结果,从表中数据可以看出:在循环的过程中存货周转率(ITR)、流动比率(CR)以及PE等3个因子由于和回归模型的适配度未通过检验,显著性较差,因此将其剔除解释变量。最终得到的7个解释变量分别为总资产增长率(TAGT)、换手率(hsl)、资产负债率(DBA)、PB、营业收入增长率(OGT)、ROE以及每股收益增长率(EPGST)。根据表5中的数据,可以得到回归方程中这7个解释变量相应的系数(除常数外保留两位小数,四舍五入),具体如表6所示。
表6 最优解释变量组相关系数
表6即为经过两轮筛选得到的最终的解释变量的相应系数,根据表6数据可得设定的回归方程结果如式(3)所示。
Y=1.1PB+0.06OGT+0.03hls+
0.01EPGST-0.18ROE-0.08DBA-
0.03TAGA+2.5341
(3)
4.建立Logistics选股模型
(1)Logistics解释变量选取
本文的研究方向是基于我国股票市场创业板,所以我们在创业板指数成分股中选取合适的相应股票,由于数据的来源问题,这里选取2016年的成分股作为选股池,以创业板知识为基准,研究个股收益超过指数收益的概率问题,筛选出10支代表性的股票进行实证分析,最后进行的回测分析依据日级别数据[5]。具体过程如下:
①令个股收益与指数收益为Logisitics模型中的响应变量;
②设定:Rit为个股的每日收益(i为第i支个股,t为相对应的时间),Rt为指数的收益率;
③规定:当Rit>Rt时,令y=1;当Rit