APP下载

基于创业板的多因子量化选股策略分析

2021-09-25耿玉淦王刚贞顾天烨

关键词:显著性股票收益率

耿玉淦,王刚贞,顾天烨,李 霞

(安徽财经大学 金融学院,安徽 蚌埠 233030)

一、选题背景

在我国,创业板也被称为二板市场(Second-board Market),即第二股票交易市场,与主板市场不同,创业板是专为暂时无法在主板上市的创业型企业、中小企业和高科技产业企业等融资和发展的企业提供融资途径和成长空间的证券交易市场,主要用于补充主板市场。

创业板以其进入门槛低,运作要求严格的特点,帮助有潜力的中小企业获得融资机会。但是,这些企业往往处于初创期,企业规模较小,没有突出业绩,所取得的成果较小。所以,在创业板上市的公司往往有很高的增长潜力和巨大的增长空间,根据投资效用最大理论可得,创业板的投资空间较大,值得进行投资。

2020年10月,深交所对股票市场中创业板进行了一次改革,改革的主要内容是完善创业板企业退市规则和信息披露制度。其中,对强制退市的情形、强制退市的流程以及交易安排等进行了相应的规定。同时,针对于2012年创业板暴露出来的问题,深交所对信息披露制度开展了进一步的完善,减少了投资者潜在风险的发生。

金融行业一直是新兴信息技术探索和应用的前沿。随着新兴信息技术特别是智能信息技术与现代金融产业的深度融合,智能金融应运而生。近年来,信息技术的发展,云计算、大数据、移动互联网、手拉葫芦、物联网、深度学习、数据挖掘、机器学习等人工智能技术成熟和应用,使人类社会的电子、信息、网络、数字智能时代逐步走向一个更高的阶段。

此外,对于像深圳和杭州这样的金融科技城市来说,他们也在努力建立自己的金融科技生态系统。所以,在这些新兴金融科技城市的企业能获得更大的机会。

二、量化选股

1.候选研究因子

对于Logistics模型来说,最重要的就是参数的确定,而选择参数所依据的是参数的代表性情况。所以,本文采用多因子选股模型进行有效因子的确定[1]。

首先,候选因子需要有一定的普适性,对大多数成分股收益率有一定作用;

其次,因子对股票收益具有一定的稳定性,波动率较小;

最后,候选因子与收益率之间的相关性较强。

根据上述要求,本文候选因子如表1所示。

表1 候选因子统计表

2.因子有效性检验

(1)单因子有效性检验

第一,检验准备

本文采用Fama-MacBech法对因子进行相关性检验,具体如下。

①由于需要进行相关性的检验,所以本文采用一元线性回归方程对候选因子和收益率进行回归,得到回归系数;

②完成回归系数的求解后计算相应系数的t-统计量,设置临界值为2,与其进行比较,最终得到显著性结果。

下面进行相关性的检验:

对于本文研究的对象进行相关性检验,选取当期因子值作为解释变量,下一期股票的收益率作为被解释变量,从而得到每个候选因子的统计显著性[2]。设定本文的回归方程如式(1)所示。

yt+1=at+btxt+et

(1)

其中yt+1表示的是t+1期的股票收益率,bt表示的是相应因子的相关系数,xt则表示因子在第t期时的大小,et则是随机误差项。

根据式(1),利用一元线性回归可求得各候选因子每期的回归系数,之后利用Fama-MacBeth对其进行检验。设定本文t统计量的计算公式如式(2)所示。

(2)

其中T代表的是时间周期长度,本文仅对前12期的数据进行相关性检验以及讨论。

第二,预处理检验因子

根据本文上述内容以及表1中候选因子的统计,我们发现在候选因子中依然存在类似于其他因子(股利支付率、资产负债率)的不确定因素,所以,在进行单因子检验之前,我们首先通过散点图以及残差图的比对对因子的有效性进行预处理[3]。通过Eviews对上述回归方程的相应系数进行散点图和残差图的绘制,如图1-图4所示。

图1 DBA资产负债率散点图

图2 DBA资产负债率残差图

图1-图2是资产负债率的收益率与相关因子取值的散点图和残差图。在散点图中,资产负债率的取值始终围绕在收益率曲线上下,可以看出二者之间具有很强的相关性,可以对其进行下一步的线性相关检验;从残差图中可以发现,除了少数极端值较为明显之外,其他的值大部分都围绕在0附近。所以,综合上述两点,我们可以对该因子进行下一步的相关性检验。

图3 股利支付率散点图

图4 股利支付率残差图

图3-图4是股利支付率的散点图和残差图。可以看出,与DBA资产负债率相比,其回归检验效果相对较差。从散点图可以看出在收益率曲线周围并未分布相应的股利支付率,散点图分布较为散乱,无明显的相关性;对于残差图来说,与DBA相比,并没有太大的集中性,仅从图中来看,并未获得太大的相关性信息。

之后,采用Fama-MacBeth方法对因子与股票收益率进行检验:

①将所有需要进行检验的单因子依次代入上文设立的一元线性回归方程式(1)计算其回归系数;

②计算相应因子回归系数的t统计量;

③设定置信度α=0.05,并对比各因子的t统计量和临界值2,若|t|>2或|t|=2,则通过检验,反之为不通过;

④带入数值,进行检验,结果如下:

在检验过程进行前,首先将因子分类为成长因子、估值因子、盈利因子、偿债因子、营运因子、流动因子及其他因子等几部分,其次对上述各类因子与股票收益率分别进行Fama-MacBeth检验,具体结果如表2所示。

表2 候选因子F-M检验结果统计表

从表2我们可以看出,由于t统计量临界值为2,所以表2中净资产增长率、净利润增长率、PS、净现金流量比、总资产周转率以及股利支付率由于t值中|t|小于2未能通过检验。所以,综合上述预处理以及分析,最终选取的候选因子为OGT、PE、PS、ROE、ROA等通过F-M检验的共计12个因子。另外,我们需要考虑的是,不同因子之间存在多重共线性,所以仍需进行进一步的处理,剔除不必要的候选因子,得到最终的实验因子[4]。

(2)剔除重复因子——因子间相关性检验

上文提到,不同因子之间由于计算方式以及分类方法相同,可能导致最终的检验结果具有很强的一致性,即为多重共线性。为了避免多重共线性对实验结果造成的干扰,还需要对不同因子间进行一定的相关性检验,减少实验结果的误差,并从中挑选出相关性较高的因子继续试验。对保留的12个因子进行的相关性检验分析如表3所示。

表3 因子间相关性校验结果统计表

表3是对通过F-M检验的12个备选因子进行因子间相关性检验的相应结果,从中我们可以很直观的看出有四组因子之间的相关性系数远远大于其他组,分别是资本回报率(ROIC)-资本负债率(DBA)、资本回报率(ROIC)-总资本增长率(TAGT)、总资产增长率(TAGT)-ROA以及营业收入增长率(OGT)-ROA,其相关性系数更是高达0.95、0.99、0.98、0.99。可以推断出这四组因子之间存在严重的同质化现象,现需要对这四组因子分别进行显著性(t)检验,通过对比分析实验结果,舍弃显著性低的因子。下面对四组因子中的5个因子进行显著性检验,结果如表4所示。

表4 剔除因子显著性检验结果

由表4可知,在上述5个因子中,显著性较好的是DBA、TAGT、OGT,所以,根据显著性检验结果以及模型建立要求,我们选择将ROA以及ROIC剔除。

3.构建多因子选股模型

本文利用MATLAB中的Stepwise函数对其进行构建,并进行计算,相应的计算结果如表5所示。

表5 逐步回归结果统计表

表5为10因子进行循环逐步回归分析后所得结果,从表中数据可以看出:在循环的过程中存货周转率(ITR)、流动比率(CR)以及PE等3个因子由于和回归模型的适配度未通过检验,显著性较差,因此将其剔除解释变量。最终得到的7个解释变量分别为总资产增长率(TAGT)、换手率(hsl)、资产负债率(DBA)、PB、营业收入增长率(OGT)、ROE以及每股收益增长率(EPGST)。根据表5中的数据,可以得到回归方程中这7个解释变量相应的系数(除常数外保留两位小数,四舍五入),具体如表6所示。

表6 最优解释变量组相关系数

表6即为经过两轮筛选得到的最终的解释变量的相应系数,根据表6数据可得设定的回归方程结果如式(3)所示。

Y=1.1PB+0.06OGT+0.03hls+

0.01EPGST-0.18ROE-0.08DBA-

0.03TAGA+2.5341

(3)

4.建立Logistics选股模型

(1)Logistics解释变量选取

本文的研究方向是基于我国股票市场创业板,所以我们在创业板指数成分股中选取合适的相应股票,由于数据的来源问题,这里选取2016年的成分股作为选股池,以创业板知识为基准,研究个股收益超过指数收益的概率问题,筛选出10支代表性的股票进行实证分析,最后进行的回测分析依据日级别数据[5]。具体过程如下:

①令个股收益与指数收益为Logisitics模型中的响应变量;

②设定:Rit为个股的每日收益(i为第i支个股,t为相对应的时间),Rt为指数的收益率;

③规定:当Rit>Rt时,令y=1;当Rit

综上所述,根据上述过程,可以构造出响应变量y=0及y=1的二分问题,此时,可以用Logisitics回归模型对选股池进行需要的选择。

在此处,考虑到创业板波动性比较大,同时,表6中提到的7个选股因子并不是完全适用于创业板市场;为了减少计算度以及操作难度,选择其中的三个因子:换手率(技术面因子)、市盈率(基本面因子)以及日内均价(技术面因子),这三个因子在上述回归分析中均为显著性较强的,如表7所示。

表7 Logisitics模型研究因子选择

(2)Logisitics模型求解

根据表7中选取因子建立的Logisitics模型的求解,本文主要从四个方面进行:

首先,在进行回测之前,选取创业板指数成分股日级别涨跌幅与创业板指数日级别涨跌幅进行对比,若大于,则记为1;否则,记为0,将所得结果组合成相应的变量矩阵进行分析。

其次,选取相同时间段成分股表7中的三个因子数据作为解释变量,分别进行Logisitics回归分析。

再次,选取紧密相邻的30个交易日的每个因子的均值作为解释变量,同3样通过回归分析计算每只成分股大于创业板涨跌幅的概率,进行相应的排序,选取排名前十的股票。

最后,将选择的股票进行等权重买入后进行回测,分析评价。

通过上述求解过程的设定,利用R语言的glm函数进行计算,并进行筛选得到排序前十的股票组合,具体如表8所示。

表8 Logisitics模型股票组合

表8为经过glm函数计算及筛选所获得的10只股票组合,接下来将这10只股票等权重买入,将创业板指数定为基准进行日级别的数据回测分析,具体计算结果如图5及表9所示。

图5 股票组合的回测分析

表9 股票组合回测分析结果

由图5及上表9可以看出,由于回测时所采用的数据为2015年7月的数据,此时股票市场经历了一次大的变动,市场不活跃,故其基准年化收益率较低,为负数;但另外三个指标均为正数,且数值较高,相比之下,效果较为明显。另外,在表9中,β表示的是资本资产定价模型推导出的值,表示的是特定资产的系统风险度量;α表示的是超越比较基准的能力,具体计算方式为超额收益和期望收益的差值。根据上述表格中的数据,β为0.94,接近1,说明该股票组合波动接近基准的波动;α值为35.9%,反映出了该股票组合超强的超额收益能力。综上所述,对于上文式(3)建立的Logisitics模型应用于创业板的选股,该模型基本有效,投资股票组合前景较好。

三、风险管理

通过对创业板股票市场建立相应的量化选股模型并进行求解,我们得到了一个初步的股票组合。毫无疑问,这个组合是不成熟的,同样也存在一定的风险,对于投资者来说,对于选股模型来说,进行相应的风险管控分析是必不可少的,进而可以有效的规避投资风险,使投资者获得更大的收益结果。对于本文来说,采用VaR风险分析办法。

1.VaR基本概述

首先,VaR指的是在险价值(Value at Risk),按照其字面意思来说,可以理解为“在险价值”,即再正常的市场波动下,某一金融资产或证券组合受市场因素的影响,可能发生的最大损失。

其次,从统计学的角度来说,它可以理解为,在一定置信度上,某一金融资产或者证券组合价值在未来特定时期内的最大可能损失。

所以,根据上述理论概念以及量化选股中得出的数据,将对选择的10只股票的组合进行在险价值的计算。

2.方差—协方差法

对于VaR值的计算,其最常见的一个方法为方差—协方差法,根据第二部分量化选股中获得的一系列数据进行相应的计算,其具体过程如下:

①统计整理10只股票的每日股价,进行方差、标准差、协方差的计算;

②假定10只股票形成的资产股票组合为正态分布,可以得出在一定的置信水平下分布偏离均值水平的临界值,进而进行下一步的检验;

③建立与风险损失的相关性计算并推导出VaR值。

根据上述过程,建立VaR方差—协方差的计算模型,具体如下。

设定10只股票其单独的均值为μ,数准差为σ,代入表8中得到的数据并进行计算,得出结果。另设α为置信水平α下的临界值,则根据正态分布的相关性质,可以得到,在α概率水平下,可能产生的偏离均值的最大距离为μ=ασ,即R+=μ-ασ。另外,由于E(R)=μ,且VaR=ω0[E(R)-R*],可以得到:

VaR=ω0[μ-(μ-ασ)]=ω0ασ

(4)

对上述求解结果进行相应的假设,假设持有期为Δt,可得均值和数准差分别为μ和Δt,代入式(4)可得

VaR=ω0·α

(5)

四、构建有效投资组合

1.构建10只股票的有效前沿

显而易见,对于投资组合构建来说,其核心部分为对组合中各资产赋予不同的权重,得到风险和收益不同的投资组合,从而对资产进行有效性分散化配置,降低单一资产带来的风险问题。

为了寻求资产组合的最优配比,需要借助计算机进行相关数据的计算。本文基于马科维茨理论,采用MATLAB构建10只股票的有效前沿(生成50种组合),具体结果如图6所示。

图6 10只股票的有效前沿图

考虑要选取最优投资组合,故从中随机选取10种投资方案进行相应的分析,如表10所示。

表10 随机挑选的10只股票的有效前沿数据

表10中的数据为通过MATLAB计算得出的相应结果,由表10中的数据可以看出,投资组合的分散程度越高,承受的风险就相应的越低。

2.确定最优投资组合的相关权重

本文利用效用函数对上文计算的10只股票有效前沿数据进行相应的分析,从而对长盈精密、三环集团、三聚环保等10只股票的5种不同投资组合进行权重配比,最后根据效用最大化得到最优投资组合权重。其中,效用函数指的是对投资者从事投资活动所获得效用大小的函数,用公式可以表示为式(6)。

(6)

其中,E(r)为投资组合的预期收益率,σ为投资组合标准差,A为投资者的风险厌恶程度。这里特别说明,当A>0时,投资者为风险厌恶型;A=0时,投资者为风险中性型;A<0时,投资者为风险偏好型[6]。本文将分别选取1、1.5、2和2.5的A值进行投资者效用的计算,具体计算结果如表11所示。

表11 不同A值下的投资者效用分析结果

通过对表11中的数据分析,我们可以得出在投资者不同的风险厌恶程度下,投资方案8的效用值均高于其他方案,因此可以认为投资方案8的组合配比为最优组合权重,即长盈精密25.4%、三环集团23.1%、三聚环保7.4%、冠昊生物7.3%、信维通信3.2%、欣旺达15.8%、红日药业0%、翰宇药业14.7%、碧水源3.1%、东方国语0%。

五、绩效评估—夏普指数

对于本文的股票市场进行绩效评估,考虑到市场客观风险因素的影响,我们主要选取夏普指数进行分析。此次评估,我们搜集了22只股票的数据,假定每只股票占所有股票的权重均为1/22,从而构建22只股票的投资组合作为基准参考值。同时,在表10中,我们得到了10只股票的最佳组合方案,计算其绩效评估指标夏普比率并与基准值进行对比,获得绩效评估的结果,如式(7)所示。

(7)

其中,E(Rp)为投资组合的预期收益率,Rf为无风险收益率,σp为投资组合收益率的标准差。

同时,以上述提到的22只股票为基础,收集其相应的每日收盘价格、上证指数,并利用公式计算这22只股票所构成基准的预期收益率与收益率标准差。将得到的数据代入式(7),得到基准的夏普比率,具体如式(8)所示。

E(Ri)=Rf+β[E(Rm)-Rf]

(8)

同样,按照表10中得到的最佳投资组合,同时结合其每日收盘价和上证指数,按照相应的比例,运用夏普比率公式得到组价投资组合的夏普比率,具体结果如表12所示。

表12 10只股票最佳投资组合的夏普比率

通过上述计算后发现,10只股票分别以0.254、0.231、0.074、0.073、0.032、0.158、0.000、0.147、0.031、0.000作为基本权重,求得夏普比率的结果约为3.416,比夏普比率基准值1.597更高一点,说明每当投资者承担一单位的风险,投资组合获得的超额回报明显高于基准值。因此,可以得到本文在表10中选择的最优投资组合更有利于投资者投资。

猜你喜欢

显著性股票收益率
一种结合多尺度特征融合与像素损失加权的显著性目标检测方法
视频序列中视觉显著性图像区域自动提取仿真
欧盟法院判决明确欧盟商标通过使用获得显著性的地域认定标准
商标显著性的司法判断(一)
2016年10月债券平均久期、凸性及到期收益率
2016年10月底中短期票据与央票收益率点差图
本周创出今年以来新高的股票
本周创出今年以来新高的股票
2016年9月底中短期票据与央票收益率点差图
2016年9月债券平均久期、凸性及到期收益率