构建网络热度因子模型分析股价运动规律
2018-09-21王正炜
摘要:文章选取沪深300指数的成分股为股票池,构建三种网络热度因子,根据热度高低进行分组,统计每组股票的月度收益率,发现热度越高,股票收益率越高,呈明显线性关系,表明网络热度因子能在一定程度上解释股票的收益率。将网络热度因子引入到传统的Fama-French三因子模型中,构建成一种四因子模型的量化策略,并对该量化策略以及Fama-French三因子模型量化策略进行模拟回测,实验结果表明加入网络热度因子的四因子模型的量化策略具有更好的投资表现。
关键词:网络热度因子;四因子模型;量化策略
1引言
现有文献中针对网络舆情的研究方法,包含投资者关注度[1]、多空情绪分析[2]、股市信心指数[3]等,但这些方法是基于投资者在论坛里发表的文字,采用相应的算法将其识别为利多或利空,算法依赖于对投资者情绪用词的识别,在很多场景中会出现误判,因此准确度有待提升[4]。而针对投资者在网络上的关注度等指标构建的网络热度因子,具有数据准确性更高、更能反映股票收益率变化等特点[5]。实证发现网络热度因子的变化会影响股票价格的变动,和网络热度因子较高的股票在未来几个月会有良好的表现,而网络热度因子较低的股票则会出现下跌[6]。因此,本文将重点检验网络热度因子是否以及如何影响股市行情,同时将网络热度因子引入到传统的Fama-French三因子模型[7]中,构建成一种四因子模型的量化策略[8],并进行模拟回测。
2样本选择及模型定义
2.1.网络热度因子的样本选择
本文的数据来源于雪球网,选择沪深300指数的成分股作为股票池进行分析,通过对用户在该网站上的股票评论数以及关注数进行统计。再根据股票评论数及股票关注度这2种数据来构建三种网络热度因子,分别记为热度因子1、热度因子2和热度因子3,其中热度因子1为股票当天新增评论数排名、热度因子2为股票当天新增关注数排名、热度因子3为股票当天新增评论数及关注数排名之和的排名。
其中热度因子1和热度因子2分别按评论数量和关注数量多少来进行排名,再按照排名分为A、B、C、D、E五组,平均每组有60支股票,E组为排名第1-60的股票,D组为排名第61-120的股票,C组为排名第121-180的股票,B组为排名第181-240的股票,A组为排名第241-300的股票,A组热度最低,E组热度最高,逐渐递增。
热度因子3是将股票当天新增评论数排名的数字与关注数排名的数字相加,得出股票池中股票新的排名,再按照排名分为A、B、C、D、E五组,平均每组有60支股票,E组为排名第1-60的股票,D组为排名第61-120的股票,C组为排名第121-180的股票,B组为排名第181-240的股票,A组为排名第241-300的股票,A组热度最低,E组热度最高,逐渐递增。
接着统计每组股票的2017年每月的股价涨幅,从而考察网络热度因子与股价之间的动态关系。
2.2. Fama-French三因子模型及量化策略
Fama-French三因子模型是一个关于市值、账面市值比和股票收益率的理论模型,一般用于解释股票的超额收益率,这个三因子模型的公式如下:
R_i=a_i+b_i R_M+s_i E(SMB)+h_i E(HML)+ε_i
其中R_i=E(r_i-r_f),是第i只股票相对于无风险投资的期望超额收益率。R_M=E(r_M-r_f),是市场相对于无风险投资的期望超额收益率,E(SMB)是小市值股票相对大市值股票的期望超额收益率,E(HML)则是高账面市值比的股票比起低账面市值比的股票的期望超额收益率,而ε_i是回归残差项。
E(SMB)是将股票池中的股票按市值从大到小排序,然后平均分成三组:第一组是在股票池中市值最大的1/3股票,第二组是在股票池中市值中间的1/3股票,第三组是在股票池中市值最小的1/3股票。第一组股票的平均期望收益率为E(r_S),第三组股票的平均期望收益率为E(r_B)。则E(SMB)=E(r_S )-E(r_B)。E(HML)也是类似的。
根据Fama-French三因子模型可以认为通过市值、账面市值比能够分析个股的超额收益,那么a_i的长期均值会接近0。则如果如果有某些股票,通过计算得到a_i<0,说明这些股票的股价偏低,而根据有效市场假设,这些错误定价的股票都会最终回到正确的定价上去。
故Fama-French三因子模型量化策略的选股思路如下:
(1)先设定一个调仓频率,每T=10天调仓一次;
(2)设定一个样本长度S=63天;
(3)然后在调仓日对于过去S天的数据进行回归分析,计算出每个股票在过去的S天里面α观测值;
(4)然后买入α最小的N(N=10)支股票即可。
2.3.网络热度的四因子模型及量化策略
Fama-French三因子模型中认为股票的超额收益可以由市值、账面市值比来进行分析,但除了上述因子,还应该有其它因子也为个股提供超额收益。本文引入网络热度因子来构建一个网络热度的四因子模型,其表达式为:
R_i=a_i+b_i R_M+s_i E(SMB)+h_i E(HML)+r_i E(RMW)+ε_i
从表达式看,四因子模型比三因子模型里面多出來了一项:E(RMW)是高/低网络热度股票投资组合的回报之差。这一项就描述了网络热度风险。与三因子类似,参数估计的方法仍然是用多元线性回归的方法,这里的a_i则是四因子模型里面尚未解释的超额收益。
通过上述说明可以认为市值、账面市值比、网络热度能够分析个股的超额收益,那么a_i的长期均值会接近0。则如果如果有某些股票,通过计算得到a_i<0,说明这些股票的股价偏低,而根据有效市场假设,这些错误定价的股票都会最终回到正确的定价上去。
故网络热度的四因子模型模型量化策略的选股思路如下:
(1)先设定一个调仓频率,每T=10天调仓一次;
(2)设定一个样本长度S=63天;
(3)然后在调仓日对于过去S天的数据进行回归分析,计算出每个股票在过去的S天里面α观测值;
(4)然后买入α最小的N(N=10)支股票即可。
3实证结果与分析
3.1. 网络热度因子热度与股票收益率的相关性分析
选取股票池于2017年1月至12月,在雪球网中热度因子1、热度因子2和热度因子3三种网络热度因子为分析对象,其中热度因子1为股票当天新增评论数排名、热度因子2为股票当天新增关注数排名、热度因子3为股票当天新增评论数及关注数排名之和的排名。
首先将股票按网络热度因子的热度大小来进行排名,再按照排名分为A、B、C、D、E五组,平均每组有60支股票,A组热度最低,E组热度最高,并统计其每月平均涨幅来计算其月收益率。
股票月收益率与热度因子1的线性关系如图3.1所示:
由上图可知,股票当天新增评论数数量越高的试验组,相较于评论数低的组,当月的股票收益率越高,呈明显的线性关系。其中6月,A组的月收益率为-2.05%,E组却达到6.52%;10月,A组的月收益率为3.55%,E组却达到12.45%,这说明股民对股票的评论,如買入、卖出、看涨、看跌等对于股票的市场表现具有较明显的促进作用。
股票月收益率与热度因子2的线性关系如图3.2所示:
由上图可知,股票当天新增关注数数量越高的试验组,相较于评论数低的组,当月的股票收益率越好,呈明显的线性关系。其中3月,A组的月收益率为-1.26%,E组却达到5.24%;8月,A组的月收益率为-0.73%,E组却达到5.26%,这说明股民对股票的关注,无论看涨、看跌,均对于股票的市场表现具有较明显的促进作用。
股票月收益率与热度因子3的线性关系如图3.3所示:
由上图可知,热度因子3热度越高的试验组,相较于数量低的组,当月的股票收益率越好,呈明显的线性关系。其中1月,A组的月收益率为-6.25%,E组却达到5.34%;9月,A组的月收益率为-7.61%,E组却达到8.91%,这说明股民对股票的关注和评论,无论看涨、看跌、买入或者买出,均对于股票的市场表现具有较明显的促进作用。
对比图1、图2和图3,可以看到三种网络热度因子都与股票收益率之间呈一定的线性关系,即网络热度因子越高的股票,其股票收益率越高,但不同的因子其线性度不同。通过计算每月收益率与分组之间的相关系数,对比网络热度因子与股票收益率的线性度,得出热度因子1、热度因子2、热度因子3三种网络热度因子与股票月收益率的月平均线性度分为0.668、0.529与0.812。
可知热度因子3与股票收益率的线性度最高,即可认为该热度因子能够更好地用来分析股票收益率,并选用热度因子3为四因子模型的第四个变量。
3.2.网络热度因子的四因子模型
从以上分析可知网络热度因子对股票的收益率具有一定程度的解释力,但单一因子并不能完全解释股票的收益率。因此本文引入Fama-French三因子模型策略,并在其基础上加入当天新增评论及关注数之和作为网络热度因子构建四因子模型策略,并与原来的Fama-French三因子模型策略进行对比。沪深300指数的成分股作为股票池,模拟回测时间为2014年1月1日至2018年1月1日在。实证结果如图3.4至图3.5。(指标说明:Backtest是相应模型策略的收益走势,benchmark_returns是沪深300指数的走势,即基准收益)
引入网络热度因子的四因子模型策略收益较经典的Fama-French三因子模型策略投资表现有较大的提高。4年的累计收益率从164.52%上涨至190.98%,涨幅提高16.08%。夏普比率从0.794上涨至0.952,说明股票池所获得的风险回报更高。交易获胜率也从0.596上升至0.660,说明投资策略更容易获利。最大回测从0.372降至0.32,说明风险降低,抗风险能力更强。
4结论
本文通过实证分析验证了A股市场上网络热度因子是否存在超额收益率。以Fama-French三因子模型为基础,引入网络热度因子构建四因子模型,通过2014年1月到2017年12月的历史回测,检验了网络热度的四因子模型量化策略是否能获得更高的收益。研究结论如下:
(1) A股市场上网络热度因子确实存在超额收益率。实证分析表明,相比低网络热度因子的股票,高网络热度因子的股票确实存在超额收益率,即证券市场对于高网络热度因子的股票存在激励。这反映了投资者对高网络热度因子成长性的认同和网络热度投资文化的形成。因此在进行投资时,投资者可以构建高网络热度因子股票的资产组合,以提升投资组合的收益率,但也有相应的风险存在。
(2)四因子模型量化策略能够获得更高的收益。实证分析表明,相比三因子模型量化策略,引入热度因子构建的四因子模型量化策略在相同条件下能够都得更高的收益率,其中年化收益率上涨11.22%,夏普比率从0.794上涨至0.952,交易获胜率从0.596上升至0.66,最大回测从0.372降至0.32。但是,网络热度因子能不能持续有效还需要进一步的跟踪研究。
(3)网络热度因子的构建还需要进一步完善。四因子模型量化策略的回测结果支持了A股市场的网络热度因子存在超额收益率。但是实证分析也显示有部分时间高网络热度因子的股票相对于低网络热度因子的股票并没有得到更高的超额收益率。其中一个可能的原因是对股票的网络热度因子构建并不准确,因此,完善网络热度因子构建是下一步的主要工作。
参考文献
1. 陈植元, 米雁翔, 厉洋军, & 郑君君. (2016). 基于百度指数的投资者关注度与股票市场表现的实证分析. 统计与决策(23), 155-157.
2. 张紫琼, 钱国明, & 李一军. (2013). 基于观点在线投票的投资者情绪与中国股市相互影响的实证研究. 软科学, 27(7), 123-127.
3. 汪迎波. 消费者信心指数与股票市场收益率关系研究——基于Granger因果检验视角[J]. 顺德职业技术学院学报, 2013(2):12-15.
4. 陈沉, 张军波, 王磊, & 李哲. (2017). 投资者情绪的一个研究综述. 现代管理科学(8).
5. 俞庆进, & 张兵. (2012). 投资者有限关注与股票收益——以百度指数作为关注度的一项实证研究. 金融研究(8), 152-165.
6. 徐映梅, & 高一铭. (2017). 基于互联网大数据的cpi热度指数构建与应用——以百度指数为例. 数量经济技术经济研究(1), 94-112.
7. 刘辉, & 黄建山. (2013). 中国a股市场股票收益率风险因子分析:基于fama-french三因子模型. 当代经济科学, 35(4), 27-31.
8. 韩立岩, 蔡立新, & 尹力博. (2017). 中国证券市场的绿色激励:一个四因子模型. 金融研究(1), 145-161.
【作者简介】:王正炜(1993—),男,汉族,湖北洪湖人,硕士研究生,研究方向:大数据。