基于机器学习对股价量化预测的研究
2019-03-29田佳敏孙礼娜
田佳敏 孙礼娜
摘要:随着机器学习的不断完善,机器学习对于股指、股价的预测也吸引了业界越来越多人的研究与分析。本文则是选取了机器学习中最为突出的两个代表——神经网络与支持向量机为例研究基于其对股价的量化预测。进行回测,分别从收益、风险等角度分析该模型的回测情况从而分析机器学习股价量化预测的可行性,并对量化策略模型的优化、改进和应用提出相关建议。
关键词:神经网络;支持向量机;量化预测;PYTHON
1.引言
股市行情可能受到很多方面的影响,比如公司的财务因素、宏观经济走势等等,只有将機器学习结合合理有效的特征因子的选取,才能发挥其真正的作用。而21世纪,机器学习飞速发展,作为其核心方法的神经网络和支持向量机在在生物、金融、医疗等各个领域得到不断的发展和广泛的运用。
2.数据来源及处理
同花顺iFind金融数据终端平台。假设:假设数据来真实、可靠和准确,且不存在较为严重的异常波动,既数据为正常情况下的实际股市行情数据。
本文采用高斯预处理方法,即标准化法(去均值,方差规模化)。具体是有特征因子减去它对应的均值再除以它的标准差如下式所示
3.神经网络
3.1策略思想
选取了沪深300成份股的总市值,OBV能量潮,市盈率,布林线,KDJ随机指标,RSI相对强弱指标作为训练样本的输入层。而对于输出层,如果未来20个工作日上涨的幅度超过10%则标记为1,否则为-1。然后采用神经网络算法数据进行训练学习[4,5]。然后基于训练出来的函数进行预测,如果预测结果为1且没有持仓则买入,如果预测结果为-1且已经持仓则卖出。
3.2回测分析
我们通过Python编程实现量化交易策略,并对结果进行分析。
3.2.1收益分析
回测结果显示策略的收益大约是在17.08%,而基准收益 为-3.97%。策略的收益走势大致与基准收益的走势相相吻合,策略受到市场行情波动的影响较大。但策略的止损能力往往超过基准利率在基准利率跌幅较大甚至超过10%时,策略收益的跌幅仍处于一个较低的水平。
3.4.2 Alpha——投资中面临的非系统性风险
Alpha代表超额收益,指投资组合获取的超过市场平均收益的那部分收益[7]。
从图3中我们不能看出超额收益Alpha值表现的较为稳健。策略在回测过程中所面临的非系统性风险较小,表现较好。因为超额收益率是剔除了基准收益率的,所以超额收益率也反映该策略实际的盈利水平。
3.4.3 Beta——投资中面临的系统风险
Beta的计算公式为:
Beta表示股票的收益和风险收大盘的影响。
由图4可以看出来该策略的Beta值处于0到1之间, 表示某种股票的价格波动比市场小,方向与市场相同,表明风险程度低于整个市场的风险水平。而且从图4中我们不难看出该策略波动范围主要是在0.7-1之间,波动范围较小,虽然而且不难看出在之前基准收益较低的4、5、7、11等月份,β也较低,趋近于零。
4.基于SVM的量化选股策略——基于财务因子
4.1策略思想
支持向量机是一种数据挖掘的新技术,借助最优化方法来解决机器学习问题的新工具[9]。而其基本思想就是通过找到一个超平面,使其能够尽可能得将两类数据点正确分来,同时使分开的两类数据点数据分类面最远[10]。
以季度为单位,选取一些财务因子作为训练样本,对于类别值,如果未来一个季度涨幅超过5%标记为1,反之为-1,然后用支持向量机算法进行训练,预测结果为1且未持仓则买入,预测结果为-1且已持仓则卖出[11]。
4.2特征因子选取
选取2017-06-30(2015年半年报)时刻,沪深300成分股的市盈率、市净率、总市值等共21个财务因子。
4.3回测结果分析
通过编程实现策略回测,接下来对回测交易结果进行收益、风险等方面的分析。
4.3.1.收益分析
回测结果显示策略收益16.98%,而基准收益则为6.67%。策略前段和后段的表现较好,且收益情况均高于基准收益。
4.3.2.Alpha——投资中面临的非系统性风险
该策略的超额收益率Alpha值虽然较低,但是绝大多数为正值,表现仍较为稳健,说明该策略的超额收益较好且较为稳定。由图9可知该策略整体所面临的非系统性风险较低且较为稳定。
4.3.3. Beta——投资中面临的系统风险
由图10中我们不难看出该策略Beta值波动范围主要是在0.4-0.6之间,波动范围较小,风险程度低于整个市场的风险水平且处于稳定状态。
5.总结
经过对回测结果的分析,我们不难看出无论是神经网络量化选股策略还是支持向量机量化选股策略均能够获取一定的收益,且高于基准收益,能获得一定的超额收益,两个模型的超过一半的月份数的sharpe率值超过了1,不过收益率有限,但是却在风险控制上表现不俗,策略的收益波动率均在10%以内,后期均稳定在5%左右。且支持向量机模型在防范非系统性风险的表现上优与神经网络量化策略。机器学习(神经网络和支持向量机)能够很好的进行风险防控,却无法保证较高的高收益率。
参考文献
[1]季峰. 智能投资引领量化策略风向[N]. 中国证券报,2017-02-13(005).
[2] 白凯敏.神经网络和深度学习在量化投资中的应用[D] .2016.
[3]陈笑,王发信,戚王月,周婷.基于遗传算法的BP神经网络模型在地下水埋深预测中的应用——以蒙城县为例[J].水利水电技术,2018,49(04):1-7.
[4] 胡谦.基于机器学习的量化选股研究[D] .2016.
[5] 李子睿.量化投资交易策略研究[D] .天津大学,2013.
[6] 朱晨曦.我国A股市场多因子量化选股模型实证分析[D] .2017.
[7]章宏帆. 运用量化投资策略实现超额收益Alpha的理论与实践[D].浙江大学,2015.
[8]周晓志.我国内部人交易获得超额收益分析[J].广东农工商职业技术学院学报,2012,28(02):41-44.
[9]于静,韩鲁青.一种改进的求解支持向量机模型的坐标梯度下降算法[J].系统科学与数学,2018,38(05):583-590.
[10] 魏妹金.支持向量机多因子选股模型[D] .2015.
[11] 汤凌冰.机器学习在量化投资中的应用研究[M] .电子工业出版社,2014.
[12] 张学工.关于统计学习理论与支持向量机[J] .自动化学报,2000(1).
[13]杨阳.银华基金张凯:量化投资将在未来A股实战中凸显优势[J].股市动态分析,2016(10):56.
作者简介:田佳敏(1996—09月)女汉族,四川成都人,安徽财经大学金融学院,2016级本科生,研究方向:投资学。
(作者单位:1.安徽财经大学金融学院;
2.统计与应用数学学)