APP下载

基于三种核函数的SVM选股模型的实证分析

2020-08-10肖阳丁琦

中国商论 2020年15期
关键词:支持向量机股票

肖阳 丁琦

摘 要:本文首先基于信息系数构建了单因子策略,并利用近年来中国A股数据对市场上12大类共500多个因子进行评分筛选,得到了22个有效因子。其次,结合上述有效因子,并基于三种不同的核函数建立了支持向量机多因子选股模型。最后,利用真实市场数据对上述模型进行了回测,并通过网格搜索和交叉验证法确定了模型参数的最优取值,实验结果表明三种核函数都有获得超额收益的表现。其中线性核函数具有高贝塔性,多项式核函数具有高的信息比率,而高斯核函数绩效表现最优,年化收益达到24.76%。

关键词:量化投资  支持向量机  多因子模型  股票

中图分类号:F832.51 文献标识码:A 文章编号:2096-0298(2020)08(a)--03

目前,国内学术界对机器学习应用在金融投资中的研究逐渐增加,对比判断哪种因子和哪类模型在金融市场中是有效的,成为人们的研究目标。欧阳中等对支持向量机的LS、OSU和SteveGunn三种不同核函数进行了分类精度的比较,发现OSU分类性能最优。刘佳祺等将BP神经网络算法与主成分分析法和遗传算法相结合,对股票价格进行预测。谢翔探究了七种机器学习算法在中国A股市场中的适应效果。

综上,随着数据和方法的增加,如何更有效的运用使之与当今的金融市场相匹配成为目前人们的主流研究方向。本文基于支持向量机方法和多因子选股模型,利用近年真实市场数据对三种不同的核函数和500个股票因子进行实证研究,获得了性能最优的核函数模型和有效选股因子。

1 文献综述

多因子模型的适用性与收益率依赖于模型中所使用股票因子的有效性。刘帅针对 2848只股票和 20 个指标,提出了缺失数据的完备化过程,并以相对于大盘的涨跌概率为因变量分析有效因子。魏欣欣等从会计信息质量以及中国股票特征两个角度对50指数进行了优化研究。总之,国内学者正逐渐运用多因子模型对大盘指数型成分股进行实证分析,本文则在此基础上运用市场上500多不同类型的因子,并利用单因子策略给出股票因子的得分,以深挖A股市场中的有效因子。

基于支持向量机模型的选股策略的超额收益率则取决于核函数和代入特征因子的有效性。陈阳将支持向量机与决策树、随机森林相结合,建立了沪深300指数的三分类预测模型,并选用了23个量价初始特征。江鹏选取了权益回报率、市盈率、换手率等价值,质量、风险、动量、情绪、收益等6大类共38个特征因子,将支持向量机与主成分分析相结合,开发了针对平安银行股票的择时策略。总之,支持向量机与多因子模型有着多种结合方式与评价体系,并对沪深300指数的预测和股票择时策略的设计提供了有力的技术支撑。本文利用所选出的有效因子与沪深300指数的成分股,对基于不同核函数的支持向量机选股模型进行实证分析,以比較各个核函数的有效性与适用性。

2 有效因子筛选

本文从点宽网获取了12类共500多个因子在2016年1月4日至2018年9月28日的真实市场数据,并通过去极值、标准化和同趋化处理,将全部数据统一到相同维度。信息系数(IC,Information Coefficient)可以反映因子与股票收益之间的关系,其为所选因子在当期(时)的值与股票下期(时)收益率的截面相关关系:

进而,将IC值与因子值的乘积作为买进股票的选股标准,称其为排序因子:

由此可以构建单因子模型:在月初计算排序因子,选取因子值较大的前1/15只股票作为本月的目标标的,并在月底平仓,以后每月重复上述过程。

针对所有因子,对上述模型进行回测,可以得到相应的阿尔法、夏普比率、年化收益率、盈利因子等数据,进一步将上述数据进行标准化处理,并以其等权重加总作为该因子的得分。本文最终选取得分最高的22个因子作为有效因子(表1)。

3 支持向量机多因子选股模型

支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器。在分类过程中,记()为输入的因子数据, 为每类因子的特征构成的特征空间,将其作为决策边界的超平面,把学习目标按正负类分开,而学习股票的涨跌记为(),其中上涨为正类,下跌为负类。从而得到支持向量机模型:

其中, 为超平面的法向量,为截距。分类后,在上间隔边界上方的标的属于上涨类型,在下间隔边界下方的标的属于下跌类型,而在间隔边界上的涨跌类标的为支持向量。

在使用超平面作为决策边界分类时会带来损失,即部分支持向量在间隔边界内,而不是在边界上。这时铰链损失函数可以对这类损失进行量化,其公式为:

在使用分类器学习并应用新数据时会产生风险,根据风险的类型可分为结构风险和经验风险:

其中,表示分类器。

通常我们对于风险都希望其能最小化,可以通过最小化结构风险和经验风险的线性组合以确定模型参数,此时对该分类器的求解转化为一个正则化问题:

其中,常数为是正则化系数,表示模型对错误分类的容忍度;而时即为正则化。

在一些线性不可分的问题上,使用非线性函数可以将问题从原始的特征空间映射至更高维的空间,从而转化为线性可分问题,其决策边界的超平面表达式为:

其中为映射函数。定义映射函数的内积为核函数,记为:

常用的核函数有线性核、多项式核和高斯核。

线性核解析式为:

其中,为因子的特征空间数量。线性核主要用于线性可分的情况,特征空间到输入空间的维度是一样的。

多项式核解析式为:

其中,为原始数据映射到高维数据后,在高维特征空间中的分布,为映射的维度。主要用于正交归一化数据,可以实现将低维的输入空间映射到高纬的特征空间。

高斯核解析式为:

是一种局部性强的核函数,能够将样本映射到更高维的空间内。

根据上述三类核函数,分别建立支持向量机多因子选股模型:在月初利用支持向量机模型对沪深300股票池中股票进行分类,选出为上涨形态的股票,对筛选出的股票进行等权重买入,并将前一个月所持有的股票进行平仓,以后每月重复上述过程。

4 实证分析

2016年1月至2018年9月可以按行情分为三个时期:2016年1月至2017年5月为震荡市场;2017年5月至2018年2月为上涨市场;2018年2月至2018年10月为下跌市场。因而此时的市场具有很强的多变性与普适性,利用该时间段的真实市场数据进行回测,更能检测出模型的优劣。

首先运用网格搜索和交叉验证法确定不同核函数中参数的最优取值。在线性核中取;在多项式核中取且;在高斯核中取且。

进而对本文所建多因子模型进行回测,回测绩效见表2。

由此可见,在累计收益率方面,高斯核最高,而线性核最低;在最大回测方面,则是线性核最高,而高斯核最低。因而高斯核在收益和风险两方面均表现最优。这一结果说明因子数据是十分多样化的,极少存在线性可分和正交归一化的情况,从而使得线性核和多项式核的表现弱于高斯核。

按回测顺序(线性核、多项式核和高斯核函数),阿尔法、夏普比率依次升高,最低年化收益率为14.56%,而基准收益率仅为-0.87%,说明支持向量机策略在不同核函数上能够同时获得超额收益。多项式核和高斯核的夏普比率和信息比率均大于1,表现出策略每承担1个单位的风险得到的收益大于风险。三种核对应的贝塔均大于0.7,说明股票收益率与市场收益率是高度相关的。

2016年1月至2018年9月的回测曲线如下:

其中下方为沪深300指数走势,上方为支持向量机模型策略走勢。

通过不同核函数策略之间对比回测曲线可以发现,支持向量机模型在前期震荡市场中,线性核和高斯核函数均能获得明显超额收益;在上涨市场中多项式核函数获得超额收益的能力较强;在下跌市场中线性核和多项式核都出现不同程度的下跌,而高斯核函数很快的适应市场行情,收益创出新高。由此可见,基于高斯核函数的支持向量机选股策略不仅能够在短期投资中获得极大收益,在长期投资中稳健获利,而且能够极好的适应各种市场行情。

5 结语

综上所述,本文首先利用单因子模型从市场上12大类共计500多个因子中筛选出22个有效因子。然后,利用筛选出的有效因子构建了基于不同核函数的支持向量机选股模型,并利用近年真实市场数据对该模型进行了回测。从绩效报告和回测曲线可以看出,基于高斯核函数的模型相比于其余两种核函数表现更佳,能够在不同的行情下获得稳健收益,以及较低的风险控制。

参考文献

欧阳中,王育齐,俞梅洪.基于不同核函数的支持向量机的分析与比较[J].福建电脑,2013(10).

刘佳祺,刘德红,林甜甜.基于BP神经网络模型的股票价格研究[J].中国商论,2018(08).

谢翔.机器学习算法对中国A股的适应性比较[D].广州:暨南大学,2017.

刘帅.量化投资:若干金融衍生品的定价模型及投资策略研究[D].上海:上海大学,2016.

魏欣欣,徐悦,张诗雅.股票基本面指数的优化研究[J].中国商论,2019(14).

朱晨曦.我国A股市场多因子量化选股模型实证分析[D].北京:首都经济贸易大学,2017.

陈阳.基于SVM的沪深300指数涨跌预测及量化策略研究[D].西安:西北大学,2019.

江鹏.基于支持向量机(SVM)股票择时策略的研究[D].南昌:江西财经大学,2019.

猜你喜欢

支持向量机股票
基于改进支持向量机的船舶纵摇预报模型
本周创出今年以来新高的股票
本周创出今年以来新高的股票
基于SVM的烟草销售量预测
动态场景中的视觉目标识别方法分析
论提高装备故障预测准确度的方法途径
基于熵技术的公共事业费最优组合预测
基于支持向量机的金融数据分析研究
本周连续上涨3天以上的股票
近期连续涨、跌3天以上的股票