APP下载

基于机器学习下量化选股的分析

2018-05-31杨亚东

商情 2018年14期
关键词:机器学习

杨亚东

【摘要】股票市场属于非线性系统,复杂性高而信噪比低。目前,多个领域中已经证实,机器学习是一种能够针对模糊非线性数据建模的工具,所以机器学习具有天然的应用到量化投资领域的优势。从本质上看,选股是排序问题,投资者希望在众多的股票中选择出具有更好未来表现的股票。基于此,本文分析了利用机器学习量化选股的方法。

【关键词】机器学习 量化投资 选股

相对于国外来说,我国属于刚刚开始发展量化投资,存在的不足之处仍比较多,但从实际情况看,A股市场具有较短的发展历程,与已经发展的比较成熟的海外市场相比,市场有效程度比较弱,错误定价的股票数量比较多,普遍存在非理性人投资行为,也正是因为此种不成熟特征的存在,为我国量化投资的发展提供了巨大的空间。因此,在现阶段A股市场中,更适合的量化投资方式为公正、理性、客观的。由此看来,本文研究量化选股的方法具有十分重要的现实意义。

一、短线选股策略

本节构建样本集时,特征选择为20个交易日内个股的收盘价走势,训练样本方法采用两种,分别为机器学习算法GBDT、GBRank,模式识别有机器学习自动进行。

(一)数据准备

需准备的数据包含2部分,一部分为样本内数据,属于训l练集,另一部分为样本外数据,属于测试集。本文数据均来源于Wind资讯,时间段为2006年1月1日2016年11月30日,均为A股收盘价。之后分割该时问段的数据,使其变为不存在交集的两部分,训练样本使用2006年1月1日2012年11月5日数据,测试样本使用剩余时间段的数据。训l练样本和测试样本生产时,如果股票上市后的交易日未满21个,做剔除处理,最后,生产约240万训练样本。

(二)提取特征

构建策略时,关键性的一步为特征提取,因本章短线选股策略是在模式识别基础上进行的,因此,关注K线形态特,征过程中仅选择20个交易日的。首先,通过指数移动平均线,过滤到收盘价的噪声,随后进行价格走势形态特征向量的描述,描述序列为收益率序列,最后,完成特征提取。

(三)模型训练

排序模型训练时,利用两种算法进行。第一种为GBDT,训练中,股票问相对顺序不做考虑,仅拟合其绝对得分,训练样本构建过程中,3个交易日后,若样本涨幅≥1%,则得分=1,否则样本得分=O,根据此种方式,训练样本集即可获得,接着以训练样本集作为GBDT的输入样本集,训练排序模型,此过程中,由于GBDT存在较多的参数,如果调参采用交叉验证方式,将会耗费大量的时间,因此,本文按照知识和经验,调优逐步的进行,完整训练后,排出函数h输出,通过h,即可开展打分操作,依据分数由高到低,排序未来3天内涨幅会超过1%的股票,供投资者选择。第二种为GBRank,这是一种pairwise方法,仅对同一时段内股票的相对涨跌幅做出考虑,保证训练样本不会受到系统性风险的影响,训练样本集获取后,输入到GBRank中,训练排序模型,参数直接选择相同于GBDT的,最终,排除函数h获得,排序未来3天内股票的表现。

二、长线选股策略

因短线选股策略仅能排序3天以内的,时间较短,本节提出的长线选股策略可排序未来20个交易日内的股票。

(一)数据准备

本节中,数据来源、选取时间段、划分训练样本和测试样本的方法均相同于1.1,不过,训练样本和测试样本生成时,要将股票上市时间不足3个月的剔除,以能与44维的要求相符合。最后,生成约160万的训练样本。

(二)特征提取

因要构建长线选股策略,因此要对个股在过去20个交易内、2个月交易日内、3个月交易日内的动量因子做出关注。首先。动量、反转效应特征向量描述时,采用的序列为个股动量因子序列,z-score标准化处理每一维度的特征向量;其次,以元素所處维度为依据,将每个元素的分位数计算出来;最后,组合上述两步处理后的特征向量,使特征向量达到44维,此种特征向量能够输入到机器学习中。

(三)模型训练

模型训练时,同样采用1.3中的两种方法。利用GBDT训练过程中,训练方式采用pointwise,无需对股票问相对顺序做出考虑,仅需拟合其绝对分数,20个交易日后,与股票涨幅均值相比,样本股价涨幅更大时,得分=1,样本股价涨幅更小时,得分=O,此处划分样本参照的标准为涨幅均指,以能保证排序的客观性、准确性,随后,获得训练样本集,并输入到GBDT中,训练排序模型,由于本节特征向量维度要显著高于1.3节的,因此设置参数时会不同于1.3,要增加回归树最大深度、并增加叶子结点数上限,完成训练后,排序函数h获得,通过h,即可完成未来20个交易日内的股票排序工作。利用GBRank训练过程中,训练方法相同于1.3此种方法,获得训练样本集后,输入到GBRank中,接着训练排序模型,设定的参数完全相同于本节的GBDT方法,最终,排序函数h获得,完成排序。

三、结论

机器学习基础上,本文构建了短线和长线量化选股策略,能够排序未来3个交易日及未来20个交易日内的股票,利于投资者实现量化选股,从而提高投资者投资的理性程度,促进我国A股市场的良好发展。不过,本文构建选股策略后,并未进行实际的实验,因而还需要进一步的开展验证研究。

参考文献:

[1]冯楠,陈有为.基于量化趋势跟踪的计算机自动化选股模型的设计与实现[J].自动化与仪器仪表,2016,(08).

[2]李姝锦,胡晓旭,王聪.浅析基于大数据的多因子量化选股策略[J].经济研究导刊,2016,(17).

猜你喜欢

机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用