APP下载

基于决策树的多因子选股模型研究

2024-02-26李梦圆

生产力研究 2024年2期
关键词:多因子决策树预测

李梦圆

(贵州大学 经济学院,贵州 贵阳 550025)

一、引言

1952 年马科维茨在《资产组合的选择》,引出概率论和线性代数可相融合且应用于投资组合策略,而我国量化投资发展时间较为短暂,2004 年我国才接续呈现资产管理机构进行选股投资组合,而党的十九大以来我国坚持各项证券市场体制改革,人工智能逐渐渗透于股票市场,国务院发布于2017 年7月20 日的《新一代人工智能发展规划》引出智能金融一词,其基于大数据将金融与人工智能有效融合为一个体系。

机器学习算法是人工智能发展于证券市场的新动力,量化交易方式注重选股等事件驱动判断,因而可以解释金融资产价格原理,也可基于技术分析对金融资产价格进行合理预测。从国内外股票市场分析发展现状归纳出两种方式。一是基本分析,基于宏观环境、公司财政环境以及所处行业全方位分析股价变动范围;二是技术分析,基于历史相关数据根据统计方法、图形等分析股价变动趋势,借此帮助投资者在最佳时机买卖。

决策树是机器学习中兼具可读性高和分类效率快的优点的算法之一,在股票预测领域具有良好表现,它较于神经网络等算法结构全面,更易于投资者理解。本文的贡献:首先有效融合机器学习与技术分析在一定程度优化传统选股模型,基于沪深300 成分股相关数据从多方面选取因子以多种决策树模型构建投资组合,帮助投资者构建投资组合赢取超额收益,且基于决策树模型挖取其背后暗含的理论信息。

二、文献综述

(一)多因子模型相关模型文献综述

国外多因子选股模型研究起源于Markowotz 均值-方差理论,Fama 和French(1993)[1]引出第一个多因子模型,集市场组合、账面市值比及市值因子构建三因子模型预测证券收益率。Eugene 和Kenneth(2015)[2]改良三因子模型,加入RMW 和CMA 构建五因子模型发现其在我国A 股市场未必得到超额收益。互联网技术普及后学者们将传统多因子模型有效融合符合逻辑的计算机技术提高模型效率,Markm(1997)[3]基于构建动量因子和Fama-French三因子形成四因子模型,实证发现此模型几乎可解释一些股票型共同基金的收益。而我国资本市场相较国外发展较缓,学者们突破金融理论本土验证,多方位创新研究方向。黄兴旺等(2002)[4]基于Fama-French 三因子模型证明价值因子对股市波动不有效,规模因子有效。赵培骞和王德华(2007)[5]基于成长性和股东权益两个指标构建多因子选股模型实证发现所选因子与股票价格之间呈正相关关系。李志冰等(2017)[6]基于五因子模型表明其对于股票收益率影响更为显著。赵静(2016)[7]认为选择行业轮动效应结合多因子模型,此模型对金融市场风险控制更有效。

(二)决策树相关文献综述

1966 年Stone 等人引出单概念系统,而后国外学者们逐步提出ID3 和ID4 等算法。Sorensen 等(2000)[8]基于决策树采取股票价格动能等六项指标筛选美国科创板优质股票,实证发现这样的组合可以提高收益。Breiman(2001)[9]基于随机森林对样本分层抽样,与决策树相融合发现处理样本较大的数据有优势。而国内学者的研究主要集中于决策树在量化投资领域的预测和分类,谈叙(2013)[10]基于决策树中每个变量等特征选取建立金融时间序列模型,实证发现可显著提高股票收益预测精确度。沈金榕(2017)[11]基于CART 决策树算法选取财务指标作为逐步回归变量实证建模评估模型的有效性。张茂军等(2022)[12]基于决策树原理选取分类标签和值的特征构建CLBIB-VSD-CART 算法,实证分析螺纹钢期货交易策略。

学术界研究成果大多集中因子适用性和模型合理性,然而股票市场环境日趋复杂,金融数据是高度不平稳时间序列,传统建模方法已不能科学预测。学者们选取随机森林等模型,构建多因子组合模型分析股票市场股价变动趋势,本文采取人工智能算法优化传统选股模型组合优化提高预测的准确性,基于决策树可扩展性强符合投资者实际操作中的逻辑思维,基于此构建投资组合为我国股票市场量化投资策略的发展提供参考。

三、相关理论和模型介绍

(一)量化投资理论

1952 年马克维兹首次引出现代组合管理理论,而后Sharpe 等人于1963 年引出CAPM 模型奠定基石。量化选股与量化投资内涵呼应,基于数学理论工具对大量数据定量化分析、搭建定量模型,融合计算机和数量统计对海量数据分析金融资产价格等因素之间的联系。优点有:(1)客观性:基于各类定量化模型和辅助工具,避免主观性错误;(2)系统性:角度多层次,选择性广,从各类行业,等层次估值、预测等;(3)分散化:利用不同风险不相关的投资组合提高收益。

(二)多因子量化模型

多因子选股模型基于APT 理论、CAPM 模型及Fama-French 三因子模型构建,选取以某种规律性变化影响股价的因素,以此搭建自动交易的量化投资模型,消除情绪因素对择股不利影响来分析最新交易数据,使多因子选股模型具有实效性和持续性。选股步骤如下:

1.因子选取。从规模、盈利等因子选取部分增强模型信息捕获性。

2.因子有效性检验及删除冗余因子。参考已有文献基于排序法对因子进行有效性测验以保证模型不被数据耦合干扰,将所选因子按照分值排序划分为n 组计算各自收益,且计算高分位组合获取超额收益概率、低分位组合失败概率等,因子打分情况与此对应的收益率情况呈现显著相关性。

3.构建多因子选股模型。传统多因子量化选股有打分多因子、基于因子排序多因子和基于因子回归多因子模型,三种都选取去除冗余因子构建模型。本文基于决策树模型将选取期间的收益率以High、Middle、Low 比较三种算法效率。

(三)策略树理论

1.定义。决策树对变量值拆分来建立分类规则构建树状分类结构,利用自身树状划分形成路径的机器学习技术,分为两个步骤:一是从训练样本单个节点开始对特征空间基于变量影响效果大小排序选择变量和变量值。二是对选出的变量矩形分类进行效果比较。决策树每个分支表示变量判断条件,每个非节点为映射对象,每个叶子节点是预测结果,当分类结果一致即停止生长得到一个决策树预测模型。

2.模型构建。决策树算法有分类回归树CART等算法,其思想是基于递归算法将数据划分为不同矩形区域,进而判断数据点是否满足。具体步骤:首先是特征选择,基于信息增益等选取树杈指标构建根节点,划分后的数据有序程度越高,划分规则越合理。其次,决策树生成,基于选取特征分类划分数据集,若符合条件则构建叶节点,若不能则继续划分。最后,剪枝:决策树算法预测结果相对准确,为避免过度拟合,使用简化模型从已生成决策树剪掉一些叶结点平衡的预测误差和数据复杂度。

(四)决策树分类

1.ID3 算法。ID3 算法基于信息增益准则选取决策树各节点特征递归且以极大似然法进行概率模型选取。首先计算根节点所有可能特征的信息增益并选取最大特征作为节点特征,由此取值构建子节点,然后递归上述过程直到没有可选特征或所选特征信息增益最小得到最终决策树。

2.C4.5 算法。C4.5 算法基于ID3 算法选取信息增益来衡量特征进行优化处理离散型和连续性属性类型数据。特征Q对训练数据集W的信息增益比E可表示为此特征的信息增益R与数据集W基于特征Q熵值的比,即:

3.CART算法。CART指分类树回归算法模型,基于特征选择、树枝生成及剪枝,同时假设决策树为二叉树,且内部节点特征值有“是”和“否”,分类过程中递归输入数据划分成有限的数量单元来确定概率分布,具体步骤如:(1)生成过程:输入训练数据集生成尽量大的决策树。(2)剪枝:基于验证数据集对选取生成的决策树最优子树,并以损失函数最小值为参考标准。(3)在所有特征中计算基尼系数,选取数值最小的特征作为最小切分点划分为两个子节点,将数据集对应两个子节点整个过程递归使用直到满足停止条件形成最终CART决策树。

4.随机森林算法。2001 年LeoBeeiman 引出随机森林模型是基于决策树构造组合的定义,其优化决策树算法,在初始样本中可放回随机抽取相关样本基于决策树训练,此过程重复生成不同决策树形成森林,其中每一颗决策树都是独立训练样本形成。其优点为:(1)方便性:对原始数据无需过度操作,可基于测试集分类预测。(2)速度快:各棵决策树相互独立分类预测,聚焦特征因子集从而效率提高。(3)不过度拟合:随机性引入不会陷入过度拟合,适应性较强。具体步骤为:(1)从整个训练样本随机有放回的选取n个样本构成一个训练集来让一棵决策树训练,此过程重复m次构成m个训练子集。(2)从这个集合随机选取l 个特征组成特征子集,分别对以上m个训练子集和构造的m个决策树训练。(3)将测试样本放入随机森林中进行分类预测得到预测结果,最后将m个分类结果集合就是投票数据最终结果。

(五)回测方法

量化投资决策过程结束后需要通过一些有效指标体系评价其绩效,如:最大回撤率、夏普比率等。

1.最大回测率。最大回撤率是投资策略组合的最大回测力度,衡量某一个时间区间内的一个时间点往后推迟至整个组合净值最低时能够回测的最大值,公式为:

其中pi指投资组合某天的净值,pj则为pi后某天的净值。

2.夏普比率。夏普比率得到的基金收益率通过风险调整,即投资者每多承担一单位总风险会得到多少超额报酬,公式为:

四、实证部分

(一)实证步骤

第一,因子选取;第二,筛选股票;第三,构建股票;第四,回测。

(二)选股和因子选取

1.选股。本文选取2015 年12 月31 日至2018年9 月28 日沪深300 指数成分股数据,基于Jupyter相关模块编写,将所得数据去极值等。

2.因子选取。因子选取关键在选取区分度和有代表性因子,参考已有文献从盈利等因子类型选取2015 年12 月31 日至2018 年9 月28 日中12 个季度18 个有效因子进行有效性测试,选取的因子与因子季度性测试如表1、表2 所示。

表1 选取因子

表2 季度因子IC 值

从结果看,如2016 年3 月31 日dv_ttm值为-6.64975E-05,ps_ttm、pb、roa、roic、fcff及quick_ratio指标大于0.1;2018 年3 月31 日pb、eps、roe、roa、roic及quick_ratio均大于0.1,其余小于0.1。可以看出因子之间波动起伏空间较大和所选因子与股票收益相关性较差意味着个股选取因子对股票收益的影响很难得到有效因子,因此最终选取日平均收益率、日命中率、累计收益率、波动率、最大回撤率、年化夏普比率、在险价值、风险价值上的超额收益8个指标有效性测试。

(三)因子有效性测试

1.IC值。IC呈现选取股票因子值和其下一期收益率相关系数来衡量因子预测能力。IR是股票超额收益均值/标准差,它可衡量因子选股能力,本文选取因子IC和IR值如表3 所示。然而本文从两个方面进行冗余变量剔除,一是IC值大于0.05 可认为此因子为有效因子。二是借鉴已有研究选择分段IC值筛选:相关关系数值在-0.2~0.2 区间外的因子为有效因子,相关数据如图1 所示。

图1 因子分段IC

表3 因子IC 和IR 值

2.单因子有效性测试。将最终确定的八个因子进行有效性测试,以pe_ttm因子为例:按照因子值大小升序排序前20%股票划分第一组,以此类推最后20%划为第五组,最终选取的估值因子有pe_ttm、dv_ttm,结果显示其对股票收益率敏感度较低。结果如表4 所示。

表4 单因子有效性测试回测结果

3.构建投资组合。本文借鉴已有研究选取五等分区间回测法,选择pe_ttm、eps、roe、roa、roic、dv_ttm、netprofit_yoy、turnover_rate、gc_of_gr、total_mv构成有效因子池。将所选因子划分为5 个区间并计算平均收益率、日命中率、累计收益率、波动率、最大回撤率、年化夏普比率、在险价值、风险价值上的超额收益8个指标进行数值排序。

4.决策树模型构建。表5 显示三种模型中ID3效果优于其他两种,而随机森林是基于多棵决策树力量来量化分析,具有改善决策树的过渡拟合现象,因此随机森林模型优于决策树算法。

表5 模型实证结果

五、回测结果

回测部分选取2018 年12 月28 日至2019 年12 月31 日基于以上ID3、C4.5、CART 及随机森林四个算法投资组合选取表现最优秀的算法与上证综指绩效进行对比,来表明投资组合策略有效性,同时考察最优决策树策略组合相应的High、Middle及Low 组合有效性。High、Middle 及Low 组合呈现层级递减变动,证明本文投资组合回测构建有效,且所选研究期间High 的累计收益率高于同期上证综指累计收益。结果如表6 所示。

表6 回测结果

六、结论与展望

(一)结论

随着量化投资不断作用于我国股票市场,量化投资包含预测、套利、交易及资产配置四个模型,而多因子选股基于收益率和因子之间近似的线性关系去筛选高收益股票组合,机器学习算法能够提高此组合的准确性。本文基于沪深300 指数成分股相关数据构建多因子选股模型,实证证明机器学习算法可有效预测股票收益。

最后选取2018—2019 年股票收益数据回测并与上证综指相比发现基于决策树的多因子选股模型可以实现超额收益的目标,最后选取效果较好的决策树模型与上证综指进行回测比较,发现基于决策树模型的多因子选股模型有较好的效果。

(二)展望

我国目前量化投资领域的实证研究明显还不成熟,理论支撑相对薄弱,我国股票市场近年来受政策与市场参与者很难量化,在构建多因子模型中只能选取市场收益率来模拟经济环境变化对股票收益率的影响,随着量化投资领域成熟,市场有效性提高可以使得财务数据更真实,分析价格和宏观因素对国家收益率的预测会更科学而准确,最后决策树划分规则可以基于股票类型分析归纳形成最优结果。

猜你喜欢

多因子决策树预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
基于BP神经网络的多因子洪水分类研究
基于打分法的多因子量化选股策略研究
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
基于多因子的ZigBee安全认证机制
不必预测未来,只需把握现在
基于决策树的出租车乘客出行目的识别