基于机器学习的多因子选股策略实证研究

2022-12-25吴员福

大科技 2022年48期

吴员福

（中国人民大学数学学院，北京 100872）

0 引言

构建量化投资组合的关键在于寻找到有效的风格因子，并据此建立稳定、灵活的多因子模型。这种多因子模型多为静态模型。所谓“静态”，是指多因子模型不能及时追踪和把握市场环境的变化和宏观经济的变化[1]。若要获取长期稳定的Alpha 收益，及时追踪、把握市场环境的变化并调整风格因子的构成及相应的权重是关键[2]。

本文旨在研究资本市场中资产价格数据的风格因子“择时”，在多因子模型的构建过程中引入机器学习方法，以标的资产历史价格数据的分析为基础，寻找共性风格特征的分化轮动规律，对因子的未来表现进行估计，并据此调整综合因子中风格因子的构成与赋权[3]。

1 多因子模型

多因子模型的一般表达式如式（1）所示。

式中：Xjk——标的证券j 在共性特征k 上的暴露；μj——标的证券j 的残差收益率[4]。

如果某投资组合由N 个标的证券组成，各标的证券在组合中所占比重分别是hp1，hp2，…，hpn，则整体收益率为表示如式（2）所示。

2 基于机器学习的因子择时策略

2.1 决策树模型

决策树生成的原理如下：如果X 为输入变量，Y 为输出变量，并且Y 是连续变量，给定的训练集如式（3）所示。

按照上述原理进行遍历，以求寻找到最佳的j，获得一个对（j，s），依次将其分成两个部分，然后对分割出的每个部分重复上述操作，直到符合条件为止[6]。

2.2 XGBoost 模型

XGBoost 学习中，假设构造了K 颗树的情况下，则总体值可表示为：

式中：K——决策树个数；F——一个泛函数，表示决策树的函数空间；q——每棵树的结构；T——决策树叶子节点的数目；w——一个权重向量；每一个fk都对应着一个独立的树结构q 和叶节点权重w[7]。

XGBoost 模型可采用如下步骤进行构建：

2.3 因子择时框架

本文中首先选取主流的标的资产共性特征，然后将宏观经济指标数据、共性特征历史IC 数据、相关市场变量数据等共同作为机器学习算法的输入，基于XGBoost 模型来估计每个共性风格特征在下一时段的IC 值，也就是说，估计资本市场中标的资产在未来时间的回报率与共性特征值之间的关联程度ρ。计算共性特征未来IC 值的目的在于后续按照此IC 值对各个共性特征进行赋权[11]。

3 实证研究

3.1 预测模型

本文基于XGBoost 模型预测标的资产未来时期的回报率与共性特征当前值之间的关联程度ρ，然后根据估计的IC 值决定综合因子中的各风格因子的构成以及风格因子的权重。主要选择共性特征历史IC 序列数据、市场指标、宏观指标作为机器学习模型的输入特征[12]。

3.2 多因子动态调仓策略

本文中以周为调仓频率，在某一时刻t 通XGBoost机器学习模型预测预测标的资产在一周后的收益率与当前特征取值之间的相关系数ρ。针对风格因子进行赋权的具体规则如下。

（1）在某一时刻t，采用XGBoost 模型对共性特征i下一时段选股的IC 值进行估算，得到ICi，t。

（2）若风格因子为正向因子，在ICi，t＞0 时，权值wi，t=ICi，t，否则认为风格因子在下一时段失效，权值wi，t=0。

（3）若风格因子为负向因子，在ICi，t＜0 时，权值wi，t=-ICi，t，否则认为风格因子在下一时段失效，权值wi，t=0。

（4）对wi，t做归一化的处理，使得，如果预测在下一时段所有因子都失效，则使用等权方式对风格因子进行赋权[13]。

3.3 实证结果对比分析

从回测结果的对比分析中可知，模型滚动训练的多因子策略的信息比为1.76，分别较因子等权策略和固定模型的多因子策略提高了62.9%和33.3%，而且在胜率、年化收益率、最大回撤等多项指标上也有明显提升。各模型回测表现对比如表1 所示。

表1 各模型回测表现对比

4 结语

随着市场环境的变化以及市场参与者之间的博弈，量化投资中某一风格因子带来的回报率会产生波动。前期产生稳定Alpha 收益的风格因子其有效性可能在未来转弱，甚至于完全失效，降低资产组合的超额收益率。本文提出基于XGBoost 模型的多因子策略旨在及时把握市场环境的变化以及风格因子的轮动情况，并根据市场的变化灵活地选择风格因子以及在必要时调整风格因子的权重。

历史回测表明，相较于因子等权策略，基于XGBoost模型的多因子动态策略的表现优势明显，回测期累积收益率由55.81%提升到88.28%，信息比也由1.08 提升到1.32，但最大回撤比因子等权策略要高。若采用模型滚动训练的模型，则能进一步提升回测表现，在策略的胜率、信息比、最大回撤等方面都显著优于传统的因子等权策略，在波动性较大的区间，基于模型滚动训练的多因子策略也能及时把握市场变化，始终获得比因子等权策略更好的表现。

本文不足之处在于未做限制换手率方面的研究。实证分析结果表明，相对于因子等权策略，基于XGBoost 模型的机器学习多因子动态调仓策略在最大回撤方面的表现不如传统的因子等权策略。究其原因在于综合因子中各风格因子权重的动态调整导致了资产组合换手率的明显提高。资产组合换手率的提高意味着交易成本更高，导致资产组合回报降低。如果资产组合的换手率能够得到降低，则可以大大降低交易成本，进一步提升策略的表现[14]。