APP下载

基于自回归移动平均反转的在线投资组合选择

2018-07-25郁顺昌黄定江

计算机应用 2018年5期
关键词:集上收益价格

郁顺昌,黄定江

(1.华东理工大学理学院,上海200237; 2.华东师范大学 数据科学与工程学院,上海200241)

(*通信作者电子邮箱shuncyu@163.com)

0 引言

投资组合选择是计算金融领域[1-2]中的一个基本问题,也是金融工程领域[3-5]中一项具体的实际工程任务。它的主要目的在于优化一组资产间的收益分配,进而获得最优的投资回报。近几十年来,人们对投资组合选择问题已经在机器学习[6-8]和人工智能[9-12]领域进行了广泛的探索。其中,一类具有代表性和前沿性的研究就是反转策略,即捕捉和利用金融市场中的均值反转现象,使得投资累积收益最大化。

虽然这些均值反转类算法在许多数据集上的应用十分成功,但在道琼斯工业指数(Dow Jones Industrial Average,DJIA)数据集[13-16]上却表现不佳。主要原因包括:1)现有的部分均值反转策略不能很好地处理噪声和异常值;2)没有充分考虑金融时间序列中普遍存在的非平稳性特征;3)单周期的假设并不符合实际情形。

针对上述问题,本文利用自回归移动平均反转模型,并结合在线被动攻击(Passive Aggressive,PA)算法提出了在线自回归移动平均反转(OnLine Autoregressive moving average Reversion,OLAR)策略。同时,在4个真实市场的数据集上进行了大量的对比实验,并进行了统计检验,进一步地论证了策略的有效性。

1 相关工作

人们对在线投资组合选择已经遵循Kelly投资理论进行了广泛的探索。一般地,从所遵循的原则来说,投资组合选择研究有两个主流学派,即Markowitz均值方差理论[17]和Kelly资本增长理论[18]。而Kelly投资理论中一类代表性的工作是均值反转类策略[13-16,19],这也是本文研究的主要内容。此类策略主要分为以下两种类型:

1)利用历史价格数据进行预测。

在此类情形中,一般假设资产价格服从正态分布,此时历史平均价格可以很好地用来解释市场行为。此类策略主要分为以下两种:

一种是利用所有的历史价格数据进行预测。主要包括固定再平衡投资组合(ConstantRebalancedPortfolios,CRP)[20-21]、最 优 的 固 定 再 平 衡 投 资 组 合 (Best CRP,BCRP)[22]、连 续 固 定 再 平 衡 投 资 组 合 (Successive CRP,SCRP)[23]和在线牛顿步(Online Newton Step,ONS)[24-25]策略。CRP策略在整个投资期间保持每个资产的权重固定;在市场独立同分布的假设下,整个市场序列的BCRP策略是一个最佳的事后CRP策略;而SCRP和ONS则隐含地假设历史相对价格服从均匀分布,进而来预测下一个价格。

除了利用所有的历史相对价格来进行预测之外,一些策略通过选择一组相似的相对价格来预测下一个相对价格。主要包括基于滑动窗口的非参核(Nonparametric Kernel based moving window,BK) 策 略[26]、非参 最近 邻 (Nonparametric Nearest neighbor,BNN) 策 略[27]和 相 关 驱 动 非 参 学 习(Correlation-driven nonparametric learning,CORN) 策 略[28]。此类算法主要选择不同的相似性度量来衡量相对价格序列的相似度,并构造相似集,进一步利用相似集来预测下一个相对价格。BK策略利用核方法来度量相似性;在相同的框架下,BNN策略利用最近邻方法来寻找一组相似的相对价格序列;CORN策略通过序列相关性来度量相似度。

2)利用单值预测来预测下一个相对价格。

单值预测也是目前“追踪低收益组合”类策略普遍采取的一种做法。近些年来,国内外的很多学者进行了更加深入的研究和探索,包括目前表现最好的在线滑动平均反转(Online Moving Average Reversion,OLMAR)和鲁棒中位数反转(Robust Median Reversion,RMR)策略。此类策略显式地或者隐含地假设市场存在反转现象。此类策略主要包括指数梯度(Exponential Gradient,EG)、被动主动均值反转(Passive Aggressive Mean Reversion,PAMR)[15]、置信加权均值反转(Confidence Weight Mean Reversion, CWMR)[16]、OLMAR[13-14]和 RMR[19]等策略。EG[23]把上一个相对价格作为下一个相对价格的预测值;PAMR和CWMR用上一个相对价格的倒数作为下一个相对价格的预测值;OLMAR利用移动平均或者指数平滑来预测下一个相对价格;RMR则利用L1中位数估计量来预测下一个相对价格。

然而,还有一些算法不注重估计量的选择和设计。比如,泛化投资组合(Universal Portfolios,UP)[22,29]是所有 CRP 的历史加权平均;反相关性(Anti-correlation,Anticor)策略[30]利用正滞后互相关和负自相关的一致性来调整投资组合。

本文假设市场存在反转现象,并遵循单值预测的方法来设计投资组合。本文着重解决金融时间序列的非平稳性,单周期和噪声等问题,重点关注策略在累积收益等指标上的性能提升和交易成本对策略的影响,并设计更加有效的算法。

2 问题定义

考虑金融市场上一项具有d类资产和n个交易周期的投资。第t个交易周期,资产价格由收盘价向量pt∈Rd+来表示,其中元素pit表示第i类资产的收盘价。资产价格的变化由相对价格向量xt=(x1t,x2t,…,xdt)∈Rd+来表示,其中xjt表示第j类资产在第t与t-1期收盘价的比率,即在第t个周期对第j类资产的投资将会通过因子xjt来增加。记为从t周期到t周期的相对价格序12列。

投资组合经理的目标是设计一个策略bn1来最大化投资组合的累积收益Sn,其中投资组合选择以在线的方式进行。根据历史信息,管理者会在周期t为相对价格向量xt选择一个新的投资组合向量bt。而由此产生的投资组合bt则基于投资周期的收益st进行打分。这样的过程不断重复直到交易周期结束,而投资组合策略的表现是根据最终的累积收益来进行打分的。在上面的模型中,有3个隐含的假设:无交易成本、完美市场和零冲击成本。这几个假设是不平凡的,在实际中也并非可行,需要进一步探讨。

3 模型动机

实证研究表明反转也许更符合市场规律,即当前表现差的股票在下一周期会表现得好。在实践中,一个Kelly投资经理首先就k个可能的值及其相应的概率p1,p2,…,pk来预测表示第i个相对价格向量的预测值。然后,可以通过最大化期望对数收益来找到一个投资组合

对于反转类算法——OLMAR和RMR等,它们通过基于反转的单期和多期预测来估计下一个时期的相对价格。OLMAR利用w个滞后期价格的平均值来估计第t期结束时的价格,即:

其中MAt(w)为移动平均,w为窗口大小。而RMR则利用价格序列的中位数来预测第t期结束时的价格,即:

上述的操作都是逐元素进行的。虽然这些算法在大多数数据集上是有效的,但是目前反转策略仍然存在着诸多问题。首先,单周期假设在大多数实际情形中会遭到破坏,比如很多算法在DJIA数据集上都表现不佳;其次,由于受原材料价格频繁波动的影响,价格数据会含有大量的噪声和异常值,导致大多数算法在实际中表现不佳;再者,对于具有趋势性的时间序列,现有的大部分算法都不能得到高精确的预测结果。这些都是导致大多数算法在DJIA数据集上表现不佳的主要原因。

为了进一步说明现有策略的缺点,先来看一个有趣的例子。假设市场仅由一只股票构成,记ti(i>0)为需要进行估计的周期。三种不同形式的市场价格序列如表1所示。其中,A0、A1是指数增长型序列,其价格通过序列因子2,2,2来改变。B0、B1是周期增长型序列,其价格通过序列因子 2,2,0.5来改变;C0、C1是周期衰减型序列,其价格通过序列因子0.5,0.5,2 来改变。此外,A0、B0、C0表示确切的价格序列,而 A1、B1、C1表示带有离群值10的价格序列,“?”表示待估计的价格,“Acc”表示真实的价格。

表1 虚拟市场中不同策略的结果总结Tab.1 Summary of different strategies in a toy market

从表1可以观察到,与其他策略相比,OLAR得到了更为精确的价格预测,而OLMAR的估计值与真实值相差较大,预测精度不高。对于多期的情形,OLAR比RMR表现得更好,预测精度更高。同时,对于没有异常值存在的序列A0、B0、C0,OLAR的预测值与真实值相同,得到了精准的预测;对于存在异常值的序列噪声序列A1、B1、C1,OLAR可以像 RMR一样,能够很好地处理波动和异常值。虽然这个虚构的例子只是基于单一资产构造的,但是这种估计可以很容易地扩展到多个资产的情况。

4 在线自回归移动平均反转(OLAR)算法

为了解决金融时间序列中的非平稳性问题,本文首先选择能够有效地处理非平稳性的ARIMA模型对股价进行预测,并进一步地设计参数更新和算法,进而利用在线PA算法设计投资组合。

4.1 模型简化

ARIMA模型一般由两部分构成:自回归项AR和移动平均项MA。为了估计下一期的相对价格,首先给出下一期价格的预测模型ARIMA(p,d,q):

其中:p,q分别为自回归项和移动平均项的滞后期,d为差分次数,αi、βi分别为自回归项和移动平均项的系数。这里假设移动平均项MA(q)是可逆的,因此经过适当地变换,可以将ARIMA(p,d,q)模型转化为AR(∞,d)模型。然而,考虑到滞后期越大的项对当前的预测影响越小,因此这里舍弃某一滞后期之后的所有项,那么原模型就转化为AR(p+m,d)模型,即

因此,股票价格的预测问题就转化为AR(p+m,d)模型的求解问题。

4.2 算法设计与分析

接下来,采用在线学习的方式来求解AR模型。首先,这里给出损失函数的公式定义:

它描述了预测值和真实值之间的差异,其中γt表示第t次迭代更新之后的参数,其目标是最小化累积损失,即:

t

其中:第一项为经验误差项;第二项为正则项,也称为结构误差,其作用为防止过拟合。本文中的损失函数ft(γt)均采用指数凹型损失,即存在α>0,使得exp(-αft(γt))为凹函数。

接着,将损失函数fτ(γ)在γτ处进行二阶泰勒近似,并舍弃余项,即

由于常数项和正常数因子不会影响优化问题的解,因此式(3)中的优化问题可以转化为如下的优化问题

因为常数项不影响优化问题的解,所以式(5)中的优化问题可以转化为

为了使得算法更高效,本文采用迭代更新的方式来计算每一时期矩阵的逆,即:

这种更新方式可以节省大量计算矩阵逆的时间,因此只需要花费O(n2)的时间开销,其中n为矩阵的阶数。OLAR算法如算法1所示。

算法1 OLAR(p,m,η)。

1) 输入:参数p,m,学习率η,初始矩阵A0=ηI;

2) for t=1 to T do

预测下一个价格向量:

s.t. b·^xt+1≥ ε

其中:^xt+1为要估计的下一个相对价格向量,ε为反转阈值。上述优化问题试图在满足约束的条件下,找到与之前的投资组合bt偏差最小的一个投资组合。

接下来,利用拉格朗日乘子法求解式(7),过程如下:

① 构造拉格朗日函数L(b,λt+1,η):

其中λt+1=于没有考虑非负约束,所以式(9)中的投资组合可能会超出可行域。因此,为了确保投资组合是非负的,最终要将更新的投资组合投影到可行域中[31],其算法总结在算法2中。

最后,本文在一般的投资组合选择框架下来设计基于OLAR算法的投资组合选择策略,如算法3所示。OLAR策略利用数据的二阶信息对价格进行预测,并采用迭代的方式来更新矩阵的逆和各项参数,只需要花费O(n2)的时间开销和空间开销,因此显得更为高效。

算法 2 PA(ε,^xt+1,bt)。

步骤1 输入:阈值ε,估计的相对价格向量^xt+1,当前投资组合bt;

步骤2 计算参数:

5 实证研究

本章将通过与14种现有的策略进行对比(包括目前表现最好的OLMAR和RMR算法),并利用累积收益等多项实验效果度量指标以及统计检验来对OLAR策略进行测试,以此来说明OLAR策略的有效性。

5.1 数据集及实验设置

实验中所采用的数据集是来自于真实市场的4个公开数据集,即NYSE(O)、NYSE(N)、DJIA和MSCI。具体信息总结在表2中。在实验中,统一设置ε=10。

表2 真实市场的基准数据集Tab.2 Summary of real-world benchmark datasets

5.2 实验效果度量

在本文的实验中,采用7种指标来度量各个策略的实验效果。具体如下:

1)累积收益。整个交易周期内由策略所实现总收益,是一个标准的策略表现度量指标。

2)年化收益率(Annualized Percentage Yield,APY)。反映了策略实际收益的复合效应,该指标越大越好,这也是实证研究中最重要的一个参考指标。

3)波动率(Volatility,VL)。反映了投资组合的稳定性,该指标越小越好。

4)夏普比率(Sharpe Ratio,SR)。反映了每单位风险的超额收益,该指标越大越好。

5)Calmar比率(Calmar Ratio,CR)。反映了年化收益和历史最大回撤之间的关系,该指标越大越好。

6)最大回撤率(Maximum Drawdown,MDD)。描述了投资组合可能面临的最大亏损,它是一个重要的风险指标,该指标越小越好。

7)周转率。反映了策略的稳定性,该指标越小说明策略越稳定。

同时,本文针对OLAR策略进行了统计检验。统计检验是为了检验策略的效果是否由随机因素造成,这也是检验策略有效性的一种重要方法。

5.3 实验结果分析

5.3.1 累积收益

表3展示了实证研究部分的主要结果,即4个数据集上不同策略的累积收益表现。从表3可以观察到,与参与比较的14种策略相比,OLAR策略的表现最好,在 NYSE(O)、NYSE(N)和DJIA三个数据集上都获得了最大的累积收益。虽然在MSCI数据集上OLAR没有得到最大的累积收益,但是它的累积收益仍然高于OLMAR和RMR。同时,与目前表现最好的OLMAR和RMR策略相比,OLAR策略在四个数据集上的累积收益依次(至少)提升了 455.6%,221.5%,11.2%和50.3%。因此,从累积收益上来看,OLAR击败了现有最好的策略,并且效果提升显著。

表4展示了OLAR策略的统计检验(t检验)结果,其中MER为平均误差率,WR为策略的胜率,α、β为回归因子。可以观察到,除DJIA数据集之外,其余3个数据集上的概率p值均为0。这表明在这3个数据集上,OLAR在累积收益方面的优异表现是由随机因素造成的概率为0。然而,在DJIA数据集上,由随机因素产生超额收益的概率为0.003 3,也远小于0.01。因此,可以认为OLAR策略在累积收益上的卓越表现并不是由随机因素造成的,进一步表明该策略是有效的。

表3 4个数据集上各种策略的累积收益Tab.3 Accumulated profits of various strategies on four datasets

表4 4个数据集上OLAR统计检验结果Tab.4 Statistical test results of OLAR on four datasets

5.3.2 其他效果度量指标

从表5可以观察到,与OLMAR和RMR相比,OLAR在全部的4个数据集中都获得了最大的APY,最高的CR和SR,以及最低的MDD。同时OLAR在NYSE(O)和DJIA两个数据集上均获得了最小的波动率。在NYSE(N)数据集上,OLAR的波动率比RMR高,但是却比OLMAR的波动率低;在MSCI数据集上,OLAR的波动率比OLMAR和RMR的波动率都要高。虽然OLAR在NYSE(N)和MSCI数据集上没有得到最低的波动率,但是与RMR和OLMAR的波动率相差不大,同时在其他指标上均有良好的表现,因此这并不会对策略的表现和有效性造成严重的影响。综上所述,OLAR基本上在所有的实验指标上均获得了良好的表现。

5.3.3 交易成本分析

在实际交易中,交易成本是一个重要的且不可回避的问题,因此,本节研究了交易成本对策略的影响。

从图1可以观察到,当交易成本率γ从0变化到1%时,所有交易策略的累积收益都会逐步减少。然而,在4个数据集中,OLAR策略的累积收益曲线始终在OLMAR和RMR两个策略的收益曲线之上,这表明在交易成本相同的情况下,OLAR可以获得更大的累积收益。同时,在大交易成本率下,OLAR仍然能够获得一定的收益,这表明OLAR策略能够承受更高的交易成本,同时也说明OLAR比RMR和OLMAR更加稳健。

表5 OLMAR、RMR和OLAR在各种实验指标下的对比Tab.5 Comparison of various experimental indicators among OLMAR,RMR and OLAR

图1 各策略交易成本分析Fig.1 Transaction cost analysis of various strategies

5.3.4 稳定性度量指标——周转率

从表6可以观察到,OLAR在4个数据集上的周转率都明显地比 OLMAR和 RMR策略小。其中,与 RMR相比,OLAR在4个数据集上的周转率依次降低了15.6%,2.4%,18.3%,16.4%;与 OLMAR 相比,OLAR 在4 个数据集上的周转率依次降低了 20.0%,8.8%,24.9%,21.0%。这表明OLAR策略比OLMAR和RMR更稳定。

表6 OLMAR、RMR和OLAR的周转率比较Tab.6 Comparison of turnover among OLMAR,RMR,and OLAR

5.3.5 计算时间分析

在高频交易中,对运行时间有着十分严格的要求,往往需要在百分之一秒甚至更短的时间内进行操作,因此运行时间要求也是对投资组合选择策略的一大考验。表7展示了几种不同策略的真实的运行时间。可以看出,OLAR的计算时间与OLMAR和RMR的计算时间基本一致,这也表明了OLAR策略的实际可行性和可操作性。

表7 各种策略的计算时间对比 sTab.7 Comparison of computational time among various strategies s

6 结语

本文提出了一种基于自回归移动平均反转的多周期投资组合选择策略——OLAR策略。首先,OLAR利用ARIMA模型消除了时间序列的非平稳性,可以更好地进行价格预测。然后,在在线学习的框架下,OLAR策略得到了有效实施。各项实验结果表明,与OLMAR和RMR等策略相比,OLAR策略在累积收益、年化收益率和夏普比率等各项指标上均表现突出,同时通过了统计性检验。除此之外,与OLMAR和RMR相比,OLAR拥有更低的周转率和波动率,同时能够承受更大的交易成本,这表明OLAR能够更好地处理噪声和波动,更具鲁棒性。这些结果一致地表明:OLAR是一个可行而高效的策略。然而,仍然存在着一些问题:OLAR在DJIA和MSCI数据集上的提升效果并不显著,这可能是由于单一模型预测所导致的。一个比较好的解决办法是利用集成学习的方法来研究股价的预测以及投资组合的选择,这可以作为未来的研究方向,需要进一步的研究和探索。

猜你喜欢

集上收益价格
螃蟹爬上“网” 收益落进兜
Cookie-Cutter集上的Gibbs测度
链完备偏序集上广义向量均衡问题解映射的保序性
复扇形指标集上的分布混沌
价格
价格
价格
2015年理财“6宗最”谁能给你稳稳的收益
东芝惊爆会计丑闻 凭空捏造1518亿日元收益
价格