基于协整理论的DFTGARCH模型的统计套利研究
2019-07-05方军李星野
方军 李星野
摘 要 现有的统计套利策略大多建立在协整理论和GARCH模型的基础上.离散Fourier变换(DFT)的思想可以挖掘价差序列周期性、非线性的特征,保证其在拟合和预测中的精确度.利用沪铜期货合约的收盘价数据进行实证分析,研究结果表明:在高频数据下,新模型对数据的拟合和预测效果要明显优于传统的套利模型,在相同的交易规则下,新模型的套利成功率和收益率都高于传统的统计套利模型.
关键词 数量经济学;统计套利;协整理论; GARCH模型;离散Fourier变换
中图分类号 F224.0 文献标识码 A
Statistical Arbitrage Research of DFTGARCH
Model Based on Cointegration Theory
FANG Jun,LI Xingye
(College of Management, University of Shanghai for Science and Technology, Shanghai 200093, China)
Abstract Most of the existing statistical arbitrage strategies are based on the cointegration theory and the GARCH model. The idea of discrete Fourier transform (DFT) can exploit the periodic and nonlinear characteristics of the spread sequence to ensure its accuracy in fitting and prediction. Using the closing price data of copper futures contract in the Shanghai futures exchanges for empirical analysis, the results show that under the high-frequency data, the new model fits and predicts the data better than the traditional arbitrage model. Under the same trading rules, the arbitrage success rate and yield of the new model are higher than the traditional one.
Key words statistical arbitrage; cointegration theory; GARCH model; discrete Fourier transformation
1 引 言
統计套利策略作为期货市场最为常见的投资方式,一直是人们研究的热点.其核心思想是通过数理统计方法捕捉两种或多种资产组合之间的定价关系来构建多头和/或空头组合,通过设定合理的套利阈值进行程序化交易[1].统计套利的关键假设是历史会重演,即资产组合间的内部偏差能够得到快速修正,这需要在实际交易中找到合适的资产组合.
目前,国内外已有大量关于统计套利的研究文献.国外较早文献研究的是资产组合间是否存在套利机会.为提高套利机会与收益,研究者们逐渐将视线放在高频交易上,如Hanson和Hall(2012)[2]探讨不同频率下高频交易对统计套利盈利能力的影响,给出了高频交易的3个趋势,其实验结果表明,高频交易增加了相关性和波动性,对统计套利交易策略产生了直接的影响.最近的文献则大多是围绕探索许多新的统计套利模型展开,例如Krauss等(2016)[3]应用深度神经网络(deep neural networks)、梯度树提升(gradientboosted trees)和随机森林(random forests)的方法研究标准普尔500指数的统计套利.由于国内金融市场的不成熟和做空机制的不完善等原因,国内关于统计套利的研究起步较晚.在国外学者研究的基础上,我国学者也开始研究中国金融市场是否存在套利机会.仇中群和程希骏(2008)[4]将基于协整理论的统计套利策略运用在沪深300股指期货的仿真交易上,证明了统计套利策略在中国期货市场上是可行的.大量学者验证了我国金融市场上不同套利组合之间确实存在一定的套利机会.如常宗琪(2008)[5]将同样的套利策略应用于郑州期货交易所白糖期货合约,韩广哲和陈守东(2007)[6]基于上证50指数成分股的数据检验了统计套利模型的可行性.在此基础上,孙维(2009)[7]和赵莉(2012)[8]研究发现沪深股票市场具有异方差的波动特征,GARCH模型族具有更加优异的拟合效果.何树红等(2013)[9]基于GARCH统计套利模型,并利用置信度确定的套利阈值来进行跨期套利.随着统计套利理论的成熟,新的套利模型不断涌现.梁斌等(2011)[10]采用LARSLasso方法研究了沪深300仿真交易的期现套利,发现沪深300的仿真交易中存在比较大的套利空间.刘阳等(2016)[11]将神经网络与动态GARCH模型结合,使得模型能够更及时发现波动性的变动.张波和刘晓倩(2017)[12]基于EGACH-M模型对沪深300股指期货进行跨期套利研究,实证结果表明新模型能够更好的刻画协整关系从而获得更多的收益.还有部分学者验证并完善了统计套利策略,如雷井生和林莎(2013)[13]运用6个不同频率的数据论证了数据频率对套利结果的影响.覃良文等(2016)[14]通过穷举法求得统计套利的最优阈值,以此确定了最优的套利策略,实证研究表明这种方法相较于根据置信度来确定套利阈值的套利策略能获得更多的收益.
纵观国内外的相关研究,大多数学者对统计套利的交易资产组合及套利模型越来越关注,以期获得更高的收益率和套利成功率.在前人研究的基础上,通过加入离散Fourier变换的思想拟合并预测价差序列,从而构建新的统计套利模型可能是可行的.利用沪铜期货的收盘价数据建立传统的协整GARCH和新的基于协整理论的DFTGARCH两种统计套利模型,在相同的交易规则下进行实证研究,通过对两种模型的套利结果进行比较得出新模型的优劣.
2 研究方法
2.1 协整理论
大多数金融时间序列是非平稳的,但可以通过多次差分使其成为平稳序列.假如一个时间序列经过d次差分后变成平稳序列,则称原序列是d阶单整序列,记为I(d).协整理论就是为了说明两个同阶单整序列之间的长期均衡关系.
协整理论可以用公式(1)来表示.
其中时间序列X,Y为同阶单整序列,非均衡误差μt为平稳白噪声序列.
2.2 GARCH模型
为了说明金融时间序列的集群波动现象,引入GARCH模型,标准的GARCH(1,1)模型由以下公式描述.
均值方程:yt=c0+cxt+εt,(2)
条件方差方程:σ2t=α0+αε2t-1+βσ2t-1,(3)
标准化残差序列:rt=εtσ2t.(4)
2.3 离散Fourier变换(DFT)
通过Fourier变换,三角函数能够以任意的精度去逼近有间断点的函数ft.金融时间序列可以看成离散数列xn;n=0,1,…,N-1,它是根据取样定理对连续函数ft按时间间隔TN进行采样得到的,采样点数为N,则称
Xk=∑N-1n=0xne-i2πnk/N,k=0,1,…,N-1(5)
为xn的离散Fourier变换(DFT).称
xn=1N∑N-1k=0Xkei2πnk/N,n=0,1,…,N-1(6)
为Xk的离散Fourier逆变换(IDFT).
由Fourier变换的性质可以得到频率kN对应的实周期序列xm如式(7)所示.
x(m)=1N[X(k)ej2πNkm+X(N-k)ej2πN(N-k)m]
=1N[X(k)ej2πNkm+X(k)e-j2πNkm]
=1N∑N-1n=0x(n)cos [2πNk(m-n)]. (7)
2.4 周期延拓
通过离散Fourier变换可以得到对序列xn;n=0,1,…,N-1影响较大的周期序列,即Fourier变换后得到的频谱Xk中模值较大的频率所对应的周期序列,将这些周期序列简单叠加可以得到原序列的主要趋势序列.而周期延拓就是将这些周期序列按其周期分别进行复制延拓,延拓后的序列叠加在一起就是预测的原序列的趋势序列.
若xm的周期为M,则xm的周期延拓如式(8)所示.
(m)=∑∞a=-∞x(m+aM).(8)
如图1所示,细线是周期序列,粗线是周期延拓序列.
时间/5分钟
图1 周期延拓
2.5 统计套利交易策略
为比较基于协整理论的DFTGARCH统计套利模型与常用的协整-GARCH统计套利模型的优劣,对两种模型采用同一种交易策略,即根据统计套利理论,以GARCH模型残差项rt=μt/σ2t来确定套利区间,进行套利交易.
为了简化交易流程,要求开仓后未平仓不得再开仓.具体交易策略是:当rt>δ1δ1>0时,牛市建仓,此时买入主力合约CU0,卖空次主力合约CU1,平仓条件有两种:若rt≤δ20≤δ2<δ1则止盈平仓,若rt≥δ30≤δ2<δ1<δ3则止损平仓;当rt<-δ1δ1>0时开始熊市建仓,此时买入次主力合约CU1,卖空主力合约CU0,平仓条件类似.
3 实证研究
3.1 数据选取
为比较两种统计套利模型的优劣,对上海期货交易所阴极铜期货Cu1708和Cu1709的5分钟收盘价数据分别建立相应的统计套利模型,在相同的交易規则下进行实证分析.
取2017年7月27日至2017年8月3日共6个交易日558个5分钟收盘价数据为样本内数据建立套利模型,以2017年8月4日至2017年8月7日共两个交易日186个5分钟收盘价数据为样本外数据验证模型的实际盈利效果.数据源于万德数据库.
3.2 协整关系
基于统计套利的历史重演假设,选取的套利资产组合之间必须有良好的相关性.首先,将沪铜期货Cu1708和Cu1709合约的价格序列分别记为主力合约Cu0与次主力合约Cu1,经计算两序列的相关性系数为0.99,从而可以认定统计套利的假设得到满足.
接着对两价格序列进行ADF单位根检验,结果表明两序列均为一阶单整序列,由最小二乘估计(OLS)得其协整关系如式(9)所示.
Cu1=-621.819+1.015Cu0+μt.(9)
最后对价差序列μt也进行ADF检验,得出μt是平稳的,说明Cu0与Cu1之间存在协整关系.
3.3 建立GARCH模型
用MATLAB对价差序列μt进行ARCH检验,发现其存在ARCH效应,所以考虑对序列μt运用GARCH(1,1)模型,拟合后得到的模型如式(8)所示.
σ2t=39.447+0.635ε2t-1+0.309σ2t-1.(10)
t值= (4.458) (17.491) (7.057)
由括号中各系数的t统计量值可以看出,模型的拟合效果很理想.
3.4 建立DFTGARCH模型
3.4.1 提取主要趋势序列
对价差序列μt进行离散Fourier变换(DFT),根据其幅值谱提取价差序列的主要趋势.一般来说,仅选取幅值最大的3个频率点对应的周期序列,将其叠加得到主要趋势序列.这是因为选取的个数越多,虽然样本内数据拟合效果会越好,但样本外预测的误差也会越大,从而统计套利模型的稳定性与实际盈利效果越差.
幅值最大的频率点所对应的周期序列如图1所示,细线是周期序列,粗线是周期延拓序列.图2(a)与图2(b)分别是幅值第二大和第三大的频率点所对应的周期与周期延拓序列.图3是这些周期序列叠加后得到的主要趋势序列x(n),细线是主要趋势序列,粗线是预测趋势序列.
3.4.2 价差的残差序列
价差序列μt与提取的主要趋势序列x(n)之间的差值称之为价差的残差序列,记为S.
3.4.3 建立GARCH模型
对价差的残差序列S进行ARCH检验,发现其存在ARCH效应,所以考虑对序列S运用GARCH(1,1)模型,拟合后得到的模型如式(12)所示.
各系数的t统计量值表明GARCH模型的拟合效果很好.
3.5 累计收益率
以样本内、外的累计收益率为标准判断模型的优劣.为简化计算,假定一手沪铜期货主力合约的价格为X,次主力合约的价格为Y,其中Xi1、Yi1是第i次套利时两合约的开仓价格,Xi2、Yi2是第i次套利时两合约的平仓价格,交易手续费率为C%,则第i次牛市开仓的收益率如式(13)所示.
同理,第j次熊市开仓的收益率如式(14)所示.
假定在套利过程中一共完成了n次交易,其中牛市开仓有n1次,熊市建仓有n2次,并且n=n1+n2,于是累计收益率如式(15)所示.
3.6 套利交易
3.6.1 套利阈值
对于不同大小的套利阈值,统计套利模型的损益也有所差异.为了减小套利阈值对模型结果的影响,采用以下方式确定套利阈值.
止损阈值:在实际的统计套利过程中,δ3的取值一般由投资者根据自身的风险偏好以及需求来确定.为排除主观因素对套利结果的影响,根据风险价值理论选取置信度为99%的VaR值(δ3=2.33)为止损阈值.
平仓阈值:为简化交易流程,根据统计套利的历史重演假定,将两种模型的平仓阈值都设为0δ2=0,即认为当价差序列偏离了长期均衡关系后,在短期内仍能够得到修正.
开仓阈值:采用穷举法遍历所有的开仓阈值,以一定的步长将区间δ2,δ3=(0,2.33)内的值一一赋予δ1,以样本内的累计收益率为标准,最大累计收益率对应的开仓阈值δ*1为模型的最优开仓阈值.
3.6.2 样本内套利结果分析
根据交易所数据确定交易手续费率为0.05‰,经过MATLAB程序计算,可以得出两种模型在样本内的最优开仓阈值以及对应的最大累计收益率,结果见表1.
由表1可知,在相同的交易规则下,对样本内数据使用新模型进行统计套利能获得更好的收益.因为新模型在确保套利成功率的前提下,大幅提升了套利次数,从而累计收益率得到提升.
为了排除最优开仓阈值对两种模型累计收益率的影響,在相同的交易规则下,计算出所有满足条件的开仓阈值相对应的累计收益率,如图5所示.实线与虚线分别表示DFTGARCH模型累计收益率、GARCH模型累计收益率与开仓阈值之间的关系.
由图5可以看出,在相同的交易规则下,当选取相同的开仓阈值进行统计套利时,基于协整理论的DFTGARCH统计套利模型在样本内的累计收益率一般要高于基于协整理论的GARCH统计套利模型,说明该模型相较于传统的套利模型对样本内的数据有更好的拟合效果.
3.6.3 样本外数据回测
为了评价模型的稳定性及实际盈利效果,以2017年8月4日至2017年8月7日5分钟收盘价数据为样本外数据进行回测.在相同的交易规则下,以样本内数据确定的最优开仓阈值对样本外数据进行统计套利,套利结果见表2.
由表2可知,两种套利模型在样本外套利的总次数都差不多, 但GARCH统计套利模型在样本外的套利成功率较低,因为GARCH模型对样本外数据的预测效果较差,而DFTGARCH模型基于离散Fourier变换理论提取和预测了价差序列的主要趋势,无论是套利成功率还是平均单次收益率都得到了保证,从而在样本外获得了更好的盈利.
me-font:minor-fareast; mso-bidi-font-family:宋体;mso-ansi-language:EN-US;mso-fareast-language:ZH-CN; mso-bidi-language:AR-SA'>效应,所以考虑对序列S运用GARCH(1,1)模型,拟合后得到的模型如式(12)所示.
4 结 论
与传统的协整GARCH统计套利模型不同,新模型在协整理论求得价差序列的基础上,利用离散Fourier变换提取和预测了价差序列的主要趋势,在相同的交易规则下求得样本内的最优开仓阈值和累计收益率,并由此计算出样本外的累计收益率.
在相同的交易规则下,通过对两种统计套利模型的交易结果进行比较可以看出以下两点.(1)在样本内,基于协整理论的DFTGARCH统计套利模型能够更好的拟合样本内的数据,抓住价差序列非线性、周期性的特点,捕捉到更优的套利时机.(2)在样本外,基于离散Fourier变换理论的新模型能够更好的预测价差序列的波动,确保了统计套利模型的稳定性,具有更加优异的实际盈利效果.
新模型在使用过程中,需要不定期的更新数据.而根据Fourier变换的性质,样本内的数据变动不仅会影响模型参数,还会影响预测的样本外价差序列,所以需要确定最优的样本内区间长度以及样本外多步向前预测的步数.
参考文献
[1] 朱丽蓉,苏辛,周勇.基于我国期货市场的统计套利研究[J].数理统计与管理,2015,34(4):730-740.
[2] HANSON T A,HALL J. Statistical Arbitrage Trading Strategies and High Frequency Trading[J]. Social Science Electronic Publishing, 2012, 49(2):177-202.
[3] KRAUSS C, DO X A, HUCK N. Deep neural networks, gradientboosted trees, random forests: Statistical arbitrage on the S&P 500[J]. European Journal of Operational Research, 2016, 259(2) :689-702.
[4] 仇中群,程希骏. 基于协整的股指期货跨期套利策略模型[J]. 系统工程, 2008, 26(12):26-29.
[5] 常宗琪. 白糖统计套利理论模式研究及实例分析[J]. 经济师, 2008, 2008(11):30-31.
[6] 韩广哲,陈守东. 统计套利模型研究——基于上证50指数成份股的检验[J]. 数理统计与管理, 2007, 26(5):908-916.
[7] 孙维. 对深圳股票市场有效性的实证研究[J]. 经济研究导刊, 2009(18):73-73.
[8] 赵莉. 基于GARCH模型的沪深300指数收益率波动性分析[D]. 成都:成都理工大学管理科学学院, 2012.
[9] 何树红,张月秋,张文. 基于GARCH模型的股指期货协整跨期套利实证研究[J]. 数学的实践与认识, 2013, 43(20):274-279.
[10]梁斌,陈敏,缪柏其,黄意球,陈钊. 基于LARSLasso的指数跟踪及其在股指期货套利策略中的应用[J]. 数理统计与管理, 2011, 30(6):1104-1113.
[11]刘阳,李艳丽,陆贵斌. 基于信息更新NNGARCH模型的统计套利研究[J]. 统计与决策, 2016(2):169-171.
[12]张波,刘晓倩. 基于EGARCHM模型的沪深300股指期货跨期套利研究——一种修正的协整关系[J]. 统计与信息论坛, 2017, 32(4):34-40.
[13]雷井生,林莎. 基于高频数据的统计套利策略及实证研究[J]. 科研管理, 2013, 34(6):138-145.
[14]覃良文,唐國强,林静. 基于协整GARCH模型最优阈值统计套利研究[J]. 桂林理工大学学报, 2016, 36(3):625-631.