误差修正模型的高频数据统计套利策略研究
2019-10-22彭闯
彭闯
摘要:本文主要介绍了统计套利的基本含义和基于协整的交易策略,之后选取了国内期货市场中具有代表性的沪铜1907和沪铜1908的的5分钟的高频交易数据来进行实证研究,其中包括相关系数检验、平稳性检验及协整检验等方法,最后根据检验的结果建立了误差修正模型并制定了套利策略,并依据建立的套利策略对历史数据进行了回测,根据回测结果对套利策略及模型的有效性给与了评估。
关键词:统计套利;协整检验;误差修正模型;高频数据
中图分类号:F820 文献标识码:A
文章编号:1005-913X(2019)09-0051-03
一、研究背景
国内对于股指期货的统计套利大多停留在日间数据,而对于分钟数据等高频数据的研究较少,而高频数据具有交易次数多,换手频率快等特点。相比于人为的投资操作,计算机的自动化操作具有风险小、套利机会多等特点。基于此背景,本文选取了上海期货市场沪铜期货1907与沪铜1908的5分钟数据,希望再期货合约的高频交易中使用协整检验和误差修正模型,获得协整检验、误差修正模型在高频数据的自动交易策略。
二、模型及交易策略介绍
(一)建模步骤及模型介绍
1.相关性检验。进行协整统计套利的投资标的物之间必须是有相互关系,要先进行相关性分析,这里选用pearson简单相关系数。
设X,Y是两个变量,则
其中ρxy为x,y的相关系数,cov(x,y)为两者的协方差,σx,σy为x和y的方差,μX,μY为x,y的均值。
2.平稳性检验。在进行时间序列建模时必须要求数据的时间序列数据平稳,必须先进行平稳性检验,单位根检验是判断时间序列平稳的重要方法,本文采用ADF检验,ADF检验为判断时间序列是否存在单位根的重要统计方法之一,如果序列平稳则不存在单位根,反之存在单位根。
设时间序列的p阶滞后项回归方程为
原假设H0:=0,存在一个单位根,对公式1进行OLS回归可得估计量及相应的t统计量,t统计量又被称为ADF统计量,如果的ADF值小于其ADF统计量的临界值,则拒绝原假设,证明原时间序列存在单位根。
3.单整。如果时间序列Xt平稳,则称Xt为零阶单整,记为Xt-I(0),如时间序列前d-1阶差分不平稳,第t阶差分为平稳序列,则称Xt为t阶单整,记为Xt-I(t)。
4.协整。如果两个时间序列{Xt}和{Yt}是两个不平稳的时间序列,但两个时间序列是同阶单整的,即:Xt-I(t),Yt-I(t),并且这两个序列的线性组合β1Xt+β2Yt是t-j阶单整的,记为β1Xt+β2Yt-I(k-j),则称{Xt}和{Yt}为(k,j)阶协整。
协整检验钟最常见的方法便是EG两步法,假设存在两个变量X1t和X2t,需要确定两个变量是否具有协整关系简要步骤可以表示为:
第一步:确定两个变量的单整阶数是否一致;
第二步:估计长期均衡关系。假设两个变量X1t、X2t都为1阶单整序列,则建立回归方程:
X1t=β0+β1X2t+εt估计长期均衡关系。估计的残差为εt=X1t-β0-β1X2t
第三步:检验序列是否平稳,是偏离长期均衡关系的利差估计值,如果这些利差估计值是平稳的则称X1t,X2t是(1,1)阶协整。
5.误差修正模型。如果两个变量是协整的,那么两个变量之间必然存在长期均衡关系,但由于市场波动及信息不对称等因素长期均衡中往往存在着短期偏差,这两个变量短期偏离的不均衡现象可以用误差修正模型描述。误差修正模型的常用方法有E-G两步法和直接估计法:
其中E-G两步法有:
第一步:根据协整检验的结果得到{Xt}和{Yt}的协整方程:
Yt=α0+α1xt+εt (1)
则其残差序列为:
εt =Yt-α0-α1xt (2)
第二步:设{Xt}和{Yt}的短期不均衡关系为:
△yt=β1△xt+β2ecmt-1+ut (3)
将(2)得到的εt-1替代(3)中的ecmt-1,得到误差修正方程
△yt=β1△xt+β2(Yt-1-α0-α1xt-1)+ut
之后根据OLS估计求出β1、β2的值,β1其中被称为误差修正系数。
直接估计法:
通过以△yt为因变量,△xt,yt-1,xt-1为自变量直接建立回归方程构建误差修正模型。
(二)交易策略分析
根据误差修正模型可以得出交易时两个期货商品的对冲比例。计算出两种投资标的物价差的时间序列记为spread,根据时间序列算出spread的均值μ和σ标准差,根据价差序列的分布,确定无套利区间、套利区间和止损区间来指导交易。这三个区间用均值加方差的波动来进行划分。
基本划分标准为:
第一步:设阀值:0<φ1<φ2<φ3
第二步:设立区间,其中(μ-φ1σ,μ+φ1σ)为无套利区间(-∞,μ-φ3σ)及(μ+φ3σ,+∞)為止损区间,在这两个区间中不持有头寸。μ±φ2σ为建仓点。
第三步:设立交易步骤,当样本价差序列向上突破μ+φ2σ,或者从止损区域(μ+φ3σ,+∞)向下击穿μ+φ3σ做多价差,带spread价差序列回归至μ+φ1σ时获利止盈离场或者spread扩大至μ+φ3σ时止损离场。当样本价差序列spread向下突破μ-φ2σ,或者从止损区域(-∞,μ-φ3σ)向上突破μ+φ3σ做多价差,待spread价差序列回归至μ-φ1σ时获利止盈离场,或者spread扩大至μ-φ3σ时止损离场。
其中φ1、φ2、φ3是以历史最大化收益为原则求出的。
三、实证分析
本文选取了从2018年5月1号到2019年5月1号沪铜1907和沪铜1908的一年的5分钟交易数据,其中包括交易时间、交易量、买卖价格等变量。并以交易价格作为时间序列进行分析,共计19547个样本。本文抽取了所有样本数据的前70%的数据进行建模,并用后30%的数据进行回测。
对期货进行统计套利的前提是这两种期货商品拥有较强的相关性,本文先选取沪铜1907与沪铜1908都为铜期货的两个不同的品种,本文希望先通过两种数据的折现图和散点图的分布去探究下两者的相关程度,由于高频数据的数据量较大,故选取了前200个点进行描述性分析。沪铜1907与1908的折线图与散点分布图分别如图1、图2所示。
从两者的散点图和折现图可以看出两种期货商品之间存在一定的均衡关系,接着对两种期货商品进行相关性分析:
从相关分析的表中也可以看出两种期货商品的相关系数达到了0.92,具有高度正相关。
接着对原序列做平稳性检验,并找出两种商品的单整系数。具体的ADF检验结果如表2所示
从表中可以看出两者的ADF统计量分别为-2.22和-2.23,均大于1%、5%、10%的临界值,在进行一阶差分以后,两者的ADF统计量分别变为-19.53和-19.55小于1%的临界值,说明沪铜1907与沪铜1908均为一阶单整序列。接下来采用E-G两步法进行协整检验,先建立回归方程,回归方程结果如表3所示:
由表得出的回归方程为cu1807=443.9+0.988cu
1808,接着对回归方程的残差进行单位根检验,具体结果如表4所示:
通过协整检验可以知道沪铜1907与沪铜1908具有协整关系。接着用直接估计法建立两者的误差修正模型,其中以沪铜1907为因变量,具体结果如表5所示:
得出的误差修正模型为:
△cu.1907=237.35+0.95△cu.1908-0.533△cu.1907t-1+0.527△cu.1908t-1+εt
=237.35+0.95△cu.1908-0.533(cu.1907t-1-0.988cu.1908t-1)+εt
error.ecm=cu.1907t-1-0.988cu.1908t-1
其中error.ecm为误差修正项,表明在两种期货商品的长期协整关系中,当沪铜1907偏离均衡值时下一期的波动值不仅和cu.1908的变动值有关还和两者的误差修正项有关,其修正的速度为-0.53,基于此得出的协整向量位(1,-0.988),表明进行修正时两种产品的对冲比例为1:0.98,表明在进行统计套利时做多一手沪铜1907时也要做空0.98手沪铜1908,同理做空一手沪铜1907,也要做多0.988手沪铜1908。
从而可以建立两个期货品种的样本内对冲价差时间序列spreadt=cu.1907-0.988cu.1908。
根据样本内的价差序列,得出样本内价差时间序列的均值为0.105,方差为1.33×10-7,根据样本内价差的均值和方差,按照上面所写的投资策略制定无套利、套利和止损区间。抽取了历史数据的后三个月六千样本作为测试数据,用r语言自己编写回测函数,以历史数据的收益最大化为约束条件求出三个区间的阈值φ1=0.4、φ2=1.5、φ3=3.3,每次交易的交易费用按10元计算,初始资金以沪铜1907与沪铜1908的一手的资金总和计算,前500个数据的价差走势图及回测总体累计收益数分别如图3与图4所示。
可以看出基于误差修正模型得出的套利策略在前3000时套机机会较多,随着时间的推移大约在4000期以后套利的机会开始逐渐降低。最后根据模型得出的收益数按照全年240个交易日,得出年化收益率、最大回撤、最长持仓时间等模型回测指标,具体结果见回测结果汇总表。
根据回测结果汇总表可以看出基于误差修正模型得出的套利策略在测试数据中得到了29.67%的年收益率,期间共套利360次。
四、结论与建议
通过本文的实践证明,在期货市场上运用误差修正模型去进行统计套利是可行的,并且相比于股票市场中日交易数据,统计套利更适用于基于高频交易数据去实现程序化、自动化交易,但是也可以看出高频数据也具有交易次数频繁,波动剧烈等特点,并且期货市场上需要的入市资金过高,更适用于大额资金的投资者。
参考文献:
[1] Engle R F,Granger C W J.Cointegration and error correction:reprensenation,estimation and testing[J].Econometvica, 1987(2).
[2] Burgess A N,Refense A N.1996a.Modelling non-linear cointegration in intenational equity index futrues[C].Netural Networks in Financial Engineering.World Scientific,Singapore,1996:50-63.
[3] 仇中群.基于協整的股指期货套利研究[D].合肥:中国科学技术大学,2009.
[4] 蔡志成.基于协整分析的统计套利策略研究[D].杭州:杭州电子科技大学,2014.
[5] 赵 华.时间序列数据分析——R软件应用[M].北京:清华大学出版社,2016.
[责任编辑:谭志远]