基于高频数据的统计套利实证研究
2019-06-24方军李星野
方军 李星野
摘 要:统计套利的实证研究大多是利用高频数据来实现的,研究的主要内容是统计套利策略的有效性及套利模型的稳定性,很少研究数据频率对于统计套利结果的影响。利用沪铜期货合约的分钟级数据来进行统计套利,其实证结果表明,在相同的统计套利策略下,当数据频率低于30分钟时,高频数据的数据频率对于套利结果无影响;当数据频率高于30分钟时,频率越高,套利结果越好。
关键词:统计套利;高频数据;GARCH模型
中图分类号:F224.0 文献标志码:A 文章编号:1673-291X(2019)07-0096-02
引言
统计套利策略作为高频交易中最为常见的投资方式之一,近年来伴随着数学模型和计算机技术的快速发展,在理论发展与模型实现等方面都有了极大的进步。统计套利策略的实现需要做空机制的支撑,随着中国金融市场融资融券及股指期货的诞生与发展,统计套利在国内也逐渐受到投资者的重视与青睐。
目前,国内外存在大量关于统计套利的文献研究。例如,国外学者根据协整理论针对不同频率的高频数据进行实证研究。研究结果表明,高频数据不仅增加了可进行套利的资产组合范围,还保障了套利收益的稳定性,从而对统计套利交易策略有着直接的影响[1]。而国内关于统计套利的研究起步较晚,由于政策的限制及交易机制的不完善,基于高频数据的统计套利策略研究更是缺乏。近年来,国内学者不仅验证了统计套利策略在我国金融市场的有效性[2],在高频数据方面也存在着实证研究。例如,雷井生等在常用统计套利策略的基础上进行改进,并运用6个频率数据在新的策略上进行统计套利。实证结果表明,在高频数据下统计套利策略在我国股票市场是有效的[3]。
本文在前人研究的基础上加入了GARCH模型,通过设定最优的套利阈值组合减小了交易成本对统计套利结果的影响,在相同的交易策略和交易规则下运用7种不同频率的高频数据进行实证分析,以年化收益率的大小来衡量套利结果的优劣。
一、研究方法
(一)协整理论
(三)统计套利策略流程
为简化交易流程,我们要求开仓后未平仓不得再开仓。具体交易策略是:当rt>?啄1时,牛市建仓采用买入策略,即买入主力合约,卖空次主力合约,平仓条件有两种:若rt≤?啄2则止盈平仓,若rt≥?啄3则止损平仓;当rt<-?啄1时,熊市建仓采用卖出策略,即卖空主力合约,买入次主力合约,平仓条件类似。其中0≤?啄2<?啄1<?啄3。
對于不同大小的套利阈值(即不同的?啄=(?啄1,?啄2,?啄3)的值),统计套利模型的损益也有所差异。为了减小套利阈值对模型结果的影响,本文以样本内的累计收益率为标准,令?啄2=0,采用穷举法以一定的步长将区间(0,5)内的值一一赋予给开仓阈值?啄1和止损阈值?啄3,最大累计收益率对应的开仓阈值和止损阈值即为样本数据对应的最优阈值组合。
二、实证研究
(一)数据选取与处理
为了研究数据频率对套利结果的影响,本文选取上海期货交易所阴极铜期货Cu1801和Cu1802的1分钟、5分钟、10分钟、15分钟、30分钟、45分钟及60分钟高频数据进行统计套利,所有频率下样本内、外的数据个数比例均为3∶1,期货交易手续费率为0.05‰。本文所有数据源于万德数据库。
现以1分钟的高频数据为例,来说明具体的建模过程。取2017年12月12—13日共930个1分钟价格数据为样本内数据建立套利模型,以2017年12月14日的前310个1分钟价格数据为样本外数据验证模型的实际盈利效果。记选取的沪铜期货Cu1801和Cu1802合约的价格序列分别为Cu0与Cu1。
(二)模型建立
根据既定的统计套利策略对1分钟数据合约进行套利,样本内、外的年化收益率分别为131.32%与111.87%。同理,对其他频率数据采用相同的流程进行建模,得到各频率的年化收益率如下:在样本内,5分钟、10分钟、15分钟、30分钟、45分钟和60分钟的年化收益率分别为30.86%、15.73%、10.61%、8.99%、8.28%和8.41%;在样本外,各频率的年化收益率分别为15.67%、10.72%、6.47%、3.11%、1.30%和1.17%。
(三)实证结果分析
由上图可以看出,当数据频率高于30分钟时,频率越高样本内、外的年化收益率也越高;当数据频率低于30分钟时,样本内、外的年化收益率基本保持不变。
这是由于在相同的套利模型和策略下,当数据频率高于30分钟时,数据频率越高,单位时间内套利的机会越多,年化收益率也会增加。当数据频率低于30分钟时,高频率套利的收益率相差不大:一方面是因为沪铜期货数据易受其他因素影响,频率低于30分钟的数据已不具有统计学意义;另一方面是因为市场上其他套利者的存在,套利机会持续时间短。
结论
实证研究结果表明,高频数据的频率对统计套利结果有直接影响。在相同的交易策略和流程下,数据频率越高,套利的年化收益率也越高。这并不意味着实际交易中数据的选取频率越高越好,因为数据频率越高对交易系统的要求也越高,可实现性越低。但数据频率也不能太低,研究结果表明数据频率低于30分钟时,一方面可能错过大量套利机会,另一方面数据可能受其他因素影响而偏离协整关系。
参考文献:
[1] Thomas A.H.,Joshua R.H.Statistical Arbitrage Trading Strategies and High Frequency Trading[J].2013,(12).
[2] 仇中群,程希骏.基于协整的股指期货跨期套利策略模型[J].系统工程,2008,(12).
[3] 雷井生,林莎.基于高频数据的统计套利策略及实证研究[J].科研管理,2013,(6).