APP下载

基于频繁特征模式挖掘的期货市场单边运行深度的预测

2015-06-08

中国管理信息化 2015年17期
关键词:符号化线段阈值

陆 瑶

(东北财经大学 管理科学与工程学院,辽宁 大连 116025)

1 基于市场行为的时间序列切分及表示方法

为了对原始时间序列数据进行维约简,传统的时间序列数据建模通常采用分段表示的方法,整体可划分为2类:基于时域的分段表示方法与基于变换域的分段表示方法。

对于本文的基本研究对象——商品期货,为充分还原其主要的市场特征,即单边运行模式及震荡情形,本文引入数理统计中线性回归的思想,基于市场行为,对时间序列进行切分处理。

在对时间序列数据进行切分时,针对每个子序列进行线性回归,当切分得到的子序列的回归判定系数R2大于设定的阈值r时,可将时间序列中的下一个数据点加入该子系列中继续计算,否则,可将当前数据点视为切分断点,从该数据点开始搜寻下一个子序列,直至整个序列搜索完毕或到达最新时间点。对于切分后得到的数据,长度达到3及以上的子序列,即可视为市场单边模式序列,采用线性回归结果进行描述;对于切分断点,相连即得到市场震荡点序列。

以伦敦金属交易所(LME)交易品种之一的伦铜期货为主要研究对象,将2001年1月2日至2015年5月12日的伦铜指数日交易数据的收盘价作为样本,进行数据的切分处理以及后续的规律挖掘,其中回归判定系数阈值r设定为0.7。

具体可获得3632个交易日的交易数据,包括各交易日的开盘价、收盘价、最高价、最低价、成交量、持仓量等信息,如表1。

表1 伦铜指数交易数据

按照上述算法描述,对3632个交易日收盘价序列进行数据切分,获得单边模式序列及震荡点序列。

如图1所示为2015年3月13日至2015年4月17日40个交易日的收盘价序列的切分结果。

图1 伦铜指数切分数据

对于切分后得到的线段序列,每个线段序列以2个属性进行描述:单边模式/震荡调整持续时间、单边模式/震荡调整趋势幅度。

2 关于单边运行深度预测的频繁特征模式挖掘

本节在市场切分后,基于改进的频繁特征模式挖掘过程,对单边运行的深度进行预测。着重研究对切分得到的单边模式序列及震荡点序列的符号化表示,在此基础上基于互关联后继树模型的频繁特征模式挖掘算法,以及通过频繁特征模式匹配实现单边运行深度预测的过程。

传统的时间序列频繁特征模式挖掘基本上可概括为两阶段:序列特征的描述及挖掘算法的设计。即首先利用移动时间窗口对时间序列进行分段,并对各个子段进行聚类,利用形成的符号对序列特征进行描述。在此基础上,利用关联规则挖掘思想及算法,对上述符号化序列进行频繁特征模式发现。本文提出,对切分后得到的线段序列,结合市场实际运行特征,对线段在时间轴上的长度及线段的斜率分别进行符号化,利用得到的二维属性组进行频繁特征模式挖掘。

基于上节思想,将2001年1月2日至2015年2月5日的伦铜指数日交易数据作为样本,设定回归判定系数阈值为0.75,进行数据切分,获得了单边模式序列及震荡点序列。对上述1070组切分后形成的线段序列,针对震荡点序列与单边模式序列,按照不同的策略,选取二维属性组(持续时间分类标记、运行深度分类标记),进行符号化表示:

将震荡点序列的持续时间分类标记设为10,运行深度分类标记设为100;

将单边模式序列持续时间分类标记按照超短期、短期、中期、长期分别设为1、2、3、4,运行深度按照是否超过相邻的上一单边模式序列的深度分别设为1、-1。

在对上述样本数据切分后形成的1070组线段序列选取二维属性组(持续时间分类标记、运行深度分类标记),进行符号化表示的基础上,将2001年至2011年涵盖的833组符号化的线段序列作为主要的训练数据,根据基于互关联后继树频繁特征模式挖掘过程,对其建立tSIRST(时间序列互关联后继树)模型,设定最小支持数阈值,并基于tSIRST模型进行频繁特征模式挖掘。表2所示为设定最小支持数为3,最小置信度为70%情况下,挖掘得到的频繁特征模式。

根据频繁特征模式的挖掘结果,设定最小置信度阈值进行筛选,利用筛选后的频繁特征模式,对2012年至2015年市场实时跟踪得到的特征模式进行滚动匹配,以实现对单边运行深度的预测。

通过精确的频繁模式匹配,实现对单边运行深度的预测,对预测效果的评价设定以下指标:预测准确率、模式覆盖市场机会比率、模式覆盖市场幅度比率。

预测准确率是对挖掘得到的频繁规则在实时跟踪中真实的预测效果的评价。模式覆盖市场机会比率、模式覆盖市场幅度比率,反映了挖掘得到的频繁规则的市场应用价值。其比率越高,说明通过该方式可把握的市场机会越多,参与市场的收益越高。

综上,基于改进的频繁特征模式挖掘过程,对2012年至2015年,伦铜市场单边运行深度进行滚动预测,预测结果如表2所示,其中因样本期内2015年切分后数据较少,将其与2014年合并预测,在频繁特征模式挖掘过程中,设定支持数阈值等于3,设定置信度阈值等于0.6。

表2 单边运行深度滚动预测结果

表2 表明,在设定的置信度阈值等于0.6时,通过挖掘得到的频繁特征模式数较多,模式覆盖的市场机会及市场幅度比率都相对较高,但由此进行的频繁特征模式匹配以实现对单边运行深度的预测,准确率较上述情况偏低。

3 结论

综上所述,对市场切分后得到的单边模式序列及震荡点序列,选取二维属性组(持续时间分类标记、运行深度分类标记),进行符号化表示,在此基础上,建立互关联后继树模型进行频繁特征模式挖掘,并通过频繁特征模式匹配,实现对单边运行深度的预测。以2001年至2011年涵盖的833组符号化线段序列作为主要的训练数据,滚动预测2012年至2015年市场单边运行的深度是否可以完全突破或跌破上一单边运行深度,取得了良好的预测效果。

猜你喜欢

符号化线段阈值
画出线段图来比较
小波阈值去噪在深小孔钻削声发射信号处理中的应用
怎样画线段图
我们一起数线段
数线段
基于自适应阈值和连通域的隧道裂缝提取
关于一阶逻辑命题符号化的思考
比值遥感蚀变信息提取及阈值确定(插图)
现代流行服饰文化视阈下的符号化消费
室内表面平均氡析出率阈值探讨