APP下载

C4.5算法在期货价格预测中的应用

2016-08-17陈磊何国辉五邑大学计算机学院广东江门529020

关键词:结算价决策树期货

陈磊,何国辉(五邑大学 计算机学院,广东 江门 529020)

C4.5算法在期货价格预测中的应用

陈磊,何国辉
(五邑大学 计算机学院,广东 江门 529020)

期货价格预测对投资者进行理性投资和规避投资风险具有重要指导作用,为了获得较好的预测效果,本文通过应用C4.5决策树算法对相关期货数据进行训练,并通过建立决策树模型进行价格预测.实验表明所建立的预测模型能有效预测期货行情,具有一定的参考和应用价值.

C4.5算法;决策树;期货预测

随着大数据时代的到来,数据挖掘技术开始在各行业得到广泛应用.把数据挖掘技术应用到期货预测中,对投资者分析期货行情、规避投资风险、进行套期保值等具有重要意义[1-2].鉴于决策树方法可以生成便于理解的规则等优点,本文选择C4.5算法进行期货预测.与ID3等算法相比,C4.5算法能够直接处理期货连续属性;其次,通过剪枝操作,C4.5算法较ID3等算法具有更高的执行速度,在大量期货数据的环境下,能够缩短预测时间.

1 期货数据的特征分析与C4.5算法的选取

1.1 期货数据的特征

期货数据主要有以下特征:

1)模糊性.期货数据的模糊性特征是指影响期货价格的因素十分复杂,具有不确定性.如期货数据受供求关系、经济周期、政治政策、投机心理等诸多因素影响.

2)数据量大.期货数据是一种时序数据,其数据量随时间推移而不断增加,平均每几秒钟就产生一次临时数据,积累下来的数据量相当庞大.

3)连续性.许多期货数据取值往往都是变动的数字,具有连续性的特征.

1.2 C4.5算法

C4.5算法是一种常用的数据挖掘方法,它采用信息增益率作为属性选择标准.即,算法首先选取具有最大信息增益率的属性作为分裂的根节点,再逐步迭代生成其他树节点,直至生成整棵决策树.

C4.5算法的优点:1)对训练数据要求不严格[3],相比其他算法,不需要担心离群点和数据是否线性可分,即使期货历史数据具有模糊性特征,也能通过大量的历史数据训练生成预测模型;2)执行速度快[4],能应对数据量巨大带来的挑战,且无需相关应用领域的专业知识,生成的规则易于表达和理解;3)C4.5算法能够直接处理连续型数据.

2 数据预处理

如表1所示,期货原始数据项主要包括合约种类、开盘价、收盘价、最高价、最低价、涨跌1、结算价、涨跌2、交易日期、持仓量、成交量等属性.使用C4.5算法进行期货数据挖掘,必须先对原始数据进行预处理.期货数据的预处理过程包括属性选择和属性规约两个步骤.

表1 原始数据格式

2.1 属性选择

由于合约种类对同种期货取值都相同,对训练无参考价值,故可删去;开盘价和收盘价为交易日第一笔交易和最后一笔交易的价格,由于主观性太大且存在故意操纵,也不具有挖掘价值;最高价和最低价虽能看出当日期货峰值,但期货数据波动太快,处于峰值的点通常是极少数,对整体走势的影响甚微,故不予考虑;同样,涨跌1是由收盘价计算得出的,取值为收盘价减去前结算价,而因为收盘价的主观性大,故涨跌1也应删除.涨跌2为结算价减去前结算价,由于结算价取自最后交易时间段内的平均交易价格,能较好反应市场行情,可信度大,故选取结算价和涨跌2作为训练属性;交易日期、持仓量和成交量均是反映市场动态最有价值的数据[5-6],也应保留.故选择建表的数据项包括交易日期、结算价、涨跌2、成交量、持仓量,其中日期属性为参考属性,不参与决策树的训练.

2.2 属性规约

为表征未来期货数据的走势,引入走势属性,它是决策树的类别属性,分为3部分:前缀、主体和后缀.前缀为下期涨跌,主体为下期结算价区间,后缀为期货种类.有关约定如下:

约定1:前缀的约定.设期货下一交易日的涨跌2属性为p,当 p ∈ [ 40, + ∞ ),前缀约定为A;当 p ∈ [ 10, 40 ),约定为B;当 p ∈(- 10,10),约定为C;当 p ∈(-4 0,- 1 0],约定为D;当 p ∈(- ∞,- 4 0],约定为E.

约定2:主体的约定.主体部分约定为取四位结算价的前两位,如结算价不足四位的,前面用零填充后自动补齐到四位.如下期结算价为3639,主体约定为36,表征的取值区间为[3600, 3 6 99);下期结算价为920,则先填零补齐到0920,再转换为09,表征的取值区间为[900, 99 9 ).

约定3:后缀的约定.分别约定鸡蛋期货、玉米期货、豆粕期货、金期货、银期货、铜期货、铝期货的后缀为E、C、M、J、Y、T、L.

按照上述处理方式,表1数据规约后的格式如表2所示.

表2 表1数据规约后的格式

3 实验分析

实验选取鸡蛋期货jd1601在2015年1到5月的数据预测6月的期货走势.具体过程是:首先选取jd1601在1到5月的期货数据通过Weka[3]数据挖掘工具进行训练,生成决策树模型(见图1),图中叶子结点如“C40E(3.0/2.0)”表示有3个样本数据被分到C40E类中,其中有2个是错误分类,图中的非叶子结点jsj、zd2、cjl、ccl分别表示结算价、涨跌2、成交量、持仓量4个属性.

图1 决策树模型

建立决策树模型后,用该模型对6月的期货数据进行预测,预测内容包括期货价格的取值区间(走势属性的主体部分),和期货的涨跌(走势属性的前缀).图2-a和图2-b分别对应价格取值区间预测和涨跌预测,在图2-b中,价格涨跌的取值,分别按A、B、C、D、E取值为1、2、3、4、5,取值大于3的值位于图2-b上方,小于则位于下方.

图2 预测结果

从图2-a中可以看出,在价格取值区间上,除了6月12日、17日、19日3天的期货价格取值区间没有准确预测外,其余18个交易日的均预测成功,预测准确率为85.7%(18/21).

再观察图2-b,发现期货涨跌预测有喜有忧,喜的是除了交易日6月19日外,所有上涨的交易日均被准确预测到,忧的是多数的下跌交易日没有被预测到,这种现象可能与6月的鸡蛋现货市场环境有很大关系[7-8].

4 结论

本文从期货数据特征的分析着手,选取C4.5算法对期货价格进行预测,通过对期货数据的预处理,构建决策树模型,最终对期货行情进行了有效预测,具有一定的应用价值和借鉴意义.下一步工作将考虑增加某些表征市场因素的训练属性到期货预处理过程中,以进一步提高算法的预测能力.

[1]陆瑶.辩证角度下金融时间序列数据挖掘研究——以期货市场为例[J].中国管理信息化,2015,18(20):117.

[2]邹广华.基于关联规则的期货交易信息数据挖掘[D].上海:上海海事大学,2005.

[3]IAN H W,EIBE F,MARK A H.数据挖掘:实用机器学习工具与技术[M].李川,译.北京:机械工业出版社,2014.

[4]MEHMED K.数据挖掘—概念、模型、方法和算法[M].王晓海,吴志刚,译.北京:清华大学出版社.2003: 121-125.

[5]陈浩.股指期货成交量、持仓量、波动率与价格关系探究及应用[J].中国证券期货,2010(9):9-10.

[6]冯梦黎,马箐箐.我国燃油期货市场成交量和持仓量对价格波动的影响研究[J].成都理工大学学报(社会科学版),2014,22(3):63-68.

[7]李凯,张传奇,马俊宇,等.我国鸡蛋期货与现货价格关系的实证研究[J].价格理论语实践,2014(6):99-101.

[8]祝青.国外货币市场部分期货产品价格波动与成交量动态关系的实证分析[J].调研世界,2010(10):15-18.

[责任编辑:韦 韬]

Application of the C4.5 Algorithm in Futures Forecasting

CHEN Lei,HE Guo-hui
(School of Computer Science,Wuyi University,Jiangmen 529000,China)

Futures price forecasting is important to guiding investors in rational investment and investment risk avoidance.In order to obtain better prediction effect,this paper uses the C4.5 decision tree algorithmto train relevant futures data and forecasts prices by constructing a decision tree model.Experimental results show that the prediction model can be used to forecast the futures market effectively.Therefore it is of certain reference and application value.

C4.5 algorithm;decision tree;futures forecasting

TP391

A

1006-7302(2016)03-0067-04

2016-03-02

广东省自然科学基金资助项目(S2013010013311);广东省特色创新类资助项目(2015KTSCX145)

陈磊(1991—),男,广东江门人,在读硕士生,研究方向为数据挖掘与机器学习;何国辉,教授,硕士生导师,通信作者,研究方向为数据仓库与数据挖掘、大数据技术.

猜你喜欢

结算价决策树期货
美棉出口良好 ICE期货收高
国内尿素期货小幅上涨
一种针对不均衡数据集的SVM决策树算法
决策树和随机森林方法在管理决策中的应用
生猪期货离我们还有多远?
中粮期货 忠良品格
基于决策树的出租车乘客出行目的识别
基于肺癌CT的决策树模型在肺癌诊断中的应用