探讨基于支持向量机的高频金融时间序列预测
2019-01-28叶建萍
叶建萍
(广西大学行健文理学院,南宁530000)
1 引言
因为现在是金融全球化的社会,国家的经济优势或多或少需要依靠金融行业的运转和质量,但影响其创新水平和发展程度的关键原因即金融的信息化技术。现在,高频金融时间序列预测手段是大热趋势,有不少学者开始研究该问题。通过预测高频金融时间序列,本文总结出以回归系数为基础的高频金融时间序列手段,对均值平稳的距离噪声不敏感[1]。但是,高频金融时间序列预测手段还是有缺陷,不能一次性针对处理太多数据,同时由于不同领域的高频金融时间序列特征不同,所以不同测试数据需要先分清特征。
2 提取高频金融时间序列数据的特征
现在部分高频金融时间序列预测手段有缺陷,不能准确指导现实中的研究。本文先是阐述了何谓高频金融时间序列,利用研究实际数据,总结出高频金融时间序列的两个关键特征,相似性与非平稳性。另外,因为这些特征,正交小波变换,可用分型维估计。通过实证分析国内金融市场的微观结构,得出指数序列的分型维。实验对证券指数进行高频金融时间序列预测,和神经网络预测相比较的话,提高了金融数据高频金融时间序列预测效率,减小了预测误差。
2.1 构造决策树
建立决策树其实是建立对象属性与对象值间的映射,通过输出决策树指导决策。重点在于一组没有规律可循的事例推理决策树对形式的分类,通过自上而下,于决策树的内部比较属性值,按照不同属性判断后得出决策树的叶节点结论。现实中经常用到决策树,其特征明显,首先结构与手段简单,很好明白;方法里准备数据不复杂;学习时,使用决策树可以不训练不属于数据的知识;模型效率高,很短时间里分析规模很大的数据源;比较精准。构建决策树其实就是选择与分割树的节点,能够知道,决策树构建算法本质在于分割[2]。按照分割手段不同,可分成两类:第一类是最小GINI的指标,第二类以信息论为基础。因为金融行业很重视信息,本文通过信息论,针对离散属性构建决策树,解答为何缺失数据以及属性值的范围连续等问题。
也就是说,ID3 算法通过属性计算有关的样本熵值,采用里面最小的熵值或最大信息增益的属性当成下一结点的属性,循环往复,形成最终的决策树。设训练数据集是D,里面有N个元素,按照不同取值,把D 分成k个子集,记D1,D2,…,Dk,不同子集都是n1,n2,…,nk个,同时k Σi=1 ni=N。那么定义数据集D 里面的信息熵是Entropy(D)=k Σs=1nsNlog(2nsN)。
①需要注意,信息熵是0 时,即D 中全部元素属于同一子集,训练集D 归类完毕。分类时经常k=2,训练集D 有正例与反例两类。但ID3 算法,习惯通过信息增益,评判一个已知属性有没有很好归类训练集。
②其中ETi 表示训练集{ω|ω∈D,ω∈Ti }的信息熵,di,s =card {ω| ω∈D,ω∈Ti },A与D 相比较的话,信息增益Gain(D,A),Entropy(D)降低的数量是Gain(D,A)=Entropy(D)-new_Entropy(D,A)。
Step 1:确定不同属性的数值区间,分别设为集合S1,S2,S3,S4,S5,S6,S7,各自取值,按照不同定义,取值差异很小,定义 (2000,2200)(2200,2400)(2400,2600)(2600,2800)(2800,3000)(3000,3200)为数值分类区间,记不同属性的区间为S11~S16,S21~S26,S31~S36,S41~S46,S71~S76。
Step 2:计算收盘价涨幅在区间S71,S72,S73,S74,S75中,交易天数为11,56,64,50,50,14,记d1,d2,d3,d4,d5,共为243天,总天数为N。按照公式有上证指数集S的信息熵[3]。
Step 3:计算不同属性的信息增益,统计每天开盘价在区间 S11,S12,S13,S14,S15,S16的交 易天数 分 别 是11,56,64,50,50,14,记为D1,D2,D3,D4,D5,D6,共245天;下一日收盘价属于区间S71,S72,S73,S74,S75,S76的天数分别是3,48,5,0,0,0,有上证指数集的信息熵。那么能够计算开盘 价 属 于 区 间S12,S13,S14,S15,S16的信 息 熵 :ES11=0.8454,ES13 =0.5992,ES14 =0.5661,ES15 =0.5579,ES16 =0.5917。
重复上面的三个步骤,得到的信息增益分别为1.7992、2.0572、1.8181、0.5882、0.6758。
2.2 基于决策树信息增益的特征抽取
实验表明了ID3 算法以信息增益为测试属性的规范,树节点的选择策略。ID3的根节点是信息增益最大的属性,和数据分类贡献呈正比关系,最有利于辅助决策,也最为关键。因为成交量、成交额的信息增益值最小,同时和其余的特征属性差距很大,去掉成交量与成交额。因为最高价的信息增益最大,可知对下一日收盘价影响最大的是前一天的最高价。
3 基于支持向量机的高频金融时间序列预测模型
3.1 支持向量机
支持向量机最早由20 世纪90年代提出,以统计学习理论为基础,是全新的机器学习方法。利用核函数非线性变换,将原始数据映射到高为特征空间,然后在里面通过结构风险最小化,构造线性决策函数,把低维问题变成简单的高维问题。支持向量机中最方便的模型为最大间隔分类器,用来解决特征空间里分类线性数据,提高支持向量机理论水平。本文通过支持向量回归机应用,逼近函数。给定训练数据集S={xi,yi}ni(xi 是输入向量,yi 是输出向量,n 为训练数据集样本总量),支持向量机通过公式逼近函数(fx)。
3.2 支持向量机估计与预测结果
本文采用上证指数共245个交易日数据为样本,在前面十分之九的交易天数中作为训练样本估计支持向量机的参数,后面的十分之一交易天数是测试样本,评价预测水平[4]。选择特征属性比较抽取与特征属性。分别采用多项式核K(x,y)=(x*y+1)d 和高斯RBF 核K(x,y)=exp(-γ||x-y||2)比较分析,取 ε=0.1,C=1,通过R 语言函数编程。取d=3,γ=1/nVal,其中nV 是变量个数。不管在抽取特征属性前还是在之后,高斯RBF 核函数可以顺利逼近原数据,而后者虽然也能无限逼近,但不够准确,实验结果体现就算提高多项式次数,也无法较好改善,所以对上证指数训练数据集而言,高斯RBF 核函数是最适宜的。
4 结语
为验证本文方法,采用共245个交易日的指数试验。抽取结果体现出,指数抽取的特征属性均是开盘价、收盘价、最高价、最低价。表明这些指数对我国股票市场的综合指向能力很相似,通过不同算法获得不同指数值,反映出股票市场的变化情况。实验表示,抽取特征向量后RBF 核支持向量机可以提高逼近能力与预测效果。肯定了本文提到的高频金融时间序列预测方法,通过决策树提取特征属性,以支持向量机的预测为基础,让预测数据更精确,便于更好地分析与挖掘现实数据。