基于支持向量机的金融数据分析研究
2016-10-14李峰韩祝华
李峰+韩祝华
摘 要:金融市场由于其所包含的不可测因素非常多,所以我们可以将其看作是一个非线性的、非结构化的复杂系统。而支持向量机作为机器学习方法智能信息处理的重要组成部分,在其他领域已经被证明可以有效地解决这种非线性问题,从而我们很容易联想到它能否有效地处理金融数据。金融数据处理的预测问题主要是对金融时间序列的预测,本文将介绍一种最下二乘法来对此问题进行说明。
关键词:机器学习;支持向量机;金融数据
一、研究现状
金融数据处理的预测问题主要是对金融时间序列的预测,金融时间序列可以看成是一种特殊的时间序列,它具有以下三大特点:(1)金融时间序列的产生过程较为复杂,并且影响因素较多;(2)多数金融时间序列含有大量不可预知的影响因素;(3)金融时间序列的各数据间的构成较为复杂,通常呈现出非线性性。而神经网络、混沌理论、遗传算法等人工智能信息处理方法能很好的适应这三大特点,这已然成为解决金融数据处理问题的先进方法。1999 Lab.H用遗传算法对日本股票市场进行了预测,从中分析出哪一只股票最好,并预测应该在何时买或卖多少股票。2005 年Lixin Yu 等人建立了一个混合神经网络模型对金融市场的数据进行了预测,并取得了良好的效果长期以来专家学者们都希望能够找到使误差更接近零的分析预测方法,以使投资目标函数在利益尽量大的时候风险尽量最小。所以,人们不得不努力的研究更新、更有效、泛化能力更强的数据分析预测模型。当前的金融市场业务繁多,和业务形成正比关系的各类信息系统众多,这些管理系统也产生海量的各类金融数据,如何对金融市场进行有效地、及时地预测与分析,则成为企业、银行和现代投资者所追求的目标。然而现行的大量分析方法并不能对已有的数据进行大规模的开发和利用,所以并不能满足金融市场投资者的需求。而支持向量机方法作为智能信息处理的重要组成部分,在其他领域已经被证明可以有效地解决这种非线性问题。
二、 最小二乘支持向量回归算法(LSSVM )
最小二乘支持向量机是由 Suykens 等人提出的,它将支持向量机中的损失函数替换成了最小二乘的损失函数,这一替换使得最小二乘支持向量机在训练过程中等价于求解一个线性方程组,最小二乘支持向量算法是将标准支持向量算法中的不等式约束化成等式约束而得到的。
对于线性回归,设样本为n维向量,某区域的l个样本及其值表示为:
对于非线性回归,同样使用一个映射φ把数据映射到高维特征空间,再在高维特征空间进行线性回归,关键是选取适当的核函数 k(x,y),使得 k(xi,yi)=Φ(xi)TΦ(xj)。以高斯核函数为例,它的定义如下:
那么这个最小二乘支持向量机的非线性函数可以表示为:
最后解出参数a,b的值即可。
三、股票市场预测中的应用
结合我国股票指数的数据,利用最小二乘支持向量算法(LSSVM)和AR(n)模型进行预测,采用LSSVM直接建立非线性AR (1)模型,所有数据均来自于金融研究数据库,实验根据逻辑性、有效性、客观性及敏感性,并根据财政部出台的《国有资本金绩效评价原则》选取了38个指标作为各上市公司的特征以及财务指标,此次实验同样采用Matlab软件和Eviews软件实现。
财务指标及股票信息如下表:
一、研究现状
金融数据处理的预测问题主要是对金融时间序列的预测,金融时间序列可以看成是一种特殊的时间序列,它具有以下三大特点:(1)金融时间序列的产生过程较为复杂,并且影响因素较多;(2)多数金融时间序列含有大量不可预知的影响因素;(3)金融时间序列的各数据间的构成较为复杂,通常呈现出非线性性。而神经网络、混沌理论、遗传算法等人工智能信息处理方法能很好的适应这三大特点,这已然成为解决金融数据处理问题的先进方法。1999 Lab.H用遗传算法对日本股票市场进行了预测,从中分析出哪一只股票最好,并预测应该在何时买或卖多少股票。2005 年Lixin Yu 等人建立了一个混合神经网络模型对金融市场的数据进行了预测,并取得了良好的效果长期以来专家学者们都希望能够找到使误差更接近零的分析预测方法,以使投资目标函数在利益尽量大的时候风险尽量最小。所以,人们不得不努力的研究更新、更有效、泛化能力更强的数据分析预测模型。当前的金融市场业务繁多,和业务形成正比关系的各类信息系统众多,这些管理系统也产生海量的各类金融数据,如何对金融市场进行有效地、及时地预测与分析,则成为企业、银行和现代投资者所追求的目标。然而现行的大量分析方法并不能对已有的数据进行大规模的开发和利用,所以并不能满足金融市场投资者的需求。而支持向量机方法作为智能信息处理的重要组成部分,在其他领域已经被证明可以有效地解决这种非线性问题。
二、 最小二乘支持向量回归算法(LSSVM )
最小二乘支持向量机是由 Suykens 等人提出的,它将支持向量机中的损失函数替换成了最小二乘的损失函数,这一替换使得最小二乘支持向量机在训练过程中等价于求解一个线性方程组,最小二乘支持向量算法是将标准支持向量算法中的不等式约束化成等式约束而得到的。
对于线性回归,设样本为n维向量,某区域的l个样本及其值表示为:
对于非线性回归,同样使用一个映射φ把数据映射到高维特征空间,再在高维特征空间进行线性回归,关键是选取适当的核函数 k(x,y),使得 k(xi,yi)=Φ(xi)TΦ(xj)。以高斯核函数为例,它的定义如下:
那么这个最小二乘支持向量机的非线性函数可以表示为:
最后解出参数a,b的值即可。
三、股票市场预测中的应用
结合我国股票指数的数据,利用最小二乘支持向量算法(LSSVM)和AR(n)模型进行预测,采用LSSVM直接建立非线性AR (1)模型,所有数据均来自于金融研究数据库,实验根据逻辑性、有效性、客观性及敏感性,并根据财政部出台的《国有资本金绩效评价原则》选取了38个指标作为各上市公司的特征以及财务指标,此次实验同样采用Matlab软件和Eviews软件实现。
财务指标及股票信息如下表:
从实验结果可以看出 LSSVM模型的预测结果要优于单纯的时间序列模型。综合来看,如果在支持向量机的基础上能够融合时间序列模型,那么在金融预测中将取得良好的应用效果。
参考文献
[1] 高铁梅.计量经济分析方法与建模.EVIEWS应用及实例.清华大学出版社,2006.
[2] 谢衷洁,王驰.用时间序列方法预测股票价格初探.数理统计与管理,2004,23(5):68 - 77.
[3] 孙德山.支持向量机分类与回归方法研究:(博士学位论文).长沙:中南大学,2004.
[4] 邓乃扬.数据挖掘的新方法—支持向量机.北京:科学出版社,2004.
[5] 杨一文.基于神经网络的多变量时间序列预测及其在股市中的应用.信息与控制,2001,30(5):413-417.
[6] 王振龙,胡永宏.应用时间序列分析.北京:科学出版社,2008.
作者简介:
李峰(1981-),男,山西阳泉人,硕士,现供职于河北金融学院信息管理与工程系,研究方向数据分析.