基于贝叶斯模型的股票预测
2017-09-15杨晓婷燕山大学理学院
杨晓婷 燕山大学理学院
基于贝叶斯模型的股票预测
杨晓婷 燕山大学理学院
运用朴素贝叶斯分类的方法对股票进行分类预测,对相应类别的股票给出了投资建议。首先,对160个观测15个属性的股票数据运用离差标准化方法进行处理消除了数据之间的不齐性。其次,利用主成分分析对对离差标准化后的数据进行降维处理,使原始数据从15个指标变量缩减到5个指标变量。最后,对降维后的数据运用朴素贝叶斯分类法进行分类,构建出了相应的朴素贝叶斯分类器。
离差标准化 主成分分析 朴素贝叶斯分类 股票预测
一、引言
近年来我国的股票产业发展迅猛,股票作为证券和金融领域无法替代的重要元素,也逐渐在投资领域占有自己的一席之地,吸引着越来越多投资人的关注,大到金融巨头,小到市民散户,无不时刻关注着中国股市的动向态势。因此,对股票市场行情变化的有效分析和建立准确的预测模型可以为投资者提供合理的投资方案具有重要的实际价值。
二、运用朴素贝叶斯法进行股票预测
(一)数据选取
借助大智慧软件提供的年报查询功能,论文选取了2014年中期、2014年末期、2015年中期、2015年末期四个时间段中,我国沪深两市大数据板块的40只股票的年报数据。选取的15个影响股票行情的财务指标分别为:基本每股收益(元)、基本每股收益(扣除后)、摊薄每股收益(元)、每股净资产(元)、每股未分配利润(元)、每股公积金(元)、销售毛利率(%)、营业利润率(%)、净利润率(%)、加权净资产收益率(%)、摊薄净资产收益率(%)、股东权益(%)、流动比率、速动比率、每股经营现金流量(元)。
(二)离差标准化
离 差 标 准 化( D e v i a t i o n Standardization),是统计学中最普遍的处理数据的方法之一,通常目的是去掉数据之间的不齐性。一种较为简便的计算离差标准化的方法是从现有数据中,找出最大值P和最小值Q,然后将所有的数据Xij都减去最小值Q后除以离差P -Q ,即:
(三)主成分分析
主成分分析是利用降维的方法,使数量较多的各类指标变成数量较少的综合性指标。论文运用SAS软件编写了相应程序,将离差标准化后的数据输入到程序中,得出了相应的结果。
图3-4给出了经相关系数矩阵计算出的特征值。由图3-5中的比例可知前5个主成分的贡献率分别为35.66%、20.37%、13.80%、8.17%、5.98%,累积贡献率为83.99%,那么前5个主成分就包含了原数据中15个指标变量的83.99%的信息。
图3-4 相关矩阵的特征值
图3-5给出了所有特征值所对应的特征向量,可以计算出各个主成分的得分系数。
图3-5 特征向量
在各个主成分的表达式中,系数的绝对值越大,则表明该主成分受这个因素的影响越大。决定第1主成分Z1的主要因素为X1和X3,决定第2主成分Z2的主要因素为X13和X14,以此类推。
(四)朴素贝叶斯分类
论文运用MATLAB软件编写了相应程序,将经过离差标准化和主成分分析处理后的数据作为训练样本,随机抽取的5支股票作为预测数据导入到程序中。
将所选股票分为非ST股票和ST股票两类,其中非ST股票用“normal”表示,ST股票用“st”表示。设C1对应的类别为“normal”,C2对应的类别为“st”,我们需要进行分类的样本为X ,那么由贝叶斯公式:
论文的MATLAB程序运行后会直接输出预测样本的类别属性,据此可以对将要预测的股票样本进行预归类。若此股票被归为“normal”类,那么这只股票在未来的市场中行情向好,具有一定的可投资价值;若此股票被归为“st”类,那么这只股票未来的行情走势并不乐观,不建议进行投资。
[1]文文.一本书搞懂年报[M].北京:经济科学出版社,2012:50-55
[2]贾乃光.统计决策论及贝叶斯分析[M].北京:中国统计出版社,1998:167-172
[3]唐五湘.Excel在统计中的应用[M].北京:电子工业出版社.2002:56-59
[4]董大军.SAS统计分析应用(第二版)[M].北京:电子工业出版社,2014:164-171
[5]Ken Black. Business Statistics for Contemporary Decision Making Fourth Edition[M], 2006, (4):121-123
杨晓婷(1992- ),女,天津人,燕山大学理学院研究生在读,研究方向:保险精算。