APP下载

基于个体投资者情感量化的上证指数预测检验

2018-11-14高广阔

经济研究导刊 2018年26期
关键词:股票价格残差神经网络

王 聪,高广阔,王 亮

(上海理工大学 管理学院,上海 200093)

引言

随着信息技术水平不断提高,人类社会迎来大数据时代。以大数据为“食”的量化研究如雨后春笋般爆发,量化投资在金融领域也得到了广泛关注。基于John R.Nofsinger(2001)提出的“情感投资”的广泛存在性,情感投资的定量研究也具有了为“投资者情感因素作用于产品定价”提供事实依据的重要作用。如果关于投资者情感的定量研究能够准确反映金融资产价格,则Fama和French(2014)的五因子模型将很有可能纳入“社会媒体因素”来重新定义股票价格的影响因素。

在理论研究方面,后续学者先后通过对Twitter为代表的社交媒体进行情感挖掘验证了投资者情感的变化与各类金融产品的价格之间具有相关关系。Johan Bollen(2011)[6]利用双维度情感对于道尔琼斯工业指数涨跌情况进行了预测,其准确率达到87.6%。宋敏晶(2013)通过在线股评收集数据并进行分词,研究了股评情感和股市表现之间的关系,发现股评情感均存在“周末效应”,即周末时投资者情绪整体向上。他还进一步建立主成分分析回归模型预测个股涨跌情况,准确率达到87.45%。杨阳(2015)对和讯网和新网财经中的上证180成分股进行数据挖掘来判断市场情绪的向好向坏,结果显示新闻数量与股票指数呈现显著正相关关系;新闻报道与个股收益率的正向指数具有正相关性高。

从计算机、统计学、金融学的领域划分角度来看,目前基于情感量化投资研究方法在这三个领域的对应分别是机器学习分类算法,统计学时间序列分析和金融学思考分析范式。在机器学习分类算法中,国内外学者主要应用的算法有支持向量机、神经网络、最大熵等。虽然支持向量机在划分较高纬度的数据中相对其他算法有着较为明显的优势,但朴素贝叶斯算法实现简单,且在分类垃圾邮件中已经被证实高度有效;神经网络与最大熵算法实现则较为复杂,数据训练要求较高。在时间序列分析中,VAR模型的脉冲响应函数是用于检测二者因果关系最常用的工具,该工具要求数据平稳。然而目前少有学者利用时间序列分析投资者情感和股票价格涨跌幅的关系。传统的时间序列分析方法为多变量的静态预测提供了严密的分析范式,但其分析多是建立在线性回归的基础之上,对于变量之间的非线性关系很难做出解释。就金融学思考分析范式而言,国内学者对个股板块和行业板块的划分为后续研究起到了指导意见,但大多未能对具体的预测结果做出解释。本文拟利用神经网络算法对VAR拟合后的曲线进行改进分析,挖掘变量间除线性关系之外的非线性关系。

需要注意的是,基于投资者情感挖掘的预测方式会因投资主体、市场结构、甚至具体时间而异。考虑到投资者情感与投资标的价格变动之间的影响关系存在“相互性”和“滞后性”的特点,本文建立了综合考虑这两种特性的预测模型,并通过对预测结果的分析检验,提出了存在的问题和可能的解决方案。此外,尽管国内专家对机构投资者情绪会显著影响股票指数的结论已达成共识,但缺乏对占大多数投资主体的广大散户投资者的情绪对股指变化影响程度的量化分析,且进行估价预测的可行性、准确性仍难以定论。本文将对个体投资情绪量化预测股票指数的有效性验证,有利于加深对我国金融市场的了解,为政府制定相关政策法规提供理论依据。

一、理论模型构建与分析

情感挖掘的投资逻辑在于,认为股票价格变动的根本性原因是投资者根据自身情绪等因素做出买卖决策,因此推高或拉低了相应的交易价格。当市场整体受情绪影响较大时,利好利空消息会对股市造成巨大的影响;当市场整体受情绪影响较小时,利好利空消息对投资者的决策行为造成的影响较小,则对股市价格变动所造成的影响也相应变小。本文理论模型及研究方法具体包括以下方面。

(一)投资者情感分类及量化

采用数据挖掘的方式对主流财经评论网站进行数据抓取后,综合考虑星期效应,联系投资者情绪与投资收益,采用广泛应用于分类垃圾邮件的“朴素贝叶斯模型”[9]对投资者情感进行分类,该分类方式对于分类维度较少的分类操作具有显著的效果。

对于任意股吧评论x而言,其类别y可分为正向和负向,正向(y=0)和负向(y=1)具有 m,n个特征属性,在分类中使用的特征属性即为从股票评论中提取的关键词。

若每一组特征属性x都有一个唯一的y与之对应,由此可以得到联合概率分布P(X,Y)。

但是当x的特征词达到上千(维度),其任何一个维度变化都有可能造成y的不同,此时维数增长问题是严重的。为了使P(X,Y)可以计算,朴素贝叶斯对变量之间关系做出了假设,即各个维度的特征在类确定的情况下都是独立同分布的,在x给定的情况下为确定值,因此关于y取值{0,1}的划分可以表示为:

(二)结合投资者情绪变化,预测投资标得涨跌幅

在获得了对于不同情感的股票评论的实时统计之后,利用皮尔逊相关系数筛选可能受投资者情绪影响的股票,以及其可能的滞后时间段,得到个股价格与投资者情绪相关联的初步结论。之后,将经过筛选的股票建立VAR时间序列模型,量化分析投资者情绪对与股票价格的统计学解释力,一般VAR模型为:

其中,yt是m维内生变量向量,xt是r维外生变量向量,A0,A1,…Ap,B1,…Bq是待估计参数矩阵,Ut是随机误差项。

值得注意的是VAR模型不仅考虑了投资者情绪(x)对于股票价格(y)的影响,还考虑了股票价格(y)对于投资者情绪(x)的影响。该模型的难点在于其滞后阶数的选择,主要涉及两个步骤:①对通过检验的相关系数筛选,得到滞后期最大的评论序列和股票涨跌序列;②通过AIC准则对①中得到的序列进行最优拟合选取。

(三)投资者情绪对股票价格进行预测的有效性检验

神经网络算法是模仿人脑的工作机理,对函数本身的拓扑结构进行建模,通过不断的调整神经元权重值来得到对非线性关系的最优拟合。部分VAR模型的残差显示出模型中仍然存在未提取的关键信息。因此,需要利用神经网络模型对与投资者情绪与股票价格之间的非线性关系进行修正,主要涉及神经网络算法中的循环神经网络。

神经网络中具体设置几个感知层以及每层设置几个神经元一直以来都是学术界讨论的对象,Kurita[10]针对于只有一层感知层的神经元个数提出了经验公式:

其中Nin指的是输入神经元数目,在模型中为1(投资者情感神经元),得出隐藏(感知)层神经元个数为3。在激活函数方面,利用Tahn函数作为隐藏层,y=x的线性函数作为输出层的组合在文献[11]中被证明拟合曲线均方误差最小,所以也采用了相同的策略。其中网络的输入变量为VAR模型拟合后的涨跌幅预测值,输出变量为神经网络改进后的涨跌幅预测值。

二、实证分析

(一)变量设置与数据来源

在股票实时评论方面,本文选取2017年3月至2017年5月的东方财经股吧评论数据,原因是该股吧的股票评论信息非常活跃,在工作日时间,仅上证指数股吧一天的评论就可以达到4 000多条。在文本挖掘时,结合评论特点还进行了如下设计:

1.过滤股吧“灌水党”与“广告党”

在股吧评论中,出现的某投资软件推广信息可能具有重复性,将最终获取的评论数量造成偏差,因此在程序中设计了禁忌表来评论5分钟内评论/发帖次数大于5次的用户。

2.评论关键词字数调权后标记情感

由于评论者在股吧评论时长短不同,单纯统计正向词或负向词的出现频率会大大低估回复较短的股民情感,因此采用TF-IDF对于评论信息进行调权处理,在此基础上再获得评论的关键字。其中分子是该词在文件中出现的次数,分母是文件中所有出现次数之和(公式5)。

3.神经网络数据处理

由于神经网络算法涉及到梯度下降法优化当前网络权重,对数据进行预处理可以提高收敛速度,提高拟合精度,在拟合完毕后,再对数据进行还原来来得到最终的预测数据。

(二)实证研究

1.投资者评论时间序列分析

(1)星期差异的时间序列分析

股票的评论数量因个股所受关注程度不同而不同,为了探寻星期效应,选取上证指数股吧在2017年2月20日至3月22日的评论数据。通过箱线图看出股市开市时股吧评论数量远高于休市时,且每日评论数量偏差很大(图1)。在获取情感数据方面,每日数据容量有所不同。同时,通过对股票价格和正向情感占比的相关性分析,发现针对不同交易日期,投资者情感对股票价格的影响的显著滞后期也会不同,因此在后续的实验中,会根据具体日期来具体分析。

图1 每日评论数量统计

(2)每日评论正向情感占比与大盘指数联动分析

对正向情感所占比重与大盘涨跌幅进行标准化可以发现:在以天为单位的区间内,两者的涨跌幅同步关系并不是特别显著(图2),但这并不意味着两者之间不存在相关关系,其可能原因在于:其一,每日涨跌幅反映的是收盘价格相对于开市价格的区间统计,而正向股票评论占比反映的是一天的情况,单纯计算区间涨跌幅与全天占比忽略了区间内部的相关关系;其二,股评与股票价格之间的相互关系可能存在一定的滞后效应,今日对市场的正向观点也可能造成日后股票价格变动。

图2 评论情感与涨跌幅联动分析

在考虑以上两个因素的情况下,以具体日期为例,对上述全天数据进行了向前与向后60分钟的相关性分析,同时为了避免区间涨跌幅对个体信息的忽略,选用3分钟均线来代替区间涨跌数据。同时对未通过显著性检验的相关系数进行剔除,结果如图3所示:当股票评论滞后区间为1~14(3分钟~42分钟)时,股票价格与正向评论占比有明显的负向滞后相关性;当股票评论之后区间为-3~-13(-9分钟至-39分钟)时,股票价格与正向评论占比有明显正相关关系。说明当股票价格上涨后,人们对于股票价格持续利好做出了情绪反应,针对该股票发表正向评论的比例显著增加,但是由于上涨幅度的不同,正向评论增加的快慢不同;投资者对股票的看好,从一定程度上拉高了股票的长期上涨,但是由于看好力度不同,上涨的快慢也不同。同样,对正向评论数量和成交量进行相关分析后也发现了类似的结论,即市场情绪对股票的看好会引起股票成交量的显著增加。

2.预测分析

图3 正向评论占比与三分钟均线相关性分析

接下来利用Python工具[12]建立VAR模型,并进行3分钟均线涨跌幅的初步预测。以2017年2月21日为例,通过调整滞后阶数(滞后期为21分钟),并运用AIC准则自动选取AIC最小的滞后阶数对方程进行拟合(图4)。左图为对当日上证指数涨跌幅预测,初步观察可知:利用投资者情感建立VAR模型对股票涨跌幅进行预测具有一定的可行性,但其预测结果仍有偏差。右图则是对预测结果的残差进行核密度估计,显示该残差近似服从正态分布,推测残差中可能存在未能被VAR模型解释的因素。鉴于此,需要使用神经网络算法对VAR预测进行改进。为了更直观反映神经网络对于曲线拟合的改进作用,我们接下来对VAR模型预测的残差和神经网络修正后得到的残差进行了均方误差、正态性检验和序列相关性检验的对比。

3.神经网络改进预测结果分析

图4 VAR模型预测结果分析

(1)均方误差改进

利用均方误差改进的百分比来衡量VAR预测的改进效果,其计算公式为:

图5 神经网络预测改进MSE分析

如图5所示,尽管在17天内神经网络算法均对模型拟合结果做出了改进,但在部分日期(2.21,2.24,3.1,3.13,3.16)神经网络却得到了改进效果变差的结论。通过分析神经网络的拟合曲线后发现,其主要原因是神经网络算法在初期对数据进行了归一化处理,而在后期通过样本方差与均值得到还原后的预测样本难以反映数据的异方差性。

(2)正态性检验改进

对22天神经网络得到的预测残差进行正态性检验,并且与之前VAR模型得到的检验进行对比(图6),其中红色为神经网络预测残差正态检验所对应P值,蓝色为VAR模型预测残差正态检验所对应P值,可以看出神经网络的修正都做了增大的调节,其中VAR模型残差拒绝原假设的3天(2.21,2.22,3.1)也都通过了显著性检验,可以判定残差呈现正态分布,信息已基本提取完整。

(3)序列相关性改进

图7显示了神经网络预测前后的残差序列相关检验结果,在VAR模型预测的2月21日,约有50%的滞后阶数显示出序列相关性,但是在神经网络改进之后残差的序列相关性均得到了良好的消除。

图6 残差正态检验P值对比

图7 残差1~6阶序列相关占比

三、结论及展望

本文首先通过数据挖掘的方式对东方财经股吧2017年3月至2017年5月上证指数评论数据进行收集,使用朴素贝叶斯模型进行了情感分类,之后在进行验证的基础之上结合了传统统计学方法与智能算法对个体投资者情感与上证指数价格变动之间的影响关系进行了尝试性建模预测,该模型综合考虑了投资者情感与上证指数价格变动关系的相互性与滞后性。基本结论如下:(1)投资者情绪与股价涨跌幅之间存在确实相关关系;(2)利用线性关系进行建模预测具有一定的局限性;(3)添加两者的非线性关系建模可以对预测结果进行良好的改进;(4)投资者情绪与股价涨跌幅之间的日区间联动关系波动较大。另外,结合当下我国二级市场呈现股市资金连续外流、机构投资者占比逐年上升的情况,我国二级市场正逐渐趋于“理性”;基于情感的量化投资策略在个人投资者资金集聚的某些股票中具有影响作用,但该影响作用正逐渐减弱。

本研究依然存在一定的局限性,投资者情感对于股票价格的波动呈现出“异方差”的特点,不同类型的投资者情感对于股票价格的变动影响不同。基于此,可采用GARCH-M模型引入方差的时间序列因素变量从而达到对模型异方差的改良。此外,股吧评论活跃个体多为个体投资者,但近年来,机构投资者在我国二级市场的投资占比日趋重要,而小的个人情感波动将不足以促使群体(机构)投资者作出决策,影响股价。数据挖掘可以从股吧的评论信息转向上市公司的重大新闻,以分析机构投资者的集体行为。通常比较大的新闻播报可以大范围的影响投资者情绪,这时即便是机构投资者的集体决策也会受到一致的影响。

猜你喜欢

股票价格残差神经网络
基于残差-注意力和LSTM的心律失常心拍分类方法研究
基于双向GRU与残差拟合的车辆跟驰建模
基于递归模糊神经网络的风电平滑控制策略
基于残差学习的自适应无人机目标跟踪算法
神经网络抑制无线通信干扰探究
基于深度卷积的残差三生网络研究与应用
基于神经网络的中小学生情感分析
基于Q-Learning算法和神经网络的飞艇控制
上市公司财务指标与股票价格的相关性实证分析
人民币汇率与上证指数互动的实证研究