社交媒体投资者关注、投资者情绪对中国股票市场的影响
2017-07-05石勇唐静郭琨
石 勇 唐 静 郭 琨
一、引言
传统的股票市场分析预测研究多是基于历史数据、财务指标等结构化数据(卢琦泽等,2010[1])。随着互联网技术的普遍应用,尤其是大数据信息的诞生,投资者获取股票市场信息的渠道更加广泛、表达观点的平台也更加多样。随着越来越多的投资者在互联网社交媒体上获取信息和发表观点,财经新闻、股吧评论等来源于互联网的非结构化数据也被纳入股票市场的分析当中,为股市分析和预测提供了新的视角(Fung 等,2002[2])。
互联网社交媒体数据能够更直接地反映投资者的关注度和情绪。例如个人投资者在股吧论坛中发表的对某只股票的看法可以看作此人对该股票投资机会的关注,因此这只股票股吧评论关注的集合就代表了个人投资者群体对此股票的关注度。再如一个机构投资者在新闻上发表的对某只股票的看法反映了其对此股票的看涨或看跌情绪,那么所有新闻情绪的集合就反映了专业投资者群体对股票的情感倾向。基于此,以群体的方式去研究这些与股市相关的评论或者新闻,提取其中的关注度、情感倾向等信息,就可以得到一个可量化的反映投资者群体关注度或者情绪的指标,这个指标对股市预测具有非常重要的参考价值。
二、文献综述
传统度量投资者关注度的间接指标主要有交易量、换手率和广告支出。Lou(2010)[3]用广告费用衡量投资者关注度,实验发现上市公司增加广告费用不仅可以增加股票买入,同时可以提高投资回报率。Chemmanur和Yan(2010)[4]发现广告支出的增加对股价的短期变动有正向影响。徐加根和王波(2013)[5]研究了交易量和涨停板作为投资者关注度的间接指标对中国A股市场的影响。贾春新等(2010)[6]用换手率衡量投资者关注,研究其和限售股解禁的关系。
随着社交网络的迅猛发展,网络新闻、微博、论坛等社交媒体引导并承载着人们越来越多的关注(余庆进,2013[7])。基于社交媒体数据度量投资者关注,再探索其与股票市场间关系的研究也越来越多。Chan(2003)[8]将新闻头条的数量作为衡量投资者关注度的指标,发现有新闻头条的股票很少在短期出现股价反转,然而没有新闻头条的股票却相反。Aouadi等(2013)[9]研究基于谷歌搜索量的投资者关注对股票市场的影响,结果发现投资者关注和股票成交量高度相关,它是影响股票市场流动性和波动率的一个重要因子。Da等(2011)[10]用谷歌搜索频率作为衡量投资者关注的指标,发现投资者关注的上升可以在短期推高股价。王镇和郝刚(2013)[11]研究百度指数的用户关注度对股票收益率的影响,发现当期投资者关注度的上升会导致收益率的增加。饶育蕾等(2010)[12]用互联网新闻数量构建媒体关注度指标,发现媒体关注度越高的股票,在随后的一个月内的收益率越低。
除投资者关注度外,投资者情绪与股票市场的关系也是近年研究的热门领域。Tetlock(2007)[13]为华尔街日报股票新闻构建了情绪指数,研究发现新闻悲观情绪会导致股价下跌。Das和Chen(2007)[14]基于雅虎股吧论坛数据构建股民情绪指数,发现股民情绪与股票市场活动有一定的相关关系。易洪波等(2015)[15]基于东方财富网的股票论坛数据,探究网络论坛投资者情绪与股票市场的关系,研究发现投资者情绪会影响股票成交量和收益率。刘欣(2014)[16]发现互联网新闻情感能对股价产生影响,并且不同网站的新闻对股价的影响程度不同。
综上,已有研究表明投资者关注和投资者情绪对股票市场存在一定的影响,但是目前国内学术界大多数的研究还是基于传统指标进行的,基于互联网社交媒体指标探究其对股市影响的研究还处于探索阶段。并且现有研究多是基于一种来源的数据构建指标,再探究其对股市的影响,而基于不同来源数据的社交媒体指标对股市的影响并不完全一致,因为这些不同来源的指标其实代表了不同来源的投资者群体的看法,不同的投资者群体对股市的影响是有差异的,例如基于股吧论坛数据构建的关注度指标和基于新闻数据构建的关注度指标对股市的影响有所不同,但鲜有学者研究这些不同来源的社交媒体指标所代表的不同来源的投资者群体看法对股市影响的差异性。
因此,本文针对已有研究的不足,基于优矿金融量化平台的股吧论坛用户评论数据、雪球网股民社交网络数据和财经新闻数据,分别构建股吧论坛投资者关注度、雪球网投资者关注度、新闻关注度和新闻情绪指数,再利用相关性分析和VAR模型探究这些指标与股票市场的关系,并重点分析这些不同来源的社交媒体指标对股市影响的差异性及其原因。本文主要的贡献是:一是创造性地构建四种基于优矿金融量化平台数据的互联网社交媒体指标,并研究这四种指标与股票市场的关系;二是研究这些不同来源的社交媒体指标对股市影响的差异性及其原因。
本文的结构安排如下:第一部分为引言,第二部分为文献综述,第三部分为机理分析,第四部分为数据变量及模型设定,第五部分为实证分析,第六部分为本文的主要结论。
三、机理分析
De Long等(1990)[17]提出的噪音交易模型(简称DSSW模型)是研究噪音交易及投资者情绪对金融市场影响最经典的理论模型之一,它论证了噪音交易对金融市场会产生一定的影响,而且在有限套利市场中,投资者情绪是影响股票均衡价格的因素之一(陈其安等,2012[18])。
模型将投资者分为具有理性预测能力的投资者和噪音交易者,理性投资者能够准确把握风险资产的投资分布并最大化期望效用(于全辉,2009[19])。噪音交易者拥有错误信念,这种错误信念被称为投资者情绪。噪音交易者存在过度自信和自我归因两种心理偏差,前者使得私人信息的权重比先验信息更高,会引起过度反应,而后者会导致短期的惯性效应和长期的反转效应(陈军和陆江川,2010[20])。
模型用变量ρt表示噪音交易者预期风险资产价格时的情绪,ρt服从。平均情绪水平表示为ρ∗,预期单位风险资产回报时投资者情绪方差表示为在全部投资者中,噪音交易者和理性投资者的比例分别为μ和1-μ(于全辉,2009[19])。
在t+1期,投资者的效用函数为U,U=-e-(2γ)w。其中,γ代表绝对风险厌恶系数,w代表投资者在t+1期的最终财富。最大化投资者的条件期望效用相当于最大化代表最终财富的期望值,代表财富第一期前的方差(于全辉,2009[19])。
理性投资者会在拥有λst数量的风险资产的条件下最大化(1)式:
其中,c0代表初期禀赋,代表条件方差,
噪音交易者会在拥有λnt数量的风险资产的条件下最大化(2)式:
其中λnt(ρt)表示噪音交易者持有风险资产时的期望回报错觉。
由此得到的风险资产的数量分别为:
再考虑这一市场出清条件,最终得到风险资产定价规则的形式为:
公式(5)的后三项表示噪音交易者对风险资产价格的影响。代表噪音交易者的投资者情绪引起的价格波动,即便基本面没有发生变化,但只要噪音交易者的情绪水平相比均值有所波动,也会引起风险资产价格的波动。表示噪音交易者平均投资者情绪不为0所导致的价格对其价值的偏离,如果噪音交易者都看涨股票,也会促使风险资产价格高于其价值。代表交易者对所承担的价格风险要求的补偿,这种风险来自噪音交易者不确定的投资者情绪,而不是股票基本面的变化[19]。
由DSSW模型可以看出,噪音交易会对风险资产产生作用,投资者情绪会对股票市场产生一定的影响。
四、数据变量及模型设定
(一)数据描述
数据来自优矿金融量化平台①https://uqer.io/home/,在优矿上可以通过Python接口下载数据,输入股票代码,以及股票论坛帖子或者新闻发布的起止时间,就可以下载帖子或者新闻的相关数据,比如关注度和情感指数。,此平台不仅可以提供股票行情数据、基本面数据等结构化数据,还可以提供证券相关的论坛评论和新闻等结构和非结构化数据。
本文研究的样本区间为2014年1月1日到2015年10月31日,共442个交易日。研究对象为社交媒体投资者关注度和情绪指数对沪深300指数的影响。研究的基础数据是基于优矿数据合成的股吧论坛投资者关注度、雪球网投资者关注度、新闻关注度和新闻情绪指数,以及从Wind下载的股票行情数据,股价、换手率和成交量。因沪深300指数每半年换一次成分股,因此本研究也是用同时期的沪深300成分股关联的股吧论坛、雪球网和新闻数据计算投资者关注度和情绪指数。
优矿提供的股吧论坛数据来自东方财富网股吧、和讯股吧等几十家国内主流股吧论坛。雪球网投资者评论数据来自于雪球网。新闻数据来自东方财富网、和讯网、新浪财经等国内70多个主流的财经新闻网站。
根据证监会公布的数据显示,中国股票市场投资者数量在2016年初已突破1亿。根据艾瑞咨询①http://report.iresearch.cn/content/2016/03/259109.shtml的研究数据显示,2016年1月,东方财富网的日均覆盖人数达1 276万人,位居第一,和讯网的日均覆盖人数达到352万人,位居第三,前十家财经网站日均覆盖的总人数达到3 600万。由此表明,互联网社交媒体拥有广大的用户群体以及广泛的影响力。而优矿提供的数据也覆盖了这些主流的财经新闻网站及股吧论坛,表明基于优矿提供的相关数据合成的互联网社交媒体投资者关注度和投资者情绪指标能够代表广大投资者的关注度和情绪,是具有一定的代表性的。
(二)变量合成
本文创造性地基于优矿金融量化平台数据构建了四个互联网社交媒体投资者关注度和投资者情绪指标,分别是股吧论坛投资者关注度、雪球网投资者关注度、新闻关注度和新闻情绪指数。
股吧论坛投资者关注度是基于优矿提供的股吧论坛社交关注度合成的。优矿提供的股吧论坛社交关注度指标表示在优矿提供的股吧论坛数据中,每天在标题或内容中提到某只股票的帖子数量。因此,本文合成的每天的股吧投资者关注度是300只成分股当天的股吧论坛社交关注度的加总。
相似地,雪球投资者关注度是基于优矿提供的雪球网社交关注度合成的,每天的雪球投资者关注度是300只成分股当天的雪球网社交关注度的加总。
新闻关注度是基于优矿提供的新闻热度指数合成的。优矿提供的新闻热度指数表示股票当天关联新闻数量占当天关联新闻总量的百分比,因此本文合成的每天的新闻关注度就是300只成分股当天新闻热度指数的加总。
优矿还提供了针对不同股票的新闻情感数据,可以获取每天每只股票相关的新闻的情感分数。所以新闻情绪指数就由优矿提供的新闻情感指数代表,它表示股票当天关联新闻的情感分数的均值。
除了本文构建的四个指标,本文利用的股票市场行情指标有股价、收益率、换手率和成交量。其中收益率采用对数收益率的形式:ri=Δlogpi=logpilogpi-1,其中pi代表第i天的股价。
(三)模型设定
本文首先将对4个社交媒体指标的变化趋势进行分析,并和传统度量投资者关注度的间接指标换手率和交易量的变化趋势进行对比,考察本文构建的社交媒体指标的合理性。再将4个社交媒体指标与股票行情指标做相关性分析,从整体上探究投资者关注度、情绪指数与沪深300指数的关系。
最后利用向量自回归VAR模型来探究投资者关注度、投资者情绪指数与沪深300收益率的关系。VAR模型是Sims在1980年提出的,它是分析和预测多个相关变量最常用的模型之一。不含外生变量的非限制性VAR模型的表达式为:
其中,yt是k维内生变量列向量,p是滞后阶数,t是样本个数,k×k维矩阵Φ1,…,Φp是待估计的系数矩阵,εt是k维扰动列向量(高铁梅,2009[21])。
五、实证分析
(一)投资者关注、投资者情绪指数的趋势分析
图1表示股吧关注度、雪球关注度、新闻关注度以及新闻情感指数的趋势,从中可以看出股吧和雪球关注度的变化趋势基本一致且都较为明显,而新闻关注度和新闻情感指数的变化趋势相对比较平缓。
图1 投资者关注、投资者情绪指数的变化趋势
图2表示互联网社交媒体投资者关注指标与传统投资者关注指标变化趋势的对比,其中传统的投资者关注指标用换手率和交易量表示,交易量的单位为手(1手=100股)。从图中可以看出,互联网社交媒体投资者关注指标与传统投资者关注指标的趋势基本一致,且都较为明显,这也表明本文构造的指标是具有一定的合理性的。
图2 互联网社交媒体投资者关注指标与传统投资者关注指标变化趋势对比
(二)投资者关注、投资者情绪与沪深300指数的相关性分析
用股吧关注度、雪球关注度、新闻关注度和新闻情绪指数与沪深300指数收盘价、换手率及其成交量进行相关性分析,结果如表1所示。从中可以看出,收盘价、成交量和换手率与股吧关注度的相关性最高,与新闻关注度和雪球关注度的相关性次之,与新闻情绪指数的相关性最小。
表1 投资者关注度和情绪指数与沪深300指数的相关性分析
(三)投资者关注、投资者情绪与沪深300指数收益率关系的VAR模型
为了进一步探究本文构建的4个指标与沪深300指数间的关系,笔者构建了5个VAR模型,并用模型一到模型五表示,其分别代表股吧关注度的变动率与股票收益率的VAR模型、雪球关注度的变动率与股票收益率的VAR模型、新闻关注度的变动率与股票收益率的VAR模型、新闻情绪指数的变动率与股票收益率的VAR模型,以及这4个社交媒体指标共同作用时与收益率关系的VAR模型。
1.平稳性检验。
为了避免“伪回归”,建立VAR模型前要对各变量做单位根检验。根据表2的结果,可以看出股吧投资者关注的变动率、雪球投资者关注的变动率、新闻关注度的变动率和新闻情感的变动率,以及沪深300指数收益率都是平稳序列。再分别对这5个VAR模型包含的变量进行Johansen协整检验,发现它们存在长期均衡关系。
表2 单位根检验结果
2.滞后期的选择。
本文通过6项评判指标准则(LogL、LR、FPE、AIC、SC、HQ)选择滞后阶数。在选择滞后阶数时,为了体现模型的动态特征,滞后阶数不宜太小,但也不宜太大,否则模型的自由度会变小。
本文根据6项准则判定的滞后阶数,再结合滞后阶数不宜过小或过大的原则,来选择最后建模的滞后阶数。因此,模型一到模型五最后选择的滞后阶数分别为4、2、4、4和4阶。
3.格兰杰因果关系检验。
为确定变量之间的因果关系,基于模型一到模型五进行格兰杰因果关系检验。表3表示模型一到模型四的结果,在5%的显著性水平上,股吧和雪球关注度的变动率是收益率的格兰杰原因,但是收益率不是这两个变量的格兰杰原因。这说明股吧和雪球关注度的变动率是领先于股票收益率的,这两个指标会对股票收益率的预测有较大的贡献。
而新闻关注度和情绪指数的变动率不是收益率的格兰杰原因,而在1%的显著性水平上,收益率是这两个变量的格兰杰原因,这说明收益率是领先于新闻关注度和情绪指数的变动率的,股票收益率对这两个指标的预测有较大的贡献。
表3 基于模型一到模型四的格兰杰因果关系检验结果
续前表
表4表示基于模型五的条件格兰杰因果关系检验结果,可以看出4个社交媒体变量都是收益率的格兰杰原因。在条件格兰杰检验中,新闻关注度和情绪指数的变动也可以提高对股价的预测能力。
表4 基于模型五的条件格兰杰因果检验结果
4.脉冲响应函数分析。
在VAR模型的基础上,脉冲响应函数是反映系统对来自自身或者其他变量的冲击的动态反应[15]。
图3~图6表示基于模型一到模型四的脉冲响应函数图。可以看出,股吧关注度的变动率的冲击对收益率的影响整体是正向的,这种影响在第5期达到最大,但随着时间的推移影响逐渐减小,最后收敛为0。雪球关注度变动率的冲击对收益率的影响是正向的,这种影响在第3期达到最大,但是这种影响很快就消失了,持续性较弱。新闻关注度的变动率对收益率的影响也是正向的,但是影响相对较小,这种影响在第4期达到最大,之后逐渐收敛为0。新闻情绪指数的冲击对收益率的影响是中性的,它对收益率的影响并不大。总体来看,投资者关注和投资者情绪的变动率对收益率的影响具有滞后效应,持续时间在两周以内。
图3 基于模型一的股吧关注度变动率的冲击引起的收益率的响应函数
图4 基于模型二的雪球关注度变动率的冲击引起的收益率的响应函数
图5 基于模型三的新闻关注度变动率的冲击引起的收益率的响应函数
图6 基于模型四的新闻情绪指数变动率的冲击引起的收益率的响应函数
模型五的脉冲响应函数表示在4个变量的共同作用下,在其他3个变量不变的条件下,一个变量的冲击引起收益率的响应。结果与图3~图6类似,股吧关注度、雪球关注度和新闻关注度的变化率对收益率的影响都是正向的,而新闻情绪指数的变动率对收益率的影响是中性的。在4个变量的共同作用下,一个变量的变动对收益率的影响的显著性和持久性比单独作用时有所提升。
5.方差分解。
方差分解是通过分析VAR模型中每个冲击对内生变量变化的贡献度,从而评价不同内生变量冲击的重要性(韩国高等,2015[22])。表5表示基于模型五的收益率的方差分解结果,可以看出股吧关注的变动率对收益率的贡献率最大,而且股吧和雪球关注的变动率对收益率的贡献率是大于新闻关注和情绪指数的变动率的。
表5 基于模型五的收益率的方差分解
(四)实证结果分析
如果股吧和雪球关注度代表个人投资者的看法和关注,而新闻关注和新闻情绪指数代表机构投资者专业的关注和看涨看跌情绪,从图1的趋势分析中可以看出个人投资者关注的变化幅度较大,而机构投资者的关注和情绪变化较小,原因是广大的散户对股市变化的反应更加敏感,而多数网站每天发布的新闻数量变化不大,所以整体的关注度趋势也比较平稳。而新闻代表一种官方观点,其本身表达的情感倾向比较中立,因此整体的情感指数变化也不大。从图2的互联网社交媒体指标与传统投资者关注指标变化趋势的对比可以看出,两者的趋势变化基本一致,表明本文构建的互联网社交媒体指标是具有一定的合理性的。
股吧关注度与股票市场的相关性大于雪球关注度,是因为相比雪球网这个单一的平台,优矿选取的股吧论坛包含的网站更多,数据量更大,涉及的投资者范围更广,所以股吧投资者关注度更能体现广大个人投资者的关注,与股票市场的相关性更大。
相关性检验以及VAR模型的实证结果表明,股吧和雪球关注度代表的个人投资者的关注对股市的影响更大,而机构投资者关注和情绪对股市的影响相对较小,原因是中国股票市场相比国外成熟的股票市场,个人投资者比例较高,因此受广大的个人投资者行为的影响较大。而新闻本身表达的情感倾向比较中立,机构投资者的情绪与更受散户行为驱动的中国股票市场的相关性并不是很大。
格兰杰因果关系检验的结果还表明了个人投资者对股票的关注变化得越大,说明股票基本面或者消息面上发生了越大的变化,这种变化可能导致股价越大的变动。而新闻本身就是对热点的报道,许多财经新闻都是券商研究员等机构投资者针对热点的点评,新闻关注更多的是涨幅或者跌幅过大的股票,因此股价的变动更有可能导致新闻关注的变动。而股价的巨大变动也更能引起机构投资者情绪的波动,因此股价的变动是领先于新闻情绪指数的变动的。
六、结论
本文基于优矿金融量化平台的数据,构建股吧论坛投资者关注度、雪球投资者关注度、新闻关注度和新闻情绪指数。随后基于相关性分析和5个VAR模型,探究不同来源的投资者关注和投资者情绪对股市影响的差异性,得到的结论如下:
第一,不同来源的投资者关注和投资者情绪指标对股市的影响是不同的。代表个人投资者关注的股吧和雪球关注度对股市的影响是大于代表机构投资者关注和看涨看跌情绪的新闻关注和新闻情绪指数的,其中股吧关注度对股市的影响最大。
第二,新闻关注以及新闻情绪指数的变化趋势比较平缓。尤其是新闻情绪指数,它和中国股票市场的关系并不大。
第三,个人投资者关注的变动领先于股价的变动,而股价的变动领先于新闻关注和新闻情绪指数的变动。
因此,在探究社交媒体投资者行为对股票市场的影响时,应当更加关注个人投资者的行为。之后可以将其作为一类重要的指标,加入到股票预测模型和量化交易策略当中。
[1]卢琦泽,叶德谦,南敏.基于遗传算法和神经网络的股票价格预测 [J].电脑开发与应用,2010(23):61-62.
[2]Fung G,Yu J,Lam W.News Sensitive Stock Trend Prediction [M].Advances in Knowledge Discovery and Data Mining.2002:481-493.
[3]Lou D.Maximizing Short-term Stock Prices Through Advertising [R].Available at SSRN 1571947,2010.
[4]Chemmanur T J,Yan A.Advertising,investor recognition,and stock returns [C]//AFA 2011 Denver Meetings Paper.2010.
[5]徐加根,王波.投资者关注:涨停板还是大交易量——来自中国A股市场的实证研究 [J].投资研究,2013(4):014.
[6]贾春新,赵宇,孙萌,汪博.投资者有限关注与限售股解禁 [J].金融研究,2010(11):108-122.
[7]余庆进.投资者关注和股票市场表现——基于百度指数的实证研究 [D].南京:南京大学,2013.
[8]Chan W S.Stock Price Reaction to News and No-news:Drift and Reversal after Headlines [J].Journal of Financial Economics,2003,70(2):223-260.
[9]Aouadi A,Arouri M,Teulon F.Investor Attention and Stock Market Activity:Evidence from France [J].Economic Modelling,2013,35:674 -681.
[10]Da Z,Engelberg J,Gao P.In Search of Attention [J].The Journal of Finance,2011,66(5):1461 -1499.
[11]王镇,郝刚.投资者关注度对股票收益率的影响——基于百度指数指标 [J].新疆财经,2013(5):14-21.
[12]饶育蕾,彭叠峰,成大超.公众注意力是否会引起股票的异常收益?——来自中国股票市场的经验证据 [J].系统工程理论与实践,2010(2):1-12.
[13]Tetlock P C.Giving Content to Investor Sentiment:The Role of Media in The Stock Market[J].The Journal of Finance.2007,62(3):1139-1168.
[14]Das S R,Chen M Y.Yahoo! for Amazon:Sentiment Extraction from Small Talk on the Web [J].Management Science,2007,53(9):1375 -1388.
[15]易洪波,赖娟娟,董大勇.网络论坛不同投资者情绪对交易市场的影响——基于 VAR模型的实证分析 [J].财经论丛,2015(1):46-54.
[16]刘欣.互联网财经新闻媒体对中国股市的影响力排名研究——基于支持向量回归技术的实证分析 [D].成都:西南财经大学,2014.
[17]De Long J B,Shleifer A,Summers L H,Waldmann R J.Positive Feedback Investment Strategies and Destabilizing Rational Speculation [J].the Journal of Finance,1990,45(2),379-395.
[18]陈其安,朱敏,赖琴云.基于投资者情绪的投资组合模型研究 [J].中国管理科学,2012,20(03):47-56.
[19]于全辉.投资者情绪与证券市场价格互动关系研究 [D].重庆大学,2009.
[20]陈军,陆江川.基于DSSW模型投资者情绪与股价指数关系研究 [J].预测,2010,29(04):53-57.
[21]高铁梅.计量经济分析方法与建模 [M].北京:清华大学出版社,2009.
[22]韩国高,曹白杨.外部需求冲击与我国工业产能利用水平波动——基于VAR模型的实证分析 [J].数学的实践与认识,2015(22):81-91.