场景效应还是内容效应?
——财经新闻、网络舆情对股市行情的实证检验
2019-07-26程萧潇
程萧潇
(清华大学 新闻与传播学院,北京 100084)
一、引言及文献综述
资本市场本质上是一种信息市场,股票价格涨跌映射了信息的变化。从20世纪80年代开始,国内外有关信息及其变化如何影响股票市场的研究层出不穷[1]。既有研究中,信息可被划分为两类:其一是新闻媒体报道,其二是与投资者相关的信息。
关于新闻媒体报道和证券市场关系的研究,主要包括新闻报道对证券市场的影响和媒体报道内容/类型与证券市场的关系两大类[2]。该路径研究的出发点在于,资本市场中的任何信息都需要通过媒体才能传播和公开,大多数市场参与者主要依赖新闻媒体获取投资信息。基于此,大量研究证实了“媒体效应”的存在[3-4]。按照功能来说,媒体效应表现为两种形式,一种即媒体的信息效应,另一种是新闻报道的情绪效应。所谓信息效应,是指新闻媒体的报道量(媒体关注度)或选择性关注对股票市场的影响。具体来说,新闻媒体通过议程设置对财经新闻的重要性进行排序,降低投资者的信息搜索成本;投资者倾向于将时间和注意力集中在高度公开可得的以及容易处理的信息上,因此媒体关注度越高,投资者对其认知程度越高,反应速度越快,进而信息被股票价格吸收得越快[2]。有研究发现新闻报道推动相关股票价格的上升[5-6]。此外,亦有研究证实媒体关注度的增加并不意味着股票收益的增加。相反,受到媒体高度关注的股票其收益低于未被媒体关注的股票,这是因为过多的信息会在一定程度上分散投资者的注意力,使得市场对相关信息的反应不足[3]。然而,上述研究均考察新闻报道对个股收益的影响,鲜有学者对新闻关注度与股票表现波动的关系进行研究。正如有学者指出:总体上看,媒体通过提供信息和调整相关的议题左右了人们的注意力,新闻媒体传递某类股票信息越多,吸引的投资者会越多,也就越有可能影响投资者的投资行为,从而个股股价波动的可能性就会越大[7]。然而,亦存在一种竞争性的结论,即媒体报道数量越多,股票的波动越小。基于此,本文提出第一个研究问题RQ1:
新闻的信息效应(财经新闻关注度)对股市行情(收益波动)是否有影响?如是,其影响模式如何?
此外,媒体的报道不仅可以影响公众关注的议程,还可设定报道的具体属性,进而产生情绪效应。媒体不仅作为一种信息传递的中介,还往往有着“信息创造”[8]的功能。具体来说,媒体通过对信息进行取舍、提炼、裁剪和解读等编码过程,信息的某些属性得到强化,在这一信息的生产和再生产过程中,原始信息无可避免地带有情感色彩(如报道语气)。如此,这种有偏的(unbiased)信息无形中加剧了投资者的非理性行为,导致股价偏离其内在价值(表现为投资者的过度反应),从而降低了市场信息效率。有研究证实新闻情感会对股价产生显著的影响:媒体的负面报道预示着大盘指数会承受较大的下行压力,当媒体传递出乐观的观点时,其推动了股票价格的上涨[9]。基于此,认为新闻的情绪效应对股票市场表现也会产生显著的影响,因而提出第二个研究问题RQ2:
新闻的情绪效应(财经新闻情感)对股市行情(收益波动)是否有影响?其影响模式如何?
综述新闻与股票关系的相关研究可以发现,投资者一直是一个隐而不彰的“角色”,因此有许多研究者开始重视网络舆情对股市的影响。此类研究随着社交媒体的普及出现了井喷式的增加。在网络舆情的研究路径下,学者更多地从“情感”或“情绪”的角度切入,例如探讨财经网站论坛、Twitter、微博等社会化媒体平台上的投资者情绪对局部(个股)股价或整体股市波动的影响等[10-13]。然而在投资者情绪的测度上,不同研究者提出了不同的测量指标和方案,例如有研究采用换手率、消费者信心指数、封闭式基金折价、“央视看盘”指数等指标作为投资者情绪的代理变量[14-15]。此外,亦有学者使用大数据方法进行投资者情绪的测量,如金雪军等使用KNN算法将网络帖子分成“看涨”、“中立”、“噪音”三类,由此构造投资者的看涨指数和意见趋同指数[6]。此外,还有其他研究者采用贝叶斯分类、支持向量机模型等方法进行投资者情绪的测度[16]。
由于不同的研究者对情绪的测量及指标合成方法的不同,因此既有的研究结果存在较大差异。本研究放弃采纳投资者情绪作为考察其对股价影响的自变量,原因有三:其一,投资者情绪难以观测,通过简单指标合成或者算法进行分类的方式难以准确捕捉到投资者的情绪信息。例如,社交媒体数据(如评论)是高度语境化的,然而既有算法多基于词典的方式进行情感判别——即使可以通过有监督的机器学习方式较好地判断情感程度,也十分容易出现语境与词意错位的情况。譬如有学者指出,“现在可以建仓”和“现在不能建仓”虽然都有“建仓”这个关键词,但含义完全相反[13]。其二,基于不同来源的社交媒体指标对股市的影响并非完全一致,因为这些不同来源的指标其实代表了不同来源投资者群体的看法,而不同投资者群体对股市的影响是有系统性差异的[17]。其三,有研究者指出投资者的关注才是最终决定股市波动的最重要的直接动因[7]。由此,本研究仅采用投资者关注作为影响股票市场波动另一维度的自变量,探究其对股票市场的影响。因此提出研究问题RQ3:
网络舆情(投资者关注)对股市行情(收益波动)是否有影响?其影响模式如何?
此外,在前人研究中,投资者与新闻媒体对股票市场的影响一直被人为剥离进行独立研究,未能深入分析投资者与新闻媒体之间的联系,因而无法揭示出媒体与股市之间关系的深层原因和内在机理[1,7]。
值得注意的是,新闻与舆情虽同属于信息的范畴,但两者是完全不同的概念。具体来说,前者基于现实生活中事件的事实,其呈现形式相对理性化;而后者则由(部分)公众对公共领域中某个特定社会问题、公共事务和议题的观点和态度汇集而成,往往夹杂大量强烈的个人情绪,因而带有更多的非理性化特征(例如群体极化现象、回音壁效应等)。在新闻传播学领域,“信息影响模式”是解释人们态度、行为改变的主导模式,新闻的影响就属于此种模式。然而,越来越多的研究开始意识到大众的意识、态度和行为的改变可能是由于信息环境(信息流动模式)决定的。以梅罗维茨的著作《消失的地域》为例,他认为电子媒介引发了社会场景及后续社会行为的变化,而改变的根源在于社会场景的重组[18];换言之,社会场景本身对人们的态度和行为产生了重要影响。可以这样说,如果新闻对股市行情的信息效应和情绪效应属于一种内容效应,表现为披露市场信息的功能,那么舆情(投资者关注)对股票市场的影响则营造了一种“意见气候”、“社会场景”甚至“社会潮流”,对个体的决策与大盘的走势产生了信息环境的场景效应。因此理论上来说,信息的“内容效应”和“场景效应”对股票市场的影响在某种程度上存在其独特的作用机制。
还应注意的是,在实际生活中,信息内容与社会场景之间具有某种内在的关联。具体而言,大量集成的信息本身形成了一种“社会场景”,从而对舆情产生了导向作用。换言之,内容效应和环境效应对股票市场的影响可能并非是完全独立,而是存在互相影响。此外,社会场景中的信息环境本身亦会对滞后信息内容产生连锁效应,进而对个体决策和经济市场产生影响。有学者指出了新闻媒体和投资者对股票收益的影响路径:当新闻事件发生后,新闻媒体通过选择报道的议程或者观点对事件进行编码,编码后的新闻媒体报道传递给投资者,而投资者在有限关注的约束下,往往买入被新闻媒体报道的能够吸引其注意力的股票,表现出过度关注或过度反应,进而新闻媒体报道对股票收益的影响最终通过投资者的决策和行为反映到市场上[2]。这一发现进一步说明,新闻媒体与投资者之间存在某种相关性[1],这种相关性既可能表现出时序上的因果关联,也可能存在互为因果的影响。因此,厘清两种效应对股票市场的影响具有重要意义,不仅可以探究信息的社会功能与后果,还可以识别出信息作用经济社会的不同机制和路径。由此,提出研究问题RQ4:
财经新闻与网络舆情之间的关系如何?在信息影响股市行情的机制中,“场景效应”与“内容效应”孰重孰轻?
二、数据、指标和模型
(一)数据来源与采集
本研究的基础数据分为两个部分,第一部分是股票行情、基本面数据等结构化的数据,例如采用的沪深300指数的日成交量、开盘价、收盘价等数据——该部分数据来源于CSMAR(国泰君安数据库);第二部分为新闻和社交媒体评论等非结构化数据,数据来源于UQER数据库(优矿数据),该数据平台每天不间断在东方财富网、和讯网、新浪财经等国内70多个主流的财经新闻网站抓取财经新闻,同时在东方财富网股吧、和讯股吧等几十家国内主流股吧论坛对网民的评论。
本文研究的样本区间为2017年4月15日至2018年4月14日(共364天),除去周末和节假日,共涵盖了244个交易日。研究内容是新闻热度、新闻情感和社交媒体热度对沪深300股指波动的影响。结构化数据采用逐日数据,包含244个交易日中沪深300股指的日成交量、开盘指数、收盘指数、上个交易日的收盘指数等数据;非结构化数据涵盖了364天每日与沪深300股指成分股有关的财经新闻和论坛评论数据。
(二)指标合成
1.因变量——股指收益率(HS300GAIN)
通过建构沪深300股指收益率来衡量股市每日的波动情况,指标建构公式如下:
(1)
式(1)中,closeindex和openindex分别代表收盘股指和开盘股指,t代表当天交易日,j表示上一个交易日与当日交易日相差的天数。
2.新闻信息效应——新闻热度(HEAT)
新闻热度指数表示300只股票每日新闻报道数量占当天新闻总量的百分比,因此合成的新闻热度即沪深300指数300只成分股当天新闻热度指数的算数平均:
(2)
式(2)中,ticker表示成分股的代码,stocknews表示特定成分股的新闻报道数量,relatednews表示当天新闻报道的总量。
3.新闻情绪效应——新闻情感(SENTIMENT)
新闻情感指数由优矿数据提供,表示每只股票当天关联新闻的总体看法(当天的证券新闻情感均值),正数表示看涨、负数表示看跌、0为中性,绝对值越高情感越强烈。本研究新闻情感指标计算出每天300只成分股的新闻情感均值。
4.场景效应——社交媒体热度(POSTHEAT)
社交媒体热度表示300只股票每天在各大股吧平台标题或内容中被提及的帖子数量占当天这些平台所有帖子数量的百分比,因此指标的合成是300只成分股当日帖子数量占当天股吧社区全部帖子总量的比例的算数平均:
(3)
式(3)中,stockpost表示每只股票被帖子提及的数量,postnum代表所有帖子的数量。
(三)模型设定
本研究采用向量自回归(Vector Autoregressive Model,VAR)模型来考察新闻热度、新闻情感、社交媒体热度与股指对收益率相互之间的动态影响关系。VAR模型是一种动态的非结构化模型,它将变量间的所有动态关系都考虑进来,在理论尚未充分告知变量间互相关系及无法确定变量的内生或外生性时十分有效。同时,VAR模型基于数据的统计性质建立,把每一个内生变量作为系统中所有内生变量滞后值的函数来构造模型,从而可以预测互相联系的事件序列系统及分析随机扰动对变量系统的动态冲击。根据文献综述,我们所要研究的各自变量间的因果时序并不十分清晰,此外若人为设定多元线性回归方程,存在滞后阶数无法确定等问题。基于此,本研究采用VAR模型进行建模。
具体而言,本研究构造的VAR模型如下:
(4)
式(4)中,Yt是时间序列向量,分别选取股指收益率、新闻热度、新闻情感和社交媒体热度四个指标;C是常数向量,εt是白噪声序列向量,βs是带估计系数矩阵,m为滞后阶数。关于最优滞后期数的确定,根据前人研究[19],选取LogL、LR、FPE(Final prediction error)、AIC、SC和HQ等六大信息准则联合判定。
三、实证分析
(一)各变量趋势分析
为了初步探讨新闻热度、新闻情感、社交媒体热度与股指收益率之间的变化趋势,图1给出了四个变量的时间趋势图。考虑到各变量因为量纲不同不具有可比性,将四个变量进行Z-score标准化处理。
从图1可以看出,沪深300股指收益率和新闻情感的变化趋势较为明显,尤其是新闻情感呈现出上下起伏的剧烈波动。从均值来看,这两个变量的变化趋势较为相近,在2017年11月前呈现出围绕0值上下波动的平稳过程。但在2017年11月之后,股指收益率和新闻情感均出现了拖尾趋势。尤其是2017年12月至2018年3月期间,股指收益率出现两次大幅“跳水”(震荡期),新闻情感也在这个时段内呈现出相同的趋势,并于2018年2-3月达到情感的极值状态(从最负面到最积极的情感)。新闻热度和社交媒体热度震荡期的个数与股指收益率的变化趋势相同(均为两个),其余时段(平稳期)也呈现出围绕常数项波动的平稳过程。从震荡发生时间来看,新闻热度震荡的发生时间较股指收益率有所提前,社交媒体热度的两个震荡期(2017年10-11月和2018年2-3月)在新闻热度震荡之后,并且几乎与股指收益率的两个震荡期同步发生。
从时间趋势图来看,我们几乎得到两个初步判断:第一,四个变量均是一个平稳的时间序列,即“零阶单整”(integrated of order zero),长期而言有望回到期望值——即“均值回复”的趋势;第二,这四个变量呈现出一种内生性的关系,新闻热度、新闻情感和社交媒体热度本身及其滞后期数对股指收益率有显著影响,同时新闻热度似乎决定了社交媒体热度。然而,由于我们只截取了1年的数据,无法判断变量是否是一个平稳的时间序列过程。例如,股票走势具有“随机漫步”(random walk)性质,从而股指收益率可能是一个带有趋势项的趋势平稳过程或非平稳序列(non-stationary time series)。因此,需要对其进行单位根(unit root)检验。此外,变量间的内生关系也需要进行格兰杰因果(Granger causality)等相关的检验,进而探究变量间的动态影响机制。
(二)新闻热度、新闻情感、社交媒体热度与股指收益率关系的VAR模型
本研究首先对各变量进行相关性检验,检验结果初步表明变量间不存在多重共线性问题,因此基于原数据建模。为了保证实证结果的有效性,避免“伪回归”问题,建模前要对各变量做单位根检验,以确保各变量不存在“单位根”,即非平稳序列。使用ADF(Augmented Dicky-Fuller)检验数据的平稳性,结果显示,股指收益率、新闻热度、新闻情感、社交媒体热度均为平稳序列,但股指收益率仅是一个趋势平稳的序列,尽管可以直接对其进行VAR建模,本研究仍对这4个变量构造的VAR模型进行Johansen协整检验,检验结果表明它们存在长期均衡关系。
向量自回归模型的建立需要确定滞后阶数,本研究通过6项评判指标准则选择最优滞后阶数。在选择滞后阶数时,为了体现模型的动态特征,滞后阶数不宜太小,也不宜太大,否则模型的自由度会变小。信息准则计算结果见表1。结果显示,模型最优拟合度预测误差阶数为3阶,因此以股指收益率为因变量,以新闻热度、新闻情感和社交媒体热度为自变量,建立3阶VAR模型。
表1 VAR滞后阶数选择信息标准
注:*表示根据准则选取的滞后阶数。
为了判断整体模型的有效性,针对所建立的VAR模型进行稳定性评估。本研究利用特征多项式的根的倒数进行判断,若所有根模的倒数小于1,则说明模型的稳定性。稳定性检验结果如图2所示。从图2可以直观地看出,本研究中所有根模的倒数均小于1,所有单位根均落在单位圆内,表明模型设定的稳定性,同时亦说明本研究选取的变量之间存在长期稳定的关系,可以进行后续的分析。
图2 模型稳定性检验图
为确定变量之间的因果关系,我们对VAR模型进行格兰杰因果关系检验。与反事实框架下的因果机制不同,格兰杰因果关系是指在Y的模型中,如果加入的滞后变量有助于解释Y,则认为变量X是致使变量Y的“格兰杰原因”[13]。格兰杰因果关系检验结果见表2。
根据表2可以发现:1.仅有新闻情感和社交媒体热度是股指收益率的格兰杰原因,而股指收益率却不是这两个变量的格兰杰原因,这说明新闻情感和社交媒体热度的变化是领先于股指收益率变化的,两者对股指收益率的预测具有较大贡献;2.新闻热度不构成股指收益率的格兰杰原因,而社交媒体热度却是其格兰杰原因;3.同时,社交媒体热度是造成新闻情感变动的原因,但它显然是一个外生变量,不受到新闻热度、新闻情感和股指收益率的影响。
表2 格兰杰因果关系检验结果表
在VAR模型的基础上,本文应用脉冲响应函数来分析系统对来自自身或其他内生变量冲击扰动的动态反应,并从动态反应中判断变量间的时滞关系,其体现了当系统受到其中一个变量一个标准差冲击后对其他变量产生影响,并最终反馈到自身的一个过程[11]。
图3分别给出了股指收益率、新闻热度、新闻情感及社交媒体热度对股指收益率变动的短期冲击反应。从脉冲响应结果可以看出,股指收益率对自身的一个标准差的冲击几乎是正方向的,在第1期表现最为明显,上升了将近0.09个百分点,第2期开始恢复到均衡位置,之后几期的影响变得不太明显。在新闻热度、情感和社交媒体热度对股指收益率的响应函数中,以社交媒体热度的冲击力度最为明显,其变动对股指收益率的正向冲击在第3期达到最高顶点,上升了近0.075个百分点,第4期变为负,下降了0.005个百分点,随着时间的推移逐渐收敛为0。此外,新闻热度与新闻情感的冲击力度较弱,分别在第2期和第3期达到最高(约0.025个百分点),随后逐渐收敛到均衡位置。
图3 各变量变动对股指收益率变化的脉冲响应图
本研究还通过方差分解评价各内生变量的相对重要性。图4和表3给出了股指收益率的方差分解结果。根据图4和表3,新闻热度和新闻情感对股指收益率变动的贡献最小,贡献率分别维持在8%和10%左右;而股指收益率自身和社交媒体热度是股指收益率变动贡献最大的两个因素。股指收益率的贡献率从第1期的100%逐渐递减至滞后第10期的36.76%,但新闻热度的贡献率则在第4期增长至46.56%,至第10期时,其贡献率一直稳定在该水平上,并超过股指收益率本身的贡献率。
图4 股指收益率的方差贡献率图
滞后期数标准误股指收益率新闻热度新闻情感社交媒体热度10.008 334100.000 00.000 0000.000 0000.000 00020.008 78991.087 508.628 4720.084 3830.199 64630.011 60753.234 845.623 9183.498 13737.643 1140.012 96545.114 014.515 0653.811 71946.559 2050.013 55341.346 206.376 3957.340 60844.936 7960.013 82139.951 068.149 6057.674 50544.224 8370.014 18738.094 568.928 65510.08 48042.891 9880.014 22637.999 808.916 14810.20 30542.881 0090.014 45036.906 618.932 42111.34 67742.814 20100.014 49236.764 728.882 20511.407 4242.945 66
四、结论
本研究基于VAR模型探究了2017年4月15日至2018年4月14日期间,新闻热度、新闻情感和社交媒体热度对沪深300股指收益率波动的动态影响。研究发现,新闻情感和社交媒体热度对股指收益率产生显著影响,而新闻热度却对股指收益率不产生显著影响;社交媒体热度不仅构成新闻热度的格兰杰原因,也是新闻情感的格兰杰原因;除股指收益率本身外,社交媒体热度对股指收益率波动的效应最强。
与前人研究结论大相径庭的是,本文的数据结果认为新闻热度(媒体关注度)对股票市场几乎无任何影响,而社交媒体热度成为新闻情感和新闻热度的外生变量,对二者产生显著影响。造成这种现象的原因很可能是新闻的信息效应被社交媒体的场景效应所稀释了。这一点可以从社交媒体热度对股指收益率的脉冲响应和方差分解结果看出来。滞后四期的社交媒体热度对股指收益率的效应超过股指收益率滞后变量对其本身的效应,成为影响最大的因素。有学者也得到类似的结论,其研究发现在引入媒体关注度和投资者关注度的交互作用后,投资者关注度对股票收益的直接影响仍保持显著的正向关系,但媒体关注度对股票收益的负向影响变得不显著,且媒体关注度的影响显著地弱于投资者关注度的效应,而交互项对股票收益具有显著的正向影响。这些结果表明投资者的关注才是造成股票收益变化的直接动因,而媒体关注度对场景效应仅起到调节作用,即信息效应的功能在于放大社交媒体的场景效应。
由于本研究仅基于沪深300股指及其一年的行情数据,使得研究结论有一定的局限性,该研究发现的规律是否具有普遍性尚待进一步验证。此外,后续研究应该在指标合成、内容效应和场景效应的交互项设置上得到改进。