APP下载

社交媒体大数据和股票市场的研究述评与探索

2022-04-04徐雨迪

中国市场 2022年11期
关键词:投资者情绪股票市场

徐雨迪

摘 要:社交媒体是一个强大的社会行为数据库,包含了用户的信息搜索、获取和交换的海量数据,反映了大量投资者的关注与情绪,吸引了大量学者将其与股票市场进行关联研究。从行为金融学出发,分析了社交媒体大数据中蕴含的信息作用于股市的经济原理及其传导机制。从投资者关注和投资者情绪两个维度,对社交媒体大数据和股票市场关联研究的文献进行了归纳和梳理,总结主要发现,明确社交媒体到股票市场的传导机制,从而更深刻地理解投资者行为。对未来研究方向进行了展望,以期为进一步的研究提供参考。

关键词:社交媒体大数据;投资者关注;投资者情绪;股票市场

中图分类号:F832.51文献标识码:A文章编号:1005-6432(2022)11-0045-05

DOI:10.13939/j.cnki.zgsc.2022.11.045

1 引言

随着经济的快速发展,经济问题和危机频发,世界股票市场曾多次出现牛熊市的频繁更替和股票价格的大起大落。如1987年的“全球股市黑色星期一”、1995年的墨西哥金融危机以及2007年的美国次贷危机等。这些现象都难以用基于有效市场假说和理性人假说的传统金融学所解释。

行为金融学的兴起和发展,将金融学的研究视野拓宽至投资者的心理和具体行为上,指出投资者存在心理认知偏差等问题,从而导致其做出“非理性”的投资决策。

因此,有不少学者考虑从投资者的心理特征和行为特点出发,研究其与股票市场的关系,但前期由于数据来源有限,研究没有得到很好的发展。直到互联网的出现和兴起,信息的传递方式由传统媒介转变成了新兴的社交媒体。

根据中国互联网网络中心第44次调查报告,截至2020年9月,中国网民规模达9.4亿,互联网普及率达67%。社交媒体作为当下影响范围最广、使用频率最高的新型互联网工具之一,使用户能够搜索、创建和共享信息的同时,还记录了用户网络行为。利用网络爬虫、数据挖掘技术,能够从社交媒体获取记录各阶层、各领域用户行为的大数据。

社交媒体已经成为一个强大的社会行为数据库,这为研究投资者行为提供了一个新的视角。近年来,将社交媒体大数据和股市结合起来研究的文献层出不穷,这一方面能够引导投资者客观认识自身存在的认知偏差,避免盲目跟风的同时,做好风险管理;另一方面,能够为完善股票市场的运行机制、制定监管政策提供思路。

鉴于此,本文从行为金融学出发,通过对研究社交媒体大数据和股票市场的文献进行归纳和梳理,总结主要发现,明确社交媒体到股票市场的传导机制,从而更深刻和全面地理解投资者行为。

2 社交媒体概述

从技术角度来看,社交媒体是基于Web或操作高度交互平台所必需的移动技术。

在该平台上,用户可以搜索、创建和共享信息。Boyd和Ellison(2008)使用术语“社交网站”代替“社交媒体”,并将其表示为基于网络的服务,允许用户创建公开或半公开信息。

如今,新兴的社交媒体层出不穷,本文考虑到数据的可用性、用户数量、流行程度、与股市的相关程度等方面,重点关注Twitter(推特)、Google(谷歌)、百度和微博的数据。就本文而言,社交媒体中“搜索”和“共享”两个模块是最重要的,“搜索”模块提供了指数数据,反映了用户对某个特定信息的关注程度,“共享”模块提供了文本数据,反映了用户的情绪,这两个模块是大数据的来源,在一定程度上体现了用户的行为。

在股票市场领域,社交媒体大数据可以用来揭示社会与股市之间更深层次的影响机制。如前所述,社交媒体大数据包含各种各样的信息,但哪些信息是有价值的,哪些信息可以为研究所用,是每个学者都需要思考的问题。

3 社交媒体大数据应用于股市的经济原理

社交媒体大数据捕获了用户的活动、用户之间的互动,或更准确地说,一个社会的复杂行为。在行为金融领域,投资者的行为及其与股票市场的关系是研究的主要部分。

因此,行为金融框架是在股票市场领域使用社交媒体大数据的主要动机。在当前研究中,这种动机存在以下两种经济学解释。

3.1 信息需求

第一种经济学解释是基于投资者的信息需求,即投资者关注。特别是对于散户投资者,他们的信息来源有限,无法访问Bloomberg或Thomson Reuters等專业数据库,当他们接收到外界的信息后,往往将社交媒体用作有关股票市场的公开信息来源。

Da等(2011)、Kim和Neri(2018)的论文提出了这个想法,他们在分析中采用了Google搜索数据。国内张继德等(2014)也提出了信息需求,他们提出将百度指数作为散户投资者关注的替代信息来源。

3.2 信息供给

第二种观点是基于用户的信息供给行为。投资者对来自社交媒体会产生各自的认知,这些认知会通过社交媒体上分享的内容展现出来。这些由社交媒体用户共享的内容是有价值的数据源,从而这些信息的供给作用于投资者的交易决策,进而影响到股市表现。

在金融文献中,体现用户情感和观点的内容可以用术语“情绪”来描述,在本文中叫作投资者情绪。大量的研究表明,理性程度较低的投资者群体倾向于依赖情绪行事。例如,Mao等(2015)和Francesco Audrino等(2020)研究Twitter数据、张洪辰(2014)和Zhou等(2018)研究微博的数据,他们从中提取投资者情绪,证明了这种想法。

3.3 传导机制

结合以上两种经济学解释和以往的研究,本文在陆慧玲(2018)的基础上构建在社交媒体下的信息在股票市场的传导机制,见图1。

从该传导机制可以看出,投资者通过某种渠道接收到社交媒体信息。社交媒体信息包括媒体发布的新闻、社交媒体用户的分享和网络痕迹等。这些社交媒体信息在经过认知过程之后,会对投资者情绪产生一定的影响。投资者情绪表现为推文的发布、微博的发布等。

从而这些信息的供给作用于投资者的交易决策。同时,出于信息需求,这些信息还会引起投资者的关注,表现为百度搜索、Google搜索等,对投资者行为产生影响,进一步影响股市表现,如交易量、股价等。投资者关注到股市的变化后,又会基于信息供给和信息需求反馈到投资者情绪和投资者关注中。由此形成了一种如图1所示的循环影响。

本节最重要的贡献是了解到社交媒体是一种仅从技术上捕获有关社会行为的数据的工具。然而,对该领域研究真正重要的是理解投资者的行为、散户投资者的存在及其对股票市场的影响。

为此,本文根据社交媒体和股市关系的经济原理提出了投资者的行为与股票市场之间的传导机制,更深层次地解释了这一影响。

4 主要实证发现的综述

以微博、Twitter、百度等为主的社交媒体的迅速兴起,在改变信息发布与传播方式的同时,也悄然改变着人们的生活和思维方式。社交媒体作为投资者信息获取、发布和交流的重要平台,是能够体现投资者行为的有价值的大数据源。当前已有很多学者投身于海量的社交媒体大数据对股市影响的研究。

本文基于行为金融学从以上两种经济学解释及其传导机制出发,对该领域的有关社交媒体和股票市场之间关系的主要实证研究进行了分析和归纳。

4.1 投资者关注

在信息需求理论框架下,社交媒体包含的搜索量、网页浏览量等,反映了投资者对特定信息的关注。

现有研究发现,投资者关注会对股价产生正向影响,部分研究指出这种影响会在近期内反转。

Da等(2011)是国外研究Google数据的第一批论文之一,该研究提出将Google对股票代码的搜索量数据作为衡量投资者关注的新指标。

以Russell 3000指数股票为研究样本,发现股票代码搜索量的增加预示着未来两个星期内的股价将上涨,并且最终价格将在一年内反转,他们认为这是因为散户投资者的高度关注增加了股票价格的购买压力。

俞庆进和张兵(2012)用以证券简称和证券代码为关键字的百度搜索量数据衡量投资者关注,结果表明投资者关注在当期能够对市场造成正向的价格压力,但很快将发生反转。该发现与Da等(2011)的发现类似,表明社交媒体搜索量数据在中国股票市场的可适性。

张继德等(2014)参考俞庆进和张兵(2012)构建的模型,使用以股票简称为关键字的月百度搜索数据,研究发现该指数对上证180指数样本股的股价有正向影响,对股票收益有正向驱动作用,但这一现象将在一段时间后发生反转。

陈植元等(2016)选取20只新概念股作为研究对象,以证券简称和代码日百度指数之和度量投资者关注度,揭示了百度指数与股票市场指标表现之间显著的正相关关系。

Kim和Neri(2018)研究Google日搜索数据与奥斯陆证券交易所上市公司的未来异常收益、交易量和波动性之间的关系,研究结果表明Google搜索量的增加预示着波动性和交易量的增加。

另外,部分研究将重点放在投资者关注的预测精度上,研究发现投资者关注度的引入,模型的预测精度将得到提高。

Bank等(2011)用德国上市公司名称为关键词的Google搜索量数据衡量投资者关注,结果表明搜索量的增加会带来短期超额收益的升高,并进一步发现,当股价在当年创新高时,Google搜索量对股票收益率的预测能力将提高。

Dimpfl和Jank(2016)考虑用“Dow”为关键词的Google日搜索量数据衡量投资者关注,发现网络搜索量对未来股市波动性有一定的预测能力,特别是在高波动阶段。

张宁(2016)和张同辉等(2019)分别以“上证指数”“深证指数”和股指名称、代码为关键字的日百度数据衡量投资者关注,发现投资者关注度的引入,有助于提高波动率的预测精度。

瞿慧和沈微(2020)以华夏上证为研究对象,用“50ETF”的百度搜索指数度量投资者关注度,将其作为逻辑平滑转移结构的转移变量,构建已实现波动的异质自回归类模型,发现投资者关注的非线性引入对波动率预测有显著贡献。

综上所述,国外多采用Google搜索,国内多采用百度指数度量投资者关注。虽然选择的关键词(上市公司名、Dow、股票代码等)存在差异,研究对象也存在差異(Russell 3000指数股票、创业板股票、沪深两股市等),但都研究发现社交媒体蕴含的投资者关注信息对股指包含额外的预测信息。

4.2 投资者情绪

在信息供给理论框架下,由社交媒体文本信息衡量的投资者情绪会影响非理性投资者的决策,进而影响股票市场。

姚尧之等(2018)指出使用包含较高频率投资者情绪数据的混频数据模型对股市行为具有更强的解释能力。

因此,本小节以数据取样频率的不同对已有研究进行划分,从信息供给理论及其传导机制出发,重点关注投资者情绪和股市之间的关系。

4.2.1 低频投资者情绪

现有不少研究从社交媒体大数据中提取出不同类型的投资者情绪,它们对股票市场的影响存在差异。

最早的研究是Antweiler等(2004),他们爬取雅虎财经上关于45家上市公司的150万条帖子,构建了看空、持平和看涨的投资者情绪,研究发现这三种投资者情绪对股市的波动性都有解释力度。

张洪辰(2014)从新浪微博与上证综指相关的微博中提取出日投资者情绪:看涨情绪和看跌情绪,研究发现该投资者情绪在一定程度上可以预测上证综指的未来走势,股票走势与看涨情绪正相关,与看跌情绪负相关。

易洪波、赖娟娟等(2015)用东方财富网股吧下的上证指数吧每日主题帖的标题内容的多、空情绪比例变动,构建日投资者情绪,发现投资者情绪对上证股指成交量和收益率有很大影响,并且这种影响是非对称的,空方情绪对成交量影响较大,多方情绪对收益率的影响明显。

石善冲等(2018)爬取清博平台“股市”板块中的微信文章,从中提取出日投资者情绪:积极情绪、中性情绪和消极情绪,发现积极情绪和中性情绪会影响上证指数的成交量,而消极情绪主要影响上证指数的收盘价和收益率。

Zhou等(2018)对投资者情绪做了进一步的细分,从微博上收集了与中国股票相关的微博,从中提取出了五种日投资者情绪:愤怒、厌恶、喜悦、悲伤和恐惧,发现厌恶与收盘指数,喜悦、恐惧、厌恶与开盘指数存在格兰杰因果关系,但网络社交媒体中的愤怒与中国股市的关联性最弱,甚至与中国股市没有关联。

除了从提取的情绪指标不同入手,还有部分研究专注于不同的市场和行业。

Mao等(2015)专注于国家层面的股市研究,他们利用Twitter提取出投资者情绪,对英国、美国、加拿大和中国的股市收益进行了预测,发现投资者情绪指标能够有效地预测英国、美国和加拿大股市,而对中国股市的预测能力稍微弱一些。这可能是由于国外互联网数据包含的中国股市的有效信息较少。

Guo等(2017)关注于整个中国股票市场的生物医学和房地产行业,使用了一种新兴的社交媒体——雪球网,从雪球网上爬取的相关用户评论信息提取投资者情绪,同时还用股票在雪球网上的出现频率衡量投资者关注,结合这两个指数发现只有在股票受到投资者高度关注时,情绪数据才可以用来预测股价。

Chen等(2018)关注于沪深股市,从新浪微博官方账号收集到的微博中提取出投资者情绪,发现股票数据能够被很好地预测。

Francesco Audrino等(2020)使用来自Twitter和Stock Twits的日文本投资者情绪,结合Google和Wikipedia的日搜索量数据与不同行业的18家公司股票指数建立扩展HAR模型,得出了与Behrendt和Schmidt(2018)类似的结论,发现投资者关注和投资者情绪能够显著提高波动性预测,但对于那些市值较小或机构投资者比例较高的公司,情绪数据对于未来波动性的信息性通常较低。该部分的现有研究基本上集中在国外,国内的研究还较少,且大都发现只有在股票受到投资者高度关注时,情绪数据才有较好的预测能力。

投资者情绪这一研究领域使用的社交媒体多种多样,从国外的Twitter、雅虎财经、雪球网到国内的微博、东方财富网等,它们都是研究投资者行为的有价值的数据源。

虽然学者从中提取的情绪信息多种多样,选取的研究对象不同,其对股市影响的方向、程度等存在差异,但可以明确的是,社交媒体包含的情绪信息对股市行为有额外的解释力度。

4.2.2 高频投资者情绪

以上的研究是在低频率上提取的投资者情绪,但股市时时处在变动状态,低频率数据无法捕捉短时间间隔的详细信息。近几年随着网络和技术的快速发展,为完善这一领域的研究,更多的学者将目光放在高频数据上。

Sun等(2016)使用汤森路透市场心理指数(TRMI)分析了半小时收益的可预测性。TRMI是一种基于新闻、互联网来源和社交媒体数百万条帖子构建的高频投资者情绪,他们发现投资者情绪的变化对日内普尔-500指数股票收益具有预测力。

T.Renault(2017)从StockTwits平台发布的消息中提取了半小时频率的投资者情绪,研究发现投资者情绪有助于预测日内股指收益,且投资者情绪的前半小时变化预测了标准普尔500指数的最后半小时收益[27]。

Daifeng Li等(2019)从腾讯微博中提取出积极和消极投资者情绪,通过分析投资者情绪与5分钟频率的沪深300时间序列之间的相关性,发现腾讯微博的相关高频情绪数据能够较好地解释股市波动,而且这种波动是由投资者在短期内的非理性行为引起的。

尹海员和吴兴颖(2019)从金融界论坛的历史发帖信息中提取出日内半小时间隔的高频投资者情绪指数,发现中国股票市场的高频投资者情绪能正向影响股票市场运行,这种预测作用在下午表现更显著。但是,随着取样频率的提高,结论发生了变化。

S.Behrendt和A.Schmidt(2018)将道琼斯工业平均指数成分股的每1分钟的日内高频Twitter情绪引入到HAR模型中,发现与没有Twitter信息的模型相比,股票市场预测性能没有得到提高。这可能是因为考虑的日内频率太高,投资者无法对此类信息作出快速反应,同时也可能是因为商业数据供应商提供的来自Twitter的关于个股的日内信息对未来股市波动性的预测没有解释能力。

投资者情绪能够很大程度上影响股市,这一观点在研究低频投资者情绪的文献中已经得到印证,但限于数据指标构建困难,投资者高频情绪的研究目前还处于探索阶段。

通过以上综述可以发现,研究高频投资者情绪的学者得到的结论存在差异,个别学者发现投资者情绪对未来股市波动性的预测没有解释能力,因此取样频率不同极有可能是造成研究结果不同的原因。那么什么频率的数据对股市预测包含的信息最多也是值得探讨的一个问题。

5 总结与展望

学术界对社交媒体大数据和股票市场这一领域的研究始于20世纪90年代末,通过对社交媒体大数据和股票市场的相关研究进行梳理,发现学者的研究方向逐渐由单个平台转向多个平台、由单指标转向多指标、由低频数据转到高频数据,但研究结果存在差异,仍处于探索阶段。

因此,本文认为在未来的研究中至少在以下四个方面还可进一步拓展。

第一,现有文献基本上用数字指標和内容指标来量化媒体信息,但如今信息在网络上呈现的方式越来越多样化,用户可以用图片表达自己的观点,用视频记录自己的心情,这些都蕴含着大量信息,目前没有学者将这一信息运用到股票预测的领域。随着计算机技术的不断发展,算法越来越先进,图片视频信息的引入必然会完善股票预测领域的研究。

第二,现有文献所采用的研究对象大多是综合股指或者个股,而以行业板块的差异性为视角研究社会化媒体信息对股市影响的研究还较少。探究社交媒体大数据的行业偏好,分析不同行业对社交媒体大数据的敏感度,从而使得分析结果更具针对性和全面性,进而得到更具经济意义的结论和可操作性的政策意见。

第三,虽然社交媒体大数据具有巨大的潜在价值,但由于其数据含有大量的噪声、存在可能的偏见、易受外部不相关因素影响等,对其进行处理从而提取有用的信息不是一件易事。因此,如何运用技术滤除噪声、如何挖掘使用价值较大的数据等来提高预测精度等都是未来应该努力的方向。

第四,尽管社交媒体大数据在股票市场中的重要性已得到广泛认可,但高频数据的合理测度受到数据收集和量化的限制,同时学者们对数据频率采集上还存在争议,且高频数据由于其采样频率不同,学者们的研究成果存在差异,这一差异背后的原因是什么,是值得关注的问题。

参考文献:

[1]BOYD D M, ELLISON N B. Social network sites:definition,history, and scholarship[J].Journal of computer-mediated communication,2007,13(1): 210-230.

[2]DA Z, ENGELBERG J, GAO P. In search of attention[J].The journal of finance, 2011,66(5):1461-1499.

[3]KIM N, LUCIVJANSKA K, MOLNAR P, et al. Google searches and stock market activity:evidence from Norway[J].Finance research letters, 2019(28): 208-220.

[4]张继德,廖微,张荣武.普通投资者关注对股市交易的量价影响:基于百度指数的实证研究[J].会计研究,2014(8):52-59.

[5]MAO H,COUNTS S,BOLLEN J. Quantifying the effects of online bullishness on international financial markets[C].Frankfurt:ECB workshop on using big data for forcasting and statistics,2014.

[6]张洪辰.通过新浪微博数据挖掘预测上证综指走向[D].北京:首都经济贸易大学,2014.

[7]ZHOU Z,XU K, ZHAO J.Tales of emotion and stock in China:volatility, causality and prediction[J].World wide web,2017,21(4): 1093-1116.

[8]陆慧玲. 基于微指数和百度指数的上证综指收益率预测研究[D].成都:西南交通大学,2018.

[9]俞庆进,张兵.投资者有限关注与股票收益:以百度指数作为关注度的一项实证研究[J].金融研究,2012(8):152-165.

[10]陈植元,米雁翔,厉洋军,等.基于百度指数的投资者关注度与股票市场表现的实证分析[J].统计与决策,2016(23):155-157.

[11]BANK M, LARCH M, PETER G. Google search volume and its influence on liquidity and returns of German stocks[J].Financial market and portfolio management, 2011,25(3):239-264.

[12]DIMPFL T,JANK S.Can Internet search queries help to predict stock market volatility?[J].European financial management,2016,22(2): 171-192.

[13]張宁.投资者关注度对股市波动性的影响分析及应用[D].长沙:湖南师范大学,2016.

[14]张同辉,苑莹,曾文.投资者关注能提高市场波动率预测精度吗?——基于中国股票市场高频数据的实证研究[J].中国管理科学,2020(11):192-205.

[15]瞿慧,沈微.基于LSTHAR模型的投资者关注对股市波动影响研究[J].中国管理科学,2020(7):23-34.

[16]姚尧之,王坚强,刘志峰.混频投资者情绪与股票价格行为[J].管理科学学报,2018(2):104-113.

[17]易洪波,赖娟娟,董大勇.网络论坛不同投资者情绪对交易市场的影响:基于VAR模型的实证分析[J].财经论丛,2015(1):46-54.

[18]石善冲,朱颖楠,赵志刚,等.基于微信文本挖掘的投资者情绪与股票市场表现[J].系统工程理论与实践,2018(6):1404-1412.

[19]GUO K, SUN Y, QIAN X. Can investor sentiment be used to predict the stock price?dynamic analysis based on China stock market[J].Physica A: statistical mechanics and its applications, 2017(469):390-396.

[20]CHEN W,YEO C K,LAU C T, et al.Leveraging social media news to predict stock index movement using RNN-Boost[J].Data and knowledge engineering, 2018(118):14-24.

[21]SUN L,NAJAND M,SHEN J.Stock return predictability and investor sentiment: A high-frequency perspective[J].Journal of Banking and Finance, 2016, 73(7):147-164.

[22]RENAULT T.Intraday online investor sentiment and return patterns in the U.S. stock market[J].Journal of banking and finance,2017, 84(7):25-40.

[23]尹海员,吴兴颖.投资者高频情绪对股票日内收益率的预测作用[J].中国工业经济,2019(8):80-98.

猜你喜欢

投资者情绪股票市场
中国股票市场对外开放进入下半场
货币政策与股票市场流动性的互相关关系研究
货币政策与股票市场流动性的互相关关系研究
我国股票市场的有效性研究
我国股票市场的有效性研究
基于协整的统计套利在中国股票市场的实证研究
基于协整的统计套利在中国股票市场的实证研究
投资者情绪对项目融资型定向增发公告效应影响
投资者情绪短期对股票市场的影响研究
投资者情绪与成交量:基于网络论坛证据的分析