基于深度学习的投资者情绪挖掘及其对股价崩盘风险的影响
2024-03-16尹海员南早红
尹海员 南早红
一、引言
不论是经济高质量发展的内在要求,还是基于我国股市现实状况,以资本市场风险为主的风险防控已成为我国金融工作的重中之重。十八大以来,为维护资本市场的平稳运行,党和政府多次提出要将防范和化解金融风险作为我国经济和金融工作的重要内容,二十大报告中更是提出了“加强和完善现代金融监管,强化金融稳定保障体系,依法将各类金融活动全部纳入监管,守住不发生系统性风险底线”的重要战略部署,这些既为新形势下的金融工作提供了重要指南,也为金融风险防控工作提出了更高标准。纵观历次我国股市的剧烈波动,都真实地反映了股价暴涨暴跌,特别是股价崩盘等极端尾部事件对资本市场健康发展的巨大危害和深刻影响。为防控和缓解金融风险,立足于我国股票市场探讨上市公司股价崩盘风险的成因具有重要现实价值。
近年来围绕股价崩盘风险的研究主要集中于其影响因素的探究。基于“消息隐藏假说”,学者们通过信息披露效应、情绪传染效应来解释股价崩盘风险的形成机制:前者是在投资者对市场上的信息具有快速一致反应的前提下,信息披露数量和质量如何影响股票价格;后者主要从投资者的异质性出发,分析投资者意见分歧和有限理性对于股价崩盘风险的影响。由于我国股票市场起步较晚、市场结构还不成熟,散户特征明显,投资者的心理预期和决策行为对股市运行具有重要影响。一方面,由于个体投资者获取信息的渠道单一,在面临信息不对称的情况下,对股价未来波动趋势难以做出准确预判;另一方面,局限于专业能力,个体投资者更容易出现羊群效应和从众心理等认知偏差,投资者情绪的极端变动可能会引发股价的剧烈波动,进而加剧公司股价崩盘风险。从投资者情绪视角来解释股价崩盘风险的成因,对于稳定股票市场运行、降低市场风险具有一定的参考意义。
越来越多的研究证明市场中情绪会影响股票收益和股价波动,甚至会在长期内使得资产价格偏离其内在价值。尽管相关研究较多,但如何正确有效地度量投资者情绪仍是一个难题。随着文本挖掘技术的广泛应用、财经大数据的积累,互联网文本数据可获得性有了很大提升,研究者开始尝试从媒体报道、公司公告、社交网络等多渠道进行文本挖掘和分析以提取能够反映情绪状态的数据并应用于股市运行研究。目前文本分类所采用的情感分析法主要可以分为基于词典的情感词典法、基于语料库的机器学习法两大类,前者更为简单易用,但高度依赖专用词集的构建;后者分类准确率较高,但很大程度上依赖手工分类构造的特征训练集。近几年来,深度学习作为机器学习的重要分支,采用不同模式的神经网络模型可以减轻对情感词典和特征提取的依赖,在文本分类中的应用越来越广泛。
互联网社区发帖文本中蕴含的情绪倾向是否会影响股价风险?我们选择沪深300指数成分股为对象,爬取了2017年6月1日—2022年5月31日这五年期间的东方财富股吧中样本股票的日度发帖,共获取2 519 050条文本。结合双向长短时记忆网络(Bi-LSTM)和卷积神经网络模型(CNN),我们搭建了LSTM-CNN特征融合模型对股吧文本进行情感分类,计算每条发帖文本的情感值并构建投资者情绪指标,从公司层面来探究投资者情绪对股价崩盘风险的影响效应。进一步地,从公司内部治理环境和外部制度影响两方面,分析投资者情绪对股价崩盘风险影响的异质性,并以股票流动性作为中介变量分析了情绪和股价崩盘风险之间的影响机制。
本文可能的边际贡献体现在如下三个方面:其一,从投资者行为分析的角度丰富了股价崩盘风险成因的相关研究。关于股价崩盘风险的影响因素已有很多研究,但大多从信息披露和企业委托代理关系的视角探索股票价格的风险积聚以及崩盘风险。我们从网络中投资者情绪视角出发,探讨情绪对股价崩盘风险影响的总体效应以及不对称性,同时探讨了股票流动性在投资者情绪影响股价崩盘风险过程中的中介作用,对投资者情绪影响股价崩盘风险的内在理论机制进行分析,拓展了股价崩盘风险成因的研究范畴。其二,搭建了LSTM-CNN特征融合模型,提升了文本情感分类的精确度,扩展了深度学习在金融研究中的应用。近几年学者们将视角逐渐移向多种社交媒体,扩展文本挖掘与情感分析等技术在该领域的应用,但通行方法仍使用半监督机器学习模型,如朴素贝叶斯、支持向量机等。我们优化了文本分类方法,搭建LSTM-CNN特征融合模型,融合了卷积神经网络和双向长短时记忆(Bi-LSTM)模型,利用卷积神经网络提取文本向量的局部特征,利用Bi-LSTM提取与文本上下文相关的全局特征,将两种互补模型提取的特征相结合,解决了单卷积神经网络模型忽略词在上下文语义和语法信息的问题,也有效避免了传统循环神经网络梯度消失或梯度弥散问题。我们的深度学习融合模型提高了文本情感分类的准确度。其三,提升了股价崩盘风险度量指标的频率,在高频视角下,探究投资者情绪和股价崩盘风险关系。目前关于股价崩盘风险的度量仍以年度频率为主,但是投资者情绪的变化波动是短暂迅速的,如果仍使用年度这样的低频数据,会损失大量有效的情绪信息。我们利用个股日度收益率构建月度股价崩盘风险指标,同时爬取股吧文本数据,构建了日度情绪指标,在更高频率的视角下研究情绪对股价崩盘风险的影响。
二、文献综述与研究假设
1.股价崩盘风险及其成因机制。
现有文献对股价崩盘风险的影响因素进行了许多研究,从公司内部因素来看,信息披露质量(曹廷求和张光利,2020[1];赵璨等;2020[2])、信息透明度(江婕等,2021[3])、会计稳健性(Kim和Zhang,2016[4])、企业投资行为(孙亚菲等,2020[5])等都是影响公司股价崩盘风险的重要因素;从公司外部环境来看,机构投资者(Wang等,2020[6])、网络舆情(Li等,2019[7])、投资者信息能力(丁慧等,2018[8])、投资者关注度(江婕等;2020[9])等变量都会显著影响公司股价崩盘风险。实际上,通过对文献搜索整理,可以发现众多股价崩盘风险影响因素可以分为信息披露效应和情绪传染效应两种机制来解释和阐述。
从信息披露机制来看,一般假设投资者信息处理能力是一致的,但公司和投资者之间、投资者彼此之间存在信息不对称(Dai等,2019[10])。公司管理层出于私利,在信息披露时容易采取机会主义行为,故意隐藏坏消息,选择性发布好消息,大量隐藏的坏消息一旦集中释放造成股价骤降,从而引发了股价崩盘(Wang等,2020[6])。沿着这一思路,学者们进一步探究如何降低股价崩盘风险,比如孟庆斌等(2017)[11]发现当披露信息的可读性越强时,加之公司内部治理和外部监督的存在,使得管理层机会主义行为受到限制和约束,会缓解股价崩盘的风险。曹廷求等(2020)[1]发现电话会议是公司信息披露的一个重要途径段,电话会议讨论的内容中包含的公司信息含量越高则对股价风险的缓解作用越明显。Guan和Liu(2022)[12]认为信息透明度较低的公司倾向于具有更积极的年报基调,而年报的积极基调倾向与股价崩盘风险呈正相关关系。也有学者对披露信息的性质做进一步细分,发现信息披露的行为和性质如果有差异,对崩盘风险的影响效应也截然不同。比如Dai(2019)[10]发现信息披露可以明显减低崩盘风险,但由于披露动机不同,只有强制性信息披露才可以影响股价崩盘风险。He等(2022)[13]发现基于传统媒体报道、公司报告的信息披露会有利于降低股价崩盘风险,但是分析师报告所含信息则没有影响。
从情绪传染机制来看,一般认为投资者信息处理能力存在差异,即使面临相同信息集合,仍然存在意见分歧,而这种异质信念是影响股价崩盘风险的主要原因。由于个体投资者的有限理性,在面临海量的信息时,投资者不能完全识别其中的噪音,反而表现出羊群效应、盲目自信等行为偏差,使得非理性情绪在更大的范围内快速扩散。利好消息下情绪高涨,产生市场泡沫,利空消息下悲观情绪蔓延,股价骤降泡沫破碎,股价崩盘出现(Li等,2020[14])。比如江婕等(2020)[9]发现投资者关注度不存在信息路径,反而表现出“关注度的崩盘效应”,即投资者关注度提高了股价同步性和股价崩盘风险。Zhou和Huang(2019)[15]发现投资者过度反应会导致更严重的股价崩盘风险。Cui等(2022)[16]发现正向信息冲击会强化股价崩盘风险,这种影响在投资者过度反应时表现更为剧烈。
也有学者提出以上两种机制同时存在且彼此之间相互作用,比如田高良等(2018)[17]发现投资者情绪对于上市公司自愿性的信息披露行为存在影响,公司关于网络舆情的管理会提高股价信息效率,约束股价崩盘风险。有一些文献则对信息效应和情绪效应的解释力度进行比较,结论不一而足,有研究认为通过信息效应来解释股价崩盘风险的形成更具有说服力(朱孟楠等,2020[18]),也有研究发现情绪效应机制对于股价崩盘风险的形成机制具有一定的解释能力(江婕等,2020[9])。
2.基于网络数据挖掘的投资者情绪及其度量。
如何正确有效地选取科学合理的指标来度量投资者情绪状态一直是学者们不断探讨的焦点话题。早期研究中一般选择多种股票市场交易数据,通过主成分分析法构建代理指标,但这种思路存在逻辑上的悖论:市场交易数据是情绪作用的结果,还是科学地反应情绪状态本身?随着移动通信时代的社交方式的革命性改变,为投资者之间的交流互动提供了更为便利的条件,海量实时更新的网络数据承载着大众即时的真情实感。自然语言处理与网络爬虫技术的发展,也帮助研究者可以通过文本分析技术构建更为真实准确的情绪指标(Li等,2020[14])。
投资者网络社交的多样化丰富了度量投资者情绪的文本信息,现有较为常见的文本数据可以分为两类:以股吧为代表的股票互动社区、以微博/微信/推特等为代表的社交平台。在股票互动社区中,投资者可以发表股票走势和市场走向预期和看法,投资者也可以阅读其他投资者的观点,加之文本挖掘相对容易,所以现有很多研究基本上以股吧社区(部慧等,2018[19])、“上证e互动”和“深证互动易”互动平台(孟庆斌等,2019[20])作为文本信息来源。以微博/微信/推特等为代表的社交平台来看,随着移动互联技术发展,网络社交平台的出现进一步简化和便利了投资者之间的交流,情绪的传播范围得到了更大范围的拓展(Alnasseri等,2021[21])。但与股票社区的“去中心化”模式不同,社交平台中的微信公众号、微博大V博主的观点更容易成为在线信息传播的重要节点,普通投资者的互动和反馈相对不足。
经过数据挖掘后形成的文本信息大多是非结构化数据,需要进一步经过情感分析技术获取可以量化投资者情绪的指标。目前主流情感分析技术方法主要有基于情感词典的分析技术和基于语料库的分析技术两类。前者主要通过构建相应情感词典法对文本进行分析,但对于词典的强依赖性要求情感分析中要使用“恰到好处”的词典,使得其适用性不足;后者主要包括半监督的机器学习和无监督的机器学习,半监督的机器学习方法主要集中在朴素贝叶斯(NB) (尹海员和寇文娟,2021[22];Shen等,2021[23])和支持向量机(SVM)(戴德宝等,2019[24]),其模型准确度与人工提取的文本特征密切相关。近年来,无监督的深度学习分支成为前沿研究趋势,有些文献发现不同类型的神经网络模型对文本进行情感分析和股价预测,模型分类和预测的准确度都优于词典法(Jing等,2021[25];Wu等,2021[26]),甚至能精准刻画投资者情绪与股价运行间的非线性关系(Zhang等,2021[27])。与其他方法相比,深度机器学习的方法大大减少了对人工构造特征和情感词典的依赖,更适用于网络大数据的自然语言处理和分析。其中卷积神经网络模型(CNN)以及长短期记忆神经网络模型(LSTM)已经在计算机科学领域得到广泛应用。
3.股价崩盘风险的情绪因素。
目前投资者情绪对于股市运行的影响研究大致集中在收益、效率和风险这三个维度:在股票收益维度,主要关注于投资者情绪如何影响市场整体以及个股收益率,两者之间关系基本形成了统一的认知,即投资者情绪是影响股票收益率的一个重要因素;在股市效率维度,研究者发现情绪会对流动性产生影响(Debata等,2018[28]),并改变资本市场的信息效率,进而会影响股价中的信息含量(田高良等,2018[17]);在股市风险维度,大多集中于研究投资者情绪对市场波动性(Zhang等,2021[27])、公司特质风险(尹海员和寇文娟,2021[22])和股价泡沫(罗衎等,2018[29])等因素的影响。
关于情绪如何影响股价崩盘风险,现有文献主要从媒体情绪和公司情绪两个视角进行研究,部分研究涉及投资者情绪,但往往将投资者情绪作为中介变量,在情绪指标度量上也采用简单的代理指标。媒体情绪方面,媒体事实上扮演着“信息供给”与“情绪干预”两种角色,多数文献从信息效应和情绪效应两种途径出发,考虑媒体情绪对于股价风险的影响。有学者认为媒体情绪在充当信息供给的重要角色的同时,也引导市场上投资者的心理预期,通过影响投资者情绪的途径作用于股价风险(Zhu等,2017[30];张宗新和吴钊颖,2020[31])。也有研究发现媒体情绪对于股价风险的影响只能从信息效应来解释,媒体信息可以为缓解信息不对称,也可以从外部监督公司治理和信息披露质量。但媒体情绪也容易被企业所影响和操纵,当媒体表现出对公司有利的媒体基调时,会加剧管理者的机会主义行为,进一步加剧股价风险(Li等,2019[7])。公司情绪方面,主要集中在管理者语气、公司报告语调等方面。比如孟庆斌等(2019)[20]通过分析互动平台沟通与股价崩盘风险之间的关系,发现董秘回复语气对于股价崩盘风险没有实质性影响。周波等(2019)[32]发现公司报告的正面语调与股价崩盘风险呈现正相关关系,而且这种报告语调的真实度越高则会减弱两者之间的正相关关系。
投资者情绪对股价运行影响效应的相关文献日渐增多,但关于投资者情绪如何影响股价崩盘风险以及其内在机制仍需要进一步探索。另一方面,从在线网络文本中提取投资者真情实感已经成为研究主流,但所用模型各异,造成研究结论不尽相同。更为科学的深度学习神经网络在文本情感分类的应用仍是前沿研究课题。
4.研究假设的提出。
个体投资者在投资决策中更容易出现明显的情绪化倾向,高涨的乐观情绪不断推高股价,迫使股票价格偏离其内在价值,降低了股票未来收益率。同时,根据锚定效应和羊群效应理论,投资者情绪对于股价的影响也表现出不对称,乐观情绪对于股价上涨的影响大于悲观情绪对于股价下跌的影响,比如Chen和Haga(2021)[33]发现股市中的散户在乐观状态下的羊群效应要比在悲观状态下的羊群效应更为明显。这一不对称效应则会导致当市场出现利好消息时,投资者情绪看涨,噪音交易者成为市场交易的主体,进一步加大股价泡沫。当私人信息还只存在于信息传递者时,动量交易者没有意识到潜在的风险,即使面对负面消息仍然保持对未来股价的乐观估计并进一步追涨,加剧了股价崩盘风险。据此提出假设1:
H1:投资者情绪对未来股价崩盘风险有正向的影响,即当期投资者情绪比较乐观时股价更易被高估,未来股价崩盘风险将会加剧。
要想更深入分析情绪与股价崩盘之间的关系,必须要考虑不同市场环境下,情绪对股价崩盘风险影响的差异性。已有很多研究发现处于不同市场环境中,投资者情绪状态以及相应的非理性行为特征对股票市场的影响也不相同。比如Wang等(2021)[34]发现乐观情绪和悲观情绪对于股价收益的影响是不对称的,乐观情绪对收益率的影响更为明显。Kumari(2019)[35]也发现在牛市环境下,投资者情绪对股票流动性的影响效应更强。一般认为,投资者对于股价消息的反应存在不对称性,即投资者在悲观情绪下面对消息的反应比乐观情绪下面对利好消息的反应更为剧烈。这一规律反映到真实市场中,表现为投资者在熊市环境下,情绪在公司负面消息集中释放后出现过度悲观的反应,而后再对负面消息进一步产生更为悲观的看法,由此形成恶性循环。因此,在熊市状态下,投资者情绪和股价之间存在的双向的反馈机制更为显著,导致熊市状态下投资者情绪弥漫会进一步放大股价崩盘风险。由此我们提出假设2:
H2:不同市场环境下,投资者情绪对股价崩盘风险的影响表现出不对称性,在市场处于熊市时,情绪对于股价崩盘风险的影响效应更为剧烈。
关于股价崩盘风险,多数研究认为是大量“坏消息”短时间内集中释放所导致的。一般来说,上市公司所隐藏的坏消息源自管理层的机会主义行为,公司内部控制和治理能力的欠缺,往往会导致管理者为了自身利益和业绩而选择性披露好消息或者故意美化信息(Zhu等,2017[30]),加重了投资者和管理者之间的信息不对称。所以从公司内部治理环境来看,内部治理水平的改善会大大打击管理者的机会主义冲动,降低管理人员的短视行为,提升了公司信息透明度,进而缓解了投资者情绪对股价崩盘风险的冲击。
此外,影响企业股价崩盘风险的因素也涉及上市公司所面临的外部制度环境。上市公司所处地区不仅存在经济发展不平衡的问题,其制度环境也不尽相同。外部制度环境的差异会影响投资者信息获取成本和套利限制。当外部制度环境较差时,投资者面临的套利限制更严格,交易成本更高,容易引发更多非理性交易行为,如果叠加较弱的投资者保护水平,更容易催化未来的股价崩盘风险。另外,外部制度约束的欠缺更容易诱发机构投资者和公司管理者之间的关联交易和股价操纵行为,加剧股价崩盘的可能性。由此我们提出假设3a和假设3b:
H3a:公司内部治理环境越差,投资者情绪对股价崩盘风险的影响越大。
H3b:公司外部制度环境越差,投资者情绪对股价崩盘风险的影响越大。
很多学者认为投资者情绪显著作用于流动性,投资者非理性行为是引起市场流动性的重要原因。情绪会因为股票预期不确定以及短期投机两方面的原因作用于股票流动性:一方面,由于对股票的未来收益持有不同看法,且个体投资者信息来源匮乏,很容易累积非理性的决策行为,导致股票流动性出现大幅度波动;另一方面,部分投资者出于短期投机的目的,会在短时间内大量买入或者卖出股票,使得股票流动性水平发生变化。但关于情绪如何具体影响流动性目前还存在一定的观点分歧。Debata等(2019)[28]为投资者情绪正向影响股票流动性提供了实证,认为乐观或悲观情绪会影响其投资买卖行为进而影响股票的流动水平,当投资者情绪越乐观时,会正向促进股票的流动性。但尹海员和华亦朴(2018)[36]发现信息披露程度会影响情绪和流动性的关系,在不完全信息环境下,投资者情绪会负向影响流动性,乐观情绪对股票流动性具有抑制作用。另外,研究者发现较高的流动性有助于降低股价崩盘风险(熊家财,2015[37]),一方面,流动性水平高的股票交易成本较低,能够促进股东对公司治理的监管,进而抑制了管理层的机会主义动机,减少负面消息的积累,股价崩盘风险就会减弱;另一方面,较高的流动性会增加私人信息价值,信息不对称程度降低,进而抑制了股价崩盘发生的概率。基于以上分析,我们猜想情绪越乐观时,出于对股票收益的乐观估计,投资者会继续持有股票,但由于信息不对称的原因,投资者谨慎心理可能会使股票流动性水平下降,进一步加剧未来股价崩盘风险。由此我们提出假设4:
H4:投资者情绪与股票流动性水平呈负向相关性,乐观情绪越高涨则流动性水平降低,加剧了未来股价崩盘风险,股票流动性是投资者情绪影响股价崩盘风险的中介变量。
三、研究设计
1.样本选择和数据来源。
本文选择了2017年6月1日—2022年5月31日期间的沪深300指数成分股为研究对象,并对全样本进行了如下剔除:(1)剔除ST类、ST*类、金融类上市公司;(2)剔除部分存在数据缺失的公司样本;(3)本文实证中所用的日度特有收益率指标,是在扩展的指数模型回归残差的基础上获得,为保证指数模型有效性,剔除了月度有效日收益率数据不足10个的公司样本;(4)剔除了东方财富股吧论坛上显示的投资者发布的帖子时间不到2017年6月的公司样本。最终我们获得174家样本公司股票,共9 840个月度样本观测值。股票交易与财务数据均来源于锐思数据库和国泰安数据库,我们对同一变量指标利用两个数据库进行了交叉验证,并对连续变量进行了上下1%的Winsorize缩尾处理。
我们构建投资者情绪指标所需文本皆来自东方财富股吧。国内主要财经网站中,该股吧不论是从百度权重、Alexa排名,还是反向链数、关键词数等指标都多年排名第一,其影响力、用户数量和活力方面在国内具有很好的代表性。数据挖掘过程如下:第一步,使用Python的网络爬虫对174家样本股票各自股吧网页进行抓取,所得每条文本内容都包括发帖网址、发帖人、标题、评论数、阅读数以及发帖时间,共获得发帖文本25 190 500条。第二步,因为初步爬虫所得的文本具有很多干扰信息,所以需要对所得的文本进行预处理。首先通过Excel对股吧文本中的无效帖子和重复帖子等进行删除,其中无效帖子包括空白帖、广告、外部链接、杂乱符号等。其次采用Python中的JIEBA库对股吧文本进行分词处理,同时根据正则表达式和停用词表去除帖子中的英文字母、标点符号和停用词,最终得到22 921 007条发帖文本。第三步,在情感分析之前,对文本进行序列化处理,将文本转化为向量。
2.LSTM-CNN模型构建。
神经网络作为深度学习的重要分支之一,其中的卷积神经网络(CNN)和循环神经网络(RNN)目前在自然语言处理上得到广泛应用。但由于自然语言在结构上存在着前后依赖关系,仅依靠卷积神经网络实现文本分类将忽略词的上下文含义,而传统循环神经网络存在梯度消失或梯度爆炸问题。为此,我们搭建了一种卷积神经网络(CNN)和双向长短时记忆神经网络(Bi-LSTM)特征融合的模型LSTM-CNN。这一特征融合模型既可以利用卷积神经网络提取文本向量的局部特征,也可以利用双向长短时记忆神经网络提取与上下文相关的全局特征。我们使用LSTM-CNN模型提取文本情感特征,利用Softmax函数进行情感分类并根据分类结果构建情绪指数,实现思路如下:
首先,输入层经过embedding层,输入的数据reshape成LSTM处理的类型,LSTM得到新的输入后,借助sigmoid激活函数确定需要保持与丢弃的,当数据乘1时则代表被保留,数据乘0时则代表被遗忘,从输入门中获取的数据即为我们更新了状态,借助输出门确定携带的信息,将新的状态以及隐藏状态转移到下个时间步。
其次,输入值经过Bi-LSTM处理后,需要将输出门数据进一步reshape为卷积神经网络模型处理的类型,将LSTM模型的输出值作为卷积神经模型(CNN)的输入值,由卷积神经网络模型处理。卷积神经网络由卷积层和池化层交替叠加而成,在每个卷积层与池化层之间都有relu激活函数作用来加速模型的收敛,所有特征融合后得到卷积神经网络的特征描述。
最后,将经过LSTM-CNN模型处理的输出结果输入到全链接层。全链接层中Softmax函数的计算结果为该文本属于某一类别的概率值,进而可以通过全链接层输出值的大小来判断所属类别。具体见图1所示。
3.投资者情绪指标。
为训练深度学习模型,需要将人工标记好的样本作为训练数据集。为此我们从待处理文本中随机选取10 000条文本内容,邀请10名金融专业教师进行人工标注,人工将这些帖子分为“积极”“中性”“消极”,使得每条帖子至少有两人进行标注。若两人标注结果不一致,则邀请第三位进行标注,将三次标注结果的多数作为该条文本标签。最终训练集样本中,有积极情绪文本3 042条、中性文本3 578条、消极情绪文本3 380条。接着,将训练集样本随机划分为训练集和测试集,用训练集来训练模型,用测试集检验训练好的模型的准确率,结果显示模型准确率达到74.9%。
我们用训练好的模型预测剩余所有文本的情感倾向,在此基础上构建了三类投资者情绪指标:
首先是基于看涨程度的简单情绪指标,见公式(1):
(1)
公式(1)中,Mtpos和Mtneg分别表示时间t内积极情绪发帖总数和消极情绪发帖总数,Se介于[-1,1],表达了投资者相对看涨的程度。
其次,股吧中发帖的阅读数、评论数反映了发帖的传播程度和影响力,也会影响阅读者的情绪倾向进而形成更趋一致的意见环,考虑这一点我们构建公式(2)的投资者情绪指标Se1:
(2)
公式(2)中权重Rt为时间t内该帖子的阅读总量,其余指标与公式(1)一致。
最后,指标Se计算过程中并未考虑中性帖子数量,但情绪中性的发帖也是投资者关注的一种表现,至少在某种程度上代表了投资者意见的活跃程度,即使投资者表达的是中性预期,也是有价值的。鉴于此我们构建指标Se2,如公式(3)所示:
Se2=Se×ln(1+Mt)
(3)
公式(3)中,Mt=Mtpos+Mtneg+Mtneu,Mtneu为情绪中性发帖总数。后续实证中我们用指标Se和Se1进行基准回归检验,指标Se2用于替换解释变量的稳健性检验。
4.股价崩盘风险指标。
股价崩盘风险的度量主要有年样本法(Xu等,2021[38])和月样本法(丁慧等,2018[8]):年样本法利用股票周收益率数据计算经过市场调整后的收益率,采用市场调整后个股周收益率负偏度、涨跌波动比刻画股价崩盘风险,其值越大代表崩盘风险越大;月样本法将股价崩盘定义为极大的负值,假定股票收益率服从正态分布,然后定义虚拟变量来刻画是否有股价崩盘发生的潜在可能。
但关于股价崩盘风险如何度量仍存在一些争议。股价崩盘风险的度量需要根据研究变量的时间频率来确定数据频率,董永琦等(2020)[39]分别使用周收益率和日收益率进行了对比,提出更高频的数据由于时滞因素,导致日度频率的测量指标在量化股价崩盘风险方面失效。相反,孟庆斌等(2017)[11]认为低频数据平滑了日度数据的高波动性,降低了股价崩盘风险测度的时效性。就投资者情绪而言,通过网络文本挖掘完全可以获得日度的情绪指标,为了更精准地进行实证检验,我们利用样本股的日数据,计算月度市场收益负偏度(NCSKEW)和涨跌波动比(DUVOL),具体方法如下:
首先,提取个股收益率中的特质收益率,即将个股的日度收益率作为被解释变量,市场日收益率及二期提前项和滞后项作为解释变量,回归后提取残差值,如公式(4):
ri,t=∂i+β1,irm,t-2+β2,irm,t-1+β3,irm,t+β4,irm,t+1+β5,irm,t+2+εi,t
(4)
公式(4)中,ri,t为股票i在t日的考虑现金红利再投资收益率,rm,t为市场流通市值加权收益率,定义Ii,t=ln(1+εi,t)为股票i在t日的日特质收益率。
其次,根据所得的个股日特质收益率Ii,t,使用公式(5)、公式(6)计算月度市场收益负偏度(NCSKEW)、涨跌波动比(DUVOL):
(5)
(6)
公式(5)中,n为股票i在j月的交易天数。NCSKEW越大则股价崩盘风险越大;公式(6)中,nup和ndown分别为股票i在j月中价格上涨和下跌的交易日数,日特有收益率大于其均值时则视为股价上涨。DUVOL的数值越大,表明股价崩盘风险越大。
同时,我们也选择特有收益极端负值(Crash)来衡量股价崩盘风险,用于后续稳健性检验,特有收益极端负值(Crash)的计算见公式(7):
(7)
5.控制变量。
本文选取以下控制变量:个股的平均日收益率,即个股日公司特有收益率的均值;个股日度收益标准差,反映个股股价波动程度;资产负债率,使用滞后一期上市公司负债总额和资产总额的比值,该指标反映了公司的偿债能力;总资产收益率,使用滞后一期上市公司净利润和总资产的比值,反映公司的盈利能力;市净率,上市公司每股价格与每股净收益之间的比值;换手率变化比率,股票当期换手率与前期换手率的差值与前期换手率的比值。此外,我们引入了虚拟变量控制行业和年份固定效应。本文主要变量说明见表1。
表1 主要变量名称与释义
6.基础回归模型。
我们建立了以下非平衡双向固定效应模型:
Crashriski,t=α0+β1Sentimenti,t-1+β2∑Controli,t-1+it+iy+εi,t
(8)
公式(8)中,Crashriski,t表示股价崩盘风险,我们分别使用条件收益负偏度(NCSKEW)和涨跌波动比(DUVOL)进行度量;Sentimenti,t-1表示滞后一期的投资者情绪;Control表示本文上述提到控制变量;我们还利用虚拟变量分别控制了行业(it)和年份(iy)效应。
四、实证分析与结果讨论
1.描述性和相关性分析。
表2报告了主要变量描述性统计结果,样本股票的条件收益负偏度(NCSKEW)和涨跌波动比(DUVOL)的均值分别为-0.168和-0.170,标准差为1.525和1.385;投资者情绪方面,Se、Se1和Se2的均值分别为-0.185、-0.396和-1.129,说明东方财富股票论坛在研究时间段内总体情绪偏向消极,从最大值和最小值看,不同时期投资者情绪差异较大;Se2的极差为9.226,表明投资者极易出现极端情绪;第9列和第11列展示了各变量的正态性检验和平稳性检验的结果,JB统计值普遍较大,不服从正态分布,IPS值的P值都小于0,表示所有变量均为平稳序列。
表3列示了主要解释变量和被解释变量间的相关系数,条件收益负偏度(NCSKEW)和涨跌波动比(DUVOL)之间相关系数为0.940和0.925,支持两者可以进行交叉验证;投资者情绪和股价崩盘风险的相关系数均在1%的显著性水平上显著为正;在控制变量方面,资产负债率(Lev)、市净率(PB)和股价崩盘风险指标显著正相关,而资产收益率(ROA)、换手率变化比(Dexch)与股价崩盘风险显著负相关。为防止多重共线性影响,我们进一步计算各个变量的方差膨胀因子(VIF),所有自变量的方差膨胀因子都小于10,最大值为2.16,排除了多重共线性的潜在干扰。
表2 主要变量描述性统计
表3 主要变量间相关系数
2.投资者情绪对股价崩盘风险影响以及不同市场环境的异质性。
表4报告了基于社交网络的投资者情绪对股价崩盘风险指标的基础回归结果,列(1)~列(4)为未加入控制变量的结果,两种投资者情绪变量系数值都在1%的显著性水平上为正。列(5)~列(8)加入了控制变量,其中列(5)、列(6)是以条件收益负偏度(NCSKEW)为股价崩盘风险衡量指标进行回归,投资者情绪Se和Se1回归系数为0.310和0.124,两者均在5%的显著性水平上为正;列(7)和列(8)是以涨跌波动比(DUVOL)作为被解释变量,Se和Se1回归系数分别为0.276和0.106,两者也在5%的显著性水平上为显著为正。表4结果表明投资者情绪与下一期股价崩盘风险之间存在着显著的正向关系,投资者情绪的高涨会加剧未来股价的不确定性进而导致股价崩盘风险加剧,验证了假设1。
控制变量方面,特有收益率均值(Ret)和与股价崩盘风险在1%的显著性水平上显著正相关,特质收益率越高则更容易吸引短期交易,股价崩盘风险加剧,这与孙亚菲等(2020)[5]的结论相同;资产收益率(ROA)与股价崩盘风险在10%的显著性水平上显著负相关,说明当公司资产收益率越高则股价崩盘风险就越低;换手率变化比(Dexch)与股价崩盘风险之间显著正相关;市净率(PB)与股价崩盘风险之间在1%的显著性水平上正相关。
表4 投资者情绪对股价崩盘风险的影响
进一步地,我们将样本时间段划分为牛市和熊市,分别检验不同市场环境状态下基于股吧平台的投资者情绪对股价崩盘风险的影响效应是否存在差异。具体操作上,首先需要对股票设定一个单向运行周期,我们将单向运行周期取值为5,将研究时间段划分为多个子区间;其次在每个子区间内寻找波峰和波谷,依次连接波峰和波谷则将样本划分为牛市和熊市。在此过程中:(1)波峰和波谷要求交替出现,若连续出现两个波峰,则舍弃掉较小的波峰;若连续出现两个波谷,则舍弃较大的波谷。(2)若牛市或熊市单程周期不超过4个月,则股市逆转前后股价变动幅度必须要大于20%。(3)不包括序列端点附近股价水平低于端点处的波峰,以及序列端点附近股价水平高于端点处的波谷。最终划分结果为:牛市区间为2017年6月至2018年6月、2019年1月至2019年3月、2020年4月至2021年12月,熊市区间为2018年6月至2018年12月、2019年4月至2020年3月、2022年1月至2022年5月。
表5报告了牛熊市不同市场环境下,投资者情绪对股价崩盘风险的影响效应。当条件收益负偏度(NCSKEW)作为被解释变量时,在牛市中投资者情绪Se和Se1前的系数值分别为0.314和0.149,在10%的显著性水平上显著;而在熊市状态下,投资者情绪Se和Se1前的系数值分别为0.745和0.331,且都在1%的显著性水平上显著,系数值和显著性都有所提高。当用涨跌波动比(DUVOL)来衡量股价崩盘风险时,熊市中投资者情绪指标Se和Se1前的系数值分别为0.619和0.273,均在1%的显著性水平下显著为正,显著性水平和系数值都比牛市状态下高。投资者情绪对股价崩盘风险的影响效应在不同的市场环境中表现出明显的非对称性,熊市环境中的影响效应更为显著,假设2得到验证。
表5 牛熊市不同环境下投资者情绪对股价崩盘风险的非对称性分析
3.内生性检验:工具变量法。
表6 工具变量回归结果
4.内生性检验:倾向得分匹配法(PSM)。
为排除样本选择带来的内生性问题,我们使用倾向评分匹配法(PSM)进行内生性检验。首先,在全样本中将投资者情绪Se(Se1)进行排序,将大于70%分位数的样本作为实验组,小于30%分位数的样本作为控制组。将控制变量资产负债率(LEV)、市净率(PB)、总资产收益率(ROA)、换手率变化(Dexch)作为倾向匹配得分的特征变量,利用Logit模型计算投资者情绪,基于回归结果计算样本公司的倾向得分,最后采用一对一最近邻法为匹配标准进行匹配。匹配后实验组和控制组的平均处理效应(ATT)如表7所示。从结果可以看出,Se、Se1对条件收益负偏度(NCSKEW)和涨跌波动比(DUVOL)的PSM检验平均处理效应(ATT)的t值均大于1.68,都在1%的显著性水平上显著为正,这说明投资者情绪与股价崩盘风险呈显著的正相关关系。
表7 全过程PSM检验结果
5.内生性检验:DID检验。
我们继续使用双重差分模型(DID)做检验,以控制可能存在的变量遗漏和偶然性因素。双重差分模型要求将样本在时间序列维度和截面维度上进行划分,时间维度上,我们将新冠病毒感染疫情暴发的时间点(2019年12月)作为节点,设置时间虚拟变量period,将疫情暴发后的时间赋值为1,疫情前的时间赋值为0;在个体维度上,根据公司产权性质,设置个体虚拟变量treat,如果是国有企业则赋值为1,非国有企业赋值为0;同时设置虚拟变量Did代表虚拟变量period和treat的交互项,建立DID模型进行检验。结果如表8所示。从表中可以看出交互项Did的系数值在1%的显著性水平上显著为负,表明国有企业和非国有企业中投资者情绪对股价崩盘风险的影响在新冠疫情前后有显著的差异。其中交互项系数为负,原因可能在于我国股票市场中,国有企业相比于非国有企业股价更为稳定。受到疫情的影响,投资者出于谨慎的心理,更倾向于选择持有国有上市公司股票,所以投资者情绪对股价崩盘风险的影响在疫情发生后会降低。
为进一步分析疫情前后,投资者情绪对股价崩盘风险的影响效应在不同产权性质的样本之间的差异,本文选取疫情暴发点作为节点进行平行趋势检验。结果如图2所示,其中(a)表示被解释变量为条件收益负偏度(NCSKEW),(b)表示被解释变量为涨跌波动比(DUVOL)。平行趋势检验结果都显示,不论被解释变量是条件收益负偏度还是涨跌波动比,新冠疫情暴发前,非国有企业中投资者情绪对股价崩盘风险影响更为明显。但疫情暴发后,情绪对股价崩盘风险的影响在国有企业中更为明显,两者趋势出现明显不同,结果和前面DID检验结果一致。
表8 DID检验结果
6.稳健性检验:变量替换。
我们分别使用根据公式(7)计算的特有收益极端负值(Crash)替换条件收益负偏度(NSCKEW)和涨跌波动比(DUVOL),表9中列(1)和列(2)报告了替换被解释变量的回归结果。从结果可以发现投资者情绪Se、Se1回归系数分别为0.030和0.014,都在1%的显著性水平上显著为正,这与前文的基础回归结果一致。其次,采用前文公式(3)计算所得的投资者情绪指标Se2代替基础回归中情绪指标Se和Se1。表9中列(3)和列(4)报告了回归结果,可以看出Se2对NSCKEW和DUVOL的系数值分别为0.034和0.033且在5%的显著性水平上显著为正,表明基础回归结论具有稳健性。
表9 替换变量的回归结果
7.稳健性检验:安慰剂检验。
尽管我们在实证模型中加入了控制变量,但仍然可能存在遗漏变量问题。因此我们使用安慰剂检验,探讨被解释变量是否受其他随机因素的影响。首先,打乱样本股的投资者情绪Se(Se1)数据,将投资者情绪数据随机赋给样本股票;其次,将随机赋给样本个股的投资者情绪分别对条件收益负偏度、涨跌波动比进行回归;最后,将上述步骤重复500次,并将500次回归结果中投资者情绪系数的t值统计出来,绘制出相应的被解释变量下虚拟投资者情绪回归系数和P值的核密度分布图,与基准回归结果中投资者情绪Se(Se1)回归系数和P值进行对比。
图3和图4分别是不同被解释变量下安慰剂检验结果的核密度图,图中竖虚线表示基础回归结果中投资者情绪的回归系数值,横虚线表示10%显著性水平,横轴表示虚拟投资者情绪的估计系数,纵轴表示投资者情绪估计系数对应的P值大小。从图中可以看出,不论被解释变量为条件收益负偏度(NSCKEW)和涨跌波动比(DUVOL),虚拟投资者情绪的估计系数值都围绕在0附近呈现正态分布,皆小于基础回归中情绪的系数值。从P值来看,虚拟投资者情绪回归所得的估计系数值对应的P值大部分处在10%显著性水平线上,大部分都不显著。这证明本文实证结果不是偶然因素引起的,情绪对股价崩盘风险的影响效应比较稳健,也排除了遗漏变量的影响。
图3 投资者情绪对NCSKEW的安慰剂检验结果
图4 投资者情绪对DUVOL的安慰剂检验结果
五、拓展研究:异质性与中介效应检验
1.内部治理环境:公司规模差异的异质性表现。
一般来说,规模较大的企业内部治理结构较为完善,公司内部控制和治理能力也较强,可以更好地规避和防范风险。我们根据样本公司规模中位数对样本进行划分,将大于中位数的样本股定义为大规模组,反之为小规模组。我们分别使用加入交互项和分组回归两种方法进行检验,结果如表10所示。其中,列(1)和列(2)是引入交互项的回归结果,列(3)~列(6)是分组回归的结果。可以看出,交互项系数显著为负,分组回归结果也发现小规模组的情绪系数值大于规模较大的系数值,且都在5%的显著性水平上显著为正。这说明投资者情绪对股价崩盘风险的影响效应在小规模公司样本中更大,验证了假设3a。
表10 不同公司规模下回归结果
2.内部治理环境:股权集中度差异的异质性表现。
从委托代理角度来看,当公司股权分布较为分散时,由于没有强势股东的约束,管理者可能会存在机会主义行为,通过“捂盘”或者夸大利好消息,刻意隐藏和美化公司运行的真实财务状况,增加了股价崩盘风险。我们利用样本公司第一大股东持股比例来衡量股权集中度,根据其均值进行划分,第一大股东持股比例大于其均值为高股权集中度样本,反之则为低股权集中度样本。表11报告了不同股权集中度水平下引入交互项和分组回归的回归结果。从列(1)和列(2)可以看出,当被解释变量为涨跌波动比时(DUVOL),交互项系数在10%的显著性水平上显著为负;观察列(3)和列(5),上市公司股权集中度低时,投资者情绪的系数值大于集中度高时的系数值,且在1%的显著性水平上显著。以上结果说明,与高股权集中度的公司相比,情绪对于股价崩盘风险的影响在低股权集中度的公司更为明显,验证了假设3a。
表11 不同股权集中度的回归结果
3.外部制度环境:卖空限制差异的异质性表现。
在股票价格被高估的情况下,卖空限制越大,股价会损失更多的特质信息,更易同涨共跌(杨棉之等,2020[40]),同时负面消息融入股价的速度更为迟缓(孟庆斌等,2017[11]),从而加剧了股价崩盘风险。当公司的机构投资者持股比例较小时,卖空交易者进行卖空交易的可能性和规模越小,卖空限制越严格,所以本文利用机构投资者持股比例来衡量卖空限制程度,机构投资者持股比例越大,卖空限制越小。以样本股票的机构投资者持股比例的均值作为节点,将大于均值的样本划分为高机构持股比例组(卖空限制小),反之则为低机构投资者持股比例组(卖空限制大),进行分组回归检验,同时引入交互项来讨论投资者情绪对股价崩盘风险影响的异质性。
表12报告了引入交互项和分组回归的结果,其中列(1)和列(2)为引入交互项的结果,情绪Se前的系数值在1%的显著性水平上显著为正,交互项前的系数在1%的显著性水平上显著为负。从分组回归的结果来看,将列(3)和列(5)、列(4)和列(6)进行对比,发现当被解释变量为涨跌波动比(DUVOL)时,投资者情绪Se前的系数值在1%的显著性水平上显著为正,但是卖空限制大的样本组系数值明显大于卖空限制小的系数值。这表明上市公司卖空限制越严格,投资者情绪对股价崩盘风险的影响更显著,验证了假设3b。
表12 不同卖空制度下的回归结果
4.外部制度环境:市场化水平差异的异质性表现。
我们选取上市公司注册地所在省份的市场化指数来衡量外部制度环境。当上市公司所在地的市场化水平较高时,外部治理水平提升,促使企业及时披露信息,投资者信息搜集成本降低,有助于提升股价信息含量。我们所使用的市场化指数来自中国分省份市场化指数数据库,根据公司所在地的市场化指数的中位数进行划分,高于其中位数为高市场化水平组,反之则为低市场化水平组。表13展示了不同市场化水平下引入交互项和分组回归的结果,其中列(1)和列(2)为引入交互项的结果,交互项前的系数显著为负;分组回归结果也表明,市场化水平低的样本组系数值显著大于市场化水平高的系数值。可以看出,情绪对股价崩盘风险的正向影响效应在市场化水平较低的上市公司中更为明显,验证了假设3b。
表13 不同市场化水平下的回归结果
5.中介效应检验:流动性的中介作用。
我们使用Amihud的非流动性指标来衡量股票流动性水平,当非流动性比率越高时,股票流动性越低,具体如公式(10)所示:
ILLi,t=|Ri,t|/Voli,t
(10)
公式(10)中,Ri,t为股票的月收益率,Voli,t为股票的月交易金额。我们参考温忠麟和叶宝娟(2014)[41]的做法,通过逐步回归法,建立如下面板数据中介效应模型进行验证:
D=α0+cSe+β0C+γ0
(11)
M=α1+aSe+β1C+γ1
(12)
D=α2+c1Se+bM+β2C+γ2
(13)
公式(11)、(12)和(13)中,D代表被解释变量条件收益负偏度(NCSKEW)和涨跌波动比(DUVOL);M代表中介变量股票流动性,用非流动性比率来衡量。公式(11)中系数c表示投资者情绪对股价崩盘风险的总效用,公式(13)中的系数c1则为情绪对股价崩盘风险的直接效应,系数a和b的乘积表示情绪对崩盘风险的间接效应。
中介效应回归检验结果如表14所示。由列(1)可知,投资者情绪(Se)和非流动性比率(ILL)之间系数值为0.012,在1%的显著性水平上显著为正,表明投资者情绪与股票流动性之间存在负向的影响,当投资者情绪越乐观时,股票流动性反而会降低。对比列(2)、(4)和列(3)、(5)的结果,发现在没有加入中介变量时,投资者情绪对股价崩盘风险存在显著的正向的影响;在加入中介变量后,非流动性比率(ILL)前的系数在10%的显著性水平上显著为正,表明股票流动性的下降会加剧上市公司未来股价崩盘的风险,同时投资者情绪的回归系数值仍在1%的显著性水平上显著为正,且系数值明显变小。上述结果表明投资者情绪以股票流动性为中介正向影响上市公司的股价崩盘风险,当投资者情绪看涨时,会降低股票的流动性进而加强了情绪对股价崩盘风险的正向影响效应。通过Sobel检验所得的Sobel、Good1及Good2的值均大于1.68,显著拒绝了不存在中介效应的原假设。列(6)和列(7)展示了股票流动性的中介效应的稳健性检验结果,发现替换被解释变量后,所得结果一致。
表14 股票流动性的中介效应回归结果
六、研究总结
本文爬取了东方财富股吧中沪深300指数成分股2017年6月1日—2022年5月31日的日度发帖文本,搭建了融合卷积神经网络和双向长短时记忆神经网络的深度学习模型,对发帖文本进行情绪倾向识别,并构建投资者情绪指标以探究其对于股价崩盘风险的影响效应和机制。研究发现:(1)投资者情绪显著正向影响股价崩盘风险,当期投资者情绪越乐观,未来股价崩盘风险越大。(2)投资者情绪对股价崩盘风险的影响和作用表现出不对称,相比于牛市环境,熊市中的投资者的情绪状态对股价崩盘风险的影响效应更为突出。(3)从公司内部治理环境角度看,投资者情绪对股价崩盘风险的影响效应在规模较小、集中度低的样本公司中更为明显;从公司所处外部制度环境角度看,投资者情绪对股价崩盘风险的影响效应在卖空限制大、所在地市场化水平低的样本公司中更为显著。(4)股票流动性在投资者情绪影响股价崩盘风险过程中存在部分中介效应,更为高涨的投资者情绪会导致股票流动性水平下降,进而加剧了情绪对股价崩盘风险的影响效应。
本文结论从理论层面丰富了对上市公司股价崩盘风险影响因素的认识,对股票市场中的各方主体有一定的启示。对监管者来说,一方面要注重利用互联网信息进行风险预警,通过投资者情绪的关注与预警帮助防范股价崩盘风险;另一方面,监管者也可以通过监督和管理股吧社区等社交媒体上披露的网络信息,杜绝网络谣言传播。对投资者来说,互联网技术的发展为信息交流提供便利的同时,也对投资者信息处理能力提出了挑战,为在海量的网络信息中挖掘有效信息,提升信息辨别能力,就必须加强自身的专业素养和决策水平。对上市公司来说,管理层在公司治理的过程中,不仅要考虑公司内部的因素,还要及时关注市场上投资者情绪的变化,利用社交媒体加强与投资者之间的交流,及时披露公司高质量信息,澄清网络虚假信息。