基于Bi-LSTM模型挖掘的股吧投资者情绪对股价泡沫的影响
2023-01-03尹海员杨庆松
尹海员 杨庆松
(陕西师范大学国际商学院)
1 研究背景
我国证券市场发展速度快,但存在历史短、投资者成熟度低、个人投资者占据主体、市场机制不健全等问题。股票市场充斥着非理性行为,股票价格暴涨暴跌。研究发现,2000~2017年间我国股票市场出现了多次泡沫,其中最长泡沫周期长达17个月,隐藏着巨大的市场风险[1]。
股价泡沫是股价脱离实际价值的暴涨暴跌。有效市场理论认为,如果金融市场是有效的,股票价格将及时反映所有基本面信息,非理性投资者造成的股价偏离会被套利者及时纠正。噪声交易者理论则认为,噪音交易者的预期往往受到无意义的市场信号和情绪的影响,从而造成股票价格的偏差。现有文献也表明,投资者的非理性行为会降低股价的信息含量和市场定价效率[2]。噪音交易者理论成立的前提是:情绪波动在噪音交易者之间具有系统相关性,这往往被理性主义者所驳斥。如果此前提理论上成立,那么投资者群体的过度乐观和悲观在套利限制存在的市场上,都会体现在股价的形成中。情绪通过羊群效应和正反馈效应最终促成股价泡沫的形成。投资者情绪在噪音交易者之间是否具有系统相关性,是否及如何对股价泡沫产生影响?这是本研究需要探讨的主要问题。
本研究以沪深300指数成分股为研究对象,抓取东方财富股吧上的个股评论文本,通过搭建双向长短时记忆(Bi-LSTM)模型对文本进行情感分类,构建日度投资者情绪指标;同时,使用PHILLIPS等[3]提出的GSADF法检验样本股价泡沫,利用BSADF法获得个股泡沫持续期及泡沫强度;并在此基础上建立面板数据模型,分析投资者情绪与股价泡沫之间的内在关系。
2 文献综述
2.1 投资者情绪挖掘技术
金融领域中,传统的文本情感分析法(如情感词典匹配法和有监督的机器学习法)往往泛化性较弱且会忽视上下文的语义关系[4,5]。近年来,深度学习模型(如卷积神经网络CNN和循环神经网络RNN等)在文本情感分析领域被广泛应用。其优点在于,模型可以考虑到词语位置并善于处理不规范和大规模文本[6]。
CNN的特点在于,可以提取文本的细粒度局部特征,其准确率和召回率等指标往往优于传统的机器学习模型,现已被广泛用于网络大数据分析中[7]。RNN模型的特征识别兼顾当期输入和历史信息,有利于具有时间依赖关系的文本序列的情感分类任务[8]。RNN模型在训练过程中常出现梯度消失和梯度爆炸问题。学界基于RNN模型进行改进,出现了长短时记忆(LSTM)模型、门控循环神经网络(GRU)模型等。这些模型克服了RNN模型的缺点,同时保留了其可以结合上下文语义提取文本特征的优势。LSTM模型目前已被用于金融领域执行文本情感分析任务[9]。Bi-LSTM模型可结合前后两个方向的文本特征进行文本情感分类,其分类效果常优于LSTM模型[10]。
2.2 股价泡沫的检验
国内外学者检测股价泡沫的方法可分为3类:代理变量法、线性检验模型和非线性检验模型。代理变量法是指使用与股价泡沫高度相关的其他金融变量来量化股价泡沫,该方法具有间接性,衡量的精准度存在问题。线性检验模型是基于传统的单位根和协整检验的泡沫检验方法[11]。该类模型不能检测出坍塌性泡沫。非线性检验模型中,基于马尔可夫区制转换的检验方法可检测坍塌性泡沫但会过度接受泡沫存在的假设[12],而右尾递归单位根(SADF)检验法不适用于多重和异方差泡沫的检验[13]。
2015年,PHILLIPS等[3]提出了GSADF检验法以及对应的BSADF泡沫持续期标记法。2017年,CASPI[14]在EViews软件中发布了GSADF检验的标准执行程序。MONSCHANG等[15]对比了GSADF检验法与两种异方差调整的GSADF检验法,发现BSADF检验在标记泡沫持续期时,对数据频率的敏感度更低且检验精度更高。目前,GSADF检验被广泛应用于期货[16]、股票[17]和房地产[18]等各类资产的泡沫检验中。
2.3 投资者情绪与股价泡沫
股价泡沫的影响因素可分为宏观和微观两个视角。宏观因素主要包括制度因素[19]、信用违约互换利差和波动率[20]等。微观因素主要包括投资者过度自信及投资者情绪[21]等。
投资者情绪与股市泡沫关系的研究大多着眼于市场整体泡沫。如罗衎等[22]以中证800指数为研究对象,发现社会互动会加剧投资者情绪传染进而加剧市场泡沫。YAO等[23]用主成分分析法构建投资者情绪指数,用剩余收益模型提取了股市泡沫,发现投资者情绪与股市泡沫成正相关关系。PAN[24]以标准普尔500指数为研究对象,发现投资者情绪对股市泡沫的产生概率及泡沫大小有显著影响。总之,股市泡沫的研究目前以市场整体泡沫的检验和成因为主,缺乏从个股视角剖析投资者情绪对泡沫影响机理的探讨。
3 研究设计
3.1 数据来源
本研究以沪深300指数成分股为研究对象,研究期为2018年4月3日~2021年5月31日,观测频率为日度数据。为保证数据的有效性和连续性,本研究按照以下标准对样本进行筛选:①剔除金融类上市公司;②剔除在研究期间调入或调出沪深300指数的样本,以保证研究时段的连续性;③剔除在个股股吧上平均日度发贴数量少于10条的样本,以保证文本挖掘有足够的容量;④剔除研究期间出现停牌超过一个月的样本。最终获得142只样本股作为研究对象。
本研究所使用的投资者发帖文本来自东方财富股吧。股吧上的投资者多为散户投资者。来源于股吧的投资者情绪更能直接地反映散户投资者情绪。研究中,散户投资者由于缺乏有效的市场信息和信息处理能力往往被当作噪音交易者。研究噪音交易者的情绪是否对股价泡沫产生系统影响具有重要意义。相较于国内其他股票交流论坛,东方财富网股吧论坛提供了股票行情、公司财务数据、交易明细等多维度资料,具有高发帖频率和高内容质量等优势。本研究使用网络爬虫,抓取了东方财富股吧上沪深300指数成分股在研究期内的日度发帖文本、阅读量和发帖时间等内容。在剔除“问董秘”、投票以及重复发帖等无效发帖后,共得到8 259 295条文本。其中,样本个股日均发帖量76条,个股最高日均发帖量343条,个股最低日平均发帖量15条。其余市场变量数据来自于Wind数据库和RESSET数据库。为了保证数据的准确性,使用两个数据库对变量数据进行了交叉验证。同时,为了缓解极端异常值的影响,对样本期间所有连续变量在1%上下端进行Winsorize处理。
3.2 投资者情绪的度量
3.2.1Bi-LSTM模型
神经网络模型进行文本情感分类的基本步骤如下:①文本预处理:使用正则表达式及jieba分词工具,对文本进行噪音字符的过滤和分词。②词典构建及词向量的获取:将所有文本经文本预处理后获得词语库;根据词库中每个词语出现的频率对其进行编号,构建词典;接着利用构建好的词典,将文本转化为数字序列;再调用embedding层,将数字序列化后的文本转化为词向量矩阵。③数据输入和特征提取:将词向量矩阵输入Bi-LSTM模型,根据训练后的模型参数提取文本特征。④结果输出:将Bi-LSTM模型的输出结果输入到logsoftmax层。softmax函数的表达式见式(1),其中y代表Bi-LSTM模型输出结果。softmax函数的计算结果为该文本属于积极或消极某一类别的概率值。logsoftmax函数是对softmax函数计算结果的对数化处理,可以解决softmax函数固有的数值计算问题。根据logsoftmax输出值的大小可判断该文本的具体类别。
softmax(y)=exp(y)/∑exp(y)。
(1)
LSTM模型神经元的内部结构见图1。
图1 LSTM模型神经元内部结构
一个神经元的信息传播过程见式(2)~式(8):
ft=logistic(Wfxt+Ufht-1+bf);
(2)
it=logistic(Wixt+Uiht-1+bi);
(3)
(4)
(5)
ot=logistic(Woxt+Uoht-1+bo);
(6)
ht=ot×tanh(Ct);
(7)
(8)
3.2.2Bi-LSTM模型训练、测试与投资者情绪量化
本研究使用分层抽样法,在各样本股的发帖中随机抽取了8 000条文本作为模型训练集、2 000条文本作为模型测试集。邀请了10位金融学硕士分别对这10 000条训练集和测试集文本做人工标注,将每条文本分为“乐观”或“悲观”两类。针对标注结果不一致的文本,10位标注者进行了集中讨论,最终给出一致意见,形成最终训练(测试)集。接着,利用训练集进行模型训练,利用测试集进行模型测试。为提升模型训练速度,在支持GPU的主机上进行模型训练和测试,主机型号为NVIDIA GeForce RTX 3090。训练和测试结果表明,模型样本外准确率为73%,可以满足研究精度要求。最后,使用训练后的模型,将8 259 295条文本进行情感分类,共得到悲观发帖量5 210 227条,乐观发帖量3 049 068条。
利用式(9)对样本进行投资者情绪(Se)量化:
Se=ln((1+Mpos)/(1+Mneg)) ,
(9)
式中,Mpos表示某股票在某日的加权积极情绪帖子总数;Mneg表示某股票在某日的加权消极情绪帖子总数,权重为该帖子的阅读总量。统计区间为第t-1日15∶00到第t日15∶00。之所以以阅读量为权重,是因为帖子本身只能代表发帖人的个人情绪,难以反映股吧上投资者的整体情绪。此外,股吧上存在大量网络水军,他们的发帖并不能代表其真正情绪和决策。然而,股吧上的发帖人所表达的情绪具有传染性,浏览帖子的投资者易受到这些情绪的影响,进而在市场上形成强势的意见环境。加权之后的投资者情绪可以更全面科学地反映股吧投资者的整体情绪。投资者情绪变量Se会随着积极情绪帖子的数量和阅读量的增加而提高,反之则降低。当Mpos等于Mneg时,该指数为0。经统计,变量Se的均值为-0.145,标准差为0.397,极小值为-5.227,极大值为5.264,偏度-1.764,峰度为42.921。说明研究期间内投资者情绪偏向悲观,投资者情绪指数具有一定的左偏和尖峰性质。
3.3 股价泡沫的度量
考虑到市盈率比股票价格更能反映公司的内在价值,本研究选择个股市盈率日度数据,检验了样本股的泡沫存在性,并利用BSADF检验得到泡沫持续期。SADF、GSADF以及BSADF检验三者均是以右尾单位根检验法为基础,并做进一步拓展的检验方法。一般性右尾单位根检验的拒绝域在临界值的左边,当检验统计量落入拒绝域,则拒绝序列是平稳或单位根过程的原假设,接受序列变量存在泡沫特征的备择假设。SADF、GSADF及BSADF检验则是在右尾单位根检验基础上引入了递归思想,具体递归过程如下:
(10)
式(10)是SADF检验统计量的定义式,其中r0、r1和r2均代表全样本的部分比例;r0表示最小有效样本窗口;具体检验中r1恒等于0并作为样本窗口起点;r2为窗口终点,取值范围为[r0,1]。r2从r0的位置向前递归,每次递归增加一个样本并进行一次右尾单位根检验,直到r2取值为1。SADF检验统计量等于所有右尾单位根检验统计值的上界值。
(11)
式(11)是GSADF检验统计量的定义式。与SADF检验不同的是,GSADF检验起点r1不再恒等于0。r1的取值范围为[0,r2-r0]。GSADF统计量被定义为r1和r2所有可行范围内右尾单位根检验统计值的最大值。其中,GSADF统计量的极限分布为
(12)
式中,W表示标准维纳过程;rw=(r2-r1),当r1=0,r2=1时,该式为ADF统计量的极限分布;当r1=0,r2从[r0,1]之间取值时,该式为SADF统计量的极限分布。显然,SADF检验是GSADF检验的一种特殊情况,用GSADF法检验全样本的泡沫存在性问题会更准确。BSADF检验统计量的定义式为
(13)
简而言之,BSADF检验是针对特定r2进行的后向SADF检验。与正常SADF检验的区别在于,BSADF检验的r2固定,而r1在区间[0,r2-r1]之间取值。GSADF统计量与BSADF统计量的联系为
(14)
综上,SADF检验本质上是起点固定,终点向前递归的并不断扩充样本容量的一系列右尾单位根检验。SADF统计量则是一系列右尾单位根检验统计值的最大值,可以判断全样本泡沫的存在性。GSADF检验是起点和终点均向前递归的一系列单位根检验,GSADF统计量可以对全样本进行泡沫存在性的检验。BSADF检验是终点固定而起点向后递归的检验,BSADF统计量针对的是部分样本泡沫存在性的检验统计量。因此,针对每个可行范围的r2进行BSADF检验,得到BSADF的统计值序列,该序列与临界值序列进行比较,大于临界值的位置就是处于泡沫持续期。
表1 部分样本GSADF检验结果
图2 部分样本与沪深300指数的BSADF检验结果
基于上述基础研究,本研究设定了划分泡沫阶段的虚拟变量Be,若某股票在某一日处于泡沫持续期,则Be=1,否则为0。此外,更大的BSADF统计值意味着更高的泡沫强度,因此本研究设定衡量泡沫强度指标Bs,其值等于某股票在某一日的BSADF检验统计值。
3.4 控制变量
参考赵汝为等[25]的研究,本研究选取以下变量作为控制变量:①市净率、市销率及公司规模等来控制公司价值因素;②净资产收益率和资产负债率变化量等来控制公司财务特征因素;③流通股比例变化、股权集中度变化以及机构持股比例变化等来控制股权特征因素;④为了排除市场层面和宏观经济周期的影响,选取市场泡沫整体强度及国内生产总值增长率(G)作为控制变量;⑤为区分投资者情绪与投资者关注度的不同,以某股票在某一日所有发帖的阅读量之和作为投资者关注度控制变量;⑥引入解释变量滞后一期和滞后二期,以考察投资者情绪对股价泡沫影响的延续性。
本研究主要变量的释义见表2。
3.5 基础回归模型
本研究的被解释变量包括泡沫存在性(Be)和泡沫强度(Bs),分别建立面板Logit回归模型和面板回归模型进行主回归检验。经过初步检验,两模型中均具有显著的个体效应,拒绝使用混合回归模型的原假设。进一步经过Hausman检验后发现,两模型均拒绝了随机效应模型的原假设。最终构建两个个体固定效应基础回归模型,即泡沫存在性的面板Logit模型和泡沫强度的面板回归模型:
(15)
Bs=α0+β1Se+∑βkC+γ。
(16)
式中,Be=1则代表泡沫存在;α0为截距项;β1、βk为系数;C为系列控制变量;γ为扰动项。
4 实证分析
4.1 描述性统计与相关性分析
主要变量的描述性统计结果见表3。表3中,变量PB和PS因个别股票停牌存在少量数据缺失;变量Dc、Di、Do、Dr和Dl因经过差分处理,样本总量均减少142。本研究后续所有回归模型中,因各控制变量样本量存在差异、各回归模型自身要求以及分组回归要求等原因,样本量各有不同。由表3可知:①因变量Be的均值为0.051。结合前文GSADF检验结果:142只样本股中的61.7%显著存在泡沫,综合说明在横截面方向个股泡沫出现的频率较高,但是在时间序列上个股泡沫出现的频率并不高,与现实情况较为吻合。经统计,所有泡沫的平均持续天数为5.21天;②因变量Bs整体上呈现右偏、尖峰分布且其正向极端值较大;③第9列展示了所有变量的平稳性检验结果,可以发现所有变量均为平稳序列;④第10列是按照某股票在某一日是否存在泡沫将样本观测值分为两组后,针对其余变量所做的均值T检验,结果显示解释变量Se以及大部分控制变量在两组之间均显著存在差异。通过变量之间的相关性检验结果(1)限于篇幅,变量之间的相关系数矩阵表格未展示,留存备索。发现,因变量Be、Bs与当期投资者情绪Se显著正相关,与其余控制变量也显著相关。
4.2 投资者情绪对泡沫存在性的影响
投资者情绪对泡沫存在性和泡沫强度的影响见表4。表4 中列(2)和列(3)分别为依次加入自变量滞后一期、滞后二期与其余控制变量的回归结果。可以看出,在所有回归结果中,投资者情绪Se均在1%的水平上显著正向影响泡沫存在性Be。控制变量方面,滞后一期和滞后二期投资者情绪Se-1和Se-2系数均小于当期投资者情绪系数;投资者情绪对泡沫存在概率的正向影响具有一定的延续性;投资者关注度A对泡沫存在的概率也具有显著正向影响,但其系数小于Se、Se-1和Se-2的系数;市净率PB、市销率PS和公司规模Si均显著正向影响股价泡沫的存在概率。列(3)中,Dr和Dl对泡沫存在概率的影响不显著,说明泡沫存在概率对公司收益和公司债务的变化并不敏感;Di、Do和Dc对泡沫存在概率的影响不显著;G和Bm显著正向影响泡沫的存在概率,即个股泡沫存在概率随国内宏观经济水平和市场泡沫强度的提高而提高。
4.3 投资者情绪对泡沫强度的影响
由表4的列(4)~列(6)可知,在所有回归结果中,投资者情绪至少在10%的水平上对泡沫强度具有显著正向影响。控制变量方面,Se-1和Se-2对泡沫强度的影响在加入所有控制变量后不再显著,投资者情绪对泡沫强度的正向影响延续性不强;投资者关注度A对泡沫强度具有显著正向影响,但其系数小于Se的系数;市净率PB和市销率PS显著正向影响股价泡沫强度;公司规模Si对泡沫强度的影响不显著;Dr和Dl对股价泡沫强度的影响不显著,说明股价泡沫强度对公司收益和公司债务变化的敏感度不高。同理,股价泡沫强度对机构持股比例变化Di、流通股比例变化Do和股权集中度变化Dc也不敏感。最后,市场泡沫强度Bm显著正向影响个股泡沫强度,而G对个股泡沫强度的影响不显著。
表4 投资者情绪对泡沫存在性和泡沫强度的影响
5 进一步研究:异质性和中介路径
5.1 投资者情绪对股价泡沫影响的异质性分析
根据已有研究[26],投资者情绪对股票收益率的影响受股权集中度和产权性质等因素的影响显著。投资者情绪对股价泡沫的影响是否因公司规模、股权集中度等截面特征的不同而存在异质性,需进一步讨论。基于公司规模的子样本异质性分析结果见表5。本研究按照公司市值是否小于中位数的标准,将全部样本分为小规模和大规模两组子样本。由表5可知,无论因变量是Be还是Bs,无论是否加入Se-1和Se-2,小规模样本组Se的系数绝对值均大于大规模样本组Se的系数绝对值,显著性水平也是如此,说明当期投资者情绪对股价泡沫存在概率以及泡沫强度的影响,随公司规模的扩大而减弱。基于股权集中度差异和产权性质的分组回归结果(2)限于篇幅,基于股权集中度差异和产权性质的分组回归结果未展示,留存备索。可知,无论是否加入Se-1和Se-2,Se对Be和Bs的正向影响随股权集中度的提高而降低。可能的原因在于,股权集中度是衡量公司股权分布状态和公司稳定性的指标,股权集中度越高,公司决策效率以及稳定性也越高,应对突发事件的能力也越强,泡沫出现的概率和强度也越低。此外,非国有企业当期投资者情绪对泡沫存在概率以及泡沫强度的正向影响相比国有企业更强,国有企业的股价相对更稳定。
表5 基于公司规模的异质性分析回归结果
5.2 中介效应检验
已有研究发现,投资者情绪通过影响市场交易量进而影响股票收益率[27]。赵宣凯等[28]也发现,市场情绪越高,盈余公告前的股票交易量越大,投资者的投机行为也越疯狂。王高义[29]的研究也表明,超额交易量与未来股价泡沫破灭概率显著正相关。理论上,投资者情绪直接影响的是投资者决策行为,具有积极情绪的投资者倾向于买入股票;反之,倾向于卖出股票。随着市场上积极情绪的积累,看涨买入股票的投资者逐渐增多,交易量增大,股价提高,加之股市羊群效应、正反馈效应以及套利限制的存在,股价泡沫快速出现;随着市场上消极情绪的酝酿,看跌卖出股票的投资者增多,交易量同样增大,而股价下跌,泡沫破裂。泡沫的产生和破灭过程虽然均伴随交易量的激增,但由于股价的表现不同,最终体现为总交易金额的不同。因此可以认为,投资者情绪以个股交易金额为中介对股价泡沫产生影响。为了验证上述猜想,本研究使用个股日度交易金额作为中介变量,进行中介效应检验,符号表示为Vo。参考温忠麟等[30]的做法,建立如下面板数据中介效应模型:
D=α0+β1Se+∑βkC+γ;
(17)
M=α0+β1Se+∑βkC+γ;
(18)
D=α0+β1Se+β2M+∑βkC+γ,
(19)
式中,D代表因变量Be或Bs;M代表中介变量Vo;β2为M的系数。
中介效应的检验结果见表6。由表6可知,当期投资者情绪Se显著正向影响个股日度交易总金额Vo;在没有加入中介变量之前,Se显著正向影响Be和Bs;在加入中介变量之后,Vo在1%的水平上显著正向影响Be和Bs;Se对泡沫存在概率、泡沫强度的影响系数和显著性水平相对加入中介变量前有所下降。上述结果表明,投资者情绪以个股当期交易总金额为中介,正向影响泡沫出现的概率及泡沫强度。该结论由Sobel检验也可得到证实:Sobel、good1及good2统计值均显著拒绝不存在中介效应的原假设。此外,Sobel检验结果表明,投资者情绪通过个股当期交易总金额对泡沫存在概率具有22.2%的中介效应,对泡沫强度具有56.4%的中介效应。
6 内生性讨论与稳健性检验
6.1 内生性讨论:工具变量检验
为尽量消除内生性问题,在实证中使用固定效应模型,并尽可能多地选择了可能影响股价泡沫的控制变量,但仍存在由双向因果造成的内生性问题。本研究选择同行业同期的其他公司投资者情绪均值(符号表示为Seo)作为工具变量进行检验。检验结果见表7。表7中列(1)的F值为16.456,大于10,不存在弱工具变量问题。由列(2)和列(3)的工具变量回归结果可知,当期投资者情绪仍至少在10%的水平上显著正向影响股价泡沫强度和泡沫存在概率,这证明了前文实证结果的可靠性。
表6 交易金额的中介效应检验
表7 工具变量及DID模型检验
6.2 内生性讨论:DID检验
变量遗漏问题可能是造成本研究内生性问题的来源之一。双重差分模型(DID)可以通过组内差分和组间差分,将随时间变化和不变的扰动项剔除掉,进而更有效地排除潜在的内生性问题。DID模型需要将样本在横截面维度和时间序列维度各分为两类。横截面维度上,本研究将样本股票分为国有和非国有两类,设置虚拟变量OW,OW=1代表上市公司为国有企业;否则为非国有企业。时间序列维度上,本研究的研究期横跨国内新冠疫情爆发时间点 2019年12月8日,因此以新冠疫情爆发时间为节点划分研究期,设置虚拟变量CV,CV=1代表时间处于2019年12月8日之后,新冠疫情爆发;否则处于2019年12月8日之前。设置变量Did代表OW和CV的交乘项,建立DID模型,观察DID模型下内生性问题是否存在,并进一步观察疫情爆发对不同产权性质样本股价泡沫的影响是否存在显著差异。
本研究截取了2019年12月8日前后各两个月时间的数据做平衡趋势检验,结果见图3。图3(a)被解释变量为Be,图3(b)被解释变量为Bs。由图3可知,疫情爆发前,国有企业的平均泡沫存在概率和平均泡沫强度均低于非国有企业,但二者趋势类似;平衡趋势检验通过疫情爆发后,二者趋势出现明显不同。
图3 平衡趋势检验结果
图4 安慰剂检验结果
表7的列(4)~列(7)为DID模型的检验结果。首先,无论是否加入Se-1和Se-2,Se对Be及Bs的正向影响依然显著,本研究主要结论依然成立;其次,变量CV对Be具有显著负向影响,对Bs的负向影响不显著,说明新冠疫情的爆发对非国有企业股价泡沫存在概率的抑制作用显著,而对泡沫强度的抑制作用不明显;同时,变量Did对Be具有显著正向影响,对Bs的正向影响不显著,说明国有企业与非国有企业之间泡沫存在概率的差因疫情爆发出现显著变化。结合图3可以看出,这种变化呈缩小的趋势。其原因可能在于,疫情爆发后,投资者为了规避市场风险更多地选择国有企业股票投资,使得国有企业股价泡沫出现的概率提高。
6.3 内生性讨论:PSM检验
为排除样本选择问题带来的内生性问题,继续利用倾向评分匹配法(PSM)检验。按照投资者情绪Se高低,将大于80%分位数的样本作为实验组,将小于40%分位数的样本作为对照组,利用除Se以外的所有控制变量作为计算倾向匹配得分的特征变量,进行一对一最近邻匹配,结果见表8。由表8可知,高投资者情绪组对泡沫存在概率及泡沫强度的平均处理效应(ATT)均在10%的水平上显著为正,说明投资者情绪越高,泡沫存在的概率和泡沫强度越大,这与前文结论一致。
表8 PSM检验结果
6.4 稳健性检验:安慰剂检验
为排除偶然因素的影响,进行如下安慰剂检验:①将所有投资者情绪随机打乱,生成虚拟投资者情绪;②利用虚拟投资者情绪、原被解释变量及原控制变量重新回归;③提取回归结果中当期虚拟投资者情绪系数以及对应显著性水平。重复上述步骤500次,所得系数及对应显著性水平的p值结果见图4。由图4可知,无论被解释变量是Be还是Bs,500次模拟所得虚拟投资者情绪的估计系数绝对值均远小于对应基准回归结果的系数,并以0为中心呈对称分布;大部分虚拟情绪所得系数的对应p值大于0.1,即不显著,可以认为基准回归结果并非偶然因素引起。
6.5 稳健性检验:变量替换
参考陈浪南等[17]的方法,本研究利用Hp滤波法剔除收盘价中的趋势性成分,并定义价格偏离趋势性成分的部分为泡沫强度,用Hps表示用该指标替换原泡沫强度Bs作为因变量,验证结果的稳健性,检验结果见表9。由表9可知,首先,列(1)和列(3)中投资者情绪对泡沫强度的影响均在至少10%的水平上显著为正;其次,逐步回归和Sobel检验证明,投资者情绪确以日度交易金额为中介对泡沫强度产生正向影响。检验结果再次证明了本研究结论的稳健性。
表9 投资者情绪影响个股泡沫强度的稳健性检验
7 结语
本研究在抓取东方财富股吧个股日内实时发帖的基础上,利用Bi-LSTM模型进行文本情感分类,并构建了投资者情绪指标;同时,基于GSADF法检验了个股泡沫情况,并利用BSADF检验法得到个股泡沫持续期和泡沫强度。进一步地,通过构建面板数据模型,分析了投资者情绪与股价泡沫的内在关系。实证结果表明:①投资者情绪对个股泡沫存在概率以及泡沫强度的影响显著。投资者情绪越高,股价泡沫存在概率和泡沫强度也越大。②本研究从股权集中度、公司规模和产权性质3个方面进行了异质性分析,发现投资者情绪对股价泡沫的影响存在截面异质性。在小规模、低股权集中度和非国有属性公司中,投资者情绪对股价泡沫的正向影响更强。③中介效应检验结果发现,投资者情绪以当期交易总金额为中介对股价泡沫产生正向影响。利用工具变量回归、DID模型和PSM法探讨内生性问题,并通过安慰剂检验和变量替换等方法进行了稳健性检验,发现上述研究结论依然成立。
本研究理论上丰富了关于股价泡沫成因的相关文献。实践上,本研究结论表明:在移动互联时代,来自社交媒体的投资者情绪在一定程度上可以有效预测股价泡沫。这给监管者、投资者和上市公司均提供了一定的建议:①监管者一方面要灵活运用互联网信息进行风险预警,注意利用互联网投资者情绪识别股价泡沫过程中因公司规模等因素产生的异质性问题;另一方面又要加强网络信息的监管力度,扩大监管范围,杜绝网络谣言快速传播造成的泡沫现象。②对于投资者来说,既要善于甄别网络谣言,避免盲目跟风、追涨杀跌;又要善于运用投资者情绪和交易金额等常见指标识别股价泡沫,提高自身的专业素养和决策能力。③上市公司要及时关注投资者情绪,及时披露高质量信息、澄清市场谣言,在提升公司自身盈利能力和内在价值等硬实力的基础上,防止由于社交网络媒体情绪偏离导致的股票价格泡沫。
本研究还存在一定不足,由于股吧上投资者的发帖往往不具有规范性,Bi-LSTM模型的文本情感分类效果虽然可以满足研究需求,但分类精度仍然有限,未来需要继续完善模型,提高文本分类的准确率。