APP下载

社交平台投资者情绪对国际原油价格的影响研究 *

2023-12-12张天顶杜天文

国际石油经济 2023年11期
关键词:极性收益率投资者

张天顶,杜天文

(武汉大学经济与管理学院)

1 研究背景

探讨国际原油价格的影响因素一直是国际能源经济领域的重要课题。原油作为一种重要的国际大宗商品,在全球经济运行中扮演着重要角色[1]。在过去的国际大宗商品波动影响因素研究中,学者们通常强调宏观经济变量,如货币政策[2]或者地缘政治风险因素[3]。然而,行为金融理论强调传统金融学中的理性人假设并不准确,市场情绪会对金融市场产生重要影响[4]。同时,随着国际原油市场金融化程度的提高,一些研究指出投资者情绪可能导致金融投机行为,从而影响国际原油价格[5]。因此,从金融理论角度来看,市场情绪应被视为影响国际原油价格波动的因素之一。

在测量投资者情绪方面,传统研究主要采用直接调查法或利用市场数据构建情绪的替代指标,然而这些方法往往面临着高成本和滞后性等不足。近些年,随着计算机自然语言处理技术的不断成熟,研究者们开始关注社交网络上的文本数据。这些非结构化的文本数据被认为能够反映市场情绪,并被视为良好的金融市场预测指标[6]。社交媒体平台如推特(Twitter)和脸书(Facebook)上市场情绪已成为交易决策中重要的考虑因素。2013年,美国证券交易委员会宣布上市企业可以利用社交媒体平台发布关键信息,随后国际投资者们开始利用社交媒体来收集信息以做出投资决策。现有研究强调社交媒体在提取投资者情绪方面的重要性。根据M Baker和J Wurgler[7]研究,投资者情绪可以分为两种类型。第一种涉及理性交易者的情绪,而第二种则与非理性交易者或噪音交易者相关。在信息决策方面,相比于遵循随机游走行为的噪音交易者情绪,理性投资者情绪往往更准确地反映市场的信息。基于推特的投资者情绪与那些关注、追踪当前趋势及随后变化的知情投资者更密切相关。因此,基于推特的情绪能够反映知情投资者的情绪[8]。

丰富的互联网数据资源和先进的计算机文本处理技术为探讨投资者情绪对国际原油价格的影响提供了新的可能性。本文关注社交媒体上发布的文本数据并进行文本挖掘,将其作为投资者情绪的代理指标,以探究投资者情绪对国际原油价格的影响。现有研究大多通过文本挖掘的手段获取相关文本的情感得分和可读性等指标,但是研究者们针对投资者情绪在大宗商品市场方面的相关研究相对较少,已有研究大多基于传统的结构化数据作为衡量指标。本文旨在该研究方向拓展,并综合考虑非结构化文本数据和市场情绪之间的关系,以揭示投资者情绪对国际原油价格的影响方式和机制。本文将文本主题分类的结果与情感分析模型相结合,利用门限广义自回归条件异方差(TGARCH)模型来探讨投资者在不同语境下的情感表达对国际原油价格的影响。

2 投资者情绪测量

2.1 研究方法

心理学研究强调个体的情绪对于信息处理和决策具有重要影响。两种主要的情绪衡量方法为愉悦度-唤醒度方法和认知评价方法。前者是一种二维情绪测量方法[9],后者强调情绪可以通过个体对特定情境的评价或认知反应来进行区分[10]。本文主要使用这两种情绪衡量方法来测量投资者情绪。

在行为金融学领域,有许多研究文献提出了测量投资者情绪的方法。随着文本挖掘技术的不断进步,研究者注重从文本数据来测量投资者情绪。在文本信息挖掘过程中,通常需要使用分词技术、情感分析和主题聚类模型等方法。对于文本信息的提取,研究者们通过词典法或有监督的机器学习方法对文本中的情感信息进行量化。词典法通常需要预先设定词典,然后利用字符串匹配方法统计文本数据中相关词语的出现频率。在金融文本方面,一种常见的词典是E Henry[11]构建的金融词典,将常见的具有情感属性的词语分为正面和负面两类。然而,S M Price等[12]发现Henry词典中负面词汇较少。另一种是C Hutto和E Gilbert[13]基于社交媒体数据构建的VADER情感词典,它可以根据社交媒体的常用语言习惯为文本打分,包括积极情绪、消极情绪和中性情绪。根据分类学,Henry和VADER词典属于愉悦度-唤醒度衡量方法,能够分析文本的情感极性。用于衡量投资者情绪的另一个词典是由加拿大国家委员会创建的NRC词典,它不仅可以计算文本的情感极性,还可以计算情绪类别的具体得分,包括愤怒、期待、厌恶、恐惧、喜悦、悲伤、惊喜、信任等情感评价(Mohammad等,2010)。

主题模型本质上是基于词袋模型的无监督机器学习聚类算法,目前应用最广泛的是隐含狄利克雷分布(LDA)模型。LDA模型最初由潜在语义分析(LSA)模型发展而来。LSA模型使用向量表示词语和文档,并利用向量之间的关系来描述词语和文档之间的关联[14]。然而,LSA模型无法解决词语多义性的问题,因此T Hofmann[15]在LSA模型的基础上提出了概率潜在语义分析(PLSA)模型。PLSA模型与LDA模型的基本思想类似,即每个文档可能包含不同的主题,主题是关于词语的概率分布,文档是关于主题的概率分布。D M Blei 等[16]在PLSA模型的基础上引入了隐含LDA模型,用于描述主题和词语之间的关系,从而减少了参数数量,解决了PLSA模型可能出现的过拟合问题。

2.2 数据与指标构建

本文搜集来自推特英文推文的文本数据,将文本分析测量结果作为投资者情绪的衡量指标。通过分析英文推文的文本数据,可以更好地把握投资者情绪对国际原油市场的影响。本文通过推特API接口获取了2012年1月1日至2022年6月30日的推文,共计126个月、3834天的数据;使用关键词搜索,从推特的推文数据库中抓取与国际原油市场相关的推文文本及相关数据,关键词的匹配规则设置为“(crude oil) OR (american oil) OR (wti)”,即包含以上三组关键词中任意一组的推文将被抓取下来;同时剔除了转推的数据、被推特标记为广告以及非英语的推文,最终获得5449331条推文。

推文来自946209位不同的发布者。根据J Kim等[17]的方法,本文删除了发文量排名前100的发布者的推文数据,这些发布者的人均发文量超过3000条。该过程共删除了660232条推文数据。因此,本文最终使用的文本数据库由来自946109位发布者的4781106条推文数据组成,平均每位发布者在样本期间内发布了5.05条推文。本文首先对推特推文的文本数据进行数据清洗,使用了Gensim[18]提供的停用词词典,这有助于减少冗余的文本数据,并且可以加快模型的训练过程。

在进行LDA主题模型建模之前,本文对清洁后的文本数据进行了分词。分词的结果构成词袋模型,为后续的LDA模型训练提供基础。本文选取的分词工具是S Bird等[19]根据来自推特数据训练的推文分词工具。Blei等(2003)提出的LDA模型属于贝叶斯概率选择模型,其假定一个文本库中的D篇文档主要在讨论T个主题,每篇文档d中存在Nd个词语,且每篇文档的词汇,如第d篇文档的第n个词Wd,n都由主题生成。每个主题都有一个对应的不同词语的概率分布。每篇文档d都被视为一个关于T个主题的多项式分布θ(d),每一个主题zt都被视为一个关于词语集合W的多项式分布φ(t)。假定θ(d)和φ(t)具有共轭狄利克雷分布。典型的狄利克雷分布如下:

LDA模型文档生成过程中,本文采用了广泛使用的Gibbs采样方法[16],最终获得每条推文主题分布θ(d)以及每个主题对应的词语分布θ(t)。主题数量T在LDA模型的成功估计中起着关键作用。本文通过计算不同主题个数下的连贯性得分来确定T的数值,以量化主题文本对人类的可理解性和可解释性。为了在主题数量和连贯性得分之间取得平衡,本文通过拐点原则进行选择。该方法意味着可以绘制连贯性得分作为主题数量的函数,并使用曲线拐点来确定最佳的主题数量。在获得指定主题数量以及狄利克雷分布的超参数α和β之后,训练得到的LDA模型能够提供每篇文档的主题概率分布,并为每个主题生成一个词语的概率分布。一旦模型拟合完成,每个推文将根据其在θ(d)中最高概率的主题上被归类,分配规则如式(2)所示。

本文采用了词典法对推文进行情感分析。既考虑了愉悦度-唤醒度方法衡量的情感极性,即情绪的正面或负面以及浓烈程度[20,21],又测量了认知评价法测度的投资者情绪;使用NRC词典来测量投资者情绪的极性,并计算不同情绪类别的具体得分;为了进行稳健性检验,使用VADER词典返回的综合情感得分来代表文档的情感极性;采用公众每天在推特上的发文量作为衡量其对国际原油市场关注度的代理指标;同时借鉴Antweiler与Frank(2004)的方法,计算每天推文中情绪得分的标准差,用作衡量投资者分歧程度的代理指标。

根据主题模型的要求,本文需要设置LDA模型中两个狄利克雷分布的超参数α和β,以及最优主题数量T;使用Gensim库从语料库中学习α和β的不对称先验。对于主题数量T的选择,本文估计了主题数量从1到20的LDA模型,并计算了Cv连贯性指标。通过绘制主题数量与连贯性得分并采用拐点原则,本文认为当主题数量达到7个时,进一步增加主题数量无法显著提高连贯性分数,反而可能导致模型过拟合。由于计算量较大,主题数量选择的模型拟合过程采用并行运算。在拟合了LDA模型之后,得到7个主题及其对应的代表性词汇和概率分布,将每个主题中概率排名前10位的词汇整理成7个主题,分别命名为价格动态、能源期货、国外交易、进出口、北美能源、外汇市场、原油运输。

确定每篇文档的主题后,根据日期和主题进行分组,对交易日k下的主题t,分别统计推文的数量nk,t,情感得分平均值scorek,t,以及投资者情感极性的标准差diverk,t,分别作为投资者关注度、投资者情绪以及投资者分歧的代理指标,如式(3)所示。

3 实证研究

3.1 模型设定

本文采用门限广义自回归条件异方差模型(TGARCH)来检验投资者情绪对国际原油收益率的影响。TGARCH模型中包含杠杆效应,考虑到模型简洁性以及系数更易解释性,本文构建TGARCH(1,1)模型来探究投资者情绪对国际原油收益率的影响,如式(4)~(6)所示。式(4)加入了投资者情绪变量作为影响因素,式(5)讨论了区分主题的投资者情绪变量的影响。由于金融市场收益率通常呈厚尾分布,本文在TGARCH(1,1)模型中假设误差分布为学生t分布。

式(4)中的scorei,t表示5个投资者情绪的代理指标,包括投资者关注度(num_tweets)、投资者情感极性(score_nrc_polarity)、投资者恐惧情感得分(score_fear)、投资者期待情感得分(score_anticip)和投资者分歧(diver_nrc_polarity)。式(5)中的表示区分主题的投资者情感得分,重点考虑“价格动态”“国外交易”以及“外汇市场”等主题。

本文采用PP检验和ADF检验方法来检验时间序列变量的平稳性,相关变量具有平稳性。为了节约篇幅,单位根检验没有在正文中报告。为了验证本研究建立的模型的合理性,需要对式(4)和式(5)构建的AR(1)过程拟合的残差序列进行ARCH效应检验。本文采用ARCH-LM检验来验证ARCH效应,检验结果表明,本文建立的TGARCH(1,1)模型是合理的。

3.2 实证研究结果

针对式(4)~式(6)的估计结果如表2所示。从表的(1)列的结果可以发现滞后一阶的WTI对数收益率具有显著的负向影响。情感极性指标对同期WTI原油对数收益率呈显著的正向影响,这表明投资者情绪处于正面情感时,WTI原油收益率倾向于上升。

表2 TGARCH(1,1)实证结果

考察个体评价的具体情感可以发现,“期待”和“恐惧”情感得分对国际原油收益率有显著的正向和负向影响。这表明投资者的“期待”情绪会推高国际原油市场收益率,而“恐惧”情绪会带来市场收益率下降,但“恐惧”情绪的影响更为显著,其回归系数的绝对值更大。本文通过稳健性检验发现,利用认知评价法计算的情绪得分与情感极性的影响方式并不完全一致。投资者关注度和投资者分歧变量的回归系数在统计意义上并不显著。然而,系数的方向与一些先前的理论或实证结果是一致的。用新闻媒体文本情绪衡量的投资者分歧可能导致市场收益率下降[22]。尽管这两个变量的系数在统计意义上不显著,但本文讨论不同话题下各个变量的影响方式时具有异质性,即在某些特定话题下,投资者关注度和投资者分歧对当期原油收益率具有统计和经济意义上的显著影响。

条件波动率的系数γ在统计上具有显著性,这表明WTI原油收益率的条件波动率受到波动率滞后项的影响。同时,非对称系数项系数β显著为正数,这表明正向冲击和负向冲击对原油市场收益率的影响是非对称的,并且对于坏消息的反应要大于好消息。

表2的(2)列报告了区分主题下的回归结果。可以观察到,在“价格动态”主题下,所有变量的系数都没有通过统计学意义上的显著性检验,这表明投资者对原油价格动态的情绪不足以对原油市场的收益率产生影响。情感极性和认知评价情感得分的变量系数的影响方向以及显著性与(1)列回归结果一致。具体而言,在“外国交易”和“外汇市场”主题下,情感极性对国际原油收益率有显著的正向影响;而只有“外汇市场”主题下,恐惧情绪对原油收益率有显著的负向影响,其系数为-12.50,大于所有推文的恐惧情绪的系数-8.90。在“外国交易”主题下,期待指数对国际原油收益率有显著的正向影响;在“外汇市场”主题下,期待指数也有正向影响,并在10%水平下达到统计显著性。

研究发现,尽管“外汇市场”主题下情感极性对原油收益率有显著的正向影响,但其恐惧情感得分并没有显著影响国际原油市场的收益率。二者实际运行情况为我们提供了一些有益的参考。2014—2015年推文在“外国交易”主题下情感极性和投资者分歧都出现了一段时间的下降,与此同时WTI原油收益率也下降;类似地,在全球新冠病毒疫情暴发之前,推文讨论“外汇市场”主题时的恐惧情绪达到顶峰,此时WTI收益率急剧下跌,随后恐惧情绪开始下降,WTI原油收益率也开始回升。

此外,在(1)列中投资者关注度和投资者分歧对收益率的影响并不显著。然而,通过分主题的回归结果可以看出,针对不同主题,投资者关注度和投资者分歧对原油收益率的影响是不同的。具体来说,在“外国交易”主题下,每日发布的推文数量对原油收益率有正面且显著的影响;而在“外汇市场”主题下,投资者分歧对收益率的影响方式并不一致。研究结果表明,针对“外国交易”主题的投资者分歧会推高WTI原油收益率,而针对“外汇市场”主题的投资者分歧则会降低收益率。此外,非对称系数项系数β显著为正数,这一结果表明杠杆效应的存在,即负面冲击对原油收益波动的影响更大。

本文实证结果表明,区分主题的投资者情绪变量能够提供新的信息,特别是投资者对“外国交易”和“外汇市场”的讨论对国际原油收益率有显著的影响。这些研究结果对行为金融学领域的一些理论提供了新的经验证据支持。

3.3 稳健性检验

本文对TGARCH(1,1)模型进行稳健性检验,限于篇幅,相关表格无法在正文中报告。本文使用经过社交媒体数据训练的VADER词典计算投资者的情感极性和投资者分歧。投资者情绪变量对国际原油对数收益率的影响方式以及估计系数的统计显著性未发生明显变化。在“外汇市场”主题下,投资者关注度对收益率的影响变为在10%的显著性水平下具有负效应,而在“外国交易”主题下,投资者分歧指标变得不显著。然而,这些变量系数的符号方向仍与基准回归结果一致。最后,TGARCH模型的系数经过检验未发现明显变化,杠杆效应项的系数β仍为正且显著,从而证明了杠杆效应的存在。这些稳健性检验结果进一步支持了本文的研究结论。

4 主要结论与建议

本文采集社交媒体平台推特上的推文对国际原油市场的评价文本数据,利用LDA模型和情感分析的方法构建了区分主题的投资者情感指标。一是投资者关注度,用于衡量每个主题下投资者对该主题讨论的关注程度;二是投资者情感极性,用于评估投资者对特定主题的情感倾向;三是投资者的“恐惧”情感得分,用于衡量投资者在特定主题下表达的负面情感;四是投资者的“期待”情感得分,用于衡量投资者在特定主题下表达的正面情感;五是投资者分歧指标,用于衡量投资者在特定主题下的意见和情感差异程度。通过构建这些区分主题的投资者情感指标,本文旨在深入了解投资者情绪对国际原油市场的影响。在测量基础上,本文建立TGARCH(1,1)模型,探讨了投资者情绪与WTI原油收益率之间的同期关系,以揭示投资者情绪对国际原油市场的影响。

研究结论:首先,通过LDA模型的聚类结果,确定推文中存在的“价格动态”“能源期货”“国外交易”“进出口”“北美能源”“外汇市场”和“原油运输”7个主题。本文区分主题的投资者情绪指标在统计分布和时间趋势上并不完全相同,这意味着区分主题的投资者情绪指标能够提供更多的信息。其次,通过构建TGARCH(1,1)模型,发现国际原油市场存在杠杆效应,即市场对不利消息的反应要大于对利好消息的反应。同时,还发现投资者的情感极性和期待情绪得分对WTI原油收益率有正向且显著的影响,而投资者的恐惧情绪得分对原油收益率有负向且显著的影响,但投资者关注度和投资者分歧对收益率的影响并不显著。然而,研究发现,区分主题的投资者情感指数表现出异质性。一是在“价格动态”主题下,投资者情感对WTI收益率没有显著影响;二是在“外国交易”主题下,投资者关注度、情感极性、期待情绪得分以及投资者分歧均对收益率具有正向且显著的影响;三是在“外汇市场”主题下,投资者情感极性和期待情绪得分对WTI原油收益率有正向且显著的影响,而恐惧得分和投资者分歧对收益率有负向且显著的影响。通过使用不同的测量方法,包括更换情感字典和使用含有特定情绪的推文占比等方法,本文的实证研究结果得到了稳健性的验证。

本文的研究结论为市场主体在风险管理方面提供了一些有益的启示,特别是在利用社交媒体文本数据测量投资者情绪与WTI原油收益率之间的关系方面具有一定价值。这一研究强调了社交媒体文本所蕴含的有价值信息,尤其是区分主题的投资者情绪波动。对此,本文提出如下建议。

首先,研究者和投资者应该更加重视国际和国内社交媒体文本信息,因为它们可以为决策者提供有关市场情绪和预测价格走势的重要线索。通过深入了解投资者情绪的不同主题和波动性,管理者可以更好地理解市场的情绪动态,并相应地调整风险管理策略。通过监测社交媒体平台上隐含的投资者情绪,管理者可以更及时地捕捉市场情绪的变化,并据此制定相应的决策。其次,利用社交媒体文本数据测量投资者情绪还可以作为一种补充的预测工具,帮助管理者预测国际原油价格走势。通过分析投资者情绪与WTI原油收益率之间的关系,管理者可以获得额外的信息和见解,从而更准确地预测原油价格变动趋势,并据此进行相应的投资决策和风险管理。此外,研究者和投资者应该充分认识到社交媒体文本数据中潜在的价值,并将其纳入风险管理和决策过程中。通过关注区分主题的投资者情绪波动以及其他相关指标,管理者可以更好地把握市场情绪并做出相应的决策,从而提高投资效果和风险管理能力。

猜你喜欢

极性收益率投资者
投资者
聊聊“普通投资者”与“专业投资者”
跟踪导练(四)
新兴市场对投资者的吸引力不断增强
表用无极性RS485应用技术探讨
一种新型的双极性脉冲电流源
投资者关注对IPO首日收益率影响几何?
键的极性与分子极性判断的探究