投资者关注与情绪对基金收益率的影响研究
——基于文本数据挖掘视角
2023-03-21杨宁史晨阳乔英通讯作者
杨宁 史晨阳 乔英(通讯作者)
(1.南京证券股份有限公司宁夏分公司 宁夏银川 750001;2.北方民族大学数学与信息科学学院 宁夏银川 750021;3.宁夏智能信息与大数据处理重点实验室 宁夏银川 750021)
随着大数据时代的来临,互联网不仅成为投资者发布和获取投资消息的平台,还为研究投资者关注和情绪提供了一条崭新的道路,越来越多的研究者开始从互联网文本大数据的角度衡量投资者的关注和情绪。我国股票市场是典型的散户化市场,相对有大量的投资经验和专业投资分析能力的机构投资者,个人投资者更多的是通过社交网站等平台获取信息,并做出投资决策。
基于此,本文试图从网络大数据中挖掘有效信息,构建投资者关注和投资者情绪指数,研究它们与开放式基金收益率之间的动态变化。
1 样本选择与指数构建
1.1 样本选取
本文选取网络评论文本,直接度量投资者的关注和情绪。使用的基金论坛网络评论数据来自东方财富旗下的“天天基金网基金吧”,通过Python语言编写的网络爬虫程序获取招商中证白酒指数(LOF)A(以下称白酒基金)吧中的网络评论和所评论的阅读数量、评论数量等。样本研究区间设定在2018年1月1日—2022年6月30日。
1.2 数据预处理
首先,删除了新闻帖、基金公司的公告网络评论和基金吧网站自身的网络评论;其次,将一些不包含中文文本却有用的字符进行替换,以便保留 有用信息;最后,删除了文本中包含“半导体”“新能源”和“医药”等其他行业关键词。最终留下了58万多条有效网络评论,每条网络评论平均阅读670.44次,平均回复1.63次。
1.3 指数的构建
1.3.1 投资者关注指数
选取白酒基金吧在t 月的网络评论量取自然对数作为投资者关注指数,即:
式(1)中:A ttt为基金在t 月的投资者关注指数;Attentiont为白酒基金在t 月的网络评论量。
1.3.2 投资者情绪指数
将网络评论分为“积极的“”中立的”和“消极的”三类。从已经标注的13000条网络评论每个类别中分别随机抽取约3333条网络评论,一共10000条网络评论作为本文的标签集,并将这10000条已经标好类别标签的网络评论按照8:2的比例分别作为训练集和测试集。
采用随机森林、朴素贝叶斯、支持向量机和TextCNN四种分类模型进行对比训练,得出每条数据分类的结果,并与测试集人工分类的结果进行对比,计算分类正确率,分类结果如表1所示。
表1结果显示,TextCNN分类模型在本文使用的四种模型中正确率是最高的,达到80.70%。因此,本文确定TextCNN模型为最终的分类模型。
表1 分类模型正确率
用该方法对全部58万条天天基金网网络评论内容按其所体现的投资者情绪积极程度类型分成三类,用以构建本文的情绪指数,参考Antweiler和Frank(2004)的方法,计算公式如下:
式(2)中:S ent为基金在t 月的投资者情绪指数;positivet为t 月网络评论为积极情绪的网络评论数量;negativet为t 月网络评论为消极情绪的网络评论数量。
1.3.3 基金收益率
基金收益率的定义如下:
式(3)中:Pt和 Pt-1分别表示白酒基金在第t 月和第t- 1月的收盘价。
1.3.4 控制变量
百度指数(BI)是百度发布的统计数据,用于反映关键词的搜索频率。本文选择的关键词是“招商中证白酒”,并对其取自然对数,公式如下:
式(4)中:tBI 为第t 月内关键词搜索次数之和。
2 实证检验与结果
2.1 VAR模型建立
式(5)中:A0= (α0, β0,γ0)T为常量向量为滞后内生变量的系数矩阵;C = (δi,ηi,φi)T为滞后外生变量的系数矩阵;是高斯白噪声序列;p 为滞后阶数。
2.2 参数估计结果
建立三元向量自回归模型进行实证研究,模型回归结果如表2所示。
由表2可知,当以投资者情绪指数为解释变量时,在置信水平为95%的情况下,基金收益率的一阶滞后变量的估计系数为正,而投资者关注指数的一阶滞后变量的系数并不显著,意味着基金收益率的变化对投资者情绪具有正向影响,而投资者关注并未对投资者情绪产生影响。
表2 模型回归估计结果
2.3 脉冲响应分析
当误差项改变或模型受到某种影响时,系统的动态变化可以用脉冲响应函数来展示,通过研究脉冲响应函数来了解变量之间的影响程度。
由图1可以看出,总体脉冲响应影响的期数大都在4期左右,即投资者关注、投资者情绪和基金收益率之间都是短期影响,其原因是市场变化迅速,投资者会很快遗忘市场前段时间发生的变化,进而考虑到当下市场行情中来。其中,投资者情绪对基金收益率的影响为正向影响,并在滞后2期时影响效果达到最大,然后在滞后5期左右时衰减到0。投资者情绪的变化会带动市场的变化,在短期内吸引更多资金,引起基金净值的变化。
图1 脉冲响应结果
2.4 稳健性检验
本文在构建Sen指数的基础上,构建了第二种投资者情绪计算方法来保证稳健性,参考李岩和金德环(2018)的方法,计算公式如下:
式(6)中:S enNewt为基金在t 月的新投资者情绪指数,p ositivet为t 月网络评论为积极情绪的网络评论数量,negativet为t 月网络评论为消极情绪的网络评论数量。
在通过了一系列模型稳定性检验之后,新投资者情绪指数格兰杰因果检验结果与原投资者情绪指数一致,且脉冲响应分析如图2所示,即构建的第二种投资者情绪指数在上述场景中仍然适用,说明本文构建的指数和研究的内容具有较强的稳健性。
图2 脉冲响应结果
3 结语
本文将投资者情绪和投资者关注统一在同一个分析框架下研究它们对金融市场的影响,具体通过建立向量自回归(VAR)模型探究投资者情绪指数、投资者关注指数及白酒基金收益率之间的领先-滞后关系。结果显示,基金收益率领先于投资者情绪,投资者情绪领先于投资者关注。基金收益率越高,投资者的情绪越高昂;基金收益率越低,投资者的情绪也越低迷。
基于研究结论,本文提出以下三个建议:
(1)利用网络论坛大数据构建的投资者关注和情绪指数与基金收益率的变化有一定的联系,投资者关注和情绪都会对短期内的收益率有正向的脉冲响应,因此投资者可将投资者情绪应用于实际投资行为中,从而进一步提高投资决策能力。
(2)基金管理者可通过分析投资者的关注和情绪,了解投资者的喜好,预测投资者的行为,及时调整投资策略,进而扩大基金的资金流入。
(3)市场监管者应了解不同的投资者关注和情绪产生的原因、传播的途径及未来的发展方向等,从而做到加强投资者教育,提升投资者服务,建立更加有效、全面的市场监管机制,保护投资者权益,维持市场稳定,促进我国金融市场健康有序地发展。