投资者情绪对规模效应的影响
2019-04-12孟勇,常静
孟 勇,常 静
(山西财经大学 a.统计学院;b.财政金融学院,山西 太原 030006)
一、引言
传统金融认为投资者是理性的,市场价格充分反映了所有可获得信息,即便有“噪音交易者”及短暂的价格偏差,理性投资者的套利行为也会使证券价格回归价值。然而,大量实证研究表明,中国股票市场存在着一系列的金融异象,传统的资产定价模型不能很好地加以解释。为了研究和解释股票市场中的这些异象,许多学者在否定投资者行为是完全理性的传统金融理论假设的基础上,提出了行为金融理论,并从投资者心理角度来研究投资者行为对股票市场的影响,试图对非理性行为进行解释。
投资者情绪一直是行为金融中的研究热点。情绪既可以是投资者对未来风险的偏好,即表现为金融市场的交易数据,也可以是投资者在网络媒体中发布的对市场直接的看法及判断。本文将主成分法与文本挖掘技术相结合,试图构建更加准确的投资者情绪指标,从而探讨投资者情绪对股市规模效应的影响。
二、文献综述
现阶段研究投资者情绪与股票市场的文献不计其数,同时也有不少学者试图解释规模效应的成因,现有研究可归纳为以下三方面:
(一)投资者情绪指数构建
Baker等认为投资者情绪是投资者基于对资产未来现金流和投资风险的预期而形成的一种信念,但这一信念并不能完全反映当前已有的事实。对于同一资产,每个人的预期心理都会不同而产生异质性主观信念,其信念调整便会形成所谓的“情绪”[1]。投资者情绪测度是研究情绪问题的一个基本内容,目前情绪度量的方法主要有以下三种:
1.直接指标法。国外主要是投资者智慧指数(Investor Intelligence)和美国个体投资者协会指数(AAII)。中国现有的调查数据有央视看盘和好淡指数等。Brown等用投资者智慧作为情绪代理变量,证明了定价误差与情绪成正比[2];王美今等基于央视看盘指数构建情绪指标,其理论模型表明投资者投资决策中“基于情感的判断”是影响收益的系统性因子[3]。
2.间接指标法。Baker等选取封闭式基金折价率、股票换手率、IPO上市首日平均收益率、新股发行数量、股利溢价等作为情绪的代理变量,将对剔除宏观因素影响后的第一主成分作为综合投资者情绪指标[1];池丽旭等基于扩展卡尔曼滤波(EKF)方法,首次构造出过滤市场噪声的投资者情绪指标[4];刘丽文等创新性地使用ETF市场交易量作为其中一个代理变量,并采用偏最小二乘法(PLS)构建投资者情绪[5]。这几种方法效果都不错,但目前使用较多的仍是主成分法。
3.文本挖掘法。文本挖掘法起步较晚,但发展较快,目前已受到了广泛关注。网络发帖内容直观地刻画了投资者的心理活动,反映其对市场的预期,可以作为衡量投资者情绪的代理变量。Feuerriegel等以1996—2016年为样本期,在文本挖掘得到的75 927条监管披露临时通知文本的基础上,研究发现文本模型在短期的效果一般,但是在长期(24个月)可以显著减少股票指数的预测误差[6];石善冲等以基于微信文本挖掘的投资者情绪与上证指数收盘价、成交量为研究对象,实证结果表明投资者消极情绪比例能够稳定预测收盘价,积极情绪和中性情绪的变动能够迅速引发滞后一天的成交量变动[7]。
(二)股票市场规模效应的研究
规模效应是指股票投资收益率随公司相对规模的上升而下降,尤其是市值较小的公司股票投资收益率超过市场平均水平的现象,又称为“小公司效应”,是有悖于有效市场假说的一种金融异象。
Banz最早发现了规模效应,即将NYSE(纽约证券交易所)1936—1977年间的上市公司股票按照公司规模(总市值)大小划分为等权重的5个投资组合,实证发现规模最小的投资组合的平均收益率明显高于规模最大的投资组合的平均收益率,即使进行风险调整后这种现象仍然显著存在[8];Fama等通过对公司规模这一因素进行定量研究,极具创新地研究发现,公司规模和账面市值比虽然能够解释美国股市横截面的平均收益特征,但是在考虑了规模因素的同时,β则显得毫无作用了[9]。
从规模效应被发现以来,对它的解释就一直存在争议。一部分学者认为小公司的超额收益率是对其高风险的补偿;也有一种解释是数据挖掘偏差。
Shumway等经过纠正退市偏差(退市股票数据缺失引起的偏差)后发现,纳斯达克市场不存在规模效应,支持第二种解释[10];Pandey等证实了2003年10月至2015年1月印度股票市场中存在规模效应,并进一步研究发现市场、规模因子、价值因子以及经济周期都可以解释规模效应,而流动性因子和动量因子则没有影响[11];呼新乔基于有限理性假设的演化博弈理论,将噪音投资者(散户)与机构投资者(庄家)作为两个不同的参与人进行分析,得出了在散户资金占股市总资金比重较大的情况下,小公司的股价会因为需求增大而上升,从而带来更高收益的结论[12];蒋伟等应用扩展的EGARCH-M模型研究发现,上海股票市场组合的跨期风险收益权衡关系显著为正,沪港通的开通正向加强了这种关系,提高了投资者的风险溢价需求[13];苏坤等在探讨CEO特征对公司研发投资的影响时发现,CEO年龄越大越倾向于保守,从而减少研发投资;而CEO教育程度、任期及CEO持股均与公司研发投资成正向关系;不同性别的CEO在研发投资上没有明显差异[14]。
(三)基于投资者情绪的规模效应研究
关于投资者情绪与规模效应的研究主要集中在两个方面:一是试图用投资者心理解释规模异象;二是将投资者情绪引入资产定价模型,分析其对规模效应的影响。
有学者认为投机心理是导致规模效应产生的一个原因。章晓霞等比较了中美股市规模效应的异同,得出市场操纵和投机风气盛行是中国股市小公司异象的原因[15];张强等通过比较不同规模的股票组合在规模效应消失前后换手率的变化,证实了过度投机是规模效应产生的原因,而小市值股票的超额收益是对因过度投机产生的噪音交易风险的补偿[16]。
Baker等在研究投资者情绪对股市横截面收益的影响中发现,低情绪期存在规模效应,而且情绪对小规模公司影响更加显著[1]。孟卫东等采用主成分分析法分别构造了AH股市场综合情绪指数,运用条件贝塔参数随着投资者情绪和公司特征变化的两阶段条件资产定价模型进行实证分析,结果表明加入投资者情绪的条件定价模型后,AH股定价的规模效应变得不显著,而A股定价的价值效应显著下降,进而得出投资者情绪可以帮助定价模型捕捉股票定价异象的结论[17]。
本文在文本挖掘技术与主成分法相结合的基础上构建投资者情绪指数,提高了情绪指数构建的可靠性与准确性。相较于以前文献多是从公司特征方面来解释规模效应,本文试图从市场角度探讨投资者情绪对规模效应的影响,既是大环境下的研究热点,也丰富了投资者情绪与股市异象的研究内容。
三、文本情绪成分的构建
在当今社会,投资者广泛存在于各行各业,其中不乏噪声交易者与市场引导者,而了解其对金融市场的看法及预期对于研究金融市场至关重要。媒体文本作为发布者情绪的载体,直接或间接地反映着投资者的决策心理,对金融网络的情感分析可以有效地研究投资者做出投资决策的过程。互联网媒体所发布的内容对研究投资者心理和行为大有裨益。
本节将新浪财经网站的博客文本作为文本来源,采用基于词典的情感分析法,通过计算情感得分构建文本情绪指标。
(一)选取文本来源
互联网的文本内容杂乱且类型繁多,在这众多金融文本中要选出最适合且方便研究的文本来源,表1列出了几大财经网站文本信息的特点。
表1 网站文本内容及格式比较表
综合比较几个财经网站的页面布局及所发布文章的内容、特点,本文将新浪财经网站确定为文本来源。
(二)采集股票评论文本
选取新浪财经股票版块下大盘评述专栏里的2010年1月—2017年8月发布的所有文章作为要抓取的金融文本。R软件的rvest包与XML包可以帮助解析网页源代码,找到评论内容所在的路径,从而提取所需的文本信息。该版块共爬取的文本数约11万条,编写程序时将每日所有网络评论(约有40条)放入同一个txt文件,文件以日期命名。
(三)建立情绪词典
在完成文本文件的抓取过程后,要对文本进行清洗去噪、分词,建立情感词典。文本清洗去噪过程中,笔者采用R软件tm包去除语料库中不必要的标点符号,如数字及英文字母及停用词(如的、了、和、且、或等)。在前人研究的基础上,将大连理工、台湾大学及知网情感词典扩充到R软件中,确保软件可以识别这类情感词;利用Rwordseg包对清洗后的文本进行分词,其核心思想是先识别出词库内有所记载的词语,剩下的字会被尽可能地两两作为一个单词,分词结果存储在txt文件里;人工删除无意义或者中性的词语,筛选出带有金融情感的词语,该词语要能够充分反映投资者对市场是充满信心还是失望;再将这些情感词分类,建立积极(市场看多)、消极(市场看空)金融情绪词典。
(四)构建文本情绪成分
在此过程中,具体任务是统计原始文档中积极、消极情绪单词出现的频数,积极频数与消极频数之差占总和的比例就是情绪得分,该得分是股票投资者所表达的所有积极、消极情感的体现,这也就是笔者所构建的文本情绪指标。文本情绪成分与上证综指收益率的相关度达到0.75。
四、投资者情绪指标的构建(一)变量选取
Baker等选用封闭式基金折价率、IPO首日发行数量、收益、市场交易量、股利收益、股票发行占证券发行的比例6个指标,在剔除宏观经济因素的影响之后采用主成分法构建综合情绪指数[1],这一指数被称为BW指数,是一种经典的测度投资者情绪指数的方法。本文借鉴BW指数的研究方法和思路,结合文本挖掘技术,选取市场成交量(VOL)、交易额(AMOUNT)、换手率(TURN)、IPO首日发行数量(IPON)、封闭式基金折价率(DCEF)、消费者信心指数(CCI)、中国投资者信心指数(ICI)、网络文本情绪(TM)8个变量作为投资者情绪的代理指标,并将宏观经济景气指数(MBCI)、工业增加值(IAV)、居民消费价格指数(CPI)、工业品出厂价格指数(PPI)作为经济基本面的代理变量,构建综合投资者情绪指数。本文选取2010年1月至2017年8月的月度数据作为研究样本,数据来源于Wind数据库、国家统计局网站和新浪财经网。
1.成交量(VOL)。交易量在反映股票市场交易规模的同时,还能反映投资者的参与程度,当投资者情绪高涨时,其股票投资的积极性也会很高,市场交易量上升。成交量是投资者情绪的正项指标,采用上证综指的月成交量代表股市的成交量。
2.交易额(AMOUNT)。市场成交额在某种程度上能够反映出投资者的估价水平和参与程度,进而可以看出对市场的看好程度。通常而言,投资者对市场越乐观,参与交易的意愿就较高;相比于消极的情绪,高涨情绪下的投资者更乐意于高价成交,而投资者情绪越积极,市场成交额越大。采用上证综指的月成交额代表交易额。
3.换手率(TURN)。换手率指在一定时间内市场中股票转手买卖的比率,反映了股票流通性强弱和投资者的投机性需求。一般而言,投资者情绪越高,投机性需求驱动投资者去追逐看起来容易快速获利的股票,因而市场交易越活跃,股票换手越频繁;反之,投资者情绪低迷时投资者的投机性需求大大降低,其交易行为会趋于保守,换手率偏低。采用沪深300指数换手率的加权平均,计算公式为:
(1)
其中n为t月最后一个收盘日沪深300指数所包含的公司数量,hslit为公司i在t月最后一个收盘日的换手率,weightit为t月最后一个收盘日公司i在沪深300指数中的权重。
4.IPO首日发行量(IPON)。在股票市场中常常存在“热市”与“冷市”的现象,IPO收益是市场时机选择的结果,即IPO时机选择问题。当月新股发行数多或交易量大时,表明投资者对宏观经济预期表现持乐观态度,就会选择积极参与股市交易,投资者情绪高涨。因此,上市首日发行数量能较好反映投资者的热情程度,且为情绪的正向指标。以发行日公告为准统计每月IPO数量。
5.封闭式基金折价率(DCEF)。封闭式基金折价率用来衡量封闭式基金价格相对资产净值的负向偏离程度。折价率下降,意味着投资者看好上市公司盈利前景进而积极评估资产价格,投资者情绪趋于乐观;反之,表示投资者看淡上市公司盈利前景进而保守评估资产价格,情绪趋于悲观。封闭式基金折价率反映了投资者对上市公司盈利前景的预期,且与情绪负相关。采用全部WIND封闭式基金折价率加权平均的月度值,计算公式为:
(2)
其中n为t月公开发行的封闭式基金数量,Closeit为基金i在t月最后一个交易日的收盘价,NAVit为基金i在t月最后一个交易日的单位净值,Nit为基金i在t月最后一个交易日的份额;DCEFt大于0时为溢价,小于0时为折价。
6.消费者信心指数(CCI)。中国消费者信心指数由经济日报中经产业景气指数研究中心和国家统计局中国经济景气监测中心共同编制发布,每月发布一次。消费者信心指数能够综合反映市场对当前经济状况的满意程度和对未来经济发展的预期和信心。本文认为消费信心指数与投资者的投资情绪有正向关系,该指标反映了投资者对市场的乐观程度。
7.中国投资者信心指数(ICI)。根据应用心理学理论,一个人的信心是其情绪长期变化的具体表现。如果一个人长期积极乐观,那么其信心会增加;反之,如果一个人长期消极悲观,其信心就会减弱。“耶鲁-CCER中国投资者信心指数”项目由行为金融学派代表、耶鲁大学经济学教授罗伯特-希勒博士发起,并领导投资者信心指数的研究编制工作,每月发布一次。本文对个人和机构投资者的投资信心分别进行量化,综合得出中国投资者信心指数,该指数与中国的股票市场和经济状况呈正相关性,具有一定的预测作用。
(二)描述性统计
引入文本情绪(TM)作为投资者情绪指标的第8个代理变量,对这8个变量做描述性统计分析,结果见表2。
由表2可以看出,由于量纲不同,各变量的均值和标准差差异较大,此时不宜直接使用标准差来比较离散程度,而变异系数能反映各变量的离散程度;消费者信心指数(CCI)、投资者信心指数(ICI)变异系数的绝对值均大于5,说明CCI和ICI的离散程度较大,波动幅度较大;IPO首日发行量(IPON)和网络文本情绪(TM)变异系数的绝对值均小于0.5;IPON和TM分布较密集,波动范围小。
表2 投资者情绪代理变量描述性统计分析表
注:变异系数=标准差/均值,成交量的单位为亿手,成交额单位为百万元,IPO首日发行量单位为亿。
通过观察发现8个变量的偏度值都不为0,分布都不是对称的,其中网络文本情绪(TM)和封闭式基金折价率(DCEF)的偏度为负值,分布呈左偏,其余变量偏度为正值,呈右偏态;通常情况下样本峰度是和正态分布的峰度相比较而言的,正态分布的峰度为3,若样本峰度大于3表明样本分布在均值处的概率较大,呈尖峰态,比正态分布陡峭;消费者信心指数(CCI)、投资者信心指数(ICI)和网络文本情绪(TM)的峰度小于3,分布情况较为平缓;其余5个变量的峰度均大于3,分布情况较正态分布陡峭。
(三)控制宏观因素影响
原始情绪代理变量可能会受宏观经济因素系统性的影响,不能完全反映投资者情绪的变化,故对情绪代理变量剔除宏观经济成分后才可用于构建投资者情绪指标。采用多元线性回归模型来剔除宏观经济影响,将8个情绪代理原指标VOLt、AMOUNTt、TURNt、IPONt、DCEFt、CCIt、ICIt、TMt分别与4个宏观经济变量工业增加值(IAVt)、居民消费价格指数(CPIt)、工业品出厂价格指数(PPIt)和宏观经济景气指数(MBCIt)进行回归,将回归得到的8个残差序列作为新的情绪代理指标,此时的代理变量已剔除宏观因素的影响,可以作为反映投资者情绪的直接变量。
(四)主成分检验
为了消除原始数据数量级和量纲的差异带来的影响,需要对残差序列进行标准化处理。在进行主成分分析之前,需要对变量进行相关性分析,以判定是否符合做主成分分析的条件。主成分分析的两种重要检验是KMO检验和Bartlett’s球形检验。KMO值反映了原始变量的相关系数和偏相关系数的大小,KMO值越接近1,表示其相关性越大;若KMO值大于0.5,则认为可以进行主成分分析。Bartlett’s球形检验一般用于检验相关矩阵是否是单位阵,即各变量是否独立,Bartlett’s球度统计量越大越好,其伴随概率小于0.05时,说明适合做主成分分析,将标准后的残差进行KMO检验和Bartlett’s 球形检验,结果显示KMO值为0.68,Bartlett’s球形检验的伴随概率远小于0.05,适合做主成分分析。
(五)主成分法构建投资者情绪指标
对标准化后的8个残差序列进行主成分分析,结果显示前3个主成分的特征值均大于1,累计方差贡献率达到74%,可以解释大部分信息(见表3)。
表3 前三个主成分载荷矩阵表
以特征值为权重,采用3个主成分的加权平均构建综合情绪指标,最终结果如下:
Sentt=0.213AMOUNTt+0.229VOLt+
0.251CCIt+0.217TURNt+
0.203IPONt+0.117DCEFt+
0.294ICIt+0.243TMt
(3)
五、投资者情绪与规模效应(一)数据来源
本文选取2010年10月至2017年8月为样本期,将全部A股市场中数据不全的股票,被特殊处理(ST)和特别转让(PT)的股票剔除后剩余的1 605只股票作为研究样本。
根据个股收盘价的月度数据来计算股票在第t月的收益率:
(4)
其中Pi,t指股票i在t月最后一个交易日的收盘价,Pi,t-1指股票i在t-1月最后一个交易日的收盘价。
组合平均收益率是按流通市值加权的平均收益率,计算公式为:
(5)
(二)规模效应存在检验
采用组合分析法检验中国股市是否存在规模效应。每隔一个月对所有样本股进行流通市值排序,从而得到2010年1月至2017年8月共92次市值规模的排序。每次排序后,将其按照规模大小平均分为5分,使得第一组的公司规模最小,而且每组中样本股数量占总样本股数量的20%。对于每一个投资组合,计算其按市值加权的平均收益率。通过对组合收益率进行比较,判断“规模效应”程度(见表4)。
表4 规模效应实证结果表
从表4可以看出,规模最小的组合平均收益率为2.53%,而组合5的平均收益率为-0.3%。面板回归结果显示t统计量为-7.27,中国股票市场存在显著的规模效应,即小公司股票具有较高的收益率,大公司股票有较低的收益率。
(三)当期情绪对规模效应的影响
首先,按照流通市值大小,将当月全部股票分为10等份,其中组合1规模最小,每组约包含160只股票,计算各个组合的加权平均收益率;其次,将当期情绪分为乐观、中性、悲观3种状态,其中乐观期有30个月,中性和悲观都各有31个月;再次,计算不同情绪状态下所有组合的平均收益率,比如在乐观状态下,小盘股1有30个不同的组合收益率,对这30个数值进行加权平均,即可得到当期情绪为乐观状态下的小盘股1的收益率。据此,研究投资者情绪对规模效应的影响(见表5)。
表5 当期情绪对规模效应影响表
注:市值规模从小到大排序均分为10等份,将其分别编号1~10,其中编号1组合的规模最小。
从表5可以看出,在当期情绪为乐观和中性状态下,规模效应在1%水平下显著;当期情绪悲观时,规模效应在10%水平下显著;在投资者情绪从悲观逐渐转为乐观的渐进过程中,t统计量的值不断增大,规模效应显著性增强。
通过纵向比较同一情绪状态下不同市值规模组合的收益率可以看出,乐观状态下组合收益率明显高于其他2种状态。处于同一时期内,投资者情绪与股票收益有正向关系。情绪越热烈,买入意愿就越高,反映在股价上就是上涨得越快。情绪指标可以反映投资者的投资意愿,也进一步验证了本文所构建的情绪指标的有效性。
(四)市值规模对情绪变动的敏感度
为了进一步分析投资者情绪对规模效应的影响,对表5的数据进行处理。表5中,第2列与第3列的数值的差值显示了不同规模股票组合从乐观到中性情绪变动的反应程度;第3列和第4列的差值是股票组合对中性到悲观的反应敏感度。
表6 市值规模对情绪变动的敏感度表
注:市值规模从小到大排序均分为10等份,将其分别编号1~10,其中编号1组合的规模最小。
从表6可以看出,当情绪在不同状态间变动时,小盘股组合收益的变动幅度较大;相比于大盘股,中小盘股受情绪的影响比较剧烈,对情绪变化更为敏锐;相比于规模较大的公司,小公司股票交易量少,流动性差,此类股票的投资风险较大。该股票相关的市场信息量少,投资者容易捕风捉影,对噪音信息反应敏捷。
由于小盘股更易受到情绪的影响,当投资者情绪上升时小盘股与大盘股的收益率同时上扬,但是小盘股的增加量更多,因而SMB(小盘股与大盘股收益差值)被拉高,规模效应显著;反之,当投资者情绪降低时不同规模股票收益率均下降,但是小盘股下降的程度比较大,使得SMB减小,规模效应显著性减弱,即投资者情绪越高,规模效应越显著。
六、总结与建议
大量实证表明中国存在金融异象,诸多学者试图用投资者情绪对其进行解释。本文将BW方法与文本挖掘技术相结合,构建新的投资者情绪指数,并研究投资者情绪对股市规模效应的影响,实证结果表明:在样本期内中国股市存在显著的规模效应,而且当期情绪越高涨,其规模效应越显著,这主要是由于小盘股易受到情绪影响所引起的。
为避免投资者情绪波动过大对中国股市的稳定运行造成不利影响,可采取以下措施:对于投资者而言,个人投资者和机构投资者在参考网络评论进行投资时,应该了解情绪会对自身以及管理者投资策略的影响,由此改进自己的投资方式;对于网络监管者而言,加强对网络论坛的监管和控制,防止不法分子操纵舆论影响投资者,尤其是情绪的转变可能引起的市场泡沫及非理性繁荣;对于政府而言,加强对中小投资者的理性投资指导,以减少投资者非理性行为对市场的冲击,进一步完善证券市场监管机制;中国证监会等相关部门可以对个体投资者适当地设定准入门槛,如融资融券的比例、投资经验、财富基础等等,从而限制部分投资者的过分投机行为,以营造良好的市场交易氛围和投资环境。