基于基本面分析的量化投资:研究述评与展望
2021-01-13侯晓辉
侯晓辉,王 博
(西安交通大学 经济与金融学院,陕西 西安 710061)
一、引 言
随着金融学理论和现代计算技术的发展,金融与科技深度融合的重要性愈加凸显[1-2]。基本面量化投资作为一种结合基本面价值分析与量化技术的投资方法,成为近年来投资领域研究的新热点。随着中国资本市场的飞速发展,以及基本面信息越来越海量化、复杂化,学界和业界都需要寻求更科学、更高效的方式来处理基本面信息。基本面量化投资应运而生,其运用现代量化工具对估值指标进行筛选和排序,进行深度分析并制定相应的投资策略。股票市场自从诞生以来就成为学者们研究的焦点[3],同时遵循学术界的传统和理论发展脉络,本文对基本面量化投资的研究限定于股票投资。
目前关于基本面量化投资深度融合的理论研究和实践应用相对较少,本文在回顾国内外相关文献的基础上,分别探讨了基本面投资、量化投资的概念和理论实践的发展,介绍了两种投资方式的理论基础,在此基础上系统梳理了相关实证研究及基本结论,最后对未来的研究工作进行展望。
二、基本面量化投资概念内涵及演进
(一)基本面分析与价值投资
通过定量与定性的方法,分析与公司相关的经济和金融数据来衡量证券内在价值,被称为基本面分析(Fundamental analysis)。基本面分析的理论发展和实践应用可以追溯到价值投资理论创始人Benjamin Graham的经典著作《证券分析》,他指出,对股票的投资应当基于对股票内在价值的判断,股票的价值是由其基本面因素所决定的[4]。根据Irving Fisher的未来现金流贴现模型,Williams在研究中提出股票的价值应当等于持有者在未来收到的股利的贴现值[5]。在此基础上,Gordon和Shapiro基于公司当前股利和基本面因素,研究了股利增长的度量,论证了基本面分析的合理性,但该模型对于高成长性公司的预测准确度较低[6]。基于此,Alfred Rabpaport提出了贴现现金流量模型,结合公司基本面因素、成长性和未来创造现金流的能力,通过当期现金流来预测股票的价值[7]。Feltham 和Ohlson提出了超常收益模型,同时考量了股利的贴现与来源于资产价值的剩余收益,将当期的会计基本面因素与公司未来收益关联起来[8]。
在学术研究中,基本面分析能够将价格与价值分离开,有助于解释一些经济现象,如巨额交易量、超额收益波动性、收益可预测性、资本成本悖论以及主动资产管理行业的持续存在等。随着相关理论如现代投资组合理论[9]、资本资产定价模型[10-11]及有效市场假说(EMH)[12]的提出,基本面分析开始受到挑战。主要体现在,基本面分析在量化和响应敏捷性方面有所欠缺,实证研究中也经常发现其对股票价格变化的解释存在缺陷。此外,基于基本面分析的价值投资需要通过财务数据进行个案分析,其效率不高。在信息时代,价值投资策略的变量更为庞杂,市场“噪声”不断增加,传统的个股估值分析遇到技术瓶颈。
(二)量化投资
量化投资(Quantitative investing)是一种以数量化统计分析工具为核心、以程序化交易为手段的交易方式[13]。Chincarini指出,量化投资遵循以下理念:一是市场是有效的;二是量化投资策略下的套利机会具有统计意义;三是量化投资分析应该以坚实的逻辑和理论基础做支撑;四是量化模型应该具有持续性和稳定性;五是必须将风险控制在足够小,超额收益才有意义[14]。
作为数理模型在金融领域的一种前沿应用,量化投资模型有着清晰的发展脉络:
1.均值方差模型
1952年,Markowitz首次使用投资组合收益方差度量风险,运用均值方差分析确定最优投资组合,并提出了风险分散的原理,这标志着现代投资组合理论的开端[9]。采用期望收益E度量证券收益,收益的方差δ2度量投资风险,各个资产预期收益的加权平均表示资产组合的总收益,则均值方差模型如下:
minδ2(rp)=∑∑ωiωjcov(ri,rj),
E(rp)=∑ωiri
其中,rp表示组合收益;ri,rj表示第i种、第j种资产的预期收益率;ωi,ωj表示资产i和资产j在组合中的权重;δ2(rp)表示组合收益的方差,即总体风险;cov(ri,rj)表示两种资产之间的协方差。该模型的目标是在给定的风险水平下,形成具有最高收益率的投资组合。
投资组合理论对于量化投资的发展具有重大意义。一方面,它对风险进行量化定义,同时引入的数学工具可以处理现实中各种复杂问题;另一方面,传统的基本面分析用到的量化数据较少,而新的量化技术构造的投资组合可以包含成百上千的样本量,量化投资理论和实践得以蓬勃发展。
2.CAPM模型
在Markowitz均值方差模型基础上,Sharpe等人进一步建立了资本资产定价模型(CAPM)[10]。该模型用β系数衡量投资组合收益率与市场收益率的关系:
ra=rf+βa(rm-rf)
其中,ra表示组合收益率;rf表示无风险收益率;βa表示投资组合系数;rm表示市场收益率。
3.三因子模型和多因子模型
Fama和French建立了基于公司规模、超额收益、账面市值比的线性模型,即三因子模型[15]。三因子模型从本质上是CAPM模型的延伸,其在初期对大部分股票的市场表现具有良好的解释力。但随着市场的发展,越来越多的异象不能被该模型有效地解释,因此学者们对模型不断进行丰富和完善,从基本面、技术面、市场情绪和宏观周期等有价值的市场信息来获得收益,进而发展出多因子模型。目前,常用来预测的因素包含以下三类:一是估值类指标,如PE;二是盈利能力指标,如ROA、ROE;三是新兴因素,如情绪、投资者信心等。
量化投资方法的科学性在国外成熟资本市场已经得到了验证,但在中国市场的大规模应用还存在一定的障碍。首先是市场结构的差异,国外成熟资本市场以机构投资者为主,而中国市场中机构投资者尚不成熟,依托于模型和计算的量化投资方法不易推广。其次,量化投资对数据质量要求较高,成熟资本市场有着成熟的数据供应商,数据质量也较高。
(三)基本面分析与量化投资的对比
综上,基本面分析和量化分析有着明显的差异(如表1所示)。从关注点上看,基本面分析聚焦于特定的目标公司,致力于尽可能全面挖掘公司信息;而量化分析利用计算机技术广泛跟踪大量资产,其重点是通过技术方法构建选股模型。从分析过程来看,基本面分析更多地采取定性方法,而量化投资充分使用了数学模型、统计学和计算机算法。从投资风格上看,基本面分析要求对公司治理、行业趋势和宏观经济环境进行深入调研,属于一种高投资深度、低投资广度的投资方法;而量化分析使用计算机执行交易指令,属于低投资深度、高投资广度的投资方法。从时间上看,由于公司基本面因素相对稳定,基本面分析适用于中长期投资;而量化分析的投资策略则是基于历史数据敏锐地捕捉市场变化,寻找最有效的阿尔法因子,对短期的收益做出预测。从风险上看,基本面分析关注公司层面面临的宏观经济风险和产业政策风险,对风险的度量通常使用定性研究的方法且风险层次往往是特异性的;量化分析由于研究的是大样本呈现的统计规律,因而是投资组合层次的风险。从仓位控制上看,基本面投资组合仓位往往更集中,而量化分析更为分散。
表1 基本面分析与量化投资的对比
资料来源:作者整理。
(四)基于基本面分析的量化投资
基本面量化投资(Quantamental Investing)是量化投资与价值投资的一种深度融合,是近年来备受关注的一种智能量化投资方式[16-17],其核心是分析股票的基本面因素和超额收益之间的关系。基本面投资和量化投资的互补特性,使得基本面量化投资成为价值投资的现代化实现手段。基本面量化投资的选股模型通过对公司的财务指标、股票市场表现、行业地位等信息进行量化,借助数学工具构建出能够有效解释和预测超额收益的因子。将基本面分析纳入量化模型框架之中,能够对股票及投资组合进行更加全面和稳健的考察,并且具有如下优势:一是基本面分析为量化模型的建立提供坚实的逻辑和理论支撑;二是量化投资分析方法能够考察海量的历史数据,得出相对可靠的统计规律;三是基本面分析从对公司未来增长的角度考虑因子选取,量化分析从历史数据考察因子的有效性;四是基本面投资能够对投资组合表现及原因进行全面的、多层次的理解和分析。
三、基本面量化投资研究的理论基础
目前对于基本面量化投资的研究和实践主要基于四个方面的理论基础。
(一)有效资本市场假说
资产价格实证分析领域的著名学者Fama[12,15]系统地提出了有效资本市场假说(EMH)。有效市场假说认为,如果证券市场没有交易成本,且每个市场参与者都能够及时、充分地获取信息,那么股价就应该及时、充分地反映资产价值,此时公司股价是对其未来股利折现的最佳预测。通常以下列形式表达:
其中,Vt是股票在时刻t的基本面价值,Et(Dt+i)是基于时刻t的可获得信息所预测的第t+i期股利,r是经过风险调整的折现率。
Fama在研究中指出,“如果市场是有效的,那么价格已经很好地反映了证券的内在价值,在这种情况下,只有当分析师有新的信息或对已有信息有新的解读,分析师所执行的基本面分析才是有价值的”。EMH将价格从基本面价值中分离出来,是基本面量化投资研究和实践中至关重要的一步。投资实践中,由于信息不对称、流动性不足、交易成本高、投资者行为偏差等因素的存在,股价较长时间背离基本面的情形经常出现。金融经济学家们对其基本假设也提出疑问,认为应该更多地关注信息获取的成本和动机。但是,EMH还是被广泛接受,并成为实证资产定价领域的基石。王少平和杨继生通过对联合p值综列单位根检验进行扩展研究,发现中国证券市场具有弱有效性[18]。
(二)投资者情绪与噪声交易者理论
著名金融学者Shiller最早观察到基本面因素无法解释的股价过度波动现象。在随后的研究中,Shiller提出了一个简单噪声交易者模型。在噪声交易者模型中,投资者情绪会导致价格偏离基本面价值[19]。Black将噪声交易定义为“把噪声当作信息并基于此而进行的交易”。他指出,噪声交易是传统模型中“被遗漏的要素”,能够有效解释巨大交易量、实际收益率波动以及套利机会的持续存在[20]。
与有效资本市场假说过于简化的形式不同,噪声交易者模型考虑到了信息获取成本,巧妙地将基本面、投资者情绪和套利成本等三个关键因素融入证券价格的形成过程中。相比有效市场假说,噪声交易者理论更适合作为基本面分析和证券估值的起点。此后,关于金融市场噪声交易者模型的研究基本围绕三个方面开展[21]:一是投资者情绪或非基本面因素;二是公司基本面或证券估值;三是套利约束。
受降雨影响,淮河干流出现复式洪峰。其中,淮河干流王家坝以上河段出现4次洪峰,王家坝—临淮岗河段出现3次洪峰,临淮岗—淮南河段出现2次洪峰,淮南以下河段出现1次洪峰。淮河水情总体呈现出干支流洪水并发、洪水组合恶劣、涨势猛、水位高、干流中游高水位持续时间长以及洪水量级大等特点。淮河干流水位超警时间在20~30天。其中,王家坝至润河集河段水位超保证水位,润河集至汪集河段水位创历史新高。初步分析,2007年淮河洪水王家坝、润河集、正阳关、蚌埠洪水重现期为15~20年,洪泽湖约为25年,为20世纪以来的第二位流域性大洪水。
大量研究表明,投资者情绪会影响资产定价以及公司决策,如投资决策、股利政策和信息披露决策等。关于投资者情绪的经典文献包括Shiller[19]、DeLong等[22]、Lee等[23]以及Baker and Wurgler[24]等。这些研究都认为,噪声交易者易产生随机且错误的观点,进而显著影响资产价格。噪声交易者模型的理论核心至今仍然经得起检验,并且在行为金融学领域保持着旺盛的生命力。
(三)价值投资理论
大量的学术研究和投资实践都表明,资产负债表健康、现金流持续稳定、盈利能力较强、贝塔值较低、波动率较小的公司,通常其预期股票收益更高[25],学界通常称为“价值效应”。股利贴现模型、自由现金流贴现模型以及剩余收益模型等,都是价值投资分析中常见的估值模型。股利贴现模型最早由Williams在1938年提出,该模型认为,股票的价值等于未来股利的贴现值。
20世纪90年代,奥尔森发表一系列关于权益估值的文章,丰富和完善了剩余收益模型(RIM)[8,26-27]。学术文献中剩余收益模型最常见的表达形式为:公司价值等于当前账面价值加上未来预期超额收益率,具体数学公式为:
其中,Bt表示第t期的账面价值,Et表示基于第t期信息的期望值,ROEt+i表示第t+i期账面权益的税后收益率,re表示权益资本成本。
剩余收益模型表明,公司基本面价值由现有资本和未来成长两部分组成。在该模型框架下,基于估值维度和质量维度的基本面量化投资是价值投资理念的具体表现。而在这两大维度下,继续深入挖掘更多的因子方向、选择更有效的指标就成为基本面量化的重点。剩余收益模型在大样本选股中具有丰富的应用,Frankel和Lee的实证研究说明了剩余收益模型能帮助投资者选出高回报的股票[28]。
(四)多因子量化策略
现有文献研究了大量的影响股票收益率的因子,这些因子主要涉及基本面、技术面、宏观经济等方面的数据和指标。多因子量化策略的核心思想在于,市场影响因素是多重的、动态的,但是总会有一些因子在一定的时期内较为稳定。
基于多因子量化策略发展出来的多因子模型,成为量化投资领域应用最广泛、最成熟的量化选股模型。多因子选股模型通过大量的数据模拟,寻找大概率能跑赢市场的最优组合,克服了单因素模型可持续性差的缺陷,同时更加稳定。投资组合理论、资本资产定价(CAPM)、套利定价理论(APT)等现代金融投资理论为多因子模型提供了理论基础,而Fama的三因子模型则通过在资本市场的实证研究检验,给出了将因子具体化的应用方法,成为量化投资领域的经典模型。学界的研究通常使用Fama French三因子模型、Carhart四因子模型[29]或者Fama French五因子模型,投资界则通常使用Barra提供的多因子模型。进入大数据时代,越来越多的研究通过对大数据的收集处理,找出影响股票涨跌的各种因子进行选股[30]。
四、基本面量化投资的实证研究
文献回顾发现,国内外学者对基本面分析和量化投资的实证研究都已有了较为丰富的成果,对其在投资预测中的优缺点也有了清楚的认识,同时对基本面量化投资这一新兴领域进行初步探讨,形成了一系列实证研究成果。
(一)关于公司基本面估值
围绕价值的度量,学者们开发出大量的衡量标准,如账面市值比[31-32]、盈余价格比[33-34]、现金流价格比[35-36]、销售收入与公司价值比[37]。大量文献表明,价值股的业绩表现优于成长股。随着研究的发展,学者们的关注点不再局限于公司内在价值与当前股票价格的对比,进一步扩展到一组能够预测公司发展质量与稳健性的基本面因素。Piotroski的研究表明,具有更高资产回报率、营运现金流量、利润率、资产周转率的企业有更好的业绩[38]。Mohanram的研究验证了具有更高市净率的企业相比于增长缓慢的企业收益更高[39]。学者们发现,除了盈余的数量外,盈余质量也非常重要。Sloan[40]和Richardson等人[41]的研究都发现,盈余中的现金流部分相比于应计项更为持久。Hirshleifer等人的研究发现,相比于整体会计利润,具有较低历史现金利润的公司表现欠佳[42]。Novy-Marx发现,相比于净利润指标,毛利润是一种更好的利润度量指标[43]。此外,诸多研究证明,安全、稳健的股票能获得更高的收益。反映企业安全性或稳健性的基本面因素包含较低的波动性[44-45]、较低的Beta系数[46-47]、较低的杠杆比率[48-49]等。
在国内研究中,孙友群等基于对我国上市公司整体质量的分析,肯定了在中国市场进行价值投资的可行性[50]。姚辉和武婷婷的研究发现,兼顾基本面与估值指标的价值投资策略能获得显著的超额收益,且该投资策略在中长期的表现更好[51]。张然和汪荣飞的研究提炼出市盈率、市净率、市销率、企业价值倍数、股息率等五个最具代表性的估值指标,以及盈利能力、经营效率、盈余质量、投融资决策、无形资产等五个衡量公司质量的维度[17]。
然而,实证数据同时也表明,公司基本面信息只能部分解释股票收益率的波动性。Cutler等人在向量自回归模型中使用了一组能够反映过去、现在和未来的宏观经济变量及行业基本面因素,模型对股票市场收益率的年波动性的解释能力也不到50%[52]。其他学者也试图运用会计基本面变量来解释股票收益率,研究结果均发现解释力不够理想[53-54]。这是由于市场一直处于“噪声”下,如前述的投资者情绪就被证明对股票收益有解释甚至预测的作用[55]。在杨雁的研究中发现,总资产周转率对股价的影响很小,现金流量和偿债能力相关的基本面指标也没有显著的影响[56]。
(二)关于阿尔法因子
在多因子模型中,能够带来超额收益的阿尔法因子是模型的核心。目前学界主要有两种阿尔法模型:基本面因子模型和宏观因子模型。基本面因子模型主要利用基本面因子(如市净率因子、规模因子等)。Lee等发现,基本面因子模型是更好地衡量股票预期收益的指标[16]。同时,基本面因子模型更适用于基本面量化投资。Asness等从市净率(P/B)展开讨论,得到衡量股票质量的四个维度——盈利能力、增长能力、安全性和股利发放,并且根据这四个维度的相关指标构建了股票质量因子(QMJ),回溯测试表明该因子能获得显著且稳健的超额收益[57]。
尽管现有的文献研究提出了数百种阿尔法因子,但后续的检验中却发现,其中大部分因子难以持续地提供超额收益[58-59]。这一现象可以用无套利原理来解释:当某个阿尔法因子被市场熟知并广泛应用后,其超额收益将收窄乃至消失。国外学者在因子选择、选股方法、数据选择、组合构建上都进行了广泛的实证研究。Kariya将传统成长因子与价值性因子结合起来,提出了较有代表性的 GARP 多因子量化策略[60]。Piotroski首次将排序打分法融入多因子选股模型,选出九个财务指标作为判断标准,然后检验得分排序靠前的股票,取得良好效果[38]。Mohanram从盈利因子、成长因子、稳健因子三方面选取指标对个股进行排序打分,最后建立的投资组合取得了较好的超额收益[39]。Albadvi和Norouzi利用德国市场数据对基本面方面的因子进行了研究,发现不同行业具有不同的有效因子,并且不同因子对收益率的影响程度也不一样[61]。
国内有关研究起步较晚,主要集中在用国外因子模型检验中国市场,同时根据国内股市情况进行修正。陈守东等较早证明了FF三因子选股模型在中国股票市场的适用性[62]。朱忆构建了包含利率风险溢价、换手率等因子在内的多因子模型,得到了可行的策略[63]。刘辉、黄建山的实证研究发现,相较CAPM模型,FF三因子模型能更好地解释A股的收益率[64]。江方敏研究发现只有估值因子中的市净率、市盈率是有效的,同时他还创新加入了现金流因子[65]。刘昭将情绪因子加入多因子选股模型后,研究发现模型的表现更加出色[66]。潘莉、徐建国研究了A股市场的风险与特征因子,发现市场平均回报率、股票市值和市盈率三个因子可以解释回报率变化的90%以上[67]。
(三)基本面量化投资的研究方法和工具
随着金融市场的发展,传统的研究方法逐渐遇到了技术上的瓶颈。首先,候选因子数量日益庞大且较为相近,现有方法无法综合考虑各因子,也不易区分因子间的交互作用。其次,当因子维度增大时,现有研究方法在高维因子的处理中面临困难。
随着文本分析、人工智能、机器学习等全新技术手段的不断完善,量化投资方法也在不断借鉴和创新。机器学习和深度学习作为目前代表性的技术,被学者广泛应用于量化投资中。机器学习既能够自动地寻找数据中的复杂结构和模式,也提供了众多的线性和非线性的备选预测函数,且参数正则化和模型选择技术使得函数不会发生过拟合现象。
Buehlmaier和 Zechner基于机器学习对文本信息进行研究,探讨了文本信息对股票价格或交易量的影响[68]。李斌等将机器学习引入基本面量化投资,采用预测组合算法、Lasso 回归等 12 种机器学习算法,构建股票收益预测模型及投资组合[69]。实证结果显示,机器学习算法能够有效地识别异象因子与超额收益间的复杂模式,其投资策略能够获得比传统线性算法和所有单因子更好的投资绩效。王伦引入了gcForest(深度森林)算法,建立了基于gcForest 的股票投资市场多因子量化投资策略[70]。
五、未来研究展望
本文研究发现,基本面量化投资研究仍有巨大的空间,在理论建构和实证研究方面仍有大量值得探讨的问题。
一是增强本土化研究。目前中国市场机构投资者不够发达、政策和交易规则变动频繁、量化和对冲工具相对缺乏,使得市场效率较低,价格偏离价值的情况更普遍。后续研究可以增强本土化研究,比如基于中国宏观经济和政策特征,建构中国特色的基本面量化投资概念,推动本土化理论构建。此外,还可以基于中国市场的数据,对现有因子和模型进行修正。
二是对风险和内幕交易的关注。现有研究较少系统考虑风险优化,真实业绩与回溯测试结果易产生偏离,关于多因子组合的研究可以从风险控制角度优化策略。此外,现有的研究大多没有考虑市场中潜在内幕交易的影响,由于内幕交易带来的超额收益可能显著大于信息分析能力,这也是值得关注的方向。
三是引入新的量化分析技术。随着机器学习、人工智能方法的创新发展,不断涌现的量化分析工具为基本面量化投资研究提供了良好的基础。新的方法在模型训练、预测精度、响应速度上有所提升,同时也为处理非结构化数据如文本、图片、视频等提供了技术支持。可以将新的量化技术与基本面分析融合,借助新技术挖掘和补充基本面因素,提升模型精度,形成新的研究模型。
四是对数据的深度挖掘应用。在大数据时代,一方面,大量公司特质的非财务数据,以及宏观、行业等数据逐渐被开发和利用,如公司高管数据、专利数据、实时销售数据等。这些信息有助于更及时深入地了解公司,理解宏观、行业和公司层面信息如何影响公司价值。另一方面,大数据时代实时的搜索指数、社交媒体舆情等都有利于高效、敏锐地捕捉市场变化,而量化技术的进步也为搜集和处理此类数据提供了技术支持。未来的研究可以探索将大数据信息提炼成有价值的阿尔法因子,并应用于投资实践。