人工智能算法及其在财务大数据分析和基本面量化投资中的应用—基于互联网+和大数据的视角
2020-07-13徐国栋厦门大学嘉庚学院会计与金融学院
徐国栋 厦门大学嘉庚学院会计与金融学院
互联网+时代的来临,大数据风起云涌,数据量庞大,维度高维化,应用多层次化,大大推动了人工智能的产业化运用,人工智能与医疗、教育、金融、艺术、交通、建筑的等各个产业深度融合,开创了产业升级创新驱动的大浪潮。本文将探讨人工智能算法及其在财务大数据分析和基本面量化投资中的应用。
一、人工智能算法介绍
人工智能算法的核心为机器学习,机器学习的算法主要分为有监督学习算法(Supervised Learning)、无监督学习算法(Unsupervised Learning)、半监督学习算法(Semi-Supervised Learning)三大类。这三大类算法的关键区别在于是否有样本的标签,如果全部有标签则为监督学习,全部都没有则为无监督学习,部分有部分没有则为半监督学习。有监督学习的常见算法主要包括:决策树算法、支持向量机、boosting与bagging算法、BP神经网络、卷积神经网络(CNN)、循环神经网络(RNN)、LSTM神经网络等;无监督学习则包括K均值聚类、层次聚类、主成分分析(PCA)、奇异值分解(Singular Value Decomposition);半监督学习算法则主要包括生成式高斯混合模型算法、图半监督学习、标记传播算法等。
二、基本面量化投资
党的十九大以来,习近平总书记对资本市场作出了一系列重要指示批示,为新时代资本市场改革发展指明了方向。习近平总书记指出,金融是实体经济的血脉,为实体经济服务是金融的天职,是金融的宗旨,也是防范金融风险的根本举措。资本市场作为企业和居民投融资的重要渠道,要发挥其服务实体经济的重要基础性功能,理清价格信号尤为关键,上市公司的股价只有正确反映了以公司财务状况和经营情况为主的基本面信息,才能高效发挥其资源配置的价格发现的强大功能,否则,极可能导致投机盛行和资源错配。基本面分析和价值投资也是实证会计和金融科技领域理论研究的重点,具有重要的理论价值和实践意义。近年来随着大数据和人工智能技术的深度运用,量化投资逐渐走入人们的视野,其中以公司财务(含经营)信息分析为主的基本面量化投资更是成为财务领域研究的热点。用量化的方法研究公司基本面,用人工智能的算法研究量化投资,属于跨界和跨学科研究的热点,亟待理论研究和实务操作上的突破创新。
传统的主流投资理念是基本面价值投资,利用财务分析师的专业技能,深入分析少数几家公司的财务报表和经营信息,综合判定股票的价值进而进行投资决策,但是具有主观性太强,投资广度差(覆盖面低),风险不可控,可重复性(可操作性)差等天然缺陷。随着计算机技术的发展,量化投资应运而生,运用计算机的大数据分析能力对所有股票进行高效量化分析,投资广度大客观性强,但是传统的量化投资主要是以研究股价、成交量等技术面信息为主,很少涉及基本面,容易导致市场趋势投资盛行,短线波动加剧,股价信号失灵等问题。因此,近年来理论界和实务界逐渐将目光转向了基本面+量化投资,也就是用大数据的量化分析方法对所有公司的(财务)基本面进行统一分析,高效地筛选出所有质地优秀的股票进行组合投资,形成了“基本面量化”的投资流派,将基本面分析和量化投资各自优点得到了充分的发挥。Soliman(2008)在顶尖会计学期刊TAR,首次运用经典的杜邦财务分析的方法研究了美国上市的所有(有相关数据的)股票,发现ATO(经营资产周转率)指标能显著地预测未来盈余变化和股票的超额回报,从量化的角度对财务分析核心指标的投资决策价值给出了经验证据。Hirshleifer et al.(2013)首次探讨了创新效率和股票超额收益之间的关系,利用单位研发支出转化的专利数量来衡量公司的创新效率,从量化的角度证实了经营性数据对投资决策的重要价值。Belesis et al.(2020)利用2002年至2017年期间的标普500指数的所有成分股,以Ohlson模型进行了实证检验,发现会计变量(收益、账面价值、现金流量、研发费用等)对股票未来收益具有显著解释力,并讨论了其对于会计准则制定者和投资价值评估的重要意义。
传统的基本面量化投资,基本上都是以线性回归模型为主,对于各个基本面因子之间可能存在的非线性关系无能为力,另外还存在过拟合和多重共线性的问题,然而近年来兴起的以机器学习(含深度学习)为代表的人工智能算法较为完美的解决了这一问题(Athey and Imbens,2019),国内外都掀起了将人工智能技术应用于量化投资的热潮。Ding et al.(2015)运用深度卷积神经网络模型,从新闻中提取出事件并进行向量表示,对其进行训练用于模拟事件对于股价变动的短期和长期影响。模型在预测 S &P500 指数和个股价格时比基准方法实现了6%的改进。Gu et al.(2020)在国际顶尖金融学期刊RFS发表机器学习研究论文,对比了众多的机器学习方法预测股票收益的能力,发现决策树和神经网络模型的效果最好,在某些情形下,投资业绩能够实现翻番,从实证角度证实了人工智能方法在资产定价研究领域的独特绩效。国内人工智能量化投资领域的研究相对较为滞后,直到最近几年才有相关较高质量论文发表,但是系统性成果较少。贺超等(2020)对传统的Adaboost算法进行改进后,进行多因子选股模型的检验,发现该算法的鲁棒性较好,AUC评分高达0.71。
三、财务大数据分析
证监会召开2020年系统工作会议,会议提出,稳步推进以信息披露为核心的注册制改革,可以说提高信息披露质量是整个资本市场改革的关键和热点。我国会计改革的重要目标之一,就是提高我国资本市场中会计信息的投资决策有用性。FASB(美国财务会计准则委员会)也指出,会计信息要与投资者、债权人等使用者的投资和信贷决策相关,就必须通过帮助其对过去、现在和将来事件的结果做出预测或者是证实或更正先前的期望,从而具备在决策中导致差别的能力。然而,我们认为,应该从大数据视角重新解构信息披露,投资者决策所使用的的基本面信息,至少应包括4个层面:1、财务报表数据(如市盈率、市净率、毛利率、资产周转率等指标);2、经营层面数据(如主导产品产销量、研发投入、专利数量、高管薪酬、员工构成等信息);3、证券分析师数据(如投资评级、盈利预测、评级修正等);4、财经媒体信息(如个股财经新闻报道、股吧、讨论区、微信公众号等)。以往相关学术研究的焦点主要关注会计盈余信息,或者评估某一特定的单项信息(如只评估研发投入)对股价的影响,本文认为应该从大数据独特视角,从以上4个层面的信息来对信息披露的质量进行综合评估,在学术研究基础上,从信息披露的综合质量评估的层面为证监会、财政部等监管机构和会计准则制定部门提供相关政策建议。
四、人工智能算法的应用
人工智能战略已经上升为国家战略。习近平总书记强调,人工智能是新一轮科技革命和产业变革的重要驱动力量,加快发展新一代人工智能是事关我国能否抓住新一轮科技革命和产业变革机遇的战略问题。要培育具有重大引领带动作用的人工智能企业和产业,构建数据驱动、人机协同、跨界融合、共创分享的智能经济形态。研究人工智能算法在基本面量化投资中的应用,研究成果将为推动人工智能产业和财务、金融产业深度融合,创新驱动,为传统金融产业的升级发展提供一定的理论支持和实践指导。
资产定价理论作为财务学的核心研究主题,一直是理论研究的热点难点。诺贝尔奖获得者Sharpe(1964)提出了著名的CAPM模型,认为β系数是影响股票收益的核心因素。Fama和French (1992)提出了著名的三因子模型,发现上市公司的市值、账面市值比、市盈率可以解释股票回报率的差异。2015年,Fama and French又提出了五因子模型,在原有的三因素模型中,加入了代表盈利能力的RMW因子和代表投资模式的CMA因子。可以说,对股票超额收益影响因子的考察贯穿了整个现代财务学的发展历史。Fama的另一著名观点则为有效市场理论。除了Fama提出的五因子之外,是否还有其他能够显著影响股票回报率的因子?通过财务大数据的挖掘,利用机器学习的算法找出可能影响股票超额收益率的基本面因子,进而构建套利投资组合,可以为资产定价和效率市场理论提供进一步的经验证据和学术观点。
基本面量化投资主要包括单因子评价和多因子评价。对于单因子评价,可以通过单因子分组后的套利组合业绩评价来评价单因子,筛选出对未来股票回报率敏感的基本面因子。具体来说,首先每月月末将待评价的单因子的标准化得分按照从小到大的顺序分成10个组,将每个组的股票视作一个投资组合,计算每个投资组合的月均收益,并计算多空套利组合(因子得分最高的,减去得分最低的组)的月均收益、T统计量、夏普比率等指标,如果T值显著,夏普比率也较高,则说明该因子为敏感因子,纳入下一步的多因子研究分析。
对于多因子评价,则可以在确定的敏感的基本面单因子之后,将所有敏感的单因子作为一个基本面因子集合,运用人工智能算法,进行多因子量化投资的分析。根据多因子量化选股的需求,由于每只股票都有横截面期间的报酬率(标签),所以主要采用有监督学习的回归类算法进行多因子量化投资套利组合的构建,最后通过相关的组合业绩评价指标(如阿尔法值α、夏普比率SR、信息比率IR、贝塔系数β、最大回撤MDD等)来评价该模型的效能,最终挑选出最佳的机器学习算法模型来进行量化投资管理。