基于会计报表和网络中心性的指数增强策略研究
2021-06-19刘建国
王 哲,郭 强,刘建国
(1. 上海理工大学复杂系统科学研究中心 上海 杨浦区 200093;2. 上海财经大学会计与财务研究院 上海 杨浦区 200433)
指数增强策略是在控制对基准指数的跟踪误差的前提下,追求超过基准指数收益的方法[1]。截至2019年末,公募增强型指数基金数目达到102支,规模达到870.32亿元,相比2019年初数量增长了39.73%,规模增长了67.10%,具有良好的发展势头和前景。国内外众多学者展开了对增强型指数基金的研究。文献[2]首先对增强型指数基金的定义与性质进行了阐述。文献[3]对比了增强型指数基金与单纯的指数基金之间的收益与风险情况。文献[4]在均值−方差模型的基础上提出了跟踪误差方差,为计量方法打开了新的大门。对于多因子模型,文献[5]提出了经典的资产定价模型(capital asset pricing model, CAPM),认为每只股票的收益率与市场的系统风险存在线性关系,投资者的实际收益率来源于股票的无风险收益率加上系统风险溢价,但文献[6]指出股票的收益率还与其市场价值有关。文献[7]提出了著名的三因子模型,用市场因子、市值因子、账面市值比因子来量化出股票的收益,随后很多学者对其进行分析和补充,文献[8]在三因子基础上提出了四因子模型。文献[9]在三因子模型中添加了盈利因子与投资因子,由此形成了五因子模型。文献[10]基于多因子模型进一步研究了增强型指数基金的构造。文献[11]用了协整和相关性两种方法来研究增强型指数基金的追踪方式及构造方式。文献[12]在基于Bootstrap技术下用四因素模型检验了增强型指数基金的收益情况。
中国学者对中国股市增强型指数基金的探讨主要集中在对指数基金和增强型指数基金的介绍及差别对比。文献[13]研究了指数基金的指数化投资方式,并结合中国市场提出了指数增强型基金在中国的可适用性。文献[14]运用统计模型探讨了增强型指数基金的增强机制模式和应用场景的分析。文献[15]对增强型指数基金和基准指数的业绩表现进行了对比分析。文献[16]对增强型指数基金在我国运用过程中的风险进行了分析和预测。文献[17]运用广义最小角度回归算法来调节跟踪指数的误差和超额收益。文献[18]运用随机因子模型对指数基金进行增强。
目前指数增强策略的研究大多集中在因子的选择上,主要是基本面和技术面的因子。然而与企业的盈利水平、管理能力等直接相关的会计报表数据的作用却没有得到重视和挖掘。本文通过对会计报表信息的分析、量化、筛选,选择出在报表结束日期(如年报,为次年1月1日)至获取会计报表这一时间段内最有影响的特征,再根据这些特征构造公司之间的关联网络,分析公司在网络中的中心性,最后选取中心性最高的若干支股票进行投资组合,随后在该时间段内投资组合与指数基准收益率进行比较,根据每年的季报年报的发布时间节点进行分析再进行持仓调整。本文主要贡献如下:首先,挖掘会计报表中的数据作为衡量一个公司发展预期的重要指标;其次,将复杂网络的思维引入到指数增强型策略中来,构造了基于公司会计年报的公司股票网络,用中心性分析[19]作为选股的方法。基于2015−2019年Wind数据上的实验结果表明,5个行业指数内构造的投资组合的收益率均高于其基准收益率,其中在2019年半年报中半导体指数的投资组合收益率高出其基准收益率100.37%,效果明显。
1 指数增强模型构建
本文工作具体流程如图1所示。
图 1 构造投资组合流程图
1.1 会计报表的分析
虽然现在基本面和技术面的分析基本不会再刻意关注会计报表,但是会计报表作为反映一个公司经营状况和财务信息的重要途径,并由国家财政部要求企业按期披露的一种经济报告,有必要深入挖掘。会计报表是以一定的表格形式汇总并且综合反映公司日常会计数据的报表文件,它既是财务工作的重要基础,也属于公司财务工作的核心内容,其中包含了上市公司的诸多基本信息以及上市公司的经营数据[20]。
会计报表可分为一季度报、半年报、三季度报、年报,其中季报主要包括:重要提示、公司基本情况、重要事项、附录;半年报主要包括:释义、公司简介和主要财务指标、公司业务概要、经营情况的讨论与分析、重要事项、普通股股份变动及股东情况、优先股相关情况、董事监事高级管理人员情况、公司债券相关情况、财务报告、备查文件目录;年报在半年报的基础上多了公司治理的介绍。报表中的主要会计信息以财务报表为主,财务报表主要包括资产负债表、利润表、现金流量表、所有者权益变动表以及附注。
本文利用Wind对报表中的会计信息进行处理,将其量化为12个指标,这12个指标对其会计信息实现了全覆盖,具体为:每股收益(元)、每股净资产(元)、销售毛利率(%)、销售净利率(%)、净资产收益率(%)、主营业务收入增长率(%)、净利润增长率(%)、应收账款周转率(次)、存货周转率(次)、流动比率(倍)、速动比率(倍)、资产负债率(%)。年报的发布时间具有延迟现象,导致年报和次年的一季度报的发布时间会有些许冲突,因此对年报和次年一季度报进行投资组合择优选择。在原始数据中,有极小的一部分数据缺失,缺失的数据指未进行会计收录,则将其看为0。
1.2 基于随机森林的特征选择
随机森林作为一种组合分类器,其最基本的是决策树[21]。决策树的生成过程中会产生新枝,新枝的产生是由节点的分裂产生的,而节点的分裂遵循的原则是尽可能降低该节点的不纯度,以达到局部的最优化。目前比较通用的分裂方法有ID3、C4.5和CART。ID3算法是指通过信息增益来分裂;C4.5算法是用信息增益率来表示;CART算法则是指Gini系数[22]。ID3和C4.5在应用节点的分裂时,不支持特征的组合,所以只能用于分类问题,CART只会将每个节点拆分为两个子节点,因此它支持特性组合,可用于分类和回归问题。本文进行的是对上市公司财务报表的因子对其股价波动的影响程度进行排序,因此本文采用CART分裂算法,其公式如下:
式中,pk表示选中样本属于k类别的概率,则不属于k类别的概率为 1 −pk。CART的分类原则是将Gini系数的数值进行比较,得出较小的属性以此来作为分类属性。
由于会计年报发布的时间延迟性,所以本文把处理之后的数据的涨跌时间段视为从报表反映时间结束节点至报表发布节点为止,并用0, 1来表示(如:半年报在9月1日发布,涨跌情况为7月1日−9月1日)。并且,当筛选特征为6个指标时,便可覆盖80%以上的信息,所以本文选择的筛选个数为6。
在金融衍生品领域属于基本空白,衍生品的种类较少,很多常规的金融工具未得到充分的利用,金融风险控制建设基础差,未形成有利的地区独特性的风险度量模型,同时在金融风险控制的相关法律规定不健全,导致未形成有效的金融风险监管体系。
1.3 网络的构建
Pearson相关系数作为一种常用的衡量向量之间相似度的方法,其可以表示为协方差和标准差的商。在使用Pearson相关系数时,其前提为两两连续变量服从正态分布,本文所用数据中有陆运指数2015年年报、陆运指数2019年一季度报、制药指数2019年年报、半导体指数2019年半年报不符合正态分布,其中符合正态分布的指数的平均收益率比其基准收益率高出8.38%,不符合正态分布的指数的平均收益率比其平均基准收益率高出28.6%。因此本文采用Pearson相关系数衡量上市公司之间的相关性,结果的输出范围为−1~+1,其中正值表示为正相关,负值表示为负相关,0是指无相关性,其公式如下:
在得到Pearson相关系数之后,需要再确定阈值来构造网络。在行业指数内的上市公司,其相互之间财务变化的相似程度本身就较高,所以阈值的设置也会较高,阈值的设立原则是保证网络的拓扑结构稳定,并且能够较好地体现出网络的内在性质[23]。随后根据设置的阈值来构造上市公司之间的邻边,进而可以生成上市公司之间的网络图[24-27]。
2 投资组合的构造
2.1 中心性分析
节点重要性分析作为复杂网络研究中极其重要的一个研究热点,研究方法多种多样,最为常用的是网络分析理论,其核心是网络中心性分析。网络中心性的指标最早是在1948年提出,之后在此基础上提出了著名的3种中心性指标:度中心性、中介中心性和邻近中心性[28-29]。
本文对在度中心性、中介中心性和邻近中心性下构造的投资组合的收益进行了比较。无论投资组合的选择是几支股票,度中心性的收益与中介中心性和邻近中心性相比都表现出了较为明显的优势。度中心性除了在2015年房地产指数年报、陆运指数2019年一季度报低于邻近中心性,及2017年生物科技指数年报低于中介中心性外,均表现良好,具有一定的普适性。
2.2 选股构造投资组合
在进行了中心性分析之后,本文将股票按照度中心性进行排序。为了选出最佳的投资组合,本文依次选择前2~10支股票构造投资组合,进而得到了不同的投资组合下的组合收益率,最后结合指数基准收益率进行比较,进而确定收益率最高的投资组合。
在进行构造投资组合时会用到组合收益率和基准收益率,组合收益率就是指构造的投资组合的股票的收益率平均值;基准收益率就是在指数内所有股票的平均收益率。组合收益率的公式如下:
式 中,Ri指第i支 股票的收益率;n是股票个数。
3 实证分析
3.1 数据介绍
本文用的数据是Wind行业分类下的半导体指数、房地产指数、制药指数、陆路运输指数、生物科技指数在2015−2018年的年报和2019年的一季度报和半年报。本文将报表中的数据进行整理,选出了12个特征作为本文的特征数据,其中数据中有极少数的缺失数据处理为0,区间内涨跌情况用0、1表示,具体如表1所示。
表1 数据介绍
3.2 评价指标
本文所选用的评价指标为收益率。收益率是指收益总额与原始投资额的比率,能够直观清晰地反应出股票的变化。在一个时间段内的收益率计算公式如下:
式中,P2是 指区间最后一日的收盘价;P1是指区间第一日的前收盘价。由于会计报表的时间跨度较大和信息的特殊性,一些评价指标很难适用,但收益率能够很好地体现出会计信息的价值,并能够很好地评价和指导投资策略的形成和完善。
3.3 结果分析
本文以半导体指数半年报为例。半导体指数内共有68支股票,总市值共计1.2万亿元,从2019年1月1日−9月1日总市值增长了近70%,是属于看涨的指数,涨跌的时间段是2019年7月1日−2019年9月1日,其中9月1日是可以改变的,具体是指拿到半年报的日期。本文将数据用随机森林进行特征筛选,结果如图2所示。(次),这6个特征涵盖了81%的信息。
图 2 半导体指数的特征重要性输出图
随后用Pearson系数对得到的结果进行矩阵化,得到Pearson相关系数矩阵。随后根据阈值的筛选原则,本文得到阈值0.95。结合阈值本文选择了度数中心性最大的2~10支股票进行投资组合收益比较,其结果如表2所示。
表2 半导体指数选择个数及收益表
本文选出的6个指标为:每股收益(元)、每股净资产(元)、销售净利率(%)、净资产收益率(%)、主营业务收入增长率(%)和应收账款周转率
将结果利用NetDraw进行可视化,如图3所示。
图 3 半导体指数的股票筛选图
从图3中得到本文选出的东方日升、中环股份、紫光国微、卓胜微、捷佳伟创、汇顶科技、木林森、福斯特、华微电子、隆基股份。在该时间段内本文的投资组合收益为:卓胜微:213.07%;汇顶科技:42.63%;捷佳伟创:29.15%;中环股份:30.51%;东方日升:35.74%;紫光国微:31.72%;木林森:−4.44%;福斯特:21.56%;华微电子:0.31%;隆基股份:22.03%。由表2可知当投资组合的个数为2时,收益率最高,所以选择度数中心性最大的两支股票构造投资组合,组合收益率:127.85%,此时基准收益率为27.48%,组合收益率高出基准收益率100.37%。
接着本文又利用半导体指数2015年报、2016年报、2017年报、2018年报、2019年一季度报做了分析和选股,其结果可知:2015年年报选出4支股票基准收益率−32.46%,组合收益率−16.52%,组合收益率高出基准收益率15.94%;在2016年年报选出8支股票基准收益率0.21%,组合收益率7.67%,组合收益率高出基准收益率7.46%;在2017年年报选出5支股票基准收益率−6.63%,组合收益率28.15%,组合收益率高出其基准收益率34.78%;在2018年年报半导体指数均为收益,故没有变化;在2019年一季度报选出6支股票基准收益率−5.27%,组合收益率8.79%,组合收益率高出其基准收益率14.06%,具体的收益统计结果如图4所示。
图4 半导体指数收益率图
从图4中不难发现,在该方法下的半导体指数在2015−2019年间的收益率均高于其基准收益率,达到了指数增强的目的。此外,本文还研究了其他的行业指数,其结果均达到指数增强的效果,具体结果如表3所示。
表3 房地产指数、陆路运输指数、制药指数和生物科技指数收益率表
4 结束语
本文提出了一种基于会计年报和网络中心性指标的指数增强量化投资策略研究。首先,将上市公司的财务报表通过Wind进行预处理,将其中的会计信息整理为12个特征数据,其次使用随机森林方法对得到的特征数据进行特征重要性分析,筛选得到涵盖会计信息80%以上的6个特征,随后基于Pearson相关系数选择合适的阈值构造上市公司之间的邻边,进而生成公司间的网络图,接着根据复杂网络中节点重要性分析,选择合适的中心性指标得到中心性较大的2~10支股票构造投资组合,最后将组合收益率与指数基准收益率进行比较,选择收益率最高的投资组合。在2015−2019年的实验结果显示中,会计报表其所反映的上市公司的信息和上市公司的股市表现是紧密相关的,在半导体指数、房地产指数、陆路运输指数、制药指数和生物科技指数中,本文提出的指数增强策略具有收益高且稳定的特点,得到的投资组合在不同年份的收益率都要高于其指数收益率。
本文提出的基于会计报表和网络中心性研究的指数增强的策略,一方面为指数增强的学术研究给出新的思路,另一方面也契合当下业界所热衷的增强指数的投资理念。基于沪深股票市场和Wind指数分类数据进行的实证分析表明,本文的模型能够很好实现增强指数这一投资理念,具有一定的参考性。当然,本文仍有一些不足和问题:如在进行特征选择时只选取了随机森林这一种方法,还可以继续优化,多尝试其他的机器学习方法[31];此外,在进行完这一投资组合的构建之后,后期要与技术面分析结合,进行完全的实际的仓位调整和处理,这也是接下来研究的课题之一。