基于Logistic模型和Boosting算法的开放式基金投资价值分析
2012-09-26陈昕
陈 昕
0 引言
自从2001年我国第一只开放式基金上市发行以来,开放式基金的数量和规模增长迅猛,品种日益多样化,已经成为基金行业发展的主流趋势。面对众多的开放式基金,如何评价基金绩效,挖掘其投资价值并有效的进行资产配置已成为市场和研究者关注的焦点。
本文从分析基金的财务指标特征出发,判断基金净值增长率是否超过基准指数的收益率,为了方便,本文选取上证综合指数为基准指数。基金公司定期对其管理的证券投资基金出具财务报告,披露包括资产负债表、经营业绩表及收益分配表、基金净值变动表和投资组合报告等信息,由此可以计算出分别反映开放式基金的投资价值、财务结构、盈利能力、运营状况和成长状况等方面的财务指标。在开放式基金投资价值分析中,充分有效地利用财务指标反映的信息十分必要,对投资人有重要意义。考虑到国内证券市场2007年和2008年出现了异常情况下的剧烈波动,因此本文利用我国资本市场上的408只开放式股票型基金2009年至2010年两年间公布的财务数据,采用logistic模型分析基金财务指标对其是否能跑赢大盘的相关影响,利用Boosting算法对logistic模型的预测效果进行了进一步的优化,并以此作为评价基金的投资价值的依据。
1 研究方法介绍
1.1 logistic模型
在社会经济问题研究中,很多变量都可归结为属性变量,logistic模型是研究这一类问题的重要工具,被广泛地使用。
当感兴趣的结果出现时,令属性变量y=1,称为事件成功,在本文中表示基金业绩跑赢大盘;若感兴趣的结果未出现,令属性变量y=0,称为事件失败,即基金业绩跑输大盘。如果影响事件是否成功的因素有 p种,文中为影响基金业绩跑赢大盘的各种财务指标,用协变量x1,x2,…xp来表示,则事件成功的概率为
令线性预报为 η=β0+β1x1+β2x2+…+βpxp,自然连接函数为,从而得响应函数
假设研究对象的n组观测值为(xi1,xi2,…,xip;yi)(i=1,2,…,n),则构造对数似然函数
1.2 Boosting算法
Boosting算法是近20年来广泛使用的一种统计学习算法。Boosting算法的基本思想是将许多弱分类器输出的结果整合起来得到一个类似投票委员会的强分类器,因此该算法可以被看做是机器学习中的集成算法中的一种方法。然而,Boosting算法因其较强的自适应性,与Bagging等其它集成算法在本质上有着很大程度的区别。
以Adaboost M1算法为例,假设存在一个分类问题,其输出变量为Y,第i个样本的标签为 yi,yi∈{ }-1,1。给定一个输入随机向量X和分类器G()X ,则该分类器在训练样本上的分类误差率为
且该分类器在未来预测时的期望误差率为EXYI(Y ≠G(X))。所谓弱分类器,就是其分类误差率仅比随机猜测略好。Boosting算法的目的就是依次应用弱分类算法于不断被修正的样本数据,从而产生出一系列的弱分类器Gm()x,m=1,2,…,M。这些弱分类器得到的预测结果通过加权多数票的方式组合起来并得到一个最终的预测值
其中赋给每一个弱分类器Gm()x的权重αm由Boosting算法计算得到,其会给予预测结果较为的分类器更大的影响效果。
Adaboost M1算法的基本框架如下:
(1)设定分类器权重的初始值为
(2)该步骤为迭代步,当m从1到M取值时,给定权重wi,利用训练样本拟合分类器Gm()x;计算误差率
计算αm=log( )( )
1-errmerrm
在利用Boosting算法对logistic回归进行优化时,首先以根据logistic模型所选择出的对基金收益率能够跑赢基准指数有显著影响效应的财务指标作为变量xm,m=1,2,…,M,并建立一组弱分类器Gm()x,m=1,2,…,M,其中
可以看出,上述针对logistic模型预测效果优化的过程实际上是利用了Boosting算法可以被看做是可加模型的性质。
2 实证分析
2.1 数据选择
本文数据来源于WIND数据库,综合考虑基金的上市时间及数据的完整性,一共选取了408只资本市场上的开放式股票型基金,以其公布的年度财务报告为基础,得到全面反映基金资产、盈利、成长等方面的财务指标,包括单位基金净值、基金份额、累计单位净值、本期收入及其结构(包括股票差价收入、收入合计等)、本期净收益、基金资产结构(包括股票市值、银行存款、其它资产等)、基金资产总值、基金资产净值、单位基金净值增长率、单位基金累计净值增长率等,用变量xk( )k=1,…,12来分别表示。采用上证综合指数为基准指数,比较年度上证综指收益率与各个基金单位净值增长率孰高来定义各个基金是否跑赢大盘,用y来表示。具体变量如下表(见表1)。
表1 基金财务指标体系
2.2 模型拟合
将原始数据经标准化处理后,进行logistic回归分析,采用向后逐步回归法,从12个协变量中选择出显著的变量,以此拟合模型。结果得到在0.05的显著水平下显著的5个变量:x2基金份额、x3累计单位净值、x9报告期单位基金净值增长率、x11收入合计、x12本期基金净收益,模型的参数估计具体如表2.
表2 logit模型参数
所得方程为:
根据logistic模型挑选出的5个显著变量,利用上述Boosting算法对模型做进一步的优化,训练样本为2009年的年度财务指标数据,检验样本为2010年的年度财务指标数据,并与logistic模型的预测效果进行对比,结果如3表。
表3 模型比较
可以看出Boosting算法对logistic模型预测能力的改进效果是明显的。
2.3 模型参数解释
从建立的模型中可以看出,与基金业绩是否能跑赢大盘有关的财务指标包括基金份额、累计单位净值、报告期单位基金净值增长率、收入合计、本期基金净收益等。其中,基金份额的系数为正,即基金份额越大其收益跑赢大盘的可能性越大。基金份额是指基金发行的单位数量。开放式基金的基金份额是变化的,投资者随时都可以按公布的单位基金净值向基金购买新基金单位或赎回所持有的基金份额。开放式基金的份额多少反映了基金的规模大小以及市场上该基金的供求关系。一只基金的基金份额越高,该基金越有能力聘请高水平的基金经理,越有能力面对突发事件(如突发性赎回等),在竞争中占据优势地位,因此该基金收益率超过大盘的可能性就越大。
累计单位净值与基金业绩是否跑赢大盘呈负相关。基金累计净值是指基金最新净值与成立以来的分红业绩之和,单位基金累计净值是指报告日基金资产累计净值除以报告日基金单位总数后的价值。累计单位净值体现了基金从成立以来所取得的累计收益,可以比较直观和全面地反映基金在运作期间的历史表现。一只基金的累计单位净值高,不能表明当前的资产配置策略是恰当的。根据平均收益原则,任何基金都不可能长期获得超额收益,因而累计单位净值越高的基金越有可能收益率下降。这与Sharp的提醒是一致的,使用历史数据作为投资预测的依据会使其面临严重的问题。
报告期单位基金净值增长率与基金业绩是否跑赢大盘呈正相关。该指标反映本期基金资产净值的变动情况,比值越大,本期净值增加越多,说明当期经营状况良好,反映出基金管理人具有较高的投资水平和盈利能力。显然,报告期单位基金净值增长率越高,该基金收益率超过大盘的可能性就越大。
收入合计与基金业绩是否跑赢大盘呈负相关。基金的本期收入合计是指基金在报告期内取得的各种收入之和,其中股票差价收入和债券差价收入占了基金收入的很大一部分。分析各种收入占基金总收入的比重,可以评价基金管理人的投资风格和品种偏好。为了提高基金排名,通常小规模基金投入到债券市场上的份额就较少,大规模基金投入到债券市场上的份额就较多,因而大规模基金的收入稳定并且较高,在收入合计高的基金中大规模基金的比例就高,因而难以获得超出基准指数(上证综合指数)的收益率,这表明了风险与收益是相匹配的,每一个基准指数都对应着相应的风险。投资者可以通过调整基准指数来选择相应的风险。
本期基金净收益与基金业绩是否跑赢大盘呈正相关。本期净收益是本期收入扣除本期费用后的余额,该指标体现了基金的盈利水平。用本期费用除以本期收入得到的费用收入比率,能够反映基金的盈利能力和运营成本。通常,本期基金净收益高的基金更可能获得超出大盘的收益率。
3 结论
通过logistic模型的建立与实证分析,在基金财务指标体系中找出了基金份额、累计单位净值、报告期单位基金净值增长率、收入合计、本期基金净收益等5个财务指标作为影响因子,对基金业绩是否能跑赢大盘有显著影响,这对投资者选择具备良好投资价值的开放式基金有一定参考价值。同时,在logistic模型的基础上,利用Boosting算法提升了模型的预测能力,使得投资者在使用多个财务指标因子进行基金选择时更为科学和有效。在实际运行中,我们建议基金投资者可以通过调整不同的基准指数来选择其愿意承受的风险,在跑赢基准指数的基金中进行资产配置,通过跟踪基金份额、累计单位净值、报告期单位基金净值增长率、收入合计和本期基金净收益等因子的变化调整基金投资份额,进而实现期望的投资收益。
本文没有局限于基金的市场收益率表现,而是从能够全面反映基金财务结构、盈利能力、运营状况和成长状况等方面的财务指标体系出发,将财务分析与基准指数法相结合来挖掘基金的投资价值。然而,由于会计制度等方面的因素,一些财务数据的取得具有滞后性,且每个年度只公布一次;另一方面,我国开放式基金的发展历史较短,供研究的数据量有限,这些都使得研究结果有一定的局限性,在实践应用中受到一些限制与制约。今后,如何能及时有效的利用财务数据来分析基金投资价值,其研究前景将十分广阔。
[1]Ludwig Fahrmeir.Multivariate Statistical Modeling Based on General⁃ized Linear Models[M].Berlin:Springer-Verlag,1994.
[2]Sharp,William.Asset Allocation:Measurement Style and Performance Measurement[J].Journal of Portfolio Management,1992,(18).
[3]王玉春.简论证券投资基金投资价值的财务分析[J].南京财经大学学报,2008,(2).
[4]杜书明.基金绩效衡量:理论与实证研究[M].北京:中国社会科学出版社,2003.
[5]沈维涛,黄兴孪.我国证券投资基金业绩的实证研究与评价[J].经济研究,2001,(9).