投资基金怎么选?贝叶斯网络模型帮你忙
2023-04-07傅欣羽北京联合大学管理学院
文/傅欣羽 北京联合大学管理学院
近年来,越来越多的投资者涌入基金市场,基金的收益率及投资策略是投资者关注的重点。在当前震荡的市场环境下,投资意愿降低是很正常的现象,收益率作为投资者最关注的指标之一,其与基金业绩评价指标之间的内在推理关系较少被深入研究,因此立足于研究基金业绩评价重要指标与基金收益率之间的可解释性挖掘,研究出业绩评价指标到收益结果之间的指向关系。为挖掘基金各项指标与收益率之间的内在联系,使用机器学习方法对基金收益率的结果(收益、亏损)与业绩评价指标间结构关系进行研究,结果表明回撤控制更好的基金更容易获得正向收益。
业绩评价指标选取和数据处理
20世纪60年代以来,学者们先后提出一系列基金业绩评价指标和方法。从最早传统的评价指标围绕基金产品进行,到后期考虑基金经理的个人特质、职业特质和能力特质等影响基金业绩而研究出选股择时能力指标。还有学者基于开放式基金十年的面板数据量化五个维度基金经理能力指标,进一步发现基金经理的能力在不同市场环境下对基金业绩的影响存在差异,且该影响随着金融市场周期的波动存在一定的周期性。根据已有的研究同时考虑数据的可得性,在基金业绩评价指标中仅涉及基金收益评价指标、基金经理人维度指标。
基金财务指标有:晨星评级、夏普比率、卡玛比率及波动率。经理人维度指标有:基金经理学历、从业时间、年均回报收益率、投资风格及重仓板块。
本文从天天基金网等基金信息平台收集主动型基金收益率及相关评价指标。
晨星评级离散化为1—5个级别。近一年的夏普比率被离散化为1、2两个值,1为负值2为正值。将三年期及五年期的夏普比率与卡玛比率,低于均值离散化为1,高于均值离散化为2。
风险水平指标中,分别以一年期和三年期波动率的均值为界限,波动率低于均值离散化为1,高于均值离散化为2。
基金经理人维度中,基金经理人个人特质一级指标下将本科毕业于国内985及211院校或国外top200院校的经理人离散化为1,其余为2。从业时间上,171位经理人从业时间平均值为7年,从业大于7年离散化为2,从业时间在7年以下的离散化为1。个人业绩取所有经理人的年均回报为基准,小于均值的离散化为1,大于均值的离散化为2。投资风格以1代表价值型投资,2代表平衡型。在重仓板块中,将研究基金分为五个板块进行离散:1为制造业、2为科技产业、3为消费行业、4为金融、5为医药。
在衡量业绩时,离散化2021年的收益率,以最终的收益结果区分,将2021年终负收益为1,正收益为2。
基于粗糙集的基金评价关键指标筛选
粗糙集理论作为一种处理不精确、不一致、不完整等各种不完备信息有效的工具,一方面得益于它的数学基础成熟,不需要先验知识;另一方面在于它的易用性。粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。
建立条件属性集,包含指标如下:2021年12月末晨星评级,近1年夏普比率、近3年夏普比率、近5年夏普比率,卡玛比率近3年、卡玛比率近5年,波动率近1年、波动率近3年,本科毕业院校、从业时间、从业年均回报、投资风格、重仓板块。
以2021年末的基金收益率作为决策属性。通过离散化处理,由此得出影响因素分析决策表。在决策表的基础上,对13个条件属性进行约简。利用Matlab程序对13个指标进行测算,筛选出对于基金收益影响最大的指标。
用贝叶斯网络模型训练各评价指标及基金相关信息节点与基金收益率之间的条件概率关系,研究基金收益率与基金评价指标的内在逻辑推理关系。贝叶斯网络是采用图形化网络结构直观表达变量的联合概率分布及其条件独立性。一个贝叶斯网络是一个有向无环图。贝叶斯网络中每一个节点表示一个变量,变量间的线段表示因果关系,考虑实际情况加入评分函数,避免出现最复杂的完全贝叶斯网络导致的过拟合的发生。基于评分选择模型可得出与数据拟合且结构合理的推理网络。
将依赖度作为决策目标,条件属性与决策属性之间的依赖度越大,则条件属性越重要,通过设计适应度函数,采用遗传算法对条件属性进行筛选。
将经过离散化的条件属性和决策属性带入粗糙集算法(Matlab中程序包)中,设置迭代次数20次,得到以下结果:
图1 属性约简算法适应度变化过程
经过遗传筛选,适应度达到最大时,重要的条件属性为:晨星评级、近一年夏普比率、近三年卡玛比率,基金经理本科毕业院校、从业时间、年均回报率、投资风格、重仓板块这八个条件属性。
通过属性约简筛除了无相关或者相关性小的属性后,最终确定晨星评级、近一年夏普比率、近三年卡玛比率,基金经理本科毕业院校、从业时间、年均回报率、投资风格、重仓板块和决策属性(收益率)为贝叶斯网络中的节点。
把关键指标组合带入贝叶斯网络(Matlab中的程序包),通过贝叶斯网络参数与结构的训练,得到以下贝叶斯网络结构:
图2 基金评价指标模型的贝叶斯网络结构
由近一年的夏普比率的条件概率可以得出,当晨星评级处于较高级数(前30%左右的排名),获得超额收益的概率为0.7958,远大于没有获得超额收益的概率0.2042。因此在选择主动型基金时,可以将晨星评级纳入参考范围并尽量选择评级结果在四星级以上的基金。晨星评级相对比较高的状态,基金组合每承担一单位的风险获得超额收益的可能性更大。
从卡玛比率的条件状态可以得出,当基金的晨星评级处于较低状态时,卡玛比率处于低水平的概率较大(0.6941),处于较高水平状态的概率较小(0.1647)。
从基金收益状态条件概率可以看出,卡玛比率处于较低水平时,基金在年末亏损的概率为0.698,获得正收益的概率为0.302;而卡玛比率处于较高水平时,基金在年末亏损的概率为0.14,获得正收益的概率为0.86。
从基金经理年均回报层面来看,回撤控制不佳的基金经理人年均回报处于平均偏上水平概率相对较小(0.896),只有极小的可能性基金的卡玛比率低但是基金经理人的年均回报处于平均偏上的状态。
在分析最终收益状态与重要的评价指标之间的逻辑关系后,将预测集和训练集中随机抽取的16只基金数据带入运算,分组计算预测准确率后取平均值。该网络结构预测准确性较高。可以得出结论:
在晨星评级处于较高评级的时候,基金的夏普比率较高的可能性更大。晨星评级在一定程度上对于基金的挑选有辅助作用。
在实际投资中,多关注回撤的控制,基金的综合性价比高更容易获得收益。卡玛比率用最大回撤作为分母更贴合投资者们厌恶下跌的心理。若在其他指标近似的情况之下,应该优先选择卡玛比率更高的基金。商