基于UPM-LPM的增强指数投资策略
2019-02-14黄金波吴莉莉尤亦玲
黄金波,吴莉莉,尤亦玲
(1.广东财经大学金融学院,广东 广州 510320;2.珠三角科技金融产业协同创新发展中心,广东 广州 510320)
1 引言
近年来,随着我国股票市场做空机制的引入和金融衍生产品的相继推出,量化交易已然成为当前业界和学界讨论的热点。所谓量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,极大地减少了投资者情绪波动的影响,避免在市场极度狂热或悲观的情况下做出非理性的投资决策。量化交易离不开产生量化投资策略的各类模型,市场上存在许多基于不同理念构建的量化投资模型,其中,指数跟踪模型在业界特别受欢迎。在国外,指数跟踪模型很早就被养老基金、共同基金和对冲基金的管理人广泛运用于资产配置和量化选股。指数跟踪模型的投资理念是:市场组合的表现是最好的,投资者只需构建跟踪组合紧跟市场的走势,就能获得市场平均收益。指数跟踪模型在业界受到普遍欢迎的理论依据是:长期来看,经济体总有持续增长的动力,反映实体经济的股票市场也应有长期的上涨趋势;与此同时,大量的实证研究发现,那些通过主动调整来企图战胜市场的投资策略,在短期内也许能取得较好收益,但长期来看绝大部分主动投资策略的表现不如市场组合,而且由于频繁的头寸调整产生的交易成本会消耗大量的收益[1]。
指数跟踪模型的核心是界定跟踪误差。Roll[2]开创性地将跟踪组合收益率与指数收益率之差的标准差定义为跟踪误差波动率(Tracking Error Volatility, TEV),进而提出TEV最小化模型和均值-TEV模型,并指出均值-TEV有效的组合通常是均值-方差无效的。随后,Kwiatkowski[3], Coleman等[4]及Alexander和Baptista[5]沿用了TEV的概念。但是Beasley等[1]认为TEV指标是不合理的,如果跟踪组合收益率和指数收益率之差为常数,计算出的TEV是零,但是跟踪误差显然不为零。所以,Beasley等[1]和Lobo等[6]使用跟踪组合收益率与指数收益率之差的均方差作为跟踪误差,而Clarke等[7]将跟踪误差定义为跟踪组合收益率与指数收益率之差的绝对值,Rudolf等[8]基于跟踪组合收益率和指数收益率的绝对离差,给出四个不同的跟踪误差公式。目前,指数跟踪模型的研究主要根据不同的理念来定义跟踪误差,并加入交易成本、权重约束、风险约束等各类现实约束构建指数跟踪模型[9-11],进一步寻找求解技术来对模型进行求解[1,12-15]。
虽然指数跟踪投资策略的理念和模型已经非常成熟,但是增强指数投资策略是近年才被提出的新的研究领域[16-17]。所谓增强指数是指在跟踪指数趋势的同时,获取超过指数平均收益的超额收益[18-19]。增强指数模型源于但不同于指数跟踪模型。二者的相同点是无论指数上升还是下降,二者要跟踪指数的趋势;不同点在于指数跟踪模型尽可能完美复制指数,而增强指数模型希望产生一个偏离指数的绝对收益。Canakgoz和Beasley[20]首次明确区分了指数跟踪模型和增强指数模型,并对这两方面的文献进行了较全面评述。Roman等[16]基于二阶随机占优理论构建增强指数模型并运用割平面法 (cutting plane approach)进行求解。Valle等[21]提出三阶段方法 (three-stage solution approach)来选择绝对收益组合,并且展示该方法可以拓展到增强指数模型。Guastaroba等[22]基于Omega ratio提出两个新的增强指数模型,并且展示每个模型都可以转化为线性规划问题,当加入基数约束和头寸约束后,该模型可转化为混合整数线性规划问题。Filippi等[17]将增强指数模型的目标定义为最大化超额收益且最小化跟踪误差,并将其转化为双目标混合整数线性规划问题,进而运用双目标启发式算法来求解。与指数跟踪模型类似,目前增强指数模型研究的差别主要在于构建不同的目标函数和约束条件,并发展出不同的计算方法对模型进行求解[16,20]。
在本文,我们基于LPM与UPM构建不同于已有研究的增强指数模型。LPM在文献中已经被广泛用来构建风险对冲和投资组合选择模型,如戴晓凤和梁巨方[23]运用Copula函数描述资产之间相关性,用LPM度量风险,寻找最优套期保值比率。LPM是指投资收益低于目标收益部分(未达标部分)的期望值[24],我们将UPM定义为投资收益超出目标收益部分的期望。如果取投资收益为跟踪组合收益率,目标收益为指数收益率,则LPM度量跟踪组合收益低于指数收益部分的平均损失,UPM度量跟踪组合收益高于指数收益部分的超额收益。显然,理想的投资策略是最小化LPM而最大化UPM。为了避免双目标优化问题带来的复杂性,我们最大化UPM与LPM的比值,从而构建基于UPM-LPM之比的增强指数模型。
由于LPM和UPM的定义中含了最大值函数和两个待定参数,导致基于UPM-LPM之比的优化问题较难处理。在一般情况下,基于UPM-LPM的优化模型是一个复杂的非线性优化问题,我们很难得到模型的解析解[24],当跟踪组合的资产数量较大时,我们甚至很难得到模型的数值解。因此,为解决该模型的求解复杂性和高维投资组合选择的“维数灾难”问题,本文运用非参数估计中的核估计方法直接得到跟踪组合的密度函数,而无需考虑组合中各资产之间的联合分布,大幅度降低了估计的维度,克服“维数灾难”问题。实际上,运用非参数估计方法对金融风险度量进行估计是近年研究的热门话题,王江涛和周勇[25]研究了高频波动率非参数估计中的窗宽选择问题,而黄金波等[26]给出了非参数框架下的均值-VaR投资组合问题。进一步,基于跟踪组合的核密度函数得到跟踪组合的LPM和UPM核估计量,理论上,LPM和UPM的核估计量是组合头寸的光滑函数,具有任意阶导数,便于优化问题求解。最后,本文运用沪深股票市场上五个常用指数及其成份股数据,检验模型的实用性。
2 增强指数模型
与传统的均值-风险投资组合选择模型一样,增强指数模型也要同时权衡跟踪组合的收益与风险,与传统的均值-风险模型不同的是,增强指数模型要在权衡收益与风险的同时兼顾跟踪指数趋势。因此,增强指数投资策略在建模过程中就需要将指数的表现作为参考点,来度量跟踪组合的超额收益和损失,这一思想与LPM和UPM的定义非常契合,因此,本节构建基于LPM和UPM的增强指数模型,并运用非参数核估计方法对其进行估计。
2.1 UPM/LPM的定义与估计
Markowitz[27]提出的方差指标开启了风险量化分析的研究。Roll[2]运用方差来度量指数跟踪的误差建立指数跟踪模型,但经典的方差指标是对称风险度量工具,既把偏离均值的下端损失看作风险,也把偏离均值的上端收益看作风险,显然不符合人们仅把损失视为风险的心理认知。鉴于方差指标的缺陷,Bawa[28-29]和Fishburn[30]提出下偏矩来度量风险。设资产或资产组合的收益率是随机变量X,α是预先确定的目标收益,通常根据投资者自身的风险态度或者财富水平进行设定,常用的取值为0,无风险利率或者期望收益,令Y=X-α,τ是固定的正整数,τ-阶LPM可以定义为:
LPMτ,α(X)=E[max(α-X,0)]τ
=E[max(-Y,0)]τ
(1)
E[·]表示数学期望,f(y)为Y的密度函数。与方差相比,LPM仅把α以下的损失看作风险,而并不把α以上的收益看作风险,所以LPM是下端风险测度;基于LPM的最优组合不仅能有效控制投资组合的损失,而且具有不限制组合收益的特点[31];通过设定参数α和τ,LPM指标可以退化为其它的下端风险度量指标[32]。例如设定τ=0,则LPM表示损失概率,设定τ=1,则LPM表示期望损失,设定τ=2且α=E[X]时,则LPM表示下半方差。
Markowitz[27]提出用收益率的方差度量风险的同时,也提出用收益率的均值来代表收益,在很长一段时间内得到学者的广泛认可,但在实践运用中却存在困难。研究表明,最优组合头寸对组合中各资产的平均收益率十分敏感,而实践中平均收益率的估计通常要严重依赖于样本区间的选取,不同样本区间可能得出非常不同的估计值,从而导致得到的最优组合头寸大相径庭。因此,部分学者认为超过收益率均值以上的部分都应视为收益,这种界定与人们的实际投资感受更加接近。因此,Sortino等[33]提出用Higher Partial Moment来测算超额收益,本文将其定义为UPM。类似下偏矩的定义,τ-阶上偏矩(UPM)可以定义为:
UPMτ,α(X)=E[max(X-α,0)]τ
(2)
同LPM一样,通过设定参数α和τ,UPM可以退化为收益概率、期望收益和上半方差等。
在LPM和UPM的定义里,α是投资者预先设定的目标收益,通常是某个常数,低于该目标收益的部分被视为风险,而高于该目标收益的部分应视为收益。在本文,我们研究增强指数模型,投资者的目标收益应该与指数收益挂钩,作为对传统LPM定义的拓展,我们考虑α取指数收益率的情况,此时α为随机变量。因此,在以下的讨论中,我们将默认α可以是随机变量。
显然,超过目标收益的部分是是投资者喜好的,而低于目标收益的部分是投资者厌恶的,所以,投资者的目标是最大化UPM的同时最小化LPM,由此我们就定义如下的优化目标:
(3)
如果令τ=0,则上式就是上端收益发生的概率除以下端损失发生的概率,令τ=1,则上述指标就是Omega Ratio[22],令τ=2且α=E[X],上式就表示上半方差除以下半方差。
在现实生活中,我们需要估计出LPM和UPM,才能进一步估计出PM,根据公式(1)和公式(2)可知,如果要得到LPM和UPM的解析表达式,需要给出密度函数或分布函数,但是实际中我们事先并不知道资产收益率的密度函数或分布函数,只能根据资产收益率的历史样本来对其进行估计。一个可供选择的样本分布函数是经验分布函数,但是经验分布函数是分段函数,不具有通常意义上的光滑性,另一个更好的选择是用核光滑方法得到分布函数或密度函数的核估计量,可以克服经验分布函数不光滑的缺陷。因此,我们用核估计方法。设yt,t=1,2,…,T为Y的样本,则f(y)的核估计式为[34]:
(4)
(5)
(6)
(7)
(8)
为进一步得到任意非负整数j下Gj(ξt)的一般表达式,我们给出如下迭代公式
命题1:对于任意的正整数j≥2,有迭代公式:
(9)
证明:根据Gj(ξt)的定义,用分部积分法,可得:
(10)
令y=ξt,即得证。
通过公式(8)和迭代公式(9),可以得到任意正整数j下的Gj(ξt)表达式。根据标准正态分布的性质,我们有:
(11)
因此,根据Gj(ξt)的表达式和公式(11),可以得到Hj(ξt)的表达式。例如:
(12)
2.2 基于UPM-LPM的增强指数模型
(13)
(14)
根据公式(5),可得窗宽h计算公式为:
(15)
将(13)式和(14)式代入(3)式中,可以得到PM的核估计式。假设投资者的初始财富标准化为1,为了防止风险过于集中,投资者对资产i的持有头寸不超过ui,而出于交易成本考虑,投资者对持有的资产i的头寸不低于li。在此背景下,我们定义如下的增强指数模型:
由前面的定义,我们知道UPM度量跟踪组合的超额收益,LPM度量跟踪组合的预期损失。最小化LPM的含义是:当跟踪组合收益低于指数收益时,让二者的差距越小越好,即让跟踪组合尽可能跟踪指数趋势;最大化UPM的含义是:当跟踪组合收益高于指数时,让二者的差距越大越好,即让跟踪组合尽可能获取高于指数平均收益的超额收益。这正是增强指数策略的投资理念:在跟踪指数趋势的同时获取尽可能多的超额收益。因此,投资者基于我们模型设定的目标函数可以实现增强指数投资的理念,同时不同的τ值,可以反映出不同类型的投资者。因此,该模型可以广泛地应用到公募基金、私募基金以及养老基金的管理实践。
3 实证分析
为考察模型在实际金融市场中的表现,本节选取我国沪深股票市场的历史数据进行实证分析,我们主要检验如何运用成份股来跟踪与之对应的指数趋势,同时获取超出指数平均收益的超额收益。我们选取的指数按照成份股的数量从小到大依次是上证50,深证100,沪深300,深证成指和上证综指。五个指数中,上证50和上证综指代表上海证券交易市场的大盘行情,深证100和深证成指代表深圳证券交易市场的大盘行情,沪深300是综合反映沪深市场整体走势的跨市场指数。我们选取指数及其成份股的日收益率数据,数据区间是2005年1月4日至2016年12月30日,样本容量是2915,同时我们也基于指数的收盘价数据给出五个指数的时间趋势(见图1)。如图所示,样本区间内五个指数走势是一致的,都经历了两次完整的大幅上升和下降周期。我们把2005年1月4日至2010年12月31日共计1457个收益率数据作为估计样本,把2011年1月4日至2016年12月30日共计1458个收益率数据作为检验样本,所有数据来自Wind经济金融数据库。
图1 指数收盘价的时间趋势
由于部分成份股是新近加入指数编制,而部分成份股的上市时间较短,我们剔除了数据存在缺失的成份股,而最终保留数据完整的成份股来跟踪指数。同时出于交易成本的考虑,购买指数中的所有成份股是不合算的,通常需要在进行优化配置之前选择部分成份股进入跟踪组合。借鉴Ling等[36]的思想,我们基于指数和成份股的收益率数据,依次计算出所有成份股的Beta值。由于增强指数模型的首要任务是跟踪指数的趋势,所以选择Beta值最接近1的成份股构建跟踪组合的股票池。此外,Ling等[36]的研究中,还考虑了随机Beta和最大Beta标准选择成份股,这两个标准与跟踪指数趋势的内涵相差较远,不是本文考虑的内容。根据五个指数所含成份股的数量,最终选取的进入跟踪组合的成份股数量分别是10、25、30、50和100。表1给出了样本数据说明和指数收益率的描述性统计。第2列给出各指数包含的成份股数量,第3列给出进入跟踪组合的成份股数量,第4列是样本量。第5-10列给出了各指数收益率的描述性统计,均值显示五个将上述五个数据集的估计样本代入模型EIM,并设定相应的具体约束条件,求解模型可以得到最优的投资策略。由于指数编制中成份股的份额不可能为负,所以我们在约束条件中设定li=0,ui=1,i=1,2,…,n。为了比较不同τ对投资策略表现的影响,我们取六个不同参数值,即τ=0,1,2,3,4,5。为比较最优投资策略在实际中的表现,我们引入三个常用的投资绩效评价指标:夏普比率 (Sharpe Ratio, SR)、信息比率 (Information Ratio, IR)和欧米茄比率 (Omega Ratio, OR)。计算公式如下:
表1 数据说明与指数收益率的描述性统计
以上三个指标的计算公式中,rp=a′r为跟踪组合的收益率,rf为无风险收益率,设定rf=0不影响比较结论,σ(rp)为跟踪组合收益率的标准差,rI为指数收益率。SR,IR和OR的值越大,跟踪组合的表现越好。IR≥0表示跟踪组合平均收益大于指数平均收益,OR≥1表示跟踪组合收益率大于指数收益率部分的均值大于跟踪组合收益率小于指数收益率部分的均值,即跟踪组合收益率占优指数收益率。作为比较基准,我们将三个指标中的rp替换为rI,可以得出指数的表现测度,很显然,指数自身的IR=0,且不存在OR。另外,我们也报告了跟踪组合收益率与指数收益率的均值。实证结果见表2。
表2 增强指数模型的表现
注:Data1~ Data5依次表示上证50、深证100、沪深300、深证成指和上证综指及其成份股的收益率数据集,0~5分别表示τ=0,1,2,3,4,5六个取值。
表2给出了最优投资策略的样本内表现,静态策略的样本外表现和动态策略的样本外表现。静态投资策略的样本外表现,即我们将最优投资策略直接运用到检验样本,期间保持跟踪组合头寸不变,直至结束。动态策略的样本外表现,即我们每隔50天调整一次估计样本,每次剔除最旧的50个样本,加入最近50个交易日的样本,以保证每次估计样本容量不变,将更新后的估计样本代入模型得到最优跟踪组合的头寸,并将该组合头寸应用到接下来的50个样本外数据,依次类推,直至结束。表2的第1列是投资表现指标,第2列给出本文使用的数据集,第3列为对应指数的表现,第4-9列是模型的样本内表现,第10-15列是静态策略的样本外表现,第16-21列是动态策略的样本外表现。
从样本内表现来看,在五个不同数据集且六个不同参数值τ=0,1,2,3,4,5下,基于模型的最优投资策略在所有指标上的表现全面占优指数。具体地,基于模型的最优投资策略的均值和SR全部大于或等于相应指数的均值和SR(部分等于是由于小数点四舍五入的结果),基于模型的最优投资策略的IR全都大于零,而且基于模型的最优投资策略OR全都大于1。
样本内的优良表现是模型优化的自然结果,而样本外的表现是我们关注的重点。从静态策略的样本外表现来看,基于模型的投资策略仅在Data5τ=2时的表现不如指数,在其它29种情况下的表现都优于指数。SR、IR和OR的结果也肯定了这个结论(见加黑数字)。因此,从样本外的表现来看,基于模型的投资策略表现十分稳健。从动态策略的样本外表现来看,基于模型的投资策略全面占优指数,进一步说明,基于本文模型的投资策略非常稳健。动态调整策略的优势在于使用最近的数据更新估计样本,能够适时根据变化的市场环境调整跟踪策略,但是动态策略的劣势在于,不断地调整头寸可能会带来额外的交易成本。对比静态策略和动态策略的实证结果,也可以看出,两种策略的表现各有优劣。
为了更加直观地展示本文提出的模型表现,我们给出Data3(其它四个数据集下的图形类似)下各种跟踪投资策略的累积收益图(初始投入资金为1元)。图2展示了基于模型最优投资策略的样本内累积收益,图3-4分别展示了静态和动态投资策略的样本外表现。我们在图上同时展示了指数和六个不同参数取值τ=0,1,2,3,4,5时模型的表现。由图可知,本文提出的模型在不同参数设定下都能够很好地跟踪指数的趋势,同时获取高于指数平均收益的超额收益,动态投资策略在样本外能更好地跟踪指数趋势。
图2 投资策略的样本内表现
图3 静态投资策略的样本外表现
图4 动态投资策略的样本外表现
4 结语
量化投资策略的开发依赖于量化模型,而量化模型的构建基于投资理念,本文将指数收益率作为跟踪组合的目标收益,建立UPM-LPM之比最大化的优化模型,旨在跟踪指数趋势的同时,获取超过指数平均收益的超额收益,契合当下业界热衷的增强指数投资理念。基于沪深股票市场数据的实证分析表明,我们的模型能够很好实现增强指数投资理念,模型的样本外表现达到预期目标。本文的研究成果在理论上可以丰富量化投资模型和资产配置理念,实践上可以优化业界量化投资策略和工具。当然,本文仍遗留以下问题需要解决。首先,我们没有证明模型中目标函数的凸性。目前LPM本身的凸性证明仍然是一个较难的公开话题,虽然有些文献在特定分布(例如正态分布或t分布)下证明了LPM的凸性,但在一般分布下是否仍然具有凸性目前还没有被证明。虽然如此,本文建立的模型仍然能够得到精确度很高的数值解,因为本文模型的目标函数具有很好的光滑性,特别是目标函数具有任意阶导数,可以运用全局最优化技术进行求解。其次,我们的模型没有考虑交易成本、风险配置等现实约束,然而,考虑这些约束并不会使得模型的求解更加困难,因为我们只需要数值解,而不考虑解析解。此外,我们也正在考虑将LASSO等变量选择方法引入模型,实现在模型优化过程中选股。