基于Linex损失函数的正态分布模型的研究
2016-02-26谢小义曹虹李坚樊小琳
谢小义 曹虹 李坚 樊小琳
【摘 要】本文讨论了基于Linex损失函数的正态分布模型位置参数的多层贝叶斯估计以及其先验分布的比较问题。在位置参数取共轭先验分布以及超参数选用无信息先验分布的情形下,推导出正态模型位置参数的多层贝叶斯估计表达式;对于单层贝叶斯估计而言,通过比较发现正态模型的位置参数的无信息先验分布要优于共轭先验分布。
【关键词】Linex损失函数;正态模型;多层贝叶斯估计;后验期望损失决策
贝叶斯(Bayes)学派是统计学的两大学派之一,其和经典统计学派的差异主要在于它们认为在统计推断中不应将总体参数看作一个常数,而应看作一个随机变量。对于总体分布参数的统计推断,除了要使用样本所提供的信息外,还必须规定一个先验分布,即应用贝叶斯方法进行统计推断时要先给出参数的先验分布,基于贝叶斯定理推导出后验分布,再利用获得的后验分布进行统计推断。基于“统计推断需考虑先验信息”这一思想的贝叶斯估计问题也变成为了贝叶斯学中的热点研究问题。正态分布是概率统计里面最重要的分布之一,在生活中就存在许多服从正态分布的数据。根据大数定理和中心极限定理,当研究对象的数据足够多时,其分布服从正态分布,可见正态分布的应用领域十分广泛。但以往对正态模型的研究多数集中在平方损失函数下,而在平方损失函数下往往不能有效地分辨过高估计结果和过低估计结果。相反,Linex损失函数是一种非对称损失函数,在估计过程中可以避免这一缺陷的出现,这一性质致使Linex损失函数常被用于寿险检验和可靠性分析的问题研究中,也是它常被用来预测股票价格的原因之一。
Linex损失函数的基本形式如下:
L(θ,δ)=b[ea (δ-θ)-a(δ-θ)-1] a≠0,b>0
这里的a、b分别是Linex损失函数的尺度参数和形状参数。相比于对称损失函数(如平方损失函数),Linex损失函数有如下优点:
(1)当a>0时,若δ-θ>0,则函数值呈指数增长;若δ-θ<0,则函数值呈线性增长。a<0时函数增长形式正好相反。
(2)当绝对值δ-θ很小时,该函数几乎是对称的,且接近平方损失函数。
本文仅讨论尺度参数a>0的情形,对于a<0的情形可做类似的讨论。为研究方便,设定随机变量X服从均值为θ,方差为1的正态分布,即X~N(θ,1)。则随机变量X的概率密度函数为P(X)=exp((x-θ)2/2)/。另外,记x1,x2,…,xn为随机变量X的n个独立的样本观测值,表示样本均值。
引理1:在Linex损失函数下,对于任何先验分布,参数θ的贝叶斯估计的表达式为:
θB=-ln E(e-aθX)
对于贝叶斯估计问题,由上述可知应用贝叶斯方法进行统计推断的关键和核心在于选择合适的先验分布。只有确定了先验分布,才能对模型进行讨论。对于模型参数的先验分布的选取存在很多研究,概括起来有应用无信息先验分布、共轭先验分布、Jeffreys准则、不变测度、最大熵方法、专家经验法、自助法和多层先验分步法等方法,其中最常用和方便的是共轭先验分布和无信息先验分布。对于多层先验分布法,也是采用以上几种方法对每层先验分布进行选择。考虑到当正态模型的方差固定时,总体的均值的共轭先验分布仍为正态分布。结合多层贝叶斯估计理论,本文对于正态总体的位置参数θ的先验分布(第一层先验分布)采用其共轭先验分布的形式,记作θ~N(μ1,σ2 1),其中μ1和σ2 1未知。由于μ1和σ2 1未知,即使得到位置参数θ的后验分布也无法对位置参数θ进行统计推断。若此时再将μ1和σ2 1看作随机变量,则它们称为超参数。根据多层贝叶斯估计理论可知,对于超参数μ1和σ2 1,把它们视作相互独立的随机变量,也对它们设定先验分布(第二层先验分布),即为估计位置参数θ而再次设定先验分布。根据已有的研究可知,对于第二层先验分布而言,即使它们的先验分布决定错了,最终导致错误结果的危险性也不会太大,故选用μ1和σ2 1的无信息先验分布作为整个估计过程中的第二层先验分布是可行的。
另外,在实际生活和工作当中,人们经常需要做决策。做决策需要信息,信息越充分和准确,决策的效果就会越好。决策的目的往往是收益最大化或损失最小化,基于Linex损失函数的贝叶斯决策问题,普遍是以后验期望损失最小化为最终目的。根据贝叶斯公式,不同形式的先验分布会产生不同形式的后验分布,从而会出现不同的后验期望损失值,故此时做决策的关键也在于选取合适的先验分布,这便是后验期望损失决策准则的原理,即当后验贝叶斯行为A的后验期望损失要比另一个后验贝叶斯行为B的后验期望损失小时,则行为A要优于行为B。根据这一决策准则,在具体的损失函数下,便能对正态分布的位置参数θ的后验期望损失进行计算和比较,从而选出损失最小相对应的先验分布作为最优的先验分布。
定理2:对于单层贝叶斯估计问题,若a>0,则基于Linex损失函数的正态分布N(θ,1)的位置参数θ的无信息先验分布要优于共轭先验分布。
证明:根据贝叶斯学中无信息先验分布的设定可知,无信息先验分布最基本的设定形式是无信息Jeffreys先验,即P(θ)=c,-∞ θ (1) B =-ln E(e-a θX)=-lne=-。 若取参数θ的共轭先验分布N(μ1,σ2 1),则根据峁诗松关于贝叶斯估计的理论可知,参数θ的后验分布为N(μ3,σ2 3),其中μ3=,σ2 3=。根据引理1,有: θ (2) B =-ln E(e-a θX)=-lne=-+。 因为n为样本数,有n>0。当a>0时,易知θ (2) B >θ (1) B 。根据后验贝叶斯损失决策准则,θ (1) B 选用的先验分布要优于θ (2) B 选用的先验分布。故基于Linex损失函数的正态分布N(θ,1)的位置参数θ的无信息先验分布要优于共轭先验分布。 【参考文献】 [1]尤游,周玲.LINEX损失下双指数分布位置参数的经验Bayes估计[J].应用概率统计,2015(3). [2]严惠云,师义民.Linex损失下股票投资的贝叶斯预测[J].西南民族大学学报:自然科学版,2006(9). [3]史建红,关丽娜.非对称损失函数下Burr XII型分布可靠性指标的Bayes估计[J].数学杂志,2012(1). [4]韩明.多层先验分布的构造及其应用[J].运筹与管理,1997(34). [5]李勇,易文德.贝叶斯分析中先验分布优选的方法[J].渝西学院学报:自然科学版,2005(12). [6]峁诗松.贝叶斯统计[M].北京:中国统计出版社,1999. [7]韩明.多层先验分布的构造及其应用[J].运筹与管理,1997(3). [责任编辑:王楠]