APP下载

非正态纵向数据随机生成的Monte Carlo模拟方法*

2015-01-27杨嘉伟陈平雁

中国卫生统计 2015年3期
关键词:连续型均匀分布正态

庄 严 杨嘉伟 陈平雁

南方医科大学生物统计学系(510515)

非正态纵向数据随机生成的Monte Carlo模拟方法*

庄 严 杨嘉伟 陈平雁△

南方医科大学生物统计学系(510515)

目的 建立非正态纵向数据的随机序列生成方法。方法 根据任意累积分布函数均服从[0,1]的均匀分布原理,通过反函数计算即可将标准多元正态分布随机序列转换为任意分布下的目标随机序列,从而随机生成非正态纵向数据。结果 分别对指数分布和二项分布相关序列进行模拟随机数生成,通过对样本的统计分析,均满足预先设定的结果。结论 本文提出的非正态纵向数据的随机生成的Monte Carlo模拟方法可产生任意分布下的相关随机序列,不受变量类型限制,方法简单,且具有理论依据,为非正态纵向数据的研究提供了模拟基础。

Monte Carlo 纵向数据 相关序列 随机数

在医学统计的理论方法领域中,通常需要研究者对现有若干方法做比较研究,以说明各方法在应用中的优劣势,从而阐明其适用条件,为今后的实际应用提供理论指导。在这个过程中势必需要产生随机数据来模拟各种应用中的情况,并以此为背景评价各方法的应用性能。可以看出,随机数据是整个比较研究的基础,其生成结果的好坏直接影响着后续方法的比较研究结果,并进一步影响方法的实际应用。关于随机数据的生成,现有很多软件,如SAS、R软件以及Matlab等,提供有专门的模块或语句方便大家使用,但仅能生成单变量形式的随机样本,若想生成具有相关性的多元随机数,如纵向数据,则只能生成服从多元正态分布的随机序列,而对于偏态的具有相关性的纵向数据随机生成尚无现成模块支持。

Li和Hammond[1]及文德智等[2]曾提出基于线性变换-非线性变换两步变换法产生相关变量随机数序列,主要是产生独立标准正态分布随机序列,通过协方差矩阵Cholesky因子分解的方法经线性变换转为一般正态分布随机序列,最后经非线性变换转换为目标随机序列,整个过程较为繁琐,且仅限产生连续型相关序列。本文介绍基于均匀分布产生随机数的Monte Carlo模拟方法[3],省去了标准正态与一般正态之间的转换过程,由标准正态分布的随机序列通过累积分布函数连接,进而生成目标随机序列,过程更为简捷,且可生成离散型相关序列。

Monte Carlo模拟理论与方法

1.Monte Carlo模拟原理

定理:令θ=FX(x),其中FX(x)为任意连续型随机变量X的累积分布函数,则0≤FX(x)≤1,那么有θ~U[0,1]。

即X~U[0,1]。

水中自救与水上救助能力是使学生安全成长并全面发展的重要培养手段,以核心素养观之,游泳自救与水上救助能力具有三维目标的立体结构。其外在表现为十字漂、水母漂、踩水、着装游泳、潜泳、游泳技能、人工呼吸、安全运送等游泳安全能力;其内核结构则是学生沉着冷静处理危机情况的自主能力与生命安全意识,强调如何有效地管理情绪、保持体力、思考和应对复杂多变的环境,从而摆脱险境;其中间联系层则是良好的沟通机制和社会参与,强调学生处理好自救和救助他人的关系,成为具有安全意识和社会担当的人。

2.非正态分布纵向数据模拟方法

(1)

3.相关矩阵的计算

模拟结果

1.指数分布

2.二项分布

讨 论

随机数生成是统计学模拟研究的基础。在方法比较以及评价中,如果随机数生成出现问题,就可能会对最终的推断造成偏倚。随着纵向研究越来越受到广大学者的关注,相关序列的随机生成也成为一个不可避免的问题。常用软件只能产生多元正态分布随机数,对于非正态分布,以往提出的方法也仅能解决连续型分布,对于离散型分布并未深入研究,且方法较复杂。本文提出基于均匀分布产生随机数的Monte Carlo模拟方法,仅通过标准正态的累积分布产生均匀分布随机数,进一步计算反函数就可产生任意分布的相关序列,方法简单,不受变量类型限制,既可产生连续型相关序列,也可产生离散型相关序列,且在多数计算软件如Matlab、R软件中可实现。

[1]Li ST,Hammond JL.Generation of pseudorandom numbers with specified univariate distributions and correlation coefficients.Systems,Man and Cybernetics,IEEE Transactions on,1975(5):557-561.

[2]文德智,卓仁鸿,丁大杰,等.蒙特卡罗模拟中相关变量随机数序列的产生方法.物理学报,2012,61(22):220204.

[3]李贤平.概率论基础.高等教育出版社,1997.

[4]Tanner MA.Tools for statistical inference.Springer,1991.

[5]MathWorks T.Matlab r2009b.Natick,MA,2009.

[6]陈平雁,黄浙明.IBM SPSS 19 统计软件应用教程.第2版.人民卫生出版社,2012.

(责任编辑:邓 妍)

Skewed Longitudinal Data Simulation Based on Monte Carlo Method

Zhuang Yan,Yang Jiawei,Chen Pingyan

(Department of Biostatistics,School of Public Health,Southern Medical University(510515),Guangzhou)

Objective Proposethe random sequence generation method of skewed longitudinal data.Methods Any cumulative distribution function obey standard uniform distribution,according to this principle,we can computethe inverse function,and convertthe random sequence from standard multivariate normal distribution to targeted random sequence from arbitrarily distribution,randomly generateskewed longitudinal data ultimately.Results Respectively,we simulate the exponential distribution and the binomial distribution,and the results have met pre-setthrough the statistical analysis to the samples.Conclusion This paper propose a method based on Monte Carlo simulation which can generatethe random sequencefrom any distributionwithout any limitation to the type of the variates.This method is simple,and it provide a theoretical basis for generating therandomsequence of skewed longitudinal data.

Monte Carlo;Longitudinal data;Related sequence;Random number

国家自然科学基金(81402758,81373098);广东省“大学生创新创业训练计划”(1212113040)

△通信作者,陈平雁,E-mail:chenpy99@126.com

猜你喜欢

连续型均匀分布正态
思维建模在连续型随机变量中的应用
利用二元对数正态丰度模型预测铀资源总量
直觉正态模糊数Choquet 积分算子及其决策应用
连续型美式分期付款看跌期权
抽样分布的若干反例
电磁感应综合应用检测题
可逆随机数生成器的设计
尼龙纤维分布情况对砂浆性能的影响研究
基于晶圆优先级的连续型Interbay搬运系统性能分析
标准参数系下Alpha稳定分布随机变量的产生及仿真