临床医学研究数据统计分析思路概述
2022-01-23王瑞平李斌
王瑞平 李斌
摘 要 本文基于临床医学研究数据分类,简要介绍临床研究数据的统计分析思路,主要包括统计学描述和统计学推断两个部分,为医务人员规范开展临床研究数据的统计分析提供参考。
关键词 临床研究 统计分析 定量变量 定性变量
中图分类号:C81 文献标志码:C 文章编号:1006-1533(2022)01-0007-03
基金项目:国家重点研发计划“中医药现代化研究”重点专项项目(2018YFC1705301);国家自然科学基金面上项目(82174383);上海申康医院发展中心管理研究项目(2020SKMR-32);上海市皮肤病医院引进人才科研基金项目(2021KYQD01)
Outline of the data analysis in clinical research
WANG Ruiping, LI Bin
(Clinical Research & Innovation Center, Shanghai Skin Disease Hospital, Shanghai 200443, China)
ABSTRACT Based on the classification of clinical medical research data, this paper briefly introduces the idea of statistical analysis of clinical research data, mainly including two parts: statistical description and statistical inference, so as to provide a reference for medical staff to standardize the statistical analysis of clinical research.
KEy wORDS clinical research; statistical analysis; quantitative variable; qualitative variable
臨床医学研究数据统计分析主要包括统计学描述和统计学推断两个部分[1-4]。如图1所示,统计学描述是应用统计参数和指标对变量数据进行合理描述和展示的过程,包括对定量变量数据的描述和定性变量数据的描述;统计学推断则是通过抽样来估计总体参数情况,应用“反证法”和“小概率事件”原理,由样本信息对相应总体特征进行推断的过程,包括参数估计和假设检验两个部分。
1 临床研究数据的统计学描述
在进行临床研究数据统计分析时,首先应对研究对象的一般资料(人口学资料、基础疾病、过敏史等)进行分析描述,阐明研究对象的一般人口学特征构成情况,评价研究对象在不同试验组别中的分布情况等。对于定量变量,描述性统计分析的主要任务是描述其集中趋势和离散趋势,其中用于描述定量变量集中趋势的指标包括均数、中位数和众数,用于描述定量变量离散趋势的指标包括标准差、方差、全距、四分位数间距和变异系数。对于这些描述定量变量集中趋势和离散趋势的指标,临床研究数据统计分析时如何正确选择合适的指标来进行统计学描述,需要考虑数据的分布特征。对于符合正态分布或近似正态分布的定量变量,应选择均数和标准差来进行描述;对于不符合正态分布的定量变量,通常选择中位数和四分位数间距来进行描述。
举例来说,如图2所示,数据集A包含20个数据,其中“1”有7个,“2”有6个,绘制直方图(11a)后见呈偏态分布;数据集B也包含20个数据,其中“4”有3个,“5”有4个,“6”有3个,绘制直方图(11b)后见呈正态分布。在实际进行数据统计分析时,一般可使用SPSS软件中“analysis→descriptive statistics→explore→plot”里的正态性检验来判定数据是否符合正态分布(K-S值,P>0.05表示为正态分布)。
对于数据集A和数据集B,它们的集中趋势和离散趋势指标计算如下。
鉴于数据集A中的数据呈偏态分布,应选择中位数(2)来描述其集中趋势,选择四分位数间距(1.00, 4.75)来描述其离散趋势;而数据集B中的数据呈正态分布,应选择均数(5.15)来描述其集中趋势,选择标准差(2.06)来描述其离散趋势。
对于定性变量,可常规选择构成比、百分比、比值和率来进行统计学描述。在图3所示表1中,BMI(体质量指数)和文化程度为构成比,性别(男/女)为比值。流行病学调查研究中还常会用到发病率、患病率、罹患率、死亡率、病死率和生存率等[1]。
2 临床研究数据的统计学推断
假设检验是临床研究数据统计分析的核心,其基本思想是综合应用“反证法”和“小概率事件”原理,由样本信息对相应总体的特征进行推断,这部分内容在临床研究报告撰写中占有较大的比重。变量类别不同,假设检验的方法也不同。定量变量如符合正态分布且方差齐,两组之间的比较采用t检验,多组之间的比较采用方差分析;如符合正态分布但方差不齐,两组之间的比较采用校正的t检验,多组之间的比较则先进行数据转换(对数变换、平方根变换、平方根反正弦变换等),而后再采用方差分析。对于两个变量之间关系的探索,可以进行Pearson相关性分析和线性回归分析。定量变量如不符合正态分布,常规选择非参数检验分析组间的差异,使用Spearman相关性分析和非线性回归分析探讨两个变量之间的关系。
对于定性变量,可选择卡方检验、趋势卡方检验、ridit检验进行单因素分析,探讨两组或多组之间的差异;可使用logistic回归分析进行多因素分析,探索研究变量的独立危险因素。
参考文献
[1] 方积乾. 卫生统计学[M]. 6版. 北京: 人民卫生出版社, 2008.
[2] 李立明. 流行病学[M]. 5版. 北京: 人民卫生出版社, 2003.
[3] 孙振球, 徐勇勇. 医学统计学[M]. 4版. 北京: 人民卫生出版社, 2014.
[4] 邓伟, 贺佳. 临床试验设计与统计分析[M]. 北京: 人民卫生出版社, 2012.