用SAS软件实现因变量为多值有序变量的多重logistic回归分析

2014-12-05胡良平孙日扬军事医学科学院研究生部生物医学统计学咨询中心北京100850

药学服务与研究 2014年4期

胡良平，孙日扬（军事医学科学院研究生部生物医学统计学咨询中心，北京100850）

［本文编辑］兰芬

在医药学研究中，经常涉及到一个多值有序的因变量与一组自变量之间依赖关系的研究，这时线性回归分析方法就无能为力，而多值有序变量的多重logistic回归分析是处理该问题的有效方法之一。该方法对自变量的性质几乎没有限制，可以是连续性的、二值的、多值有序的、多值名义的变量，但要求有较大的样本量，并且样本对于总体的代表性很好。回归系数具有明确的实际意义，可以根据回归系数得到优势比（odds ratio，OR）的估计值。欲使所求得的多重回归方程具有理想的实用价值，关键是必须找全、找准对因变量有重要影响的自变量，并获得它们在各受试对象身上的准确取值，而这需要靠严格的质量控制措施来保证。一般来讲，只要因变量为一个多值有序变量，样本量又比较大，并且目的是研究因变量与自变量之间的依赖关系时，均可考虑使用因变量为多值有序变量的多重logistic回归分析。本文将结合实例介绍该方法及其SAS实现过程。

1 实例

观察不同剂量右美托咪定用于困难气道患者清醒气管插管中的镇静效果及其对血流动力学的影响，并与咪达唑仑复合芬太尼比较，探讨右美托咪定用于清醒气管插管中镇静的可行性。选择Mallampati分级≥Ⅲ级的困难气道患者60例，以简单随机法分成D1、D2、D3和 MF四组（n＝15）。所有患者均经光导纤维支气管镜进行清醒气管插管。D1、D2、D3组分别在插管前15min静脉推注右美托咪定0.5、1.0、1.5μg／kg，推注时间为10min。MF组在插管前5min静脉推注咪达唑仑0.02mg／kg和芬太尼2.0μg／kg。所有患者于插管前2min行环甲膜穿刺，注入2%利多卡因1mg／kg。评价组别、年龄、性别、环甲膜穿刺前即刻的Ramsay评分、插管评分、心率、是否患高血压、是否患糖尿病、血氧饱和度、动脉血二氧化碳分压对插管满意度评级的影响。表1的数据在原文数据的基础上做了修改，不代表真实数据［1］。

2 分析思路

本研究涉及的自变量包括上述年龄等10项，因变量为插管满意度评级。研究目的为评价全部自变量对因变量的影响，也就是要研究因变量如何随各自变量变化而变化的依赖关系。由于插管满意度评级为普通（1）、良好（2）、优秀（3），显然它是一个多值有序的因变量，因此这是涉及一个多值有序因变量与多个自变量依赖关系的研究，适合采用多值有序变量的多重logistic回归分析。

表1 各组患者的年龄、性别、Ramsay评分、插管评分、心率、是否患高血压和糖尿病、血氧饱和度、动脉血二氧化碳分压及插管满意度评级Table 1 Age，sex，Ramsay scores，intubation scores，heart rate，illness of hypertension or diabetes，blood oxygen saturation，arterial carbon dioxide tension and intubation satisfaction grade of patients in each group

2.1 将原始数据转换为回归分析所要求的数据表将原始数据转换为回归分析所要求的数据表，见表2。

表2 用于多重logistic回归分析的数据表Table 2 The data for multiple logistic regression analysis

2.2 SAS分析程序编写：程序编写由数据步与过程步组成。在数据步中对部分自变量进行赋值，sex＝0表示性别为女，sex＝1表示性别为男；gaoxueya＝0表示未患高血压，gaoxueya＝1表示患高血压；tangniaobing＝0表示未患糖尿病，tangniaobing＝1表示患糖尿病；manyi＝1表示满意度普通，manyi＝2表示满意度良好，manyi＝3表示满意度优秀，见表3。由于每个logistic过程步内只允许存在一个model语句，故SAS程序中写了三个过程步。

2.3 结果解释结果的第一部分输出模型基本信息，最后一行文字说明该模型是以较小的顺序值为对比的基础，也就是以插管满意度评级是普通的那一档为基础（即对照组）建模，见图1。在logistic模型中，默认状态下是以因变量取值较小的水平为基础建模，计算当自变量取一组特定值时该事件发生的概率。若想要以取值较大的水平为基础建模，则应在proc logistic语句之后使用降序（descending）选项来改变因变量的取值顺序，见图2。

第二部分为自变量效应分析，筛选自变量的方法为逐步法，首先将分类变量组别（group）转变成三个哑变量并赋值，以最后一组为基准，尔后进行逐步筛选变量的环节。步骤0：截距项筛选进入模型；步骤1：影响因素xinlv进入模型；步骤2：影响因素dongmai进入模型。之后为逐步法过程小结。

第三部分是对各个自变量所产生的效应进行分析的结果，显示了各个自变量对结果变量的整体作用。该检验的原假设为全部自变量对logitP｛即log［P／（1－P）］｝都没有作用。由表4可以看出，xinlv和dongmai这两个自变量对于结果变量的影响P值均＜0.05，有统计学意义。逐步回归法的最大似然估计结果见表5。xinlv的OR估计值为0.917，95%置信区间为（0.855，0.983）；dongmai的OR估计值为1.171，95%置信区间为（1.007，1.363）。

表3 SAS软件程序编写及说明Table 3 SAS software programing and explanations

图1 模型基本信息Figure 1 Basic information of the model

图2 逐步回归法计算过程Figure 2 Procedures of stepwise regression

表4 自变量效应分析Table 4 Effect analysis of independent variables

表5 逐步回归法的最大似然估计Table 5 Analysis of maximum likelihood estimates by stepwise regression

第四部分为参数估计结果，本资料中自变量xinlv和dongmai对应的P值均＜0.05，表明两个自变量的回归系数的估计值与0之间的差别均有统计学意义。在累积logistic回归模型中，截距项有多个，其个数为因变量的水平数减1。本例中因变量水平数为3，因此包含2个截距项。如果用P1表示“普通”的概率，用P2表示“普通及良好”的累积概率，则可拟合出两个logistic回归方程，分别用于计算“普通”与“良好及优秀”的概率［P1与（1－P1）］，“普通及良好”与“优秀”的概率［P2与（1－P2）］。其回归方程如下。式中x1为变量xinlv，x2为变量dongmai。

第五部分输出的为预测概率与观察响应关联性分析结果（见表6）。需要注意的是，c值即为诊断性试验中需要用到的ROC曲线下的面积。以上为逐步回归法筛选变量结果，前进法与其结果相同，故在此不给出前进法筛选的结果。后退法与其结果有差别，后退法的最大似然估计结果见表7。由表7可见，采用后退法进行变量筛选时，只有xinlv这一变量P值＜0.05，具有统计学意义，其OR估计值为0.919，95%置信区间为（0.859，0.984）。本例选择前进法和逐步回归法筛选变量的结果作为最终的结果，理由参见3.3项。

表6 预测概率与观察响应关联性分析Table 6 Association of predicted probabilities and observed responses

表7 后退法的最大似然估计Table 7 Analysis of maximum likelihood estimates by backward regression

2.4 结果报告 logistic回归分析应主要报告以下内容。（1）分析目的：评价组别、年龄、性别、环甲膜穿刺前即刻的Ramsay评分、插管评分、心率、是否患高血压、是否患糖尿病、血氧饱和度、动脉血二氧化碳分压对插管满意度评级的影响。（2）自变量的基本统计描述：如表1所示。（3）自变量筛选方法：本例采用逐步回归法的筛选结果作为最终结果（见表5）。实际处理资料时，建议同时采用前进法、后退法和逐步回归法筛选自变量，结合统计学和专业知识选择其中最为合理的筛选结果做出专业结论。

3 讨论

3.1 logistic回归分析需要注意的问题［2］（1）个体间的独立性：建立logistic回归方程时，要求研究个体之间彼此独立，该方法不适用于研究个体间具有聚集性特征的资料。（2）足够的样本量：logistic回归分析对样本量具有一定的要求，当样本量过少时，参数估计值不稳定，甚至可能出现专业上无法解释的现象。（3）变量的赋值：在logistic回归分析中，自变量可以有多种形式。变量赋值方式不同，参数估计值及正负符号将有所不同，从而对结果的解释方式亦不同［3］。连续型变量可以按原数据形式参与分析，也可以离散化成有序分类变量，或离散化后用几个哑变量来描述。采用原数据形式简单且保持信息完整性，但有时参数的实际意义不突出。二分类变量一般用0和1赋值，如暴露赋值1，非暴露赋值0；男性赋值1，女性赋值0。赋值较小的水平常被作为参照水平，这类变量的OR就是水平1和水平0的优势之比。无序多分类变量应转化为哑变量形式，某个有k个类别的名义变量需要（k－1）个哑变量来表示。例如血型是一个有4个类别的四值名义变量，有A、B、AB、O四种具体类型，若以O型血为基准，需引入3个哑变量来代替原先的一个血型变量。令X1＝｛0为非A型；1为A型｝，X2＝｛0为非B型；1为B型｝，X3＝｛0为非 AB型；1为 AB型｝，则可得到 A、B、AB、O 型分别用哑变量（1，0，0）、（0，1，0）、（0，0，1）和（0，0，0）来表示。很多情况下，所谓的参照水平往往都是研究者随意设置的，并非都具有基线的性质，随着参照水平的改变，结果将会不同。此外，哑变量赋值增加了自变量的个数，如样本量太少，则会出现参数估计值不稳定现象，有时甚至无法计算。当样本量足够大，且对变量作用情况把握不准时，引入哑变量不失为最佳选择。值得注意的是，在采用前进法、后退法或逐步回归法筛选自变量过程中，（k－1）个哑变量应视为一个整体，做到“同进同出”。在SAS logistic过程中，class语句会对无序多分类变量自动生成对应的哑变量并自动对其赋值，在之后的分析过程中会在三型方差分析中对该无序多分类变量整体计算Wald卡方值并进行参数检验。若三型方差分析中显示该变量整体具有统计学意义，则在接下来的参数估计以及假设检验中会包含所有的（k－1）个哑变量，此时即为“同进”；若该变量整体不具有统计学意义，则在接下来的参数估计以及假设检验中不会包含所有的（k－1）个哑变量，此时即为“同出”。

有序多分类变量可以按等级的秩次赋值，这类变量的OR就是秩次（k＋1）与秩次k的优势之比。但这样做有时并不科学，因为此有序变量每上升或下降一个等级，对结果变量的影响并非总是线性的，若遇到有序因变量按连续变量回归所得效果不理想时，建议采用引入哑变量的方式来处理。（1）模型评价：建立模型并进行假设检验只验证了模型和回归系数是否具有统计学意义，但并不表明模型拟合的效果如何。评价模型拟合效果，即评价模型的预测值与观测值的一致性，这就是拟合优度检验。拟合优度检验是logistic回归分析过程中不可缺少的环节，拟合效果好，所得出的结论才更符合实际情况。（2）标准化回归系数：多重logistic回归分析将会得到多个回归系数，若各自变量的单位不同，则各回归系数绝对值大小并不直接表明其对因变量的相对重要性，只有用标准化回归系数才能很好地比较。对所有自变量标准化后进行logistic回归分析，可以同时获得非标准化回归系数和标准化回归系数。要得到标准化回归系数，用SAS软件拟合多重logistic回归方程时，只需要在model语句的选择项中增加一项“STB”即可。

3.2 应采用多种筛选自变量的方法筛选自变量时，从统计学角度看，没有任何一种筛选方法是绝对完美无缺的，因为每种筛选方法的每一步操作都是在全部自变量的一个子集中完成的。可考虑采取3种常用的筛选自变量的方法：前进法、后退法和逐步回归法。（1）前进法：模型中变量从无到有依次选一变量进入模型，并根据该变量在模型中的Ⅱ型离差平方和（SS2）计算F值和P值。当P值＜SLENTRY（程序中规定的选变量进入方程的显著性水平sle），则该变量入选，否则不能入选。当模型中变量数少时，某变量不符合入选标准，但随着变量逐次增多，该变量就可能符合入选标准，直到没有变量可入选为止。SLENTRY缺省值定为0.5，亦可定为0.2～0.4，如果自变量很多，此值还应取得更小一些，例如0.05。前进法的局限性是当SLENTRY取值小时，可能所有变量都不能入选；SLENTRY取值大时，开始选入的变量在新条件下不再进行检验，因而不能剔除后来变得无统计学意义的变量。（2）后退法：从模型语句中所包含的全部变量开始，计算留在模型中的各个自变量所产生的F值和P值。当P值＜SLSTAY（程序中规定的从方程中剔除变量的显著性水平sls），则将此变量保留在方程中，否则从最大的P值所对应的自变量开始逐一剔除，直到模型中没有变量可以剔除为止。SLSTAY缺省值为0.10，欲使保留在回归方程中的自变量都在α＝0.05水平上有统计学意义，应让SLSTAY＝0.05。程序能运行时，因要求所选自变量的子集矩阵满秩，所以当观测点少且变量过多时，程序会自动从中选择出观测点数减1个变量建模，然后逐一进行筛选。后退法的局限性是当SLSTAY取值大时，任何一个变量都不能被剔除；反之，则开始剔除的变量后来在新条件下即使变得具有统计学意义，也不能再次入选回归方程并参入检验。（3）逐步回归法：此法是前进法和后退法的结合，模型中的变量从无到有像前进法那样，根据F值按SLENTRY水平决定该变量是否入选。当模型选入变量后，又像后退法那样，根据F值按SLSTAY水平剔除不具有统计学意义的变量，依此类推，直到没有变量可入选，也没有变量可剔除或入选变量就是刚剔除的变量，才停止逐步筛选过程。逐步筛选法比前进法和后退法都能更好地在模型中选出变量，但也有其局限性。其一，当有m个变量入选时，对于将要入选的第（m＋1）个变量来说，前m个变量不一定是最佳组合；其二，选入或剔除变量仅以F值作为标准，完全没考虑其他标准。由于每种筛选方法都有其优势和局限性，因此在选择筛选方法时若不能十分确定，则应使用3种方法各筛选一次，将拟合结果最优的方法作为筛选方法。其实，在构建多重logistic回归方程时，还有一种筛选变量的方法，称为最优回归子集法；而在构建多重线性回归方程时，有8种筛选自变量的方法。因篇幅所限，这些内容就不在本文详细介绍了。

3.3 如何评价相对最优的回归方程如何从多种筛选自变量的方法产生的众多回归方程中选择一个最优的回归方程呢？判别标准可以有以下几条：第一，整个回归方程以及各个筛选出的自变量具有统计学意义；第二，具有统计学意义的各个自变量的系数在专业上具有合理的解释；第三，由回归方程得到的估计值必须在专业上有意义且残差的标准误最小；第四，若几个回归方程中所含自变量的个数相同，取赤池信息标准值（Akaike information criteria，AIC）较小者；第五，若较优的回归方程所含自变量个数相差较多，在其他方面基本相同的前提下，取自变量个数最少的回归方程。

本文实例中，前进法和逐步回归法的AIC均为126.774，而后退法的 AIC为129.177，因此考虑选择AIC更小的前进法或逐步回归法的筛选结果作为最终结果。当然，本例中3种筛选方法的AIC相差不大，若从回归方程精简的角度来考虑，本例按回归方程中自变量个数少作为取舍准则，选择后退法筛选自变量的结果作为最终结果也有一定的道理。值得一提的是，绝对最优的回归方程是很难找到的。因为任何人都无法保证对结果变量有影响的因素是否找全、找准了，样本对于总体的代表性究竟怎样，数据检测是否都准确可靠，是否仅考虑自变量的一次方对因变量的影响就足够了，是否存在对因变量有统计学意义的交互作用项，上述每一个问题都对最优回归方程有着不可估量的影响。

［1］仇琳，张凌，纪均.右美托咪定用于困难气道患者清醒气管插管中的镇静作用［J］.药学服务与研究，2013，13（3）：208－212.Qiu Lin，Zhang Ling，Ji Jun.Sedation effect of dexmedetomidine on awake intubation in patients with difficult airway［J］.Pharm Care Res，2013，13（3）：208－212.In Chinese with English abstract.

［2］方积乾.卫生统计学［M］.7版.北京：人民卫生出版社，2010：391－393.Fang JiQian.Health statistics［M］.7th ed.Beijing：People’s Health Press，2010：391－393.In Chinese.

［3］胡良平.医学统计学——运用三型理论分析定量与定性资料［M］.北京：人民军医出版社，2009：365－366.Hu LiangPing.Medical statistics：analysis of qualitative and quantitative data with triple－type theory［M］.Beijing：People’s Military Medical Press，2009：365－366.In Chinese.