基于现实世界研究中临床随访数据的两种动态预测建模方法的实证研究

2021-11-15尤东方黄丽红魏朝晖

中国临床医学 2021年5期

杨锋，陈欣，尤东方，黄丽红，魏朝晖，赵杨,6*

1. 南京医科大学公共卫生学院生物统计学系，南京 211166 2. 嘉兴泰格数据管理有限公司，嘉兴 314000 3. 南京医科大学医学大数据中心，南京 210000 4. 复旦大学附属中山医院生物统计室，上海 200032 5. 杭州泰格医药科技股份有限公司，杭州 310000 6. CSCO生物统计学专家委员会RWE项目组

现实世界研究(real-world study, RWS)中一种常见的研究方式是回顾性队列研究。近年来，随着电子信息化系统的不断完善及大型专病队列的不断建立，这类研究开展得越来越广泛。患者按照一定的时间间隔接受诊疗，从而产生了临床随访数据。例如，重症肺炎患者在ICU住院期间，每天都会进行若干次实验室检查，总计可达十余次；肿瘤患者术后，遵医嘱定期随访，每次也会获得肿瘤标志物以及影像学检查的结果。再以健康体检为例，体检者每年在相对固定的时间前往体检中心，采血后对血常规、血生化及肿瘤标志物等实验室指标进行测量，若受试者十余年来在同一体检中心，则可积累十余次检验结果等。

除了采用生存分析分析结局事件的影响因素外，这类随访数据可用于建立临床预测模型。所谓临床预测模型，是指以年龄、性别及生物标志物等预测因素为条件，对某个体的疾病风险或某结局事件发生的可能性进行估计[1]。一般而言，临床预测模型的建立需要通过变量筛选、模型建立、模型验证、校准和模型表达等阶段。例如，Hu等[2]报道了血浆微小RNA表达谱与非小细胞肺癌(non-small cell lung cancer, NSCLC)患者生存期的关系，首先将30例长生存期及30例短生存期NSCLC患者作为发现阶段样本，最终筛选出了4个差异表达的微小RNA。第二阶段，选择120例NSCLC受试者作为训练集，利用发现阶段选出的位点，基于Cox比例风险模型，最终建立的危险度得分模型能较好地区分长生存期和短生存期NSCLC患者。这种基于随访开始时的特征建立模型，对未来一段时间内的结局事件进行预测，称为静态预测。

近年来，医学工作者越来越关心，如何充分利用疾病发生发展过程中具有预测价值的指标的动态变化，尤其是专病队列、医疗大数据中不断累积的随访数据，来对被观察个体在未来某个时间段内是否发生感兴趣的终点事件进行预测。例如，Kurtz等[3]利用肿瘤标志物的序贯变化来预测乳腺癌预后。He等[4]利用血小板相关实验室指标的动态变化轨迹预测重症肺炎患者预后。同时，临床医生常关注给定条件下观察对象发生某种事件的概率。例如，若某肿瘤患者术后已存活3年，他再存活5年的概率有多大？即所谓的动态风险预测。

本研究将介绍如何通过界标法和联合建模法，利用纵向历史数据对未来结局进行动态预测，并以现实案例数据动态预测患者死亡风险的实证研究来探讨2种方法的实际应用价值。

1 资料与方法

1.1 案例数据来源案例数据来源于Yan等[5]于2020年1月10日至2月18日，在某医院收集的375例某型肺炎患者的社会人口学信息及住院期间多次实验室测量指标。375例患者中，包括197例普通患者、27例重症患者和151例危重患者，其中男性占59.7%，患者平均年龄为58.83岁。375例患者中位随访时间为11 d，最长随访时间为35 d，最终201例(53.6%)患者存活。因部分患者数据缺失，最终分析使用了358例患者的数据。本研究所用数据可从https://www.nature.com/articles/s42256-020-0180-7#MOESM3下载。

Yan等[5]采用XGBoost机器学习算法，利用最后一次患者实验室指标测量值，从数十个实验室指标中，筛选了乳酸脱氢酶(LDH)、淋巴细胞百分比和高敏C-反应蛋白(hs-CRP)3个与预后密切相关的指标，建立预测模型。因此，本研究直接采用文献[5]筛选所得的3个指标进行建模分析，分别使用界标法和联合建模法预测患者条件生存概率，界标时间点分别为第5天、第10天和第15天。

1.2 基于界标法的动态预测对于动态预测，一种典型的方法是由van Houwelingen等[6]提出的界标法。在使用界标法时，需首先将整个时间尺度，按照若干个界标时间点，划分为若干个时间段。界标点的选择可以按照医学知识来确定，例如肿瘤术后1年、3年、5年等。令i代表个体，j代表访视，对于某个界标时间点k，对此时仍处于观察中的个体(即在上一个时间段没有发生死亡这一结局事件，也未删失)，利用截止到时间点k的纵向数据以及基线特征信息, 拟合Cox比例风险模型为hik(t)=hk,0(t)exp(γ1Xi+γkYik)。

模型中，纳入预测因子Y位于界标点k的变量值Yk，也可直接将k之前的Y以时依协变量的形式纳入，X表示基线协变量。基于所建立Cox模型，可对于在k时刻尚处于观察中的个体i，对在界标点k后一段时间内(k,t)的条件生存率进行估计，即πi(t|k)=P(Ti*≥t|Ti*>k,Yi(k),X)，其中，t>k。

1.3 基于联合建模的动态预测联合建模充分利用整个随访过程中的数据[7]，其基本特征是纵向重复测量和生存数据同时建模。联合模型一般可分解为2个子模型，最常见的是将纵向测量值的混合效应模型和生存结局的Cox比例风险模型通过共享(shared)随机效应进行连接：

(1)Yij(t)=Y*i(t)+εij=βXij+BiWij+εij

(2)hi(t|Ki,Y*i(t))=h0(t)exp(γ1Ki+γ2Y*i(t))

以LDH为例，(1)式首先建立了一个描述了整个随访过程中受试者i的LDH随时间变化，同时受其他因素影响的混合效应模型。其中，β为固定效应，体现了具有不同特征(X)的人之间在LDH上的平均差异；Bi为随机效应，服从于均数为0的正态分布，体现了因素Wij(可以是时间或者其他因素)对LDH的影响在人与人之间存在不同。另外，混合效应模型中也包括了随机误差ε。基于模型(1)，可将每个时间点上的Y*重新预测出来，再以预测出的预测因子Y*及其他变量，拟合(2)式中时依Cox比例风险模型，对某个界标时间之后一段时间内的死亡概率或累积生存率进行估计。联合建模的参数估计可采用限制性极大似然法完成(restricted maximum likelihood method, REML)。

本研究案例数据分析研究中首先利用混合效应模型，在调整了年龄和性别影响后，拟合LDH、hs-CRP和淋巴细胞百分比3个预测因子的时间变化估计，然后将其与Cox模型联合，利用联合模型分别估计患者第5天、第10天和第15天后的条件生存概率。

1.4 分析步骤统计分析使用R软件完成，并需要安装survival、survivalROC、survminer、JMbayes等几个R软件包。界标法和联合建模法的分析步骤见图1。

图1 2种动态建模方法的分析步骤

1.4.1 界标法动态预测分析步骤 (1)首先整理数据，按照随访次数将某一个观察对象的记录转换为若干行；(2)当选择界标时间为第5天时，只需要选择在该时间点仍然存活患者的第5天及以前的数据进行分析，拟合Cox回归，其他界标时间对应的分析以此类推；(3)估计时间依赖的AUC。

1.4.2 联合建模法动态预测分析步骤 (1)整理数据；(2)先分别建立LDH、hS-CRP和Lymphocyte与时间的混合效应模型，并纳入年龄、性别等基线因素，其中时间为随机效应，嵌套于个体中；(3)建立Cox比例风险模型；(4)使用JMBayes提供的函数，进行联合建模；(5)进行模型预测。

2 结果

2.1 案例数据特征分析对上述某型肺炎预后数据进行分析发现：(1)在分析数据集包含的358例患者中，共计163例(45.53%)出现了死亡这一结局事件，剩余195例(54.47%)未死亡；(2)死亡患者中，中位死亡时间为6 d，而未死亡患者中，中位观察时间为14 d；(3)患者最多进行了13次观察，平均观察次数为5次。

2.2 预后动态预测效果对比 2种方法所建立模型的受试者工作特征曲线下面积(AUC)表明，当界标点取第5天、第10天、第15天时，界标法对某肺炎患者未来死亡风险的预测精度略好于联合建模法(表1)。

表1 界标法和联合建模法的预测结果对比

动态预测可对每个个体在各个界标时间预测其未来某时间点发生结局事件的概率。以患者a(第5天死亡)、患者b(第10天死亡)和患者c(存活)为例，分别在患者a第1天、第5天，患者b的第1天、第5天和第9天及患者c的第1天、第6天和第10天预测其未来生存概率。横轴表示患者随访时间，纵轴为患者的预测生存概率，蓝色虚线和黄色点划线分别为联合建模法和界标法的预测结果(图2)。患者a的死亡风险一直较高(图2)；患者b在存活10 d后死亡风险增加(图2)，表现为生存概率的明显下压；而患者c的死亡风险一直较小。

3 讨论

随着国家对临床专病队列投入的不断增加及电子病历系统的广泛应用，采用回顾性队列研究形式的现实世界数据不断产生。如何基于这类纵向数据，对疾病结局进行预测成为研究者所关注的问题。传统的预测模型往往基于基线的生物学标志物和环境因素，对未来结局发生的可能性进行预测。近年来，研究者开始关注如何使用动态变化的历史数据进行预测。基于不断变化的数据，理论上应当比只使用基线的数据更为准确[8]。同时，动态预测模型可回答医学工作者在临床实践中经常提出的问题，例如，若受观察对象已暴露于空气污染10年，他在未来10年发生心血管疾病的风险有多高？以“dynamic risk prediction”、“dynamic risk model”或“dynamic risk assessment”为关键词在Pubmed进行搜索，自2001年以来共有25 000余篇，而2015年之后就有约15 000篇。不难想象，随着大量基于电子病历的现实世界研究和大型队列研究的进一步开展和数据共享机制的不断完善，动态预测模型也将得到越来越广泛的应用。

随着个体化医疗的发展，为临床医生提供有效、有力的工具来动态估计个体一定时间内的生存概率，有助于为患者规划特定的最佳治疗时间和治疗策略。本研究对界标法和联合建模法进行了实证研究，这两种动态预测法均可较为便利地用于纵向实验室指标的预测建模。两者的主要区别在于对界标点前的数据利用方式不一样。界标模型只将在界标时间点仍然存活的研究对象以及该时间点之前的变量测量信息(包括该时间点)纳入分析。联合建模法则主要是通过拟合预测因子的纵向变化轨迹，利用随机效应将其与生存模型连接起来。

对于界标法，模型中既可纳入预测因子位于界标点的变量值，也可直接将界标点之前的变量值以时依协变量的形式纳入。也有学者提出，可直接将界标时间点之前所测量的预测因子采用某种方式整合成一个值。整合的方式有多种，最简单一种是选择最接近界标时间点的测量值。也可以先拟合一个在界标点之前预测因子随时间变化的模型，预测该预测因子在界标时间点的取值。另外，也可借助于轨迹分析的思路[9]，将患者界标点前的纵向测量结果转换为一条轨迹，再用轨迹代替原测量结果进行建模。

联合建模法可以用于队列和临床随访数据中存在测量误差的情形。以肾功能不全患者的随访研究为例，利用肌酐等指标估计出的估计肾小球滤过率(eGFR)和利用同位素测量的GFR不一定恰好相等。这种测量误差可能导致回归“稀释”偏倚，即因带有测量误差的自变量导致回归系数向0偏倚[10]。联合建模法利用混合效应模型，借用其他测量信息，考虑测量误差，对界标点的暴露变量进行预测，在一定程度上校正了这种偏倚。此外，基于联合建模的动态预测模型可以与机器学习方法紧密结合，获得更为丰富的结论与精确的结果。例如，Chen等[11]基于近2 000例的新型冠状病毒肺炎患者的预后数据，首先使用机器学习方法筛选了11个生物学标志物，利用联合建模，在训练集和2个验证集中分别获得了98.3%、96.5%和98.4%的AUC。此外，联合建模法也可与轨迹分析、平滑模型等方式结合，获得更为灵活的结果。

基于临床随访数据建立预测模型时，不管是界标法还是联合建模法，都有“变量筛选”的过程，即基于统计学方法或专业知识，选择具有预测价值的指标进入预测模型。有部分学者认为，预测模型所纳入的预测因子，应当是与结局存在因果关系的因子。但本研究认为，寻找“因果关系”的危险因素研究，与建立“预测模型”的预测研究，具有不同的“因果”含义。对于前者，应当尽可能排除已知和未知混杂干扰，并通过一系列敏感性分析展示结果的稳健性。而对于后者，只要变量具有预测价值，哪怕其与结局间不是因果关系，也可以被纳入预测模型[12]。例如，携带打火机与肺癌是否发生并没有因果关系，但知道某人习惯性携带打火机，却可以预测其发生肺癌的可能性较大。

变量筛选和模型验证是临床预测建模的重要步骤。本研究案例分析中，因篇幅所限，直接使用了原案例建模使用的3个变量，也未进行模型的验证工作。但在实际临床预测建模工作中，应当将原样本分成训练集和测试集，通过训练集完成变量筛选和建模工作，并将得到的模型在测试集中进行外部验证；在样本量有限时，也可考虑交叉验证。动态建模中的变量选择一般较单纯基于基线变量的建模更为复杂，因为需要同时将变量的变化趋势纳入考虑，此时的解决方案包括时依Cox比例风险模型[13]、历史回归树[14]等。在实际应用中，研究人员可根据具体数据情况，筛选对结局有预测效能的变量，再选择合适的方法，建立合理的模型，从而获得准确和有效的估计。

对于2种动态预测方法，R软件都给出了相应的程序包。实际上，若仅使用界标法，由于混合效应模型和Cox比例风险模型是分开拟合的，故常规软件(如SPSS、SAS等)均可使用，但联合建模法则需一定的编程技巧方能实现。感兴趣的读者可以访问作者网站(https://zyktz.coding.net/public/ketizudaima/Dynamic_risk_prediction/git/files)，获得分析代码。

综上所述，界标法和联合建模法都可用于现实世界研究的纵向数据分析，这2种动态预测法较传统的仅基于基线变量的静态预测法能获得更为丰富的信息，值得推广。

利益冲突：所有作者声明不存在利益冲突。