基于人工智能GPGA的华法林剂量预测模型*
2018-05-07张宇祯张其银曾现生王振蒋文平蒋彬
张宇祯 张其银 曾现生 王振 蒋文平 蒋彬
近年来,华法林个体化治疗领域的研究热点是将药物基因组学与临床因素结合,构建华法林剂量预测模型,以指导华法林剂量的初始选择与调整。目前,较为公认的模型是由国际华法林药物基因组学联合会(The International Warfarin Pharmaeogenetics Consortium,IWPC)模型[1]。然而,这个模型在国人中预测的准确性并不高[2-3]。国内也有一些小组尝试建立更适用于国人的预测模型[4-5]。同样,当这些模型应用于新的数据中时,其准确性往往较测试时大幅度减弱[2],即模型泛化性弱。华法林的个体剂量差异影响因素多,函数形式复杂,使用上述基于传统统计学的回归方法建模局限性较大。随着人工智能的发展,机器学习在各领域的应用前景开始展现。笔者提出一种基于遗传程序设计(genetic programming,GP)和遗传算法(genetic algorithm,GA)的回归建模方法遗传程序设计-遗传算法(GPGA),建立华法林剂量预测模型,进而提高华法林剂量预测的准确性,推动华法林的个体化治疗。
1 资料与方法
1.1研究对象 本研究为回顾性研究。纳入100例2014年1月到2017年2月在苏州大学附属第一医院就诊的进行华法林抗凝治疗的汉族患者。入选标准:使用华法林达稳态,即使用华法林≥3个月,在最近连续3次随访过程中(间隔天数≥7 d)剂量不变,且国际标准化比值(international normalized ratio, INR) 均符合抗凝标准。
1.2收集临床资料 记录患者基本信息,包括性别、年龄、身高、体重、抗凝指征、合并用药和疾病状态等。记录其华法林稳定维持日均剂量(真实值)。
1.3抗凝标准 无合并其它抗栓药物者:INR目标范围为2.0~3.0;合并使用阿司匹林和/或氯吡格雷联合抗栓者:INR目标范围为2.0~2.5。
1.4抗凝药物 采用上海信宜九福药业有限公司生产的华法林(2.5 mg/片)制剂。
1.5基因型检测 采取患者外周静脉血样2ml于EDTA抗凝管,使用基因组DNA提取试剂盒(美国Promega)提取基因组DNA。本研究涉及的华法林代谢与作用相关的基因多态性包括CYP2C9(rs1057910)和VKORC1(rs9923231)。基因测序使用焦磷酸测序技术[6]。
1.6模型建立 所有患者的相关资料为建模的数据集。数据集分别两次按随机数字法以3∶1∶1的比例分为3个集合,得到两组不同的训练集(n=60)、验证集(n=20)和测试集(n=20),实现交叉验证。设计三种不同复杂度的模型M1、M2和M3,分别纳入5、6和7个变量(表1)。
表1 不同复杂度的模型(纳入的变量数不同)
如图1所示,GP在每一组训练集上建立一组多样化的候选模型,模型的效果通过验证集来检验。如果模型在验证集上的表现不佳,那么它将会从集合中淘汰;能以较高的精度近似验证集的模型将被保留。当现有模型不能达到设定精度时,GA将优化GP参数以获得更好的模型。
GP:遗传程序设计,GA:遗传算法,GPGA:遗传程序设计-遗传算法
图1GPGA建模过程
以三种复杂度各生成10个通过验证的模型,在测试集中进行评估,分别选取一个总体最优模型用于下一步的模型对比。
1.7用于比较的现有机器学习方法建模及传统模型 现有机器学习算法所建模型:与GPGA建模相似,用三种现有的主流机器学习算法①支持向量回归(support vector regression,SVR),②径向基函数(radical basis function,RBF)神经网络和③反向传播(back propagation,BP)神经网络在相同训练集中以三种复杂度各建立10个模型,在测试集中进行验证,选取各自的总体最优模型,用于模型对比。
传统模型:将如下模型在相同测试集中验证,用于模型对比。①基于相似人群的线性回归模型:我院Yu等[5]基于271例华法林抗凝患者建立的线性回归模型(Yu模型),模型复杂度同M1;②国际公认的预测模型:国际华法林药物基因组学联合会IWPC模型[1],模型复杂度相当于M2。
2 结果
2.1患者基本临床情况、基因检测结果与抗凝治疗结果 本研究共入选患者100例,其中男性61例,女性39例,年龄(63.18±13.289)岁,身高(164.32±7.300)cm,体重(64.98±13.297)kg,有13例合并使用胺碘酮。抗凝指征如下:非瓣膜性心房颤动/心房扑动50例,瓣膜性心房颤动/心房扑动(未置换瓣膜)3例,瓣膜置换30例,其它17例(5.3%)。基因检测结果见表2。达到稳定的华法林维持剂量为(2.38±1.169) mg/d。抗凝中发生出血事件者14例,抗凝中发生栓塞事件者6例。
2.2模型示例 公式(1)为GPGA演化得到的一个较优的M3预测模型,变量与相应输出值见表3:
Y=0.3314-0.3549 × (2Gender) + 0.0796 × log(CYP2C9)-5.3296 × sin(Height) + 0.1842 ×sinCYP2C9 + 0.0028 × (-Amiodarone) + 0.1822 × (2VKORC1) + 0.0150 × (2Age) + 2.4823× Gender × Age- 5.6482 × Age2+ 0.1445 × exp(Age) + 0.2843 × sigmod(Amiodarone) + 1.1269 + 0.2792 × (2Amiodarone) + 0.8336 × (Weight + VKORC1) + 0.0094 × cos(Age) -0.5013 × Gender2+ 0.2751 × (Gender-Height) - 0.0806 × sigmod(VKORC1) + 0.2577 × VKORC12+ 0.0344 ×cos(VKORC1)- 13.6982 × (2Weight) + 0.0503 × (2VKORC1)-0.2003 × exp(VKORC1)- 0.1187 × sin(Age)- 0.0983 × Weight2+ 0.2504 × CYP2C9 + 0.526 × log(Height) + 1.117898-0.6143 × sigmod(Age) + 0.1468 × (-2Amiodarone)- 0.0594 × sigmod(VKORC1) + 0.9650 + 0.1622 × (-Gender) + 0.0268 × exp(CYP2C9)-0.2213 × (2Height) + 2.9497 × exp(cos(Height))
(1)
表2 基因检测结果
表3 变量和相应输出值
2.3模型对比结果 如图2所示,在M1复杂度的各模型中,GPGA的R2(64.78%)、MSE(2.215×10-2)、20%-p(50%)均为最优;M2中,GPGA的R2(59.41%)、20%-p(52.5%)为最优,其MSE(2.935×10-2)稍逊于BP(2.86×10-2)与IWPC(2.851×10-2);M3中,GPGA的R2(65.85%)、MSE(2.625×10-2)为最优,其20%-p(50%)稍逊于SVR(52.5%)。在各复杂度模型中,GPGA总体表现最优。如图3所示,GPGA得到的R2从训练集到测试集很稳定,而SVR轻度下降,RBF下降明显。如图4所示,GPGA在M1、M2、M3中未见明显的优势递增。
横行分别显示四种人工智能方法在不同复杂度中得到的R2(图A-C),MSE(图D-F)和20%-p(图G-I);纵列分别显示了M1(图A、D、G)、M2(图B、E、H)和M3(C、F、I)中各方法得到的评价指标。Yu模型固有复杂度为M1,其各指标列于第一纵列;IWPC模型固有复杂度等同于M2,其各指标列于第二纵列。R2:平方相关系数,MSE:均方误差,20%-p:预测值在真实值±20%范围内的比例,GPGA:遗传程序设计-遗传算法,SVR:支持向量回归,RBF:径向基函数神经网络,BP:反向传播神经网络,Yu:Yu模型,IWPC:IWPC模型
图2模型对比
3 讨论
本研究提出了基于演化算法的回归建模方法GPGA,建立了华法林剂量预测模型,无论是与国内外传统回归模型相较,还是与其它机器学习的方法相较,都得到了总体最好的趋势相关性、精度、可用性和泛化性。身高和性别对华法林稳定剂量无明显预测价值。
华法林的治疗窗窄,有效治疗剂量个体差异大。传统的华法林治疗方案,是给予所有患者一个大致固定的初始剂量(国内通常是2.5 mg/d),然后根据随访的INR进行有效剂量滴定。这个方案的制定完全依赖于临床医生的个人经验。达标前调整周期长,不仅意味着需要患者频繁进行采血,增加患者的时间、经济与身体负担,还意味着患者在较长时间内抗凝不足或抗凝过度;而且意味着不少患者拒绝抗凝治疗,或者失随访;这些情况都会导致较大的栓塞或出血风险,严重时可致残甚至致死。虽然近年开发出一些新型口服抗凝药物,但是由于价格高昂、适应证局限、缺乏有效的监测和拮抗手段等原因,适用人群有限,无法替代华法林在口服抗凝药物中的地位。因此,在精准医疗时代,解决好个体化使用华法林的问题,对改善华法林患者的依从性,提高抗凝治疗的覆盖率与质量,防治血栓栓塞性疾病具有重要价值[1]。
图3各种方法得到的R2从训练集到测试集的变化
余靓平等[2]在130例中国汉族患者中对比了三个传统华法林预测模型:Wen模型[4],Ohno模型[7]和IWPC模型,其R2依次为40.2%、38.2%和26.7%,较建模时的R2均明显下降,说明这些模型泛化性较差,难以应用于新的患者群。目前在中国人群中准确性较高的传统华法林预测模型是娄莹等[8]基于488例中国汉族患者建立的,其建模组R2为65.2%,验证组20%-p为60.6%,展现了很好的趋势相关性与可用性。然而作者未报道验证组R2,难以衡量其泛化性;未报道MSE,无法衡量其预测精度;未以IWPC等其它模型作同数据验证对比,因此无法进行模型间的直接比较。
本研究将四种人工智能算法分别以三种复杂度建模,并与两种传统模型一起在统一的数据中验证,并通过R2、MSE、20%-p和R2从训练集到测试集的变化这四个指标全面评估模型的趋势相关性、精度、可用性和泛化性。GPGA法在各指标上总体表现最优。在3个不同复杂度的模型中,M1选取的变量与Yu模型一致;M2选取的变量与IWPC模型基本一致,其中省略种族(均为亚洲人)和合并使用细胞色素P450酶诱导剂(均未使用)这两个变量;M3进一步增加了性别变量。结果显示,GPGA在M1、M2、M3中未见明显的优势递增。这说明在本研究中,身高、性别变量的加入并不能进一步提高模型的预测性能,M1复杂度的GPGA模型已能够体现出较其它模型的优势。较简单的变量选择避免了过于繁杂的临床信息采集,临床实用性强。纳入其它临床变量的作用尚待研究。
R2:平方相关系数,MSE:均方误差,20%-p:预测值在真实值±20%范围内的比例,GPGA:遗传程序设计-遗传算法
图4GPGA建立的M1、M2、M3模型的预测性能比较
本研究存在一定的局限性。本研究为单中心回顾性研究,纳入样本量较少。我们的下一步研究,将进一步收集多中心的样本,扩充模型数据集,以演化出泛化性更强的模型,并设计前瞻性随机对照临床研究,通过比较接受本模型与传统模型制定初始华法林剂量的患者,及接受固定起始剂量的患者的INR达标前调整时间、治疗窗内时间(time in therapeutic range,TTR)及抗凝中出血/栓塞事件等指标,明确基于人工智能GPGA的华法林剂量预测模型在临床上的应用价值。
综上所述,本研究首次建立了基于GPGA的华法林剂量预测模型,提高了华法林预测的趋势相关性、精度、可用性与泛化性;展示了将人工智能技术应用于华法林个体化治疗具有很好的潜力和应用前景;希望在精准医疗时代,协助临床医师缩短患者INR达标前调整时间,提高TTR,从而提高患者依从性与抗凝质量,减少血栓栓塞性疾病及出血,降低致残及致死率。
1 Klein TE, Altman RB, Eriksson N, et al. Estimation of the warfarin dose with clinical and pharmacogenetic data [J]. N Engl J Med, 2009, 360(8): 753
2 余靓平, 宋洪涛, 曾志勇, 等. 基于药物基因组学的华法林给药模型的验证 [J]. 中华心血管病杂志, 2012, 40(7): 614
3 刘俊, 徐航, 葛卫红, 等. 华法林基于药物基因组学个体化给药方案的评价 [J]. 中国医院药学杂志, 2013, 33(22): 1 857
4 Wen MS, Lee M, Chen JJ, et al. Prospective study of warfarin dosage requirements based on CYP2C9 and VKORC1 genotypes [J]. Clin Pharmacol Ther, 2008, 84(1): 83
5 Yu Z, Ding YL, Lu F, et al. Warfarin dosage adjustment strategy in Chinese population [J]. Int J Clin Exp Med, 2015, 8(6): 9 904
6 Xue L, Holford N, Ding XL, et al. Theory-based pharmacokinetics and pharmacodynamics of S- and R-warfarin and effects on international normalized ratio: influence of body size, composition and genotype in cardiac surgery patients [J]. Br J Clin Pharmacol, 2017, 83(4): 823
7 Ohno M, Yamamoto A, Ono A, et al. Influence of clinical and genetic factors on warfarin dose requirements among Japanese patients [J]. Eur J Clin Pharmacol, 2009, 65(11): 1 097
8 娄莹, 华潞, 韩璐璐, 等. 中国汉族人群华法林稳定剂量预测模型的建立与验证 [J]. 中华心血管病杂志, 2014, 42(5): 384