探讨一种机器学习方法在临床药学领域的应用进展

2022-08-05齐巧娜陈霁晖刘昕竹张津源王则远

实用药物与临床 2022年6期

齐巧娜，刘艳，陈霁晖，刘昕竹，杨锐，张津源，郝昕，王则远，于泽，高飞*，张健*

0 引言

随着信息化技术的发展以及利好的政策导向[1-2]，医疗数据呈爆炸式增长，对于数据分析，传统统计学倾向于讨论在小规模数据上得出的模型或结论是否真实可信，并逐渐形成了一整套研究方法。但传统统计学有自身局限性，比如分析的数据规模较小，不能综合考虑模型的预测效果等，不能满足大规模、大样本医疗数据的研究分析需求。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术，是一种认知、决策、反馈的过程。机器学习是人工智能的主要实现途径，其不断从数据中创造新的知识，以预测患者疾病的个体进程，识别表型或支持治疗决定[3-4]，可以弥补传统统计学的缺点，被广泛应用于临床药学领域。应用机器学习对医疗数据进行挖掘，以总结、获取新的知识，与传统临床数据分析相比，机器学习模型效率更高，性能更高，预计在不远的未来，机器学习模型将成为临床药学领域的主流[5]。

XGBoost(Extreme Gradient Boosting)算法是机器学习技术中一项重要的技术手段，其关注度和应用价值也越来越高[6]。在临床药学领域，XGBoost已实现包括个体化精准用药、药物不良反应预警以及药物临床综合评价等多个方面的应用，本研究对其进行综述，旨在为XGBoost算法用于临床药学领域提供更多的参考。

1 XGBoost 算法介绍

1.1 原理简介机器学习XGBoost算法最早在2014年被提出[7]，其类似于梯度上升框架，但是兼具线性模型求解器和树学习算法[8]。因此，XGBoost比现有的梯度上升至少提升10倍[9]。XGBoost算法提供多种目标函数，包括回归、分类和排序，将一系列回归决策树进行加和来达到回归目的(见图1)，后一棵树取前一棵树的残差作为回归目标[10]。在XGBoost算法中采用梯度来近似代替残差。

图1 决策树分类原理整体模型

1.2 在临床药学领域数据挖掘的优势真实世界临床用药信息不全，数据不规范，例如疾病用药信息描述不统一、非结构化数据等[11-13]。在临床药学各种应用场景(如药物不良反应预警、临床合理用药、药物的疗效评价及耐药性机制研究)构建模型的过程中，存在大量低质量数据，例如冗多高度相关的特征、极端的类别失衡以及大量的缺失值，给预测结果带来很大的噪声[14]。XGBoost 算法在此类问题上具备独特的优势：可自动优化分裂节点，擅长处理异常值和缺失值较多的无规则数据；可进行自主学习，模型具有可解释性和灵活性。

2 XGBoost在临床药学领域中的应用

2.1 药物不良反应预警 XGBoost不仅可以从真实世界数据中挖掘风险因素之间复杂且高度相关的关系，还可以提供适用于临床工作者的数据结果。

他克莫司(Tacrolimus，TAC)诱导的肾毒性具有很大的个体变异，可能导致治疗失败甚至终末期肾病。然而，目前仍缺乏有效的模型来早期预测TAC诱导的肾毒性，特别是肾病综合征(Nephrotic syndrome，NS)。MO等[15]基于综合临床特征和遗传变量的机器学习，开发并验证了一种针对NS患儿的TAC诱导肾小管毒性预测模型。采集了218例NS患儿数据，筛选了47个临床特征和244个遗传变量建立模型，并前瞻性地纳入了11例患儿数据进行外部验证。以给药前后尿N-乙酰- β-D-氨基葡萄糖酶水平的变化作为肾小管毒性指标。采用XGBoost、GBDT(梯度增强决策树)、ET(极随机树)、RF(随机森林)和LR(逻辑回归)5种机器学习算法进行模型生成和验证。XGBoost模型具有很高的预测精度，临床药师可以用其提前估计他克莫司诱导NS患者肾毒性的可能性，在给药前优化治疗方案或给药后及时干预，避免肾损害。

Hatmal等[16]开发了一种机器学习算法，来预测注射新冠疫苗不良反应的严重程度。模型纳入了2 213名接受国药集团、阿斯利康、辉瑞生物科技公司等疫苗接种的受试者信息，XGBoost模型显示了很高的预测效果。在这项研究中，XGBoost可根据输入数据预测不良反应的严重程度，为可能出现严重不良反应的患者提供更多的医疗支持。

2.2 临床合理用药基于XGBoost算法建立合理用药模型，可以提升临床精准用药水平，提高患者用药安全，节约患者经济成本，为精准医药的发展提供了更多可能。

基于曲线下面积(Area under curve，AUC)监测麦考酚酸(Mycophenolic acid，MPA)治疗效果是一种成熟的方法，机器学习(Machine learning，ML)方法可以帮助估算AUC。Woillard等[17]利用XGBoost 的ML模型估算器官移植患者MPA的AUC。研究收集了6 884例患者给药后12 h内MPA的AUC数据(12 877条)，研究结果显示，XGBoost ML模型可以精确预测MPA 的AUC，该方法用于常规暴露量估计和剂量调整，为临床用药提供一种参考方法。

局部枸橼酸抗凝(Regional citrate anticoagulation，RCA)是持续肾脏替代治疗中的重要抗凝方法。为了提高患者用药安全，实现计算机辅助剂量监测和控制，Chen等[18]将重症监护病房(Intensive care unit，ICU)患者纳入队列，开发了一个数据驱动的机器学习模型，用于预警枸橼酸过量，并对枸橼酸泵送率和10%葡萄糖酸钙输入率提供调整建议。研究采用了Adaboost、XGBoost、SVM和浅层神经网络4种机器学习算法进行建模并比较预测性能，为机器学习方法监测和调整局部枸橼酸抗凝提供了一种可行性，可进一步为临床药师的药学监护提供参考。

区分ICU念珠菌血症患者有助于临床准确使用抗真菌药，为个别患者设计合理的治疗方案。以往的念珠菌血症预测模型主要采用传统的Logistic模型，存在一定的局限性。Yuan等[19]开发了一种机器学习算法，用于预测新发全身炎症反应综合征(Systemic inflammatory response syndrome，SIRS)患者的念珠菌血症，该研究使用了5种机器学习算法—XGBoost、SVM、RF、ET和逻辑回归(LR)模型来预测念珠菌血症患者。在8 002例新发SIRS(7 932例患者)中，137例血培养念珠菌阳性。真菌定殖、糖尿病、急性肾损伤、肠外营养总天数和肾脏替代治疗是念珠菌血症的重要预测因素。XGBoost机器学习模型在区分念珠菌血症患者方面优于其他模型，预测模型可指导临床药学人员在ICU患者发生SIRS时的抗真菌治疗。

儿童由于体重、肾功能等均处于不断发育变化中，万古霉素药动学的个体间和个体内差异较大。Huang等[20]基于高维数据、建议变量工程和机器学习方法，开发了一种预测儿童患者万古霉素谷浓度的模型，万古霉素谷浓度被视为目标变量，并使用8种不同的算法进行预测性能比较。最终选择了5种高R2的算法(XGBoost、GBRT、Bagging、Extra Tree、Decision Tree)，并进一步集成，建立最优模型。与传统药代动力学模型相比，机器学习模型的预测效果更好。通过构建实用性更强的个体化用药模型，可避免或减少因个体差异导致的临床药物治疗风险事件的发生。

2.3 药物的疗效评价及耐药性机制研究通过机器学习技术预测药物治疗有效性并挖掘药物耐药性的机制，用以辅助临床改进治疗策略，为患者提供最佳治疗方案。

2.3.1 药物疗效评价 Yao 等[21]为了准确地预测新诊断癫痫患者抗癫痫药物(Antiepileptic drug，AED)治疗结果，帮助指导新诊断癫痫患者的用药咨询，改进治疗策略，构建了基于监督机器学习的分类器。该研究收集了287例新诊断癫痫患者的资料，对患者进行至少3年的前瞻性随访。研究者选择了人口统计学特征、病史和辅助检查(脑电图和磁共振成像)来区分患者癫痫是否发作。数据集选择了5种经典的机器学习算法，即决策树、RF、SVM、XGBoost和LR，并通过训练得到分类模型。研究表明，XGBoost模型预测AED治疗结果的能力优于其他4个算法。

肿瘤坏死因子(Tumor necrosis factor，TNF)抑制剂是治疗强直性脊柱炎(Ankylosing spondylitis，AS)的重要药物，特别是那些不能使用非甾体抗炎药的患者，但是TNF抑制剂不是AS的一线治疗。如果能够预测在早期需要TNF抑制剂的患者，可以在适当的时间提供治疗，从而避免潜在损害。因此， Lee等[22]建立了一个人工神经网络(Artifcial neural network，ANN)模型来预测AS早期使用TNF抑制剂的患者，研究中使用了ANN、LR、SVM、RF和 XGBoost模型进行预测，结果表明，机器学习模型比传统统计模型更准确地预测早期需要TNF抑制剂的使用者。

Cui等[23]基于人口统计、社会因素、健康史等建立机器学习模型，评估大数据在预测阿片类药物治疗方案(Opioid treatment programs，OTP)结果方面的潜力，模型收集分析样本超过3万人次，结果显示，与LR、RF和XGBoost等方法比较，XGBoost构建的模型结果最佳，能较准确识别阿片类药物治疗方案有效的患者。

此外，Koo等[24]开发了可以预测改善病情的生物抗风湿药(Biologic disease-modifying anti-rheumatic drugs，bDMARDs)治疗患者有效性的机器学习模型，模型可识别出缓解病情相关的重要临床特征。研究收集了1 204例接受bDMARDs(依那西普、阿达木单抗、戈利单抗、英夫利昔单抗、阿巴他西普和托西单抗)治疗的患者的随访数据，根据入组时获得的基线临床数据预测1年后的缓解情况。使用机器学习方法(如lasso、ridge、SVM、RF和XGBoost)进行预测。研究显示，通过机器学习模型可以预测药物的有效性，并识别出bDMARD中预测缓解的临床特征，将有助于缓解患者类风湿性关节炎病情。

2.3.2 药物的耐药机制研究临床上，针对特定感染的抗菌药物剂量是根据最小抑菌浓度(Minimal inhibitory concentration，MIC)来确定的。因此，可信的MIC评估将为临床药师选择治疗策略提供有价值的信息。Tan等[25]利用基于宏基因组数据的单核苷酸多态性信息和核苷酸聚合数来预测美罗培南的MIC。本研究筛选了40个与MIC值相关性最高的核苷酸聚合体和40个单核苷酸多态性信息作为特征，对XGBoost模型和DNN模型进行训练，通过模型训练得到重要特征值，通过选择重要特征值进行基于深度学习的建模和预测，相比于测量MIC值的实验方法，机器学习方法可以显著提高检测效率，提高抗菌药物使用的有效性，使患者能够及时获得治疗药物。

铂类耐药是肿瘤高复发率的重要原因。Shannon等[26]利用癌症药物敏感性基因组学和癌症基因组图谱数据库分析得到4个潜在的生物标志物(CYTH3、GALNT3、S100A14和ERI1)，用以预测铂敏感性。此研究对50例接受手术切除后采用卡铂治疗的患者队列进行验证。最终模型选择XGBoost算法模型，在独立验证数据集(n=10)中验证精度。通过机器学习预测化疗敏感性可提高肿瘤患者药物使用的有效性。

此外，为了研究紫杉醇治疗的耐药性问题，Bomane等[27]利用美国国家癌症研究所基因组数据共享中心的数据进行了大规模的肿瘤预测分析，预测乳腺癌患者对紫杉醇有无耐药性，研究者评估了10种ML算法，并对同一乳腺癌患者的60个分类器进行了评估。结果表明，DNA甲基化和miRNA图谱信息最丰富。结合这2个图谱，ML算法选择最小的分子特征子集生成了最具预测性的分类器：XGBoost分类器。通过分类器发现的几个分子标记，能够在一定程度上预测乳腺癌肿瘤对紫杉醇的反应或无反应。这些结果可能为临床优化紫杉醇治疗提供参考。

2.4 其他近年来，基因组学、转录组学、蛋白质组学及代谢组学等生物学数据引领着生物医学的变革，使新药研发迈入新阶段。这些数据具有“4V”特点：数据量大(Volume)、数据多样化(Variety)、有价值(Value)、高速(Velocity)[28]。机器学习技术能合理地收集这些药物的研究数据，挖掘潜在的药物靶点，以提高新药研发的效率。目前已有基于XGBoost的药物靶点识别方法，利用XGBoost算法对提取出的药物靶点特征进行识别[29]。该方法能够高速、高效、低成本地发现潜在药物靶点。

药物的重定位，即旧药新用，也将成为未来的研究趋势。从临床和实验角度鉴定药物的新用途需要耗费大量人力和物力，从计算角度可通过XGBoost挖掘药物相关数据预测药物的新用途。胡杨等[29]挖掘了药物的化学结构、药理性质、药物靶蛋白功能、疾病表型等数据得到相应特征，并将这些药物及疾病特征进行整合后输入XGBoost模型进行预测。结果表明，该预测方法较LR、RF模型具有更高的预测精度。

变构作用是调节蛋白质活性的重要因素。药物开发依赖于对变构机制的理解，特别是对变构位点的识别，这是药物开发和设计的先决条件。已有利用口袋特征和蛋白质动力学的计算方法来预测变构位点。Tian等[30]提出了一种集成学习方法，包括XGBoost和图卷积神经网络，以预测变构位点。该模型可以在不需要任何信息的情况下学习物理性质和拓扑结构，并在多个指标下表现出良好的性能。

药物靶间相互作用(Drug-target interactions，DTIs)的分析和预测对了解药物作用机制、药物重新定位和设计具有重要意义。基于ML的DTIs预测方法可以缓解耗时和劳动密集型实验方法的缺点，同时为药物设计提供新的思路和见解。Chen等[31]利用 XGBoost确定重要的非冗余特征子集。在DNN算法的基础上，研发了一种新的预测药物靶标相互作用的管道(DNN-DTIs)。预测模型研究结果表明，DNN-DTIs在酶、离子通道、核受体等数据集上具有较好的预测效果。

乳腺癌耐药蛋白(Breast cancer resistance protein，BCRP/ABCG2)是一种三磷酸腺苷结合盒外排转运蛋白，在抗肿瘤药物的多重耐药和药物-药物相互作用中发挥重要作用。预测BCRP的抑制有助于在药物研发的早期评估潜在的耐药性和药物间的相互作用。Jiang等[32]采用了7种机器模型区分BCRP抑制剂和非抑制剂，结果表明，SVM、DNN和XGBoost 3种方法的预测效果优于其他方法，可作为药物设计和研发过程中区分BCRP抑制剂和非抑制剂的一项工具。

3 讨论

随着技术手段的不断进步，临床药师在处理某些临床药学问题时，可以尝试结合一些机器算法的手段，快速准确地解决这些医学问题。在使用XGBoost算法过程中，会遇到一些问题。

例如模型训练精度高，但测试精度低，这可能是过拟合的问题，可以直接控制模型的复杂度或者增加随机性，使训练对噪声强健。

参数选择方面，由于真实世界数据中多数会存在不均衡标签和缺失值的问题，XGBoost算法可以直接针对缺失值进行假设并进行逻辑判定，但通常决策树的深度会显著影响最终的模型效果，需要谨慎调参。而处理不均衡标签时，需要把训练的考核目标设定为auc或f1值，而不是常用的accuracy，这样可以有效避免阳性样本的预测遗漏。

此外，XGBoost更适用于特征纬度较高和样本量较大的数据，适合捕捉高纬特征间的复杂关系，且具备较强的临床可解释性。

4 结语

本文介绍了XGBoost算法在临床药学细分领域中的应用，如临床合理用药、药物不良反应预警以及药物的疗效评价及耐药性机制研究等。XGBoost算法展现了较强的性能：可为缺失值或者指定值指定分支的默认方向，大大提升算法的效率；在处理大型数据集时，XGBoost算法能够模拟非线性效应，具有较高的效率和准确性。但是XGBoost算法也存在一定的限制因素，如XGBoost算法更适合处理中低维、结构化数据，数据样本量较大时，比较耗时。

XGBoost算法相较某些机器学习算法调参简单，但想要获取更好的结果，还需要加强药学与算法、信息化等多学科的结合，以进一步提高临床用药的安全性、有效性、精准性、经济性。