人工神经网络在构建华法林剂量模型中的应用进展*

2019-01-06李晓平张亚同

中国药业 2019年19期

李晓平，张亚同

（1.广西中医药大学附属瑞康医院药学部，广西南宁 530011； 2.北京医院药学部，北京 100730）

华法林是目前临床常用的口服抗凝药，临床多根据凝血酶原时间和国际标准化比值（INR）来调整用量。构建华法林剂量预测模型被公认为是实现华法林个体化用药、降低其不良反应发生风险的可行方法，主要方法有多元线性回归方程和机器学习算法两大类，后者中的人工神经网络（ANN）是近年来的研究热点。本研究中对应用人工神经网络构建华法林剂量模型的研究进行归纳总结，为华法林的临床研究提供参考。

1 华法林抗凝血作用的影响因素及剂量预测模型

1.1 影响因素

影响华法林抗凝血作用的因素包括非遗传因素和遗传因素，非遗传因素主要有种族、年龄、性别、身高、体质量、体表面积、吸烟史、饮食习惯、疾病状态、环境、药物的相互作用等。遗传因素包括细胞色素P4502C9（CYP2C9）、维生素 K环氧化物还原酶复合体 1（VKORC1）、CYP4F2、γ 谷氨酰羧化酶（GGCX）、微粒体环氧化物水解酶（EPHX1）、载脂蛋白 E（ApoE）、CYP2A6、CYP2C18、叶酸聚谷氨酸合酶（FPGS）、STX4 基因、多药耐药基因（MRDl）、凝血因子Ⅱ基因（F2）、凝血因子Ⅶ基因（F7）等［1］。CYP2C9 基因多态性仅占华法林剂量变异的12%（4% ～20%）；VKORC1的贡献比例为27%（6% ～25%），高于 CYP2C9；CYP4F2仅可解释约2%，GGCX也仅可解释约2.3%华法林个体剂量差异［2］；其他基因对华法林剂量虽有影响，但贡献不大，还有待进一步研究。

1.2 华法林的剂量预测模型

1998年，OATES等［3］就患者的临床因素与华法林剂量需求之间的关系开始研究并构建了给药模型。遗传因素随着药物基因组学研究的深入被作为重要的变量加入之后的研究模型中。2005年，SCONCE等［4］率先在华法林稳定剂量预测模型中纳入了遗传因素。迄今已发表的华法林剂量预测公式达10余个［5-14］。目前，最常用的是国际华法林药物基因组学协会于2009年发表在《新英格兰医学杂志》上的预测模型。

以上模型大多数都纳入了基因多态性参数。尽管对于华法林基因导向的华法林个体化用药预测模型与临床常规给药比较，尚有争议，但国内外多项研究表明，基于基因因素创建的华法林剂量预测模型更有助于剂量调整，并降低不良反应发生率［15-16］。

2 人工神经网络的工作原理及主要应用

目前，建立华法林个体化用药预测模型的方法大体可分为多元线性回归和机器学习算法两类。因临床因素以数值变量为主，数据处理起来更简单方便，大多数研究选择了多元线性回归进行建模，但很难模拟药物在人体内的真实代谢过程。因此，机器学习算法因此应运而生，ANN则是其中常用的算法。

ANN是一种由大量的节点（或称神经元）和节点间相互联接构成的信息处理系统，能模拟大脑神经网络的结构和功能。通过分析输入和输出数据之间的关系和规律，形成一个复杂的非线性系统函数，其过程类似于“训练”。目前，各领域应用广泛的是反向传播（BP）神经网络。网络神经元的每一个输入连接强度一般以权重来表示，输出量一般是权重和的函数。实质上，ANN是一种把输入转化为输出的数学表达式，通过强大的网络学习、记忆和联想功能分析和预测大数据信息，特别适合智能化地处理非线性问题，近年来在信息处理、医学、工程学、经济学等多个领域的应用日益增多，且效果较好［17］。

3 国内外应用人工神经网络构建模型的情况

最早报道的神经网络应用于华法林剂量模型见于1993年 NARAYANAN 等［18］的研究。研究显示，利用华法林基因数据来遴选神经网络的预测变量子集，通过识别出重要的预测参数来减小神经网络的规模，从而加快其训练速度和对过度训练的敏感性，能显著增强神经网络的预测能力。但仅基于对3个患者的分析描述，未提及华法林剂量模型的具体情况。

2004年，SOLOMON等［19］报道了以色列一项应用ANN构建华法林剂量模型的研究，研究组根据148份1996年至1997年参与抗凝治疗研究的病历资料构建了一个华法林维持剂量的BP人工神经网络预测模型。该模型利用其中2/3的样本作为分析训练资料，剩下的1/3样本则用作测试，最终筛选出7个输入变量，然后以华法林的维持剂量作为输出变量。结果显示，该模型预测结果与实际维持剂量相近，可认为该人工神经网络模型能对个体化的维持剂量给出合理的预测值。但该模型只纳入了人口统计学和临床影响因素作为输入变量，基因变量被排除在外。

ZHOU等［20］收集了中国心脏瓣膜置换术后低强度抗凝治疗多中心临床研究数据库中2011年1月至2012年9月的1093例合适患者的临床数据，按3∶1比例分为训练集和验证集构建ANN模型。这些患者的目标INR都是1.5～2.5。结果对华法林维持剂量的平均预测准确率为65.93% ～68.50%（中等剂量组的预测准确率为 77.68% ～83.48% ），而用多元线性回归（MLR）建立的模型预测准确率为 45.42% ～66.30%，故认为ANN模型能为接受低强度抗凝治疗的中国心脏瓣膜疾病患者提供理想和稳定的华法林维持剂量预测，其预测准确率比 MLR 高，且对中等剂量（1.875～3.125 mg/d）患者的预测准确率要高于低剂量（1.875 mg/d）和高剂量（＞3.125 mg/d）患者。同样，该项研究也只纳入了人口统计学和临床影响因素，基因因素也被排除在外。

SALEH等［21］针对阿拉伯裔人群的研究收集了3415例INR 2～3范围患者的临床数据作为训练集，另外收集856例患者的数据作为测试集，通过ANN算法识别出年龄、身高、体质量、CYP2C9基因型、VKORC1基因型、合并使用的多种药物为最佳参数构建华法林剂量模型，结果对训练集和测试集患者的预测准确率分别为48%和43%，认为ANN算法能预测合适的华法林剂量。

在一项针对高加索人群的研究中，GROSSI等［22］收集了377例2008年12月至2009年2月接受华法林治疗患者的数据，通过TWIST®系统最终筛选出23个人口统计学、临床和基因数据（CYP2C9和VKORC1基因多态性）作为输入量构建ANN模型。该模型对华法林剂量预测的准确率平均达48%，尤其是每周剂量≤21 mg和21～49 mg患者组中分别高达72%和74%，故认为ANN模型是准确预测华法林维持剂量的有效工具。

ISMA′EEL 等［23］报道了黎巴嫩的一项研究，通过收集174例患者的临床数据和基因数据建立的ANN华法林剂量模型能比线性模型减少到达目标INR的剂量错误，故认为基于药物基因组学的ANN华法林剂量模型在预测华法林剂量、减少不良反应方面具有较好前景。

PAVANI等［24］针对印度人群以240例患者的年龄、性别、体质量指数、维生素K血浆浓度、甲状腺功能状态和 CYP2C9*2，CYP2C9*3，CYP2C9*8，CYP2C9*13，VKORC1*3，VKORC1*4，VKORC1 D36Y，VKORC1-1639 G＞A，CYP4F2 V433M，GGCX 10个基因变量作为输入量，华法林治疗剂量为输出量，采用双曲正切函数构建ANN结构，可解释华法林剂量差异达93.5%。可准确预测INR 2.0以下的74.5%患者和INR 3.5以上的83.3%患者，且能减少超范围INR值、不良反应发生率和缩短到达目标INR值的时间，甲状腺功能正常和减退患者均可使用该模型。因此认为，ANN算法可有效提高华法林剂量预测准确度，并提供安全有效的剂量。

ALZUBIEDI等［25］以163例非洲裔美国人的年龄、体质量、CYP2C9*1/*1、VKORC1、rs12777823、rs2108622、充血性心力衰竭和胺碘酮使用作为参数，研究对比了线性回归与ANN 2种剂量模型，二者可解释的剂量差异分别为48%和52%，即除了每周剂量不低于49 mg的患者组，ANN并不能比线性回归模型更好地预测剂量。

3 分析与展望

3.1 越来越多的研究纳入了基因参数

已报道的ANN华法林剂量模型中，初期的模型主要以人口统计学和临床影响因素为参数，后面则有越来越多的研究纳入了基因参数。关于基因参数是否有利于构建ANN模型存在一定争议。部分研究者认为，基因参数对ANN建模贡献不大，但遗传因素对华法林剂量的影响共识已越来越多。更多学者对于华法林药物基因学研究的临床价值持乐观态度，才有更多研究把基因参数纳入ANN华法林剂量模型中，并在一定程度上得到了验证。初期的研究模型未纳入基因参数，也可能与收集到的数据类型有关，研究均为回顾性分析研究，在基因检测并没有那么普遍的情况下，想要收集过去病例的基因数据极其困难，故只能采用能收集到的人口统计学和临床数据进行研究。随着基因检测技术在临床的深入推广，未来开展更多纳入基因参数的前瞻性研究将成为可能。

绝大多数基于线性回归构建的剂量模型的预测准确率为 50%（33.3% ～60.8%），其中非遗传因素可解释17% ～22%的剂量差异［26］。原因可能是很多剩余变量还有待发现，而现有很多变量无法用公式来量化表示，如饮食情况、药物相互作用等。

3.2 线性模型存在一定的局限性

首先，线性模型对于非线性的因变量结果往往预测效果不佳；其次，线性模型对极端值预测不准。实际运用中，极端剂量的患者用药风险最高。将线性回归模型应用于华法林剂量研究可能并非最佳。ANN技术能模拟人的大脑对信息进行处理和非线型转换，在复杂的药动学和药效学研究中更有优势。因此，应用ANN技术预测华法林的疗效和剂量，与线性回归模型相比，具有一定的优越性。但ANN等机器算法是否更优于传统的线性回归算法，也存在一定的争议［27］，目前尚未达成共识。

3.3 影响ANN技术应用于华法林剂量研究的原因分析

原因之一，是缺乏有效的学习算法及新型计算机的软硬件支持。20世纪80年代，Hopfield网络模型和BP算法提出后，ANN技术才迅速发展起来。如今，已有上100种神经网络模型及算法来解决实际问题，大量的神经网络软件也已被开发应用，如Matlab神经网络工具箱、NeuroSolutions，Neuroshell，Netset，Casenet等，这也将为ANN技术应用到华法林剂量研究中提供更多支持［28］。

和众多的线性回归模型一样，华法林的ANN剂量模型研究虽然取得了一定进展，但离临床推广和应用还有较大距离。同一剂量模型对不同人群可解释的剂量差异各不相同，这可能与不同种族间基因分布及相关非遗传因素的差异相关。因此，将更多已被公认和华法林剂量相关的遗传和非遗传因素一同列入剂量方程中，开展目标人群针对性更强的大样本、多因素研究并利用更大规模的临床试验去验证其可靠性，或能建立更加适用的剂量预测模型，患者获益更好。