数据挖掘技术在药品不良反应监测中的应用进展

2021-01-03高月娟朱仁英王莉莉修艳丽毕琳瑜

中国当代医药 2021年26期

高嵩高月娟朱仁英王莉莉▲ 修艳丽毕琳瑜

1.牡丹江医学院护理学院，黑龙江牡丹江 157011；2.牡丹江医学院附属红旗医院药学部，黑龙江牡丹江 157011；3.牡丹江医学院附属红旗医院护理部，黑龙江牡丹江 157011

数据挖掘（data mining，DM）是在海量、模糊且有干扰的随机数据中，自动选取隐藏在其中的潜在有用的知识的过程[1]。其原理复杂，算法多样，已广泛应用于医药领域。其中，在药品不良反应（adverse drug reaction，ADR）监测中更是被普遍运用。ADR 监测技术众多，近年来人们一直在致力于提升监测报告的数量和质量，扩大监测网络覆盖面，并逐步完善监测体系，逐渐从ADR 的被动监测过渡到ADR 的主动监测。本文将从DM 技术在ADR 监测的应用方面进行综述，以期为ADR 监测工作提供有意义的指导。

1 ADR 监测的概述

自1960年前后沙利度胺事件后，各国相继出现许多影响恶劣的事件，国外从设立监测报告制度、建立专门监测系统到药物警戒理念的应用，表明了ADR 监测正在逐步走向成熟。我国于1980年前后开始进行ADR 监测的工作，在京、沪、粤等地开始实施ADR 报告制度的试点。自1999—2019年，我国ADR监测网络共累计收到1519 万份的ADR 的报告，在2019年收到150 余万份报告，其中新的和严重的ADR 报告数近48 万份，占同期的31.5%[2]。面对这些情况，其解决的办法主要是应用自发呈报系统来发现ADR 信号。尽管该系统多有不足[3]，但其监测领域广、使用经济，是目前公认的主流的ADR 信号挖掘手段[4]。近年来，各国发现ADR 信号的方式已经由被动监测逐渐发展为主动监测，并设计开发了一系列的主动监测系统[5]，给药物安全提供了新的监测思路。各国研究者现已经将研究的焦点对准在ADR 监测上，为了改善传统报告方式的缺陷，研究者们将DM 技术用在ADR监测中，期望指导人们更安全和有效地应用药物。

2 DM 技术在ADR 监测中的应用现状

2.1 DM 技术

DM 技术是从大数据中主动搜索隐藏于其中的特殊信息和知识的关联的过程[1]。其应用的流程是在经过初步信息收集以后将数据集成和清洗，再进行数据的规约，经过反复多次数据清洗后，进行数据转换，建立数据模型，选择算法对数据进行挖掘，最后进行结果的评估，并在验证和分析后对结果进行应用。DM的过程是需要经历多次重复的，若其中一个环节未达预期，都要退回到前一环节再次进行操作[1]。应用DM技术是为了分析信息并将复杂的数据集转换为可理解的数据[6]，从而挖掘出对用户潜在有用的知识。

2.2 DM 技术在自发呈报系统ADR 监测的应用现状

2.2.1 频数法在频数法的运用中，目前多用比值失衡测量法，该方法包含了报告比数比（reporting odds ratio，ROR）法和比例报告比值比（proportional reporting ratio，PRR）法。可用于单药或联合用药的信号监测。计算方法以四格表为核心，若某种药品与其不良反应之间的计算结果超出临界值，则出现比值失衡，说明生成了信号。如果95%置信区间大于1，说明生成信号[7]。李双娇等[8]将该方法应用在甲氨蝶呤（Methotrexate）的不良反应危险信号的挖掘中，采用上述的两种方法均找到了1364 个信号，且完全重合。其强相关的、新的不良反应的危险信号有治疗药物影响、骨骼肌肉系统、皮肤影响等。研究者基于这些信号建议采取相应措施加强监护，防范用药风险。其他方法还有英国药品和保健产品管理局（medicines and healthcare products regulatory agency，MHRA）的综合标准法。若满足例数不低于3，PRR 不低于2，χ2不低于4 的上述3 个条件，则提示生成信号。刘艳[9]使用了ROR、PRR、MHRA这三种方法挖掘了545 例儿童ADR 数据的信号，结果得出MHRA 法监测的可疑药物风险信号较少。其余还有Yule′s Q 法、序贯概率比检验法等，上述方法在ADR 监测中的应用效果研究的报道，相对比值失衡测量法较少。

2.2.2 贝叶斯法在贝叶斯法中，贝叶斯置信传播神经网络（Bayesian confidence propagation neural network，BCPNN）法较常用，这是运用传统四格表法加贝叶斯判别分析的方法来检测信号生成的一种方法。BCPNN法让模型能够随数据库信息的更新而自行做出演绎推断，并结合更新的知识，对从前累积的ADR 报告进行再次评价[10]，从而起到前馈性作用，能够更有效的发现信号。该方法可用于处理复杂变量，对不完全数据的处理稳定性较好，可用于单药或联合用药的信号监测。该方法的核心是需要算出信息成分的数值，根据该数值的大小来表示可疑的药物和其不良反应的发生之间的强弱关系。如果计算数值大于0，说明可疑药物和不良反应之间存在一定关联，可能生成信号[10]。Rodrigues 等[11]将贝叶斯方法应用在评估药物不良反应报告的因果关系中，该方法提高了药物监测数量和质量，增加了卫生专业人员举报其对ADR 怀疑的积极性，从而提高药品的安全监测程度，更好地维护了人们的健康。

其他方法包括伽马泊松分布缩减（Gamma possion shrinker，GPS）法和多项伽马泊松分布缩减（multi-item gamma possion shrinker，MGPS）法。GPS 法现已升级为多项伽马泊松分布缩减法。MGPS 法的算法是计算出经验贝叶斯几何均数，算法与IC 值相近，算出贝叶斯几何均数的95%置信区间，其下限用经验贝叶斯几何均数95%置信下限表示，如果结果大于2，则说明生成信号。MGPS 方法可以对药物以外的变量进行各个层次的剖析，探索各层变量特征是否与不良反应之间存在联系。George 等[12]应用其进行375 种具有肝损伤潜力药物的研究，计算了年龄、性别、肝事件相关报告的置信区间的经验贝叶斯几何均数，对性别、年龄和药物性质与药物性肝损伤关联问题进行研究。临床上多将上述几种方法联合应用，综合评估，更快速的发现危险信号，并进行分析，从而找出解决办法。

2.2.3 关联规则关联规则是关联分析的形式之一[13]，是为了发现大型数据集中各项集之间“有趣”的关联关系的一种DM 方法[14]。其主要客观度量指标包括支持度、置信度等等，其最重要的是支持度的测量。在ADR 信号监测中的支持度表示同时含有某种药品与某种不良反应报告占ADR 报告总数的百分比[13]，核心是在多次扫描后算出项集支持度，尽力发现全部频繁项目集，最终形成关联规则[14]。其中Apriori 算法应用较多，是一种较为经典的频繁项集挖掘算法。马洁等[15]基于该算法分析发现，高龄及患病史是阿托伐他汀联合降压药应用时发生不良反应的高危因素。因此，这种算法的应用可以辅助临床诊疗人员进行合理用药。Chen 等[16]将χ2检验引入到传统的Apriori 算法中，经研究后发现，修改后的Apriori 算法，缩短了计算时间，减少了无效关联规则，可更有效、准确地研究病历中药物与其相关不良事件之间的关联规则。

2.2.4 聚类分析聚类分析又称集群分析，该方法是利用数字信息知识来实现“归类”，尽量去缩短类别之中的差别，并尽量去扩充各个类别之间的差别[14]。聚类分析的种类有很多，已在药品安全性的监测等方面得到了普遍地应用。Chandler 等[17]将人乳头瘤病毒（human papilloma virus，HPV）疫苗应用后出现的不良反应进行聚类分析，结果显示，与9～25 岁女性的非HPV疫苗报告相比，在HPV 疫苗报告中，头痛、头晕和疲劳或晕厥的发生率明显更高。张渊[18]将聚类分析中近年来发展起来的一种双聚类算法应用到我国ADR 监测中，为潜在ADR 确认、筛选需重点关注不良反应信号以及不良反应的病因学研究等方面提供有效的参考信息，旨在促进我国ADR 监测中信号评价工作效率的提高。

2.2.5 决策树决策树是利用一种类似流程图的树状结构进行分析的一种DM 的方法[14]。该方法的核心在于对其的生长和剪枝。常用的算法包括CART、ID3、CHAID 等生长算法和后剪枝、预剪枝等剪枝算法。王勇等[19]应用决策树技术挖掘左氧氟沙星的不良反应的流行病学特点。在分析的4318 例报告中，皮肤及附件损害是较主要的损害，年龄是其重要因素。其三个分节点分别是31.3、33 岁及体重>75.5 kg，第1 个和第3 个分节点可能对皮肤及附件损害影响大，第2 个分节点可能对神经系统损害影响大。

2.2.6 主成分分析主成分分析法是对得到的数据进行降维操作，经再次组合后产生新的综合变量，从而进行进一步分析的DM 方法[14]。徐瑾等[20]将其应用于对收集到的4031 例头孢呋辛不良反应数据进行信号挖掘，结果得出，皮疹、瘙痒、恶心、心悸等与头孢呋辛的应用相关性高。而心悸未在药品说明书内标注，可作为头孢呋辛不良反应的新参考依据。

2.2.7 其他方法其他方法还包括反向传播人工神经网络、序列对数分析法、监督机器学习法等。Bajzelj 等[21]对反向传播人工神经网络进行了应用，探究其对与特异药物引起的肝损伤相关的不平衡数据集进行分类的能力，并建立了预测药物肝毒性潜力的模型。国外有研究表明，序列对数分析法可以早期识别安全信号，该方法具有中等灵敏度和高度的特异性[22]。而相比序列对数分析法，监督机器学习法的灵敏度和特异性相对来说会更高[23]，而这两种方法的实用性也较好，可作为现有的药物监测方法的补充。但是，这些方法在我国应用较少，今后可进行深入探索。

2.3 DM 技术在其他ADR 监测的应用现状

现今对ADR 的监测正逐渐从ADR 的被动监测过渡到ADR 的主动监测，许多机构也正着力研发ADR主动监测系统。在各方支持下，国家药品监督管理局开发了基于医院HIS 系统的可以主动获取药物警戒信息的系统——中国医院药物警戒系统，该系统的应用改进了报告流程，缩短报告的时间，提高报告者的积极性[24]。王蒙[25]将贝叶斯工具变量方法应用在ADR的主动监测中，其重点评价服用中药制剂过程中伴随疗法的应用对发生药品不良事件和严重不良事件的影响，进一步确认了其中的危险信号，改善了用药的安全性。除指南提出的如ICH 药物警戒计划等主动监测方法外，随着计算机等诸多领域发展，电子健康记录（electronic health records，EHRs）逐渐在国内外应用。在ADR 主动监测方面，许多学者将DM 技术应用在监测EHRs 上以发现药品的不良反应。一项研究开发了称为Readpeer HSA 的DM 算法系统，可自动提取药品和不良事件名称，并将其应用于对电子健康记录的ADR 监测以及主动药物警戒中，有助于药物的使用安全[26]。近年来，国外在应用EHRs 的基础上，开发关于观测性医学效果合作关系网络（observational medical outcomes partnership，OMOP）的通用数据模型（common data model，CDM），其正被逐渐应用于药物不良反应监测中。XU 等[27]将2007—2012年的Humana 数据提取转化成OMOP CDM 后发现CDM 可将不同格式的源数据转换为标准化的数据结构，可在大型的观测数据中快速地发现ADR 信号，进行药物安全评估。在OMOP CDM 模型的项目研究结束后，研究调查人员在OMOP CDM 基础上启动了名为观测卫生大数据科学和信息学（observational health data sciences and informatics，OHDSI）的CDM 的项目研究，以期利用大数据科学和信息学方法，促进卫生健康数据科研工作的发展[28]。Duke 等[29]应用OHDSI CDM发现左乙拉西坦与苯妥英钠具有相同或更低的血管性水肿风险，而苯妥英钠目前还没有被标记其可能发生血管水肿的警告。Yu 等[30]在使用OMOP 通用数据模型基础上开发了下一代药物警戒信号检测框架——ADEpedia-on-OHDSI，经研究得出基于CDM的方法将有助于提供可扩展的解决方案，其能够整合药物安全性数据和电子健康记录以生成真实的世界证据来改善信号检测。

3 小结与思考

该技术融合了多学科理论，并顺应知识智能化的发展趋势，对于其在ADR 的监测的应用笔者认为：①随着可视化技术的广泛应用，研究者将多维度，多层次的结果呈现在用户面前，将有助于DM 结果的表达，今后应继续探讨更容易被用户理解的表达方式。②完善DM 技术术语集，鼓励各国学者对其进行更深入的研究，尤其注意其在本土化的应用和开展，尤其在中药方面。加快推进医疗机构、药品企业等ADR 监测主体与国际接轨，取国外之长，完善大数据平台建设，促进该技术在我国的运用和创新。③该技术专业性较强，实施的主体人员——医生、护士、药师等对于具体方法的选择和应用一般不具备较强的水平，需要多学科及团队合作，加强交叉学科人才培养，如培养高级信息护理方面的专家以及培养具有高级计算机水平的临床药师等，提升其信息能力和DM 能力，以促进其在ADR 监测中更充分的运用，为实现精准医药奠定坚实的基础。④要培养大数据思维，利用DM 发展更为完善的用药安全监测体系，转变模式，迎难而上，从在总体和抽样之间更注重总体、追求效率而非绝对精确、更关注相关而非因果等方面入手[14]，剖析大数据给医疗、护理及药学带来的影响，挖掘数据背后的价值规律，促进用药安全的协调发展，为公众健康谋福。