基于人工智能的药品投诉类案例信息识别及分类效能评估

2023-10-14雷霜冯变玲任碧琦林书智刘炜朱小莹戴盛宇迟易泓黄瀚博谢华刘晓阳

医药导报 2023年10期

雷霜,冯变玲,任碧琦,林书智,刘炜,朱小莹,戴盛宇,迟易泓,黄瀚博,谢华,刘晓阳

(1.西安交通大学药学院临床药学与药事管理学系,药物安全与监控研究所,西安 710061;2.强生集团供应链数字化与数据科学部,美国华盛顿州贝尔维尤 98007;3.强生集团信息部,北京 100025;4.西安杨森制药有限公司商业质量部,西安 710000;5.西安杨森制药有限公司药品安全部,西安 710000;6.强生集团技术质量部,西安 710000)

2020年7月,国家药品监督管理局发布《关于进一步加强药品不良反应监测评价体系和能力建设的意见》[1]中提到要积极探索应用大数据、人工智能(artificial intelligence,AI)等技术和方法实现数据共享与反馈、风险预警与识别等智能化功能,运用多渠道来源数据为监管提供技术支撑。近年来随着信息技术的高速发展,社交媒体、电子病历等真实世界数据已成为药品上市后安全信号识别的重要来源[2]。越来越多的研究探索使用自然语言技术从各种医疗文本来源识别和提取相关信息,如从患者记录中检测药品不良事件[3-4]。但由于投诉类案例,包括不良事件(adverse events,AE)、产品质量投诉(product quality complaint,PQC)、特殊情况(special situation,SS)等,处理的高度复杂性及不确定性,目前还没有供应商提供全面的处理方案[5]。药品上市许可持有人(marketing authorization holder,MAH)作为药品不良反应报告的主体应主动从相关投诉报告、社交媒体等多种来源关注并识别AE、PQC、SS等相关信息。目前,针对大量不同数据来源的非结构化信息,企业依旧主要通过传统人工逐条筛选等低效的方式来识别相关信息。为了提高案例处理效率和有效性,更好地履行主动收集不良事件和质量投诉的责任与义务,本研究通过构建神经网络(neural networks,NN)模型学习医疗卫生专业人员、患者/消费者等不同渠道来源的不良事件、质量投诉等上报内容,运用于真实世界数据分析。通过比较AI与人工审核投诉类案例的分类效能,探究AI辅助人工审查分类的可行性。同时,快速识别与分类此类信息可以帮助药物警戒系统及时发现和预测药物的安全问题,并采取必要的措施来保护患者的健康和安全,是药物警戒评估和监测药品安全性体系过程中的重要环节。

1 资料与方法

1.1神经网络模型的构建将2019年1月—2021年12月X公司在线上平台收到23 378条来源于经销商、医疗机构及患者等不同渠道的药品不良反应报告、产品质量问题及其他相关反馈信息进行数据预处理,并与专家合作讨论,理解数据定义、判断规则和整体流程,对原始数据执行基本的文本处理和数据清洗处理(例如清理测试集数据、删除重复报告、手动添加说明书、患者信息以及删除不相关信息等)。

解决方案采用Python语言和云计算服务进行部署。将预处理完成的数据集随机拆分为训练集(60%)、测试集(20%)与验证集(20%),通过提升版BERT(bidirectional encoder representations from transformers)语言系列模型,将文本语料转化成多维向量,与下一步分类模型进行微调和训练。同时依据投诉类案例的特点,使用神经网络的门控循环单元(gate recurrent unit,GRU)模型对文本进行识别分类。在验证集上,通过语言模型继续训练、微调策略、模型架构、超参数调整、不平衡数据处理等方法进行模型优化,并且从灵敏度,F1值和精确度方面评估模型性能,模型在测试集的结果展现良好的性能状态。

1.2实证数据来源与分组方法的设立将构建的神经网络模型应用于真实世界数据中进一步进行验证,数据来源于2022年8—10月X公司在其线上平台收到的共3090条药品反馈记录,将线上平台上信息主要分为投诉类和非投诉类,其中确定的AE包括可识别的患者、可识别的报告者、怀疑药品和药品不良事件等4个基本要素[6]。

本研究将分为真实值组、人工组和AI组,以真实值组作为参考值,比较人工组与AI组分类效能的一致性。其中,真实值组为选取该企业内部从事多年药物警戒工作的资深人员3名,其从事药品安全相关工作均>3年,其中一名人员工作经验高达11年,在案例接收初期,由他们分别判定案例性质,对于判定不一致的案例再统一讨论出一致结果,最终以一致认定的结果为参考标准。人工组为该企业的15位识别人员,具有药学、护理学等学科背景,其中本科及以上学历13人,按照该企业的标准流程对案例进行识别的结果。AI组为将构建的神经网络模型应用于真实世界后所得的识别结果。

1.3评估指标选取选取F1值、灵敏度、特异度、AUC等为主要指标,精确度、平衡准确度、kappa分数为辅助参考指标对人工分类与AI分类的有效性进行比较[7]。精确度是正确预测的正值与总体预测正值的比值,体现的是预测正例的准确性,高精确度意味着假阳性率低(即将非投诉类判断为投诉类案例的比率低)[8];灵敏度是正确预测的正值/实际正值的比率,表示的是样本中的正例有多少被正确预测,衡量分类器对正例的识别能力。高灵敏度预示着可能会有更多的误检,但会尽可能地找到每一个投诉类案例[2]。特异度表示所有负例中被分对的比例,衡量分类器对负例的识别能力。以上指标的判定标准均为:当值为1时,表示其与真实值结果一致。

F1值在统计学上被用来作为衡量二分类模型精度的指标,是精确度和灵敏度的调和平均值,其同时考虑精确度与灵敏度这两矛盾的指标。一般认为F1>0.5时模型比较可信,越接近1表示模型效果越好。

准确度指标直接反映模型的性能,平衡准确度对模型在不平衡数据集上的性能评估更为准确,在二分类情况下,平衡准确度等于灵敏度和特异度的算术平均值,分数范围为从0到1,最佳值为1,最差值为0。

Kappa分数是衡量模型可靠性的评估指标,用于评估模型在类别识别中的一致性。ROC曲线下面积(area under ROC curve,AUC)为ROC曲线下方面积之和,在AUC>0.5的情况下其越接近1,表示模型分类正确的可能性越大。一般AUC的值大于0.9时表示其具有较高的准确性[9]。在实际运用中,也应着重关注假阴性率(即漏检率:将投诉类案例误判为非投诉类案例),假阴性率越高代表漏掉的投诉类案例越多。

1.4统计学方法采用SPSS 26.0版统计学软件,采用McNemar检验对人工分类与AI模型下分类结果的灵敏度、特异度进行比较。通过Delong检验比较两种分类方式的AUC,以P<0.05为差异有统计学意义。用Kappa统计量检验人工智能分类效果与真实值的一致性(between method agreement),可分为5组以表示不同级别的一致性:0.00～0.20极低的一致性(slight)、0.21～0.40一般的一致性(fair)、0.41～0.60中等的一致性(moderate)、0.61～0.80高度的一致性(substantial)和0.81～1.00几乎完全一致(almost perfect)。

2 结果

2.1数据基本特征在线上平台全部的非结构化案例中,投诉类案例共42例,全部为AE案例,其中AI正确识别38例,人工正确识别41例。非投诉类案例3 048例,占98.64%,数据具有不平衡性,其中AI正确识别4例,人工正确识别21例。

2.2人工分类投诉类案例效果评估在42个投诉类案例中,人工正确识别41例,即灵敏度为97.62%;在3 048个非投诉类案例中,人工正确识别3 027例,特异度为99.31%;同时AUC值为0.985,具有较高的准确性。在不同维度下讨论人工分类的效果,按工作时长划分可以得知随着工作年限的增长其分类的准确性总体呈上升趋势,其中工作年限<3年的人员分类灵敏度为75%,AUC值为0.875,与其他层次(工作年限>3年)存在一定的差异。同时,由不同学历水平方面的分类结果可知本科水平下的人员分类灵敏度为83.33%,存在一定的阳性漏检率。见表1。

表1 人工分类投诉类案例效果评估

2.3AI与人工分类效能比较

2.3.1AI与人工分类质量评价模型分类效果的质量需要F1值、精确度、灵敏度和平衡准确度等指标来衡量,将人工分类与AI的预测分别与真实值组进行比较,AI的F1值为90.48%,比人工检测高出11.63个百分点,具有较好的分类精度。AI和人工检测的精确度分别为90.48% 和66.13%,相差24.35个百分点,两者差异明显。同时,AI和人工检测的假阴性率分别为9.52% 和2.38%,说明人工检测相较于AI对于投诉类案例的正确识别高出7.14个百分点,见表2。

表2 AI 与人工分类质量评价

2.3.2一致性评价 Kappa系数是一致性检验指标,亦可用于衡量分类的效果。对于分类问题其一致性表示模型预测结果和实际分类结果是否一致[10]。AI与真实值的Kappa值为0.903,说明其与真实值的分类结果几乎完全一致。

2.3.3AI与人工分类效率评价据统计结果可知,在3 090条案例中,AI对每条案例的平均处理时间为(包括案例的识别与分类)292 ms,所有案例处理总时长为15 min。而人工处理案例平均处理时长为2～3 min,总计6 180～9 270 min。可以看出AI相对于人工大大提高案例处理的效率。

2.3.4AI与人工分类效能比较对构建的神经网络模型与人工分类总体效能进行比较,AI和人工检测的灵敏度分别为90.48% 和97.62%,人工识别投诉类案例高出AI组7.14个百分点,差异无统计学意义(χ2=1.33,P=0.25)。AI和人工检测特异度分别为99.87% 和99.31%,差异有统计学意义(χ2=10.24,P<0.001),说明AI相对于人工对于非投诉类案例的检出效果更好。整体上AI和人工的AUC值均>0.9,具有较好的分类效果,见表3,图1。

图1 人工智能与人工分类ROC曲线对比

表3 AI与人工分类效能比较

3 讨论

本研究不同来源的非结构化案例中,投诉类案例有42例,非投诉类有3 048例,数据具有不平衡性。发现人工对于投诉类案例的识别在不同工作年限、学历水平下存在差异,因此需要探索人工智能的方式快速准确地筛选案例并对其效能进行探究。如SCHMIDER等[5]利用F1值、灵敏度和精确度等指标区分不同供应商人工智能技术自动化处理多渠道来源的药品安全案例,结果证实了利用人工智能技术支持不良事件源文件提取和案例效果评估的可行性。

在总体分类效能上,发现AI的F1值为90.48%,AUC值为95.2%,与其他研究相比,本研究有较好的分类效能[11-15],LETINIER等[16]利用自然语言处理的方式识别非结构化患者报告中不良反应的信息,该模型外部验证显示AUC为0.91,F-measure为0.58。COMFORT等[12]开发基于规则和机器学习(machine learning,ML)的模型,用于从社交媒体中分类自发报告,并将其性能与人类药物警戒专家的性能进行比较,发现其准确率为83%。与人工检测比较,F1值高出11.63个百分点,这是由于F1值是精确度和灵敏度的调和平均值,在实际案例中人工检测的精度只有66.13%,说明对于非投诉类案例人工更倾向于将其判断为投诉类案例以确保尽可能地不漏掉投诉类案例,但易造成较大地误差。F1值的主要局限性在于精确度和灵敏度具有同等的权重时在某些情况下可能不符合所评估工具的临床需求[17],因此仍需结合其他指标共同衡量,特别是在处理如健康数据等不平衡数据时更需要强调多种指标共同测量地重要性。

AI和人工检测的AUC值均>0.9,分类结果具有较好的准确性。但在数据不平衡的情况下,若非投诉类案例的模态在数据集中占主导地位,即便在低灵敏度的情况下,高特异度仍会造成AUC值偏高[18]。因此需要进一步探究在某一特定类别下地分类效能,如灵敏度与特异度。敏感度高的检测方法适用于一旦漏诊则会导致严重后果的情形,投诉类案例的识别也需要尽可能地全面。本文结果可知,AI和人工检测灵敏度分别为90.48%和97.62%,表明人工对于投诉类案例的识别更全面,这可能是因为人工对于投诉类案例的定义具有更广泛的理解,包括潜在的投诉类案例人工更倾向于将其纳入投诉类案例中,因此其具有更高的灵敏度,但也造成误差较大的局限性,这与前文研究结果一致。同时,AI与人工识别相比灵敏度虽差异无统计学意义,但由于数据不平衡的局限性,在条件允许的情况下,仍需进一步验证。值得注意的一点是,本研究识别投诉类案例为首次测试与应用,在今后使用时企业应制定相关流程进行持续的优化、监测与验证,以保证AI能够对阳性案例有更深的理解从而降低阳性漏检率。AI对比人工分类的特异度具有显著性(P<

0.01),说明AI对于非投诉类的案例判断相较于人工有明显的提升,提高一定的精确度。目前在药品不良反应实体识别人工智能方面应用较广泛的神经网络模型包括长短期记忆神经网络(long short-term memory,LSTM)、双向长短期记忆神经网络(bidirectional long short-term memory,BiLSTM)等,门控循环单元(gated recurrent unit,GRU)模型是LSTM模型的创新模型之一,其特点在于同时具备LSTM的遗忘、更新机制,且简化LSTM模型架构,提高运行速度,降低梯度弥散的风险[19]。本研究使用NN的GRU模型对文本进行识别,能够处理序列变化的数据有效解决上下文直接的衔接关系及长期关系[20]。对不同渠道来源信息文本进行实体识别和关系抽取研究,取得较好效果。同时由统计结果可知,AI的案例处理效率远远高于人工处理,其快速的诊断速度和长时稳定精确工作的优势,可以极大提高MAH处理相关信息的效率,应用国际通用的指标评估并统计分析人工与AI的差异性,结果具有一定的参考价值。