APP下载

基于检验数据的药品质量风险预警模型研究

2019-01-23林伟强郭晓敏周宗梁

软件 2018年12期
关键词:限值预警规则

林伟强,郭晓敏,周宗梁,吴 锴



基于检验数据的药品质量风险预警模型研究

林伟强1,郭晓敏1,周宗梁2,吴 锴2

(1. 广东省药品检验所,广东 广州 510180;2. 食品安全与营养(贵州)信息科技有限公司,贵州 贵阳 550000)

国家药品评价性抽验的品种相对集中并具有一定的延续性,可利用其海量的检验数据进行质量风险预警,提高药品监管和检验的效能。首先根据药品检验业务和数据的特点选取Apriori、马尔科夫链模型、3-AHP、CV-SES等算法,综合分析以上算法在药品检验数据应用上的不足,进而提出原始数据降维、重新设计频繁集生成方法、限值归一化、修正系数函数等改进,最后建立药品质量风险预警模型。采用2013至2016年广东省药品检验所药品抽验和进口检验数据对本模型进行验证,本模型生成的预警信息能有效提高药品质量风险预警的效率和准确度,对加强药品监管具有重要的参考意义。

药品;检验数据;风险预警;算法

0 引言

近年来,“亮菌甲素注射液”、“丙种球蛋白”、“注射用人免疫球蛋白”、“清开灵注射液”等药害事件的发生,说明我国药品质量安全问题的客观存在[1]。为了加强药品质量的监控、降低药害事件发生的概率,国内学者开展了如何评价药品质量状况、提高药品抽验效能等方面的研究,如黎慧贞等研究了国家药品质量水平指标体系及质量指数的构建[2]、孙苓苓等研究了中国药品上市后抽验模式现状及问题[3]、王传清等研究了增强药品抽验效能的手段[4]、王翀等研究了国家药品抽验工作中的药品安全监管成效分析及建议[5]、朱嘉亮等研究了大数据视角下国家药品抽验数据共享平台建设的思路[6]。已有研究为本文的研究奠定了一定的基础,但是,无论监督抽验还是评价抽验都是一种事后监督的行为,这些研究大多是分析药品抽验工作的现状、问题和改进,或者对抽验样品的基本属性数据进行统计分析,并没有利用样品检验结果数据进行质量风险预警的研究。药品检验数据来源于监管部门在生产、流通、使用等环节的抽检结果,隐含很多有价值的信息。本研究从不合格风险预警、不合格概率预测、超限值风险预警、波动异常预警等方面进行研究,综合应用Apriori、马尔科夫链模型、3σ-AHP、CV-SES等算法建立药品质量风险预警模型,并针对药品检验业务和数据的特点进行模型优化。

1 不合格风险预警

根据业务专家的经验,药品的检验结果与品种生产工艺的复杂性、生产厂家的质量管理水平、检验项目的检验标准要求、剂型的稳定性、药品类别、样品来源等因素都有较大的关系,因而,与历史不合格数据具有相同指标特征的药品具有较高风险。通过对历史数据的分析计算发现:药品品种名称、生产厂家、检验项目、剂型、药品类别、供样单位类别是不合格药品影响权重较大的指标,与业务专家的判断一致。因此,本研究选取以上信息项作为风险指标,对历史数据通过Apriori算法计算所有风险指标组合的不合格占比,并按照一定的排序规则进行预警。

Apriori算法是经典的关联规则挖掘算法[7],侧重找出数据集中某些特定事件一起发生的情况,通过识别所有的频繁集并从中构造出那些可信并且具有代表性的规则[8]。其基本原理是用支持度表示关联规则的强度,用表示每个事物项,表示事物集合,()表示项集,把所有关联规则看作一个频繁集()=||⊆,∈|。频繁集指数据集中所有大于指定最小支持度的集合。运算从扫描容量为1的频繁集开始,对那些小于最小支持度的集合不再考虑,然后采用归纳的方法,从容量-1的频繁集生成容量为的频繁集,并修剪其中容量包含-1容量的非频繁集的集合。确定修剪后的容量为的频繁集列表后,对频繁集计算容量为-1的所有子集和,使包含输入信息,包含输出信息,并且计算使成为成立的充分必要条件的置信度(→)=(∪)/(),如果大于或等于最小置信度,则列入关联规则。

在药品检验业务的应用中,属于同一业务层级的事物具有逻辑上的排他性,生成的频繁集除了一对还有多对指标关联规则,因此,Apriori算法具有局限性,需要改进算法以生成逻辑正确的关联规则,并以不合格率、风险指标个数、不合格检验项目等组合作为新的风险预警排序规则。具体的步骤是:

(1)原始数据降维

原始数据包含业务逻辑关联以及中间过程,存在字段多为离散变量、数据完整性不确定等问题。为了以较少的指标表达原始数据主要包含的信息,需要量化相关指标和清洗部分字段。本研究采用向前逐步法生成备选字段列表,并征求业务专家的意见进行修正以确保业务逻辑的准确,再梳理数据字段列表以定义风险指标体系,最后利用与检验结果相关的数据进行风险预警建模。

(2)生成待选频繁集

(3)生成强规则预警

根据Apriori算法原理将待选频繁集中低于最小支持度的非频繁项剔除,最终生成强规则预警来提示潜在高风险指标组合。

2 不合格概率预测

Apriori算法中事物项使用的是频数而非频率,而马尔科夫模型预测是利用概率建立一种随机型时序模型进行预测的方法。它将时间序列看作一个随机过程,通过对事物不同状态的初始概率和状态之间转移概率的研究,确定状态变化趋势,以预测事物的未来[9]。对于一个系统,由一个状态至另一个状态的转换过程存在转移概率,并且这种转移概率可以依据其紧接的前一种状态推算出来,与该系统的原始状态和此次转移前的状态无关,那么这样的随机过程即具有马尔科夫性质(马氏性)。

药品检验数据大部分为离散型字段,经使用历史数据检验,具有马氏性。本研究利用马尔科夫链模型进行药品不合格概率预测,具体步骤如下:

(1)使用2统计量检验随机变量序列是否具有马氏性

(2)应用关联挖掘算法产生强规则列表

首先代入关联挖掘算法产生强规则列表在数据集中作关联查询,使每一条强规则对应一个符合该条件的数据序列,其次检验该规则的数据序列是否具有马氏性,如满足条件则计算一步转移概率,将其排序由高到底作为不合格概率预警。

3 超限值风险预警

药品检验业务数据集的数值型检验项目根据检验标准规定指标的取值范围,检验结果高于上限或者低于下限被判定为不合格。基于可量化的检验数据服从正态分布,并且平均值符合或十分接近产品目标指标的原则,本预警模型采用统计学上质量控制3原则对检验结果的预测值进行超限值风险预警,以-3至3作为控制界限。

3原则为:符合正态分布的概率密度函数,当=0,=1时,称随机变量服从标准正态分布:数值分布在(,+)中的概率为0.6826,风险等级中低;数值分布在(–2,+2)中的概率为0.9544,风险等级中高;数值分布在(–3,+3)中的概率为0.9974,风险等级较高。可以认为服从正态分布的随机变量取值几乎全部集中在(–3,+3)区间内,超出这个范围的可能性仅占不到0.3%。

本研究中,首先利用历史检验数据预测相同品种和检验项目的下一个药品检验结果,然后对超限值的预测值进行预警。具体实现步骤如下:

(1)高低限值归一化

由于药品检验标准对于不同品种、检验项目规定的限值不同,应首先将高低限变量通过归一化处理转化为0到1的区间,才能采用统一的预警规则。

(2)计算检验结果预测值

药品检验数据属于离散时间序列,可通过分析检验数据的变化趋势建立预测模型。模型采用ARIMA算法,这是一种求和自回归移动平均算法,使用差分法将非平稳时间序列转化成平稳时间序列计算检验结果的预测值。

(3)计算预警值并根据规则提出预警

利用上面模型计算的检验结果预测值,可进一步计算风险指数值,结合3原则排序并提出超限值风险预警。

检验项目是否设有高低限有多种类型,因此,需针对各种情况的检验结果预测值制定不同的预警规则。为了统一高低限风险指数,还需对超低限值预警结果作正向化处理。对于只有高限的检验项目,以(预测值/高限值)计算风险指数值;对于只有低限的,以(1–预测值/低限值)计算风险指数值,大于0.95则提出低限预警;对于同时具有高低限的,以(预测值–低限值)/(高限值–低限值)计算风险指数值,大于0.95则提出高限预警,以(低限值–预测值)/(高限值–低限值)计算风险指数值,大于0.95则提出低限预警。

4 波动异常预警

为了确保药品符合国家标准,生产厂家通常制定更严格的内控标准。如果药品的检验数据波动较大,反映厂家的质量控制水平较低或产品稳定性差,存在不合格的风险。

一般情况下,检验数据在正常范围内随机波动,当波动幅度异常时则提出波动预警。波动预警基于方差修正的变异系数作为判定标准,变异系数可以客观地反映两组均值不同的数据的离散程度。本预警模型选取变异系数0.15作为控制界限,对超过控制界限的数据进行预警。设有个数据集,其均值为,则有变异系数:

5 结论

广东省药品检验所是国内第一家应用实验室信息管理系统(LIMS)的药品检验机构,2007年至今积累了大量的药品检验数据。本研究选取2013至2016年的药品抽验和进口数据进行预警模型验证。我国的药品抽验分为监督抽验和评价抽验,其中监督抽验是通过对药品监督检查中发现的,在生产、经营、使用环节中存在可疑问题的药品进行抽验,以发现不合格药品[10],因而,其不合格率明显高于其他业务类型,能挖掘更多、更新的不合格风险预警信息;而评价抽验是通过抽验了解全国药品的总体状况,比较同种药品在不同地区间的质量差异和变化,因而,同一品种的样品量较大,可利用本研究对同一检验项目的检验数据进行趋势预测并对超限值风险进行预警。本研究中从2013至2016年各月份超限值预警数量折线图发现,各月份的预警数量变化趋势比较一致,应加强对重点月份的检验工作。此外,药品进口检验中同一生产厂家、同一品种的药品持续报检,可利用本研究跟踪其检验数据的变化情况,对异常波动进行及时预警。在药品检验机构中将本研究与实验室信息管理系统集成,可获得实时、有效的药品质量风险预警信息,一方面可为监管部门在制订抽验计划时提高工作的针对性提供依据,另一方面检验机构在受理样品时也可自动判断其风险等级,以利于在检验中重点关注存在风险的样品。

[1] 朱嘉亮, 杨霞, 李哲媛等. 我国药品评价抽验工作的研究和展望[J]. 中国新药杂志, 2015, 24(16): 1810-1815.

[2] 黎慧贞, 谢志洁, 陈勇等. 国家药品质量水平指标体系及质量指数的构建[J]. 中国药师, 2013, 16(11): 1729-1732.

[3] 孙苓苓, 毕开顺. 中国药品上市后抽验模式现状及问题[J]. 中国现代应用药学, 2012, 29 (8): 762-765.

[4] 王传清, 宏伟. 增强药品抽验效能的探讨[J]. 中国药事, 2005, 19(6): 326-327.

[5] 王翀, 成双红. 国家药品抽验工作中的药品安全监管成效分析及建议[J]. 中国药学杂志, 2016, 51(20): 1815-1818.

[6] 朱嘉亮, 冯磊, 郝擎等. 大数据视角下国家药品抽验数据共享平台建设的思路[J]. 中国药业, 2015, 24(18): 1-4.

[7] Xindong Wu, Vipin Kumar. 数据挖掘十大算法[M]. 李文波, 吴素研译. 北京: 清华大学出版社. 2013: 47-68.

[8] 张文彤, 钟云飞. IBM SPSS 数据分析与挖掘实战案例精粹[M]. 北京: 清华大学出版社. 2013: 358-368.

[9] 谷秀娟, 李超. 基于马尔科夫链的房价预测研究[J]. 消费经济, 2012, 28(5): 40-42.

[10] 王长之, 孙利华. 我国药品抽验存在的问题及对策[J]. 中国药房, 2015, 26(1): 124-127.

Research on Drug Quality Risk Early Warning Model Based on Inspection Data

LIN Wei-qiang1, GUO Xiao-min1, ZHOU Zong-liang2, WU Kai2

(1. Guangdong Institute for Drug Control, Guangzhou 510180, China; 2. Food Safety and Nutrition (Guizhou) Information Technology Co. Ltd, Guiyang, 550000 China)

The variety of the state sampling for drug quality evaluation is relatively concentrated and has certain continuity. The problem we try to solve in this paper isimprove the effectiveness of drug supervision and inspection by using large quantities of drug inspection data for early warning of quality risk. The approach we adopt to solve the problem is characteristics of drug testing data Select Apriori algorithm, Markov chain, 3σ-AHP algorithm, CV-SES (coefficient of variation, single exponential smoothing) Algorithm, through the research on drug quality there are many demerits in the application of drug testing and some improving plans are put forward. Such as to reduces original data dimension, redesign create frequent dataset, scope normalization, correction function for coefficients, and finally establish a drug quality risk early warning model. The impacts on our obtained results are validated by using the 2013-2016 Year drug sampling and testing data of Guangdong institute for drug control, the early warning information generated by this model have important reference significance to improve the efficiency and accuracy of drug quality risk early warning.

Drug; Inspection data; Risk early warning; Algorithm

O211.67

A

10.3969/j.issn.1003-6970.2018.12.029

林伟强(1970-),男,硕士,高级工程师,研究方向为检验检测实验室信息化;郭晓敏(1979-),男,硕士,信息系统项目管理师,研究方向为实验室信息化;周宗梁(1987-),男,本科,系统架构师,研究方向为数据分析;吴锴(1988-),男,本科,数据分析师,研究方向为应用预测分析。

林伟强,郭晓敏,周宗梁,等. 基于检验数据的药品质量风险预警模型研究[J]. 软件,2018,39(12):127-130

猜你喜欢

限值预警规则
数独的规则和演变
法国发布高温预警 严阵以待备战“史上最热周”
关于废水排放特别限值的思考
园林有害生物预警与可持续控制
让规则不规则
辽宁省辽河流域石油炼制排放限值的制定
TPP反腐败规则对我国的启示
机载预警雷达对IFF 的干扰分析
蓄电池SOC限值下的微电网协调控制策略研究
环境保护部解读新发布的大气污染物特别排放限值