基于时间序列分析的药品流通监管方法研究
2022-08-31陈舜让
陈舜让
广东省药品监督管理局事务中心
潘烁
广东省药品监督管理局事务中心
吴文瑜
广东省药品监督管理局事务中心
黄榕波
广东药科大学医药信息工程学院
药品流通监管工作千头万绪,如何及时发现流通数据异常,有效进行药品流通链条的追踪,探索高效能、智慧化药品监管方法是各级药品监管部门多年来的努力方向。药品质量关系到人民健康,加强监管是维护药品质量的重要保障,因此如何实现高效能、智慧化药品监管,各级政府都十分重视。2017年,国务院办公厅出台《关于进一步改革完善药品生产流通使用政策的若干意见》[1],其中改革完善药品流通监管是重中之重的工作,加大应用大数据进行药品流通监管的力度,提高药品流通监管水平。
药品零售是药品流通的重要渠道,是加强药品流通监管的重要环节。原广东省食品药品监督管理局于2018年出台了《药品零售企业分级分类的管理办法(试行)》[2],从政策层面提出了对药品零售企业实行分级分类管理的办法,提高了监管效率和监管可行性。监管体制是药品流通监管的顶层设计,是药品流通监管的制度保障,从监管体制角度出发,谢鹏[3]提出了通过改革完善管理制度加强对药品监管的力度和广度的思考。监管机构设置是药品流通监管的执行力保障,朱价等[4]从省级药品监管部门机构改革状况研究——从内设机构设置的角度出发,对省级药品监管部门内设机构的数量和分类进行共性和差异性分析,明确地方政府、监管部门和监管人员的责任与义务,监管职能划分的改革措施,通过机构改革加强属地药品监管的深度与力度。随着互联网的快速发展,为药品监管提供了新技术和新方法,药品监管信息化建设不断完善,应用信息技术为药品流通监管提供了有力的技术支撑,目前应用信息化加强对药品流通的研究成果层出不穷,杜学礼等[5]对药品监管信息化建设中的监管业务、信息化技术和数据要素三方面进行剖析,分析了三个方面的相互联系和各自作用,提出了通过药品业务流程与信息化建设反馈机制的监管方法,监管业务、信息化技术和数据要素三方面的有机结合为药品精细化监管提供了高效的信息平台。近年来,由于互联网应用的不断深入,线上药品流通交易日趋活跃,流通数量快速增长,因此互联网药品交易的监管日显重要,线上药品流通与线下实体店药品流通的差异性为药品流通监管提出了新的课题,加强对线上药品流通交易的监管十分重要,陈洪忠等[6]分析了互联网药品交易的现状和发展情况,梳理了互联网药品交易服务模式,从经营者和消费者两个角度全面剖析了线上药品流通和经营存在的突出问题,经营者面临诸如消费者需求、医保支付及处方药的销售等问题,而消费者面临如药品质量保障、个人信息安全等问题,提出了通过立法完善监管法律法规加强对互联网药品线上交易的协同监管措施,同时互联网药品线上流通服务发展不仅要依靠制度规范改革而且还要依靠行业自律、社会监督等协同规范。随着大数据时代的到来,大数据分析为药品监管带来了新方法、新思路,为药品监管精细化提供数据和技术支撑。
大数据分析为药品流通监管的方法和思路、为实现药品流通精细化监管提供了有效的可行技术线路。进入大数据时代,产生数据和收集数据的能力快速提高,政府部门的管理信息化,存储或产生的数据呈爆炸性增长,依靠人力无法对如此海量的大数据进行分析。因此,对数据的自动分类、汇总、异常标识以及发现并表达数据中隐藏的规律和趋势等具有十分重大的意义。从大数据中挖掘有用的知识用于解决实际问题,各种应用成果不断涌现。广东省药品流通电子监管系统收集了全省药品批发、连锁企业经营的国产、进口药品品种每天的购销交易记录数据,从2012年至今,已经累计收集了4TB 以上的药品交易信息数据,为大数据分析应用提供了可靠的数据支撑。电子监管系统收录的药品流通数据是药品流通过程的客观、真实反映,药品流通正常和异常信息都会在流通数据中真实充分地表现出来。应用大数据分析能从中找到药品流通过程的统计规律,及时发现违反药品流通统计规律的异常情形,如某药品流通交易量突然产生异常变化,说明有影响该药品交易波动的情况出现,药品监管部门即可及时介入调查,找到发生异常的原因,必要时加强监管。探索通过对药品流通数据的分析,建立药品流通监测模型,应用监测模型实现药品流通精细化监管,这方面的研究在国内鲜有报道。
大数据分析涉及统计学和机器学习、数据库技术、人工智能和模式识别等领域,常用方法包含聚类分析、主成份分析、回归分析、深度学习和时间序列分析等技术。时间序列是一类按照时间顺序取得的样本观测数据序列,数据的本质特征是相邻数据具有相关性。时间序列分析就是从大量的观测数据中寻找隐藏在数据中的统计规律及特性,是大数据分析的主要方法之一。郑雅婷等[7]应用时间序列分析方法建立了门诊药房药品销售量的预测模型,实现了门诊药房药品用量的科学预测,提高了药品采购效率和管理水平,减少了人力资源投入,提高了工作效率。时间序列分析方法在许多领域的动态相关性问题中都有广泛的应用[8-10]。药品销售数据是药品流通的重要信息集合,包含药品流通过程的所有信息,销售数据之间具有较强的动态相关性,即当前数据与以前的数据具有强相关性。通过分析销售数据与时间的统计规律,建立药品流通的时间序列监测模型,把监测模型的预测数据与上报数据进行比较,可以清晰判断药品流通是否正常,及时发现药品流通过程中的异常情况。本文从药品流通数据分析入手,应用时间序列分析方法对药品销售数据进行分析,建立基于时间序列分析方法的药品流通数据监测模型,为药品流通精细化、智慧化监管寻找一种可行的方法途径。
1 数据与数据预处理
1.1 数据材料
广东省药品流通电子监管系统收集了药品批发企业的销售上报数据26 亿条,以常用药品复方丹参片作为研究对象,从中抽取2018~2020年广东省内药品流通批发企业每天销售数据,共计有200 多万条,用于建立监测模型及模型的验证。每条数据的格式见表1。
表1 数据格式
首先统计汇总全省所有流通企业复方丹参片销售的数量,共得到全省2018~2020年(36 个月)复方丹参片的每月销售总量,得到了时间序列Xt,t=1,2,…,36 的样本数据。具体统计数据见表2。
表2 广东省复方丹参片每月销售量
1.2 数据预处理
广东省药品流通电子监管系统设置了数据输入的规范要求,包括建立企业名称标准库、品种库,确保数据必须符合规范才能有效上报。同时通过法规制度规定,在广东省内从事药品批发业务、零售连锁配送业务的各流通企业必须按时按质完成数据上报,确保各企业药品流通数据上报规范、电子监管系统数据收集信息完整、样本数据的有效性和规范性得到保障,为建立大数据时间序列分析提供了数据基础。为使每月销售数据标准化,用于建立基于时间序列分析的药品流通监测模型,首先对数据进行中心化预处理,应用公式(1)对上报数据时间序列Xt,t=1,2,…,36进行中心化,得到观测值Yt,t=1,2,…,36。
式中,为样本均数,S为标准方差。
2 药品流通监测模型建立
2.1 基于时间序列分析的药品流通监测模型
自回归模型通过时间序列变量的自身历史观测值来反映有关因素对预测目标的影响和作用,不受模型变量相互独立的假设条件约束。由于药品使用的特点,以前的销售量对后面的销售量有较大影响,特别是对相距较近的销售量的影响更大,即随时间变化的药品销售量时间序列具有动态自相关性。基于时间序列自回归模型的药品流通监测模型见公式(2)。
式中,p为模型的阶,表示当前月销售量与前p个月销售量相关,回归关系由公式(2)表示;N为时间序列样本容量即观测数据个数(N=36);ɑ1,ɑ2,…,ɑp待估计参数。观测值Yt与预测值的均方 误 差(Mean Square Error,MSE)见公式(3)。
2.2 确定模型的阶及参数
本文采用最终预测误差准则(Final Prediction Error,FPE)确定模型阶,FPE 的基本思想:时间序列的阶使得模型的均方误差最小。FPE 在选择时间序列的阶的同时确定监测模型中的参数。具体实现步骤如下。
步骤1:给定正整数M。
步骤2:对每一个p=1,2,…,M,通过样本数据最小化公式(3)来确定参数ɑ1,ɑ2,…,ɑp,同时计算获得各阶模型的预测误差。
步骤 3:比较步骤2 中得到的预测误差,从中选择使模型预测误差最小的阶。
本文应用计算机软件Matlab R2016a 编程计算得到预测误差,结果见表3。
表3 不同阶模型的预测误差
模型预测误差随时间序列的阶的变化情况见图1。
图1 模型预测误差的变化情况
模型预测误差开始随着阶的增加而减少,从p=6 开始预测误差比较稳定,p=7 时模型的预测误差达到最小(MSE7=0.1396),随后又略有增大趋势,根据最终预测误差最小准则选择时间序列的阶为p=7。
2.3 监测模型及验证
对应于p=7 的时间序列建立模型如下。
把样本观测值Yt,t=8,9,…,36 代入公式(4)后,计算得到预测值,t=8,9,…,36。观测值Yt,t=8,9,…,36 和预测值,t=8,9,…,36 的比较见图2。
3 监管方法
图2中“·”观测值表示某个时间段的药品实际销售数量中心化值,即广东省药品流通电子监管系统录入的实际销售量中心化值,“+”表示利用公式(4)模型预测的对应时间段销售量中心化值的预测值。对2018年8月至2020年4月每月的观测值与预测值进行对比分析,发现2018年8月至2020年4月流通市场复方丹参片销售的观测值与模型预测值的一致性非常好,证明本监测模型是可靠、有效的。从监测结果看,2018年8月至2020年4月、8~10月、12月复方丹参片销售情况正常,复方丹参片销售量与时间序列监测模型的预测值高度一致,而2020年5~7月和11月观测值与监测模型预测值存在较大偏离(见图2中纵轴“·”与“+”距离较大),说明市场复方丹参片销售量与监测模型预测存在较大偏差,提示这几个月可能存在影响复方丹参片销售的外界因素。
图2 观测值与预测值的比较
建立基于时间序列大数据分析的药品流通监测模型,实现药品流通精细化监管方法:一是通过药品流通样本数据建立时间序列监测模型公式(4);二是利用监测模型的预测值与电子监管系统的观测值进行比较,如果观测值和模型预测值基本吻合,说明市场销售正常;如果观测值与模型预测值偏离较大,说明市场销售可能存在异常,应查明引起异常的原因,如上述的2020年5~7月和11月销售情况。
监测模型的预测结果还可以用于预测市场未来需求趋势,相关管理部门可根据模型预测结果,为企业提供生产销售指导意见,并制定与市场流通情况相适应的监管措施。
4 结论及分析
药品流通数据具有较强的动态自相关性,药品流通情况会体现在销售、采购等数据上,如果市场药品流通正常,这些数据会遵循一定的变化规律,当数据违反规律时,说明有影响市场药品流通的因素出现。应用时间序列分析方法对药品流通大数据进行分析,可找到药品流通数据的变化规律,实现动态监管。基于时间序列分析建立的药品流通监测模型的监管方法是可行的、有效的,为提高药品流通监管水平提供了新思路和新技术线路。本文监测模型的预测结果可以用于预测市场未来需求趋势,药品监管部门可根据模型预测结果,为企业提供生产销售指导意见,并制定与市场流通情况相适应的监管措施。本文建立监测模型的思路及监测模型的预测能力也可以应用于其他品种。
本文通过广东省药品流通电子监管系统,获取了全省2018~2020年复方丹参片的销售数据,建立了基于时间序列分析的监测模型并提出监管的方法,验证了这种基于大数据分析监管新思路的高效性和科学性,在药品流通领域具有较好的应用前景。本文提出的药品流通监管方法是基于大数据分析的监管方法,应用时间序列分析方法建立药品流通监测模型、提出药品流通监管方法,是行之有效的精细化监管方法,同时监测模型为监管部门提供指导药品生产和流通的具体有效依据,为药品流通监管提出了新思路和新技术线路,提高监管部门监管的科学水平,为药品流通技术监管模式提供重要的参考,具有显著的经济效益和社会效益。
本文提出的监管方法未来还可以从以下几方面进行改进和推广:一是利用流通企业的药品销售数据建立模型,对企业的药品销售情况实现同步监管。二是可以通过调整监管周期来达到调整监管和指导力度的目的,为监管部门根据市场变化及时作出相应的监管措施提供了有力的依据,如以周、半个月或年等统计数据作为时间序列的样本数据建立模型,可以随时清楚掌握各监管周期内药品流通市场的动态,同时为药品生产和流通提供精准的指导,及时做出相应的监管对策,保证市场药品正常流通。三是应用本文提出的方法建立药品流通大数据计算机监管系统,实现药品流通指导和监管的自动化、智能化、实时化和精细化。