大数据视角下国家药品抽验数据共享平台建设的思路
2015-10-25朱嘉亮冯磊郝擎李哲媛成双红
朱嘉亮,冯磊,郝擎,李哲媛,成双红
(1.中国食品药品检定研究院,北京100050;2.云南省食品药品检验所,云南昆明650011)
大数据视角下国家药品抽验数据共享平台建设的思路
朱嘉亮1,冯磊1,郝擎1,李哲媛2,成双红1
(1.中国食品药品检定研究院,北京100050;2.云南省食品药品检验所,云南昆明650011)
目的探讨我国药品抽验数据共享平台建设的思路,为平台建设提供参考。方法从规划设计、数据清洗、数据挖掘等方面分析平台建设的目的、作用及存在的问题,进一步提出新的发展思路和方向。结果与结论平台的建设是一项系统工程,为促进大数据在药品监管中的有效应用,应充分发挥大数据在实时监控、统一调度、决策辅助等方面的作用。
大数据;药品抽验;数据共享平台
21世纪是一个“数据为王”的时代,随着各种新型信息发布方式的不断涌现,数据结构呈指数级向多元化、复杂化方向发展,大数据作为继云计算、物联网之后世界范围内又一次颠覆性的信息技术革命[1],可在获得大量碎片化信息的基础上挖掘分析,获得新的认知,作出前瞻性的数据判断[2]。大数据已渗透到各行各业,药品监管系统也不例外。Hal Varian[3]指出,数据是广泛可用的,缺乏的是从中提取出知识的能力。大数据作为信息技术的集中反映,其规模效应正在给数据存储、管理及分析带来极大挑战,知识管理方式的变革正在酝酿和发生。在大数据时代,数据已逐渐成为一种资产,如何有效从“数据海洋”中精准分析、挖掘提取信息正快速成为未来药品监管工作战略性发展的重点和方向。
1 大数据视角下的平台建设
1.1背景
国家药品计划抽验(以下简称国抽)作为上市药品质量监管的重要技术手段之一,能及时反映上市后药品在生产、经营、使用过程中的质量状况。实践证明,国抽工作对于提高药品质量,净化药品市场,打击制售假劣药品不法行为,保证人民用药安全有效,起到了明显的促进作用[4]。
国抽工作自2008年启动至今,国家药品抽验管理信息系统(以下简称“国抽系统”)已上线运行7年,功能在于对药品抽验数据进行录入和统计,实现药品抽验从抽样到报告的全过程管理,有效地保障了国抽工作的正常、有序开展。为保证当年国抽项目实施的顺畅及数据的安全,一般将上一年度收集的抽验数据以备份形式另行存放,系统的性质决定其无法对数据进行进一步分析,制约了国抽数据的再利用。
为了解决以上问题,中国食品药品检定研究院于2011年底成立课题组,启动了国家药品抽验数据共享平台(以下简称平台)项目建设,于2013年开始着手建立平台,并对国家食品药品监督管理总局、各省级食品药品监督管理部门、各省市级以上食品药品检验机构开放共享,支持管理型人员和专业技术人员对国抽数据进行深入挖掘和利用,帮助各级领导和业务人员实时对药品抽验相关工作进行监管和分析研究[5]。
1.2必要性和可行性分析
国抽系统运行7年以来,积累了大量宝贵的业务数据,累计抽验品种1 040个,抽验样品166 705批次,积累了几十万条药品抽验数据和1000多份药品质量分析报告,见表1。这些海量的检验数据对各级药品监督执法和科学决策具有重要的参考价值,但隐藏在数据背后的价值却无法有效地挖掘出来,分析原因如下。
表1 2008年至2014年国家药品评价抽验结果
“信息孤岛”现象影响资源共享:由于整个药监系统信息化建设缺乏统一规划和目标,未设立统一标准,各级药检机构系统独立运行,造成各单位之间沟通渠道不畅,无法实现业务数据的纵向交换和横向共享[6]。数据采集的渠道不同、标准各异,重复冗余,使各单位间的各种系统难以兼容,信息资源难以共享,形成了“信息孤岛”。监管人员需进入不同信息平台,重复录入不同形式的基层监管数据,不仅加重了基层监管人员的工作量,浪费了大量的财力和时间,而且信息资源还不能充分发挥应有的作用;药品信息完全处于开放、孤立、失控的状态,不利于监管效能的提升。目前,由于权限设置,只有承检单位的少数参与人员可看到本单位承检的产品数据。如何深度挖掘药品评价抽验数据的价值,需要一个可供广大药品监管与检验人员共享的信息平台。
数据质量存在问题:数据收集和录入的准确性不高,数据标准前后不一致。从2008年起,随着药品抽验业务的逐步深入和规范化,国抽系统的功能、架构、数据标准都在逐步完善,造成了前期数据和后期数据的标准存在较大差异,导致国抽系统的原始数据质量参差不齐,数据质量整体较差。监管人员在手工录入抽验数据时,也可能存在遗漏或错误的情况。监管部门收集到的数据不准确,造成统计分析的结果失真,不利于信息化建设的发展。
数据利用水平不够高:表现在数据标准化工作滞后,导致信息共享度低,无法有效汇总分析,不能为药品监管提供足够的信息技术支撑。针对这种情况,需对现有业务系统数据进行清洗和梳理,然后进行分析和统计,最终提高决策的合理性和有效性。另外,国抽工作7年来已收集了1 000多份药品质量分析报告,包含了各药检所对药品质量、药品现行标准的分析、判断和合理化建议,但对这些有着很高参考价值的资料,却无法进行快速检索,也不能对报告内的相关内容和数据进行快速定位和再次利用。
数据粒度较粗而无法进行精细化的业务统计和分析:国抽系统目前收集的数据包括抽样单数据和各检验机构的检验报告结论及检验项目结果数据,但检验项目结果数据粒度较粗,很多单项检验结果的值都是以文本方式上报,如符合规定和不符合规定。对于这种文本数据,信息系统无法进行更进一步地分析、统计和挖掘,无法更准确地掌握药品质量的稳定性,提升上市药品的监管效能。
2 平台建设的原则和思路
2.1原则
按照“整体规划、统一标准、分步实施、逐步完善”的原则,从药品抽验监管需要出发,统一数据定义与编码,统一数据交换标准,逐步建立健全平台,实现对国抽数据的深度利用和信息资源共享,辅助行政监管部门进行合理、有效地决策。
适用性原则:按照经济实用、成熟先进、持续稳定的要求,确定信息系统建设的规模和软硬件档次,要求系统具有很强的环境适应性、较好的开放性、结构的可变性和可扩展性;功能模块间可互相通信,交换数据,实现数据集成、共享的要求。
整体性原则:系统建设要统一数据标准(指标体系和数据结构标准)、安全标准,并形成统一的数据共享平台,同时兼顾特殊性,形成纵向和横向的一体化管理。
安全可靠性原则:从系统的角度看,信息安全可分为存储安全、逻辑安全、访问安全和传输安全,只有四者有机结合才能保证系统具有较高的安全性。故采用中国食品药品检定研究院的信息安全平台,结合系统自身的安全体系,充分保证系统、网络和数据的安全。
可扩展性原则:为保持业务流程的连续性和系统信息的一致性,平台的设计应具有较大的可升级空间和可扩展性,立足于对现有国抽数据的挖掘与共享,同时为将来省抽数据的利用留余地。
分步实施原则:信息化建设是一个长期、持续的过程,平台建设既要考虑短期内的投资成效,又要保护前期投资持续发展。系统的设计采用先进、合理的架构,使其能稳定运行、安全可靠、快速访问。
2.2关键技术
2.2.1数据清洗
在大数据环境下,大数据的维度包含了数量、多样性、速度、精确性等,在如此大维度中不可避免地存在冗余、错误、粗糙的数据,如何将这些良莠不齐的非清洁数据有效转化成高质量的干净数据,需要数据清洗。数据的质量体现出数据的价值,数据清洗是数据质量研究的起点,其本质是发现并解决问题的过程,最终目的是提高数据的质量[7]。数据清洗主要是将不正确、不完整和不一致的数据进行过滤和规范,从而提高决策系统的准确性;并根据待分析数据的特点对规范后的数据进行归约,从而提高决策系统的效率。
2.2.2数据整合
平台利用Pipeline Pilot完成了决策系统数据清洗、权限设置和检索系统的开发与实现,整合信息,定制流程。通过Pipeline Pilot,用户不仅能整合和挖掘杂乱无章的海量数据,自动化数据的处理流程,还可实现研究成果快速分析与共享,提升大范围的协作能力。Pipeline Pilot既支持简单的数据格式(文本和数字),又支持复杂的科学数据类型(图像、化学结构和生物序列),是国际通用的流程化开发平台,可无缝整合大多数通用软件和第三方软件平台,如Spotfire,Oracle,LIMS等。Pipeline Pilot作为专业的数据流控制平台,可将数据采集、规范、归约和存储集成一个完整的流程,整个流程可定期自动化执行。Pipeline Pilot实现了数据源、数据清洗、数据分析决策的无缝对接及整个流程的自动化操作(见图1)。
图1 平台管理型数据模块工作流程图
2.2.3数据挖掘
数据挖掘是一种展望和预测性的信息分析技术,可挖掘出数据间的潜在模式,并形成相关数据新的集合,以促进信息的传递和重新利用[8]。平台利用Spotfire完成决策系统数据的查询、统计、分析、展现等功能的开发和实现。Spotfire是一款用于科学数据分析的可视化交互平台,是最新一代的科学商业智能软件,能对多种类型数据如药物研发、临床、化学、管理、销售等数据进行快速分析和处理,可满足不同性质的管理和研发流程对大量数据的分析和决策的要求。其最大的特点是可通过多种动态的图形和筛选条件,对大量的数据进行快速分析和处理,并做出报告或与他人分享结果,作出决策。支持多种客户端界面和Web界面的访问和显示,并可连接包括Oracle在内的多种数据库。
Spotfire能快速便捷地生成多种形式丰富的分析图形,具有灵活地向下钻取的功能。对于生成的每一个图形,用户可对感兴趣部分根据需要进行多重向下钻取,钻取所得数据可通过各种表格和图形展现,从而更好地帮助用户深层次和定制化地挖掘所需内容,满足日常和研究工作中的各种要求。
Spotfire能完美再现分析人员的思路,提供各种导航功能和控件。用户可根据自己的分析思路来制作向导文件,把分析过程中的各个步骤和中间结果通过丰富的图表逐步呈现,带领使用者逐步完成整个分析过程,得到分析结果。
Spotfire对突发事件有良好的快速处理能力。对突发事件的处理,重点是如何快速从大量相关数据中找到问题的关键。传统工具需要分析人员将分析思路提交给统计或IT人员来实现,其时效性远远不能满足突发事件的要求。Spotfire使分析人员可独立进行各种分析,并通过丰富的图表有效提升分析效率和展现分析结果,在尽可能短的时间里发现问题的关键点和确定处理问题的切入点。
3 平台架构及功能
共享平台系统的开发建设采用国际领先的智能化数据处理工具,对国抽系统产生的海量数据按照数据规范进行清洗、整合后,根据业务需求对数据进行二次计算,并以可视化交互方式进行展示,通过简单、灵活、可扩展的操作方式获取分析统计结果,帮助各级领导和业务人员实时对药品抽验相关工作进行监管和分析。共享平台包括常规的系统首页和3个核心功能模块,分别为抽验信息查询、检验数据分析和评价报告检索,详见图2。
图2 平台架构及用户角色图
抽验信息查询模块:用于药品抽验信息和检验结果信息的分析。此模块为用户提供不同抽样地域、抽验品种、生产单位、检验机构的数据查询功能,可通过预置的统计方式实现对历年药品抽验数据按不同分析项目进行查询、统计,并对各查询结果进行排序。系统还为用户提供自定义查询功能,通过简单的操作快捷地展示用户自己的想法,并据此作出相应的决策。
检验数据分析模块:用于对抽验品种各检验项目数据的分析对比,主要为药品检验人员提高检验精度、修正检验方法与标准、进行探索性研究等工作提供科学有效的依据。此模块底层数据是国家药品抽验承检单位在检验过程中记录的各检验项目的数据信息,提供检验情况总览、数值项目分析、生产单位对比、抽验批次分析及图谱分析5部分功能,用于对抽验品种查看其标准检验项目、涉及生产单位的分布及不符合规定批次分布情况,也可查看重点分析项目的检验结果正态分布情况和在不同检验标准下的检验结果分布情况等,通过深度分析各项目检验数据,找出数据背后隐藏的规律,协助明确品种的研究方向。今后将逐步实现试验数据分析模块中的图谱分析功能,借助软件工具对图谱数据的处理能力,将支持对药品检验的原始图谱进行叠合、比对和分析。
评价报告检索模块:提供对历年药品质量分析报告等非结构化信息的预览、检索和下载等功能,用户可在全部文档中通过药品名称、检验单位、抽样年份、预设关键字及自定义关键词等快速准确查询和定位相关信息,极大地提高了工作效率和准确率。
4 应用及展望
4.1完善数据规范标准
为保证业务数据在提取、统计、分析或检索过程中的准确性和唯一性,确保原始业务数据的质量,对已有数据需彻底清洗和规范,使之能符合数据分析的要求。此过程需要和业务部门商讨,总结出数据的规范和标准,并通过一些专业的数据处理工具对原始数据进行自动清洗。今后还需引入业务专家对清洗后的数据进行人工审核,继续找出数据中存在的问题,并给予修正,直到满足后期数据分析的要求为止。针对后续即将生成的各类数据,建议参考国抽系统的数据模板,充分听取业务检验人员及专家的建议,并结合各药检机构检验信息系统的实际情况,重新制订共享平台的数据采集标准和模板,详细规定数据所需要的字段及上报要求,阻止低质量数据进入平台。
4.2探索新数据类型的趋势分析方法
药品生产是一个系统工程,存在许多不确定因素,而目前对其中的一些因素还未完全掌握。通过对历史数据的趋势分析,用统计学技术排除随机行为后有统计学意义的趋势,可根据评估过去药品的质量状况,预测未来药品质量状况发展趋势,综合分析并找出不确定因素对药品质量的影响,包括对各因素间的相互关系和作用强弱等。只有不断探索新数据类型的趋势分析方法,促进数据分析的可视化,关注大数据新的分析技术和工具的应用等,在共享平台上嵌入多种统计分析模型,如一般线性回归模型、广义线性回归模型、时间序列分析模型、多水平分析模型、空间回归模型、时空统计模型等,才能更好地监测和提高药品质量。
4.3培养药监系统的综合性数据分析人才
大数据时代的到来对药监系统人才的技能和素质提出了新的要求,急需擅于处理庞大规模和复杂结构数据的专业人才,包括数据分析家、数据架构师、数据可视化人员和数据管理人员等,以适应深度分析数据的需要。除要具备较强的数理统计知识和技能,还要拥有一定药学、公共卫生、信息技术等专业知识,才能具备跨学科、跨领域的数据综合分析思想,驾驭大数据时代的数据挖掘与分析应用。
4.4完善信息化标准体系,打破“信息孤岛”模式
数据共享是实现信息价值最大化的重要途径之一,首先需实现全国药品检验系统的数据共享,必须打破“信息孤岛”模式,应在国家食品药品监督管理总局主导下,按照统一规划、顶层设计、统一协调、分步实施的原则合理推进。通过建立信息化标准体系来实现信息化建设的规范化、科学化、合理化,实现全国药品检验系统信息化体系整合建设,以供全国药监资源共享,消除“信息孤岛”现象,形成一个自上而下的统一平台。
5 结语
大数据是一种从海量数据中快速获取信息的能力,为提高我国药品监管的有效性提供了新的思路和切入点。平台的建设是一项技术、业务、管理紧密结合的复杂工程,我国还处在探索和试验阶段。在平台建设的设计过程中,应充分考虑平台的标准化和开放性,以及完善的配套法规制度,如平台运行保障制度、数据质量保障制度、数据安全保障制度等。
在大数据时代下,期待用“破坏性创造”来进行大数据和药品监管的大融合,进一步推动国家食品药品监管的信息化建设,为提升药品监管效能,提供科学、有效的技术支撑。
[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[2]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].[2013-04-26].http://www.economist.com/ node/15557443.
[3]许德玮,桑梓勤,刘磊.基于云计算的医疗卫生位置服务平台研究[J].医学信息学杂志,2013,34(6):8-13.
[4]朱嘉亮,姜典才,张弛,等,药品抽验模式的改进和完善——对药品质量状况分析方法的初探[J].药物分析杂志,2009,29(10):1765-1 767.
[5]周霖,殷国真,李杨,等.实验室资源管理平台综述[J].现代科学仪器,2013(1):162-164.
[6]陈锋,郑晓琼.全国省级药品检验所信息化现状调研[J].中国药事,2008,22(1):34-35.
[7]蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013(5):16-21.
[8]曹建军,刁兴春,汪挺,等.领域无关数据清洗研究综述[J].计算机科学,2010,37(5):26-28.
R954
A
1006-4931(2015)18-0001-04
朱嘉亮,女,助理研究员,研究方向为药品抽验及管理,(电话)010-67095815(电子信箱)zhujl@nifdc.org.cn;成双红,女,副主任药师,从事药品技术监督管理工作,本文通讯作者,(电话)010-67095801(电子信箱)csh1007@nifdc.org.cn。
2015-05-07)