医疗大数据与上市后临床研究的关系
2019-06-06弓孟春
李 洪 徐 华 洪 娜 弓孟春*
产品周期原则对于创新药品的研发及生产是一个非常重要且复杂的指导原则。药品的产品周期包括初期的基础研究,如生化、药理、动物实验等,上市前在人体进行的临床研究(1~3 期),以及上市后的各类活动。整个过程一般会延续10年或更长时间,所涉及的药品研发费用,包括研发失败产品的费用,平均为26 亿美元左右(约182 亿人民币)[1]。因此,将创新药品的产品周期原则落实成为每个时期具体的计划和工作内容,对药品的整体研发、是否成功上市,以及上市后药品的后继发展具有重要意义。
药品产品周期的最后一部分是药品上市后临床研究(第4 期),这个时期的主要工作内容包括探讨药品上市后在真实诊疗环境中的安全性、临床疗效,以及对药品市场准入的准备。在这期间,进行上市后的临床研究是其必要和重要的手段之一[2]。由于药品研发的费用在上市后明显低于上市前,如何高效低成本地进行上市后的临床研究已成为研究热点。
与随机临床研究(randomized clinical study,RCT)不同,医疗大数据来源于真实诊疗环境,是指以各种不同形式存在的医疗数据,具有数量大(Volume)、多样性(Variety)、实时性(Velocity)、真实性(Veracity)特点[3]。虽然有各种各样的不足之处,应用医疗大数据进行研究也带来明显的优势,包括节省大量的资料收集时间(已存在的资料),具有一定的人群代表性(样本量较大而且来自真实世界环境),工作成本(相对RCT 而言)较低。
我们就以下3 个方面讨论探讨医疗大数据与上市后临床研究的关系:1)上市后临床研究的定义、分类、目的;2)医疗大数据的特点,类型,数据清洗过程及技术,优点及存在不足之处;3)利用医疗大数据进行上市后临床研究需关注的实际操作要点。
1 上市后临床研究的定义、分类和目的
上市后临床研究泛指药品(或医疗器械)在得到国家药监部门上市注册准许以后所进行的临床研究[4]。这类临床研究大体可以上分为被动和主动两种方式。被动方式也可以被解释为“有条件的上市注册准许”的前提之一。美国食品药品监督管理局(FDA)对此的定义是:“FDA 可能在申报的产品被考虑批准时要求其做上市后的研究以保障其安全性及疗效(在上市后)继续得到以呈现”[5]。主动方式则是主办方主动地主导进行上市后的临床研究,可细分为药企(或医疗器械公司)为主办方(company sponsored research)以及临床研究人员为主办方(investigator sponsored research,ISR)两种形式。
上市后的临床研究的目的可以分为:1)履行对“有条件的注册准许”的承诺;2)更好地了解药品(或医疗器械)上市后在随机临床研究环境以外(真实世界)的安全性,以及长期的疗效;3)扩大适应证;4)不断地深化其市场,执行市场营销策略和医学计划。
治疗乙型病毒性肝炎的药品恩替卡韦在美国的上市是一个典型的“有条件的注册准许”。该药由百时美施贵宝公司研发。因为其在早期研发阶段发现动物模型中的存在安全问题,在2004年得到FDA批准时要求百时美施贵宝公司在恩替卡韦上市后进行一项为期10年的国际上市后安全临床研究(REALM,080 研究)。这项研究入组了全球12 522 例慢性乙型病毒性肝炎和肝硬化受试者。尽管这项上市后临床研究经费庞大,时间跨度大,涉及多个国家患者,但作为对有条件的注册的承诺,该公司还是进行并完成了这项研究。这是国际上样本量最大、随访时间最长的一项前瞻性、随机、开放标签的观 察性研究,也是自核苷(酸)类似物抗病毒药物发现以来最为重要的研究之一。该研究的目的是观察及比较不同核苷(酸)类似物治疗的长期结局。研究的主要终点是临床终点事件(Clinical Outcome Events,COEs)发生率包括:1)恶性肿瘤;2)HBV感染相关肝脏疾病进展;3)全因死亡。
尽管药企(或医疗器械公司)或临床研究人员可以同为主办方进行主动的上市后临床研究,探索人群中用药安全及疗效,由药企(或医疗器械公司)作为主办方的临床试验多为适应证内,而由临床研究人员发起作为主办方的上市后临床研究则有在超适应证的领域开展。
对企业而言,根据其产品的性质进行上市后临床研究不但在产品的后期可以继续探索相关医学科学问题,而且,这也是一个把有关的临床专家组织起来的行之有效的方式。经验表明,由企业负责经费并组织上市后临床研究的做法,让参与的研究者能对未满足的医疗需求进行深入的探讨是一个对多方有利的做法。这种做法的研究是上市后临床研究的主体。
大部分上市后临床研究为前瞻性研究,虽然不受类似上市注册临床研究的严格监管,但其执行层面上与随机对照试验(RCT)非常相似,包括患者的招募、治疗、随访,分析结果,以及发表研究结果等各阶段的工作内容。因此这一类前瞻性的上市后临床研究通常具有费用高、时间长、流程复杂、总体效率有待提高等RCT 常见特点。
2 医疗大数据的类型,特点,数据清洗过程及技术,优点及存在不足之处
在本研究中,医疗大数据特指已存在的医疗数据库,多类型的健康信息系统(HIS,EMR,LIS,PACS等)已成为基于真实世界数据的观察性临床研究的重要来源。这些数据库不但可以来自多个不同的源处,也可以根据研究需求,例如研究的问题及设计,应用于不同场合中[6]。应用医疗大数据的其中一个特点是前期阶段需要投入较高的数据清洗和整理的成本。即使在信息化技术比较发达的阶段,用于数据清洗和整理的成本仍相当可观。图1表达了从来自医院原始数据到数据可以用于分析阶段的一个简要的数据处理流程。
从图1可以看到,经过大量数据处理工作,来自医院的数据才可以用于分析和研究。这个任务是需要一支多学科的技术团队完成的,包括医学、药学、计算机工程、软件开发、统计等。这些跨学科的合作也促进了医学信息学(medical informatics)近年来的快速发展。除来自HIS、LIS、PACS 中的结构化数据,医院的医疗数据通常包括如来自EMR的病例内容等非结构化信息,这类文本型非结构化数据的处理的手段及技术比较复杂,包括自然语言处理(nature language processing,NLP)以及一些专门开发的从文本中提取信息的算法。此外,来自医院信息系统的数据和经过NLP 处理后的结构化数据中,大量的医学术语尚未标准化,当前国际和国内已发布和认可了多种医学术语集用来规范化这些非标准的医学术语,例如世界卫生组织(WHO)的国际疾病分类(ICD-10 或ICD-11)用来标准化表示临床诊断术语[7],ICD-9-CM/PCS 用来标准化诊断或手术术语[8],标准化中文临床药物编码NCCD 用来表示药品相关术语,LOINC 用来表示实验室检查相关的术语[9]。SNOMED CT 则支持更加丰富的语义表示能力,涵盖大多数方面的临床信息,如疾病、操作、微生物、药物等,经过大量的术语标准化,形成便于计算机处理的医学术语集,创造了中文临床数据大规模研究分析的基础[10]。这些技术的应用极大地提高了数据处理的速度和准确性,有利于提升数据库质量。
图1 医疗大数据处理流程——以医院数据库为例
相比传统的临床研究数据获取方式,医疗大数据的数据获取具有自动化、周期短、人工成本低、更新快速等优势,其对于医疗大数据应用在上市后临床研究以提高其效率是有非常大的吸引力。例如,患者按计划入组是进行临床研究工作过程中的一个非常关键的工作。能否利用医疗大数据找到某些符合要求的医院和病患以提高病人入组的速度?由于 医疗大数据的真实性,医疗大数据也当然带有真实世界资料的最大痕迹,例如原始数据(或信息)中存不同程度缺失(data missing)的情况,医护人员录入信息时偶然可能导致的错误录入,数据预处理过程中产生的数据误差,算法的局限性导致的一定程度的NLP 识别或信息抽取误差,以及数据编码过程中产生的编码误差等。尽管如此,大数据从规模上可以抵消一部分局限性带来的分析偏差,相应的数据质检技术和数据缺失值和异常值处理方法从很大程度上减少了医疗大数据本身局限性对分析带来的影响。
3 利用医疗大数据做上市后临床研究需要关注的要点
如何将医疗大数据应用于上市后临床研究中在很大的程度上还取决于药监机构的主导方向,例如FDA 或中国国家药品监督管理局(NMPA)的支持与否。虽然药监部门利用真实世界医疗数据做药品安全的监查的工作由来已久,但是利用真实世界的数据批准新药(或批准已上市的药品新的适应症)仍处于一个非常初级的阶段。2019年3月,美国FDA 批准了哌柏西利(Ibrance)补充新适应证,使此药可以联合一种芳香酶抑制剂或氟维司群用于治疗男性HR+、HER2-晚期或转移性乳腺癌。美国FDA 此次批准主要基于美国电子健康记录数据,以及IQVIA 保险数据库、肿瘤大数据公司Flatiron的乳腺癌数据库、辉瑞全球安全性数据库收录的Ibrance 上市后在真实世界肿的男性患者中的用药数据。这个批准有多个重要的因素促成:1)患男性乳腺癌的病人数量非常的少。预计2019年发生男性乳腺癌的数量仅为女性乳腺癌病人数的百分之一不到,属(美国)罕见病的范畴。2)若要进行常规的前瞻性临床研究将导致招募病人有很大的障碍。3)研究从多个现有的数据库交叉地检查男女乳腺癌病人对该药的反应是否一致,重点开展了用药安全性的比较。在这种情况下,美国FDA根据2016年颁发的《21 世纪治愈法案》的精神,运用真实世界数据作为其审批决策的依据,批准了该药的新的适应证。这个批准对于括大已存在的医疗大数据的应用在世界范围内是一个里程碑事件。对于将来各国药监部门使用真实世界资料批准新的适应证具有重要意义。
上述内容阐述了医疗大数据及上市后临床研究的背景和关系,即将医疗大数据应用于上市后的临床研究中,要做好多方面优劣势平衡:既要利用现存资料库的方便性,也要考虑到由于资料的缺失对研究结论带来的可能的偏移(bias);既要利用医疗大数据带有的人群和真实世界的背景,也要考虑到应用到上市后临床研究可能会遇到的伦理和病患隐私的问题。医疗大数据应用于上市后临床研究需注意以下实际操作问题。
3.1 如何看待现有医疗大数据库
从时间点和数据内容来看,数据库建设之初的设计可能与使用的实际需求存在一定偏差。在这种情况下,若单纯从项目角度去检查这个资料库的话,通常存在数据的各种质量问题。因此,当数据质量存在问题时,勿立刻否定全部数据。关键在于该资料库里是否有研究相关的信息。
3.2 患者数量与数据库里的信息完整性的关系
数量与数据库里的信息完整性这两者都同等的重要。数量在一定程度上代表了覆盖的广度,体现一定的病人(或病种)的代表性(representativeness)。信息的完整性(data completeness)则代表了数据库的质量。从严格意义来说,没有好的数据质量无法开展一项有意义的科学研究。
一般来说,医疗数据库会有各种不同类型的信息。但是,如前所说,信息缺失是不可避免的。遇到信息缺失时,先要检查项目设计及研究问题,把缺失的情况做细致的分析,要看看是哪一种机制造成缺失的情况:1)完全随机缺失(missing completely at random,MCAR);2)随机缺失(missing at random,MAR);3)非随机缺失(not missing at random,NMAR)[11]。对于各种不一样的缺失信息,现有的文献提供有不少的解决方案,包括估算缺失值的算法及人工智能(artificial intelligence,AI)学习方法。
3.3 确定研究问题
研究问题是整个研究的“灵魂”。一个好的研究问题的定义一定是具有科学意义且能够被量化的,并可通过具体的分析方法进行实现的问题。在记算力高度发达,数据获取相对容易得到的时代,许多研究者在开展项目之前,往往“忽视”了一个好的研究问题的提出[12]。因为研究问题可以决定研究的设计,所需要的关键信息,数据收集的方式,信息分析的方法,结果解读的范围;缺乏好的研究问题的研究往往会在一个“人为地寻找答案”(fishing answers)的“死胡同”里转不出来。
3.4 制订相应统计分析计划
制订相应统计分析计划(statistical analysis plan,SAP)可以使上市后临床研究的信息得到合适的分析。由于应用医疗大数据作临床研究在分析之前信息已存在,我们应该严格遵守一个原则:在SAP 正式定稿之前,无论时间多紧迫,都不应该动手分析资料。在随机临床研究过程中,有一个“资料锁定”的时间概念。只有在按规定程序开启了被“锁定”的资料,SAP 才会开始启动分析资料。在用回顾性资料库做上市后临床研究时也可以在研究计划上做好相应类似的时间点。
3.5 伦理委员会审查
对如何运用医疗大数据做上市后临床研究做好伦理委员会审查,目前在国内还处于一个初步探索的阶段[18],并没有一个国家机构的统一标准。这里包括不少“灰色”地带的问题。例如,用已有的医疗大数据做(上市后)临床研究是否要伦理委员会的审查?用什么标准做审查?如何回答免“患者知情同意书”的问题?医料数据的所有权?等等。但是,目前有一点是肯定的,即任何运用医疗大数据做研究,包括上市后临床研究,在开展项目之前都要取得相应的伦理委员会的审查和正式的批准。现在有许多高影响因子的科学杂志也对包括回顾性研究在内的研究提出了伦理委员会的审查要求。所以,应用医疗大数据做上市后临床研究时应该把研究方案递交给伦理委员会审查列入工作计划中。
3.6 解读应用医疗大数据得到的研究结果要审慎
1)和任何科学研究一样,从研究分析的结果中只能在类似的人群或工作环境中推论。2)因为用已有的资料库做研究时,有些信息的缺失的原因或机制不明确,而由于这些缺失可能会对结论造成可能的偏移。所以,对这种分析结果一定要慎重。
4 小结
做好上市后临床研究对创新药品在注册批准以后的良性继续发展具有重要意义。进行这种研究的目的很多,但关键问题是如何提高研究的效率,包括时间、费用及代表性等。本研究对应用医疗大数据提高上市后临床研究的效率持有乐观态度,认为,随着对提高应用真实世界信息的认识和加强这方面的实践,特别是药监机构对此持有正面态度,我们将会在不久的将来看到医疗大数据在上市后临床研究中的大量应用,不仅仅是药品安全监测,而且包括批准新的适应证。本文也就应用医疗大数据的六个实际操作问题做了讨论。