个体化解剖匹配骨植入假体的上市前临床评价及上市后研究要求*

2018-08-31郭晓磊卢忠刘斌

生物骨科材料与临床研究 2018年4期

郭晓磊卢忠刘斌

定制式医疗器械是实现精准医疗的必经之路，但同时也被诟病存在着粗放式和经验主义式的设计开发。相较于常规的型号规格参数设计定型的医疗器械，业界更易质疑定制式医疗器械企业对产品使用风险的管控能力。鉴于保守的统计学认识，监管部门也注意到其上市前的证据强度可能不足，而上市后研究要求又如何与有限的上市前安全有效性证据相联系、相过渡。个体化解剖匹配骨植入假体是广义定制式医疗器械的典型代表，本研究旨在结合我国首例该类产品的上市前设计开发与技术审评过程，总结出相关的技术决策要点。值得指出的是，鉴于企业商业信息保密及行文的宗旨，本文不涉及该例产品设计开发与临床评价的具体数据或信息，而是聚焦于该产品上市前注册技术审评过程中，对风险管控的审评思路和相应工作方法的科学研究和探讨，总结所获得的思想经验，提出审评决策的可改进空间。因此，本文将屏蔽涉及到该产品研发、验证和确认结果的具体细节。

1 对象与过程

该产品注册申报时的法规环境是现已废止的原国家食品药品监督管理局令第16号，当时的注册通道或生产质量体系核查，都未识别该产品"定制式设计开发"的特殊性。这也体现了法规制修订，包括技术审评认识，对市场变化的反应有滞后性。同时，作为骨植入物研究中最核心的部分，当时的实验室功能试验，也达不到现今的技术审评认知水平。首次补充资料要求中，并未涉及到植入假体的力学性能补充测试（见表1），问题的核心直指临床试验部分。与之后的发补问题相比较可知，随着时间的推移，技术审评的认知进一步地精细化和专业化了。

表1，专家咨询会前完善资料所发补问题的涉及面

当时的技术审评，在专家咨询会之前预先发补一次，以完善资料质量和保障专家咨询会的效率和专家讨论的深度，而现行的审评过程中为保证“一次发补”的流程，是将企业申报资料直接咨询专家。这从一个侧面反映了“一次发补”的规定与“掘进式”的科学沟通之间存在“时效性”矛盾。

但当时，专家咨询会对于该产品的独特风险源设计不定型的关注显得不够充分（总占比26%，见表2），仍聚焦于对力学与有限元分析（总占比18.8%）、加工工艺（总占比18.8%）和临床试验数据的常规处理和解释（总占比25%）。专家意见对随后的正式发补影响较大，所以正式发补单中也未针对“定制式设计”增加较表2更多的设计验证或确认的要求。医疗器械监管存在过一种过度依赖临床试验的现象，企业在补充资料过程中也额外补充了相关病例在临床试验结束后的、更长期的随访信息，尽管这些随访信息仅属于不甚规范的病例系列观察性研究。

表2，专家咨询会中与“定制设计”相关联的专家意见（总占比26%）

但是，长期观察或随访，并不能弥补“自身前后对照”的非随机临床研究所固有的缺陷[1]。反而，在分析回顾性的长期随访数据时，必须面对更多的非随机现象。而正如所有的时间序列数据一样，非预先计划的长期随访，最终会出现较多的脱落（尽管该产品试验组病例均有2～7年不等的长期随访数据）。换言之，长期随访数据的目的与对数据质量的要求应在试验方案中预先确定，而非在补充资料过程中进行事后的回顾性研究。无计划的长期随访数据不能充分“确认”产品临床结局安全性或有效性的程度，因为未进行对某个预定假设的检验。这是该临床试验设计本身的缺限，而审评员也无法根据此低质量的临床数据就判定，该产品的“设计缺陷”造成了临床结局的某种不确定性。因此，尽管企业的临床研究数据强烈提示该产品临床显著性"可能"是明显的，但其循证证据级别和统计学强度是较低的（原始研究预设过某联合指标的性能表现值作为目标值，但主要评价指标量表缺乏相关的客观历史数据做支撑，仅仅来源于研究者的医疗经验），事后的统计技术也并不能弥补该单组病例系列研究的统计学缺陷，这就造成了审评决策的困境。

结合“长期随访数据”，审评员认识到，该产品“定制化”的设计特点从根本上影响了临床试验本身的设计难度，设计不定型才是风险源头。该产品的定制化过程，包含了紧密而充分的医工患交互，使得临床确认环节与设计开发环节几乎成为了连续不可分的整体。结合现行的医疗器械监督管理条例中“临床评价”的理念，审评员不再机械地强调临床试验报告的格式化或试验数据在形式上的“理想化”，而是开始重新审视和思考临床研究在设计开发中所发挥的“确认”作用，以区别于由临床医师重度参与的设计开发“验证”。

从该产品的“设计开发”入手，审评员要求企业的研发人员将该产品按照解剖区段进行细分，同时大幅度细化产品设计规范，并结合相应的有限元分析及动静态力学测试结果，审视了各区段产品所"可能"经受的应力风险（见表3）。

表3，对产品设计规范和型号规格范围提出的细化要求

通过型号规格范围的划分、设计规范的细化及生物力学分析，审评员认识到，该产品应力风险边界的影响因素，是骨缺损边界的匹配和软组织附着点的“变异度”，所以“定制化”过程中最重要的设计开发人员是临床医师，而并非企业内部的研发工程师。在假定医工患交互过程培训到位的情况下，医师根据手术切除范围与软组织固位的需要所设计出的假体的“变异度”，就成为了判定医工交互过程规范化、识别医师设计风险的关键验证内容。

基于从临床数据中剥离出的“设计验证”紧密相关的部分，审评员要求企业与临床医师参考临床试验交叉设计中“交叉干预”的理念，由试验机构的临床医师相互进行了机构间的盲态交叉设计复验，并与既有植入假体的设计参数进行统计对比，验证了细化后的产品设计规范，是否使医工交互过程与医生手术及假体设计呈现稳定性和重现性。交叉设计复验的结果表明，产品设计规范成为了注册产品标准的主体部分，且其细化程度使得不同医师针对同一病患所设计出的参数差异局限于毫米级的个位数，主要体现在软组织附着部位和软组织固位孔的几何参数上。较之于用于封闭死腔的粘膜残端固位孔，影响假体应力分布的肌肉及肌腱附着点的差异是较小的。研发人员也进行了力学分析，确保在相同的有限元分析模型中，应力集中点的分布没有突破“最差应力情况”所涵盖的风险边界范围，没有出现应力集中度更高或应力集中于更薄弱区域的情况。

从真正的临床“确认”环节来看，假体几何参数及软组织固位的“变异度”在传统的钉板内固定治疗中也是同样存在的。为了形成更客观的对照组进行数据对比，尽量减弱单组自身前后对照研究的安慰剂效应等偏倚影响，尤其是针对无法随机化的安全性数据，原始研究设定的目标值依据薄弱的情况，审评员要求临床研究者收集了试验机构的传统内固定病例进行历史同期对照（见表4），以帮助做出上市前的审评决策。

表4，对历史对照研究提出的要求

与重建接骨板的历史对照结果表明，由研究者结合临床文献所设定的下颌骨整体计分量表显示出该产品的高得分趋势（计算95%可信区间下限并对比对照组），尤其是安全性数据集的对比（不良事件与并发症）。从受益/风险比的方面考虑，尽管由于试验设计质量的原因，无法充分从统计学上验证某种预先设定的假设，但仅从不良事件发生率的明显下降，就足以将产品推向上市。临床对照研究的研究质量评分一般较无合理对照的单组研究更高，有Meta回归对研究属性与相对风险估计值做过研究，表明在效应值与研究质量之间没有必然的相关性[2]。同时，有关随机性的系统研究表明，比起小样本、设计差且入选标准较窄的RCT研究，设计良好的非随机研究并无明显劣势[3]。鉴于这些认知和该产品的既有临床数据，审评员认为该产品上市后对患者的受益将很有可能较为显著，尤其在不良事件和并发症发生率方面会表现得更低。但考虑到如下原因，该产品应附带一定的上市后研究的条件：

（1）该产品长期有效性的统计学概率尚无定论，无论是对I类错误还是把握度方面的估计。

（2）该产品设计定性定型但不定规格，生产质量控制的各项标准差尚不能做出统计学定论。

（3）在人体正常的下颌骨及周围软组织的解剖范围内，该产品必然在累积使用的过程中沉淀出普适性较强的一系列梯度设置的规格尺寸，且批量化标准生产能最大程度优化对器械应用残余风险的控制。

（4）非定型的产品，在术中植入人体的过程中，手术细节的差异将更大，医师的学习曲线达到稳态的耗时将更长，这将在很大程度上影响医工交互验证结果的统计学强度。

2 结果

在分析该产品设计开发规范、设计开发的输入、输出、验证与确认结果后，审评员认为该产品使相应的医疗不良事件与并发症发生率有明显下降，可以判定安全性的确立；而有效性则通过历史同期对照的研究后，观察到了阶段性的优效趋势，但限于临床研究所能达到的设计质量，尚无法从统计学上检验“优效性”假设的最终确立。从临床显著性来考虑，该产品可能涉及到了“临床价值的重大改进”和“治疗尚无有效治疗手段而危及生命的疾病”的范畴。按照两办意见中相关内容的主导方向，审评员根据产品上市前设计开发确认所提供的“先验信息”，提出了产品上市后继续研究的重点要求，直至临床有效性数据的统计学显著性确立。同时，紧密联系企业并进行沟通，确保其上市后研究方案中能具体体现这些要求。

表5，附带的上市后研究条件

其中，安全性的监控是始终都需要进行的，因为此监控本就是良好质量体系的重要部分，而该产品本身的设计开发有不定型的部分，故而更需要有计划地进行不良事件与并发症的主动收集和汇总。在设定数据统计区组时，上市后“后验分布”数据的汇总分析节点，应与上市前临床试验中产生的先验信息群组大小相对应，力求按照一定区段捕捉数据的变异性，观察特定大小区组内变异性与区组间变异性，在复验优效性趋势时细分显著性水平与把握度水平。尽管，这种区组数据汇总统计的方式并不符合区组随机化或整群随机化等随机化的操作，但可能是纵向比较群组间与群组内变异度的一种趋势分析。

3 讨论

条件式审批本质上来源于含有多个期中分析的多阶段临床试验设计，适合于运用动态适应性设计以做出决策。“审批”决策发生于某个期中分析做出统计学上对后验分布的假设之上，注册证所附带的条件也基于上市前阶段性临床研究对先验信息的确认之上，是为了更好地完成上市后的阶段性临床研究。本文主要讨论在该产品审评中发现的，对运用条件式审批技术决策方法的启示。

定制式产品设计开发的变异性很适于运用条件式审批的决策思路，以动态追踪产品的风险/受益比[4]。该产品在先行先试此种决策模式的过程中，没有在多年前的上市前的前瞻性临床试验伊始就统一设定多阶段的研究，没有预先设立期中分析计划，使得上市前决策时的统计学“确定性”受到极大挑战。审评部门只能用回顾性的对照数据测算出阶段性的显著性水平及把握度，并总结一定的组内变异度，以备在设立的上市后多阶段研究数据汇总时进行迭代统计。

条件式审批与器械的设计开发阶段中的“可行性”临床试验密切相关，包括早期可行性试验，这些临床试验未必是小样本的，但以小样本居多。比起样本量设定，随机化设计是这些临床试验的更加重要的问题，直接影响着变异度估计的信度。随机化的程度与方法会影响着不同方面的偏倚，该产品的上市后研究在此方面需要有更大的改进与细化[5]。

在相对较长期的审评过程中，该产品难能可贵地、自发地进行了持续几年的病患长期随访。这些长期数据，最适合上市后研究来提供，因为其注定会出现“非随机”的特征[6]。尽管，该产品的治疗对象并不完全与当前“条件式审批”所研究的方向一致，即并非完全是肿瘤等危及生命的疾病或病情，但其表现出的安全性与有效性“趋势”的不可替代性，促成了其带条件上市的结局。此种更具有普适性的、针对“有重大临床价值潜力”的条件式批准，从本质上讲是等效性界值较大的优效性试验。

条件式审批的完善，有赖于在至少如下四点方面的提高：①上市后审评的延迟退出与申报前审评的提前介入；②研制体系（尤其GLP）核查的专业化细分，由专注于设计开发环节的审评力量主导，对定制化产品应延伸核查到医院与医生，因为他们是设计与开发的重要组成；③高阶统计与高阶临床设计者密切贯穿临床研究全过程，以患者数据真实性为主导，而非缺乏严谨的横断面研究的医师需求；④定制的边界使得边界内医师的手术及康复护理学习曲线能达到一定稳态。鉴于以上四点尚不成熟，该产品暂时只被允许在设计开发已得到一定程度验证与确认的医疗机构环境中使用，以继续进行临床证据的强化。新医疗机构的扩增将与既有临床数据进行对照，以促进标准化的常规批量化产品的沉淀，促进国产医疗器械原创研发实现换道超车。同时，应始终保留定制式产品的“定制空间”，以长期地、循环地加速个体化定制到批量化标准产品的研发。