研究者发起的临床研究中电子数据采集系统的研究与实践
2022-12-29覃开舟刘如琦吕文文渠田田沈恩璐黄雪群陈召霞冯铁男
苏 毓 覃开舟 许 健 刘如琦 徐 婷 陆 阳 吕文文 渠田田 沈恩璐 黄雪群 陈召霞 冯铁男
1.复旦大学附属妇产科医院信息科,上海 200082;2.上海交通大学医学院附属新华医院信息科,上海 200092;3.上海交通大学医学院临床研究中心,上海 200025
研究者发起的临床研究(investigator-initiated trial,IIT)是指医疗卫生机构开展的,以个体或群体为研究对象,不以药品、器械注册为目的,研究疾病诊治及健康维护活动的研究[1,2]。IIT 研究基本覆盖临床诊疗中患者的各项需求,源于临床医生具体实践而非商业驱动,对推动国家诊疗水平的发展意义重大[3]。由于当前IIT 研究仍然缺乏成熟的支撑体系[4],相比于制药企业发起的注册临床试验(industry-sponsored clinical trial,IST),能够独立完成大规模、高质量IIT的研究者不多。电子数据采集(electronic data capture,EDC)系统是临床研究支撑体系的重要组成部分,其中REDCap(research electronic data capture)在国际上广泛使用,几乎是当前IIT 的首选工具,支持开展了1 万多项以IIT 为主的临床研究[5]。但随着IIT 的发展,REDCap 在功能上也需要提升。本文将基于IIT需求、REDCap 及现有主流EDC 系统,从EDC 标准、功能扩展度、维护成本等维度,对未来高效支持IIT的EDC 系统建设进行阐述,为后续面向IIT 的EDC系统建设和发展提供参考。
1 研究者发起的临床研究的现状
近年来,随着国家对IIT 的重视[6],IIT 项目数量呈现高速增长,见图1、图2。临床研究是推动国家诊疗技术发展的核心驱动力,研究成果能够为进一步规范临床诊疗提供循证证据,规范的诊疗可合理管控国家医保支出,促进国家财政健康。EDC 系统是支持临床研究的关键一环,当前除REDCap 外,还没有功能全面且能高效支持IIT 的EDC 系统。由于IIT 和IST 存在一定的差异,成熟的IST EDC 系统不完全适用于IIT[7],见表1。国内IIT 研究者主要是临床医生,可投入时间较少,因此对成熟配套的系统、支撑体系的完善需求更加强烈。随着我国IIT项目逐年增多,为保证IIT 的研究质量,国家层面也亟待建立针对IIT 项目的EDC 体系[8]。
表1 IIT 和IST 的差异点
图1 clinicaltrials.gov 近10 年注册的IIT 项目数
图2 中国临床试验注册中心官网近10 年注册的IIT 项目数
2 EDC 建设的关键要素
EDC 最基本的要求是需要匹配临床研究的生命周期,满足不同项目阶段的需求,包括但不限于①电子病例报告表(electronic case report form,eCRF)构建:生成符合临床试验方案的eCRF;②逻辑核查:在录入数据时,能够对数据进行实时自动逻辑核查,如数据值的范围、逻辑关系等,亦支持人工逻辑核查;③数据质疑和管理:能够对有疑问的数据发起质疑、对质疑进行处理和关闭,并保留质疑的痕迹;④数据保存和稽查轨迹:系统一旦保存输入的数据后,系统应对所有数据的删改保留稽查轨迹,稽查轨迹不允许从系统中被删除或修改;⑤数据存储和导出:能对录入的数据进行及时存储并支持常用数据格式的导出。以上5 点功能是EDC 数据库建设的一般要求[12]。从IIT 的特征和需求出发,总结以下5条对服务于IIT 的EDC 系统建议。
2.1 建立数据字段标准
EDC 数据库字段的标椎化是开展高质量临床研验的基础。构建符合行业标准和研究需求的EDC,首先需要按照标准建立统一的数据字段体系,实现业务和数据的一致性、完整性和准确性。统一且国际认可的数据字段标准、编码、字典、数据格式,可更好地提升数据采集、质控、整合、计算等步骤的效率,提升临床试验质量。临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)标准是国际及国内普遍认可并广泛使用的标准[13-15]。开展IIT 的研究人员目前大多没有数据标准的概念[15],临床医生有各自的字段定义习惯,收集的数据变量命名和数据结构会偏离CDISC 标准,因此,建议支持IIT 的EDC 系统需要有更科学、完善的数据标准模块,使IIT 项目有规范的数据标准,且方便研究者使用。此外,相比于IST 研究,由于IIT 项目类型多、覆盖面广,涉及的变量多,已有的CDISC 标准字段库很难完全覆盖研究所需字段;随着IIT 的不断发展,数据字段库也需要不断更新,所以也需要提供便利的字段标准库迭代更新模块。
2.2 灵活的权限管理设置
目前我国IIT 项目的监管和实施还存在诸多困难,如没有足够的人力对IIT 项目进行全面、系统的质量检查,人员分工和职责划分不明确。区别于IST研究,在IIT 项目中,临床研究协调员、数据管理员的角色可能均由同一人承担。IST 有全职人员,明确负责不同模块的工作,系统使用熟练。IST 是为了药品或器械的注册,对数据准确性、真实性、颗粒度的要求更高,容错率低;IIT 研究主要目的是回答科学问题,研究方案更面向科学问题的论证和解释,会涉及方案变更、方案修改,如纳入和排除标准的修改、检查报告的增加或减少等。所以IIT 要求EDC更具灵活性,如人员权限配置、研究不同阶段对变更的处置流程等。
2.3 多模态数据管理体系
数据溯源是开展临床研究的重要环节,因此EDC 在提供数据采集的基础上,还应该能够提供数据保存及备份功能。EDC 系统需支持源数据(文件、图片、音频、视频)上传、保存、分类和管理,以便在系统中完成数据的核查确认。IIT 会收集除了院内就诊数据外的其他真实世界的医疗数据,包括物联网穿戴设备、院外的随访数据等。多元数据的存储,需要设立统一的患者主索引,如患者身份ID,支撑患者就诊信息的全面整合。不同来源的数据能够以患者为维度实现归一,方便溯源,也提升数据搜索、利用的效率。
2.4 数据整合、导出和运算处理
在IIT 中,EDC 系统需要与不同系统对接,包括统计软件、数据采集软件,需要有对应的数据接口,且能够生成导出标准的临床研究格式,还需要生成能够直接导入到SAS、SPSS、R 软件等专业医学统计软件中的数据文件。系统应该支持CDISC 和临床数据获取标准及其他数据字段标准的文件整合,同时在EDC 完成数据采集后,在符合研究规范的前提下,研究者通常会进行数据的初步分析、验证,这时需要有简单易用的数据清洗和统计分析功能。清洗工具支持变量分级、变量类别转换、对变量进行新的分组和合并、变量的缺失值填补等,在统计分析功能方面,参考相关的临床研究报告标准,支持一般描述性、差异性分析等统计方法。
2.5 新功能的扩展
服务于IIT 的EDC 系统,对其数据接口和功能扩展性的要求更高,如对接物联网穿戴设备、组学数据的采集和管理、医疗信息系统的非结构化数据等。如果这部分无法实现,数据采集周期及工作量将大大增加,耗费在数据的誊写和核对上。这就需要EDC 系统有较好的扩展性,以满足研究发展和未来变化的需要。为了维护EDC 系统的正常运转和迭代,背后需要研发、运维、医学、数据管理团队的支持。研发团队需要进行技术的钻研和创新,还需与运维团队一起及时响应系统使用过程中遇到的问题;医学和数据管理团队需要支持系统背后医学术语库、数据库搭建、逻辑核查等规则的设立、维护和更新。只有这样才能让EDC 同步IIT 研究发展的需要。
3 讨论
3.1 现有EDC 系统的限制性
数据采集是临床研究中非常耗费时间和精力的环节,EDC 系统通过信息技术可在一定程度上提升数据采集的效率及准确性。目前,EDC 系统的开发和维护主要是由各类商业公司承担,如PhaseForward公司的InForm、美国MediData 的Rave 系统、Edetek、COMFORM™等,这些系统主要以服务IST 为主。传统的IIT 研究的数据采集和管理主要依靠纸质的病例报告表(case report form,CRF)来完成,效率和准确性都存在一定问题[16]。笔者对比了几家国内外公司研发的EDC 系统及REDCap,它们在支持IIT上都有着不同的差距和不足。国外较为成熟的EDC系统如Inform、Rave 等,常在跨国药企的临床试验中被使用,但因租用费用昂贵,研究者难以负担,可定制化弱,在IIT 中应用较少[17]。REDCap 作为国际上被研究者广泛使用的数据采集系统在一定程度上可满足IIT 的需要,但REDCap 是一个免费开源系统,系统维护需要研究者自己负责,所以迭代相对缓慢。研究者在系统建立项目,REDCap 的数据库管理体系没有规范的数据字段标准,导致后续数据的汇集和共享非常困难,数据的运用效率低。REDCap较多支持中小型研究项目,随着IIT 需求变大,在支持多中心、复杂研究上仍显乏力。因此如何打造符合IIT 的EDC 系统在国内还处于初期发展阶段。
3.2 创新和实践
近年来,随着国内医疗信息技术的发展和人工智能技术的崛起,市场已经有关于IIT EDC 产品的探索,支持研究者完成高质量的临床研究。构建一套良好的支持IIT 的EDC 系统,除需要参考临床试验方案规范指南[18],有国际数据标准作为支撑,还需要考虑功能的可扩展性,满足IIT 的创新性。
上海交通大学医学院临床研究中心参照临床研究相关的法规和政策,在原有EDC 系统基础上,设计建设了服务IIT的新型EDC平台,进一步扩充EDC系统对IIT 的支撑范围和深度。平台的建设包含项目全流程管理、临床试验质量管理、临床数据采集、物联网数据采集、医学影像工具、分布式语义检索等6 大模块。
项目全流程管理和临床试验质量管理模块支持IIT 项目的全流程管理,自带数据字典标准,可对受试者病历数据进行自动化清洗和采集,补充相应的专病数据库和受试者CRF 表单自动填充。项目的质量控制管理体现在从过程监管到数据稽查,确保临床研究的质量。支持多个科研项目的同时执行与状态查看等,帮助研究者随时知晓在库项目的进程。IIT中涉及的方案变更和CRF 修改亦可通过系统进行修改、版本发布、版本维护,灵活应对。
临床数据采集模块提供异质异构临床数据的采集能力,包括检验、诊断等结构化数据和检查结论、病史等文本数据及医学影像文件,通过标准接口实现数据在平台的汇集和存储,采用国家商用密码的对称加密算法进行加密传输以保障数据安全。通过自然语言处理技术、数据仓库技术等,能够将采集的异质数据进行结构化、标准化,治理后的数据能根据EDC 表单结构进行自动回填且符合标准。平台运用患者主索引技术将各个系统的患者编号进行统一,不同系统具备相同身份特征的受试者或患者数据都会进行主索引合并,实现同一患者在各业务系统的数据打通。通过这种模式的数据采集可最大限度提升数据的完整度和利用率。
物联网数据采集模块主要用于可穿戴设备的管理及数据采集,如心率、运动量、睡眠时间、血压等健康信息,采集的各类体征数据将经过数据加密后遵循统一格式进行存储、传输,集成治理后自动填充到EDC 系统的eCRF,本模块内嵌相关的设备对接标准,符合标准的设备能够和EDC 系统无缝对接,满足IIT 中对此类数据采集的需要。
医学影像工具模块可对接临床数据采集系统,获取影像数据,基于pytorch(pytorch 是一个开源的Python 机器学习库)集成检测、分割、降低假阳性、分类等多个模型的机器学习级联网络。在应用层面上,能实现影像图片的图层分割、自动标注、自动分类、脱敏,自动标注的数据可进行人工审核,亦支持手动标注,极大提升科研效率。平台可对任意来源的影像数据进行同一标准的解析和存储,支持多格式的导出,对后续数据调取和再应用提供便利。自动标注的人工智能模型随着数据的积累自身也在不断迭代而更加精准。
分布式语义检索模块对接以上5 个模块,创新性地集成智能随访工具,可通过微信公众号自动推送表单的方式进行院外随访、数据采集与分析。运用医学知识图谱、自然语言处理技术等技术,将汇集的数据治理后存储在平台的数据湖中,既往的前瞻性项目数据亦可作为数据资产沉淀,在该平台实现数据的汇集、深度挖掘和运用。
综上,本平台结合IIT 的实际需求,通过开放的架构实现功能的扩展,集成影像工具、物联网设备、智能随访等,遵循数据标准化原则,扩大数据采集维度。平台融合人工智能技术,实现复杂维度的数据采集整合,形成标准化可复用的数据资产,全面支持随机对照研究、回顾性研究和前瞻性研究,提高IIT 的效率。