上海市儿童罕见病登记数据库建设和阶段性数据总结
2024-02-25陈会文
李 牛 李 磊 陈会文 王 剑,4 张 浩,
1.国家儿童医学中心 上海交通大学医学院附属上海儿童医学中心遗传分子诊断科(上海 200127);2.国家儿童医学中心 上海交通大学医学院附属上海儿童医学中心临床研究管理中心(上海 200127);3.上海市儿童罕见病临床医学研究中心(上海 200127);4.上海交通大学医学院附属国际和平妇幼保健院(上海 200030)
罕见病,又称孤儿病,特指发病率极低、临床罕见的疾病。WHO 定义罕见病为患病人数占总人口0.65‰~1‰的疾病,但各个国家在罕见病认定标准上存在一定差异[1-2]。罕见病定义的不统一也导致了病种统计的差异,大多数数据库(如Orphanet和OMIM)收录的罕见病约7 000种,但最近的一项调查表明这一数字可能接近10 000种[3]。目前中国尚无罕见病官方定义,2021 年9 月,中国罕见病/孤儿病定义第3 次多学科专家研讨会发布的《中国罕见病定义研究报告2021》将其修订为“新生儿发病率<1/10000、患病率<1/10000、或患病人数<14万的疾病”。2018 年,国家卫生健康委员会等5 部门联合发布了《第一批罕见病目录》[4],共包含121 种罕见病,迈出了中国罕见病管理事业的第1 步。为进一步加强中国罕见病管理并提升其诊疗水平,在“十三五”国家重点研发计划精准医学专项“罕见病临床队列研究”项目资助下,2016 年由中国医学科学院北京协和医院负责牵头建设中国国家罕见病注册系统(national rare diseases registry system,NRDRS)[5]。截至2022 年8 月,该系统目前已登记173种/类罕见病、近7万例患者信息(https://www.nrdrs.org.cn/)。然而,NRDRS 收录病例平均诊断年龄约30岁,且仅有约1/3的患者在18岁之前被诊断[6],提示在准确反映罕见病在儿童期的疾病谱特征上还有较大的提升空间。
上海是中国首个在政府层次发布罕见病目录的城市。为进一步推动罕见病诊疗,上海于2020 年底启动建设上海市儿童罕见病临床医学研究中心,其组织架构为1 家牵头单位(上海交通大学医学院附属上海儿童医学中心)、5 家核心单位(上海交通大学医学院附属新华医院、上海交通大学附属儿童医院、上海交通大学医学院附属国际和平妇幼保健院、华东师范大学以及中国科学院)和10余家网络成员单位。该中心主要围绕儿童罕见病注册登记系统、罕见病多中心临床研究平台等展开建设与优化,旨在探索由多学科跨专业协同合作的全生命周期诊疗体系。2022 年,由上海交通大学医学院附属上海儿童医学中心牵头,参照NRDRS技术体系开发建设上海市儿童罕见病登记数据库。
本研究总结了上海市儿童罕见病登记数据库建设思路,并回顾性分析了现阶段数据库收录的6 341例患儿资料,以揭示目前在上海市就诊的儿童罕见病的疾病特征谱及人口学特征,为建设高水平研究型专病队列并推动罕见病患儿的系统管理提供基础数据支持。
1 对象与方法
1.1 研究对象
以2008 年1 月—2021 年12 月通过门诊或住院方式就诊于上海交通大学医学院附属上海儿童医学中心、且符合173种/类疾病的患儿为首批录入该系统的研究对象。NRDRS已登记的173种/类罕见病中,“太田痣”、“表皮痣”和“无色素痣”3 个病种因不符合罕见病定义未被纳入本研究,同时补充“先天性纯红细胞再生障碍性贫血”、“大理石骨病”和“假性甲状旁腺功能减退症”3个拟建设专病队列的新病种,最终确定儿童罕见病研究病种目录。
本研究已通过医院医学伦理委员会批准(No.SCMCIRB-K2021068-1)。
1.2 方法
1.2.1 上海市儿童罕见病登记数据库建设方案 上海儿童医学中心前期利用结构化数据复制集成技术(Oracle GoldenGate,OGG)从医院临床数据中心(CDR)、医院信息管理系统(HIS)、实验室信息管理系统(LIS)、电子病历系统(EMR)复制数据,构建了院级科研数据库,并通过数据仓库技术(ETL)和自然语言处理技术(NLP)实现了患儿信息变量的结构化和标准化。不同于NRDRS 各中心的手动录入填报,上海市儿童罕见病登记数据库采用自动抓取方式,即通过NLP技术主动抓取该科研数据库中指定病种的变量数据,并填充到罕见病登记数据库的病例报告表(CRF)表单中,从而完成登记数据库的数据生产(图1)。数据抓取规则为识别纳入病种的国际疾病分类编码第10版(ICD-10)和/或疾病名称,取并集。数据采集表单参照NRDRS 各病种数据集制定,兼顾自动抓取的可及性,主要包括患儿门诊号或住院号、性别、年龄、出生日期、地址、门诊或住院诊断日期、确诊疾病名称(表1)。
表1 数据采集表单
图1 上海市儿童罕见病登记数据库建设方案流程图
1.2.2 数据核查与质控 数据核对策略采用系统质控结合人工核查方式,对有重复就诊的患儿,数据库中只保留第1次就诊信息;对ICD-10编码缺失或编码错误的病种,联系病案室完成编码的审核校对;对于有多个临床书写名称的疾病,如“马凡综合征和Marfan综合征”、“黏多糖贮积症和粘多糖贮积症”,按照ICD 编码统一归类,同时加强临床培训,实现疾病诊断名称的规范统一。所有收录的数据资料均由两名从事罕见病诊疗工作五年以上的专业人员进行两轮独立审核,以最大程度保证数据的准确性。
1.3 统计学分析
应用SPSS 20.0 统计学软件进行数据处理。计数资料使用例(%)表示,单项有序列联表采用Kruskal Wallis H秩和检验。以P<0.05为差异有统计学意义。
2 结果
2.1 病种资料分析
数据库中收录2008—2021 年在本院就诊的罕见病病例共6 425 例,剔除84 例成年患者后,共有6 341例未成年患者纳入本研究,涉及病种目录中的109种疾病(表1),其余64个病种未见病例收录。例数≥20 的病种共51 个,例数≥50 的病种共30 个;有42 个病种例数<10。例数排名前10 的疾病包括朗格汉斯细胞组织细胞增生症(715例,11.3%)、家族性扩张型心肌病(498例,7.9%)、血友病(350例,5.5%)、神经纤维瘤(345例,5.4%)、重症肌无力(294例,4.6%)、特纳综合征(261例,4.1%)、黏多糖贮积症Ⅰ型(234例,3.7%)、特发性肺动脉高压(205例,3.2%)、先天性鱼鳞病(193例,3.0%)、发作性睡病(190例,3.0%),合计3 285例,占总病例数的51.8%(表2)。
表2 数据库中173种罕见病例数分布(按例数排序)
2.2 病例一般情况
本研究纳入的6 341例患儿中,门诊和住院患儿比例分别为59.4%(3 764例)和40.6%(2 577例)(图2A);男3 638例(57.4%)、女2 679例(42.2%),24例性别信息丢失(图2B),男女性别比1.36。在例数排名前20 位的疾病中,除血友病、黏多糖贮积症Ⅱ型和特纳综合征呈现特征性的性别连锁外,其余病种男女性别比为0.51~2.55(表3)。
表3 数据库中排名前20位病种性别分布
图2 罕见病6 341 例就诊方式(A)及性别分布(B)
2.3 患儿来源地分布
共有3 229 例患儿(以住院患儿为主)记录有常住地址信息,其中上海本地患儿512 例,占比15.9%;例数>100的患儿来源地还包括安徽省592例(18.3%)、江苏省516例(16.0%)、浙江省366例(11.3%)、江西省241例(7.5%)、河南省146例(4.5%)、山东省124例(3.8%)、福建省118例(3.7%),余下623 例患儿(19.3%)分布在除香港、澳门和台湾之外的其余各个省份和直辖市。
2.4 患儿确诊年龄和年份分布
6 341例未成年患儿中,29.6%(1 875/6341)可以在2 岁之前获得明确诊断,10 岁之前可被诊断的患儿比例为80.6%(5 108/6341)(图3A)。此外,患者确诊人数呈现逐年增加趋势,尤其自2015年开始呈现高速增长趋势(图3 B)。2015—2021 年的不同年份之间,不同年龄段患儿分布差异有统计学意义(H=52.29,P<0.001),确诊年龄<2岁患儿的比例呈现逐年下降趋势,从2015年的36.0%下降到2021年的24.9%;相较而言,4~10岁年龄段患儿逐年增加。见表4。
表4 2015—2021年各年龄段患儿分布[n(%)]
图3 罕见病6 341 例患儿确诊年龄以及确诊年份分布
3 讨论
本院是国内专科医院中较早开设罕见疑难病多学科联合门诊的单位之一,在儿童罕见病诊疗领域有较多的病例积累。在获批成为上海市儿童罕见病临床医学研究中心建设的牵头单位后,着手探索建设上海市儿童罕见病登记数据库。该数据库采用主动抓取院内结构化的科研数据信息方式构建,可实现数据库建设的自动化,提升效率。由医院医疗数据复制产生的科研数据库不仅可满足不同临床专病队列建设需求,同时还避免了目标数据库直接抓取CDR/HIS/LIS/EMR 系统数据而带来的潜在信息安全危害。此外,上海市儿童罕见病登记数据库在建设逻辑(病种选择与数据采集表单)上与NRDRS[5-6]保持一致,有效补充展示了中国各年龄段罕见病患者的疾病谱特征。
自2018年第一批罕见病目录发布后,石鑫淼等[7]对中国96家三甲医院1 500万住院患者数据进行了全面分析。该项研究共涉及到目录中102种疾病,合计病例54 468例次,是目前已知国内最大规模的罕见病的横断面临床调查;其研究数据调研基于病案数据的自动匹配,可最大程度减少人工输入带来的数据偏倚;但由于主要聚焦于住院患者,这可能造成病种或病例的遗漏。此外,已有报道表明约70%的罕见病在出生或儿童早期发病[8],而上述研究中14岁以下患者仅占比28.6%,提示儿童患者数据收录严重不足,进一步表明在儿童专科医院开展罕见病登记数据库建设的重要意义。
本研究分析了上海市儿童罕见病数据库阶段性建设成果,即来自本院在2008—2021 年收录的6 341 例罕见病患者,这是迄今国内最大规模的儿童罕见病病种特征分析。数据分析显示收录病例覆盖调查清单中109 种疾病,其中排名前10 位的病种主要涉及血液科、心内科、神经内科、内分泌代谢科、皮肤科和儿保科等临床科室。确诊人数自2015 年开始显著增加,这主要得益于高通量测序技术在作者所在单位的普及应用[9]。这一技术的推广,也显著增加了低龄确诊患者的比例,使得罕见病患儿在发病早期就能得到正确诊断。但与此同时,本研究发现早期诊断患者(<2 岁)比例呈逐年降低趋势,2021 年比2015 年减少了30%。这一方面可能是由于近年来基因检测技术在全国各地的普及推广,发病早、临床特征明显的患者在当地已经及时获得诊断;与此同时,表型复杂且临床诊断困难的罕见疑难病例比例相对增加,这部分患者往往有多家医院就诊经历,确诊年龄有所增加。需要指出的是,既往由于部分罕见病病种ICD 编码不规范及疾病名称书写不一致等因素,对数据库自动抓取信息的准确性和完整性带来了较多挑战。数据库建设过程中,通过对ICD 编码的审核校对以及对临床科室的培训,规范了疾病诊断名称以及疾病编码分类,全面推动了医院在罕见病诊疗标准化方面的改进。
基于可实现与NRDRS 的无缝衔接、以便于比较分析儿童和成年患者疾病谱特征的设计原则,上海市儿童罕见病数据库首批建设病种全面参考了NRDRS 收录的疾病目录及变量特征。相较于NRDRS收录病例数据[6],本研究患儿性别组成(男女比1.36)上接近NRDRS数据(男女性别比1.27,34 857/27475),但排名前10 的病种有一定差异(NRDRS:血友病、Duchenne/Becker型肌营养不良、脊髓小脑性共济失调、罕见类型肺动脉高压、常染色体显性多囊肾病、原发性肌张力障碍、垂体腺瘤、重症肌无力、Alport综合征、早发型肌营养不良),重叠的病种仅有血友病、罕见类型肺动脉高压和重症肌无力。其中例数差异较大的病种之一是特纳综合征,NRDRS 中仅有127 例(0.02%),排列第57 位;而本研究中包含261例(4.1%)。造成这一疾病谱差异的原因是多方面的,一方面NRDRS主要依赖各协作中心的数据输入,而各中心的疾病谱差异及数据输入的全面性与否可能会导致最终的统计偏倚,基于这一考虑,上海市儿童罕见病数据库采用主动抓取HIS系统信息方式建设;另一方面,本研究仅纳入单中心数据同样存在疾病谱偏倚效应,因此,下一阶段数据库建设要实现多中心数据的同步。此外,部分疾病存在发病年龄偏倚,如常染色体显性多囊肾病多在成年期被诊断,而儿童患者较少。类似地,通过与石鑫淼等[7]基于1 500 万罕见病患者数据分析结果比较可以发现,也仅有特发性肺动脉高压和朗格汉斯细胞组织细胞增生症在排名前10 的病种中有重叠。虽然罕见病的疾病谱特征在儿童期和成年期存在客观差异,但这是否是导致上述不同研究之间疾病谱差异的主要原因,还有待儿童患者数据进一步扩充及NRDRS 数据全面性进一步完善后再作分析。
本研究旨在为罕见病研究提供一种新的探索,即基于NRDRS 的数据集信息构建儿童罕见病登记数据库,自动抓取医院信息数据,更加客观全面地收集病例资料。在下一阶段的研究工作中,上海市儿童罕见病登记数据库将打破地域限制,联系上海和长三角地区主要儿童专科医院并多中心收集数据,与NRDRS 数据库协作实现中国罕见病患者从儿童期到成年期的特征概貌。
本研究存在一定的局限性,登记数据库建设内容尚不能反映罕见病儿童的临床特征全貌,包括临床救治情况以及药物可及性等数据信息。下一步的专病队列建设工作将会制作标准化的专病数据集,全面收集并统计分析患儿的临床资料,为罕见病患者的早期管理决策提供依据。