基于医院信息化构建结肠癌专病队列方法学探索
2021-12-14朱京京尹瑞华葛琛阳王小红前何国斌郑红娟凌丽仙傅健飞
朱京京 尹瑞华 葛琛阳 胡 斌 王小红 单 前何国斌 郑红娟 凌丽仙 傅健飞
1浙江大学医学院附属金华医院病案室,321000浙江 金华;2浙江大学医学院附属金华医院肿瘤内科,321000浙江 金华;3浙江大学医学院附属金华医院结直肠肛门外科,321000浙江 金华;4浙江大学医学院附属金华医院病理科,321000浙江 金华;5金华市疾病预防控制中心,321000浙江 金华;6浙江大学医学院附属金华医院信息科,321000浙江 金华;7浙江大学医学院附属金华医院统计室,321000浙江 金华
在中国,结直肠癌的发病率及死亡率仍在增加[1]。最近资料统计显示,我国2018年结直肠癌新发病例37.6万例,死亡病例19.1万例,已成为全球结直肠癌每年新发病例数和死亡病例数最多的国家[2]。
临床数据库是反映患者的基本特征、疾病特点、治疗方式以及疾病转归等多个因素的合集,是全球研究肿瘤的有效工具[3-4]。美国国立癌症研究所 “监测流行病学和结果”数据库(the surveillance,epidemiology,and end fesults,SEER)是美国国家癌症研究所在1973年建立的综合性癌症数据库,收集了患者的人口统计学信息、癌症特征、病理分期等,并统计了患者预后相关的信息情况[5]。美国国家癌症数据库(the national cancer database,NCDB)是世界上最大的癌症注册机构之一。其之所以得到迅速的发展,重要原因就是利用信息化将患者的信息整合在了一起。到2016年,NC-DB积累记录了超过3 400万例癌症患者的信息[6]。
而我国目前尚未建立一个综合的大型肿瘤数据库,通过医院信息化系统建立癌症数据库更是鲜有报道。只有华西医院在2013年将医院信息系统、检验科信息系统相结合,建立了首个基于医院科研系统的疾病数据库——“肺癌外科病例管理数据库”[7]。
目前我国医院现有的病案首页系统是按照ICD-10的诊断编码和《国际疾病分类第九版临床修订本手术与操作》(ICD-9-CM-3)的操作编码,依据疾病诊断、患者年龄、治疗方式、疾病严重程度及转归等因素,将病例进行分组[8]。浙江大学医学院附属金华医院是最早应用病案首页ICD-10编码系统对疾病进行分组的医院之一,盲法于医保体系,数据真实。对患者人口特征信息、诊断、有创的操作、手术都有记录;对于死亡病例,有死亡时间和死亡疾病编码,采用ICD-10进行死因进行分类和编码。
1 资料与方法
1.1 资料来源
从浙江大学医学院附属金华医院病案首页系统ICD-10首页编码系统数据库、病理数据库和肿瘤报卡数据库中检索出所有2013年1月至2019年12月的结肠癌病人。ICD-10首页编码系统数据库中提取字段包括人口学特征(姓名、年龄、性别、住院号、入院日期、出院日期)、主诊断疾病、ICD-10编码、治疗情况(手术、化疗)、转归情况。检索词采用 “主诊断ICD类目编码=C18”,年份采用出院日期进行限制。治疗包括手术和化疗,手术操作码不为空。化疗情况,采用主诊断ICD亚目编码=Z51.1,而全诊断疾病编码类目包含C18,进行检索。死亡情况采用转归为死亡,全诊断疾病编码类目包含C18码,进行检索。以身份证号为唯一字段,通过住院号、住院日期、年龄对身份证号进行修正,删除同一姓名伴有多个身份证的记录,建立ICD-10首页编码系统数据库。
病理库采用包含 “肠”和 “癌”进行筛选,再根据病理报告人工筛选出符合结肠癌的病人。同样采用身份证号为唯一号构建数据库,对于同一个病人存在的多次病理报告进行合并。
肿瘤报卡数据库,采用报卡单位=浙江大学医学院附属金华医院,ICD编码类目=C18进行检索。同样采用身份证号为唯一号,构建数据库。患者生存期自诊断日期起,到最后一次随访时间为止。随访终点时间为2019年12月,计算出患者的生存时间。
根据恶性肿瘤主诊断选择原则,统计C18多次编码的复发与死亡情况。对死亡病人,根据主诊断明确是否死于结肠癌,若并非死于结肠癌则明确具体死亡原因。根据全诊断包含有C18,主诊断为其他C码(C01~C76),统计第二肿瘤发生情况。
1.2 统计学方法
不同组别生存差异的比较采用Kaplan-Meier方法,采用Log-rank对组间生存差异进行检验,检验水准α双侧=0.05。所有统计均采用R 4.0.3进行分析,生存分析采用R软件的 “survminer”“survival”软件包。
2 结果
2.1 一般情况
根据入组标准共检索出C18码1 262人次,通过身份证去重,最后入组1 148例结肠癌患者,生成ICD-10首页编码系统数据库。将ICD-10首页编码系统数据库与1 060例的病理数据库取交集,合成具有988例的病理病案数据库。将病理病案数据库与831例的肿瘤报卡数据库汇合,建立581例的结肠癌队列。队列涵盖了所有患者的病理分期、治疗信息与随访信息。见图1。
图1 病人入组流程图
2.2 近期治疗的编码
化疗通过主诊断亚目编码=Z51.1进行整理,根据费用里涉及的化疗药费(大于1 000元),明确3 786人次化疗,通过去重明确化疗病人767例,组成化疗库。通过匹配发现,化疗库中有575例病人同时存在于ICD-10首页编码系统数据库,192例未在ICD-10首页编码系统数据库检索到。在ICD-10首页编码系统数据库入组的1 148例病人中,573例(49.9%)病人赋值为 “无或者unknown”,575例(50.1%)病人进行了化疗。进一步分析,化疗次数1~49次不等,其中只化疗1次的病人110例(9.58%),化疗8次的112例(9.76%)。根据肿瘤手术操作码情况进行匹配,发现无手术操作码的病人有77例(6.7%)。见表1。
表1 结肠癌患者化疗及手术次数
2.3 主诊断多次出现C18编码的分析
根据恶性肿瘤主诊断选择选择原则,结肠癌初诊断、结肠癌手术、结肠癌初次复发、因结肠癌死亡编码C18。分析多次C18码,统计出共有216条C18记录存在重复,涉及102例结肠癌患者。12例(11.8%)出现3次C18码,4例死亡病例。90例(88.2%)出现2次C18码,其中有18例死亡病例。
2.4 肿瘤死亡的编码
死亡转归,C18码出现在全诊断中的病人47例,出现在以C18码为主诊断的记录中,共有38例(80.9%)。死亡原因为非结肠癌的有9例(19.1%)。
2.5 结肠癌伴多原发肿瘤的编码
主诊断ICD-10编码类目是其他C码而在全诊断中出现C18码,共有165例。通过甄别,有79例(47.9%)可以通过编码来明确第二肿瘤的发生;但86例(52.1%)将转移灶视为原发灶,如肺转移被编码为C78码,其实并非肺原发。
2.6 生存分析
根据病理结果进行TNM分期。Ⅰ期、Ⅱ期、Ⅲ期、Ⅳ期病人分别有89例(15.3%)、248例(42.7%)、210例(36.1%)、34例(5.9%)。截至末次随访时间2019年12月,全组581例结肠癌患者中位随访时间为23.0月(范围0.17~95.3月),3年生存率分别为81.4%、79.7%、67.1%、66.3%,P=0.008,差异有统计学意义。见图2、表2。
图2 I-IV期结肠癌生存曲线
表2 不同随访时间和TNM分期的结肠癌生存人数
2.7 结肠癌队列完成率验证
利用医院信息化系统建立结肠癌队列的同时,我们也通过手工录入的形式收集了所有在金华医院进行手术治疗的患者信息,包括患者术前检查情况、术后病理分期、治疗情况与随访信息,建立了金华医院结直肠科研数据库。将其中的结肠癌患者筛选出来,再将结肠癌信息化队列数据与其匹配,验证所建立的结肠癌队列的完成率。见表3。
表3 建立的结肠癌信息化队列与结肠癌科研数据库匹配情况
3 讨论
浙江大学附属金华医院结肠癌队列的建立,充分利用了医院的信息化系统,将病案首页系统、病理科数据、疾控中心随访信息整合。通过ICD-10首页编码系统获取了患者的人口统计学信息并通过全诊断包含有C18,主诊断为其他C码(C01~C76)统计多原发肿瘤患者的患病情况。通过将ICD-10首页编码系统与疾控数据整合又可以获取患者的转归情况,充分利用了现代化信息建设,可以简单而快捷地建立肿瘤数据库。
根据结果进行分析,设置主诊断ICD编码类目=Z51.1码,次诊断中出现C18码,可以得出结肠癌患者的化疗信息。以此类推,将检索关键词设置为Z51.0,可以得到患者放疗信息,通过主诊断为Z51.1,次诊断中出现Z51.0得到进行放化疗患者的人数,充分获取患者的治疗情况。
对于死亡病人数据的获取,分为院内院外2种途径,其中最主要的是通过肿瘤报卡数据库获取,疾控中心通过电话随访得到患者院外死亡的数据。而通过ICD-10首页编码系统数据库,可以筛选出同一个病人出现多次主诊断C18码的信息,然后将 “转归情况”字段设置为死亡,获取院内死亡病人的信息。
对于全诊断包含有C18,主诊断为其他C码(C01~C76)的病人,如果编码正确,则可以统计多原发肿瘤的发生情况。但是本研究建立的队列还不能完美地实现这一点,转移灶和原发第二肿瘤的编码不能很好地区分开,在今后的工作中应引起重视。
叶斯斯[9]建立了解放军总医院的结直肠癌数据库,按照主诊断编码C18、C19筛选出结直肠癌患者,通过随访数据研究了各线化疗药物与患者预后之间的关系。他们更多是通过手工查询的方法建立数据库,大大增加了工作量。而我们将ICD-10首页编码系统与结肠癌病理库联系起来,利用医院信息化高效地完成队列的建立。另外,对于需要花费更多人力资源的随访工作,我们通过肿瘤报卡系统与疾控中心对接,信息化地获取治疗结局。数据库的建设,更多是为了满足科研的需要,为此我们对所建立数据库,通过基于分期的生存分析,明确数据库信息的准确性。从生存结果发现各个不同分期之间的生存曲线明确分开,中位生存时间与国内外报告的数据基本符合,表明该数据可以很好服务于个性化科研工作的开展[10]。同时,结肠癌数据库的成功建立也为其他病种数据库的建立打下了基础,未来将有更广泛的应用价值。
为了更好地了解信息化建立数据库样本量丢失情况,本研究将同时期手工录入的结直肠科研数据库,作为金标准进行分析,表明入组率约为69.8%。针对未能正确入组原因进行深入分析,主要在于 “病理报告”和 “肿瘤报卡”规范化,目前缺乏有效的监管,在做数据库交集时比较容易出现 “纰漏”。我们建议,病理报告采用格式报告,同时采用ICD-10进行规范诊断,将有助于提高信息化建立数据库的病人入组率。
同时,数据库的构建过程中还存在着一些不足。第一,本研究的核心数据库来源于一家样本医院,虽然该医院为本地市最大医疗机构,医疗服务总量占市本级近五成,但从前期数据中发现Ⅰ期、Ⅳ期的病人较少,可能存在选择偏倚,后续还需扩大样本的数量及覆盖面。第二,对于化疗信息,通过我们建立的数据库,只能得到患者化疗与否,具体的化疗方案尚不明确。这是通过信息化建立数据库的通病,SEER数据库等大型数据库也同样存在这样的问题,随着数据库信息的进一步补充,我们将对队列进一步完善。
4 结论
利用医院信息化与肿瘤报卡系统、疾控的随访系统相结合建立数据库是可行的。利用该模式有助于在区域(地区市)内、省级乃至国家层面形成肿瘤数据库,从而建立起类似SEER、NCDB这样的大型肿瘤数据库,为肿瘤发病、治疗、生存分析等相关研究,提供确切有用的数据支持。