探索大数据背景下肿瘤登记信息平台建设的新模式*
2019-01-04张文彬刘潇霞乔良李博
张文彬,刘潇霞,乔良,李博
610041 成都,四川省肿瘤医院·研究所,四川省癌症防治中心,电子科技大学医学院 癌症防治中心办公室
恶性肿瘤是严重影响我国公民健康的重大慢性疾病,近20年来我国恶性肿瘤发病率呈逐年上升趋势,成为我国居民的主要死因,严重危害居民健康,带来沉重的个人、家庭、社会经济负担[1-2],已成为目前中国乃至全球最严重的公共卫生问题之一。获得高质量的肿瘤登记信息,及时掌握癌症的发病动态,是现阶段开展人群癌症防治研究的基础性工作。为此,本文通过回顾肿瘤登记历史、现状、问题等,结合新形势下的工作要求,借助信息化技术探索大数据背景下肿瘤登记的新模式。
1 我国恶性肿瘤形势严峻,国家高度重视
肿瘤登记是目前国际公认的肿瘤发病、死亡及生存信息收集的方法,是一项按一定的组织系统经常性地搜集、储存、整理、统计分析和评价肿瘤发病、死亡及生存资料的统计机制[3]。开展肿瘤随访登记,掌握准确的人群肿瘤发病、死亡及生存数据,可以全面评估恶性肿瘤的流行特征,是制定卫生事业发展规划和肿瘤防控策略,评价防控效果的基础性工作。据国家癌症中心2018年年报最新肿瘤登记数据估计,全国恶性肿瘤发病率为285.83/10万,世标发病率为186.39/10万;恶性肿瘤死亡率为170.05/10万,世标死亡率为105.84/10万[4]。随着我国经济的高速发展,工业化、城市化、老龄化进程的加剧以及人们生活方式的改变,我国的癌谱逐渐发生了变化,形成了以消化道癌症为主的发展中国家癌谱(胃癌、食管癌等,泛称“穷癌”) 向发达国家癌谱( 肺癌、乳腺癌、大肠癌等,泛称“富癌”) 的过渡阶段,构成了“穷癌”、“富癌”并存的格局,防治形势复杂[5]。随着恶性肿瘤的危害日益加重,我国对肿瘤防控愈加重视,对肿瘤登记的要求也逐渐提高[2,6-7]。
近年来,国家先后出台的《健康中国行动(2019—2030年)》、《“健康中国2030”规划纲要》、《“十三五”卫生与健康规划》、《中国防治慢性病中长期规划(2017—2025年)》、《中国癌症防治三年行动计划(2015—2017年)》等一系列肿瘤防治相关政策性文件均将建立健全符合我国社会经济水平的肿瘤随访登记体系,开展全人群肿瘤发病、死亡及生存信息监测等,作为我国肿瘤防治工作的重点目标和任务。2019年2月,国家卫健委副主任李斌介绍我国在癌症防治方面重点工作时更是重点提出了要充分发挥大数据平台优势和整合共享理念。推进实现肿瘤登记工作在全国所有县区全覆盖,搭建国家癌症大数据平台,建成覆盖全国的癌症病例登记系统,推动与相关监测系统的数据交换和共享利用,及时掌握我国癌症发病动态,有针对性开展防治工作。
2 肿瘤登记发展状况
2.1 全球肿瘤登记组织众多,登记工作逐渐完善
全球肿瘤登记以欧洲、北美和澳洲开展较早,1929 年德国汉堡建立了世界第一个以人群为基础的肿瘤登记处;1942年丹麦成立了第一个全国性的肿瘤登记处[8],经过多年的积累及发展,逐渐形成了较为完善的登记系统。国际上涉及癌症诊治评价内容的肿瘤登记组织相继成立,如世界卫生组织下属国际癌症研究机构(International Agency for Research on Cancer,IARC)的GLOBOCAN项目、欧洲肿瘤登记网(European Network of Cancer Registries,ENCR)及澳洲肿瘤登记协会(Australian Association of Cancer Registries,AACR)等[6]。一些登记体系的登记流程、登记资料、数据质量及分析日趋规范。
2.2 美国肿瘤登记系统完善、贡献突出
美国是肿瘤登记开展较好的国家,美国国家癌症研究所(National Cancer Institute,NCI)、疾病预防与控制中心和北美中心癌症登记处协会(North American Association of Central Cancer Registries,NAACCR)等机构均有参与肿瘤登记,其开展登记时间长,质量高,是被《五大洲癌症发病率》收录登记处资料最多的国家。其中,以NCI建立的SEER数据库最为突出,也是北美最具代表性的大型肿瘤登记注册数据库。SEER项目始于1973年,目前共有18个地区的登记处加入,是全球最准确、最完整的以人口为基础的癌症登记处。SEER数据库覆盖全美28%人口的癌症登记,并且广泛覆盖了美国的不同人群[1],是美国唯一以人群为基础,高质量地收集了包括癌症患者人口学特征、原发部位、形态学、分期、肿瘤标志物、首次治疗和随访等资料的癌症报告系统,提供及时、准确和连续性的癌症资料和数据分析结果,监测北美癌症趋势。与此同时,SEER数据库资料允许相关机构及人员通过多种方式获取,用于深入研究,并且为了便于肿瘤数据的分析,SEER开发了一系列软件实现频数和率分析、生存分析、风险分析、趋势分析等。目前可获得的SEER数据库包括:SEER数据、标准人口数据、美国人口数据、美国死亡数据、县特性数据以及一些与SEER链接的数据库资料[3]。值得注意的是,SEER的肿瘤原始数据主要来源于医院、临床医生、病理医生等,并在后期与医院保持紧密联系,补充完善核实患者的病历、分期和治疗等临床信息,这是SEER数据长期保持高质量并被作为世界癌症登记处的质量标准的重要原因。收集内容广泛的高质量数据、积极与各机构合作共享并开展多样化研究的登记模式为全球的登记工作开启了新的思路。
2.3 中国肿瘤登记快速发展,取得可喜成绩
中国肿瘤登记起步于20世纪50年代,经过近60年的发展,登记点数量逐步扩增,登记内容逐步规范,经费投入逐年增加,并且分别在1973年、1990年和2006年开展了3次全国死因回顾性调查,明确了恶性肿瘤是我国居民主要死因以及我国各时期的癌谱分布[9-11],至今全国的肿瘤登记及监测随访网络初步建成。目前,全国登记处数量已经达到574个,登记地区覆盖人口4.38亿,占2017年全国人口数的31.51%[12]。为进一步加强肿瘤登记工作,2015年国家卫生健康委员会(原国家卫生和计划生育委员会)和国家中医药管理局联合发布《肿瘤登记管理办法》,这也是我国第一个关于肿瘤登记工作的法规性文件[12]。2017年发布的《五大洲癌症发病率》第11卷中,我国已有36个肿瘤登记点的发病资料被收录,分布在我国15个省、自治区和直辖市,我国的肿瘤登记在国际上已具备一定的影响力。
3 肿瘤登记存在的问题
随着信息化发展和大数据时代的到来,传统的肿瘤登记存在的问题也逐步凸显出来,国家癌症中心魏文强主任提出我国肿瘤登记的不足主要体现在肿瘤登记点数量不足和分布不均衡、数据深度和广度不足、监测数据时效性不高以及现行的传统监测手段对数据可获得性较差等方面[12]。各省因肿瘤登记起步时间、信息化程度不同,其问题的严重程度有所不同。目前全国各地肿瘤登记存在一些共性问题:
3.1 覆盖面不足
由于受经费限制,大部分地区实际工作中按照肿瘤登记技术流程和规范开展信息收集的地区覆盖有限,有些省份仅局限于有财政经费支持登记点,覆盖比例不足,省级代表性不够。
3.2 数据质量欠佳
《五大洲癌症发病率》数据纳入标准对登记资料中诊断依据不明比例、病理诊断比例、仅有死亡医学医学书比例、原发部位不详或未特指病例比例、癌种变化趋势稳定等指标做出了要求[13],目前全国各肿瘤登记处数据质量达标的并不多,这与传统的信息采集经历了太多人工环节密切相关,因人为因素导致数据失实,数据质量和可信度不高。
3.3 数据时效性差
现有的肿瘤登记模式在数据收集、整理、分析方面均需要较长时间。通常情况,当年的肿瘤新发病例数据需要经过约3年的补充漏报才能稳定,导致数据支持循证决策的时效性不足。
3.4 登记信息深度不足
以人群为基础的肿瘤登记只能获取发病、死亡的基本信息,信息量少,普遍缺乏肿瘤病理、分期、诊治和生存转归等诊疗信息,对深入研究带来较大困难。
3.5 随访效率低下
医务人员主动与患者接触开展主动随访的难度大、成本高,有些地区甚至没有开展随访;全国尚无健全的信息化系统监测患者就诊轨迹,主动随访、被动随访双薄弱。
综上,现有的肿瘤随访登记模式已无法完全满足日益增长的肿瘤防控政策需求和科研需求,模式转换迫在眉睫。
4 探索大数据背景下构建省级肿瘤随访登记大数据服务平台
由于各级医疗机构信息化建设的飞速发展,电子病历得到广泛使用,诊疗数据的高度信息化、结构化,所以肿瘤登记资料越来越多的来源于医疗机构病案首页。与此同时,越来越多的研究也提示借助信息平台开展肿瘤登记工作是未来的发展趋势,国内学者分别提出了以医保人群为基础、以医院为基础开展肿瘤登记的设计思路[14-15]。利用现有医学信息资源,依托大数据技术,实现肿瘤登记资源整合、信息共享,借助人工智能,深入挖掘登记信息是解决目前肿瘤登记诸多问题的关键手段[16-17]。
4.1 整合医学信息资源,搭建肿瘤监测大数据平台
探索搭建省级肿瘤随访登记大数据服务平台,整合现有的全省住院病案首页、死因监测等信息资源,结合信息化技术深度采集诊疗信息,构建肿瘤患者发病、死亡、随访及全生命周期数据库,实现多途径数据源统筹管理与交换。同时平台与基层医疗机构卫生信息管理系统对接,在基层开展肿瘤患者主动随访,信息实时反馈。最终构建集肿瘤发病、死亡,生存监测,患者随访管理为一体的标准化基础资源平台,满足服务患者、服务科研、服务政府决策三位一体的肿瘤防治体系信息化目标。
4.2 借助信息化技术,保证监测时效性
充分利用省级卫生计生统计数据综合采集平台,借助覆盖全域的病案首页信息,实现资源整合和数据交汇,是搭建省级“平台”的基础与关键,解决全省肿瘤登记数据采集时效性不足问题,实现省域内全人群肿瘤发病、死亡及生存信息监测,推进数据开放共享、深度挖掘应用,满足卫生行政管理者、医疗卫生工作者、科研工作者及肿瘤患者等多方需求。
4.3 运用人工智能技术,实现监测数据的精准化
基于病案首页构建的省级“平台”,数据资源立足于医院诊疗信息,运用文字抓取技术、人工智能等方式,准确及时采集肿瘤详细的诊断信息(如肿瘤TNM分期、诊断依据、病理学类型、分化程度等)、治疗信息(如手术、放化疗、介入治疗、生物治疗等)、随访信息(如生存质量、生存状态、死亡原因、死亡时间)以及危险因素信息(如既往病史、家族史、饮食行为习惯等),累积一套高精度监测数据,便于开展深入的癌症防控方面研究。
4.4 开发质控模块,保证监测数据质量
全国肿瘤登记数据连续多年被《五大洲癌症发病率》收录的登记点,大多起步早、依托医疗机构采集数据,如四川省盐亭县、上海市、浙江嘉兴市、浙江海宁市等,深耕多年,取得了可喜的成绩。“平台”建设初期,需充分依托大数据挖掘、人工智能以及信息抓取技术,深度提取病案信息,构建具备更详细诊疗信息的发病、死亡数据库,并参照IARC《五大洲癌症发病率》对数据质量的相关要求,开发数据智能审核模块,评估资料完整性和可靠性。将割裂的人群为基础的肿瘤登记和医院为基础的肿瘤登记进行重塑、联系并融合互补。
4.5 主动、被动随访密切结合,提升随访效率。
肿瘤随访是肿瘤登记工作的重要组成部分,对临床科研具有较大指导作用。至今尚无成熟的肿瘤患者随访信息平台,构建省级大数据平台,通过主动抓取患者再次就医记录,自动整合生成被动随访信息,对无法通过被动随访获得生存资料的患者,依靠属地化管理由基层卫生服务机构开展主动随访,并在适当时机与疾控、医保、公安、民政等多部门进行发病、死亡及生存数据交换,实现高效随访。
恶性肿瘤的精准监测数据越来越受到广泛的重视,业内专家提出精准监测数据是现阶段乃至未来很长一段时期内我国制定肿瘤防治政策、评价防治工作效果重要基础[12]。探索通过大数据、信息化新技术建立共享的省域内肿瘤随访登记大数据服务平台,并与传统肿瘤登记数据互为补充。利用信息化手段推进肿瘤登记工作从质和量上更上一个新的台阶,同时也为广泛开展医院为基础的肿瘤登记奠定基础。