APP下载

威海区域性大数据管理肺癌队列的临床特征和生存情况

2022-11-03张蓝方王丽洁张明娟刘爱玲郭晓雷于进超孙珊珊曹树伟季怀君冯虎姜轶男李静宜杨柳于鑫齐越薛付忠杨福俊

国际流行病学传染病学杂志 2022年5期
关键词:威海市队列肺癌

张蓝方 王丽洁 张明娟 刘爱玲 郭晓雷 于进超 孙珊珊 曹树伟 季怀君 冯虎 姜轶男 李静宜 杨柳 于鑫 齐越 薛付忠 杨福俊

1威海市立医院肿瘤科,威海 264200;2山东大学齐鲁医学院公共卫生学院生物统计系,济南 250000;3山东省疾病预防控制中心慢病防治所,济南 250000

既往研究显示,我国肺癌发病率居高不下,是死亡率最高的肿瘤[1]。近年来,针对肺癌的专病队列研究为肺癌的机制学研究及精准化诊治提供了真实世界证据[2-3]。基于医院的专病队列收集了患者诊断时的数据,通常被称为“初始队列”。本文描述了一个以威海地区医院为基础的肺癌队列,即威海市立医院肺癌队列(SET SAIL队列),主要介绍其构建目的、数据收集、主要基线指标、实际应用及队列构建意义。

对象与方法

一、SET SAIL队列的构建目的

威海市立医院依托山东大学信息大数据平台,建立了SET SAIL队列,同步构建医院在线肺癌病例数据库,其信息高度集中,可供专业临床科研工作者以临床实际问题为导向进行相关研究。

二、SET SAIL队列的研究设计和内容

研究团队基于数据采集融汇通用数据模型,利用电子病历(RCDM-4)标准数据集,按照队列通用数据模型标准,由专业技术人员完成数据采集,构建SET SAIL队列。

1.调查对象

将2016年1月至2021年5月间在威海市立医院首次病理确诊的肺癌患者共5 246例纳入队列。

队列纳入标准:①在威海市立医院做手术或者活检(支气管镜活检,肺活检或者淋巴结活检)首次病理确诊为肺癌的病例,ICD-10编码为C34;②诊断日期为2016年以来的肺癌病例。排除标准:①继发性肺癌;②系统中身份证号格式异常者;③既往或目前合并有其它恶性肿瘤。队列终点事件为研究对象是否死亡以及死亡时间(匹配山东省疾病预防控制中心的死因登记数据)。

2.基线数据采集内容

SET SAIL队列中涵盖人口学信息(年龄、性别、职业等)、肿瘤相关特征(病理类型、TNM分期等)、疾病(103个ICD-10编码对应28 868个别名)、行为生活方式(吸烟、饮酒)、手术(有无手术,以及手术方式等)、药品(主要指肺癌化疗、靶向、免疫用药,64个YPID标码)、实验室检查(875个CNAS-AL09)等上千个标准指标变量(具体见表1)。采集医院业务系统(HIS、EMR、LIS等)数据,汇总到科研平台,再通过非线性规划(NLP)模型完成文本结构化及指标标准化治理。

表1 SET SAIL队列数据采集内容

3.随访调查

参考《大型人群队列终点事件长期随访技术规范(T/CPMA002-2019)》[4],在随访调查中,采用常规监测方式对队列终点事件进行长期随访,包括死亡监测、发病监测、住院事件监测、迁移和失访监测。与山东省疾病预防控制中心合作,可获取发病及死因登记数据。利用医院病案首页系统、医保住院系统及医院信息系统,可以收集随访期内因病住院治疗的所有疾病诊疗信息。医院随访系统可用于患者出院后的信息收集,院内系统失联者可联系公安户籍管理部门进行信息收集。

三、质量控制

1.技术安全

首先,将云存储技术运用于肺癌大数据平台,结合加密技术有效保障医院医疗大数据集群数据的安全。其次,在处理数据时,降低数据敏感度,保护患者的识别信息,采用加密技术对数据进一步保护。另外,从网络层面设置访问权限,控制技术人员对数据的访问,限制非法分子对平台数据的非法访问和导出。最后,科研平台软件及数据库完成第三方数据安全测评,并出具数据安全测评报告。由威海市立医院大数据团队技术人员定期对大数据平台进行监控和检查。

2.管理安全

医院建立并落实《数据安全管理办法》,作为制度建设管理数据安全。平台组成员需签署保密协议。山东大学健康医疗大数据研究院定期对工作人员进行数据平台应用培训,规范操作流程。

四、统计学分析

结 果

一、人口学特征

本研究5 246例患者中,年龄最小为22岁,最大92岁,中位年龄63岁。男性2 725人,占51.94%;女性2 521人,占比48.06%。不吸烟者3 312例(65.38%),目前吸烟者926例(18.28%),既往吸烟者828例(16.34%),吸烟状态不详180例(3.43%)。部分人口学特征的K-M曲线分析结果显示低龄、女性、不吸烟人群往往有更高的生存率,详见图1。

图1 肺癌队列不同年龄(A)、不同性别(B)、不同吸烟状态(C)的生存曲线图

二、队列特征

1.队列总体生存时间

以肺癌确诊时间为起点,死亡时间或最后随访时间(2021年5月26日)为终点,总生存期(OS)分布见图2。死亡1 573例,存活3 673例,死亡比例29.98%。平均随访时间1.74年,中位随访时间1.38年,最长随访时间5.63年。肺癌总生存期的K-M生存曲线见图3,根据该曲线估算5年生存率为52.77%,中位生存时间为5.37年。

图2 肺癌队列总生存期分布图

图3 肺癌队列总生存期的生存曲线图

2.肿瘤特征描述

SET SAIL队列中,病理类型包含腺癌、鳞癌、小细胞癌、未特指类型(NOS)、唾液腺肿瘤、大细胞神经内分泌癌、类癌、肉瘤样癌、腺鳞癌、神经内分泌癌、大细胞肺癌等。非小细胞肺癌4 715例,占比89.88%,其中肺腺癌3 908例,肺鳞癌659例。小细胞肺癌418例,占比7.97%。肺癌未特指病理类型113例(2.15%)。K-M曲线中,肺腺癌预后最好(5年生存率65.53%),小细胞肺癌预后最差(5年生存率15.51%),肺鳞癌居中(5年生存率26.19%)(图4)。

图4 不同病理类型肺癌生存期的生存曲线图

SET SAIL队列的TNM分期按照第8版TNM分期标准划定,Ⅰ期病例2 497例(47.60%,ⅠA期2 177例,ⅠB期298例),Ⅱ期294例(5.60%),Ⅲ期781例(14.89%),Ⅳ期1 450例(27.64%),分期未知224例(4.27%)。不同TNM分期的K-M曲线见图5。

图5 肺癌队列TNM分期的生存曲线图

讨 论

医疗大数据具有数量多、规模大、数据结构多样化、数据呈几何增长、信息价值高等特点[5-6]。由单一机构经验形成的队列(如SET SAIL队列)便于从固定机构获取组织、细胞和血清样本信息,开展比基于人群登记更复杂的研究。当然,队列研究中没有对不同类型的治疗进行随机分组,因此关于治疗的结论只能产生假设。

一、SET SAIL队列信息反映了威海区域性肺癌发病情况、发病特点以及诊疗情况

SET SAIL队列作为一个区域性专病队列,包含了2016年1月至2021年5月间在威海市立医院就诊的肺癌患者,其中大多来自威海地区,纳入病例数充足、提取信息量大,具有可靠的有效性和区域特性。病例死亡时间匹配山东省疾病预防控制中心的死因登记数据,失访率低。从SET SAIL队列的初期统计数据来看,威海地区肺癌患者性别比例中仍以男性居多,病理类型以非小细胞肺癌为主,其中肺腺癌占比高,这与大多地区统计结果一致[7]。SET SAIL队列中的肺癌分期统计结果提示Ⅰ期患者占比47.6%,高于部分一线城市数据[7],这可能与患者来源有关。SET SAIL队列的患者群中当地初诊患者占比高,而一线大城市数据中包含了很多外地晚期患者,另外,这也与近年来民众肺癌筛查意识提高、就医可及性提升有关。

二、SET SAIL队列的构建应用有助于推动区域肺癌科研水平的提升

SET SAIL队列为临床医师提供了便利安全的院内科研数据平台,自开发以来已开展了多项研究,其中以SET SAIL队列中的非小细胞肺癌队列子集为研究对象,利用填补后的完全数据集建立和验证非小细胞肺癌预后的预测模型已取得初步研究结果。另外,基于医院数据库关于威海地区肺癌外科手术现状的研究、晚期肺癌伴间质性肺炎患者住院死亡率危险因素回顾性观察等研究已经启动。

未来,我们可以利用成熟的经验开发更具疾病特异性的机构数据库,并将其中几个数据库连接,形成共建共享机制,让数据汇集、流动、应用起来,提高研究的样本量和统计能力,更好地造福于全国患者[8]。

利益冲突所有作者均声明不存在利益冲突

作者贡献声明张蓝方、王丽洁:直接参与、文章撰写、数据分析;张明娟、薛付忠、杨福俊:数据平台建设指导、专病队列建设指导、工作支持;刘爱玲、郭晓雷、于进超、孙珊珊、曹树伟、季怀君、冯虎、姜轶男、李静宜、杨柳、于鑫、齐越:直接参与、数据校正、队列建设、工作支持

猜你喜欢

威海市队列肺癌
对比增强磁敏感加权成像对肺癌脑转移瘤检出的研究
是“生”不是“牛”
队列里的小秘密
基于多队列切换的SDN拥塞控制*
在队列里
GIS在风景区用地适宜性评价的应用——以威海市圣水观风景区为例
丰田加速驶入自动驾驶队列
PFTK1在人非小细胞肺癌中的表达及临床意义
microRNA-205在人非小细胞肺癌中的表达及临床意义
“小舞台”唱出“多彩戏”——威海市打造劳模创新工作室纪实