结直肠癌发病风险预测模型的建立及应用
2020-09-12刘宇英李艳红严岳赵安世罗琳娜伍民庆谢传波
刘宇英,李艳红,严岳,赵安世,罗琳娜,伍民庆,谢传波
(中山大学肿瘤防治中心 华南肿瘤学国家重点实验室 肿瘤医学协同创新中心a.防癌体检健康管理中心;b.肿瘤内科,广东 广州510060)
结直肠癌是严重影响我国居民健康的恶性肿瘤之一,2018 年发布的全球肿瘤登记数据(Global Cancer Statistics, GLOBCAN)显示我国2018 年共确诊82.50 万结直肠癌患者,70.1 万人死于结直肠癌,分别占我国恶性肿瘤发病和死亡的11.3%和8.5%[1-2]。结直肠癌的预后与诊断时分期密切相关, 早期结直肠癌患者(I 期和ⅡA 期)的5 年生存率大于87%,中晚期结直肠癌患者的5 年生存率低于11%[3]。 因此,早期识别结直肠癌的高危个体, 并进行有针对性的干预是降低结直肠癌疾病负担的关键。然而,我国目前尚未开展大型前瞻性的临床研究筛选结直肠癌的高危因素。 美国前列腺、肺、结直肠及卵巢癌筛查研究(prostate,lung,colorectal,and ovarian dataset, PLCO)是美国国立卫生研究院 (National Cancer Institute,NCI)开展的一项大型随机对照临床试验,主要目的是评价前列腺癌、肺癌、结直肠癌等癌症筛查方法的有效性。 该数据库前瞻性的探索了各类危险因素与结直肠癌的关系, 为结直肠癌高危人群的筛选提供了高质量数据来源。本研究利用PLCO 数据库,建立结直肠癌发病预测列线图, 为护理从业人员提供简便、快捷的结直肠癌高危人群筛选工具。
1 研究对象
2019 年3 月7 日, 由中山大学肿瘤防治中心1名肿瘤内科学博士以课题的形式向PLCO 数据管理委员会提交PLCO 数据库使用申请,2019 年4 月5日PLCO 数据管理委员会批准申请人及其所在团队在2019 年4 月5 日—2022 年4 月5 日,可利用PLCO数据库进行数据分析(项目批准号PLCO-459)。 本次研究是对申请到的PLCO 数据库进行的再次分析。 PLCO 共纳入155 000 名研究对象[4],并按照1∶1的比例随机将研究对象分为对照组和干预组(每组各77 500 例)。PLCO 研究在选取研究对象时的纳入标准如下:(1)年龄55~74 岁;(2)未诊断前列腺、肺、结直肠及卵巢癌;(3) 未做过上述器官的切除手术;(4)现阶段未参加其他临床试验;(5)签署知情同意书。 研究对象的随访截至时间为2009 年12 月31日,中位随访时间为12.4 年。 本研究在做数据分析时除要求结直肠癌诊断明确外, 未对研究对象进行额外排除。
2 方法
2.1 调查工具
2.1.1 问卷调查 申请人及其所在团队可使用PLCO 的基线数据库、 膳食史问卷调查(Dietary History Questionnaire,DHQ)数据库、补充问卷调查(Supplemental Questionnaire, SQX)数据库、结直肠镜分析数据库进行科学研究。 以上数据库均由PLCO 工作人员在研究的不同阶段进行搜集。 在流行病与卫生统计学专业人员的指导下, 由1 名博士研究生对以上数据库进行清理和分析, 以保证数据准确性。 基线问卷调查库的主要内容包括社会人口学特征(年龄、性别、职业和民族等)、吸烟情况、肿瘤家族史、身高、体质量、BMI、非甾体类抗炎药物使用情况、女性生育史、个人疾病史、是否患有肿瘤等信息。 96.8%的研究对象完成了基线问卷调查, 其中81%的研究对象在入组1 个月内完成基线问卷调查,96%的研究对象在入组的3 个月内完成基线问卷调查。 膳食史问卷调查(Dietary History Questionnaire,DHQ),DHQ 主要包括饮酒、营养素摄入、食品添加剂摄入、血糖指数、肉类摄入情况、每日各类食物和饮料的摄入情况、每日各类食物和饮料的摄入频率,共约77%的研究对象完成了DHQ 问卷调查。补充问卷调查(Supplemental Questionnaire, SQX),是对基线问卷信息的补充, 主要包括2 组研究对象的社会人口学状态、疾病史和家族史、吸烟、药物使用、体力活动及性别特征变量的情况, 共约104 000 名研究对象完成了补充问卷调查。
2.1.2 结直肠癌发病数据的获取 参加PLCO 研究的填写。 结直肠癌发病数据主要是PLCO 工作人员通过结直肠镜检查、自我报告、周期性查阅死亡登记系统3 种方式获取。 分配入干预组的研究对象分别
在基线时、入组后3 年或5 年(1994 年10 月前干预组每隔3 年进行1 次结直肠镜检查,1995 年12 月后每5 年进行1 次结直肠镜检查) 分别进行1 次结直肠镜检查。 结直肠镜检查发现异常后则转诊到全科医生诊所进行结直肠镜和组织病理学随访, 以确诊是否患结直肠癌。 PLCO 研究人员还通过每年邮寄年度问卷(Annual Questionnaire)和定期查阅肿瘤登记系统的方式搜集干预组和对照组研究对象的肿瘤发病情况。本研究的研究人员,以结直肠镜分析数据库中是否确诊为结直肠癌这一变量为依据, 确定结直肠癌的发病情况。
2.2 统计分析 采用构成比描述研究对象的社会人口学特征。 采用率描述不同特征人群的结直肠癌发病情况。对问卷中的变量进行清洗时,先后查验原始变量与新生成变量的分布, 两者分布数据核对准确确定为可用的新变量。 单因素Cox 比例风险回归模型筛选结直肠癌的危险因素, 多因素Cox 比例风险回归模型校正其他危险因素后进一步筛选结直肠癌的危险因素, 建立结直肠癌的预测列线图, 采用Calibration plot 展示预测发病与实际观测发病的一致程度。统计分析由SAS 9.3 和RStudio 统计分析软件完成。 所有检验均为双侧检验,以P<0.05 为差异有统计学意义。 所有统计分析均咨询中山大学公共卫生学院流行病学教研室。
3 结果
3.1 结直肠癌发病风险因素分析 共有148 027 例纳入分析, 其中男性、 女性各占约50%; 年龄≤59岁、60~64 岁、65~69 岁和≥70 岁的研究对象分别占33.362%、30.693%、22.545%和13.400%;绝大多数研究对象为已婚(73.1%);吸烟方面,69 272 例研究对象报道从不吸烟,16 055 例正在吸烟,64 617 例研究对象已戒烟, 分别占总人群的46.199%、10.707%和43.094%。约10.335%的研究对象具有结直肠癌家族史(14 961 例)、6.8237%的研究对象(10 150 例)报道曾经发现结直肠息肉。 表1 展示的是结直肠癌高危因素情况,发现与≤59 岁的研究对象相比,年龄在60~64 岁、65~69 岁和≥70 岁的研究对象结直肠癌的发病风险分别为其1.568 倍(95%CI=1.392~1.768)、2.092 倍(95%CI=1.854~2.361)和2.484 倍(95%CI=2.174~2.838)。 与女性相比,男性结直肠癌的发病风险增加(HR=1.430, 95%CI=1.313~1.559)。 此外,与从不吸烟者相比,吸烟(HR=1.422, 95%CI=1.242~1.632)或者曾经吸烟者(HR=1.227, 95%CI=1.120~1.345)的结直肠癌发病风险增加;结直肠癌家族史、息肉史、红肉摄入、糖尿病均显著增加结直肠癌的发病风险而阿司匹林使用和规律结直肠癌筛查则会降低结直肠癌的发病风险。在校正了其他危险因素后,年龄、性别、吸烟、结直肠癌家族史、糖尿病依然是结直肠癌发病的高危因素,而息肉史则无统计学意义。
表1 研究对象一般情况描述及其与结直肠癌发病风险的关系
3.2 结直肠癌预测列线图 图1 展示的根据筛选出的危险因素建立的结直肠癌预测列线图, 根据COX 回归模型中各因素对因变量(是否发生结直肠癌)的贡献大小,也就是回归系数的大小转换成风险得分:得分=回归系数×(变量的全距)。 根据COX 回归的系数计算出,<60 岁得分为0 分,60~64 岁得分为4.63 分,65~69 岁得分为8.36 分,≥70 岁得分为10 分;女性得分为0 分,男性得分为3.43 分;从不吸烟者得分为0 分,吸烟者得分为4.09 分,戒烟者得分为1.80 分; 无结直肠癌家族史者得分为0 分,患有结直肠癌家族史者得分为2.71 分;规律服用阿司匹林者得分为0 分,未规律服用者得分为1.71 分;规律结直肠癌筛查者得分为0 分, 未规律结直肠癌筛查者得分为2.10 分;无糖尿病者得分为0 分,患有结直肠癌家族史者得分为4.36 分。 此外,通过绘制预测值与实际值的校准图,进行一致性测试,结果显示该列线图模型预测的10 年结直肠癌发病概率与实际观测10 年结直肠癌发病概率相关性良好(见图2), 该模型预测结直肠癌发生风险时的C-index 为0.626。
图1 结直肠癌发病风险预测列线图
图2 结直肠癌发病风险校正曲线
4 讨论
4.1 建立了简便、快捷的结直肠癌高危人群筛选预测列线图 结直肠癌是严重影响我国居民寿命的疾病之一,早期筛查是降低其疾病负担的关键。既往关于结直肠癌的预测列线图多以预测预后为主[5],鲜有研究采用列线图预测结直肠癌的发病。 本研究通过分析结直肠癌发病常见高危因素建立了结直肠癌预测列线图, 并且纳入结直肠癌预测列线图模型的变量均为简单易获取的变量, 非常方便进行高危人群的筛查。研究结果对于筛选结直肠癌高危人群,并降低其疾病负担具有一定的临床意义。
哈佛癌症风险工作小组基于生活方式和常规体检资料建立了哈佛癌症风险指数模型[6],来预测10年结肠癌发病风险, 纳入模型的变量包括一级亲属结肠癌史,体质指数,筛查史(粪潜血试验、结肠镜检查),阿司匹林使用史,炎性肠疾病史,叶酸摄入史,饮食(红肉、蔬菜、水果、纤维、脂肪),吸烟,饮酒,身高,体力活动和雌激素替代治疗史,哈佛指数模型在预测男性和女性结直肠癌发病风险的AUC 曲线下面积分别达到0.710 和0.670。 我国Cai 等[7]通过队列研究在模型中纳入性别、年龄、吸烟、糖尿病、绿色蔬菜、腌制食品、油炸食品和白肉摄入量建立了我国结直肠癌的预测模型,AUC 曲线下面积达到了0.74。 此外, 国内Chen 等建立了包含5 个因素:年龄、性别、冠心病、鸡蛋摄入、排便频率的进展期结直肠癌风险预测模型,该模型预测结直肠癌的AUC 曲线下面积为0.75[8]。
既往建立的系列结直肠癌预测模型都具有良好的筛查效果,但是在临床实践中并不能直接应用。它们需要根据各因素的回归系数计算得到发病概率然后再判定研究对象是否为高危人群。 而本研究建立的预测列线图具有直观、简便易操作的优点,方便护理工作者对结直肠癌高风险人群进行初步筛查。 本研究纳入预测列线图的各个因素均可通过简单的问卷调查获取, 因此更加增加了此模型在护理实践中的实用性。
4.2 建立的预测列线图在防癌体检的预检、分诊中具有较高的应用价值 既往建立的系列结直肠癌预测模型都具有良好的筛查效果, 但是在临床实践中并不能直接应用。 它们需要根据各因素的回归系数计算得到发病概率然后再判定研究对象是否为高危人群。而本研究建立的预测列线图具有直观、简便易操作的优点, 方便护理工作者对结直肠癌高风险人群进行初步筛查。 本研究纳入预测列线图的各个因素均可通过简单的问卷调查获取, 因此更加增加了此模型在护理实践中的应用性。 国内越来越多的防癌体检健康管理中心开始开展人群筛查队列研究,在建立筛查队列时护理人员是问卷调查的主力,她们可以通过本研究建立的结直肠癌模型筛选结直肠癌高危人群,进行预检、分诊,协助体检医生对客人的发病风险进行评估。 例如,1 例60 岁的男性吸烟者患有2 型糖尿病且具有结直肠癌家族史但未行规律的结直肠镜检查,未规律服用阿司匹林,则其总风险得分为4.63+3.43+4.09+2.71+1.71+2.10+4.36=23分,对应列线图该男性吸烟者5 年结直肠癌的发生风险约为2%,因此可评定为结直肠癌高风险。 护理人员可以将预测列线图附在体检报告中, 解释预测列线图的用法, 帮助不同生活习惯及临床特征的客人了解其结直肠癌的发病风险。 本研究中心的护理人员采用该预测列线图, 进行检前肠癌风险人群的分诊,在筛查过程中,大幅降低了开单医生的咨询工作量、提高了开单效率,在临床应用中起到了良好的效果。
4.3 预测列线图需要在更广的人群中进行验证本研究具有以下缺点:首先,本研究建立预测列线图模型的数据来源于美国人群(绝大多数为白种人),尽管该模型在本研究单中心的临床实践中具有良好的应用效果, 但该模型是否适用于更广泛的人群需要进一步验证。 其次,PLCO 研究最后一轮数据的随访日期为2009 年底,距今已有十年。 无论是东方还是西方十年间的生活方式均发生了较大变化, 例如电子产品使用时间占日常生活时间的比重增加、体力活动减少。这些因素可能会影响模型的稳定性。然而, 我国尚缺乏大型的随机对照临床研究的证据来前瞻性验证和筛选结直肠癌的高危因素,PLCO 研究作为一项国际知名的大型前瞻性临床研究, 其确证病因的能力较观察性研究强, 因此本研究建立的模型用于体检人群的预检分诊仍有一定的参考价值。