基于随机森林与多因素交互logistic回归的新型冠状病毒感染病例密切接触者感染影响因素分析
——以铜陵市为例
2023-09-05张凡齐平
张凡,齐平
1.铜陵市疾病预防控制中心,安徽 铜陵 244000;2.铜陵学院数学与计算机学院
新型冠状病毒感染(coronavirus disease 2019,COVID-19)是由新型冠状病毒引起的一种急性呼吸道传染性疾病,人群普遍易感[1]。COVID-19 病例密切接触者是指COVID-19 疑似病例或确诊病例症状出现前2 天开始,或无症状感染者标本采集前2 天开始,与其有近距离接触,但未采取有效防护的人员。由于新型冠状病毒具有较强的传染性,密切接触者感染风险较高,因此及时发现和管理密切接触者是有效控制疾病传播的重要举措[2-3]。COVID-19 全球大流行以来,密切接触者感染影响因素分析受到学者们的广泛关注,然而现有研究中对COVID-19 病例密切接触者的感染因素分析主要集中于单一因素[4-7],并未考虑多因素之间的交互效应,难以发现各因素之间的内在联系。为此,本研究以铜陵市为例,将随机森林算法与多因素交互logistic 回归模型相结合,挖掘各因素之间的二次交互效应,为COVID-19防控提供参考依据。
1 对象与方法
1.1 资料来源 通过中国疾病预防控制信息系统收集铜陵市2022 年3 月14 日—30 日报告的COVID-19 病例信息,通过流行病学调查获取其密切接触者资料,收集密切接触者的人口学特征、体格特征,与指示病例的接触地点、接触方式、末次接触时间以及隔离状态等信息。通过数据整理、清洗,剔除有缺失值、异常值的样本后,将数据集分别按照60%、20%和20%划分为训练集、测试集和验证集。
1.2 研究变量 对COVID-19 病例及其密切接触者的调查信息进行预处理和重新分组,主要研究变量包括:①密切接触者与其关联病例的密接关系。包括亲属、同事朋友、师生同学、医患和陌生人。②接触时间。指病例发病后其密切接触者与该病例接触的总天数。③接触方式。包括共同生活、医疗护理、聚餐、日常交谈、同乘交通工具和同空间但无直接接触。④接触地点。包括家庭、工作场所、娱乐场所、公共场所和交通工具。⑤接触频率。包括经常(≥3 d/周)、一般(1~2 d/周)和偶尔(<4 d/月)。
1.3 分析方法
1.3.1 分析思路 使用anaconda 3-5.3.1(含python 3.7.0)建立数据集,经数据清洗和预处理后,保留属性17 项(年龄、性别、职业、文化、身高、体重、BMI指数、锻炼频率、核酸检测结果、疫苗接种情况、是否服用新冠防治中药,与关联病例的关系、接触地点、接触频率、接触方式、首次接触时间、末次接触时间),分别进行One-Hot 编码。考虑各影响因素之间的交互效应,本研究首先采用随机森林算法筛选强相关影响因素,再使用多因素二次交互logistic回归模型对密切接触者感染影响因素进行分析。
1.3.2 随机森林算法 随机森林算法是由多个决策树构成的集成学习算法,算法将数据集沿着信息熵减小的方向进行划分,选择信息增益最大的特征作为决策节点,直至数据子集不可再分时,将对应的分支节点设置为叶子节点,从而通过随机森林算法筛选出强相关影响因素[8]。
假设N为样本数,M为待选特征数,本研究构造决策树的方法为:①在数据集中有放回随机选取n个样本(n<N)、m个特征(m<M)构造训练集;②根据OOB(out of bag)评分法[9],从特征子集中选出最优特征进行分裂,递归构造k棵决策树(DT1,DT2,……,DTk);③根据多棵决策树共同组成随机森林以投票法返回结果。随机森林参数通过网格搜索进行调整[10],决策树深度设置为5,决策树数量设置为500。
1.3.3 多因素交互logistic 回归模型 在使用随机森林算法对初选特征进行重要性评分后,按评分排名筛选强相关特征作为输入特征代入多因素交互logistic 回归模型,以更好地挖掘新型冠状病毒感染的影响因素及因素间的交互效应,分析数据集中COVID-19 病例密切接触者各属性与病毒感染情况的关联强度和感染风险。以Y=1表示感染,P(Y=1)表示感染概率,考虑影响因素交互效应,构建多因素交互logistic回归模型如下:
其中,Xij表示特征Xi和特征Xj相乘得到的交互特征,βij为交互特征Xij的权重。将随机森林模型筛选结果编码后,代入多因素交互logistic 回归模型,采用逐步回归法筛选变量并计算结果。
1.4 统计分析 使用Excel 2010 进行数据整理和汇总,计数资料的描述使用频数或率,计量资料的描述使用M(Q1,Q3);率的比较采用χ2检验。使用anaconda 3-5.3.1(含python 3.7.0)对密切接触者及关联病例数据进行统计分析和建模;使用scikitlearn 随机森林Random Forest Classifier 模块与logistic 完全二次回归模型挖掘各因素之间的二次交互效应。检验水准α=0.05。
2 结 果
2.1 密切接触者基本情况 本研究共纳入COVID-19 病例密切接触者5 168 例,其中男性2 558 例(占49.50%),女性2 610 例(占50.50%),性别比为1∶1.02;密切接触者年龄范围为4~97岁,年龄中位数为41.0(33.5,53.0)岁。密切接触者中共有101例转归为COVID-19病例,其中确诊病例4例,无症状感染者97例,总感染率为1.95%。见表1。
2.2 随机森林法筛选情况 通过随机森林特征重要性评估算法[11]得出各影响因素重要性,结果表明,密切接触者的接触方式、接触频率、关联病例关系、接触地点、关联病例临床情况、年龄、性别、职业与密切接触者是否感染关联较大。见图1。
图1 随机森林模型对密切接触者感染影响因素的筛选结果Figure 1 The results of infection factors in close contacts screened by random forest model
2.3 不同特征密切接触者感染情况分析 对随机森林算法筛选出的8 个重要性评分较高的影响因素进行单因素分析,结果表明,不同性别、职业和关联病例临床情况的密切接触者感染率差异无统计学意义(χ2=0.92、0.47、0.90,P均>0.05),不同年龄、关联病例关系、接触方式、接触地点、接触频率的密切接触者感染率差异均有统计学意义(χ2=19.34、26.34、43.55、32.41、49.72,P均<0.05),性别为“女”、年龄为“≤10 岁”、与关联病例关系为“亲属”、接触方式为“共同生活”、接触地点为“家庭”、接触频率为“经常”的感染率相对较高。见表1。
2.4 多因素交互logistic回归分析 对单因素分析中有统计学意义的因素使用传统logistic 回归模型进行分析,同时对筛选的8 个主效应进行两两交互得到56 项二次交互效应并进行多因素交互logistic回归分析。传统logistic 回归结果表明,接触方式、关联病例关系和接触频率均与感染情况存在正相关。多因素交互logistic 回归结果表明有2 项主效应和5 项交互效应与感染情况的关联有统计学意义。见表2。
2 种模型的准确率、精确率、召回率和F1 分数分别为76.22%、70.19%、78.89%、73.33%和82.35%、79.48%、82.39%、78.79%,多因素交互logistics 回归模型的上述指标分别提高了8.04%、13.24%、4.44%和7.45%。
3 讨 论
将随机森林算法与多因素交互logistic回归模型相结合,通过随机森林算法筛选出与新型冠状病毒感染相关的主要影响因素,具有训练速度快的优点,不仅克服了随机森林算法不易进行参数估计的缺陷,还能够处理高维数据,解决了传统logistic 回归模型在遍历交互效应时算法复杂度较高的问题[12]。
从特征筛选结果看,性别和职业重要性评分较低,该结果和单因素分析中不同性别和职业密切接触者的感染率差异无统计学意义的结果一致。在感染情况影响因素的回归分析方面,传统logistic回归的结果较为宏观,难以计算二次交互效应,而通过多因素交互logistic 回归,本研究发现接触方式为“共同生活”以及接触频率为“经常”与感染情况存在正相关,该研究结果与辽宁省[5]和广州市[7]的研究结果一致;接触方式为“共同生活”且接触地点为“家庭”、年龄为“≤10 岁”且关联病例关系为“亲属”以及关联病例关系为“同事朋友”且接触频率为“经常”等3 项交互效应与感染情况呈正相关,接触方式为“同空间但无直接接触”且接触频率为“偶尔”以及年龄为“>60 岁”且接触频率为“偶尔”与感染情况呈负相关,上述交互效应影响因素在国内同类研究中尚无报道,说明多因素交互logistic回归模型可能在影响因素发现方面具有全面性和精确性更高的优势。
从模型性能方面进行对比,相较传统logistic回归模型,多因素交互logistic 回归模型在准确率、精确率、召回率和F1 分数等方面均有所提升,说明该模型通过挖掘潜在的交互效应,能够较好地捕捉可能存在的低阶或高阶交互因素,使分析结果更为准确。
综上所述,在疾病防控工作中,应用多因素交互logistic 回归模型能够深度挖掘疾病相关影响因素和其交互效应,从而为精准定位防控重点人群、提升疾病防控工作效率提供有力支撑。
利益冲突声明全部作者声明无利益冲突
作者贡献声明张凡负责论项目设计、资料收集和论文撰写;齐平负责数据分析和论文修改