基于随机森林算法研究老年流动人口肺结核发病风险因素
2023-10-19马建军张铁娟赵庆龙于世晖梅扬
马建军 张铁娟 赵庆龙 于世晖 梅扬
我国2021年流动人口为3.85 亿,年龄≥60岁的人口超过2.6亿;老年流动人口是流动人口中增长较快的群体,正在成为流动人口和流入地社会的重要构成群体[1];在流动人口规模持续扩大、人口老龄化程度不断加深的背景下,由于代际之间互惠、继续就业、自身养老需求等原因,老年流动人口的规模还将持续稳定增长[1]。流动人口和老年人均是肺结核防治的重点人群。流动人口因其工作、生活条件和健康观念较差,面临比常住人口更复杂的健康风险[2]。同时,我国老年肺结核患病率居高不下,年龄≥60岁的居民肺结核患病率是<60岁居民的2.2~4.2倍[3]。在此背景下,笔者应用机器学习算法随机森林构建吉林省老年流动人口肺结核发病风险模型,分析发病风险因素,为制定肺结核重点人群防治策略提供参考。
对象和方法
一、研究对象
采用1∶1匹配设计的病例对照研究,病例组选择“中国疾病预防控制信息系统”的子系统“结核病管理信息系统”中2021年吉林省年龄≥60岁的所有确诊登记的296例流动人口肺结核患者;对照组选择当地年龄≥60岁的社区非户籍健康人群,通过现场访视或电话询问的方式获取调查信息,并获得人员知情同意。纳入标准:(1)依据《WS 288—2017肺结核诊断》标准确诊的肺结核患者;(2)年龄≥60岁;(3)非户籍人口。排除标准:(1)拒绝调查;(2)肺外结核患者。对照组纳入标准:(1)非户籍的健康人群;(2)年龄≥60岁;(3)既往无结核病病史;(4)自愿接受调查。对照组按照性别与病例组1∶1匹配。本研究中流动人口指非户籍人口,老年流动人口指年龄≥60岁的非户籍人口,“结核病管理信息系统”中以外地户籍统计流动人口结核病患者[4]。
二、研究方法
1. 调查方法:制定调查问卷,问卷内容包括基本情况、既往病史、生活方式及行为习惯等。经研究对象知情同意后,采用电话或现场询问方式进行问卷调查。病例组调查患者296例,发放问卷296份,有效问卷281份,有效率为94.93%,将问卷有效的281例患者纳入病例组。对照组发放问卷296份,有效问卷296份,有效率为100.00%,按照上述匹配的标准选择281名纳入对照组。调查前统一培训调查员,调查后对数据进行双份录入并进行复核。
2. 算法模型及评价:随机森林是集成学习算法自动聚合(boostrap aggregating)最具有代表性的算法,2001年由Leo Breiman提出的将集成学习理论与随机子空间方法结合的机器学习算法[5],其基本思想是先利用bootstrap抽样,从原始训练集抽取k个样本,每个样本的样本量与原始训练集一样,然后对k个样本分别建立k个决策树模型,获得k种分类结果,最后根据k种分类结果对每个记录进行投票决定其最终分类;随机森林对异常值和噪声具有容忍度,不容易出现过拟合,是一种自然的非线性建模工具[6-7]。本研究利用R Software Version 4.2.1 中的randomForest包,通过randomForest函数构建随机森林模型。
三、统计学处理
结 果
一、基本情况
两组人群共562例/名,其中男性357例/名,女性205例/名,男女性别比为1.74∶1;年龄范围60~75岁,平均年龄(67.48±4.76)岁。两组年龄、性别、教育水平比较差异均无统计学意义,见表1。
表1 两组人群基本情况
二、建立模型及评价
使用randomForest包建立的随机森林默认生成500棵决策树,但生成过多的树会导致模型过拟合,因此通过寻找最小误差率确定281棵树时模型最优,随机森林模型误差和树的数量关系见图1;利用randomForest包建立随机森林模型袋外数据误差率为6.44%。随机森林模型的ROC曲线下面积为0.967。利用Caret包,trainControl函数设置10折交叉验证,采用resamples函数对随机森林模型和梯度增强机(GBM)进行装袋,随机森林模型和GBM正确率分别为93.5%和93.2%,Kappa值分别为0.870和0.865。
注 “····”曲线表示训练误差曲线,随机森林模型在训练集上的性能随着树的数量增加而变化,模型在训练集上进行了多次拟合训练,训练误差会逐渐减小;“—”曲线是袋外数据误差曲线,是一种内置的交叉验证度量,使用未在每棵树的训练中使用的数据进行评估,可估计模型的泛化性能,并选择合适树的数量;“----”曲线表示测试误差曲线,测试误差是模型在未见过的数据上的性能度量,测试误差会在树的数量逐渐增加后达到一个最小值,然后会趋于稳定或者略微上升图1 随机森林模型误差和树的数量关系图
三、发病风险因素
MeanDecreaseGini是随机森林算法中用于衡量特征重要性的一种指标,它表示每个特征在随机森林模型中具有的影响力和重要性,MeanDecreaseGini的值越高,特征的重要性越大。按照MeanDecreaseGini的值,构建的随机森林模型显示发病风险因素前5位分别为有结核病患者接触史(44.344)、工作经常变动(29.007)、个人防护差(21.859)、吸烟(19.703)、较少摄入肉蛋奶(15.242),随机森林模型特征变量的MeanDecreaseGini见表2,发病风险因素重要性见图2。
图2 发病风险因素重要性
表2 随机森林模型特征变量的基尼平均减少值
讨 论
人工智能是当今最热门的技术之一,机器学习被认为是人工智能的一个子集[8]。目前,决策树在医学领域已成为分析疾病危险因素的工具[9-11],国内基于决策树的结核病研究主要应用在诊断[12-13]、治疗[14]、发病风险[15]、经济学评价[16-18]等领域。机器学习处理分类问题的算法较多,决策树作为机器学习算法中的单个分类器,易产生过拟合,而随机森林作为一种基于决策树的集成学习算法,是由许多决策树模型组成的分类模型,计算开销小,易于实现[5]。本研究的结果亦显示,随机森林是分类精度和效率较高的算法,其理论和方法的研究比较成熟,在许多领域研究应用效果较好[5],但目前应用随机森林在结核病领域相关研究还较少,在分类算法的应用研究上具有较为广阔的前景。
本研究应用随机森林模型显示,肺结核发病风险因素主要包括结核病患者接触史、吸烟史、个人防护和摄入肉蛋奶等,与蔡晓楠等[15]的研究结果类似,结核病患者接触史发病风险影响最大,提示筛查普通肺结核和耐多药肺结核患者的家属、同事、朋友等直接接触者对结核病防控具有重要意义。我国老年流动人口以男性偏多[19],男性的总吸烟率为59.7%[20],研究发现吸烟与结核病发病存在关联,与陈松华等[21]和陆兰英等[22]研究一致,经常吸烟会降低机体免疫力,是肺结核发病的主要危险因素。较少摄入肉蛋奶可能会导致营养不良,而营养不良与结核病发病密切相关并相互影响,其中蛋白质-能量营养不良是结核病发病的危险因素之一[23]。加强个人防护是切断传播途径可行的措施,与传染性肺结核患者接触,或出入有较高传染风险的场所时,个人应佩戴医用防护口罩;传染期肺结核患者应避免去公共场所,外出时必须佩戴口罩,避免乘坐密闭交通工具,定点医院结核病门诊应为就诊者免费提供外科口罩[24]。
本研究结果显示,不注意个人防护、缺少体育锻炼、居住房间通风不好、教育水平偏低等也是老年流动人口肺结核发病的风险因素,而这些与其健康素养关系密切。有研究发现,老年流动人口的健康素养在流动人口群体中最低,此外,通过健康档案、健康教育、医疗服务等指标反映出老年流动人口利用基本公共卫生服务的情况较差[1],他们没有充分利用这项权利用于健康检查[25]。主客观因素的双重作用导致这一结果,主观因素是老年流动人口主动就医行为较差,卫生服务利用率较低[26];宋全成和尹康[19]的研究显示,57.79%的老年流动人口为农村人口,受教育水平平均为7年,这可能是老年流动人口健康意识淡薄,就医不及时,生病时选择不理会或自行买药的原因之一,另一个原因是老年流动人口在流入地社会融合程度较低,产生了消极的就医态度[27]。就医不及时不仅延误肺结核诊断,也会使感染结核分枝杆菌的老年流动人口病情加重。客观因素是户籍制度限制流动人口获得流入地的福利[25],不同统筹地区的医保报销起付线、支付比例、支付限额不同导致异地就医报销水平偏低,外地参保或未参保老年人的就医比例明显降低[27];宋全成和尹康[19]的研究提示,尽管94.39%的老年流动人口参加了医疗保险,但仅有15.67%的人参加了流入地的医疗保险,而老年流动人口未在流入地参保也增加了他们罹患肺结核的风险。
伴随着我国老年流动人口数量的增长,其健康问题成为社会关注的重点问题[26],因此,尚需重点关注提高基层的卫生服务能力、完善医疗保险制度、减少制度环境不平等等方面的问题。首先要加强结核病和糖尿病等严重影响健康的慢性传染病和非传染性疾病的健康教育,提高老年流动人口对疾病的科学认识,此外,还要提高基层医疗卫生服务机构对老年流动人口肺结核的识别能力,推广使用人工智能影像诊断技术,向基层医疗卫生服务机构提供远程会诊/远程培训等远程医疗服务,提高老年流动人口结核病诊断的及时性和准确性,对疑似患者及时转诊到定点医疗机构,对老年流动人口肺结核患者应用视频督导、电子药盒等数字化管理工具,提高其治疗的依从性。其次,加快完善异地医疗保险的统筹和报销制度,解决老年流动人口异地医保报销繁琐问题,探索子女医保资金支付父母体检、商业健康保险及部分医疗费用等多种方式提高老年流动人口的就诊意愿[26]。目前,我国医保制度在地区之间、城乡之间存在不平等,老年流动人口成为主要承受人群,如果增加对低龄老年人卫生健康服务的投入,可能会减少在高龄阶段的医疗费用支出,减少因为身份、户籍、地区和城市规模等原因造成的制度环境方面的不平等[28]。
我国已经迈入老龄化社会,老龄社会治理必然绕不开老年流动人口群体,对于这一规模日趋庞大的群体,城市治理的顶层设计、基层治理的工作实践都必须将其纳入其中。本文以该群体肺结核发病风险的单一视角为切入点,以期加大社会对该群体的健康重视,帮助提升老年流动人口的生活质量。
利益冲突所有作者均声明不存在利益冲突
作者贡献马建军:研究思路设计、统计分析、论文撰写及论文修改;张铁娟和赵庆龙:方案设计及修改;于世晖:数据整理、文献检索;梅杨:设计思路和方案设计