APP下载

老年认知障碍风险预测模型的研究进展

2023-10-26孙雯倩林榕颜缘娇李红

中国护理管理 2023年8期
关键词:队列决策树认知障碍

孙雯倩 林榕 颜缘娇 李红

认知障碍是指言语、学习、记忆、执行、视觉空间和思维判断等多种认知功能中的一种或多种受损,导致大脑高级智能加工过程出现异常的情况[1]。老年人是认知障碍的高发群体,自出现主观症状起,老年认知障碍包括主观认知下降阶段、轻度认知障碍阶段及阿尔茨海默病(Alzheimer’s Disease,AD)阶段[2]。2021年世界阿尔茨海默病报告[3]指出,全球AD患者超过5500万人,我国老年人口较多,目前有近1000万名AD患者[4],年均经济负担在2050年预计将达到9.12万亿美元,高于全球平均水平。由此可见,AD在中国和世界范围内均带来沉重的经济负担和社会发展压力[5]。而目前尚无特效疗法能阻止或逆转AD的病情进展,同时已有研究表明,早期控制危险因素、合理利用保护因素可以有效预防或延缓认知功能的恶化[6]。因此,提高医护人员对老年认知障碍的重视,加强风险评估,进行早期识别和有针对性的干预已成为防治工作的重点。风险预测模型是指以引起疾病的多种危险因素为基础,通过统计学方法建立模型,以估算患某疾病或发生某疾病结局的概率,可用于预测疾病发展、治疗反应和预后情况等[7]。目前,已有数个老年认知障碍相关的风险预测模型,由于不同研究选择的建模方法、预测因素等存在差异,现有模型存在纳入因素不够全面、外部验证欠缺等不足。本文从模型的构建方法、基本情况和预测性能等方面对相关研究进行总结、分析和比较,通过了解老年认知障碍相关风险预测模型,推动临床决策工具质量的提高,提升护理人员对认知障碍识别的科学性和准确性[8],为老年人提供更具针对性的认知干预,从而延缓认知障碍向AD转化,同时也为老年认知障碍风险预测模型的构建和应用提供借鉴。

1 风险预测模型概念

风险预测模型目前已广泛应用于临床指南、临床实践、流行病学、循证医学研究等方面[9]。开发预测模型的方法众多,可大致分为传统统计学算法、机器学习算法和联合使用两种算法。传统统计学算法模型即通过构建数学模型的方式进行风险预测,其中以Logistic回归和Cox比例风险回归模型最为常见,而机器学习算法模型则利用人工智能技术,通过计算机模拟人类学习行为进行风险预测,比较常见的模型有决策树模型、梯度提升机模型、贝叶斯算法模型等。

2 基于传统统计学算法构建的老年认知障碍风险预测模型

2.1 预测老年认知障碍的Logistic回归模型

Logistic回归是以疾病的发生为因变量,预测因素为自变量的一种回归分析法,主要用于预测因素的筛选,并在此基础上构建模型,用于后续疾病的判别和预测,适合于二分类事件的预测[8]。

2022年,我国学者采用回顾性研究方法,使用中国健康与退休前瞻性队列研究(China Health and Retirement Longitudinal Study,CHARLS)中2015年的数据,将9391名研究对象分为有认知功能障碍组和无认知功能障碍组,采用Logistic回归分析纳入19项危险因素,分别为高龄、女性、吸烟、饮酒、过去1个月平均每晚睡眠不足4.5 h、15岁前身体状况不好、高血压病史、血脂异常病史、平均收缩压>127 mmHg、平均舒张压>76 mmHg、BMI>23.01 kg/m2、腰围>85.10 cm、血红蛋白(Hb)>139.78 g/L、血尿素氮(BUN)≤6.18 mmol/L、血肌酐(Cr)>63.30 μmol/L、总胆固醇(TC)≤2.09 mmol/L、尿酸(UA)>249.82 μmol/L、高密度脂蛋白胆固醇(HDL-C)≤1.40 mmol/L、胱抑素C(Cys-C)≤0.94 mg/L等,构建了整合式预测模型[10]。该模型的受试者特征曲线(Receiver Operating Characteristic Curve,ROC)曲线下面积为0.686,有良好的预测性能。但是由于该模型纳入的血液分析指标较多,其外推性受到限制,需要进行外部验证明确其预测效能。

在预测因素的选择优化上,许多学者采用套索算法(the Least Absolute Shrinkage and Selection Operator,LASSO)选择最佳预测变量,此方法可以通过缩小回归系数来减少建模过程中的过度拟合,再结合多元回归分析构建预测模型。2021年,Wang等[11]采用回顾性研究方法,收集了1099名老年人的临床资料,通过LASSO回归结合Logistic回归分析纳入6项危险因素,分别为女性、高龄、经济状况较差、健康状况不佳(即基础疾病更多)、不健康的生活方式(即吸烟、饮酒、体力活动少等)和有痴呆家族史,构建认知障碍预测模型并绘制列线图,该模型训练集的曲线下面积为0.822,验证集的ROC曲线下面积为0.801,表明该模型具有中等预测能力。但该模型纳入的部分指标较为宽泛,如健康状况指标,可根据现有研究在蔬果摄入、听力障碍、睡眠障碍等方面进行细化,同时,该模型也缺乏外部验证,未来需要在扩大样本量的同时在不同地区开展外部验证,进一步改善模型。2022年,董晓慧等[12]通过多中心观察性研究,以546名老年人为研究对象,也采用此方法纳入高龄、文化程度低、有直系亲属痴呆史、存在主观认知下降、处于衰弱状态、有代谢综合征和低蛋白血症7项风险因素,并绘制列线图预测老年人发生认知障碍的风险。该模型的校正后C指数为0.858,校准曲线与理想曲线接近重合,表明模型具有良好的精准度和区分度,决策曲线也表明临床中应用该模型可增加受试者的临床获益。该模型选取的风险预测指标成本低,适用于基层医疗单位和门诊对认知障碍进行快速筛查。但由于该研究设计为横断面研究,无法确定影响因素与认知障碍之间的因果关系,需要进一步随访受试者认知功能的长期变化,且尚未见该模型的临床验证,缺乏外部验证结果作为支持,在临床应用前仍需要在不同领域和不同文化人群中进一步开展外部验证。

2.2 预测老年认知障碍的Cox比例风险回归模型

当研究目的不仅关注事件发生,同时也关注时间与事件的关系时,多用Cox比例风险回归模型。相较于Logistic回归模型,Cox比例风险回归模型的优势在于可以在关注事件基础上同时关注时间与事件的关系,且允许有截尾数据的存在,在认知功能障碍相关结局的预测研究中应用也较为普遍。

2020年,周锦辉[13]利用中国老年健康影响因素跟踪调查(Chinese Longitudinal Healthy Longevity Survey,CLHLS)数据对10066名老年人进行了回顾性分析,基于LASSO回归结合既往文献证据纳入8项危险因素,分别为高龄、基线简易精神状态检查量表得分低、日常生活自理能力低(ADL和IADL量表评分低)、咀嚼能力差、视力差、有脑卒中史、从不看电视或听收音机、从不种花或养宠物,采用Cox比例风险回归建立模型,通过bootstrap 2000次重复抽样的方法进行内部验证,并使用CLHLS项目2008年—2014年的队列数据进行外部验证。该模型的内部验证和外部验证ROC曲线下面积分别为0.891和0.867,表明其预测未来6年认知功能障碍发生与否的能力较强。该模型纳入的预测因素均为易测量变量,有利于医护人员或基层工作人员对老年人进行认知障碍风险预测。但该研究认知功能的随访间隔时间长达3年,在结局状态和结局时间的记录上可能存在偏倚,且建模队列和验证队列均来自同一数据库,未来可使用其他研究数据进行外部验证的补充。2021年,日本Honda等[14]学者采用回顾性队列研究方法,对795名老年人的24年纵向随访数据进行分析,基于Cox比例风险回归构建模型,纳入高龄、女性、受教育程度低、消瘦、有高血压、有糖尿病、有脑卒中史、当前吸烟和久坐9项危险因素。该模型C统计量为0.755,有良好的辨别能力,可有效识别认知障碍的高危个体。但由于基线数据收集不够全面,一些认知障碍的危险因素没有被纳入该模型,如听力障碍、头部外伤、抑郁等,忽略了一些与认知障碍高度相关的预测因素,且该模型尚未进行外部验证及临床应用,其临床应用价值还需要进一步明确。

3 基于机器学习算法构建的老年认知障碍风险预测模型

传统统计学算法,如Logistic回归和Cox风险回归,虽然能通过分析疾病转归的危险因素构建模型,但仍存在一些缺陷。Logistic回归仅考虑了疾病的结局(如死亡、复发等),未考虑患者的生存时间;Cox回归克服了Logistic回归的一些缺陷,考虑了疾病结局和患者的生存时间,但只能处理一个终点事件的资料,不能处理具有多个终点事件的资料,也不能处理同时具有左删失和右删失的数据。近年来,机器学习已被广泛应用于预测模型构建,机器学习方法可通过对统计数据的分析揭示大数据环境下影响因素和疾病之间的隐藏相关性[15],现也被广泛应用于老年认知障碍风险预测模型的研究。

3.1 预测老年认知障碍的决策树模型

决策树是数据挖掘技术的一种,是运用递归划分自变量的原理将自变量分为不同类别,以构建树的模型,克服了Logistic回归分析的共线性问题,将决策树模型引入老年认知障碍影响因素的研究,可以直观、简洁地探讨影响因素、因素之间的相互作用并作出预测,体现了决策树模型在临床医学研究中的优势及可行性[16]。

2020年,Pandhita等[17]采用横断面研究方法,获取212名老年人资料,其中有76名(35.8%)老年人患有轻度认知障碍,通过Logistic回归纳入4项危险因素后构建决策树模型,分别为主观认知下降、缺乏体育锻炼、语言流利性测试异常和单腿平衡能力差。该模型的敏感度和特异度分别为71.5%和100.0%,但由于样本量较小且缺乏外部验证,需要进行大规模多中心研究才能明确其外推性及临床有用性。我国学者石宇[18]采用横断面研究方法,比较决策树模型与传统统计分析方法,通过决策树模型纳入了无社会交往、受教育年限≤3年、有糖尿病、无兴趣爱好、吸烟、有饮茶习惯6项危险因素;采用Logistic回归分析构建模型,纳入了独居、长期居住地为农村、有糖尿病、不常参加社会交往4项危险因素。两个模型的评价结果显示,决策树模型的准确度(76.8%)和ROC曲线下面积(0.765)均大于Logistic回归模型(71.8%、0.722),说明决策树模型的预测能力更优。

但2020年,侯继文[19]将决策树模型与Logistic模型进行比较,发现决策树模型预测认知障碍的ROC曲线下面积为0.811,与Logistic回归模型ROC曲线下面积(0.809)相比,预测能力无明显差异。2021年,潘晶雪等[20]也将两种模型进行比较,发现高龄、不看报读书、不使用微信或电脑、兴趣爱好少、不参加社交活动、有糖尿病、有痴呆家族史、听力下降是老年人认知障碍的共同危险因素,但二者的ROC曲线下面积仍无明显差异,即预测能力比较差异无统计学意义。

3.2 预测老年认知障碍的梯度提升机模型

梯度提升机是一种集成算法,可有效处理大规模数据,并在尽量减少分类错误的同时建立预测模型。2019年,Na[21]采用回顾性研究方法,将梯度提升机应用于由3424人组成的队列数据以预测认知障碍风险。通过梯度提升机模型纳入的预测变量排名前10位的分别为高龄、简易精神状态检查量表得分低、受教育程度低、女性、日常活动受限、独居、有关节炎、对经济状况的满意度低、对健康状况的满意度低、有糖尿病。该模型的敏感度、特异度和ROC曲线下面积分别为0.967、0.825、0.921,说明该模型预测效能较好。模型纳入的预测变量均易于收集,可在社区进行老年人认知障碍的风险预测。但由于缺乏外部验证,该模型在真实世界中的临床使用价值还需要进一步明确。

3.3 预测老年认知障碍的贝叶斯网络模型

贝叶斯网络模型作为一种强大而灵活的研究工具,可以生成显示变量之间关系的网络结构,用于个体风险评估并易于转换为决策模型[22]。将贝叶斯网络模型应用于老年人认知障碍队列研究,可以直观地了解认知功能影响因素之间的相互关系,并实现因果推断和个体的疾病风险预测。

杨蓓[23]采用队列研究,通过构建贝叶斯网络模型纳入了认知功能下降(蒙特利尔认知评估量表评分<26分)、抑郁状态、女性、高龄、性格内向、受教育程度低、非在婚状态、家庭人均收入低、退休前为体力劳动者、不读书看报、身体活动少、饮酒、有脑外伤史、有高血压14项风险因素,对老年人认知功能障碍有直接预测作用的是有高血压、受教育程度低、退休前为体力劳动者和抑郁状态。该模型的灵敏度、特异度、预测准确率分别为0.869、0.770、77.14%,说明预测效能较好。但当贝叶斯网络模型中的变量较多时,模型的拟合稳定性不佳,且该研究的研究对象为当地部分社区老年人,对于模型的外推可能会造成一定限制,有待于进一步临床验证。

3.4 预测老年认知障碍的多状态马尔可夫模型

多状态马尔可夫模型(Multistate Markov Model)是处理多状态资料的有效工具,可以同时考虑所有的状态、结局、状态间转移的时间信息以及可能的影响因素,实现对随机过程进行连续性动态研究,动态地评价疾病进展[24]。近年来,多状态马尔可夫模型也被引入认知障碍的发展转归研究中。

2022年,Sanz-Blasco等[25]采用队列研究方法,使用多状态马尔可夫模型探索老年认知障碍转归的概率及影响因素,模型中由正常认知发展为认知障碍的部分纳入4项危险因素,分别为80岁以上、社会经济地位较低、携带载脂蛋白E基因、日常活动不足。但该模型并未进行模型评价及外部验证,尚无法确认其临床预测性能,需要补充模型的评价部分,以获得确切的预测性能结果。

4 联合使用多种算法构建的老年认知障碍风险预测模型

随着大数据和计算机技术的飞速发展,整合多维数据层(如健康状况、寿命、环境、社会、遗传)并应用多种统计学方法(如机器学习、生存分析、多层次建模)的多学科合作已成为现代医学风险预测模型前进和发展的必然要求[26]。

2021年,Hu等[27]采用回顾性队列研究方法,从CLHLS中获取6718名老年人队列资料,将Logistic回归分析、随机森林模型、极致梯度提升(XGBoost)模型、贝叶斯网络模型4种统计分析方法两两组合进行45个变量的筛选,结果显示,基于贝叶斯网络与随机森林相结合的方法选择的4个预测因素准确性最高(0.834),即高龄、工具性日常生活能力高(IADL评分高)、非在婚状态和基线认知功能差(简易精神状态量表得分低)。因此,使用这4个预测因素进行模型构建,灵敏度由大到小依次为随机森林模型、XGBoost、Logistic回归模型、贝叶斯网络模型,特异度由大到小依次为贝叶斯网络模型、Logistic回归模型、XGBoost、随机森林模型。同时,研究者基于Logistic回归分析构建了列线图预测认知障碍的发生风险,模型的最佳临界值为170,分数≥170分的老年人在3年内有更高的认知障碍风险。但由于该研究用于构建模型的老年人队列年龄相对较小,平均认知能力和身体功能较好,未考虑慢性病对认知功能的影响,因此,构建出的模型可能更适用于健康老年人,该模型仍需要在独立队列中完善外部验证,以明确其实际预测效果。

5 小结与展望

本文从老年认知障碍风险预测模型的构建方法、基本情况和预测性能等方面进行综述。由于不同研究选择的研究方法、建模方法、筛选的危险因素各不相同,每种预测模型都各有优缺点。综上可知,当前老年认知障碍风险预测模型的建模方式多样,但数据大部分来源于回顾性研究,虽所需的人力、物力较少,易于进行,但数据的完整性和准确性无法得到保证,未来可通过前瞻性队列研究收集数据,进一步提高模型的预测性能。同时,选择合适的预测变量对开发适用于社区或临床的预测模型也十分重要,未来研究可将文献回顾法、专家函询法和预调查相结合,基于循证方法筛选预测模型的纳入变量,为了使模型更易于推广使用,可考虑选择易于获得、易于测量且有明确定义的预测因素。此外,当前大部分模型仍处于内部验证阶段,临床应用转化率低,今后还需要在不同地区进行外部验证,并利用新收集的资料实现动态更新,为模型的优化和推广奠定基础。

猜你喜欢

队列决策树认知障碍
防跌倒,警惕认知障碍性疾病
关爱父母,关注老年认知障碍症
队列里的小秘密
基于多队列切换的SDN拥塞控制*
慢性心力衰竭与认知障碍的相关性
一种针对不均衡数据集的SVM决策树算法
在队列里
决策树和随机森林方法在管理决策中的应用
丰田加速驶入自动驾驶队列
基于决策树的出租车乘客出行目的识别