基于少数类样本合成过抽样技术算法2型糖尿病合并周围神经病变风险预警模型构建
2023-09-22庄翠侠杨俊平刘思园姜莉晴季学磊祝腊香
庄翠侠, 杨俊平, 王 妍, 刘思园, 姜莉晴, 季学磊, 祝腊香
芜湖市第二人民医院1.全科医学科;2.内分泌科;3.神经内科,安徽 芜湖 241001
糖尿病是指以高血糖为主要特征的一组代谢性疾病,多数患者为2型糖尿病,临床表现为消瘦、多食、多饮和多尿等[1-3]。近年来,随着生活方式改变和社会经济发展,2型糖尿病患病人数不断增加[4-6]。目前,2型糖尿病的发病机制尚未完全明确,临床多认为其与环境因素、遗传因素有关[3]。周围神经病变是2型糖尿病较常见的并发症,累及运动、感觉及自主神经,可造成坏疽、难治性溃疡、感染及严重的感觉缺失等,从而导致残疾,甚至死亡[7-8]。因此,探讨2型糖尿病合并周围神经病变的危险因素,及时制定相关的防治对策,并给予患者有效干预,具有十分重要的临床意义。传统的预测分析方法对不平衡数据的处理效果欠佳,不适合构建周围神经病变的预测模型,难以对周围神经病变进行有效预测[9]。少数类样本合成过抽样技术(synthetic minority oversampling technique,SMOTE)算法是依据少数类样本量的属性特征随机产生组间相似样本量,可以使少数类与多数类之间的数量达到有效平衡,减少数据集过度倾斜带来的较大偏差。目前,SMOTE算法已成为分析临床结局事件的热门方式[10]。本研究基于SMOTE算法构建2型糖尿病合并周围神经病变的风险预警模型,以期为周围神经病变的防治提供参考意见。现报道如下。
1 对象与方法
1.1 研究对象 选取自2020年1月至2021年12月芜湖市第二人民医院收治的205例2型糖尿病患者为研究对象。纳入标准:年龄≥18岁;符合2型糖尿病的相关诊断标准[11];近1个月内未接受过抗生素、免疫抑制剂等药物治疗;无精神障碍,可以自主交流;患者及家属对本研究知情同意并签署知情同意书。排除标准:合并恶性肿瘤;继发性糖尿病、1型糖尿病及妊娠期糖尿病等其他类型糖尿病;手术、药物、腰椎病及颈椎病等其他原因引起的周围神经病变;合并糖尿病急性并发症;重要脏器功能障碍;凝血功能障碍;血液系统疾病;自身免疫性疾病。根据周围神经病变发生情况将患者分为周围神经病变组(n=70)和无周围神经病变组(n=135)。周围神经病变的判断标准参考文献[11]。
1.2 研究方法 收集并记录患者的年龄、性别、病程、居住地、婚姻状态、体质量指数、文化程度、饮酒史、吸烟史、糖化血红蛋白、高血压、空腹血糖及合并糖尿病视网膜病变(diabetic retinopathy,DR)等资料。
1.3 基于SMOTE算法 SMOTE算法是通过Blagus等[12]制定的步骤,将单组少量样本数量扩充至两组相似样本数量的一种方法。本研究少数量样本为周围神经病变组患者=70例,需扩充倍数n=无周围神经病变组/周围神经病变组=1.93,最近邻点数k=2,70×2=140例。周围神经病变组患者=140例,无周围神经病变组=135例,两组比例为1.04。基于SMOTE算法所扩充新数据集并未对原样本集的空间边界产生影响。
2 结果
2.1 单因素分析结果 两组患者性别、居住地、饮酒史、吸烟史、空腹血糖比较,差异无统计学意义(P>0.05)。两组患者年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压、合并DR比较,差异有统计学意义(P<0.05)。见表1。
表1 单因素分析结果/例(百分率/%)
2.2 Logistic回归分析结果 将年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR作为自变量,将2型糖尿病是否发生周围神经病变作为因变量,进行Logistic回归分析。结果显示,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素(P<0.05)。基于以上各危险因素的回归系数,可得原始预警模Logit(P1)=1.134X1+0.966X2+1.131X3+1.181X4+1.121X5+0.857X6+1.543X7+1.855X8-2.038,H-L检验结果(决定系数R2=0.352,P=0.328),提示Logistic回归模型的拟合度良好。见表2。
表2 Logistic回归分析结果
2.3 基于SMOTE算法的预警模型 纳入Logistic回归分析的因素,基于SMOTE算法扩充2倍(135/70)抽样,得到周围神经病变组和无周围神经病变组比例近似为1(实际比例为1.04),对抽样后的数据进行Logistic回归分析。结果显示,基于SMOTE算法的预警模型Logit(P2)=1.191X1+1.026X2+1.116X3+1.160X4+1.101X5+0.863X6+1.535X7+1.640X8-2.722,H-L检验结果(决定系数R2=0.371,P=0.635),提示基于SMOTE算法的预警模型拟合度良好。见表3。
表3 基于SMOTE算法Logistic回归分析结果
2.4 两种模型的效能评价 通过ROC曲线对原始预警模型和基于SMOTE算法的预警模型进行分析。结果显示,原始预警模型的ROC曲线下面积为0.809(95%可信区间0.758~0.860),基于SMOTE算法的预警模型的ROC曲线下面积为0.927(95%可信区间0.867~0.971)。基于SMOTE算法预测模型F-score和PPV值均高于原始预警模型,而TPR值低于原始预警模型。见图1、表4。
图1 两种预警模型的ROC曲线
表4 两种预警模型预测概率验证
3 讨论
2型糖尿病合并周围神经病变是现阶段临床医师迫切需要解决的重点问题。2型糖尿病合并周围神经病变不仅会增加患者的治疗费用,甚至可能会增加患者的死亡风险[13-14]。本研究共纳入205例2型糖尿病患者,其中,70例患者发生周围神经病变,135例未发生周围神经病变,周围神经病变的发生率为34.15%(70/205),提示2型糖尿病患者是周围神经病变的易发人群,医务人员应当对2型糖尿病合并周围神经病引起足够的重视。
本研究Logistic回归分析发现,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,与秦洁行等[15]研究结果一致。对于老年人,随着年龄的增加,机体的神经密度在逐渐减小,特别是表皮内神经纤维和小神经纤维,增加了周围神经病变的发生风险。病程较长的患者,机体长期处于高血糖状态,长期高血糖引起细胞因子分泌紊乱,氧化应激反应与多元醇代谢增强,进而引起神经功能及结构受损。李雯等[16]研究表明,未婚/离异/丧偶的患者更容易发生周围神经病变,与本研究结果一致。未婚/离异/丧偶的患者,缺少家属对病情跟进,若患者对疾病缺乏认知,难以对疾病的进展进行有效控制,导致周围神经病变的发生风险上升。有研究发现,高体质量指数的患者更容易发生周围神经病变[17],与本研究结果一致。体质量指数较高者机体较易发生胰岛素抵抗,使依赖胰岛素介导的血管内皮细胞功能受损,造成神经组织缺氧缺血进而发生损伤,从而导致周围神经病变。有研究报道,合并DR的患者更容易发生周围神经病变[18]。DR也属于2型糖尿病的并发症,虽然其与周围神经病变的发生机制有所不同,但两者的病理基础均与糖代谢紊乱、微血管病变及微循环障碍具有一定关系。因此,合并DR的患者更容易出现周围神经病变。目前,文化程度对周围神经病变影响的报道较少。本研究发现,文化程度较低的人群更容易发生周围神经病变,分析原因为文化程度较低的人群缺乏对疾病的认知,未能有效控制疾病进展,进而增加了周围神经病变的发生风险。本研究结果显示,高糖化血红蛋白的患者更容易发生周围神经病变,与既往研究[19]结果相符。高糖化血红蛋白表明患者的近期血糖持续处于高水平状态,蛋白质合成降低,引起代谢紊乱,进而使机体的正常防御功能减弱,导致周围神经病变的发生风险上升。此外,高血压患者更容易发生周围神经病变,可能是由于高血压容易发生血管内皮功能损伤,引起神经功能和结构受损,从而增加了周围神经病变的发生风险。
本研究所有患者中,无周围神经病变组占65.85%,周围神经病变组占34.15%,两组的样本量处于不平衡的状态。传统模型预测对少数类(如周围神经病变)的预测效果较差,对多数类(如无周围神经病变)的预测效果较好,样本量不平衡会对模型的预测精准度产生一定的影响[20]。SMOTE算法能够通过对原始数据进行重建而获得无周围神经病变组和周围神经病变组近似为1的新样本比例数据,再结合Logistic回归的结果能够得到SMOTE预警模型。本研究结果显示,原始预警模型的ROC曲线下面积为0.809,基于SMOTE算法的预警模型的ROC曲线下面积为0.927;基于SMOTE算法预测模型F-score和PPV值均高于原始预警模型,而TPR值低于原始预警模型,提示与原始数据预警模型相比,SMOTE算法的新预警模型的预测准确率更高。
综上所述,年龄、病程、婚姻状态、体质量指数、文化程度、糖化血红蛋白、高血压及合并DR是2型糖尿病合并周围神经病变的危险因素,基于SMOTE算法的预警模型能够准确预测2型糖尿病合并周围神经病变。此外,本研究存在不足,为单中心研究,样本量较小,纳入的影响因素有限,结果存在一定的偏倚。因此,关于基于SMOTE算法的2型糖尿病合并周围神经病变风险预警模型有待日后进行更深入的研究。