运用随机森林分析糖尿病视网膜病变的影响因素与HIF-1α基因多态性的关系
2016-12-23赵静庄彦
赵静 庄彦
运用随机森林分析糖尿病视网膜病变的影响因素与HIF-1α基因多态性的关系
赵静 庄彦
目的 采用随机森林算法分析糖尿病人群合并视网膜病变的影响因素以及与HIF-1α基因多态性的关系。方法选取糖尿病合并视网膜患者病变200例(DR组)和糖尿病不合并视网膜病变患者200例(NDR组),收集各临床及生化指标,并行HIF-1α基因多态性检测,利用随机森林方法进行降维,logistic回归对降维后的变量进行分析。结果 两组HIF-1α基因多态性基因型频率比较差异有统计学意义(χ2=9.88,P=0.01),经随机森林算法筛出6个重要性得分最高且错误率最低的变量纳入logistic回归模型进行分析,年龄(OR=1.03,95%CI:1.01~1.06),GG基因型(OR=16.20,95%CI:1.98~132.55),肌酐(OR=1.02,95%CI:1.00~1.03),糖化血红蛋白(OR=4.46,95%CI:3.35~5.96)为危险因素,行ROC曲线分析logistic回归模型拟合能力高,AUC=0.926,95%CI:0.901~0.952。结论 糖尿病合并视网膜病变与HIF-1α基因多态性相关。
糖尿病性视网膜病变 随机森林 HIF-1α基因多态性
糖尿病视网膜病变(DR)是糖尿病(DM)常见的微血管并发症之一,是DM患者的主要致盲因素。DR的发病机制至今仍不明确,国外有研究提示组织缺氧在DR的进展中起着至关重要的作用[1],缺氧诱导因子-1α(HIF-1α)成为许多疾病的重要相关基因,rs11549467(G1790A)是该基因的常见单核苷酸多态性位点[2]。当前国内外尚缺乏该基因多态性与DR的相关性研究,由于DR相关影响因素极其复杂,传统的资料分析方法难以避免各变量间的相互影响,而随机森林算法运行稳健,对数据集不做要求、不存在过拟合与共线性等问题[3]。笔者采用了基于机器学习理论的随机森林模型和基于流行病学研究设计的logistic回归模型,分析DR与HIF-1α基因多态性及关联因素间的关系,并建立风险预测模型,通过ROC曲线下面积(AUC)预测模型的优劣,现将结果报道如下。
1 对象和方法
1.1 对象 选取温州市中西医结合医院2014年1月至2016年1月DM患者400例,均为汉族,彼此间无血缘关系,年龄32~88(52.36±10.98)岁。根据2002年悉尼国际眼科学会议制订的新DR国际分型,将是否患有DR分为DR组和糖尿病未合并视网膜病变患者(NDR组),每组200例。排除合并其他心脑血管疾病,严重肝肾功能疾病,自身免疫性疾病,恶性肿瘤等。DR组男98例,女102例,符合2002年悉尼国际眼科学会议制订的新DR国际诊断标准[4]。NDR组男106例,女94例。本研究得到医院伦理委员会批准,所有研究对象均充分了解研究方案并签署知情同意书。
1.2 方法 问卷内容包括一般情况、健康相关行为、饮酒、吸烟、饮食习惯、运动情况、疾病史、身高、体重、血压等,抽取受试者空腹静脉血,测定各项生化指标。
1.3 HIF-1α基因型检测 所有患者均晨起抽取外周静脉血2ml,采用DNA试剂盒提取人类白细胞基因组DNA。将提取好的DNA置于-20℃冰箱保存备用。基因引物:上游引物:5′-TGT GGC CAT TGT AAA AAC TCA-3′,下游引物:5′-TTT AAT TCA TCA GTG GTG GCA-3′。行直接测序方法,读取个体的基因型,所有DNA提取由温州医科大学附属第一医院血液内科生物实验室完成,所有测序过程由华大基因公司完成。
1.4 统计学处理 应用SPSS17.0统计软件,经Hardy-Weinberg平衡检验确认样本的群体代表性,基因型及等位基因频率的比较采用χ2检验;计量资料以表示,两组间比较采用t检验。采用R软件得出随机森林的变量重要性评分并进行排序,把评分最高且误差率最低的变量纳入logistic模型进行多因素分析,得出预测概率为检验变量,实际应变量为“金标准”状态变量值= 1,进行ROC曲线分析,判断模型拟合能力的指标采用ROC曲线下面积、一致率,Youden指数=灵敏度+特异度-1,根据最大Youden指数确定最佳临界点。
1.4.1 变量重要性得分 以是否合并视网膜病变为因变量,各项生化指标及基因多态性作为自变量,建立随机森林模型,森林中每个节点处预选的变量个数为全部变量数的平方根,通过基尼指数(Gini)计算每个变量对分类树中每个节点上观测值的异质性影响,从而比较变量的重要性,如应变量为临界点数值时,均归入低赋值组。详见表1、2,图1。
表1 变量赋值表
1.4.2 降维统计 降维将根据重要性评分排列后的数据集进行滚动窗口序列特征选择(SWSFS)过程,即从重要性得分最大的变量开始,逐个引入变量,每加入一个变量即运行一次随机森林,以此获得每个随机森林的分类误差。以进入模型变量数为横坐标,分类误差为纵坐标绘制错误率图。寻找图中变量数相对较少、错误率相对较低时对应的变量组合作为降维后的变量集。
2 结果
2.1 两组临床及生化指标的结果对比 DR组在年龄、收缩压、空腹血糖、糖化血红蛋白(HbA1C)、TG、TC、LDL-C、肌酐均明显高于NDR组(均P<0.05);两组患者性别、BMI、舒张压、HDL、ALT、AST、谷氨酰转移酶、TBil、白蛋白、尿酸方面比较均无统计学差异(均P>0.05),详见表3。
表2 变量重要性得分
图1 随机森林变量重要性得分排序
2.2 变量筛选 随机森林筛选变量根据变量重要性得分,对变量进行排序,运行(SWSFS)过程,并绘制误差率图(见图2)。结果显示,在变量数为6时具有最小的分类误差,所以将重要性得分排在前6位变量的纳入经典logistic回归模型进行分析。所选变量分别是年龄、高血压病史、LDL、HIF-1α基因多态性、肌酐、HbA1C。
2.3 两组患者HIF-1α(rs11549467)基因多态性比较 两组患者HIF-1α(rs11549467)基因多态性基因型频率比较有统计学差异,详见表4。
2.4 Hardy-Weinberg平衡分析 两组患者HIF-1α(rs11549467)基因多态性基因型Hardy-Weinberg平衡分析,结果显示,两组趋向于遗传平衡,详见表5。
2.5 logistic多因素分析 根据随机森林筛选变量,纳入logistic回归分析,logistic回归模型如下:Logit(p)= -17.51+0.03X1+0.00X2+0.16X3+0.86X4+2.79X5+0.02X6+ 1.50X7,其中年龄(OR=1.03,95%CI:1.01~1.06)、GG基因型(OR=16.20,95%CI:1.98~132.55)、肌酐(OR=1.02,95% CI:1.00~1.03)、HbA1C(OR=4.46,95%CI:3.35~5.96)为危险因素,详见表6。
2.6 logistic回归模型拟合能力分析及最佳临界点确定一致率为(152+192)/400=86.00%,受试者工作特征曲线下面积(AUC)为0.926,95%CI:0.901~0.952,标准误为0.013(P<0.01)。该模型拟合能力高(图3)。根据ROC曲线灵敏度为0.96和特异度为0.77,Youden指数=0.72最大,对应的预测概率为0.45,确定该点为最佳诊断点,即各大影响因素根据logistic回归模型计算的概率≥0.45时,多因素与并发DR的相关性较大。
3 讨论
既往研究表明,DR的发生、发展与DM病程、高血压、高血糖、血脂异常、慢性肾病及相关实验室检查指标等多种因素有关[5]。本研究结果显示HbA1C与HIF基因rs11549467位点GG基因型是DR发生的重要相关因素,HbA1C水平的升高增加了DR的风险,OR高达4.46,结果与既往研究结果一致。
HIF-1是一种转录因子,参与细胞低氧诱导的特异应答,HIF-1α的蛋白水平和活性是决定HIF-1活性的主要成分,HIF-1α与血管内皮生长因子(VEGF)启动子区域的毗连反应元素相结合,对VEGF表达起关键作用[5]。国外研究认为DR病变的病理基础是视网膜微循环障碍,在微循环缺血及低氧状态下,视网膜产生VEGF并导致其微血管病变的出现,VEGF上调是DR发病的核心环节[6-7]。本研究中HIF基因rs11549467位点GG基因型患者发生DR的风险增加近16.20倍,考虑该基因位点变异可能是DR发生、发展的相关因素之一,与国内外研究结果类似[8-9],推测rs11549467的单核苷酸替换影响HIF-1α下游诱导生物学效应,影响HIF-1α在DR的表达,增加DR的风险。
表3 两组患者临床及生化指标比较
图2 不胜数SWSFS过程分类错误率图
表4 两组患者HIF-1α基因多态性基因型比较[例(%)]
表5 两组HIF-1α基因多态性基因型Hardy-Weinberg平衡检验[例(%)]
表6 DR影响因素logistic回归分析结果
图3 logistic回归模型ROC曲线
人体是一个有机的统一体,其内联系错综复杂,传统的logistic单因素分析对多重共线性数据资料处理存在较大偏倚,甚至有些结果与生物学现象相悖,而随机森林算法作为新兴的机器学习方法,对数据类型不做要求、可降低对多重共线性数据资料偏倚度,综合考虑各因子对结果的影响,能筛选对结局变量影响更大的因子变量并得出变量重要性评分,在生物医学方面具有较好的应用前景[3]。分子流行病学的模型有利于对DM患者DR的预测。因此,本模型的建立引入遗传因素,加强对DR易感危险的预测精度,从而增强评估的能力。通过多因素logistic回归方法筛选变量在确定高危个体及筛检上有一定的价值,当个体将其危险因素的状况代入所建立的logistic回归模型时如果计算的概率≥0.45时,即可对该DM患者DR易感性进行预警,该诊断点灵敏度为0.96和特异度为0.77。模型拟合能力高提示应加强检查并提供有效的个体治疗策略。
本研究尚存在局限性,首先本研究样本量仍偏小,结果仍有待扩大样本量来证实;其次实验未能直接证实HIF-1α基因多态性下游相关蛋白羧化/磷酸化指标,有待下阶段实验继续阐述。
[1]Joussen A M,Poulaki V,Mitsiades N,et al.Nonsteroidal anti-inflammatory drugs prevent early diabetic retinopathy via TNF-alpha suppression[J].FASEB J,2002,16(3):438-440.
[2]Kim H O,Jo YH,Lee J,et al.The C1772T genetic polymorphism in human HIF-1alpha gene associates with expression of HIF-1alpha protein in breast cancer[J].Oncol Rep,2008,20(5): 1181-1187.
[3]宋欠欠,李轶群,侯艳,等.随机森林的变量捕获方法在高维数据变量筛选中的应用[J].中国卫生统计,2015,32(1):49-53.
[4]惠延年,王琳.糖尿病视网膜病变和黄斑水肿的国际临床分类法[J].国际眼科杂志,2004,4(1):56-59.
[5]Sun J K,Cavallerano J D,Silva P S.Future promise of and potentialpitfalls for automated detection of diabetic retinopathy[J].JAMAOphthalmol,2015,17:1-2.
[6]PoulakiV,Qin W,Joussen A M,et al.Acute intensive insulin therapy exacerbates diabetic blood-retinal barrier breakdown via hypoxia-inducible factor-1alpha and VEGF[J].Clin Invest,2002, 109(6):805-815.
[7]Na X,Wu G,Ryan C K,et al.Overproduction of vascular endothelial growth factor related to von Hippel-Lindau tumor suppressor gene mutations and hypoxia-inducible factor-1alpha expression in renalcellcarcinomas[J].J Urol,2003,170:588-592.
[8]Ollerenshaw M,Page T,Hammonds J,et al.Polymorphisms in the hypoxia inducible factor-1 α gene(HIF-1A)are associated with the renal cell carcinoma phenotype[J].Cancer Genet Cytogenet, 2004,153(2):122-126.
[9]陈捷,林蕾.HIF-1α基因多态性与大动脉粥样硬化型脑梗死的相关性研究[J].浙江医学,2014,36(23):1917-1920.
Association of HIF-1α gene polymorphisms with susceptibility of diabetic retinopathy studied by random forest algorithm
ZHAO Jing,ZHUANG Yan.Department of Ophthalmology,Wenzhou Hospital of Integrated TCM and Western Medicine,Wenzhou 325000,China
【 Abstract】 Objective To investigate the association of HIF-1α gene polymorphism with susceptibility of diabetic retinopathy by random forest algorithm. Methods Clinical and biochemical indicators from 200 diabetic patients with retinopathy and 200 diabetic patients without retinopathy were collected.The SNP polymorphisms in HIF-1α gene (rs11549467)were detected.Random forests method was used for dimension reduction,the variants after the dimension reduction were analyzed with logistic regression. Results There were significant differences in genotype frequency of HIF-1α gene polymorphisms between patients with and without diabetic retinopathy(χ2=6.55,P=0.04).Six variables were screened by random forest algorithm, the variables with the highest importance scores and the lowest error rate entered the logistic regression model.Age(OR=1.03, 95%CI:1.01-1.06),GG genotype(OR=16.20,95%CI:1.98-132.55),creatinine(OR=1.02,95%CI:1.00-1.03),glycated hemoglobin (OR=4.46,95%CI=3.35-5.96)were risk factors of diabetic retinopathy.The area under the curve(AUC)of logistic regression model was 0.926(95%CI:0.901-0.952). Conclusion HIF-1α gene polymorphism may be involved in the pathogenesis of diabetic retinopathy.
Diabetic retinopathy Random forest algorithm HIF-1 alpha gene polymorphism
2016-05-17)
(本文编辑:严玮雯)
325000 温州市中西医结合医院眼科(赵静);温州医科大学附属第一医院血液内科(庄彦)
庄彦,E-mail:matozhao@126.com