基于ID3算法的代谢综合征主要因素分析
2014-09-12石雁冰李树法
石雁冰 邵 勇 李树法
(贵阳中医学院第一附属医院门诊部,贵州 贵阳 550002)
代谢综合征(MS)是糖尿病、心脑血管疾病发生的高危因素〔1,2〕,其在不同国家、地区、种族、职业患病率有明显差异。本研究拟以贵阳客运段职工为研究对象,就MS的危险因素进行分析。
1 对象与方法
1.1对象 以2 297名贵阳客运段职工为研究对象,通过体格检查测量身高、体重、腰围、血压,生化法检测空腹血糖(FPG)、甘油三酯(TG)和高密度脂蛋白(HDL),通过问卷调查的形式获取其受试者的一般人口学信息、病史、工作和生活情况资料。
1.2调查问卷 除了一般人口学资料和病史外还重点包括与贵阳客运段工作人员工作和生活紧密相关的16项内容,包括:工作性质(5个选项)、睡眠时间(5个选项)、乘务龄(6个选项)、乘务时段(3个选项)、工作压力(3个选项)、工作之余(5个选项)、每日吸烟量(6个选项)、烟龄(6个选项)、饮酒情况(4个选项)、酒龄(6个选项)、每周运动量(4个选项)、口味(4个选项)、喜爱食物(3个选项)、常饮用饮品(5个选项)以及每周早餐次数(4个选项)。
1.3MS的判断标准 MS的诊断参照国际糖尿病联盟(IDF)2005年标准〔3〕,结合我国的实际情况进行:在符合中心性肥胖标准基础上(腰围:男性≥90 cm,女性≥80 cm)。合并以下4个指标中的任意2项:①TG水平升高:>1.17 mmol/L(115 g/L),或已接受相应治疗;②HDL-C水平降低:男性<1.03 mmol/L(40 mg/dl),女性<1.29 mmol/L(50 mg/dl),或已接受相应治疗;③血压升高:收缩压≥130 mmHg或舒张压≥85 mmHg,或已接受相应治疗或此前已诊断高血压;④FPG升高:FPG≥5.6 mmol/L(100 mg/dl),或已接受相应治疗或此前已诊断2型糖尿病。
1.4数据分析 首先对数据进行预处理,因为调查表中的数据存在空缺、异常等无效数据,在进行MS确诊之前,将无效数据剔除,确保结果的准确性。使用相关函数对数据进行处理,从2 263条有效数据中,确诊700例患者。然后按照作息习惯和饮食习惯为分类标准,把收集到的关于受试者生活习惯的所有调查信息简单分为两类:作息习惯包括睡眠时间、工作压力、工作之余活动、周运动量;饮食习惯包括日吸烟量、烟龄、饮酒情况、酒龄、口味、食物、饮品、早餐。使用ID3为基本算法,计算各个生活习惯和可能致病因素的信息增益,建立决策树,从而找出影响MS的主要因素。
1.5ID3模型建立 ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。通过比较信息增益度,对受试者的确诊结果进行关联度分析和分类〔4〕。对于生活习惯调查表中的n个相同概率的消息,每个消息发生的概率为:P=1/n,则每个消息传递的信息量为:l=log2n=-log2l/n。
信息增益度是两个信息量之间的差值,其中一个信息量是需确定T的一个元素的信息量,另一个信息量是在已得到的属性X的值后需确定的T一个元素的信息量,对于信息增益度有Gain(X,T)=Info(T)-Info(X,T)。
针对当前收集到的关于受试者生活习惯的所有调查信息,计算每个属性的信息增益。选择其中信息增益最大的属性Ak,把Ak值相同的信息归在同一个子集里。对每个子集递归调用建树算法。求出每一种信息在树层上的信息增益度,从而找出与MS关系最大的因素。
2 结 果
2.1考察基本作息习惯 工作之余的生活方式对MS发病的影响最大,信息增量0.001 81,睡眠时间为0.000 07,工作压力为0.000 52,周运动量为0.001 28。工作之余在电脑上度过的人患病率高达到37.73%。在经过1 d紧张的工作之后,适当的放松,如串门、聊天等,可有效降低MS的发病风险。见表1。
2.2考察基本饮食习惯 日吸烟量信息增益为0.000 643;烟龄为0.000 526;饮酒情况为0.002 930;酒龄为0.001 873;口味为0.000 136;食物为0.000 734;饮品为0.001 707;早餐为0.000 047。饮酒情况对MS发病的影响最大,每天或几乎每天都喝酒的人,其患病率高达到42.69%,常饮酒的人患病率反而较低。见表2。
表1 各个因素计算及分析结果比较〔n(%)〕
表2 饮酒情况分析〔n(%)〕
3 讨 论
ID3算法是基于信息熵的决策树分类算法,其核心思想是在决策树中各层分枝节点上选择属性,用信息增益作为属性选择标准,使得在每一分叶子节点进行测试时,能获得关于被测试例子最大的类别信息,使用该属性将样本集划分成子集后,系统的信息熵值最小。近年来,其被广泛应用数据挖掘中的特征分类研究中,特别是数据的归类与处理方面显示出了较强的适应性〔4~7〕。
MS的发病率逐渐增高,其主要发病机制是胰岛素抵抗,与遗传因素和热量摄入增加、体育锻炼缺乏等生活方式有着密切的关系。但是,其与生活方式中具体事件的关系需要用科学、可行的研究方法来确定,反过来确定后的结果也需要回到现实生活中来检验。目前在疾病病因研究方面兴起了一种新的研究方法-数据挖掘技术,其在医学中得到了广泛的应用,其作用也得到了时间的验证〔4~7〕。本研究说明良好的生活方式对MS发病的影响很大。另外说明适当的饮酒对MS的预防有一定的积极作用,但是过量饮酒或酗酒则会增加MS的发病率。
本研究是否符合实际必须需要回到现实中进行验证的,故本课题组在今后工作中将针对以上危险因素对目的人群进行生活方式干预,期待能够起到预防和延缓MS发病的作用。
4 参考文献
1Alberti KG,Zimmet P,Shaw J.The metabolic syndrome-a new worldwide definition〔J〕.Lancet,2005;366(9491):1059-62.
2祝之明.应加强代谢综合征的研究和防治〔J〕.中华心血管病杂志,2005;33(2):105-6.
3Zimmet P,Alberti KG,SerranO-Rios M.A new IDF worldwide definition of the metabolic syndrome:the rationale and the results〔J〕.Rev Esp Cardiol,2005;58(12):1371-6.
4柴宏涛,李建华,沈 迪.基于ID3算法的信息资源分类管理映射模型研究〔J〕.计算机工程与设计,2013;34(3):1082-86,96.
5李鲁宁,赵德平.基于ID3算法100例中医胃炎实验数据分类挖掘研究〔J〕.辽宁中医药大学学报,2012;14(10):188-9.
6朱颢东,钟 勇.基于NDF和优化的ID3的特征选择方法〔J〕.暨南大学学报(自然科学与医学版),2010;31(1):20-3.
7Ruz GA,Pham DT.Building Bayesian network classifiers through a Bayesian complexity monitoring system〔J〕.J Mechan Engineer Sci,2009;223:743-55.