APP下载

消化道肿瘤的Logistics 回归分析及预测

2020-03-15

高师理科学刊 2020年12期
关键词:卡方频数消化道

(哈尔滨理工大学 理学院,黑龙江 哈尔滨 150080)

很多学者及医学工作者曾对各地区消化道肿瘤疾病进行过相关的研究,结合多篇文献研究发现,对消化道肿瘤疾病的发生影响较大的因素有地理环境、体质量指数、年均收入、文化程度、生活习惯(如吸烟频率、饮酒频率、饮茶频率)、疾病史(如消化系统疾病史、肿瘤家族史、十二指肠溃疡疾病史、食管炎病史等)、抑郁情况、户外活动时间、饮食习惯(如新鲜水果、新鲜蔬菜、肉蛋奶类、豆类、腌制食物、烫热食物等食用频率)等.

为使数据更具普遍性,选取文献[1-7]中有关患消化道肿瘤与未患消化道肿瘤的数据,将数据结果统一换算为百分数,并进行简单算术平均,整理得到各因素与患消化道肿瘤与否的统计数据.在已有的研究成果基础上,针对所得数据进行更加深入的分析,研究其相关程度,筛选出患消化道肿瘤的主要危险因素.

1 数据整理与独立性检验

1.1 患消化道肿瘤与地理环境的相关性

与地理环境有关的数据整理见表1.采用独立性检验,即卡方检验对表1中数据进行分析.其基本思想为:假设观察频数与期望频数一致,并以此为前提计算出卡方值及其更极端情况的概率P.χ2值表示观察值与理论期望值之间的偏差程度,当观察频数与期望频数完全一致时,χ2值为0;观察频数与期望频数越近似,差异越小,χ2值也就越小;反之,观察频数与期望频数差别越大,χ2值也就越大.此外,P值越小,说明观察值与理论值偏离程度越大,应当拒绝原假设,即说明二者之间有显著差异;反之,应接受原假设,可认为样本所代表的实际情况和理论假设无差别.

表1 与地理环境有关的数据统计(%)

由于数据为四格表,故可采用Yates 校正的卡方检验,即,其中:a为城区患消化道肿瘤的百分比算术平均值;b为城区未患消化道肿瘤的百分比算术平均值;c为农村患消化道肿瘤的百分比算术平均值;d为农村未患消化道肿瘤的百分比算术平均值;N=a+b+c+d.

设原假设为H0:是否患消化道肿瘤与地理环境无关;备择假设为H1:是否患消化道肿瘤与地理环境有关.代入表1 中数据可得χ2≈0.3348.取显著性水平α为0.05,自由度为df=(2-1)×(2 -1)=1.由分位数表可查得,故应接受原假设H0,可初步认为患消化道肿瘤与地理环境差异基本无关.但仅通过公式计算卡方值去判断可能存在误差,因此可进一步通过连续校正得到的更极端情况的概率P值及Fisher 精确检验去验证结论,具体结果见表2.由表2可以看出,连续校正的卡方值为0.335,与Yates 校正的卡方检验公式的计算结果一致.连续校正卡方检验的假设卡方值为0 成立的概率P值为0.563,明显大于α,因此可知患消化道肿瘤与地理环境差异无关.此外,Fisher 精确检验的P值为0.563,仍明显大于α,故应接受原假设,认为患消化道肿瘤与地理环境差异无关.

表2 地理环境差异卡方检验

1.2 患消化道肿瘤与体质量的相关性

对于体质量指数IBM(kg/m2),具体数据整理见表3.表3为非四格表,针对这类表格,采用列联表卡方检验进行分析.其基本思想及其P值检验标准与四格表数据的卡方检验方法基本一致,但前提需要满足3项假设:

假设1存在2个无序多分类变量;

假设2具有相互独立的观测值;

假设3样本量足够大且最小的样本量要求为分析中的任一期望频数大于5.

表3数据明显符合假设1~2,体质量指数与患消化道肿瘤与否均为无序分类变量且不会相互干扰.但假设3 有待验证,在此可利用统计软件SPSS 进行检验.对于卡方值的计算与四格表数据也略有区别,其计算公式为,其中:Arc为列联表中第r行第c列对应数据;nr为第r行观测频数总和;nc为第c列观测频数总和;N为观测频数总和.

表3 与体质量有关的数据统计(%)

以体质量指数数据为基础,整理为SPSS 应用形式并对其进行加权和卡方检验操作,结果见表4.

表4 体质量指数卡方检验

由表4 可以看出,0 单元格的期望计数小于5,最小期望计数为22.5,明显大于5,满足假设3,因此可以进行卡方检验.设原假设为H0:是否患消化道肿瘤与体质量是否超标无关.表4 结果显示,χ2=24.804,自由度df=2,P=0.00.因此,仍取显著性水平α为0.05,查表可知且P<α,因此应拒绝原假设H0,可认为患消化道肿瘤与体制量是否超标有关.

增加Phi 系数φ或Cramer′s V 系数这一衡量标准来说明体质量是否超标与是否患消化道肿瘤的关联程度.其计算公式分别为,其中:N为样本大小;K为行数或列数中较小的数值.也可借助SPSS 的相关功能直接计算出结果(见表5).

表5 体质量指数的对称度量

Phi(φ)和Cramer′s V 系数均是提供分类变量相关强度的指数.但是Phi(φ)仅适用于2×2 的数据格式,而Cramer′s V系数的适用范围较广.针对体质量指数这一数据情况,应选取Cramer′s V系数,且Cramer′s V 系数的取值范围在0 到1 之间,数值越大相关性越强.

由表5 可以看出,体质量指数的Cramer′s V 值为0.352,P=0.00.因此可认为是否患消化道肿瘤与体质量是否超标有较强相关性.

1.3 各因素与消化道肿瘤的相关性分析

由于篇幅限制,关于其它因素检验过程不再赘述.具体检验结果整理见表6.

表6 各因素与消化道肿瘤的相关性分析

由表6 可以看出,地理环境、文化程度与是否患消化道肿瘤无关,其余体质量指数、年均收入、生活习惯、家族疾病史、心理情况、户外活动时间、饮食习惯均都是导致患病的危险因素,但是其中年均收入、肿瘤家族史、抑郁情况、户外活动时间、肉蛋奶类食物食用频率与是否患消化道肿瘤之间的关联程度低于0.3,其相关程度较低.

通过观察肿瘤患者与未患癌人群的外在因素差异,可以得到结论:首先,消化系统主要由咽喉、食管、胃、肠这几部分组成,这也是最容易发生癌变的部位,人们应当更加关注对这些身体器官的保护.其次,现代社会快速发展,生活节奏逐渐加快,人们生活水平提高的同时生活压力也更大,越来越多的人对金钱、事业付出过多,不再注重自己身体的保护,逐渐养成更多不良生活习惯,出现饮食不规律现象,从而必将导致户外活动时间的减少,体质量超标或营养不良等情况,进而导致一定年龄后身体发生癌变.

2 Logistics 回归预测

以上述数据比例和近几年消化系统消化道肿瘤累计发病率19.24%为基础,将数据整理为定性变量形式进行进一步研究.因饮食习惯划分较细,此处将规定经常食用新鲜水果、蔬菜、豆类、少食烫热食物和腌制食品的人群分为饮食习惯较好组,反之为较差组.由于因变量是否患消化道肿瘤为0-1 型定性变量,选择进行二分类Logistics 回归.将数据导入SPSS 进行Logistics 回归,选择最优模型,输出结果见表7.

表7 最优模型输出结果

由表7可以看出,最终选取模型的Wald 值均较大,而P值较小,显著性较高.体质量指数的Exp(B)为0.008,小于1,说明体质量指数发生变化时,患消化道肿瘤与否发生变化的可能性比原来减少了0.8%,但是否饮酒这一指标的Exp(B)则为4 545.496,说明大量酗酒后,消化道肿瘤发生的几率是原来的4 545.496倍,危害极大.

具体的回归方程为

其中:x1为患者的体质量指数IBM(kg/m2);x2为患者是否饮酒;x3为患者的十二指肠溃疡疾病史,截距项(常量0.47)为偏瘦体质量下酗酒且有十二指肠溃疡疾病史的人患消化道肿瘤的对数发生比,exp(0.47)=1.59,因此偏瘦体质量下酗酒且有十二指肠溃疡疾病史的人患消化道肿瘤的概率是未患病概率的1.59倍.且经SPSS 检验,该模型预测概率达到了93%,预测概率较高,具有统计意义.因此,当获得某个人的相关信息时,可带入该回归模型,对其患消化道肿瘤的概率进行预测,当诊断结果偏高时应及时采取措施,进行更全面的医学检测,及时进行治疗[8-10].

3 结语

本文将已有文献中的数据收集并通过平均法进行整理,对19 种消化道肿瘤的影响因素分别进行独立性检验,去掉无关与相似度较低的因素,并将主要的危险因素进行二分类Logistics 回归,得到消化道肿瘤症的回归预测模型,将疑似肿瘤患者的数据代入所建回归模型中可得到患病的预测概率.

猜你喜欢

卡方频数消化道
卡方检验的应用条件
卡方变异的SSA的FSC赛车转向梯形优化方法
卡方检验的应用条件
驴常见消化道疾病的特点及治疗
中考频数分布直方图题型展示
卡方分布的性质与应用探讨
学习制作频数分布直方图三部曲
Dieulafoy病变致消化道大出血的急救及护理
频数和频率
盗汗病治疗药物性味归经频数分析