主成分logistic回归与最大似然法在卵巢囊肿早期鉴别诊断上的联合应用及其软件开发*
2012-09-07杨海涛王莹莹席海峰闫丽娜刘荷一杨俊英
杨海涛 王莹莹 席海峰 闫丽娜 刘荷一 杨俊英
主成分logistic回归与最大似然法在卵巢囊肿早期鉴别诊断上的联合应用及其软件开发*
杨海涛1王莹莹2△席海峰3闫丽娜1刘荷一4杨俊英1
目的 联合应用主成分logistic回归与最大似然法对卵巢囊肿进行早期鉴别诊断,并实施相应程序开发,以提高疾病鉴别诊断的效率和准确性。方法 分别利用两种方法建立卵巢囊肿早期鉴别的判别函数,并从真实性和可靠性两方面评价两种方法的判别效果;根据卵巢囊肿的疾病性质和临床诊治情况,选用串联形式完善诊断方法;利用Delphi7.0进行软件开发程序。结果 真实性结果显示两种方法的回顾性和前瞻性判别符合率均大于80%,相应ROC曲线下的面积均在0.7~0.9之间,差别无统计学意义;可靠性结果显示两种方法的一致性检验的Kappa值均大于0.5,说明两种方法的结果具有较好的一致性;前瞻性诊断的灵敏度为0.667,特异度为0.978。结论 两种方法的判别准确度中等,具有应用价值,能实现卵巢囊肿的早期鉴别诊断;串联形式的联合诊断提高了诊断的特异度;开发的软件易于操作,提高了鉴别的效率,可以用于门诊的辅助诊断。
主成分logistic回归 最大似然法 联合诊断 ROC曲线 软件开发
*:河北省卫生厅科研基金项目(20090318)
1.河北医科大学流行病学与卫生统计学教研室(050017)
2.石家庄市疾病与预防控制中心
3.河北省卫生厅
4.河北医科大学肿瘤医院
△通讯作者:王莹莹,E-mail:pbying@163.com
非赘生性卵巢囊肿属于生理性瘤样病变,不宜手术治疗,但它从形态、大小等方面与病理性真性肿瘤——赘生性卵巢囊性肿瘤极为相似,临床特别容易混淆,辅助检查(腹腔镜、CT等)的效果也不理想,从而导致不必要的手术。为了减少不必要的手术和病人的痛苦,促进患者早日康复,本次研究联合应用两种方法对卵巢囊肿进行早期鉴别诊断,并在此基础上实施了软件开发,以便提高鉴别诊断的准确性和效率,从而尽快消除患者精神因素的影响,为指导精神疗法和药物疗法提供客观依据。
资料与方法
1.资料来源
本次研究选取了卵巢囊肿临床诊断中的14项指标(图1);所需要的训练样本定为420例〔1〕(非赘生273例,赘生147例),验证样本为74例〔2〕(非赘生44例,赘生30例)。
2.统计方法
应用主成分logistic回归和最大似然法,数据处理分别应用 SAS9.1、STATA10.0;两相关诊断试验的ROC曲线分析应用ROCKIT0.9β,ROC曲线下面积计算选用双正态模型参数法。
步骤与结果
1.主成分logistic回归
(1)logistic回归共线性诊断〔2〕
最大条件指数为17.1331时的孕次X4、产次X5、流产次数X13的方差分解比例为0.9034、0.8268和0.606,均大于0.5;最大的方差膨胀因子为7.61>5,据此可认为X4、X5、X13变量间存在着中等程度的共线关系。为解决共线性问题进一步选择主成分logistic回归分析方法。
(2)主成分logistic回归分析〔3〕
分别求出回顾性与前瞻性判别符合率;并利用初始的logistic回归方程计算出预报概率Pi,以Yi为卵巢囊肿的原始分类,然后以预报概率Pi为“诊断”结果值,实际Yi为“金标准”分类构建ROC曲线。
拟合的logistic回归方程为如下:
(3)应用logistic回归模型进行鉴别诊断
将某患者各项指标取值代入上式的logistic线性回归方程中得到相应的Y=4.738,则该患者可判定为A1(赘生性卵巢囊肿)〔4〕。
2.最大似然法
3.两种方法判别效果评价
对两种方法的回顾性与前瞻性判别结果(表1和3)的ROC曲线下面积进行比较(表2和4)。
(1)真实性评价
表1 两种方法回顾性判别效果比较
表2 两种方法回顾性ROC曲线下面积比较
表3 两种方法前瞻性判别效果比较
表4 两种方法前瞻性ROC曲线下面积比较
两种方法的回顾性和前瞻性判别符合率均大于80%,相应ROC曲线下的面积均在0.7~0.9之间,说明两种方法的判别准确度中等〔5〕,具有应用价值〔2〕;两种方法的回顾性与前瞻性的ROC曲线下面积比较显示两种方法的判别准确度的差别无统计学意义。
(2)可靠性评价
求出两种方法的Kappa指数,对两种方法判别结果的一致性进行检验(表5和6)。结果显示两种方法0.4<k< 0.75,说明两种方法的一致性较好〔6〕。
4.联合诊断
选用串联形式完善诊断方法。联合诊断结果的灵敏度和特异度计算公式〔7〕如下:
灵敏度:SeA×SeB,
特异度:SpA+SpB-SpA×SpB两种方法判别结果均为赘生性,才考虑受试者为赘生性,否则归为非赘生性。前瞻性串联诊断的灵敏度为0.667,特异度为0.978,提高了诊断的特异度,从而可以减少不必要的手术和病人的痛苦。
表5 两种方法的回顾性一致性检验结果
表6 两种方法的前瞻性一致性检验结果
5.软件开发
篇幅所限,仅给出软件开发主界面的图片形式(软件中已将最大似然法的条件概率转换成评分)。
图1 两种方法对卵巢囊肿类型的鉴别诊断
讨 论
由于最大似然法等方法在判别诊断时关心的只是各个征候合计评分的相对大小,选最大的做出判断,如果比较的评分总和相差甚远,那么做出的判断较为可靠,如果相差不大,还须进一步观察〔8〕。因此本文选用两类型卵巢囊肿各个征候相关判别指标的差值为“诊断”结果值建立ROC曲线,这样不但可以得到ROC曲线下面积这一综合的准确度指标,还可以利用该差值为今后确定更为精确的最佳决策值做准备。本次研究所涉及到的非赘生性卵巢囊肿一般不需处理,症状可自行消失。若患者在早期明确为非赘生性囊肿,可尽快消除精神焦虑,采用精神疗法和中西医治疗相结合,可加速囊肿的消失,早日康复。串联试验可以相应提高试验的特异度,并且特别适用于不需迅速作出诊断者,故本文着重选择了串联试验;但要注意的是当住院、急诊或外地的门诊病人复诊有困难急需迅速作出诊断时,最好选用并联试验〔9〕。因此应根据实际情况选用合适的联合诊断方法。
1.张文彤主编.SPSS11统计分析教程(高级篇).第1版.北京:北京希望电子出版社,2002:92,179.
2.孙振球.主编.医学统计学.第1版.北京:人民卫生出版社,2002:297.
3.杨俊英,杨海涛.应用stata软件实现logistic回归的共线性诊断.中国卫生统计,2005,22(3):174-176.
4.王炼,刘正明,陈彬,等.甲状腺滤泡性肿瘤logistic判别分析及预后分析.诊断病理学杂志,1994,1(3):152.
5.余松林.主编.医学统计学.第1版.北京:人民卫生出版社,2002:172.
6.方积乾.主编.医学统计学与电脑实验.第2版.上海:上海科技出版社,2001:245.
7.宇传华译.诊断医学统计学.第1版.北京:人民卫生出版社,2005:36.
8.郭祖超主编.医用数理统计方法.第1版.北京:人民卫生出版社,1988:464.
9.林果为,沈福民主编.现代临床流行病学.第2版.上海:复旦大学出版社,2007:62.