孤立性肺结节良恶性判断的数学预测模型建立与验证
2016-04-07婧叶晓丹叶剑定周正荣
陈 婧叶晓丹叶剑定周正荣
孤立性肺结节良恶性判断的数学预测模型建立与验证
陈 婧1叶晓丹1叶剑定1周正荣2
目的:通过多因素Logistic回归分析,建立CT判断孤立性肺结节(SPN)良恶性的数学预测模型,并与目前已知的国内外模型进行比较分析。方法:回顾性收集2012年1月至2013年1月在复旦大学附属肿瘤医院胸外科经手术切除并明确病理诊断的SPN患者的临床及CT资料共200例(A组),通过多因素Logistic回归分析进行筛选建立方程。另收集2013年2月至2013年7月经手术切除且明确病理诊断的SPN患者资料共89例(B组)用以验证。结果:A组200例SPN中良性64例,恶性136例,建立的数学预测方程为:Y=ex/( 1+ex),X=-2.085+0.058×年龄-1.206×性别-2.157×钙化+0.505×短毛刺+1.729×长毛刺+1.782×分叶-1.005×边界。e为自然对数。B组数据进行验证:本组模型曲线下面积最大,为0.888±0.051。本组模型的特异性最高(94.4%)> Mayo Clinical模型(88.9%)> VA模型(72.2%)>国内模型(66.7%)。国内模型的敏感性最高(88.7%)>本组模型(83.1%)>VA模型(78.9%)>Mayo Clinical模型(45.1%),P<0.05。结论:本组数据建立的模型诊断效能较高,收集的临床及CT资料较以往任何一篇报道更全且全部为中国人,优于国内外公式单纯套用。
孤立性肺结节;数学预测模型;Logstic回归分析
随着多排螺旋CT的广泛应用,孤立性肺结节(solitary pulmonary nodule,SPN)常被意外检出,文献报道的SPN恶性比率从10%~70%不尽相同[1]。肺癌总体5年生存率低于15%,早期肺癌(尤其是Ia期肺癌)经过手术切除治疗的5年生存率可达90%以上,而中晚期肺癌手术切除后的5年生存率则低于5%[2]。Logistic回归是一种数学预测概率模型,有研究表明,计量模型对SPN的判断与临床医师的判读结果相近[3]。目前国外已知的SPN良恶性数学预测模型包括:①Mayo Clinic Model[4]:X=-6.8272+(0.0391×年龄)+(0.7917×吸烟)+(1.3388×既往肿瘤史)+(0.1274×直径)+(1.0407×毛刺)+(0.7838×上叶) ;② VA Model[5]:X=-8.404+(2.061×吸烟)+(0.779×年龄/10)+(0.112×直径)-(0.567×戒烟年数/10)。国内目前已知由最大的一组SPN构建而成的数学预测模型为:③国内Model[6]:X=-4.496+(0.07×年龄)+(0.676×直径)+(0.736×毛刺)+(1.267×肿瘤家族史)-(1.615×钙化)-(1.408×边界)。Y=ex/(1+ex),e为自然对数。本研究拟通过两元Logistic回归分析筛选出与SPN恶性概率相关的临床及CT资料,建立CT判断良、恶性SPN的数学预测模型,并对四条模型的诊断价值进行验证比较并分析原因。
方法
1.一般资料
收集2012年1月至2013年1月期间(A组),在复旦大学附属肿瘤医院经胸外科手术的SPN患者资料,严格按照以下标准入选:手术病理诊断明确;胸部CT片示肺内单发、圆形、类圆形结节;无肺不张、无胸腔积液;肺内无活动性炎症;无肿大淋巴结(短径≥1cm);5年内无肺内、外肿瘤病史;术前未经化疗、放疗或任何针对肺内小结节的治疗。国外部分作者认为对于<4mm结节认为其没有发生肺癌的风险,没有必要进一步随诊处理[7],故入组直径标准定为≥5mm,<30mm。王晓华等[8]研究表明,将毛刺以5mm为界分为长毛刺及短毛刺,对肺结节的良恶性差异具有统计学意义。收集的资料包括临床及CT资料:年龄(岁)、性别、病程(月)、临床症状、吸烟史、吸烟指数(支年)、家族史、既往肿瘤史(5年内有肺内、外肿瘤史者剔除);肿瘤最大径、钙化、毛刺(长毛刺、短毛刺)、分叶、边界、空洞、支气管充气征、胸膜凹陷征、位置总计17项。对于SPN随访观察的患者选择与手术日期最相近的影像CT片。
另收集2013年2月至2013年7月期间(B组),在复旦大学附属肿瘤医院经胸外科手术的SPN患者资料,按照上述标准入选。
2. 检查方法
A组患者200例,8例行平扫,192例行增强(109例为薄层扫描)。B组患者89例,2例行平扫(1例为低剂量),87例增强(55例为薄层扫描)。机型:Germary Berlin SIEMENS SOMATOM SENSATION-40,Netherlands Philips Brilliance CT 64 Slice。扫描方法:常规从肺尖至肺底。薄层:层厚1mm,层间隔1mm。常规:层厚5mm,层间隔5mm。低剂量:层厚1mm,层间距1.5mm,40mAs,120kV。增强扫描:造影剂100ml,速率1.5ml/s,100mAs,120kV。
3. 统计学方法
采用SPSS13.0软件进行分析。①多因素分析:通过多因素Logistic回归筛选与良恶性SPN存在独立相关影响的临床及CT资料,进入方程水准α<0.05,α>0.10剔除。根据筛选得到的条件建立Logistic回归数学预测模型并选取合适的截点。②以病理结果为金标准绘制ROC曲线对本模型效果进行判断,计算ROC曲线下面积(Area Under theCurve,AUC),标准误差(Stand Error, SE),95%可信区间(Confidence Interval, CI)及P值。同时绘制Mayo Clinical Model、VA Model、国内模型及本组模型的ROC曲线进行比较分析。P<0.05定义为差异有统计学意义。
图1 将A组数据对所得数学预测模型进行统计效力验证,计算ROC曲线下面积为0.842(>0.7),说明该模型对SPN良恶性预测准确性较好。SE=0.030,95% CI:0.784~0.900,P<0.001。选取截点T=0.636时,约登指数最大,此时模型的灵敏度=80.1%,特异度=78.1%。阳性预测值90.4%,阴性预测值57.8%,总体预测准确率为80.0%。
图2 以病理结果为金标准绘制Mayo Clinical Model、VA Model、国内模型及本组模型的ROC曲线得到四条曲线下面积,分别为0.888(本组模型)>0.773(国内模型)>0.729(VA模型)>0.701(Mayo Clinical模型)>0.7,P值均<0.05(0.001,0.020,0.046)。
表1 Logistic多因素回归分析结果
表2 Mayo Clinical Model、VA Model、国内模型及本组模型的比较
结果
1. 病理结果
A组患者200例。良性64例(32%),包括炎症细胞浸润20例,错构瘤8例、血管畸形1例、硬化型肺泡细胞瘤6例、肉芽肿性病变25例、真菌感染3例、脱屑性间质性肺炎1例;恶性136例(68%),包括腺癌107例、原位腺癌6例、微浸润腺癌4例、鳞癌8例、腺鳞癌2例、黏液表皮样癌1例、肺转移瘤6例、不典型腺瘤样增生2例。
B组患者89例。良性18例(21.3%),包括炎症细胞浸润7例、软骨瘤样错构瘤1例、硬化型肺泡细胞瘤3例、肉芽肿性病变7例;恶性71例(78.7%),包括原位腺癌1例、微浸润性腺癌8例、腺癌52例、鳞癌7例、小细胞癌2例、肺转移瘤1例。
2. 临床及影像资料
A组患者200例,男性91例,女性109例,平均年龄57.09±11.65岁(26~80岁)。其中含磨玻璃成分的结节17例;SPN平均直径17.41±6.65mm(5~30mm);出现临床症状72例,未出现临床症状128例;有吸烟史58例;无吸烟史142例;有家族史53例,无家族史147例;有既往肿瘤史14例,无既往肿瘤史186例。术前CT片SPN有毛刺104例,其中长毛刺49例,短毛刺55例,无毛刺96例;有钙化13例,无钙化187例;边界尚清147例,边界不清53例;有分叶86例,无分叶114例;SPN内部有空洞48例,无空洞152例;有支气管充气征52例,无支气管充气征148例;有胸膜凹陷征97例,无胸膜凹陷征103例;位于上叶107例,位于非上叶93例;位于左肺94例,非左肺106例。
B组患者89例,男性49例,女性40例,平均年龄59.28±10.92岁(22~83岁)。其中含磨玻璃成分的结节7例;SPN平均直径18.91±6.72mm(5~30mm);出现临床症状44例,未出现临床症状45例;有吸烟史25例;无吸烟史64例;有家族史29例,无家族史60例;有既往肿瘤史5例,无既往肿瘤史84例。术前CT片SPN内有钙化1例,无钙化88例;有毛刺46例,其中长毛刺12例,短毛刺34例,无毛刺43例;有分叶33例,无分叶56例;有胸膜凹陷征49例,无胸膜凹陷征40例;边界尚清58例,边界不清31例;SPN内部有空洞25例,无空洞64例;有支气管充气征17例,无支气管充气征72例;位于上叶47例,位于非上叶42例;位于左肺44例,非左肺45例。全部患者均行手术切除获取明确病理诊断。
3. 多因素Logstic回归分析结果
年龄、性别、钙化、长毛刺、短毛刺、分叶及边界是判断SPN性质的独立影响因素(表1)。得出方程:SPN恶性预测值=ex/(1+ex),x=-2.085+(0.058×年龄)-(1.206×性别)+(0.505×短毛刺)+(1.729×长毛刺)+(1.782×分叶)-(2.157×钙化)-(1.005×边界)。其中e为自然对数,e=2.718281828。
4. 数学预测方程的统计效力评估及验证
将A组患者临床及影像资料代入此数学模型,绘制ROC曲线对模型效果进行判断(图1)。以病理结果为金标准,将B组患者数据代入数学模型,绘制Mayo Clinical Model、VA Model、国内模型及本组模型的ROC曲线(图2)。根据ROC曲线找出各自最佳临界点所对应的判断SPN良恶性的敏感性、特异性(表2),得知国内模型的敏感性最高(88.7%)>本组模型(83.1%)>VA模型(78.9%)>Mayo Clinical模型(45.1%),本组模型的特异性最高(94.4%)> Mayo Clinical模型(88.9%)> VA模型(72.2%)>国内模型(66.7%)。
讨论
年龄、毛刺、钙化、边界是影响SPN的独立影响因素,与文献报道一致[9]。钙化及清楚的边界是作为SPN的保护性因素纳入模型(OR值<1),与文献报道一致[9]。但是性别以往无报道。Visser等[10]研究发现,女性烟民发生肺癌的可能性是男性烟民的2倍,女性血浆对尼古丁清除能力较差,较短的吸烟史,较少的吸烟量较男性更容易致肺癌,且被动吸烟更容易导致肺癌。公式显示吸烟并非判断SPN良、恶性的危险因素,分析原因如下:病理类型中腺癌较多(58.5%,117/200),国内外对吸烟与不同病理类型肺癌的关系进行了流行病学调查,腺癌与吸烟的关系不如鳞癌明确[11];可能与部分医师在采集病史时对是否吸烟、吸烟指数、戒烟时间等的询问不够确切有关。其余三条模型均显示“直径”为判断SPN良恶性的独立影响因素,而本组模型并未纳入,分析其原因:可能与入组病例较少、限于在外科接受治疗的患者,是经过内科和放射科的筛选,导致存在一定统计学偏差。既往的国内外文献虽有对长毛刺及短毛刺有所研究,但是并无具体OR值的计算,该公式进一步明确了长毛刺及短毛刺对良恶性SPN判断的具体概率,长毛刺OR值为5.632,短毛刺OR值为1.656,表明有分叶征的SPN为恶性的概率是没有分叶征的SPN为恶性的概率的5.944倍。由于样本量局限,孤立性磨玻璃结节数量较少,未进行进一步分层研究。
四条模型比较:①Mayo Clinical模型建立时入组病例有12%的患者无明确的病理诊断(随访2年无明显变化者判断为良性);此外该组患者为近30年前(1984~1986)统计,随着影像学的发展及疾病类型的改变,该模型不一定适用于现今;入组的病例中并没有排除5年内存在肺内、外恶性肿瘤史的患者,以除外转移瘤,数据可能出现偏倚;模型的最终结果显示临床特征变量的总权重和影像学特征变量的总权重相近。②VA模型入组病例随访2年无明显变化者判断为良性而无明确的病理学诊断支持;无详细的(如SPN直径、位置、有无钙化、胸膜凹陷征等)影像学资料,仅粗略分为影像学提示恶性、良性,最终模型中无与影像学相关项;阅片医师仅提供“明确恶性”“明确良性”的影像学诊断,并以此作为毛刺的代替因子,原因是有毛刺的结节为恶性的可能性是良性的5倍[12]。③CT很难鉴别<3mm的病灶及支气管血管断面,国内模型没有对SPN直径加以严格筛选,故该模型在SPN的直径统计上存在一定缺陷;所收集的资料不够全面,可能导致应用误差较大。④本组模型建立时病例资料齐全,均有详细的影像学资料及明确的病理结果,所有入选病例均有严格入选标准和剔除标准,进一步减少模型误差。
初步评估SPN良恶性是必不可少的环节,数学预测模型可作为一项筛查手段,对于肺癌的二级预防具有普遍而广泛的现实意义。尽管运用数学模型为SPN性质的判断提供了客观的依据,但毕竟它只是临床诊治过程中的一种工具,无法代替病理。开展大样本多中心的前瞻性研究可进一步完善肺癌预测模型,能更准确、精确地指导临床后续诊治。因此,一旦发现具有上述独立影响危险因素的SPN,一定要高度重视。相信随着影像学检查方法的不断革新和深入研究,将为SPN的精确诊断带来新的希望。
[ 1 ]刘士远,肖湘生. 孤立性肺结节的处理策略. 中华放射学杂志,2005,39:6-8.
[ 2 ]Vazquez M, Carter D, Brambilla E, et al. Solitary and multiple resected adenocarcinomas after CT screening for lung cancer: histopathologic features and their prognostic implications. Lung Cancer, 2009, 64: 148-154.
[ 3 ]Ettinger DS, Akerley W, Borghaei H, et al. Non-small cell lung cancer. J Natl Compr Canc Netw, 2012, 10: 1236-1271.
[ 4 ]Swensen SJ, Silverstein MD, Ilstrup DM, et al. The probability of malignancy in solitary pulmonary nodules. Application to small radiologically indeterminate nodules. Arch Intern Med, 1997, 157: 849-855.
[ 5 ]Gould MK, Ananth L, Barnett PG. A clinical model to estimate the pretest probability of lung cancer in patients with solitary pulmonary nodules. Chest, 2007, 131: 383-388.
[ 6 ]杨德松,李 运,姜冠潮,等. 孤立性肺结节良恶性判断数学预测模型的临床验证及应用. 中华胸心血管外科杂志,2012,28:82-85.
[ 7 ]MacMahon H, Austin JH, Gamsu G, et al. Guidelines for management of small pulmonary nodules detected on CT scans: a statement from the Fleischner Society. Radiology, 2005, 237: 395-400.
[ 8 ]王晓华,马大庆,陈 卉. 毛刺征在CT诊断周围型小肺癌中的价值. 中国医学影像学杂志,2006,14:127-130.
[ 9 ]Erasmus JJ, Connolly JE, McAdams HP, et al. Solitary pulmonary nodules: Part I. Morphologic evaluation for differentiation of benign and malignant lesions. Radiographics, 2000, 20: 43-58.
[10]Visser O, van Leeuwen FE. Stage-specific survival of epithelial cancers in North-Holland/Flevoland, The Netherlands. Eur J Cancer, 2005, 41: 2321-2330.
[11]杨功焕,马杰民,刘 娜. 中国人群2002年吸烟与被动吸烟的现状调查. 中华流行病学杂志,2005,26:77-83.
[12]Soubani AO. The evaluation and management of the solitary pulmonary nodule. Postgrad Med J, 2008, 84: 459-466.
Establishment and Verifcation of a Mathematical Model for Predicting Malignancy of Solitary Pulmonary Nodules
CHEN Jing1, YE Xiao-dan1,YE Jian-ding1, ZHOU Zheng-rong2
Purpose:To establish a CT mathematical model for diagnosis of the solitary pulmonary nodules (SPN) with multivariate Logistic regression analysis, and compared with other known models.Methods:A retrospective study was carried out in Fudan University Cancer Hospital, which included 200 patients with defnite pathological diagnosis of SPNs from Jan 2012 to Jan 2013 (group A). The mathematical prediction model was established with multivariate analysis. Other 89 SPN patients (group B) with defnite pathological diagnosis in our hospital from Feb 2013 to Jul 2013 were used to validate this model.Results:In group A, 32% of the nodules were malignant, and 68% were benign. The mathematical model established by logistic regression was: Y=ex/(1+ex), X=-2.085+0.058×age-1.206×gender-2.157×calcification+0.505×short spiculation+1.729×long spiculation+1.782×lobution-1.005×border. The data in group B were used to validate our model; the area under ROC curve was 0.888±0.051, which was greaterthan the others. The specifcity of our mathematical model was 94.4%, which was higher than that of Mayo Clinical model (88.9%), VA model (72.2%), and domestic model (66.7%); The sensitivity of domestic model was the highest (88.7%), which was higher than that of our mathematical model (83.1%), VA model (78.9%), and Mayo Clinical model (45.1%), P<0.05.Conclusion:The pre-established mathematical prediction model in our study has a high clinical value for diagnosis of SPN. Our prediction model is sufficient and accurate to pretest the malignancy of patients with SPN.
Solitary pulmonary nodule; Mathematical model for predicting; Logistic regression
R445.3
A
1006-5741(2016)-06-0573-05
2016.03.08;修回时间:2016.07.20)
中国医学计算机成像杂志,2016,22:573-577
1 上海交通大学附属胸科医院放射科
2
复旦大学附属肿瘤医院放射诊断科;复旦大学上海医学院肿瘤学系
通信地址:上海市淮海西路241号,上海200030
周正荣(电子邮箱:zhouzr-16@163.com)
国家自然科学基金(No.81571629,No.81301218)
Chin Comput Med Imag,2016,22:573-577
1 Department of Radiology, Shanghai Chest Hospital, Shanghai Jiaotong University
2 Department of Radiology, Shanghai Cancer Center, Fudan University; Department of Oncology, Shanghai Medical College, Fudan University
Address: 241 Huaihai West Rd., Shanghai 200030, P.R.C.
Address Correspondence to ZHOU Zheng-rong (E-mail: zhouzr-16@163. com)
Foundation item: Natural Science Foundation of China (No.81571629, No.81301218)