APP下载

基于BI-RADS描述的乳腺肿瘤判别

2014-09-08硕,薛

食管疾病 2014年2期
关键词:决策树乳腺准确率

翁 硕,薛 松

基于BI-RADS描述的乳腺肿瘤判别

翁 硕1,薛 松2

目的探讨BI-RADS在乳腺肿瘤检查中的应用价值。方法先是预处理大量的历史数据集含BI-RADS特征和对应的病理结果,然后基于这些数据集进行决策树算法建模,最后采用留一法(leave-one-out cross validation)验证模型的性能。结果对实验中收集的361例(良性182例,恶性179例)进行留一法验证,实验结果准确率为91%,敏感性为87%,特异性为95%,受试者工作特征曲线下面积为95%。结论基于BI-RADS描述的乳腺肿瘤判别方法十分有效,有望为临床诊断提供有价值的参考意见。

乳腺肿瘤;BI-RADS;决策树;分类器;识别

乳腺癌是女性最常见的恶性肿瘤之一。据肿瘤流行病学调查,欧美乳腺癌发病率居女性恶性肿瘤首位,中国乳腺癌发病率仅次于子宫颈癌,年死亡数超过2万人[1]。同时,近年来乳腺癌呈高速发展趋势,如果没有相关措施,中国乳腺癌发病率可能从每10万人中25~60人升至100人[2]。

乳腺影像报告数据系统(breast imaging reporting and data system,BI-RADS)是美国放射协会(ACR:the American College of Radiology)于2003年制定的标准乳腺成像报告和数据系统,它有利于与临床的沟通,对乳腺病变的诊断、评判有重要意义,是目前国内外公认的有效的乳腺影像学诊断指导,在我国也已经得到了长期广泛的应用。本文是采用先预处理大量的历史数据(包含BI-RADS特征和对应的病理结果)——基于这些数据集进行决策树算法建模——采用留一法(leave-one-out cross validation)验证模型的性能的方法来验证BI-RADS在乳腺肿瘤检查中的应用价值。

1 资料与方法

1.1 资料本文的实验数据是以患者为中心的乳腺肿瘤数据,包括超声图像、BI-RADS格式化描述、临床信息(含病史、家族史、年龄和病理结果)。收集的病例共381例,其中良性肿瘤192例,恶性肿瘤189例。所有数据收集于2012~2014年,来自于福清市中医院超声科室。采用的超声仪型号有ATL HDI-3000,GE Logic 9,ACUSON Sequoia 512,SIMENS G50 和Hitachi 8500,超声探头频率范围5~13 mHz。 为了减少不同医师之间的不一致性,所有患者乳腺肿瘤的BI-RADS描述来自两位经验丰富的医师的一致检查。本文中所提到的乳腺肿瘤均是经过活组织检查确认或者是经过2 a以上随诊认为是良性肿瘤。

2.2 方法

2.2.1 数据预处理 本文所收集的数据包含超声图像,BI-RADS格式化描述,临床信息和病理结果。实验时首先过滤提取含BI-RADS特征和病理结果的数据,也就是将以患者为中心的数据转化为以病例为中心的数据,因为有些患者可能有一个良性肿瘤和一个恶性肿瘤。其次,BI-RADS有些特征信息丢失,有些病理结果没有记录,在实验时需要进行特殊对待。对于病理结果没有记录的病例需要被剔除;对于BI-RADS特征部分丢失的,可以设置一定的阀值,剔除丢失特征过多的病例;部分特征缺失可以采用相似性插值进行填补[7]。经过数据预处理后的数据总共为361例,含182例良性和179例恶性病例。

2.2.2 决策树模型 数据处理需要先建立和训练机器学习模型,即以BI-RADS特征为自变量,以病理结果为因变量,建立一种映射,目的是使这种映射精确地拟合历史数据,同时又能够精确地预测未知数据。有大量的机器学习建模方法,如回归分析,决策树模型,神经网络,贝叶斯网络和支撑向量机[3-4]等。由于BI-RADS部分特征是数值型,部分特征是种类型,因此一些方法如回归分析就不太适合。由于决策树模型能够处理数值型和种类型自变量,而且决策树模型能够容忍噪声和易于解释,本文采用决策树模型这个方法。 决策树算法是以实例为基础的归纳学习算法,以其计算量相对较小、易于提取显示规则、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用[5]。ID3(Iterative Dichotomizer 3)算法、C4.5算法和CART算法是比较常用的3种经典的决策树算法。本文采用的是CART(Classification And Regression Tree:分类回归树)算法,它是仅有的一种通用的树生长算法。该算法采用的是二分递归分割的技术,将当前的样本集分割成两个子样本集,使得生成的每个非叶子节点都有两个分支。

2.2.3 决策树模型的验证 为了测试预测模型的泛化能力,需要进行模型验证。常见的模型验证有两种[5]:一种是随机地将数据集分成训练集和测试集,一般将2/3的数据集作为训练集训练模型,1/3的数据作为测试集,从而了解模型的预测能力。另一种是k折交叉验证(k-fold cross validation),即初始随机地分割成k个子样本,一个单独的子样本被保留作为验证模型的数据,其他k-1个样本用来训练。交叉验证重复k次,每个子样本验证1次,平均k次的结果作为了解模型的预测能力。当k取数据集大小时,即为留一法验证(leave-one-out cross validation)。本文采用leave-one-out 交叉验证决策树模型的性能。

2 结果

为了量化预测模型的结果,这里采用3个指标描述肿瘤诊断应用价值:准确率(Accuracy)、敏感性(Sensitivity)、特异性(Specificity)。敏感性反映试验检测疾病的能力;特异性反映识别疾病的辨别能力。不同的应用目的对肿瘤诊断评估的主要指标要求也不同,如筛查、诊断、治疗监视和复发均要求敏感性值比较高,诊断和复发对特异性要求比较高,各定义如下:

Accuracy=(TP+TN)/(TP+TN+FP+FN)

Sensitivity=TP/(TP+TN)

Specificity=TN/(TN+FP)

其中TP:True Positive(真阳性),TN:True Negative(真阴性),FP:False Positive(假阳性),FN:False Negative(假阴性)。建立的决策树模型如图1。

图1 决策树模型图

采用leave-one-out交叉验证,决策树模型获得的准确率是91%,敏感性是87%,特异性是95%。为了充分客观评价训练的模型,显示受试者工作特征曲线(ROC:receiver operating characteristic curve)以及ROC曲线下的面积(AUC: area under curve),AUC=95%。

3 讨论

早期乳腺癌筛选的影像检查主要有钼靶X线摄片和超声检查,钼靶X线摄片检查主要是通过发现微小钙化以及钙化分布形态来实现诊断的,对于无钙化的乳腺癌诊断带来一定困难,特别是亚州人群的致密型乳腺;X线检查电离辐射可能诱发癌症,所以泌乳期的年轻妇女不宜乳腺放射线检查;此外单以钼靶X线作为乳腺癌的诊断手段会造成一定的假阴性,而且钼靶X线摄片对乳腺肿瘤大小、浸润范围等信息提供甚少。超声检查能清晰地显示乳腺及其周围软组织的解剖结构,具有检查方法简单、价格低廉、无创、实时、可重复性强等优点,目前已成为国内外乳腺科医师的首选检查方法[6]。但是基于超声检查方法诊断乳腺癌的准确率主要依赖于超声医生的诊断经验,不同医生的诊断准确率会有所不同。因此缺少经验的医生急需客观量化的临床决策支持(clinical decision support,CDS)[7-9]辅助他们做出准确的诊断。

本研究结果显示,BI-RADS描述体系的应用,在诊断结果中引入了可能范围的概念,对乳腺超声异常所见进行评估分类,每一级都只是一个良恶性可能的范围,这使得超声医师在做出诊断时既可以参照自己的临床经验确定病变良恶性的范围,又可给出一个临床可靠的指导,这对于经验不够的医师可大大提高诊断的准确率。同时通过实验也验证了BI-RADS描述体系对乳腺癌的诊断敏感、准确,在乳腺肿瘤检查诊断中具有较好的应用价值。

[1]Parkin P,Parkin DM,Bray FI,et al.Estimates of the worldwide mortality from 25 cancers in 1990[J].Int J Cancer,1999,83(1):18-29.

[2]Linos E,Spanos D,Rosner BA,et al.Effects of reproductive and demographic changes on breast cancer incidence in China:a modeling analysis[J].J Natl Cancer Inst,2008,100(19): 1352-1360.

[3]Ping-ning Tan,Michael Steinbach,Vipin Kumar.数据挖掘导论[M].北京:人民邮电出版社,2012:27-38,89-168.

[4]边肇祺,张学工.模式识别[M].北京:清华大学出版社,2000:9-360.

[5]杨静,张楠男,李建等.决策树算法的研究与应用[J].计算机技术与发展,2010,20(2):114-116.

[6]李治安,李建国,刘吉斌.临床超声影像学[M].北京:人民卫生出版社,2003:1630-1643.

[7]Drukker K,Gruszauskas NP,Sennectt CA,et al.Breast US computer-aided diagnosis workstation: performance with a large clinical diagnostic population[J].Radiol,2008,248:392-397.

[8]Kuo WJ,Chang RF,Moon WK,et al.Computer-aided diagnosis of breast tumors with different us systems[J].Acad Radiol,2002,9:793-799.

[9]Huang YL,Kuo SJ,Chang CS.Image retrieval with principal component analysis for breast cancer diagnosis on various ultrasonic systems[J].Ultrasound Obstet Gynecol,2005,26:588-566.

DeterminationofBreastCancerBasedonBI-RADS

WENG Shuo,XUE Song

(Fujian Qiaoxing Light Industry School,Fuqing 350300,China)

ObjectiveTo assess the value of BI-RADS(Breast Imaging-Reporting and Data System ) in the examination of the breast cancer.MethodsFirst to deal with a lot of historical data including the feature of BI-RADS and the corresponding pathological findings,Then to model the decision tree algorithm based on these datas.Finally to use the “leave-one-out cross validation” to verify the performance of the model.Resultsthe pathological examination( revealed 182 benign and 179 malignant lesions) was verified.The accuracy,sensitivity and specificity of the result were 91%,87% and 95%.Area under the ROC curve was 95%.ConclusionThe discrimination method of breast cancer based on BI-RADS is very effective,it is expected to provide valuable reference for clinical diagnosis.

breast tumor;BI-RADS;decision tree;classifier;identification

2014-03-22

1.福建省侨兴轻工学校,福建福清 350300 2.福清市中医院超声科室,福建福清 350300

翁硕(1981-),女,福建福清人,讲师,从事教师工作。

R730.41,R737.9

A

1672-688X(2014)02-0099-03

猜你喜欢

决策树乳腺准确率
乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析
不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨
2015—2017 年宁夏各天气预报参考产品质量检验分析
一种针对不均衡数据集的SVM决策树算法
体检查出乳腺增生或结节,该怎么办
决策树和随机森林方法在管理决策中的应用
高速公路车牌识别标识站准确率验证法
得了乳腺增生,要怎么办?
基于决策树的出租车乘客出行目的识别
容易误诊的高回声型乳腺病变