基于支持向量机的乳腺癌化疗预后状态预测
2015-07-24贺立强王玉娟林和平
贺立强,王玉娟,林和平
(东北师范大学 计算机科学与信息技术学院,吉林 长春 130117)
基于支持向量机的乳腺癌化疗预后状态预测
贺立强,王玉娟,林和平
(东北师范大学 计算机科学与信息技术学院,吉林 长春 130117)
乳腺癌是危害女性生命的一种恶性肿瘤。目前,在乳腺癌治疗方面,新辅助化疗获得了良好的成果,使众多女性恢复了健康。支持向量机在实际应用中有着良好的泛化和学习能力,并在商业、经济以及医疗等领域有所应用。采用决策树分类器和支持向量机分类器,结合乳腺癌新辅助化疗随访记录数据,预测乳腺癌患者新辅助化疗的预后状态,实验结果表明使用支持向量机的效果好于使用决策树的效果,在支持向量机中使用径向基核函数时获得了最高的准确率,达到了84.08%,由此可见,该分类方法可能成为一种乳腺癌新辅助化疗的预后状态的有效预测工具。
乳腺癌;新辅助化疗;预后;支持向量机;分类
0 引言
女性的乳房是其美丽的代言,是母性的传承,同时也是疾病的侵扰对象。乳腺癌是女性最常见的恶性肿瘤之一,发病率正在逐年上升,且趋于年轻化,是危害女性健康的主要杀手[1]。我国乳腺癌疾病也有着不好的趋势,其发病率和死亡率正在逐年攀升。由于受中国传统因素的影响,妇女很少去医院定期检查,羞于关注乳房的健康,女性一旦发现患有乳腺肿瘤,多数已经开始转移。由于患者的体质不同,各项指标亦不相同,如何在患者进行新辅助化疗之前预测到患者的化疗疗效,使能进行化疗的患者得到最大的受益,就变得尤为重要。本文将依据患者随访记录信息,通过数据挖掘技术,对患者化疗疗效进行预测,为乳腺癌患者的治疗提供可靠的帮助。
1 研究现状
伴随着社会经济水平的逐渐提高,乳腺癌逐渐被人们重视起来,国内外学者和医疗工作者对计算机辅助治疗做了大量的研究工作,并取得了一定的研究成果。然而伴随着研究人员对乳腺癌的深入钻研,大量的研究数据不断涌现,临床病例每一位患者都有着大量的检测、治疗和预后数据。患者的医疗数据信息量很大,相互之间联系复杂,想要提取有用的信息数据,进而从信息中提取出有用的知识更是难上加难。目前我国人民思想比较传统,乳腺癌治疗与预测相对落后,计算机医疗辅助治疗远远不如发达国家,为此,需要进一步提升我国的医疗水平。
2 支持向量机原理
支持向量机是一个被大量使用的分类技术。其具有坚实的统计学理论基础,在商业领域、经济领域以及医疗领域等具有很好的应用效果。支持向量机分为两种模型,第一种是线性可分,第二种是线性不可分,第一种模型其实是第二种模型的特例[2]。
提高线性分类器的学习能力是通过核函数实现的。采用将数据映射高维空间的办法,使线性不可分变为可分。常用的核函数有以下几种:
(1)线性核函数
(2)径向基核函数
(3)多项式核函数
(4)Sigmoid核函数
在实际应用中,核函数的选择尤为重要,对于同一数据,不同的核函数所得到的分类准确率大不相同,所以核函数的优选在支持向量机分类中显得尤为重要。
3 应用实例
3.1 数据预处理
本文所用数据来源于吉林大学附属医院,该数据集是依据乳腺癌化疗随访记录表所获,包含 2009年~2013年所有数据。经过与医生的共同探讨,从众多数据中选取了 245名患者随访记录,其中 180个是具有良好治疗效果的记录,65个是治疗效果不理想的记录。在新辅助化疗治疗下有良好效果的乳腺癌患者被定义为正样本,在新辅助化疗治疗下效果不理想的患者,则定义为负样本。所属的分类标签分别制定为+1和-1。每个样本对应一个患者的医疗特征,其中每一维的特征都是根据有经验的医生从中提取,是能够表现出其病情的重要特征。
考虑到支持向量机处理的数据都是实数,本文对非数值属性进行了转换。转换后的数据同样适用于本文将要对比的决策树算法。比如患者特征中 Echogenic Halo特征包含的特征值为3个,分别为Yes,No,Unknown,则对应的数值分别为 1,2,3,但是为了防止较大数值获得最大权重,采取了如下所示的编码机制:
Yes(1,0,0)
No(0,1,0)
Unknown(0,0,1)
3.2 分类结果
为了使分类效果得到更好的评估,引入灵敏度(Sen)、特异度(Spe)和准确率(Q)来评价本文所使用分类器的性能,分别给出评价指标的公式如式(5)~式(7)[3]。
其中 TP是指在工作集中实际是正样本,预测结果为正样本的数目;FN是指在工作集中实际是正样本,预测结果为负样本的数目;TN是指在工作集中实际是负样本,预测结果为负样本的数目;FP是在工作集中实际是负样本,预测结果为正样本的数目[4]。
本文中所使用的数据均来自医院真实数据,正负样本不均衡,为了更好地评价分类器的性能,故而引入Matthews相关系数MCC。计算公式如下:
MCC的取值范围在[-1,1]之间,取值越小说明该分类器性能越不好,反之则分类效果越好。
本文使用决策树 C4.5算法和支持向量机算法,并结合五次交叉验证方法来进行乳腺癌新辅助化疗预后状态的预测。预测效果如表1所示。由表1得知,使用支持向量机比使用 C4.5分类效果要好。本文还分别对比了支持向量机的三种核函数,所体现的准确率均高于决策树的 73.47%。从中可以看出,对于本数据来说,支持向量机分类效果要明显好于决策树。据表中数据显示,灵敏度明显高于特异度,说明正样本学习效果比负样本学习效果要好。
本文分别对比了支持向量机的三种核函数,对于本实验中所使用的该乳腺癌患者数据,其准确率均高于75%。支持向量机的最佳准确率为84.08%,是使用径向基核函数得到的,明显高于其他两种。由此得知,对于同一数据集而言,核函数不一样,其准确率也不一样。想要得到高效的分类效果,必须选择合适的核函数[5]。
本文所使用的数据集,数目有限,众多数据中能够起到支持向量的数据不够充分。通过增加训练数据,可找到更多的支持向量,进而提高分类的准确率,所以本文所采用的支持向量机方法有望成为新辅助乳腺癌患者预后预测的有效工具。
4 结论
本文使用两种分类算法,并对其结果进行了对比,从实验结果中可以看到,支持向量机在处理乳腺癌新辅助化疗预后状态预测方面的分类效果好于决策树分类效果。分别比较了支持向量机三种核函数,从结果数据中可以看出,使用径向基核函数可使分类器获得最佳分类效果。所以在使用支持向量机进行分类的同时,选择哪一种核函数是至关重要的。支持向量机应用于乳腺癌治疗,会给乳腺癌患者带来很大的帮助,使乳腺癌的治疗越来越高效,降低死亡率,增加保乳机会,使患者早日脱离疾病的折磨,恢复健康。
表1 决策树与支持向量机五次交叉验证结果
[1]臧丹丹,崔颖,师建国,等.中国西部地区乳腺癌诊断年龄的抽样分析及中美对比研究 [J].现代肿瘤医学,2010,18(3):571-573.
[2]王平,王文剑.基于时序核函数的支持向量回归机[J].计算机辅助工程,2006,15(3):35-38.
[3]袁前飞,蔡从中,肖汉光,等.基于支持向量机的乳腺癌预后状态预测和疗效评估 [J].北京生物医学工程,2007,26(4):372-376.
[4]马胜祥,马建庆,杨明.基于核函数拟合的非平衡数据分类方法[J].计算机应用与软件,2010,27(4):177-179.
[5]崔炳德.支持向量机分类器遥感图像分类研究[J].计算机工程与应用,2011,47(27):189-191.
Prediction of prognosis for breast cancer based on support vector machine
He Liqiang,Wang Yujuan,Lin Heping
(School of Computer Science and Information Technology,Northeast Normal University,Changchun 130117,China)
Mammary cancer is a malignant tumor of the harm of women′s life.At present,in the treatment of mammary cancer,neo-adjuvant chemotherapy achieved good results,so that many women back to health.Support vector machine has a good generalization and learning ability in practical application,and has been applied in the commercial,economic,medical and other fields.According to Neo-adjuvant chemotherapy in mammary cancer follow-up record data,using decision tree classifier and SVM classifier,predict the prognosis of neo-adjuvant chemotherapy for mammary cancer patients,the experimental results show that the use of support vector machine is better than the effect of using decision tree,using RBF kernel function in support vector machines have the highest accuracy,reached 84.08%。Thus,the classification method,may be an effective tool to predict prognosis for mammary cancer neo-adjuvant chemotherapy.
breast cancer;neo-adjuvant chemotherapy;prognosis;support vector machine;classification
TP399
A
1674-7720(2015)23-0048-03
贺立强,王玉娟,林和平.基于支持向量机的乳腺癌化疗预后状态预测[J].微型机与应用,2015,34(23):48-50.
2015-07-15)
贺立强(1992-),男,硕士研究生,主要研究方向:人工智能、数据挖掘。
王玉娟(1987-),女,硕士研究生,主要研究方向:信息技术教学论。
林和平(1956-),男,硕士,教授,主要研究方向:人工智能、数据挖掘。