APP下载

大数据背景下ROC曲线介绍与应用

2021-01-04李子言

科教导刊 2021年14期
关键词:机器学习

李子言

摘要ROC曲线是研究二分类问题中一种简便、高效的综合性工具,它通过连接真阳率与假阳率在不同切断点或者阈值下的值,构造出一条单调递增曲线,曲线下的面积AUC即可作为衡量诊断效果的指标,面积数值越大,则代表该分类方法越有效。ROC曲线在算法效度研究,心理测评,[1]临床医学诊断中都有广泛的应用。本文简单介绍了ROC曲线的构造方法、基本性质和实际意义,并以生物医学和机器学习的三个例子深入介绍了不同情形下ROC曲线的应用,最后总结ROC曲线的优缺点和应用场景。

关键词 ROC曲线 AUC生物医学 机器学习 二分类

中图分类号:R195文献标识码:ADOI:10.16400/j.cnki.kjdk.2021.14.026

IntroductionandApplicationofROCCurveundertheBackgroundofBigData

LI Ziyan

(School of Mathematics and Statistics, Central China Normal University, Wuhan, Hubei 430079)

AbstractROC curve is a simple and efficient comprehensive tool in the study of binary classification. It constructs a monotonic increasing curve by connecting the true positive rate and false positive rate at different cut-off points or thresholds. The area AUC under the curve can be used as an index to measure the diagnosis effect. The larger the area is,the more effective the classification method is.ROC curve is widely used in algorithm validity research, psychologicalevaluation,clinicaldiagnosis.This paperbriefly introducestheconstructionmethod,basicpropertiesand practical significance of ROC curve, and introduces the application of ROC curve in different situations with three examples ofbiomedicine and machinelearning.Finally, it summarizes theadvantages and disadvantages of ROCcurve and application scenarios.

KeywordsROC curve; AUC; biomedical science; machine learning; dichotomy

1 ROC曲線的介绍

1.1 ROC曲线

ROC曲线(Receiver Operator Characteristic Curve,接收者操作特征曲线)是一种研究二分类问题的有效工具。对于二分类问题,它的样本只有正样本和负样本两类,但某些情形中,一个实验可以提供多个结果而不是简单的正样本和负样本,甚至在某些情形中,实验结果是连续性变量。因此通过以假阳率为横轴、纵轴为真阳率,ROC曲线可以将不同阈值下计算的准确值指标,比如以识别实验结果是正样本或假样本的不同切断点(cut-off-point)计算出的准确值指标连成一条曲线,曲线下面积则构成了检验整个诊断精度的一个合理指标。[2]ROC曲线常在医学中确定诊断准则时有重要应用。

在医学中一个症状(或一组症状,或筛选检验)的真阳率是疾病发生后出现症状的概率,又称为灵敏度。

需要注意的是,显然在同一种简单的分类方法中,切断点越多,对应的ROC曲线下面积越大,因此对比两种分类方法时,切断点的数量是固定的。但并不一定要求切断点数量一致,因为切断点的数量也可以理解为分类方法的内容之一。通常,我们认为有五个以上切断点的分类或者连续型数据才有绘制ROC曲线的必要。[3]

当AUC=1时,所使用的分类器被称为完美分类器,无论什么阈值都能获得完全准确的预测,但在现实情况中这样的分类器一般不存在。

当0.5

当AUC=0.5时,使用的分类器与随机预测相同,类似于丢硬币,预测正确和错误的概率均为50%,该分类器没有一个好的预测价值。

当AUC<0.5时,使用的分类器比随机预测效果更差,但此时可以反着预测,则得到0.5

使用AUC的原因是当两种分类器的ROC曲线相交的时候,很难直观判断出哪个分类器的性能更好,而AUC能够比较数值大小,AUC数值越大则分类器性能越好。

当测试样本很有限时,ROC曲线图形是阶梯状的,如图2,于是计算每个阶梯下的小矩形面积之和就可以获得AUC。

但这个方法实际上计算是比较麻烦的,还有一种ROC AUCH法,与梯形面积法都是以逼近法求近似值。[5]

2大数据背景下ROC曲线的实际应用

2.1精神卫生

中国人的最少精神病测验(CMMS)由114个项目组成,用于去识别老年性痴呆。这个指标也被延伸且用到临床。每个老人与精神病医生及护士谈话并被诊断是否有老年性痴呆。表2仅列出一部分正式受过教育的部分老人资料。

改变分界点值,分别取5,10,15,20,25,30,当CMMS合计值小于该分界点者识别为有老年性痴呆,计算真阳率和假阳率构建ROC曲线如图3。

使用梯形面积法,计算出ROC曲线下的面积s=0.08091,这个面积意味着医生能按照CMMS分数的相对顺序而正确地把一个非老年痴呆患者从老年痴呆患者中识别出来的概率是80.91%。当正常受试者与不正常受试者有相同分数时,学者可以随机地做决定。

一般情况下,对于相同疾病地两个筛选检验中,ROC曲线下面积大者被认为是较好地检验。但在某种特殊情形下可以例外,比如在两个检验比较中,某个值的真阳率或假阳率特别重要时,面积的比较就没有必要了。

2.2糖尿病预测算法分析

糖尿病是目前世界上较普遍的一种疾病,且发病率和患病率逐年提升,甚至日渐呈现低龄化的趋势,通过皮玛族印第安女性糖尿病数据集(PimaIndiansWomenDiabetes)进行分类预测,并绘制不同算法的ROC曲线,可以寻找高效预测糖尿病的算法,提高预测精度,帮助人们尽早发现糖尿病风险。[6]

对于此类算法而言,由于结果与阈值没有很大联系,于是可以仅采用一个切断点,即一次输出的结果,与原点和(0,1)点连接,得到仅有一个折点的ROC曲线。虽然这样不能横向比较同一个算法中不同分类效果的影响,但通过对折线下面积的比较,仍然能纵向比较不同算法的分类效果。

如果基于30%的测试集迭代随机森林、随机森林、K最近邻、支持向量机、Logistic回归、梯度提升机、决策树和人工神经网络分类模型分别画出ROC曲线。[7]当一条曲线完全包裹另一条曲线时,则认为该算法更优,而本例得到的结果中,迭代随机森林、随机森林和K最近邻三个分类模型的ROC曲线包裹了其他曲线且相交,无法直观判断算法优良性。此时便借助AUC值,由于这里只有一个折点,通过梯形面积法很快地就能获得这三种算法的AUC值,迭代随机森林的AUC值为0.7427,高于K最近邻的0.7407和随机森林的0.7368。因此下结论,认为迭代森林算法在该数据的分类上有最优秀的效果。

2.3人脸识别

在人脸识别技术中,ROC曲线也有重要应用,在人脸检测数据集和基准官方网站(FDDB)中,对于不同的人脸检测技术,并考虑阈值,绘制ROC曲线,得到图4。

圖中,横轴是误报数,纵轴是检测率,不同曲线代表着不同人脸识别算法。其中ROC曲线越陡峭,越高的算法性能更好,于是该图能简明快速地帮助学者寻找性能最好的人脸识别算法。

3 ROC曲线的优缺点

3.1优点

(1)直观,ROC曲线将灵敏度和特异度以曲线图像的形式综合分析,可以肉眼观察分类模型的性能。

(2)平衡性好,ROC曲线绘制过程中同时考虑到正样本和负样本,且即使正样本与负样本的比例发生了很大变化,ROC曲线也不会产生大的变化。

(3)简单,ROC曲线所采用的两个指标,TPR和FPR都不依赖于样本具体的分布。

3.2缺点

ROC曲线对类分布的改变不敏感。[8]

这点既是优点也是缺点。类分布就是测试集中正例和负例的比例。在实际应用中,类分布的不平衡现象非常广泛,类分布不平衡程度达到1:10,1:100的情况非常常见,有的甚至达到1:106。

一方面,这种严重的不平衡的类分布使得一些传统的评价标准不再适用,而ROC曲线由于不受类分布的影响,适合于评估、比较这种不平衡数据集。另一方面,当模型分类中主要关心正例的预测准确性时,ROC曲线便不好应用。并且如果负例的数目众多,会使得,FPR的增长不明显,导致ROC曲线呈现一个过分乐观的效果估计,大量负例被错判成正例,在ROC曲线上却无法直观地看出来。

在大数据分析中,ROC曲线是一种非常形象直观、操作简单的方法,受到很多数据分析师的青睐。[9]

参考文献

[1]郭秀艳,杨治良.实验心理学.人民教育出版社,2004:292-295.

[2]伯纳德·罗斯纳著.生物统计学基础(第五版).孙尚拱译.科学出版社,2020.7.

[3]王曼,徐春燕,施学忠.医学论文中ROC曲线应用错误例析.编辑学报,2019,(02):159-161.

[4]雷明.机器学习与应用.清华大学出版社,2019.1.

[5]分类学习算法的性能度量指标综述,杨杏丽,计算机科学,网络首发2021-04-21.

[6]王成武,晏峻峰.早期糖尿病风险预测模型的比较研究,智能计算机与应用. 2021,(01).

[7]刘文博,梁盛楠,秦喜文,等.基于迭代随机森林算法的糖尿病预测,长春工业大学学报,2019,40(06),604-611.

[8]J-JunLiang.P-R曲线与ROC曲线使用总结. https://blog.csdn.net/ jliang3/article/details/88881315.

[9]Two sensitivity orders applied to the comparison of ROC curves,Ramos HéctorM.; Ollero Jorge; Suárez Llorens Alfonso,Communications inStatistics -Theory andMethods,Volume50,Issue 8. 2021. PP 1884-1896.

猜你喜欢

机器学习
基于词典与机器学习的中文微博情感分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
下一代广播电视网中“人工智能”的应用
基于支持向量机的金融数据分析研究
基于Spark的大数据计算模型
基于朴素贝叶斯算法的垃圾短信智能识别系统
基于图的半监督学习方法综述
机器学习理论在高中自主学习中的应用
极限学习机在图像分割中的应用