APP下载

脑出血早期血肿扩大自动预测研究综述

2019-04-12张洪

现代计算机 2019年7期
关键词:特征选择血肿阈值

张洪

(四川大学计算机学院,成都610065)

0 引言

脑卒中(Stroke)是一个危害严重的全球性问题,脑卒中分为缺血性脑卒中和出血性脑卒中,缺血性脑卒中是因脑脊动脉闭塞或极重度狭窄而缺乏血流灌注。出血性脑卒中,也称脑出血(Intracerebral Hemorrhage,ICH),脑出血是因为脑脊动脉破裂而导致脑实质内、蛛网膜下腔和脑室内出血。全球范围内,在发达国家,脑出血占脑卒中约11%,在非发达国家,脑出血占脑卒中22%左右,一旦出现脑出血,其中有75%的患者会发生死亡[1-2]。

出现脑出血症状后发生早期血肿扩大(Hematoma Expansion,HE)与不良的预后结果相关,是改善临床结果的关键。及时地发现可能会发生血肿扩大的脑出血患者,能够及时地对患者进行治疗。因此,利用可能与血肿扩大有关特征,建立自动化脑出血早期血肿扩大预测模型,已逐渐成为研究热点。

本文基于机器学习理论,从建模方法上对现有的脑出血血肿扩大预测的关键性研究进行了总结,分析后发现,从机器学习的角度来看,当前研究在数据、特征选择、学习器、模型评价指标方面都有值得改进的地方,未来,应多结合机器学习与脑出血血肿扩大预测两个研究领域,以促进血肿扩大预测研究的发展。

1 血肿扩大预测研究进展

本节将从数据集、特征提取、特征选择、训练算法、模型性能以及血肿扩大划分标准6 个方面对当前血肿扩大研究的建模方法进行总结,如表1 所示是其中一些关键性的研究。

表1 血肿扩大预测关键性研究

Takeda 等[3]研究了201 例急性脑出血患者。首先收集了与患者有关的14 个临床和影像学特征,以基线CT 到随访CT 时血肿相对扩大33%或绝对扩大12.5ml作为血肿扩大划分阈值,3.4%的患者发生了血肿扩大。然后使用单变量特征选择方法进行特征选择,对每个特征进行了T-检验、Mann-Whitney U 检验以及卡方检验,经过特征选择,最优特征子集为:血肿体积、入院后1.5 小时心脏收缩压和血肿密度异质性。最后使用多变量逻辑斯蒂回归建立预测模型,结果显示,模型在验证集上的AUC 性能指标为0.91。

Chan 等[4]研究了257 名脑出血患者。首先收集了与患者有关的23 个特征,以基线CT 到随访CT 时血肿体积相对扩大33%或绝对扩大12.5ml 将患者分为血肿扩大或非血肿扩大,其中35.4%的患者发生了血肿扩大。然后使用单变量特征选择方法进行特征选择,对每个特征进行了Fisher 精确检验和Kruskal-Wallis 检验,经过筛选,最优特征子集为:抗血剂的使用和基线mNIHSS 分数。最后使用多变量逻辑斯蒂回归建立血肿扩大自动预测模型,结果显示,模型在验证集上的性能指标AUC 为0.67。

Miyahara 等人[5]研究了622 名脑出血患者。首先收集了与患者有关的23 个特征,以基线CT 到随访CT时血肿体积相对扩大33%或血肿最大直径绝对增加5mm 作为阈值,将患者划分为血肿扩大或非血肿扩大,其中10.8%的患者发生了血肿扩大。然后使用单变量特征方法选择进行特征选择,对每个特征进行了皮尔逊卡方检验、Fisher 精确检验和Wilcoxon 检验,经过特征选择,最优特征子集为:是否使用抗凝、血肿周围发生水肿、Niveau 形成、血肿不均一性和血肿体积。最后使用多变量逻辑斯蒂回归建立血肿扩大自动预测模型,结果显示,模型在验证集上的AUC 性能指标能达到0.81,在测试集上的性能指标能达到0.80。

Sakuta[6]研究了118 名脑出血患者。首先收集了与患者有关的20 个特征,以基线CT 到随访CT 时血肿体积相对扩大33%或血肿体积绝对增加6ml 作为分类阈值,将患者划分为血肿扩大和非血肿扩大两个类,其中25%的患者发生了血肿扩大。然后使用单变量特征选择方法进行特征选择,对每个特征进行了卡方检验、Fisher 精确检验、T-检验、Mann-Whitney U 检验,经过特征特征选择,最优特征子集为:基线NIHSS、抗凝药使用、血糖。最后使用多变量逻辑斯蒂回归建立预测模型,并开发了一个量表,结果显示,模型在验证集上的AUC 性能指标为0.81。

除了以上研究外,还有一些类似地血肿扩大预测研究,例如文献[7-9],其建模方法基本一致。总的来看,血肿扩大预测研究的建模方法缺乏多样性,除了数据集不一样外,其他建模流程基本一致。

2 血肿扩大预测研究方向

通过对血肿扩大研究的总结,可以看出当前血肿扩大已经取得了一定的研究成果,发现了一些与血肿扩相关的预测因子。但在建模方法上,当前研究在数据、特征选择、分类器、评价指标方面都有待改进。

2.1 数据

现有研究将血肿扩大预测问题转换成了二分类问题进行处理,通过一个阈值将血肿扩大的值变为二值,然而,血肿扩大划分的阈值并不统一。当前研究的结果差异也较大,可能是分类阈值的设定不一致导致的,同时,这也造成了研究之间更没有可比性。此外,经过二值划分后,发生血肿扩大的脑出血患者数量相对较少,机器学习理论表明,类别不平衡会使得预测模型有偏向多数类样本的风险,导致模型灵敏度偏低而特异度偏高。当前血肿扩大研究并未报道模型的灵敏度和特异度,有可能是因为类别不平衡导致模型灵敏度过低和特异度过高。

在机器学习中,类别不平衡处理方法主要有过采样法、欠采样法和阈值移动法[10]。阈值移动法通过调整分类的阈值来处理非平衡数据集问题。欠采样法通过去掉部分多数类来使得两个类别的样本量相同,但是,这样做会使得模型可利用的信息变小了,此外,当少数类样本过少时,该方法也不适用。过采样法通过对训练集中的少数类样本复制多份,使得正例样本和负例样本的数量相同,但是简单地复制会使得模型严重过拟合。SMOTE 系列[11-12]的算法对已有的少数类样本进行插值来产生少数类样本,从而将数据集变为平衡数据集。一般来说,过采样法效果更好些,因此,未来的血肿扩大研究可尝试着使用过采样法来处理类别不平衡问题。

2.2 特征选择

在机器学习中,特征选择方法主要分为过滤式特征选择和包裹式特征选择,当前血肿扩大预测研究所用的特征选择方法为单变量特征选择,属于过滤式特征选择方法,即特征选择不依赖于学习器。而包裹式特征选择在进行特征选择时,以分类器的分类性能来评价特征子集的好坏,因此,一般来说,过滤式特征选择相对更好一些,但包裹式特征选择比较耗时,适合小数据集。对于血肿扩大数据集,其样本量都较小,因此,包裹式特征选择方法可能更适合。

2.3 学习器

在机器学习中,决策树、支持向量机、朴素贝叶斯等经典算法在众多领域都取得了较大的成功。现有血肿扩大研究所用的分学习器为逻辑斯蒂回归,而回归只能发现特征与标签的之间的线性关系。支持向量机通过寻找一个超平面来进行分类,对于非线性可分数据,可使用高斯核或多项式核进行将数据集映射到高维空间,再寻找超平面来进行分类。决策树不仅可以发现多个特征与目标之间的非线性关系,其可解释性也很强。因此,未来的血肿扩大预测研究中,可尝试着使用更多的机器学习算法作为学习器。

2.4 评价指标

机器学习领域,对于一个二分类模型性能的评价,有AUC 值、准确率、F1 度量、灵敏度、特异度等指标。现有血肿扩大研究报道的模型性能指标仅AUC 值,而AUC 值仅能展示模型的总体预测能力。灵敏度可以展示预测模型在正例样本上的预测能力,而特异度可以展示预测模型在负例样本上的预测能力。因此,血肿扩大研究还应该报道其预测模型的灵敏度和特异度,以展示其模型对血肿扩大患者的预测能力和对非血肿扩大患者的预测能力。

3 结语

本文总结了当前的关键的脑出血早期血肿扩大预测研究,从机器学习建模的角度分析了当前脑出血早期血肿扩大预测研究的建模方法,指出了当前研究在数据、特征选择、学习器、评价指标方面存在的问题,并针对存在的每个问题,提出了可能的解决方法。当前,血肿扩大预测研究的建模方法比较单一,这可能是因为血肿扩大研究者多为医学领域的研究者,对机器学习理论及机器学习建模技术了解较少。未来,血肿扩大预测研究者应多于机器学习研究者交流,将更多先进的机器学习建模方法应用到血肿扩大预测中,以促进血肿扩大自动预测研究的发展。

猜你喜欢

特征选择血肿阈值
改进的软硬阈值法及其在地震数据降噪中的研究
土石坝坝体失稳破坏降水阈值的确定方法
基于小波变换阈值去噪算法的改进
硬脑膜外和硬脑膜下血肿相关知识,你应了解吗?
改进小波阈值对热泵电机振动信号的去噪研究
护理多发性颅内血肿患者时需要注意哪些情况
基于智能优化算法选择特征的网络入侵检测
故障诊断中的数据建模与特征选择
reliefF算法在数据发布隐私保护中的应用研究
一种多特征融合的中文微博评价对象提取方法