APP下载

基于L2,1范数机器学习方法的头晕经颅多普勒超声血流特征参数识别

2022-10-27彭景邹忆怀宿家铭吴康宋凡陈星

中国医疗设备 2022年10期
关键词:头晕分类器血流

彭景,邹忆怀,宿家铭,吴康,宋凡,陈星

1.北京中医药大学东直门医院 a.脑病科;b.肾病内分泌科;c.脑功能检查室,北京 100700;2.北京航空航天大学 生物与医学工程学院,北京 100191

引言

头晕是神经内科门诊最常见的症状之一,在门诊就诊患者中占比5%~10%[1],其病因较复杂,且多种疾病均可引起头晕,由于传统MRI、CT等检查方式的阳性率较低,且临床上尚缺乏头晕诊断的相关指南,导致头晕的误诊率较高。经颅多普勒超声(Transcranial Doppler,TCD)检查能够对不同类型的头晕患者脑血流动力学改变进行分析,在实时监测血流动力学方面优势明显,可作为头晕患者常用的辅助检查手段[2]。然而,临床上TCD检查显示的某些脑血管异常情况与头晕之间的关系尚不明确,导致研究结果存在差异,且TCD临床诊断受医生的主观因素影响较大。因此,探寻一种能从个体水平预测头晕的脑血流特征,对头晕患者临床诊断及疗效判断具有重要意义。

机器学习算法的提出,为从个体脑血流特征参数预测头晕等疾病提供了可能,如周兴伟[3]采用BP神经网络及最小二乘支持向量机理论实现了TCD信号的分类,并达到较满意的分类正确率,表明使用机器学习联合TCD预测脑血管相关疾病具有可行性。利用机器学习算法,计算机可以对现有知识进行结构划分,并从繁杂的数据中自动分析获得规律,检测出难以识别的模式,已被广泛用于关键特征的训练和识别,以及群体的分类中[4]。

机器学习算法包括支持向量机、逻辑回归、多层感知机等,其中支持向量机是一种解决非线形和线形问题的机器学习工具[5],其尝试在高维或无限维空间中构造一个超平面或一组超平面,可用于分类、回归或其他任务。在解决非线性问题时,核函数可以用来向原始数据添加额外的维数,从而使其在高维空间中成为线性可分问题。常用的核函数有多项式核函数、高斯核函数等,可以通过使用交叉验证,以严格的统计方法选择出最优的核函数[6]。逻辑回归算法是机器学习中解决二元分类问题的一种常用方法,其使用Sigmoid函数作为研究中的预测函数,通过线性函数y=wx+b的运算来对输入变量x和输出变量y之间的关系进行建模[7],y则通过Sigmoid函数转换成标签化的结果,该函数阈值是一个可调节的参数。多层感知机属于人工神经网络,主要包括输入层、隐藏层和输出层[8],它中间可以有多个隐藏层。其作为一种简明有效的网络,能够有效地优化目标函数,提高模型准确率[9]。

传统机器学习算法具有模型简单、易于提取特征、小样本结果稳定等优点,但单一的机器学习模型所能解决的问题有限,需要较为复杂的特征工程,且泛化能力差。而集成学习[10]通过训练若干个弱学习器,经过一定的结合策略最终形成一个强学习器来解决问题,能够显著提高学习系统的泛化能力[11]。此外,基于L2,1范数的稀疏特征选择方法,使用各种不同的稀疏模型,使得被选择出来的特征尽可能稀疏且具有判别性,从而进一步提高机器学习模型识别精度[12]。

基于此,本研究旨在利用高鲁棒性的L2,1范数有效提炼出预测头晕患者的TCD血流特征参数,并应用机器学习模型从个体水平分类和预测头晕患者,建立诊断模型,以期为头晕的诊断与防治提供一定的理论依据。

1 资料与方法

1.1 一般资料

选取2020年4月至2021年10月在北京中医药大学东直门医院脑病科门诊主诉头晕并经TCD检查的患者41例,并选取同时期健康体检者21例作为研究对象。头晕诊断标准采用Troost[13]的方法(包括身体不稳、虚弱无力等症状)。纳入标准:① 符合上述诊断标准的患者;② 病历资料完整的患者;③ 已获得患者或家属的知情同意。排除标准:① 前庭周围性疾病、脑出血、中枢神经系统脱髓鞘疾病、颅内肿瘤、神经系统病变、全身性疾病所致头晕的患者;② 对检查不配合或不能有效完成检查的患者。共纳入男性27例,女性35例,其中头晕组年龄(53.98±11.25)岁,体检组年龄(50.71±7.96)岁,两组受试者年龄(t=-1.18,P=0.24)、性别(χ2=0.214,P=0.64)比较差异均无统计学意义。本研究经北京中医药大学东直门医院伦理委员会审核批准(伦理号:DZMEC-KY-2019-180)。

1.2 TCD数据采集

TCD检查:采用美国Natus公司生产的TCD诊断仪(型号:SONARA/tek),探头频率2 MHz。通过颞窗、眼窗和枕窗,分别记录双侧大脑中动脉、双侧颈内动脉终末段、双侧颈内动脉虹吸段、双侧大脑前动脉、双侧大脑后动脉、双侧椎动脉、基底动脉近远端的血流信号,测量以上14个血管部位的收缩期峰值流速(Peak Systolic Velocity,Vs)、舒张期末期流速(End Diastolic Velocity,Vd)、平均流速(Mean Velocity,Vm)、搏动指数(Pulsatility Index,PI)、阻力指数(Resistance Index,RI),并根据有无头晕症状分别赋值“0”和“1”(头晕患者赋值“0”,健康体检者赋值“1”)构建数据集。图1为1例典型头晕患者的TCD血流特征参数图。

图1 1例典型头晕患者的经颅多普勒血流特征参数图

1.3 基于机器学习的分类验证

1.3.1 数据集划分

按照自然比例,将所有研究对象随机划分为10份,其中8份作为训练集,2份作为测试集。为解决正负样本不平衡问题,使用SMOTE算法通过构造新的小类样本进行训练集的数据扩增,并进行训练集数据平衡,使两类训练集上数据变为1∶1。

1.3.2 特征选择

1.3.3 模型建立与评价

特征选择完成后,采用3种独立机器学习算法及1种集成学习算法构建头晕的TCD辅助诊断模型,包括逻辑回归、支持向量机和多层感知机,以及将上述3种独立分类器进行集成学习(软投票方法:即将上述3种单一分类器的投票结果乘以一个权重wi,再将所有乘以权重后的结果求和,最终以最大的票数类别作为集成模型最终的预测类别)。对于模型的超参数,在训练集上进行5折交叉验证,通过平均受试者工作特征(Receiver Operating Characteristic,ROC)曲线下面积(Area Under Curve,AUC)值,以及网格搜索法来选择机器学习模型的超参数;然后基于训练集进行模型的构建,再基于测试集对构建的分类器模型分别进行预测。并使用总体正确率(Accuracy,ACC)、AUC值评价模型性能。

1.4 统计学分析

SPSS 20.0为统计学处理方式,机器学习特征选择与模型建立均使用Python 3.9进行。

2 结果

2.1 特征筛选及重新采样

使用L2,1范数方法共提取出29个特征,图2展示了权重由大到小的前10个特征,依次为:右侧椎动脉舒张末期流速(Right Vertebral Artery End Diastolic Flow Velocity,Vd-RVA)、右侧大脑中动脉收缩期峰值流速(Right Middle Cerebral Artery Peak Systolic Flow Velocity,Vs-RMCA)、右侧椎动脉收缩期峰值流速(Right Vertebral Artery Peak Systolic Flow Velocity,Vs-RVA)、右侧椎动脉阻力指数(Right Vertebral Artery Resistance Index,RI-RVA)、右侧大脑中动脉舒张末期流速(Right Middle Cerebral Artery End Diastolic Flow Velocity,Vd-RMCA)、右侧大脑中动脉阻力指数(Right Middle Cerebral Artery Resistance Index,RIRMCA)、左侧大脑后动脉搏动指数(Left Posterior Cerebral Artery Pulsatility Index,PI-LPCA)、右侧颈内动脉终末端阻力指数(Right Internal Carotid Artery Resistance Index,RIRICA)、右侧大脑后动脉阻力指数(Right Posterior Cerebral Artery Resistance Index,RI-RPCA)、右侧大脑后动脉搏动指 数(Right Posterior Cerebral Artery Pulsatility Index,PIRPCA)。

图2 区分头晕患者排名前10的脑血流特征及其权重情况

2.2 各分类器模型分类结果

本研究基于逻辑回归、支持向量机和多层感知机3种独立分类器,以及基于上述3种单一分类器软投票方法的集成学习算法进行模型构建,其模型评价结果如表1所示。由表1可知,在对头晕患者的TCD血流数据的预判上,单一分类器中逻辑回归的效果最好,其ACC达到了0.750,与集成学习模型的效果相同,其次为支持向量机和多层感知机,其ACC均为0.667。图3显示的是各个分类器模型在训练集上的ROC曲线。由图3可知,在训练集上采用5折交叉验证的集成学习模型平均AUC值达到了最高,其次为多层感知机、逻辑回归和支持向量机。图4显示的是各个分类器模型在测试集中的ROC曲线,由图4可知,4种机器学习方法AUC值排名依次是集成学习为0.906,逻辑回归为0.875,支持向量机和多层感知机均为0.844。

图3 4种分类器模型在训练集中的ROC曲线

图4 4种分类器模型在测试集中的ROC曲线

表1 4种分类器模型的训练集及测试集ACC和AUC值

3 讨论

TCD检查在脑血管疾病的诊断中具有简单、易行、可重复、无创、经济等优点,对于可能存在脑血流动力学改变的头晕患者是较适用的临床辅助检查工具[16]。截至目前,TCD血流特征参数与头晕的相关性研究多采用传统的单变量分析方法,侧重于组水平患者TCD血流信号与头晕之间的统计关系[17-18]。但是,从个体水平识别头晕患者血流动力学的改变可以提供丰富的隐藏信息。因此,本研究从个体水平探究了TCD所示的脑血流参数异常与头晕之间的关系,创新性地将L2,1范数方法运用于头晕患者脑血流参数的特征选择,并运用逻辑回归、支持向量机和多层感知机3个独立的分类器及软投票的集成学习进行模型构建。

基于L2,1范数方法数据分析显示,按权重大小筛选出的前10个关键特征变量作为TCD检查中脑血流改变的关键特征,对头晕患者的诊断具有重要指导意义。首先,由图2可知,头晕患者脑血流动力学改变以椎基底动脉为主,包括权重比较靠前的Vd-RVA、Vs-RVA和RI-RVA等。椎基底动脉系统为小脑、脑干等中枢前庭系统和内耳等外周前庭系统的主要供血来源,其发育不良或动脉粥样硬化等病变导致血管狭窄或闭塞而出现的血流动力学出现异常是头晕患者脑血流动力学改变的主要形式[19-20]。此外,属于颈内动脉系统的大脑中动脉、大脑后动脉、颈内动脉终末段血流流速异常也是区分头晕患者和健康者的重要特征。颈内动脉系统提供全脑血供的3/5,当颈内动脉系统出现严重狭窄或闭塞时,颅内血液可通过前、后交通动脉重新分布,或通过其他侧支开放供应前循环,脑干会显示出“颅内盗血综合征”[21],同样可以造成椎基底动脉供血不足致头晕的表现。曹丽芝[22]探究235例头晕患者脑血流动力学改变,结果认为椎基底动脉系统的收缩期峰值流速降低以及大脑中动脉、大脑前动脉的收缩期峰值流速增快为主要表现,且刘菊华[23]对180例头晕患者行TCD检查发现,受累最多的部位是椎基底动脉系统,其次为颈动脉系统,与本研究结果一致。除脑血管流速改变外,头晕患者异常脑血流特征参数还包括RI和PI。TCD的RI可反映外周血管对血流阻力的变化,PI则是评价血管阻力及脑血流灌注状况的指标,可反映血管的顺应性。本研究结果显示,后循环RI变化对于区分头晕患者占有更大的权重。正常情况下,血管在收缩期时,心脏射血导致血管管腔变大,此时血管阻力变小,若血管阻力出现异常,即RI值异常增大,提示管腔变小,血管很可能发生了阻塞或狭窄而导致后循环脑血流灌注不足导致头晕甚至脑梗死的征兆[24]。

对于模型的建立,本研究同时将逻辑回归、支持向量机和多层感知机3种独立分类器进行集成学习,达到了最高的分类ACC及AUC值,提示集成学习方法更适合于头晕患者TCD血流特征的分类和预测,具有较好的效能。集成学习的优势之一为其可以通过一定的集成策略将多个弱分类器的结果整合在一起,其集成过程可以降低过拟合的风险,提高数据集的泛化水平和分类器的泛化能力,从而达到更好的集成学习精度[25]。目前集成学习作为一种可以最大化提升学习效果的技术,推动了医疗健康等诸多领域的发展,广泛应用于疾病辅助诊断系统、人类行为识别、人脸识别[26]等领域。此外,表1结果显示,逻辑回归和支持向量机模型测试集AUC值高于训练集,推测原因为在训练集和测试集同分布情况下样本量有限所致,但综合分类结果ACC值,整体上训练集结果优于测试集。

4 结论

本研究运用L2,1范数的机器学习法对头晕患者TCD血流动力学参数进行识别,发现头晕与椎基底动脉、大脑中动脉、大脑后动脉、颈内动脉终末段等血流动力学改变密切相关,且利用集成学习法能够结合多个模型算法,从而建立较为精确的诊断模型。

猜你喜欢

头晕分类器血流
防跌倒,当心直立性头晕或眩晕
学贯中西(6):阐述ML分类器的工作流程
头晕和眩晕有何区别
中央导管相关血流感染防控的研究进展
超微血流与彩色多普勒半定量分析在慢性肾脏病肾血流灌注中的应用
基于朴素Bayes组合的简易集成分类器①
CT肺叶血流分布造影在诊断肺栓塞中的应用价值
基于系统论SPO模型的导管相关血流感染干预实践
基于动态分类器集成系统的卷烟感官质量预测方法
一种自适应子融合集成多分类器方法