基于电子听诊器的心肺音智能诊断技术综述
2023-04-05鲍超驰徐东阳通信作者胡南王智薛灿
鲍超驰,徐东阳(通信作者),胡南,王智,薛灿
1 湖州市中心医院 (浙江湖州 313000);2 浙江大学湖州研究院(浙江湖州 313000);3 苏州大学 (江苏苏州 215000)
心肺疾病是威胁人类健康的主要疾病。对于心肺疾病的前期诊断,听诊器听诊是最便捷、最重要的手段。作为医疗机构不可或缺的基础诊断仪器,听诊器自1816年发明以来鲜有发展及改变。近年来,电子听诊器依靠电子技术增加声音放大倍数,利用信号处理技术提高听诊信号的信噪比,使听诊器的诊断效果得到大幅提升;数字化的听诊信号也带来新的应用场景,包括听诊信号的存储、回放及数据管理、波形显示及与互联网结合的远程听诊等,丰富了临床医师的诊断手段和听诊器的应用范围。基于精确标注心肺音数据库开发的智能电子听诊器产品可帮助医师进行快速标准化的辅助诊断,解决基层医院医师听诊诊断能力弱的问题,甚至能使普通人拥有听诊诊断能力,实现听诊器的家用化;这将有助于心肺疾病的早发现、早诊断、早治疗,从而有效降低心肺疾病的发病率和病死率。基于电子听诊器的智能诊断技术主要包含3部分。(1)心肺音数据库:种类完备、数据量丰富的心肺音数据库有助于心肺音数据的分析并基于人工智能诊断技术进行发展;(2)心肺音声学前端信号处理技术:电子听诊器的使用场景可能受到环境噪音干扰、心音和肺音混合的影响,而提升信号质量可显著提升人工智能病症的诊断效果;(3)心肺音AI 听诊技术:采用常规听诊技术一般需通过医师的经验进行判断,即使是对于同一个患者,不同医师的听诊结果也可能不同;通过心肺音大数据和专业超声医师复核的标签信息,利用人工智能技术,可消除医师个体差异,获得更准确的诊断结果。本研究介绍了基于电子听诊器的心肺音智能诊断中存在的技术问题,从心肺音数据库、前端声信号处理技术及人工智能诊断技术3方面进行综述,并对未来心肺音智能诊断技术的研究方向进行了展望。
1 心肺音公开数据库
利用电子听诊器对特定的心血管疾病或呼吸道疾病进行自动分析研究,需有相应的心肺音数据支持。关于心音数据库,目前应用最广泛的是PhysioNet 数据库中的2016心音分类挑战数据库[1],其由5个数据库组成,共包括3 126段心音记录,持续时间为5~120 s,但所有心音记录仅分为2种类型:正常和异常心音记录,并未针对异常心音记录提供更具体的分类。另一个规模较大的公开心音数据库是PASCAL 心音分类挑战数据库[2],包含2个数据集,其中数据集A 包括176段数据,分为正常、杂音、额外心音和伪迹4类;数据集B 包括656段数据,分为正常、杂音和早搏3类。INTERSPEECH 2018计算机辅助语言学大赛发布了深圳心音数据库(HSSDB)[3],其中包括来自170个不同被试的845条录音,记录了来自冠心病、心律失常、心脏瓣膜病、先天性心脏病等患者的心音数据,但不包括任何病理元数据,其标记仅分为3类:正常、轻度异常、中度/重度异常。除此之外,还有一些包含零星病例、用于临床教学的在线或随书CD 数据库,如密歇根心音与杂音开放数据库(OMHSML)[4]、心脏杂音心脏听诊数据库(eGeneralMedical)[5]、Thinklabs 心音数据库[6]、生物科学正常/异常心音数据库(BHSD)[7]等。
关于肺音信号,近年来使用最广泛、最大的肺音数据库为生物医学与健康信息国际会议(ICBHI)提供的ICBHI 呼吸音识别2017挑战数据库[8],包括从126名被试者身上采集的920段肺音数据,其中有26名正常被试者、6例肺炎患者、6例支气管炎患者、7例支气管扩张症患者、1例哮喘患者、64例慢阻肺患者、14例上呼吸道感染患者和2例下呼吸道感染患者。除此之外,还有一些包含零星病例的、用于临床教学的数据库,如R.A.L.E[9]、East Tennessee State University repository[10]、Littmann repository[11]等。
上述心肺音数据库的现状表明,业界已开始基于电子听诊器的心肺疾病辅助诊断研究,并尝试构建相应的心肺音数据库,但仍存在诸多问题:(1)可用的公开数据库非常匮乏,导致信号处理与人工智能领域的研究难以充分施展;(2)数据库中数据的多样性较差,未充分考虑不同环境、人群的心肺音收集;(3)数据分类较为粗糙,大多数数据库中类心脏或呼吸道疾病相关的心音或肺音样本量很少或不均衡,且除ICBHI 2017数据库外,绝少考虑多个听诊位置的数据采集。
2 心肺音声学前端信号处理技术
电子听诊器的快速发展得益于声传感器、数字信号处理、集成电路及物联网技术的快速发展。电子听诊器系统是通过声学传感器采集心肺信号,易受环境噪声、干扰及心音和肺音混合的影响,需要前端声信号处理实现噪声抑制、心肺音分离和心肺音分割等功能。
Jatupaiboon 等[12]的研究表明,利用最小均方(least mean square,LMS)自适应滤波的方法可实现电子听诊器背景噪声的消除。Hall 等[13]利用可变步长LMS 自适应滤波算法消除了电子听诊器背景噪声。Emmanouilidou 等[14]提出了一种多频带自动去噪算法,在去噪的同时,兼顾了肺音信号质量,并在实际诊室场景中进行了测试。然而,由于某些听诊位置会不可避免地出现心音与肺音交叠的情况,故要实现对心音或肺音的分析,需研究心肺音分离算法。Pourazad 等[15]将独立成分分析(Independent component analysis,ICA) 方 法应用于心肺音的分离任务,其基于心肺音的时频谱进行ICA,在得到分离后各源的时频谱后,进行逆短时傅里叶变换,得到心音与肺音的时序信号。Chien 等[16]提出直接将ICA 用于心肺音的混合时序信号,省去了时频谱的正逆变换过程。Tsalaile 等[17]提出利用肺音和心音信号的时间相关性及心音信号的准平稳性,以近似联合对角化(approximate joint diagonalization,AJD)算法的二阶统计量进行盲源提取心音与肺音。Ayari 等[18]将自适应滤波技术应用于心肺音的分离,包括构建自适应滤波组合;该自适应滤波技术本质上是从SG 滤波器和FIR 滤波器中导出的,其系数与来自混合声音的特征相关。Shah 等[19]将非负矩阵分解(nonnegative matrix factorization,NMF)用于心肺音的盲信号分离(blind signal separation,BSS),其优点是只需要单输入通道,而其他BSS 一般都需要多通道输入。最后,要实现对心音数据或肺音数据的分析,需对心音或肺音进行正确的分段。目前,研究人员关注的重点是心音的自动分割问题。传统方法是利用香农能量(state entropy,SE)提取心音包络,在该包络的基础上进行心音分段。Sharma 等[20]先进行小波变换处理,得到多分辨率的子带,再对各分辨率子带进行希尔伯特变换(hilbert transform,HT),得到包络数据,然后对其求二阶导数,以寻找S1和S2的目标点。Thomas 等[21]利用心音的多重分形特性来识别S1和S2,在分形后,使用高斯检验去除多余的基本分量,然后用HT 得到包络信息,识别S1和S2。Springer 等[22]从概率模型的角度出发,使用隐半马尔可夫模型(hidden semi-Markov model,HSMM),进一步提高了心音周期的分割性能。
从上述前端声信号处理技术的发展现状可见,现有的电子听诊器声学前端信号处理技术还存在3方面缺陷:(1)由于质量评价标准的缺失,各电子听诊器的产品信号质量、信号消噪与心肺音分离算法性能无法进行有效对比;(2)由于合乎标准的分型数据库缺失,现有前端声信号处理算法都是基于正常被试的心肺音设计的,其在实际心肺病症听诊应用场合中的效果不明,对不同病症的普适性可能较差;(3)前端声信号处理算法并未与后续AI心肺疾病辅助诊断算法联合使用,导致其改善信号质量、划分信号范围的作用未能体现在最终信号的分类效果上。
3 心肺音AI 听诊技术
通过AI 技术实现心肺疾病的辅助诊断是电子听诊器研究的终极目标。目前,在心肺疾病的AI辅助诊断中,绝大多数的电子听诊器仍是基于公共数据库或自采数据的小样本研究,与商用差距较大,下面将分别回顾心音识别与肺音识别的研究现状。
在心音的自动分类研究中,Divaakar 等[23]从频率角度出发,在低通滤波之后计算多尺度频率分析值,并根据该值大小区分正常心音与含杂心音。而Hamidah 等[24]使用预处理(下采样、滤波、EMD)联合SE 提取包络与峰值检测提取相关特征(包括峰值频率、峰值间隔、峰值持续时间、总功率、振幅),并联合上述特征,经阈值筛选进行异常心音的分类。Yadav 等[25]联合傅里叶变换的均值、最大值与倒谱变换的平均值,以支持向量机(support vector machines,SVM)作为分类器完成分类任务。人工神经网络(artificial meural network,ANN)是继传统机器学习后又一个发展迅速且应用广泛的研究方向,前期以多层感知器等较浅层的网络为主[26-28]。Saputra 等[26]将WD 与自回归功率谱密度(autoregressive power spectral density,AR-PSD)相结合,用于提取特征,再将该特征输入ANN 进行分类,在测试了13种异常心音数据后,成功分类11种。Suseno 等[27]利用WT 提取心音周期的信号特征,包括整流、取包络、微分和设阈值等过程,然后将该特征输入3层ANN 进行自动诊断。Coskun 等[28]以MFCCs 为特征,也取得了不错的效果。随着对神经网络的不断探索,浅层的全连接网络已不能满足研究人员的需求,具有局部连接、共享权值等优点的卷积神经网络(convolutional neural networks,CNN)被应用于心音的自动分析中。Wibawa 等[29]及Chen 等[30]将PCG 信号的二维时频谱作为特征输入CNN,均取得了不错的效果。Nassralla 等[31]联合多种特征(包括时域特征、R 模型特征、频域特征、MFCCs、小波熵和功率谱),再利用随机森林进行分类,具有处理多输入大数据的优势。
在肺音的自动分类研究中,目前主要的分析手段包括经验规则、基于特征计算的常规模式分类及深度学习分类。经验规则主要通过提取各种类型的附加呼吸音特征,进行目标信号的检测,往往还需设置经验阈值来实现检验。Emmanouilidou 等[32]提取了一种时频特征,并将SVM 作为分类器,在一个包含1 157例1~59个月儿童肺炎患者/正常被试的未公开数据库中,获得86.7%的分类精度。近年来,随着深度学习技术的发展,研究人员也将这项技术用于肺音分类工作中。Vaityshyn 等[33]2018年使用CNN 对支气管肺系统疾病进行分类,将肺音转化为光谱图进行训练与识别,其训练数据集和验证数据集的准确性分别为0.78和0.80;并在2019年采用ResNet、InceptionV3、MobileNetV2 3种改进版CNN 对5种肺部疾病(包括哮喘、支气管炎、肺炎、尘肺病、COPD)和健康肺进行自动诊断[34],基于一个包括167例患者的数据库,准确度与之前经典CNN 相比有所提高。Shi 等[35]提出一种基于迁移学习的VGGish-BiGRU 肺音识别算法,该算法将VGGish 网络与双向门控递归单元神经网络(bidirectional gated recurrent unit,BiGRU)相结合,基于一个包括386段肺音(其中,120段正常、156段肺炎、108段哮喘)的非公开数据库,有效提高了肺音特别是哮喘对应肺音的识别精度。近期,Shuvo 等[36]提出一种结合EMD 与连续小波变换(continue wavelet transform,CWT)特征的轻量CNN 结构,基于ICBHI 肺音数据库获得了较高的三分类与六分类肺音识别精度。
不过,上述针对AI 心肺音分类方法的研究未得到大样本数据库的支持,且训练和分类标准极不合理,其中包括以下3方面问题: (1)由于训练数据的缺失,目前的分类结果较为粗糙,如将肺音简单分为正常肺音、喘鸣音和湿啰音3类,将心音简单分为正常心音与异常心音2类等,且还不能给出具体病症的诊断; (2)所用的训练数据是在安静环境或身体平静状态时录制的,通过手动分割心音和肺音,未考虑实际使用过程中的环境噪声、心肺音混合情况; (3)由于数据不足,训练集和测试集数据来自同一被试、同一段数据的情况很常见,导致这些分类结果并不能真实评价实际分类效果。
4 总结与展望
回顾心肺音智能诊断技术研究工作可见,目前的研究尚停留在较初级阶段,距离产品化目标较远,主要问题包括以下3方面:(1)可用的公开心肺音数据库资料匮乏、数据的多样性较差、数据分类较为粗糙;(2)心肺音信号处理易被忽视,针对异常听诊信号的效果未得到合理验证,且未在最终分离效果上有所体现;(3)人工智能分类方法缺少大数据支持,且训练和分类标准不合理,存在重复使用同一被试数据的情况,导致分类结果不能真实评价实际分类效果。而未来心肺音智能诊断技术的发展趋势主要包括以下3个方面:(1)种类完备、数据丰富的心肺音数据库将是未来的研究方向,建立完备的分型心肺音数据库不仅有利于逐步提高人工智能辅助听诊的准确性,还能为临床科研提供依据,提高医师对心肺音的认知和诊断水平;(2)心肺音声学前端处理技术将聚焦电子听诊器在实际使用场景中的适用性问题,并与心肺音分离技术融合,构建统一的心肺音质量标准;(3)AI 心肺音分类技术利用完备的分型心肺音数据库,采用更合理的数据方案,将实现更精确的分类效果,对心肺疾病进行有效的辅助诊断。