APP下载

基于多源语音信息融合的帕金森病辅助检测方法

2024-01-31王传瑜郑慧芬

信号处理 2023年12期
关键词:帕金森病语音模态

季 薇 王传瑜 李 云 郑慧芬

(1.南京邮电大学通信与信息工程学院,江苏南京 210003;2.南京邮电大学计算机学院,江苏南京 210023;3.南京医科大学附属老年医院,江苏南京 210024)

1 引言

帕金森病(Parkinson’s Disease,PD)是一种中脑黑质多巴胺能神经元变性死亡引发的慢性进展性疾病[1]。由于大脑中多巴胺能神经元的进行性损失,帕金森病患者将无法稳定控制发声器官,常伴有无法稳定发音,口腔、声带、喉咙等发声器官的灵活协调能力下降等症状[2]。为分析受试者的言语能力,领域内的专家基于上述生理现象设计了包括持续元音发音(如/a/、/i/、/u/等)、重复音节(/pakala/)、情景对话等在内的多类型语料[3-4]。其中,持续元音发音涉及到声带和声道中各种肌肉的组合,能够很好地评估受试者的发音能力[5-6];重复音节发音,能够很好地分析受试者移动齿龈、下颌和舌头等发音器官的协调能力[7-8];情景对话朗读能够判断受试者能否正确的发出语料所暗含的语气与语调[9-10]。受试者在医学专家的指导下,根据不同类型的语料进行发音,生成用于受试者言语能力分析的原始语音数据。

近年来,基于帕金森病患者的言语能力分析开展帕金森病检测成为一种有效的辅助诊疗手段。文献[11-13]基于持续元音语音数据提取了频率微扰、振幅微扰、谐波噪声比等发音类特征,并利用帕金森病患者和健康人在这些声学特征上存在的差异,结合传统的机器学习分类模型(随机森林(Random forest,RF)、支持向量机(Support vector machine,SVM)等)实现了帕金森病的检测,准确率最高可达89%。文献[14-15]基于重复音节语音数据提取了梅尔倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)、巴克带能量等发声类特征,结合机器学习分类模型(SVM、卷积神经网络等)进行帕金森病的检测,准确率最高可达90%。文献[16]基于情景对话提取了与韵律相关的特征,结合机器学习模型(K近邻、SVM等),实现了帕金森病的检测,准确率最高可达85%。然而,单类型语料数据无法全面地表征受试者的构音能力,且易受噪声、采集环境等因素的影响导致语音质量下降。为实现多角度分析受试者构音能力,去除非病理性因素的影响,有学者尝试探索基于多类型语料获得的多源语音数据。如Bocklet等人[17]将多个单源语音数据中提取的特征进行简单的拼接实现融合,再送入分类模型进行帕金森病的分类检测。实验结果显示,结合多源语音数据的检测性能反而不如单源语音数据与分类模型相结合的情况。其原因在于文献[17]所述的多源信息融合方式不足以充分利用多源语音数据带来的信息优势,反而造成了无关信息的累积,强化了无关信息对模型的影响,从而造成性能的下降。

由于多源语音数据来源不一致(朗读的语料不同),且每种语音的发声机理不一致,反映的言语能力不同,可将它们作为多模态数据来看待[18]。因此可借助多模态信息融合技术,解决上述信息融合问题。当前多模态信息融合技术根据融合的时机可大致分为早期融合、后期融合、混合融合[18]。早期融合的方式,通常为每个模态设计预处理网络提取单模态的高级特征,然后通过加权求和、直接拼接等操作实现多模态数据在特征层融合。文献[19]提出一种基于自编码器改进的多模自编码器,通过多个子网络完成单模态信息提取,然后在特征层拼接作为多模态融合信息。文献[20]提出一种基于多核学习的信息融合方式,通过将多模态数据经过不同的核处理,再进行核函数的加权组合实现信息融合。后期融合也称决策层融合,其通过多个独立的推断模型处理不同的单模态数据,然后整合推断结果实现多模态数据的融合。文献[21]使用了一层神经网络对来自不同模态的输出进行整合,输出最终的决策结果。前述两种融合方式均存在多模态信息交互不足的情况,因此研究人员提出了混合融合方式,旨在通过在多层级(特征层、决策层)的模态交互,充分实现信息的融合。例如许多基于多头自注意力机制的多模态融合模型,在图文结合[22]、情感语义识别[23]、机器翻译[24]等领域表现出了优异的性能,成为多模态信息融合领域内的一个主流方向。然而,这些基于多头自注意力机制技术的模型都聚焦于多模态数据间共有信息的学习,对单模态特有信息的学习缺少关注。

本文关注的基于语音的帕金森病检测这一特定任务有如下特点:一方面,帕金森病患者的语音数据不易采集,数据集规模相对较小[25];另一方面,基于语音数据提取的声学特征维数较高并且存在信息冗余问题。这些特点导致已有的多模态信息融合模型在面对高维小样本数据时易出现过拟合现象,且大量冗余特征的存在会给模型带来更多的无效信息,干扰模型的决策,增加计算开支[26-27]。此外,前述的多模态融合模型,缺乏对单模态特有信息的关注。因此,前述各种的多模态信息融合模型无法直接应用于多源语音数据的帕金森病检测。

基于此,本文提出一种多源语音信息融合模型(Multisource Data Fusion Autoencoder,MSFAE),旨在对多源语音数据携带的病理信息进行全面整合,过滤由多个数据源融合带来的无效信息,实现病理信息的准确表达。考虑到基于情景对话语料的帕金森病语音数据,容易受到受试者的文化水平、地域性口音等无关因素的影响,而引入更多的无效信息,增强过拟合风险。所以,本文在选择多源语音数据时,着重考虑持续元音发音(/a/)以及重复音节(/pakala/)这两种语音数据。该模型包含如下几个模块:(1)编码器模块。该模块由多个并行支路(即3 个子编码器)组成,其中两条支路分别提取两个单源语音数据的特有信息(对应于特有信息表征学习子模块);一条支路作为多源信息融合子模块实现多源数据共有信息的提取。(2)解码器模块。解码器模块帮助编码器模块实现信息压缩去冗余;(3)分类器模块。分类器模块根据编码器输出完成帕金森病检测,并辅助编码器模块学习紧凑的病理信息表示。本文在自采数据集上进行了多个对比实验进行方法有效性验证。实验结果表明,所提模型在帕金森病检测的准确率、敏感度和F1分数等各项性能指标上相较于基于单源语音数据的模型分别提高了6%、3%、6%。同时所提模型相较于其他信息融合模型在准确率指标上提高了2.8%以上。

本文所提方法的主要贡献在于:(1)利用了多源语音数据带来的信息优势;(2)引入基于自注意力机制的Transformer 编码块用于多源语音数据的共有信息提取,并与两个单源语音数据表征学习块一起共同完成多源语音数据的表征学习;(3)采用多步信息融合方式,实现多源数据更细粒度的特征交互;(4)联合训练病理表征学习模块(包含编码器模块和解码器模块)和病情检测模块,实现端到端的信息融合与决策。

2 相关工作

2.1 自注意力机制

自注意力机制(Self attention,SA)可用于对序列数据的建模[28],将每个实例的原始输入特征表示为一串特征向量序列x=[x1,x2,…,xl,…,xL],其中xl∈Rd,d为每个特征向量的维度,L为序列长度。将特征向量xl分别与3个随机初始化的投影矩阵相乘,得到对应的queryl、keyl、valuel向量。根据不同xl间queryl和keyl向量的相关性,得到权重系数bl,r,根据权重系数更新每个特征向量:

最终,获得的每个特征向量都是与其他特征向量信息交互后的融合信息。因此,采用自注意力机制能够更加充分地学习特征向量间的交互。

2.2 多模态信息融合模型

多模态数据是对同一对象的多角度描述,每个模态间可能存在互补关系。多模态信息融合技术旨在通过对来自多个模态的信息进行关联整合,获取目标对象更完备的特征表示。

随着多模态信息融合技术的快速发展,基于多种模态的融合方式早已变得灵活多变,涌现出许多简单高效的融合模型。具有代表性的工作有:基于多模变分自编码器的多模态融合模型(multimodal variant auto-encoder,MVAE)[29]使用多子网络学习单模态特征,并基于变分思想学习多模态特征的潜在分布,实现对图片和文本数据的多模态完备信息提取;基于Transformer 模型提出的多模态融合模型ViLT(vision and language transformer)[22]借助多头注意力机制实现视觉特征和文本特征的信息交互,完成了多模态信息深度交互融合;基于张量外积的信息融合方式[30]通过多模态数据的张量外积,实现情感语义识别领域信息的交互融合;生成式模型CPM-NET(Cross partial multi-view networks)[31]通过在假设空间随机搜索的方式,寻找匹配多模态数据的完备表征,从模态生成的角度为多模态信息融合提供了新的思路。

3 本文方法

3.1 多源语音信息融合模型概述

本文针对帕金森病检测任务和帕金森病患者的多源语音数据,提出了一种多源语音信息融合模型(MSFAE)。该模型包含编码器、解码器以及帕金森病检测3 个模块,整体框架如图1 所示。其中,编码器模块由多个并行支路组成,一条支路通过引入自注意力机制的Transformer 编码块[28]实现多源语音数据共有信息的提取,还有两条支路通过多层前馈神经网络提取单源语音数据的特有信息,多条支路共同完成对来自多个语音数据源中所含病理信息的全面提取。编码器多条支路的输出将以3种不同方式进行特征拼接,以获得3个不同的隐层表征。其中,2个隐层表征将作为多支路解码器的输入,负责完成多个单源数据的重构;另外1 个隐层表征则将作为分类器模块的输入实现高效的帕金森病检测。后续各小节将详细描述各模块功能。

图1 系统框图Fig.1 The system block diagram

3.2 数据预处理

3.2.1 声学特征提取

针对每一个受试者,我们分别采集了持续元音的语音样本和重复音节的语音样本。其中,持续元音数据提取了如频率微扰、振幅微扰、谐波噪声比等发音类特征[11-14];重复音节数据提取了梅尔倒谱系数、巴克带能量等发声类特征[13-15]。

3.2.2 特征分组

文献[32-33]发现,从单源语音数据中提取的声学特征往往存在较大的特征冗余。为了更细粒度地分析数据的特征,我们在特征层面对提取的特征进行了相关性分析,使用均分K-means 方法[34]对从单源语音数据中提取的特征集进行了相关聚类分析,并依据组内特征的相关性尽可能大、组间特征的相关性相对较弱的原则对特征进行分组,且每个组的特征数一致。

分组后,第i个受试者的第m个单源语音样本上提取的特征表示为:

其中,d代表每个子组的特征维数,p代表特征的分组标识。m=1时,xi,m是持续元音特有信息表征学习模块的输入,对应图1 中的Feat_vowel;m=2 时,xi,m是重复音节特有信息表征学习模块的输入,对应图1中的Feat_pakala。

3.3 编码器模块

如图1 所示,本文所提的MSFAE 模型的编码器模块由3 个并行支路(即编码器-1、编码器-2、编码器-3)组成,其中两条支路分别提取两个单源语音数据的特有信息;一条支路作为多源信息融合子模块实现多源数据共有信息的提取。

3.3.1 单源语音特有信息表征学习子模块

两个单源语音特有信息表征学习子模块是两个并行的分支,一个用于处理从持续元音中获取的声学特征Feat_vowel,一个用于处理重复音节中获取的声学特征Feat_pakala。

单源语音的特有信息表征学习子模块Encspc_vowel和Encspc_pakala的主要功能在于:从高维的低阶语义特征中学习具备高级语义表达的单源语音特有病理表征。由于Feat_vowel 和Feat_pakala 对应的声学特征中已经包含了许多丰富的临床病理信息,单源语音特有信息表征学习模块不需要太过于复杂的深度神经网络即可学得有意义的单源语音特有病理信息。这里,单源语音的特有信息表征学习子模块设计成一个具有3个隐藏层的深度神经网络。每层神经网络由55 个神经元组成,激活函数为ReLu;针对两种不同的单源语音数据中提取的特征,可学习的权重参数分别为Wvowel和Wpakala。此外,为方便模型后续的优化处理,加速网络学习,网络的输入端还增加一个批归一化操作,对输入数据作归一化处理。

该模块的输出Vvowel、Vpakala表示为:

3.3.2 多源语音数据共有信息融合子模块

从多源语音数据提取的声学特征,存在较大的冗余性,且所提特征可能不是处于同一语义层级。如果采用文献[17]中的简单拼接方式,将会引入大量的无效信息,进而影响模型的性能。为避免上述问题,本文采用多步融合的方式,实现多源数据的冗余信息剔除和跨数据源的特征交互融合,具体实现如图2所示。

图2 共有信息融合模块框图Fig.2 Block diagram of common information fusion module

在多步融合前,为匹配共有信息提取支路的输入形式,对公式(2)所述的xi,m进行重新表示:

借助Transformer 编码块中蕴含的自注意力机制,模型将会学习到各个特征子组间的融合交互信息,完成跨特征子组的信息融合,同时将分类信息汇集在上。

Transformer 编码器模块[28]由多头自注意力机制模块(Multihead self-attention,MSA)和前馈神经网络模块(Feedforward neural network,FNN)交替组成。为了加速网络的训练,还在每个块的输入前引入层归一化(LayerNorm,LN)进行数据的归一化处理,在每个块的输出后进行残差连接操作。

信息融合实现的方式是:

其中,e0代表多头注意力机制的初始输入代表经过j次多头注意力机制后的输出,ej为经过层归一化后的输出,J代表编码器网络中MSA 和FNN 的迭代次数。公式(8)对应的多头自注意力机制的具体实现为:

其中,X为输入MSA 的特征序列,head1,…,headh为多头自注意力机制中的注意机制块。公式(10)通过一个权重为Wj的线性映射网络,可将h个注意力机制块的输出进行信息汇集。headh是信息融合的核心模块,其由2.1节所述自注意力机制网络SA 组成,计算方式如下所示:

其中,Wh,Q、Wh,K、Wh,V为headh的三个投影矩阵的参数,负责将输入的特征序列映射到query、key、value向量空间。经过前述的多头自注意力机制后,共有信息提取支路的最终输出为:

3.4 特征拼接

我们将从编码器共有信息融合支路模块获取的表征Vfusion中取出分类表征,将其与来自两个单源语音表征学习模块的输出Vvowel和Vpakala进行拼接。拼接的结果作为融合表征Vcla,以实现对多源语音信息的完整表达,将其作为帕金森检测模块的输入。我们还将获取多模数据共有信息的融合特征分别与相应单源语音特有信息表征Vvowel或者Vpakala进行拼接。拼接后的特征向量Vrec_vowel和Vrec_pakala分别作为解码器两条重构单源语音特征支路的输入。

3.5 特征正交化

为进一步确保编码器能够对多源语音数据中共有信息和特有信息的提取,我们对编码器获得的共有信息表征和两个特有信息表征,进行正交约束,降低共有信息表征和特有信息表征间的信息冗余。记矩阵H为由多源语音数据共有信息的融合特征作为行构成的矩阵,矩阵Sm为由第m个单源语音数据中提取的单源语音特有信息表征Vvowel或者Vpakala作为行构成的矩阵,通过正交约束计算得到特征间的差异损失如下:

3.6 帕金森病检测模块

融合表征Vcla作为帕金森病检测模块Cla 的输入,通过相应的分类器实现帕金森病的检测。帕金森病检测模块由具有三个隐藏层的神经网络组成。每一层神经元的个数分别为32、16 和2,采用ReLu作为激活函数。样本真实标签y∈[0,1],y为0时表示受试者不患病,y为1 时代表受试者患有帕金森病。检测模块的分类输出为:

其中,Wcla为模块参数,分类损失的计算我们将通过预测值与真实标签值y之间的交叉熵损失来定义。

3.7 解码器

解码器由两个特征重构支路组成:持续元音重构模块Decvowel用于重构来自持续元音中提取的特征向量,重复音节重构模块Decpakala用于重构重复音节提取的声学特征向量。重构模块网络由3层前馈神经网络组成,使用ReLu 激活函数。输出为对该单源语音的原始声学特征xi,m的重构,可表示为:

其中,Wrec_pakala和Wrec_vowel模块的参数,xrec_pakala和xrec_vowel为重构的特征向量,模块使用Smooth L1-loss损失函数对重构误差进行计算,其表达式为:

其中,x、xrec分别为原始特征和模型重构网络的输出。其最终的重构损失为:

其中xi、xi,rec分别代表第i个样本的特征表示和重构网络输出的重构特征,N为总的样本数。

3.8 多损失优化

本文所提的MSFAE模型由多个子模块组成,其中帕金森病检测模块将采用交叉熵损失函数,特征重构模块将采用Smooth L1-loss函数。为充分利用数据集中的标签信息,本文将联合训练帕金森病检测模块和用于特征学习的编解码模块。最终的模型损失为:

其中,Lrec_vowel为重构持续元音语音的损失,Lrec_pakala为重构重复音节语音的损失,Lcla为帕金森病检测模块的分类损失,Ldiff为共有信息表征和特有信息表征间的差异损失。这里,由于单源语音特征重构损失明显比帕金森病检测模块的损失大得多,为避免多个损失共同优化的过程中出现由于尺度不一致导致模型偏向大损失的方向优化,导致其他模块的性能下降。我们预设了4 个超参数λv、λp、λc、λdi,通过对各个损失进行加权,减小尺度不一致对模型的影响。

值得说明的是,为避免参数更新时,所提模型专注于优化特征重构损失而忽略帕金森病检测模块,帕金森病分类模块和解码器中特征重构支路的输入是有区别的,如图1 所示。通过上述这些设计能够避免优化过程中的权重不平衡问题,也能共同帮助所提模型学习到更为紧凑的融合表示。

4 实验

4.1 数据集

为开展基于多源语音融合的帕金森病检测研究,本文研究团队与南京医科大学附属老年医院的神经内科展开长期合作。本文所使用的多源语音数据集,即由该医院帕金森病及运动障碍专病门诊筛选出的68 名患者和17 名健康人的语音数据构成。需要说明的是,在现有的帕金森病语音公开数据集中,尚未发现符合本文研究需求的多源语音数据。自采的帕金森病多源语音数据集中的受试者信息统计见表1。其中,男性受试者57 人(含帕金森病患者(PD)49 人,健康人(HC)8 人),年龄从46岁到88岁不等;女性受试者为28人(含帕金森病患者19 人,健康人9 人),年龄从56 岁到84 岁不等。表中提供了患者发病时间和病变程度(HY(Hoeh &Yahr)分期)数据,其中,HY 分期3 期以前属于轻中度,3期以后症状越来越严重。

表1 自采帕金森病多源语音数据集信息统计Tab.1 Self-collected Parkinson’s disease multi-source speech dataset information statistics

受试者在安静环境下接受语音采集(环境噪声低于20 dB)。采集时,受试者的唇部位于距拾音麦克风十厘米以内的范围,在听到专业人员的指令后,开始发声。考虑到不同母语的发音习惯带来的差异,避免由语种带来的混淆因素,让研究成果更好地服务于国内外研究人员,我们仅考虑以下两种方式采集受试者的语音:(1)以稳定的声音进行持续元音/a/发音;(2)以尽可能快的速度进行重复音节发音,即发出/pakala/。每个患者的语音记录经剪辑后共计340 个样本,以48 kHz 采样率和.wav 格式存储。语音采集完成后,由在场的医务人员对受试者的患病与否及严重程度进行标注。

4.2 实验设置

本文实验使用python 语言实现,通过多组对比实验从多个角度验证模型的性能。所有的实验均在4.1 节所述的自采数据集上进行,实验结果采用了十折交叉验证,使用准确率(ACC)、敏感度(SEN)和F1分数作为实验结果的评估准则。

准确率表示准确区分帕金森病患者和健康人的概率,敏感度代表正确检测出帕金森病患者的概率,F1 分数衡量模型的总体预测性能,其计算公式分别如下所示:

其中,TP 表示分类正确的帕金森病样本数,TN 表示分类正确的健康人样本数,FP表示将健康人样本误分类成帕金森病样本的数量,FN表示将帕金森病样本误分类成健康人样本的数量。

模型的参数设置如表2所示。

表2 MSFAE模型参数设置Tab.2 MSFAE Model parameters setting

4.3 与多个单源语音基线模型的性能比较

为论证多源语音数据融合的优势,本节将所提模型与基于单源语音数据的基线模型进行了性能比较。参与比较的单源语音基线模型有:随机森林(RF),支持向量机(SVM)以及深度学习模型孪生网络(Siamese-net)[35]。实验结果如表3所示。

表3 与单源语音模型的性能比较Tab.3 Performance comparison with single source speech model

从实验结果中可以看到,基于多源语音的MSFAE 模型能够比单源语音数据在各个指标上有较大的提升。实验结果验证了,多源语音数据在结合多个数据源数据的信息之后,能够实现更高的检测准确率。

4.4 与其他信息融合模型的性能比较

本节对MSFAE 模型以及其他前文所提及的信息融合模型进行了性能比较。参与比较的模型有:TFN[30],CPM-NET[31],Vilt[22],MKL[20]。实验结果如表4所示。

表4 与其他信息融合模型的性能比较Tab.4 Performance comparison with other information fusion models

从实验结果中可知,我们的模型在与多个多模态信息融合模型相比较,在准确率上分别有2.82%、3.33%、4.03%、5.76%的提升,在敏感度指标上与最优的TFN 模型相近,高于其他比较模型,同时F1 分数相较其他比较模型也有提升。其原因在于,我们通过同时结合了多源数据的共有信息和特有信息,实现了更加全面的信息提取。同时在共有信息抽取时,通过多步融合方式,避免直接对提取的声学特征拼接带来的语义鸿沟以及噪声冗余。

4.5 消融实验

为进一步探究所提模型的性能,本节通过消融实验来检测子模块的性能,重点考察特征分组线性映射模块,以及基于注意力机制融合的信息融合模块对模型的贡献。实验的详细结果如表5所示。

表5 消融实验Tab.5 Ablation experiments

由实验结果可知,模型在没有使用多源语音数据信息融合模块时(MSFAE(without fusion)),性能受到较大的影响,模型此时缺乏对多源语音的低阶语义信息融合,仅在单源语音经过表征学习块提取高阶语义信息后进行了拼接,无法实现多源语音数据的互补互增益。模型在缺失特征分组时(MSFAE(without feat_group)),由于缺失对原始输入数据的更细粒度的信息冗余去除,为模型引入更多的噪声信息,从而使得模型性能少许下降。模型在缺失单源语音数据特有信息表征学习模块时(MSFAE(without spec_feat)),性能也出现了较大的性能下降,其原因是特征融合模块的主要作用是同时最大化多源语音数据的共有信息,单源语音数据特有信息表征模块的加入,能够弥补对单源语音数据特有信息的关注。

5 结论

本文提出一种多源语音信息融合模型,解决了单源语音数据无法全面表征受试者构音能力的问题。其中,采用多步信息融合方式,并引入多头自注意力技术实现多源数据更细粒度的特征交互,有效解决了信息冗余问题,避免多源数据融合过程中的噪声累积。通过多分支网络,提取多源数据的特有信息和共有信息,并引入正交约束,有效实现多源数据中病理信息的提取。实验结果显示,本文所提的MSFAE模型与单源语音数据基线模型比较,在各个指标上均有较大程度的性能提升。与其他信息融合模型相比,所提模型在帕金森病检测任务上有独特的优势。在此基础上,我们将进一步研究多源语音数据在受损情况下的帕金森病检测方案。

猜你喜欢

帕金森病语音模态
手抖一定是帕金森病吗
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
帕金森病科普十问
对方正在输入……
国内多模态教学研究回顾与展望
帕金森病的治疗
基于HHT和Prony算法的电力系统低频振荡模态识别
中西医结合治疗帕金森病98例