语音分离技术在阿尔兹海默症识别中的应用
2022-07-26王学健王杰王小亚袁旻忞桑晋秋蔡娟娟
王学健,王杰*,王小亚,袁旻忞,桑晋秋,蔡娟娟
(1.广州大学电子与通信工程学院,广州市 510725;2.广州市妇女儿童医疗中心,广州市 510168;3.交通运输部公路科学研究院,北京 100088;4.中国科学院声学研究所,北京 100049;5.中国传媒大学媒体融合与传播国家重点实验室,北京 100024)
1 引言
阿尔兹海默症是一种神经系统退行性疾病,在老年人群中具有较高的发病率[1][2]。该疾病会导致记忆衰退和语言能力损失,在患病中后期会出现生活无法自理等情况,这极大地增加了家庭和社会负担。由于患者与正常人大脑之间存在差异,目前该疾病的诊断需要经历以下几个阶段:1)核磁共振成像(Magnetic Resonance Imaging,MRI)检查;2)正电子发射性计算机断层显像(Positron Emission Computed Tomography,PET)检查;3)脑脊液检测特定蛋白质;4)认知障碍检测,如简易智力状态检查量表(Mini-mental State Examination,MMSE)和蒙特利尔认知评估量表(Montreal cognitive Assessment,MoCA),最后在医生分析所有检测结果后,才能给出明确的诊断结论。这一过程无疑将花费大量的时间以及精力,同时对医生的职业技能和临床经验也有着较高的要求。为了缓解医学诊疗的压力,学者们也在积极寻求便捷的方法实现阿尔兹海默症的诊疗,得益于公开的MRI数据集,以机器学习为代表的分析方法在诊断患者病情方面取得了不错的效果,该类方法需要挑选出患者与正常人大脑之间差异较大的区域如海马体,杏仁核等感兴趣区(regions of interests,ROI),然后使用支持向量机[3],Ada boost[4]等算法进行分类与预测,研究者也会将受试者的认知障碍评判分数结合起来,做到更为准确的判断[5]。除此之外,PET影像数据和CSF检测结果也是诊断患者的重要依据,文献[6]将MRI、PET和CSF数据结合,实现阿尔兹海默症患者与认知障碍患者二者的区分。随着深度学技术的发展,研究者也尝试使用二维卷积网络和三维卷积网络进行识别,直接对病患的三维影像结果进行建模并输出最终判断结果[7][8][9]。影像数据虽然可以直观反映出病人脑部病理结构的改变,但是在患病初期,患者与正常人的影像结果差异并不明显,针对这一问题,从患者的语言能力进行判断便成为一种重要途径。研究人员让患者对某一特定的图片进行描述,并记录他们的语音数据。在此基础上将语音的频谱信息或者MFCC信息作为特征输入,使用支持向量机,人工神经网络等算法进行识别[10][11],在文献[12][13]中,研究人员对患者的语音进行声学特征和语言特征的提取,如获取说话人语音的韵律特征,统计患者在描述中的停顿情况等,并将其应用到病症的识别上。在文献[14][15]中,研究人员使用自动语言识别系统,将病人的语音信息转为文本信息,并将该文本信息作为输入,送入到自然语言处理模型中,实现对阿尔兹海默症的识别。
因为对于医疗设备的要求有所降低,从患者语言能力进行疾病诊断的方法更为简便,同时得益于深度学习强大的分类功能,利用深度学习网络结合患者的语音信息来辅助医生对人群进行阿尔兹海默症的快速识别和初步诊断是值得研究和探索的。使用深度学习方法进行语音分类或识别往往需要获取说话人合适的发声特征,由于语音信息为长序列信息,所以获取该类特征需要构建恰当的长序列模型,相较于传统建模方法,深度学习网络更为复杂的结构能更好地利用语音长序列的逻辑关系,如Dual Path Recurrent Neural Network(DPRNN)[16]将长语音序列通过分块操作,使用循环神经网络分别对语音块内部信息和不同语音块之间的外部信息进行建模,在语音分离任务上表现出了优异的性能,也有学者将其与Transformer[17]相结合,创造出Dual Path Transformer Network(DPTNet)[18];而在语音识别任务上,学者利用Transformer提取长语音全局信息的交互规律并结合卷积神经网络进行语音局部特征的学习,创造出Conformer[19],Conformer在 LibriSpeech[20]数据集上的错词率(word error rate,WER)已经降到了2.1。深度学习模型强大的分类与识别能力在阿尔兹海默症的识别上已经取得了一定成就[14][15],但是现阶段对语言能力的判断方法往往需要结合语音识别模型和自然语言处理模型,在实现步骤上较为繁琐,且语音识别模型和自然语言处理模型需要较高的计算复杂度和较大的计算参数量,例如语音识别模型Conformer[19]的参数量达到了118.8M。所以设计一种既兼顾计算资源同时可以简化判断流程的方法是很有必要的。
针对以上问题,本文的研究需选择一种兼顾性能与计算资源的端到端深度学习语音分类模型,SuDo-RM-RF[21][22]模型是近年来在语音分离领域较为成功的一种基于口语发声特征掩码估计的语音分离模型,在使用少量参数的情况下,仍可取得良好的特征分类效果,同时相较于 DPRNN[16],Time-domain Audio Separation Network(TasNet)[23],DPTNet[18]等语音分离模型,其所需的训练时间大幅度减少。本文在SuDoRM-RF模型的基础上进行改进,设计了一种语言障碍情况鉴别器加入到解码器中,实现对说话人语言能力的分类,以区分出正常人(HC,Healthy Control),阿尔兹海默症初期认知障碍患者(MCI,Mild Cognitive Impairment),阿尔兹海默症患者(AD,Alzheimer disease)三类人群。改进后的模型被命名为SuDoRM-RF-AD。
本文的结构如下:第2节介绍SuDoRM-RF-AD模型及其参数配置,第3节为实验部分,第4节为本文的结论。
2 SuDoRM-RF-AD架构
SuDoRM-RF-AD结构如图1所示,该模型由编码器、分离器和解码器三部分组成。相较于SuDoRM-RF架构,SuDoRM-RF-AD在前者的解码器中增加了一个语言障碍情况鉴别器(图1虚线所示),以实现对三类不同的人群的区分。为了更生动形象地进行描述,本文将鉴别器的鉴别法则称作为“专家”。“专家”是领域内的翘楚,对自身所处的领域拥有完备的专业知识以及专业技能素养。基于这一思想,SuDoRM-RF-AD的三位“专家”便需要依靠自身的经验以及知识,从语音信号或语音信号特征中判断说话人的所属类别。选择三位“专家”是依照职能确定的,“专家1”擅长判断说话人是否健康,即用来判断说话人属于HC的概率大小;“专家2”对于阿尔兹海默症早期认知障碍患者具有很强的判断能力,即可以依靠“专家2”得到说话人是否确诊MCI的概率;类似地,“专家3”用来判断说话人是否属于AD。这是一个多标签分类的过程,输出的结果分别表示被试者属于HC、MCI和AD的概率,为了明确被试者所处的类别,Su-DoRM-RF-AD最终会选择输出概率最大值所对应的类别作为被试者的类别。
图1 SuDoRM-RF-AD结构
2.1 编码器
编码器将输入信息进行压缩,便于在后续的分离器中分离出重要特征。假设原始输入信息为x∈RT,其中T表示长度。原始信号在编码器内经过一次一维卷积操作,并通过ReLU函数激活[24],输出结果即为编码器输出结果vx。编码器的表达式如下:
2.2 分离器
由分离器接受来自编码器的输出结果,对其进行特征的提取。如式(2)所示,vx在经过一次一维卷积和层归一化(LayerNorm)[25]操作之后会送进U-ConvBlock中。可以依次通过多个U-ConvBlock结构,其中UConvBlocki表示输入需要通过i个U-ConvBlock结构,其中i∈[1,B]。
U-ConvBlock是分离器的主要组成部分,结合了U-Net[26]和Convtasnet[27]的优点,结构示意如图2所示。Y(i)经过通道扩展、下采样、上采样以及通道压缩一系列操作之后可以获取信息的多尺度特征,而后通过跳跃连接将相同维度的特征信息进行融合,以避免特征信息在提取过程中的丢失,假设共计通过B个U-ConvBlock结构的输出,计为Y(B),如式(3)所示。
图2 U-ConvBlock结构(深度为3)
2.3 解码器
解码器通过ŷi做出判断,得到所属类别的概率。首先对每个特征的潜在表达式ŷi进行一维转置卷积操作,这里的一维转置卷积操作是编码器一维卷积的逆过程,便得到了各个特征完整的表达式Si,如式(6)所示。
为了从Si得到最终的判断概率,SuDoRM-RF-AD会首先通过第一层全连接层筛选出更适用于判断说话人所属类别的特征。由于全连接层的节点权重不一致,对于权重较小的节点,可以采用Dropout策略[28]来减少小权重特征对最终判断的影响。在经过第一层全连接层筛选出所需要的特征之后,为了方便最终的判断,需要统一输出格式,采用ReLU激活函数,实现判断概率位于区间[0,1]内。最后通过第二层线性全连接层,三位“专家”给出各自最终的判断结果,记第i位“专家”给出的判断概率为pi,表达式如式(7)所示。
2.4 SuDoRM-RF-AD网络配置
本次任务的网络参数设置如下,对于编码器的一维卷积操作,其卷积核大小为21,步长为10,填充为10,为了更好地学习输入特征,输出的通道数设置为32。对于分离器,其一维卷积操作使用卷积核大小为1*1,步长为1,填充为0。U-ConvBlock的个数为3,每一个U-ConvBlock需要进行3次连续时间下采样,同理为恢复数据维度,也需要进行3次上采样。解码器的一维转置卷积为编码器一维卷积的逆操作,其卷积核大小为21。鉴别器的第一层全连接层输出节点个数为128,第二层输出格式为1,输出通道数为3,分别得到HC、MCI、AD的预测概率。
3 实验设置及分析
3.1 数据集与基线系统
本文数据集采用江苏师范大学的《阿尔兹海默综合症竞赛数据集》,每段语音长度为6秒钟,AD人群样本共计158条,MCI样本共计186条,HC样本共计216条,总计样本560条。其中70%的样本用于训练集,10%的样本用于验证,20%的样本用于测试,每次训练开始之前均会重新将数据进行随机划分。针对频谱特征,梅尔频谱特征以及MFCC特征,采用两种基线系统[29]:对于MFCC特征,基线系统模型将输入信息经过不同规格的一维卷积层处理之后,送入密集连接层,输出所属类别;对于频谱或梅尔频谱特征,基线系统则将输入信息经过不同规格的二维卷积层处理之后,送入密集连接层,输出所属类别。
3.2 训练及评估
本文优化器使用Adam优化器,学习率初始为0.001。对于多分类任务,采用交叉熵损失作为模型的损失函数。其中交叉熵损失定义的公式如公式(8),n为样本数量,m为类别数量,yiC表示符号函数,样本i属于C则为1,否则为0,PiC表示观测样本i属于类别C的预测概率。
为了更好地筛选出最佳性能的模型参数,本文使用了动态学习率策略,用验证集调整模型的最优参数,模型每经过2次迭代之后若在验证集上的识别正确率未提升,则学习率衰减10%;如果模型迭代10次之后,性能仍未提高,则训练结束,同时保留最优模型参数。
同时选择准确率,召回率,精确率以及F1值作为模型的衡量标准,其中准确率(accuracy)表示分类正确的数量占总分类数量中的比重,精确率(precision)表示预测为正类的样本中有多少是真正的正类样本,召回率(recall)表示样本中的正例有多少被预测正确,而F1值是精确率和召回率的调和平均,兼顾了精确率与召回率二者的衡量特点。四个指标的取值范围均在0到1之间,数值趋近1表示模型的衡量性能越好,四个指标的定义如下:
其中,TP、TN、FP、FN分别表示样本正类判定为正类的数量,负类判定为负类的数量,负类判定为正类的数量,正类判定为负类的数量。
3.3 实验及结果分析
3.3.1 MFCC特征训练及分析
为了验证本题模型的性能优势,实验将分别采用MFCC特征,频谱特征以及梅尔频谱特征作为输入,验证模型的分类能力。MFCC特征数据维度为20,在训练开始之前被转变为一维序列数据进行输入,输入格式为张量(tensor),格式大小为[批次(batch),数据长度(length)]。
实验结果如表1所示,正确率、精确率、召回率和F1值最大为1,最小为0,Flops表示模型计算所需的浮点运算单元,该值越小,就表明模型所需的计算复杂度越低,对于模型的参数量,该值越小,表示模型所需的存储空间越小,所有结果保留小数点后三位。其中SuDo-RM-RF-ADm*n表示模型经过m个U-ConvBlock,每个U-ConvBlock经过n次连续时间采样。从表1可以看出,使用本文模型,其结果在正确率、精确率、召回率以及F1值四个指标上均优于基线系统,这就表明,本文提出的模型能给HC、AD、MCI三类人群的正确识别结果带来稳定的提升。此外,如果省去分离模块中的U-ConvBlock结构,那么最终的性能相较于使用U-ConvBlock结构会有所降低,虽然使用U-ConvBlock结果会使计算复杂度和参数量略微提升,但是对正确识别HC、AD、MCI三类人群是很有帮助的。值得注意的是,在使用MFCC特征对SuDoRM-RF-AD模型进行训练时,SuDoRM-RF-AD的参数量约为0.54M,这与其他经典的深度学习模型结构的参数量相比,如ResNet50[30]的23.5M,VGG-16[31]的138M,DeiT-Tiny[32]的5.7M,几乎可以忽略不计,Su-DoRM-RF-AD的轻量化也成为它的优势之一。
表1 MFCC特征模型训练结果
3.3.1 频谱特征和梅尔频谱特征训练及分析
与处理MFCC特征不同的是,基线系统处理频谱特征和梅尔频谱特征均使用的是二维卷积操作[29],而本文针对MFCC特征处理使用一维卷积操作进行处理。二维卷积会兼顾周边范围内的信息量,而一维卷积则只能利用卷积核前后位置的信息。但是为了便于扩展本模型在不同特征上的学习能力,本模型在频谱特征和梅尔频谱特征上的训练依然采用一维卷积方式,这样可以无需改变模型的基础架构,而仅对语言障碍情况鉴别器作进一步的改进即可,如图3所示,在原有鉴别器前额外增加两层一维Depth-wise卷积层[33]进行特征的筛选,这样做的目的是筛选出可用特征并进一步克服全连接层使用参数较多这一问题。
图3 增加Depth-wise卷积层后的鉴别器
针对频谱的参数设定如下:第一层卷积层的输入输出通道数均为3,卷积核大小为64,步长为32。第二层的输入输出通道数也为3,卷积核大小为32,步长为16。针对梅尔频谱的参数设定如下:第一层卷积层的输入输出通道数均为3,卷积核大小为32,步长为16。第二层的输入输出通道数也为3,卷积核大小为16,步长为8。其余训练设置不变,将输入的频谱特征和梅尔频谱特征数据转变为一维序列数据进行输入,输入格式为张量(tensor),格式大小为[批次(batch),数据长度(length)]。
从表2中可以看出,本文使用的模型虽然采用一维卷积操作,将频谱特征和梅尔频谱特征当作序列信息进行处理,但是正确率、精确率、召回率、F1值相较于基线系统依然得到提升,以正确率而言,本文模型在频谱特征上提升约1.4%,在梅尔频谱上的提升约4.4%,同时从实验结果可以看出,使用了U-ConvBlock的模型相较于不使用的模型其各项参数均有细微提升,这也表明使用了U-ConvBlock的模型在区分HC、AD、MCI三类人群时可以给识别正确率带来提升,这一结论与使用MFCC特征进行训练时所得结论一致。
表2 梅尔频谱和频谱特征模型训练结果
4 结论
本文在语音分离SuDoRM-RF模型基础上,通过设计并加入语言障碍情况鉴别器,构建出适用于阿尔兹海默症说话人识别的端到端网络SuDoRM-RF-AD。该模型可以基于阿尔兹海默症早期认知障碍患者和阿尔兹海默症患者与正常人语言能力的差异,实现对三类人群的识别,相较于使用MFCC特征的基线系统,当模型使用3层U-ConvBlock结构,每层进行三次连续时间采样后,模型平均识别正确率可达84.8%,相较于基线系统提升约20%,且参数量仅为0.54M;对于使用频谱特征的基线系统,识别正确率提高了约1.4%,模型参数量约为0.23M;而较之梅尔频谱基线系统则提高了4.4%,模型参数量仅为0.22M。这表明本文提出的模型是一种识别性能较好的轻量化架构。