基于MDSF的精神分裂症自动识别算法
2021-07-21李智倩郭源蕊贺子亮邓丽华李元媛
李智倩,郭源蕊,贺子亮,邓丽华,何 凌,李元媛
(1.四川大学 电气工程学院,四川 成都 610065;2.四川大学 华西心理卫生中心,四川 成都 610041)
0 引 言
精神分裂症是一种病因不明的慢性精神疾病,易致残且容易复发[1],多发于18周岁-45周岁人群,青壮年是主要患病群体。此病病程多迁移,约占中国住院精神病患的50%左右,慢性精神住院患者的60%左右[2]。精神分裂症的病症表现可具体分为阳性症状和阴性症状。阴性症状主要包括言语和思维贫乏、情感淡漠、社交障碍、孤僻和逃避[3]。
国内外学者认为,阴性症状是影响社会功能、导致精神残疾的主要原因[4]。在过去的研究中,出现多项以精神分裂症阴性症状为主要转归的临床研究。然而,很多研究并未恰当地评估原发及持续存在的阴性症状,且样本量较小,所以对阴性症状进行更好的评估仍然是一个重要的挑战。超过50%的精神分裂症患者存在阴性症状,目前主要依靠训练有素、经验丰富的临床医师检测阴性症状[5],面临着临床医师短缺、诊断周期长、成本高、效率低等问题,缺乏准确可靠且及时的客观生物学指标及有效检查手段[6],因此临床上迫切需要敏感性和特异性更好的检测方法。
情感淡漠是精神分裂症阴性症状的显著特征之一[7]。临床[8]研究结果表明,情感淡漠与声音表达能力降低有关,此类阴性症状对患者的发声能力产生巨大的影响。当精神分裂症患者遭受情感扁平化时,可能无法通过言语正确表达其预期情绪状态[9-12]。在时域信号分析中,精神分裂症患者语音的强度和能量较普通人小[13-16]。Vlliam Rapca等[17]分析了39名精神分裂患者及18名对照组语音信号中的能量变化,结果表明精神分裂症患者的语音信能量低于正常人。在频域信号分析中,精神分裂症患者语音的频谱强度与正常人存在差异。研究[18]结果表明精神分裂症患者的大脑结构改变可能与发音器官的功能改变有关,而发音器官的状态与频谱特征密切相关。潘忠德等[19]对26名精神分裂症患者和26名健康人的语音样本分析,结果发现患者组的美尔频率倒谱系数(the Mel-frequency cepstral,MFCC)和线性预测系数(linear prediction coding,LPC)评分显著低于对照组。
近年来,国内外学者致力于研究基于声学参数分析的精神分裂症自动识别算法。Shona等[20]通过分析语音能量的相对变化参数,对精神分裂症的预测诊断率达63.3%。Stassen等[21]通过分析患者的说话行为和声学特征来研究精神分裂症患者的阴性症状,提取平均能量、能量变化等语音参数并结合多元判断函数,对精神分裂症的识别率为75.9%;Püschel等[22]对45例急性精神分裂症患者说话行为和语音特征进行研究,探寻语音参数和精神症状间的潜在联系,以找出预测精神分裂症状严重性的语音参数,结果发现急性期精神分裂症患者几乎所有的声学变量均与对照组有显著差异。且通过基频曲线、平均能量语音参数信息,结合分类算法,可将精神分裂症患者和对照组进行分类的正确率为85.6%。Chakraborty等[23]对精神分裂症患者的语音信号进行研究,提取了基音频率、能量、MFCC等声学特征,结合SVM、随机森林等多个分类器,实现精神分裂症自动检测,正确率达85%。总体而言,国内外通过语音参数对精神分裂症进行自动识别的研究较少,且存在样本量较小,分类准确率不高等问题,还需要不断深入探讨。
本文结合精神分裂症患者语音信号在表达及强度上缺乏变化的特点,构建情感扁平化空间,并提出能够区分精神分裂症及正常人的多维度情感扁平化空间域特征(multi-dimensional spatial characteristics of flatten emotion,MDSF),然后利用分类器实现精神分裂症及正常人的自动分裂检测,为精神分裂症的临床诊断提供客观的生物学指标。
1 基于多维度情感扁平化空间域的精神分裂症自动检测算法
精神分裂症患者的情感扁平化症状,导致其在语音表达上缺乏变化,使其情绪表达范围和强度均低于正常人。本文提出精神分裂症患者情感扁平化空间构建算法,应用激发维向量、评价维向量和强度维向量构建多维度情感扁平化空间模型。该模型将语音时频域特征参数映射至多维度情感扁平化空间,然后提取空间域特征,结合SVM分类器,实现精神分裂症的自动识别。其算法总流程如图1所示。
图1 基于多维度情感扁平化空间域的精神分裂症自动检测算法流程
1.1 本文提出的多维度情感扁平化空间及其空间域特征
本文基于精神分裂症情感扁平化的症状,提出多维度情感扁平化空间(multi-dimensional flatten emotion space,MFES)的构建方式以及其空间域特征的提取算法。MFES的构建过程以及空间域特征的提取算法如下。
1.1.1 本文提出的多维度情感扁平化空间
AVP三维情感空间模型是目前在情感信息领域最活跃的情感模型之一[24-27],它是由激发维(Arousal)、评价维(Valence)、强度维(Power)这3个维度组成。通常韵律特征反映激发维的信息,激发维表示情绪生理上的激励水平以及对外界刺激的警觉程度。频谱特征主要反映评价维的信息以及部分强度维的信息,评价维表示情感被感知的程度,情绪状态的愉悦/不愉悦等程度;强度维表示对情感状态的控制程度,例如,说话者的控制欲望及力量、对情绪的表达是主动控制还是被影响等。
本文将表征情感扁平化的时频域特征映射到多维度情感空间,来构建MFES的3个维度,从而构建MFES,图2所示为多维度情感扁平化空间。通常人类的情感是连续的、复杂多变的,不完全属于某一特定的离散情感类别。MFES包含情绪表达的正负性、唤醒度、优势度,内在的情绪成分的表达。从本文提出的MFES中提取语音特征,可提取情绪表达的极性和强度,使情感扁平化的信息得到充分提取,凸显精神分裂症与正常人的语言特性差异[27],有利于精神分裂症的自动识别。
图2 多维度情感扁平化空间及空间域特征
1.1.2 本文提出的多维度情感扁平化空间域特征参数(MDSF)
(1)
其中
P=(L1+L2+L3)/2
(2)
(3)
(4)
(5)
(1)MDSF特征的一维参数
当多维度情感扁平化空间中激发维、评价维、强度维有两个维度的特征为零时,MDSF特征的一维参数则用非零的特征表示,可用式(6)求解
(6)
(2)MDSF特征的二维参数
当多维度情感扁平化空间中激发维、评价维、强度维有一个维度的特征为零时,将其余两个维度的特征代入式(1)求解, MDSF特征的二维参数如式(7)所示
(7)
本文提出的多维度情感扁平化空间域特征是相关声学特征的多成分、多维度、多水平的一种融合,将分布于不同维度的离散语音强度表达状态结合起来,有机地结合了不同维度的声学特征优势,有助于识别精神分裂症患者与正常人。
1.2 本文提出的扁平化空间中多维度矢量特征的提取算法
精神分裂症患者情绪迟钝、情感淡漠阴性症状突出,对声音的表达能力造成巨大的影响,尤其容易在言语内容中限制情感表达。本文分别从情绪表达的正负特性、唤醒度、优势度等3个维度提出相关特征算法来构建MFES中3个特征向量,从而将精神分裂症情感扁平化症状导致的异常信息提取并融合。MFES中3个维度向量的构建算法如下。
1.2.1 本文提出的MFES中评价维向量的构建算法
MFES中评价维表示个体情绪的正负特性,对于外界激励表现出愉悦/不愉悦的情绪状态。情感淡漠症状致使精神分裂症患者在阅读诱发文本时,频谱能量受到不同程度的抑制。精神分裂症对比于正常人,当处于愉悦/不愉悦的情绪状态时,语音的强度在频谱上有不同程度的表征。
本文基于频谱能量来构建评价维(Valence)向量。算法计算一段语音中说话人的全部频率分量,以及各频率分量下的强度分布谱[28](intensity distribution spectrum,IDS),它反映了每个子频带的能量集中度,能够在一定程度上反应说话人频域能量的差异,从而表示精神分裂症患者的情绪状态变化。该特征计算过程如下:
将经过预处理后的语音信号x(n) 进行FFT谱分析,N点FFT傅里叶变换对如下
(8)
式(8)中,第k根谱线为X(k)/N。
双边峰幅度谱定义为
(9)
单边峰幅度谱定义为
(10)
对单边峰幅度谱进行能量归一化处理,设经过能量归一化处理的单边峰幅度谱为ASn(k), 则有
(11)
由于FFT分析存在点数的差异,还要进行频率归一化处理,即使FFT分析的点数内插或者舍弃为固定点数,本文将点数固定为550点。
然后将经过能量归一化和频率归一化的数据进行平滑处理,设平滑后单边峰幅度谱为ASs(k), 则有
(12)
求取单边峰幅度谱谱线的能量均值,即将式(12)中的ASs(k) 谱线求平均能量,得到表示评价维向量的频谱特征IDS(k)
(13)
式中:M为样本的分帧帧数。
1.2.2 本文提出的MFES中强度维向量的构建算法
精神分裂症患者的发音功能改变大脑结构改变与大脑结构改变有关,发音器的状态与频谱特征密切相关,控制着情绪表达的饱满程度。MFS空间中强度维(Power)表示说话者的控制欲望及力量、对情绪表达的主动控制程度。本文提出了一种基于多频带分析的幅度特征(multiband scale amplitude characteristics,MSA)来构建强度维向量。MSA将语音信号分解成多个子带信号,然后利用正弦模型对各子带信号进行分析,提取精神分裂症患者以及正常人在语音上的情绪表达饱满程度的差异。其特征提取算法流程如下:
(1)小波分解:利用小波分解(discrete wavelet transform,DWT)将语音信号分解为高频信号和低频信号,将语音信号的语音帧分解为近似系数Ljo,k和细节系数Hj,k(j=1,2,…,joandjo=3)。 近似系数Ljo,k表征了小波分解重构的低频部分信息,细节系数Hj,k表征了小波分解重构的高频部分信息。设经过预处理后的语音信号为x(n), 对x(n) 进行多尺度一维离散小波变换得到第一层近似系数。然后进行三次小波分解分别得到第三层的近似系数L3,k以及细节系数H3,k、H2,k和H1,k;
(2)子带信号重建:从近似系数Ljo,k和每个细节系数Hj,k分别用逆离散小波变换(inverse discrete wavelet transform,IDWT)构造子带信号,利用单个子带的系数构造信号时,要使其它子带的系数为零。分别使用近似系数L3,k和细节系数H3,k、H2,k和H1,k来构建4个子带信号。这4个子带信号L3,k、H3,k、H2,k、H1,k分别对应于SL3、SH3、SH2、SH1;
(3)强度维向量特征提取:将重建后的4个子带信号SL3、SH3、SH2、SH1经过离散傅里叶变换后分别得到4个子带信号的尺度峰值AL3,AH3,AH2,AH1, 将4个子带信号的所有正弦波峰串联起来,得到最终的特征向量,计算过程如式(14)所示
[AL3,AH3,AH2,AH1]=abs(fft([SL3,SH3,SH2,SH1]))
(14)
1.2.3 本文提出的MFES中激发维向量的构建算法
MFES中激发维表示人情绪生理上的激励水平以及对外界刺激的警觉程度,精神分裂症患者与正常人在受到实验阅读文本的激励时的情绪表达程度不同。精神分裂症患者的语音表达强度受到抑制,导致精神分裂症患者的语音强度变化小于正常人。语音能量通常能反映语音强度变化,本文基于改进的短时能量来构建激发维向量,构建过程如下[29]:
设语音波形时域信号为x(n)、 加窗函数ω(n) 分帧处理后得到的第i帧语音信号为yi(n), 则yi(n)满足
yi(n)=ω(n)*x((i-1)+inc+n),1≤n≤L, 1≤i≤fn
(15)
式(15)中,ω(n) 为窗函数,本文选取汉明窗,n=1,2,…L,i=1,2,…fn,L为帧长;inc为帧移长度;fn为分帧后的总帧数。
则计算第i帧语音信号yi(n) 的短时能量公式为
(16)
为了避免由于采样值大小对于取二次方造成的差异,求取语音信号的平均幅度来表示一帧语音信号的能量大小,设SEC(i) 表示平均幅度,求解如式(17)所示
(17)
1.3 SVM分类器
SVM[30,31]分类器是一种典型的分类器,是由分类超平面定义的。它是针对线性可分情况分析的,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。
本文进行精神分裂症情感淡漠症状自动分类主要考虑的因素是分类方式,本实验是将已作标签的精神分裂症语音以及正常人的语音区分并赋予新的标签,是典型的二分类方式,本文选用SVM分类器进行精神分裂症的自动识别。
2 实验结果与分析
2.1 实验数据
本实验采用的语音数据来自于四川大学华西心理卫生中心,四川大学华西医院心理卫生中心是我国排名第二的精神卫生机构,每年精神分裂症患者的就诊量大,数据库资源丰富。本文的实验数据录制文本是由四川大学华西心理卫生中心的专科精神病学专家根据DSM-5标准制定的,根据阅读文本,采用专业的录音设备进行语音的录制,采样频率为44 100 hz。表1是专业医师制定的阅读文本中富含情感信息较多的语句。
表1 阅读文本中富含情感信息较多的语句
实验共使用了28名精神分裂症病人及28名正常人的语音数据进行测试。
2.2 实验结果对比分析
2.2.1 基于多维度情感扁平化空间域的精神分裂症自动检测
(1)MDSF特征在不同维度下自动识别效果的对比分析
本文基于多维度情感扁平化空间求解MDSF特征,为了分析MDSF特征在不同维度下的精神分裂症识别性能, 分别将MDSF特征的一维、二维、三维特征集,输入SVM分类器进行自动分类测试,测试结果见表2。其中AUC(area under curve)为ROC曲线(receiver operating cha-racteristic curve)下的面积,是衡量分类器优劣的一种评价指标;FPR(%)是假阳性(%),表示被算法检测出来的假阳性样本数除以所有真实阴性样本数;TPR(%)是真阳性(%),表示被算法检测出来的真阳性样本数除以所有真实阳性样本数。
表2 不同维度下MDSF特征的精神分裂症分类正确率
(2)不同维度下MDSF直观结果的对比分析
分类器得到MDSF特征不同维度参数的自动分类结果,现从特征的直观结果来分析精神分裂症和正常人的差异。
1)MDSF特征的一维参数直观结果的分析
分别用于构建MFES中评价维、强度维、激发维的特征IDS、MSA、SEC从3个情绪控制维度提取了精神分裂症患者与正常人的语音强度差异信息。图3(a)表示正常人与精神分裂症患者的IDS差异,情感的扁平化与频域中频谱幅度的波动有关。低频带中,精神分裂症患者的频谱幅度略低于正常人的频谱幅度。由于正常人没有言语障碍,发声能力正常,能够正确地表达出预期的情绪状态,使得正常人的IDS的中高频带频谱幅度高于精神分裂症患者,精神分裂症患者的情感淡漠症状较为明显。图3(b)表示精神分裂症患者和正常人的MSA对比,正常人的情绪表达饱满程度高于精神分裂症患者。图3(c)中,语音信号的SEC随时间的变化而变化,情感的表征强弱与能量的大小有较强的联系;正常人在阅读指定的诱发情感的文本时,情感表达的强弱正常输出,在语义能够表现情感的语音数据上,正常人的语音会出现波动,能量有明显的升高迹象;而精神分裂症患者的情感淡漠,在语音的波动变化上体现较小,精神分裂症患者的语音能量一直处于一种较为平缓的水平,情感无强烈的波动,情绪的表达相对于正常人语音的强度减弱。
图3 3个维度特征在精神分裂症患者与正常人中分布差异
2)MDSF特征的二维及三维参数的直观结果的分析
本文提出的MDSF特征的二维、三维参数在精神分裂症患者与正常人中的大小分布差异如图4所示,其中图4(a)~图4(c)是精神分裂症患者与正常人的3个二维MDSF特征的差异分布的箱线图,其中,每一个箱线图上方和下方的短线条“-”对应的纵坐标为上边缘和下边缘,箱线图中间的线条对应的是中位数,“+”号表示异常值。图4(d)是精神分裂症患者与正常人的三维MDSF特征值的差异分布。对比于二维MDSF特征,三维MDSF特征提高了精神分裂症患者与正常人的差距范围,为SVM分类提供更高的分类准确率。
图4 MDSF特征在精神分裂症患者与正常人中分布差异
2.2.2 本文提出的MDSF与国内外现有技术的对比实验
近年来国内外学者致力于研究精神分裂症与正常人在语音信号表达上的差异,并探究了LPC[19]、基频[23]、平均能量[23]、MFCC[23]等国内外现有技术对精神分裂症阴性症状的识别效率。针对本实验的数据,本文对基频、平均能量、LPC、MFCC等语音特征进行了分类正确率测试,测试结果见表3。
从表3得出,国内外现有技术中正常人与精神分裂症的自动分类正确率范围为68.9%-81.5%,而本文提出的多维度情感扁平化空间域特征对精神分裂症的正确率范围为85.1%-89.1%,提高了国内外现有技术的精神分裂症识别率,具有良好的精神分裂症检测效果。
表3 国内外语音特征与三维MDSF的分类正确率对比
3 结束语
本文利用改进的相关情感扁平化的时频域语音特征映射到多维度空间,以此构建情感扁平化空间,并计算多维度情感扁平化空间域特征,突出了精神分裂症患者情感淡漠导致语音变化少、韵律异常的特点。
实验分别对28个精神分裂症患者和28个正常对照组的语音样本进行特征参数提取以及自动分类测试。分析了本文提出的不同维度MDSF特征对精神分裂症与正常人的识别性能,以及对比分析了本文提出的MDSF特征与国内外现有技术的精神分裂症识别正确率。经实验验证,本文提出的MDSF特征在三维情况下对正常人与精神分裂症的自动分类正确率为89.1%,高于低维度MDSF特征及国内外现有技术的分类正确率,实现了精神分裂症患者以及正常人的自动分类检测。说明了本文提出的多维度情感扁平化空间域特征对精神分裂症患者阴性症状的自动分类检测具有作用。