情感障碍的语音识别研究进展

2015-02-28潘忠德蔡伟雄崔东红上海交通大学医学院上海市精神卫生中心转化医学重点实验室上海0000司法部司法鉴定科学技术研究所上海市法医学重点实验室上海0006上海交通大学电子工程学院上海00040

中国司法鉴定 2015年6期

潘忠德，蔡伟雄，朱杰，崔东红(.上海交通大学医学院，上海市精神卫生中心，转化医学重点实验室，上海0000; .司法部司法鉴定科学技术研究所上海市法医学重点实验室，上海0006; .上海交通大学电子工程学院，上海00040)

情感障碍的语音识别研究进展

潘忠德1，2，蔡伟雄2，朱杰3，崔东红1
(1.上海交通大学医学院，上海市精神卫生中心，转化医学重点实验室，上海200030; 2.司法部司法鉴定科学技术研究所上海市法医学重点实验室，上海200063; 3.上海交通大学电子工程学院，上海200040)

随着语音信号分析与处理技术的发展，尤其是线性预测技术在语音处理中的应用，基音频率、共振峰、线性预测系数、线性预测倒谱系数、Mel频率倒谱系数等语音特征参数被证实与情感(尤其是抑郁症状)密切相关。近十年来，随着一系列基于现代数理统计理论基础之上的新型语音建模方法的相继提出，正常人的情感语音识别取得了良好的识别率。因此，一些学者应用现代语音识别技术，探讨语音这一客观生理行为作为情感障碍诊断生物学指标的可行性。通过对现代语言识别技术的基本原理和方法，以及情感障碍语音识别研究进展进行了介绍。

语音识别;情感障碍;综述［文献类型］

语音是语言的声学表现，是声音和语义的结合体，语音不仅能传递说话者的思想，而且还可传递其情感信息，因此语音是研究人类情感的一个重要载体［1］。情感障碍是以显著而持久的情感高涨或低落为主要特征的一组精神疾病。情感障碍者的语音会随情感的改变而发生明显变化，在情感高涨时，其声音洪亮、语速快、音调高;而情感低落时，则声音低沉、语速慢、音调低。早在1925年，Isserlin等［2］分析抑郁障碍患者的语音，结果显示发病和缓解阶段的语速、语音停顿时间存在差异。其后，一系列的研究证实基音频率、声音响度、共振峰、第一共振峰、第二共振峰、第三共振峰、基频微扰、幅度微扰等声门和声道特征参数与抑郁症状相关［3-5］。20世纪80年代，随着线性预测技术在语音处理中的应用，线性预测系数、线性预测倒谱系数、Mel频率倒谱系数等频谱特征参数相继被研究证实与抑郁症状密切相关，且能预测抑郁症状的缓解［6-8］。近十年来，随着一系列现代数理统计方法在语音识别分析中的应用，正常人的情感语音识别取得了良好的识别率［9］。精神疾病诊断的客观性一直受到垢病和质疑，因此近年来有学者试图利用现代语音识别技术探讨语音这一客观生理行为作为情感障碍生物学诊断指标的可行性。目前，情感障碍的语音识别研究成为生物医学工程的研究热点，本文拟介绍现代语音识别技术基本原理，语音特征参数提取与融合方法及语音识别建模方法的最新进展，并阐述其在情感障碍中的应用现状。

1 语音识别技术基本原理和方法

语音识别技术通俗地讲就是让计算机能听懂人的语言，理解并执行人的语音命令。但计算机并不具有人耳的听觉功能，要让计算机能“听懂”人的语音，需要将人的语音转化为二进制的数字化编码，同时运用相关数理知识模拟人的语音产生过程和语音感知生理机制，方能实现人机“对话”。因此，语音识别的前提是将语音转化为数字信号，对数字化的语音信号预处理后，提取相应的语音特征参数建立语音识别模型，然后将待测语音与已建立的语音模型匹配，得出判决结果。语音信号的数字化和预处理包括取样、量化、分帧与加窗、预加重、端点检测等过程，其目的是将非平稳的语音转化为可以分析的数字化语音信号［10］。

1.1 语音特征提取与选择

在完成语音的数字化和预处理后，需要提取能反映个体声门、声道特性的语音特征参数。语音特征参数提取与选择是语音识别的重要环节，提取出最能体现语音特征的参数是提高语音识别率的关键步骤。语音特征参数可分为两类:第一类为时域特征参数，如短时平均能量、短时平均幅度、短时平均过零率、共振峰、基音频率等;第二类为频域特征参数，如线性预测系数(LPC)、线性预测倒谱系数(LPCC)、Mel频率倒谱系数(MFCC)等。基音频率反映声门激励特征，共振峰体现声道响应的特性，LPC、LPCC则体现了声门激励和声道响应的特性。MFCC模拟了人耳的听觉特性，是语音识别研究中应用最多的一种参数［9］。单个语音特征参数不能完全体现语音特性，因此需要提取混合参数构成特征向量以尽可能地体现语音特性。研究发现，在建立语音识别模型时，参数越多反会导致语音识别系统识别率的下降，即维数灾难。目前常用的语音特征参数提取方法包括主成分分析(PCA)、线性判别分析(LDA)、遗传算法(GA)等［11-12］。

1.2 语音识别建模方法

选取语音特征参数后，需要根据语音识别系统的类型和要求，选择合适数理统计方法建立语音模型。目前语音识别建模方法主要分为两大类:(1)基于概率生成模型的方法如高斯混合模型(GMM)和隐马尔可夫模型(HMM);(2)基于判别模型的方法，主要有支持向量机(SVM)和人工神经网络(ANN)。基于概率生成模型的方法能够反映同类数据本身的相似度特性，而判别模型的特点是寻找不同类别之间的最优化分类面来反映异类数据之间的差异。因此，两类模型在识别机理上有着很大的互补性。近年来，一些学者将两者结合起来，用混合模型进行语音识别。混合模型的优点是能对不同模型取长补短，在一定程度上使识别率得到提高;缺点是模型复杂、计算量大，很难获得全局最优混合模型［13-15］。

1.3 语音识别基本原理

语音识别分为两步。第一步是学习或训练，根据语音识别系统的类型，选择可满足要求的识别方法，分析语音特征参数，形成标准模式库，第二步就是识别，提取待测语音中的特征参数，按照一定的准则和测度与标准模式库进行比较，通过判决得出识别结果。因此，完整的语音识别系统包括特征提取、模式匹配、参考模式库三个基本单元［10］(见图1)。

图1 语音识别系统原理框图

2 情感障碍的语音识别应用现状

目前国内外有关情感障碍的语音识别研究文献主要集中于抑郁障碍(MDD)，而双相障碍(BD)的研究文献报道极少。复习相关文献，情感障碍的语音识别技术应用研究主要集中在以下四个方面:

2.1 语音采集方法

如何采集患者的语音对于语音分析与处理至关重要，语音采录环境对语音信号影响较大。目前，情感障碍患者的语音采集主要有三种方式:一是程序化的语音录制，即让患者数数字(从1到10，或倒数)、阅读一段中性情感色彩的文字，或看图说话［3］;第二种是半定式录音，即患者回答一定个数的问题，或者在评定抑郁量表时患者回答医生的提问［11］;第三种是自由交谈式录音，如在与患者商讨问题解决办法、制定计划时，或临床查房时自由交谈录音，录音时间一般为10～20 min［16］。值得注意的是，Karam［17］利用智能手机终端自动录取患者通话录音，实现了患者在自然生活状态下的语音采集。

2.2 与抑郁障碍相关的语音特征参数

1996年，Heiner［18］对11例女性、5例男性MDD患者进行跟踪随访并进行访谈录音，比较患者在发病、缓解期的语音速率、平均停顿时间、停顿次数、平均基频、最小基频、基频带宽等语音特征参数差异，结果显示随着情绪的改善，患者的语音速率上升、平均停顿时间减少，提示语音信号可以预测患者的情绪改善。1998年，Stassen［19］报道基音频率幅度及平均停顿时间可以预测MDD患者的病情改善程度。随后研究者发现共振峰(平均数、最小共振峰、第一共振峰、第二共振峰、基频微扰、幅度微扰)与MDD的严重程度及缓解明显相关。Lu shih等［16］运用MFCC作为MDD识别的主要特征参数，取得了较高的识别率。目前有关MDD的研究中提取的语音特征参数主要有韵律特征(如短时平均能量、短时过零率)、声门特征(如基频，共振峰)、频谱特征(如LPC、LPCC、MFCC)及Teager能量算子(TEO)［20］。

2.3 抑郁障碍语音识别的建模方法及识别率

近几年来，有学者采用多元分析的方法来探讨融合不同特征参数建立抑郁障碍的语音识别模型，Ozdas［21］选取30例抑郁障碍患者和30例对照组，选取基频和基频微扰作为特征参数，采用多元最大似然值的方法建立语音识别模型，识别率为90%。表1总结了近几年来选取不同语音特征参数及语音识别模型时抑郁障碍识别率，需要指出是性别对抑郁障碍语音识别模型的识别率也有影响。

表1 不同的特征参数和建模方法的抑郁障碍的识别率

2.4 双相障碍的语音识别研究

目前，有关双相障碍的研究报道极少。BD以情感高涨、低落与正常三种情绪的交替变化为主要临床特征，与MDD及精神分裂症有着不同情感变化特点，因此BD的语音信号分析与识别研究更有临床意义。2012年，Nicola V等［25］利用看图说话和中性文字阅读(各需5 min)采集双相障碍患者在躁狂状态、抑郁状态及平静时的语音，共6例患者入组(1女，5男)，躁狂状态和抑郁状态各3例，利用波形估计法来检测基音，选取元音的平均基频、基频微扰、基频标准差作为特征参数，对每位患者在躁狂(或抑郁)、平静时的基频特征进行统计分析，结果显示抑郁或躁狂与平静状态的基频特征存在统计差异，提示基频特征参数随着患者的情绪状态发生改变。2014年，Karam等［17］对6 例(4女2男)双相障碍患者进行一年随访，通过手机终端软件自动录取患者每次通话语音，以采集其在不同情绪状态下的语音，选取短时平均能量、短时过零率、基频及基频微扰、共振峰、MFFCC共52个特征参数，建模方法为SVM，躁狂的平均识别率为61%，抑郁的平均识别率为59%，且手机采集的语音与现场访谈录音的识别率无统计差异，该研究提示通过手机采集的语音信号来判别患者的情绪状态具有一定可行性。

3 结语

综上所述，目前有关情感障碍语音识别研究主要存在以下几个问题:(1)现有的文献报道中，样本量偏少(多为10例左右)，而语音样本的大小会影响语音识别系统的识别率;(2)目前国内尚未见有关情感障碍的语音识别研究报道，目前文献报道主要来自英语国家。今后，以下研究方向值得关注:(1)建立具有代表性的情感障碍患者汉语语音数据库，比较不同语言的语音特征差异;(2)扩大语音样本量，提高语音识别器识别率及稳定性;(3)研发高效的情感障碍语音识别系统，在临床诊断、社区疾病监测及司法精神疾病鉴定等领域有着重要的意义和应用前景。

［1］韩纪庆，张磊，郑铁然.语音信号处理［M］.北京:清华大学出版社，2004:105.

［2］Leff J，Abberton E.Voice pitch measurements in schizophrenia and depression［J］.Psychological Med，1981，(11):849-852.

［3］Nilsonne A.Acoustic analysis of speech variables during depression and after improvement［J］.Acta Psychiatr Scand，1987，(76):235-245.

［4］Scherer K，Zei B.Vocal indicators of affective disorders［J］. Psychotherapy and Psychosomatics，1988，(49):179-186.

［5］France D，Shiavi R，Silverman S，et al.Acoustical properties of speech as indicators of depression and suicidal risk［J］.IEEE Trans Biomed Eng，2000，47(7):829-837.

［6］Alpert M，Pouget E，Silva R.Reflections of depression in acoustic measures of the patient’s speech［J］.J Affect Disorders，2001，66(1):59-69.

［7］Ozdas A，Shiavi R，Silverman S，et al.Investigation of vocal jitter and glottal flow spectrum as possible cues for depres-sion and near-term suicidal risk［J］.IEEE Trans Biomed Eng，2004，51(9):1530-1540.

［8］Moore E，Clements MA，Peifer JW，et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech［J］.IEEE Trans Biomed Eng，2008，55(1): 96-107.

［9］赵腊生，张强.语音情感识别研究进展［J］.计算机应用研究，2009，(2):428-432

［10］胡航.现代语音信号处理［M］.北京:电子工业出版社，2014: 356.

［11］Morrisn D，Wang Ruili，De Silva LC.Ensemble methods for spoken emotion recognition in call-centres［J］.Speech Communication.2007，49(2):98-112.

［12］Elayadim M，Kamel M，Karray F.Speech emotion recognition using Ganssian mixture vector autoregressive models［C］// Proc of IEEE International Conference on Acoustics，Speech，and Signal Processing，2007:957-960.

［13］Mao Xia，Zhang Bing，Luo Yi.Speech emotion recognition based on a hybrid of HMM/ANN［C］//Proc of the 7th WSEAS International Conference on Applied Informatics and Communications.Stevens Point:World Scientific and Engineering Academy and Society，2007:367-370.

［14］Hu Han，Xu Mingxing，Wu Wei.GMM supervector based SVM with spectral features for speech emotion recognition［C］//ProcofIEEE internationalConferenceon Acoustics，Speech，and Signal Processing，2007:413-416.

［15］Lin Yilin，Wei Gang.Speech emotion recognition based on HMM and SVM［C］//Proc of the 4th International Conference on Machine Learning and Cybernetics，2005:4898-4901.

［16］Lu Shih，Alex L，Namunu C，et al.Detection of clinical depression in adolescents’speech duringfamily interactions［J］. IEEE Trans Biome Eng，2011，58(3):4675-4677.

［17］Karam Z，Provost E，Singh S，et al.Ecologically valid longterm mood monitoring of individual with bipolar disorder using speech［C］//IEEE International Conference on Acoustic，Speech and Signal Processing(ICASSP)，2014:4858-4862.

［18］Heiner E，Klaus RS.Vocal indicators of mood change in depression［J］.Journal of Nonverbal Behavior，1996，20(2): 83-110.

［19］Stassen H，Bomben G，Gunther E.Speech characteristics in depression［J］.Psychopathology，1991，(24):88-105.

［20］Sharifa A，Roland G，Michael W，et al.A comparative study of different classifier for detecting depression from spontaneous speech［C］//IEEE conf，2013:88-105.

［21］Ozdas A，Shiavi R，Silverman S，et al.Investigation of vocal jitterand glottalflow spectrum as possible cues for depression and near-term suicidal risk［J］.IEEE Trans Biomed Eng，2004，51(9):1530-1540.

［22］Cummins N，Epps J，Breakspear M，et al.An Investigationof Depressed Speech Detection:Features and Normalization［J］. Proc.Interspeech，2011，(7):2997-3000.

［23］Moore E，Clements MA，Peifer JW，et al.Critical analysis of the impact of glottal features in the classification of clinical depression in speech［J］.IEEE Trans Biomed Eng，2008，55(1):96-107.

［24］Kuan E，Margaret L，Nicholas B.Multichannel Weighted Speech Classification System for Prediction of major depression in adolescents［J］.IEEE Transactions On Biomedical Engineering，2013，60(2):497-506.

［25］Nicola V，Andrea G，Claudio G，et al.Speech analysis for mood state characterization in bipolar patients［C］//34th Annual International Conference of the IEEE EMBS San Diego，California USA，2012:3459.

(本文编辑:张钦廷)

AppIication of Speech Recognition in the Diagnosis of Affective Disorders

PAN Zhang-de1，2，CAI Wei-xiong2，ZHU Jie3，CUI Dong-hong1
（1.Key Laboratory of Translational Psychiatry，Shanghai Mental Health Center，School of Medicine，Shanghai Jiao Tong University，Shanghai 200030，China;2.Institute of Forensic Science，Ministry of Justice，Shanghai 200063，China;3.Department of Electronic Engineering，Shanghai Jiao Tong University，Shanghai 200040，China）

With the development of speech signal analyzing and processing techniques，especially the application of linear prediction in speech processing，speech feature parameters including fundamental frequency，formants and linear prediction coefficient，linear prediction cepstrum coefficient，Mel frequency cepstrum coefficient are confirmed to be closely related to normal emotions(especially depression).Over the past ten years，with the establishment of a series of new speech modeling methods on the basis of modern statistical theory，the emotional speech recognition of normal people has achieved considerable recognition rate.Therefore，some scholars have utilized modern speech recognition technology to explore the feasibility of using speech，the objective physiological behavior，as a biological indicator in the diagnosis of affective disorders. This paper introduces the basic principles and methods of modern language recognition technology，and the research progress of applying speech recognition in the diagnosis of affective disorders.

speech recognition;affective disorders;review［publication type］

DF795.3

10.3969/j.issn.1671-2072.2015.06.015

1671-2072-(2015)06-0085-05

2015-10-02

上海交通大学医工交叉基金重点项目(YG2012ZD04);上海市法医学重点实验室资助项目(14DZ2270800)

潘忠德(1973-)，男，副主任医师，博士研究生，主要从事临床精神病学及法医精神病学研究。

E-mail:390092913@qq.com。

崔东红(1967-)，女，研究员，博士研究生导师，主要从事精神疾病遗传学及医工交叉应用研究。

E-mail:manyucc@126.com。