基于语音音调域动态特征的精神分裂症自动检测算法

2022-09-06孟雨璇邓丽华李元媛

计算机应用与软件 2022年8期

孟雨璇袁尉李雯邓丽华何凌李元媛

1(四川大学电气工程学院四川成都 610065)2(四川大学华西心理卫生中心四川成都 610065)

0 引言

精神分裂症是一种行为、思维、情感和认知等出现异常的脑部精神疾病[1]，至今其发病机制及病因还未有公认的解释，且其发病率高、病程长、治愈率较低[2]，给患者家庭和社会造成严重影响。精神分裂症阴性症状常出现于精神分裂症前驱期[3]，由于症状本身常常表现轻微，较容易被忽略，因此阴性症状的评估是精神分裂症诊断的重点[4]。

精神分裂症阴性症状患者的脑结构异常，大脑功能失调[5]，且脑室结构非特异性变化[6]。同时，其精神功能的减退或缺失导致思维贫乏、意志活动减退、情感淡漠，进而使语言表达的范围和变化程度受到抑制[7]。患者在说话时语音音调变化较小，语调表达受限。因此，语音信号的音调参数可作为精神分裂症阴性症状诊断的客观生物学指标[8]。

研究证实精神分裂症阴性症状的患者存在独特语音音调特征。Leitman等[9]的研究表明，精神分裂症患者的情绪识别能力与低水平音调特征有很强的相关性。Stein[10]对比研究精神分裂症、躁狂症、短暂反应性精神病患者的语音特征，发现精神分裂症患者存在音调范围狭窄等方面的变化。Alpert等[7]的研究表明，情感扁平化的精神分裂症患者在说话时音调变化较小。Francesco等[11]发现音调和共振峰的变化程度降低与阴性症状相关。

目前，基于语音信号声学特征分析的精神分裂症自动检测算法仍处于起步阶段。Püschel等[12]采集45例精神分裂症患者及45例正常人的自由表达语音样本，提取基音频率、平均能量、表达时间长度等6个相关声学参数来区分患者及正常人，正确率达到了85.6%。Chakraborty等[13]对52位患者及26位正常人的语音信号进行研究，提取了基音频率、能量、MFCC等声学特征，结合SVM、随机森林等多个分类器，实现精神分裂症自动检测，正确率达85%。Rapcan等[14]对精神分裂症患者的语音信号进行声学分析，提取音调、能量、时长特征，结合LDA分类器实现精神分裂症自动检测，准确率达到79%。目前，国内外研究对语音声学参数在精神分裂症自动诊断的应用较少，且在精神分裂症患者音调声学参数的研究仅限于基音频率F0及其简单统计参数，还需要不断地深入探讨。

近年来，深度学习被大量应用于语音信号处理领域[15-16]，然而深度学习在病理语音检测领域的应用难以得到迅速发展，这主要由于病理语音数据库获取难度大，使得病理语料库的数据量存在局限[15]。目前部分研究学者将深度神经网络(Deep Neural Networks,DNN)和卷积神经网络(Convolutional Neural Networks,CNN)应用在病理语音自动检测中。Chlasta等[17]从2 568段语音样本(包括720段抑郁症患者语音样本及1 848段正常语音样本)中提取语谱图特征，输入到CNN进行抑郁症自动检测，正确率达77%。López-De-Ipia等[18]采集20个阿尔兹海默病患者和50个正常人的访谈记录(每人录制8～12小时)，从采集到的语音数据中提取情感特征，结合DNN网络进行阿尔兹海默病自动检测，其分类正确率达97%。Warnita等[19]使用Pitt语料库中的6 267段语音样本(其中包括3 276段阿尔兹海默病患者语音和2 991段正常语音)，提取语音时间相关特征，使用CNN自动检测阿尔兹海默病，其正确率达73.6%。Huang等[20]从CPSD数据库的307段自闭症患者语音和1 651段正常人语音中，提取基频、能量等基本特征，结合DNN网络实现自闭症患者语音和正常语音的分类检测，正确率达92.9%。Harar等[21]针对SVD数据库的687位正常人与1 356位病理嗓音患者的语音数据，使用DNN和长短时记忆网络(Long Short-term Memory Networks,LSTM)进行正常和病理嗓音信号分类，正确率为68.08%。深度学习模型需要大量的数据用于训练[15]，目前阿尔兹海默病[22]、抑郁症[23]及病理嗓音[24]等语料库发展成熟，已较为完善，部分研究学者逐渐将深度学习的分类模型应用于该类病理语音的自动检测[25]。而精神分裂症临床样本获取难度大，还未形成较为完善的语料库，无法做到大样本的训练与学习。SVM(Support Vector Machine)是一种典型的适用于二分类问题的分类器[26]，它根据结构风险最小化原则，在保证分类间隔最大的条件下寻找最优分类面[27]。且SVM分类器在小样本条件下具有高识别性能和强泛化能力[28]，目前SVM分类器仍被大量应用于病理语音二分类的识别中[29-31]。

本文基于精神分裂症患者的语音音调特点，通过频率覆盖度量和子带编码模型的基频提取算法，结合语音信号的音调波动曲线及其峰谷值轮廓曲线，提出FDS-set、EVR、PVPD、TFF音调域动态特征，结合SVM分类器，实现精神分裂症患者语音和正常人语音的自动分类检测。本文提出的基于语音音调域动态特征的精神分裂症自动检测算法，为临床医生提供客观的辅助诊断方法，具有重要的医学临床意义。

1 算法简介

目前已有临床研究表明，精神分裂症阴性症状患者脑结构异常，导致思维涣散、情感表达淡漠且扁平化[32]。患者交流时话语表达钝化，语音音调受到局限，具有平缓的语音音调特征[33]，即音调单一、音域范围狭窄且音调变化较小[34]。语音音调的声学分析能够为精神分裂症数字化辅助诊断提供客观依据[14]。汉语是一种有调语言，音调是其重要语音特征，研究[35]表明汉语普通话的音调主要体现在基音频率曲线上。本实验基于精神分裂症患者的语音音调特征，提出音调域动态特征，实现基于语音信号分析的精神分裂症自动检测。

如图1所示，本文提出的基于语音音调域动态特征的精神分裂症自动检测算法，由三个主要算法模块组成。首先，基于频率覆盖度量和子带编码模型进行语音基音频率提取，即对分帧后的语音信号进行子带分解，再用子带编码模型对子带信号进行处理，并根据其归一化自相关函数计算基音频率；其次，基于每个语音音调波动曲线的一阶、二阶差分序列，提出FDS-set、EVR、PVPD、TFF音调域声学动态特征参数；最后，根据本实验计算所得的音调域动态特征集，结合SVM分类器对精神分裂症患者与正常对照组的语音进行自动分类识别。

图1 基于语音音调域动态特征的精神分裂症自动检测算法流程

1.1 基于频率覆盖度量和子带编码模型的基频提取算法

精神分裂症阴性患者思维断裂、话语可变性小、情感的表达受到削弱，导致其语音具有扁平的音调特点，即患者交流时缺乏音调多变性且音域狭窄[10]。基音频率是人发浊音时声带振动的频率[36]，是有调语音汉语的重要特征参数，基频随时间变化的曲线反映音调变化情况。

目前语音基频提取的研究集中于时域及频域方法。其中时域方法基于语音信号的时域波形，计算自相关函数、互相关函数或平均幅度差函数等，将其波形峰谷值对应的时延作为基音周期估计值[37-39]。而频域方法基于语音频谱的谐波结构，并且根据其对应的特征来提取基频，比如谐波乘积频谱[40]、次谐波求和[41]、基于小波的瞬时频率[42]或次谐波与谐波比[43]等。然而，大多数现有方法可以在绝对安静的环境中完成可靠的基频提取，但一些噪声扰动会破坏时域信号的周期模式或信号频谱的谐波结构，从而显著降低性能[44]。

本实验使用文献[45]中提出的基于频率覆盖度量和子带编码模型的基音频率提取算法。该算法能够数字化地划分各子带频率及子带数目，其中基于子带编码模型得到的自相关系数具有明显的峰值，使得基音频率提取的精度提高，该算法鲁棒性好、抗噪性能强，有利于本实验中语音数据的基频提取，对精神分裂症患者语音音调波动特征的进一步分析。该算法具体步骤是首先基于频率覆盖度量法则选择滤波器参数，对每帧语音进行子带分解，再对各子带语音数据进行编码，并计算编码后子带的归一化自相关函数，最终由各子带自相关函数波形得出基音频率。

1.1.1基于频率覆盖度量的子带分解算法

本实验使用Gammatone听觉滤波器组将语音数据分解为不同的子带信号，其中滤波器数目以及子带滤波器中心频率的参数选择决定语音信号分解产生的子带数目及子带波形，影响后续基音频率的提取范围[45]。目前基频提取的研究中使用各种频率尺度来分解语音信号，包括对数、Bark、ERB(Equivalent Rectangular Bandwidth)尺度，这些方法没有明确数学公式的经验性选择。本实验滤波器组参数的选取使用频率覆盖度量法则[45]，能够数字化地计算任一采样频率下对应的滤波器数目及中心频率。

(1)

(2)

式中：γ-1(·)为ERBS的逆变换函数；[fmin,fmax]表示基音频率范围。根据子带滤波器中心频率及带宽提出频率覆盖度量的定义，其数学公式如下：

(3)

图2 Gammatone滤波器响应曲线

子带数量Nb可从式(1)-式(3)中推导如式(4)所示，可知频率覆盖度量为计算给定频率范围内的子带数量提供了一种数字化方式。

(4)

1.1.2子带编码模型

(5)

(6)

该编码模型基于听觉感受器毛细胞突触间隙的指数衰减的心理声学研究提出[44,47]，同时模型的对称性避免了后续步骤中自相关运算的偏差[48]。

1.1.3基频提取

对编码后的每帧子带信号进行自相关处理，式(7)为第j帧的编码子带b信号的归一化自相关系数(Normalized Auto-correlation Coefficients,NAC)。

(7)

dmin=fs/F0max

(8)

dmax=fs/F0min

(9)

(a) 子带信号x(b)、半波整流后子带信号及编码后子带信号xe (b) 对(a)中各信号计算归一化自相关函数图3 经过不同处理后的子带信号及其归一化自相关函数

1.2 音调域动态特征参数提取算法

精神分裂症患者由于脑结构异常导致思维钝化、涣散，情感较为平缓，语言表达受限，使得患者在讲话时音调受到抑制，音调扰动的幅度和频率小且变换缓慢[49]。本文基于精神分裂症患者语音音调特点及音调波动曲线，提出音调域动态声学特征参数提取算法，包括FDS-set、EVR、PVPD和TFF特征。音调域动态声学特征参数能够描述音调波动曲线的变化情况，反映受试者语音音域范围及音调波动程度。

1.2.1基频数字统计特征集FDS-set

精神分裂症患者具有扁平音调的语音特点，本文根据基频序列提取FDS-set，该特征集能够反映基频曲线的分布情况，提取音调波动曲线的变化情况及波动范围。

(10)

式中：N表示基频序列总个数。

(2) 基频中位数F0median：该统计特征提取基频数据的代表值，反映音调的中间水平，且该参数不受极端数值影响，其计算公式如下：

(11)

式中：F0′表示F0按大小排序后的序列。

(3) 基频众数F0mode：该统计特征为基频序列中出现概率最大的数据，是音调数据统计分布上具有明显集中趋势点的数值，反映语音音调中最普遍出现的标志音调值。

(4) 基频方差δ(F0)：该统计特征度量基频与其数学期望之间的偏离程度，反映语音音调的离散程度及波动状况，其计算公式如下：

(12)

(5) 基频峰度G(F0)：该统计特征反映数据分布曲线的峰的尖度，度量数据分布的陡峭程度。G(F0)值越大说明数据越集中，尖顶峰度形态越明显，反映音调分布更陡峭，其计算公式如下：

(13)

式中：μ4为四阶中心距；σ为标准差。

(6) 基频偏度γ(F0)：该统计特征度量基频数据分布的偏斜程度和方向。|γ(F0)|越大表示数据分布的偏斜程度越大，反映被测者音调的偏斜及变化更大。其计算公式如下：

(14)

式中：μ3是三阶中心距。

(15)

1.2.2EVR特征提取算法

精神分裂症阴性症状患者沟通存在障碍，讲话时消极的思维情感导致语音音调受到抑制，音域范围狭窄，削弱了音调的表达[50]。语音音调范围即音域[51]，反映了说话人在说话过程中的音调及情感的起伏程度。基于精神分裂症患者的音域狭窄特征，本文提出EVR特征提取算法，其算法过程如下。

基于频率覆盖度量和子带编码模型对语音数据进行基频提取，得到音调波动曲线F0如图4所示。

图4 基于频率覆盖度量和子带编码模型的音调波动曲线F0

将语音段基于频率覆盖度量和子带编码模型得到的F0曲线作升序变换，得到升序变换曲线F0sort，并对升序变换后的序列F0sort提取其上下十分位数。图5为升序变换序列F0sort，其中虚线标记其上下十分位数。

图5 音调波动曲线F0的升序变换序列F0sort

根据所求音调曲线的升序变换序列，以及其上下十分位数间的距离，提出EVR特征参数，其计算公式如下：

(16)

式中：fn为帧数；F0为一段语音数据的音调波动序列；sort{·}为升序变换函数。

EVR参数反映了音调波动曲线中80%的数据离散程度，表征受试者音域特征，其数值越小说明基频越集中音域越狭窄，使精神分裂症患者音域狭窄的特点在EVR参数的比较中得以凸显。EVR参数与基频极差(最大值与最小值之间的差)相比，排除了基频数据上下10%的干扰突变点对计算音调分布区域的影响，能够更稳健地反映语音段的音调分布范围，表征音域特征。

1.2.3PVPD特征提取算法

研究发现具有情感扁平化的精神分裂症患者在交流时多使用单一音调，且患者的情感钝化使得其在交谈时音调变化程度小，音调扰动被削弱[11]。基于以上特点，本文提出PVPD特征参数提取算法，其算法过程如下。

首先，根据频率覆盖度量和子带编码模型提取语音音调波动曲线F0，求出F0曲线上连续的零交叉点。并在零交叉点集合中提取音调局部峰值及音调局部谷值的延迟量kn、km，其计算公式如下：

(17)

(18)

式中：kn-、kn+表示F0(k)的连续零交叉点。

其次，根据音调局部峰谷值的延迟量kn、km，结合冲激函数与音调波动曲线F0，得出音调峰谷值轮廓F0up、F0down，其计算公式如下：

(19)

(20)

式中：K1{kn|n=0,1,…}，K2{km|m=0,1,…}；δ(·)表示冲激函数。图6为音调波动曲线F0，其中点划线及虚线分别表示音调峰值轮廓F0up、音调谷值轮廓F0down。

图6 音调波动曲线F0及音调峰谷值轮廓F0up、F0down

最后根据音调波动的峰谷值轮廓曲线F0up、F0down，计算两曲线与基频均值F0mean的距离，如图7中虚线所示。PVPD特征即为所求距离的均值，其计算公式如下：

(21)

图7 音调峰谷值轮廓F0up、F0down及其与均值的间距

PVPD特征针对精神分裂症阴性症状患者的音调特征，提取基频波动的音调局部峰值曲线及音调局部谷值曲线，度量音调整体波动范围与基频标准值间距，定量化表征音调曲线变化的幅度及范围，突出精神分裂症患者的语音音调变化小的特征，使得自动分类时与正常人音调特征得以区分。

1.2.4TFF特征提取算法

精神分裂症阴性症状患者情感淡漠思维不连贯、涣散，声音的表达存在异常，即缺乏语调变化，音调的可变性较小[14]。基于精神分裂症患者的语音存在音调波动小的特点，本文提出TFF特征参数提取算法，其算法过程如下。

首先，基于频率覆盖度量和子带编码模型提取一段语音数据的音调波动曲线F0，并对语音F0曲线提取音调局部峰值轮廓F0up。图8实线表示语音音调波动曲线F0，虚线表示局部峰值轮廓曲线F0up。

图8 音调波动曲线F0及音调峰值轮廓F0up

根据语音音调峰值轮廓曲线F0up的差分序列，计算F0up曲线的连续零交叉点，得到F0up局部峰值的延迟量，其数学公式如下：

(22)

式中：kl-、kl+是F0up(k)的连续零交叉点。图9中加粗标记部分为音调峰值轮廓F0up(k)的上升部分，其中每条加粗线段末端即为所求变化点k1处。

图9 音调峰值轮廓线F0up的上升及下降部分

最后计算音调峰值轮廓F0up(k)的变化点出现次数，再根据语音段样点数得出单位时间内变化点出现的次数，即为TFF特征，其计算公式如下：

(23)

式中：kl为音调峰值轮廓峰值的延迟量。

TFF特征参数是单位时间内语音段音调波动的峰值轮廓曲线的变化次数，该特征基于精神分裂症阴性症状患者语音音调变化少的特征，定量化地表征音调曲线的变化频率，反映受试者交流过程中语音音调的波动程度。

1.3 SVM分类器

本文中的数据样本有两类：正常对照组语音和精神分裂症患者组语音。SVM是一种适用于二分类问题且具有良好鲁棒性的分类器，它通过在特征空间中寻找最优超平面，使得样本分割在平面两侧且两类样本间隔最大化。SVM分类器在进行模型训练时，会不断根据输入的特征参数进行超平面的调整，因此SVM分类器在二分类识别中对样本具有很好的鲁棒性，适用于本实验中基于语音音调域动态声学特征参数，对精神分裂症患者与正常人的自动分类检测。

2 实验结果与分析

2.1 实验数据

本文测试语音数据来自于四川大学华西心理卫生中心精神科，由28位精神分裂症患者(18女10男)和28位正常人(18女10男)参与录制，共448条语音数据。本文采集的语音样本的采样率为44 100 Hz，采样精度为16 bit。语音信号在分帧处理时选取的帧长为25 ms，帧移为10 ms。

2.2 本文算法的实验结果及分析

精神分裂症患者思维涣散及情感扁平化，多表现为说话时音调表达受限，语音音调单一、音域狭窄、音调变化小且缓慢。本文提出的基于语音音调域动态特征的精神分裂症自动检测算法，对语音样本提取了基音频率序列F0，再根据F0及音调局部峰谷值曲线提取FDS-set、EVR、PVPD、TFF特征参数。最后，将音调域动态声学特征参数集结合SVM分类器，对采集到的实验语音数据集采用留一交叉验证(leave-one-out cross-validation)，实现精神分裂症患者语音与正常语音的自动分类检测。

实验使用识别正确率、MR(Miss Rate)、FAR(False Alarm Rate)、AUC(Area Under Curve)参数来评估精神分裂症自动检测系统性能。其中MR(%)为未命中率，表示被算法误识别为正常语音的精神分裂语音占所有精神分裂语音的比例，FAR(%)为误报率，表示被算法误检测为精神分裂语音的正常语音占所有正常语音样本的比例，AUC为ROC曲线(receiver operating characteristic curve)下的面积，是衡量分类器优劣的一种评价指标。表1为本文提出的基于语音音调域动态特征的精神分裂症自动检测算法的检测结果。

表1 基于语音音调域动态特征的精神分裂症自动检测算法实验结果

可以看出，本文提出的音调域动态特征在精神分裂语音自动分类检测的正确率较高。其中，EVR、PVPD、TFF特征在精神分裂症患者语音分类识别的正确率比FDS-set的识别正确率高。本实验将参数合并后的正确率比应用单个特征时的正确率稍有提高，这是由于每个参数都分别表示了语音音调的不同特征，合并参数后能够更完整、显著地体现精神分裂症患者的语音音调特征。

(d) δ(F0)2 (e) G(F0) (f) γ(F0)图10 正常语音与精神分裂语音的FDS-set各参数

图11为正常语音与精神分裂症患者语音的EVR参数值箱型图。可以看出，患者语音EVR特征值整体上低于正常语音EVR特征值，表明相较于正常人语音音域，精神分裂症患者的语音音域范围小，反映了精神分裂症患者语音音域狭窄且音调单一的特点。由于EVR参数稳健地反映受试者讲话时音调的波动范围，与语音音域概念相符，能够表征精神分裂症患者语音音域狭窄的特点，适用于精神分裂症自动检测。

图11 正常语音与精神分裂语音的EVR值

图12为正常人与精神分裂症患者语音的PVPD参数值箱型图。可以看出，相比于正常人的PVPD值，精神分裂症患者PVPD值在整体上较小，分布范围较窄，表明音调曲线的波动较小，曲线偏离均值的程度较小，反映了精神分裂症阴性症状患者在说话时音调变化少且单一的特点。由于PVPD特征为音调峰谷值轮廓与基频均值间的距离，反映音调曲线的波动程度，进一步表明精神分裂症患者在说话时音调变化少的特点。

图12 正常与精神分裂语音的PVPD值

图13为正常语音与精神分裂患者语音的TFF值箱型图，可以看出精神分裂症患者语音的TFF特征值小于正常语音TFF特征值。TFF特征值越小表明一段语音内音调轮廓曲线变化频率越低，反映出相较于正常人，精神分裂症患者音调变化少。由于TFF特征是单位时间内语音音调曲线的变化次数，反映音调曲线的变化频率，能显著地体现精神分裂症患者语音音调单一平淡、变化小的特点。

图13 正常语音与精神分裂语音的TFF值

2. 3 本文使用的SVM分类器与多种深度学习分类算法的对比实验结果及分析

近年来深度学习分类算法逐渐应用于病理语音自动检测领域，由于病理语音数据库样本获取难度的限制，其应用发展较缓[52]。本实验将本文使用的SVM分类器与DNN、LSTM、CNN多种深度学习分类模型进行了对比实验。其中，SVM、DNN、LSTM分类模型以本文提出的音调域动态声学特征参数集作为输入，CNN分类模型以原始语音数据的语谱图作为输入，实现精神分裂症语音的自动检测，其对比实验的结果如表2所示。

表2 不同分类算法在精神分裂症自动检测的对比实验结果

可以看出，使用SVM进行精神分裂症患者语音与正常语音分类的正确率为88.39%，使用LSTM、DNN、CNN的分类正确率在81.82%～86.16%。由于精神分裂症语音数据采集的难度限制，精神分裂症患者语音的临床样本较少，尚未有成熟的精神分裂症患者语料库，无法做大样本的训练与学习，而深度学习在大样本数据集上具有较高的识别精度[53]，在数据集有限的情况下容易过度拟合，影响检测效果[54]。SVM分类器适用于二分类问题，在特征空间中寻找最优分类面，使两类样本的分类间隔最大。且SVM分类器计算简单，在解决小样本的实际问题中具有良好的鲁棒性和强泛化能力[55]，SVM分类器更适用于小样本问题，在本实验中精神分裂症自动检测的正确率高于其余分类模型。

2.4 本文算法与国内外现有技术的对比实验结果及分析

语音声学分析在精神分裂症自动检测的应用仍处于起步阶段。目前国内外研究采用基频LLD(low-level descriptors)、短时能量、共振峰及MFCC特征应用于精神分裂症的自动诊断。为了验证算法的有效性，实验将本文提出的音调域动态特征与国内外现有技术中提出的语音特征进行了对比实验，其测试结果如表3所示。

表3 本文算法与国内外现有技术的对比实验结果

可以看出，本文算法的检测正确率为88.39%，国内外现有技术检测正确率的范围为64.29%～77.68%。基频LLD为基频及其差分的最大值、最小值、最大值及最小值的延迟量、均值、极差、标准差、峰度、偏度、四分位数的集合，而基频的均值、最大最小值等参数与个体差异(年龄、性别等)有关，难以表征精神分裂症患者的音调特点。共振峰参数能够在识别汉语声调时起到一定的作用，但单独依靠共振峰识别汉语声调的识别率较低[57]，所以共振峰参数并不能显著地反映汉语精神分裂症患者的语音音调特点。MFCC参数与语音情感相关，在一定程度上能够反映说话人情感表达[58]，但由于MFCC难以全面描述精神分裂症阴性症状患者的情感特点，所以识别率较低。短时能量能反映语音信号能量的变化和能量分布情况[59]，但是因为短时能量是一个存在个体差异的参数，与人的性别、年龄等因素有关，这些不可控因素会影响精神分裂症语音的检测结果。

本文基于精神分裂症患者发音过程及声学特性，提出基于语音音调域动态特征的精神分裂症自动检测算法。本文通过对每一段语音数据计算音调波动曲线，并对该曲线提取FDS-set、EVR、PVPD、TFF音调域动态声学特征参数，突出体现语音信号的音调波动情况，反映精神分裂语音与正常语音在音调特征表达的区别。

3 结语

为了提供精神分裂症阴性症状临床诊断的客观生物学指标，实现精神分裂症自动分类检测，本文通过计算语音信号的音调波动曲线，提取语音的FDS-set、EVR、PVPD、TFF音调域动态声学特征参数，这些特征突出了精神分裂症语音与正常语音在音调特征分布上的差异。实验从精神分裂症语音与正常语音在音调上的差异出发，提取音调域动态声学特征参数，并结合SVM分类器，实现了精神分裂症语音的自动检测。实验进一步讨论了音调的FDS-set、EVR、PVPD、TFF特征参数分别对分类结果的影响，以及国内外现有技术提出的多种语音特征对精神分裂症语音的自动分类检测的效果。实验结果表明，音调域动态声学特征参数在精神分裂症自动检测的正确率为88.39%，对精神分裂症的临床辅助诊断具有一定的应用价值。