APP下载

基于语音停顿度和平坦度的注意缺陷与多动障碍自动检测算法

2022-09-25李国中崔娅俄木依欣何凌李元媛熊熙

计算机应用 2022年9期
关键词:自动检测正确率频率

李国中,崔娅,俄木依欣,何凌,李元媛,熊熙

(1.四川大学电气工程学院,成都 610065;2.四川大学华西医院心理卫生中心,成都 610065;3.成都信息工程大学网络空间安全学院,成都 610225)

0 引言

注意缺陷与多动障碍(Attention Deficit/Hyperactivity Disorder,ADHD)简称多动症,是一种神经发育问题,在儿童和青少年时期最为常见。研究[1-2]表明,国际上的平均患病率估计为7.2%,我国儿童和青少年ADHD 总体患病率达到6.26%。在成长过程中,ADHD 患儿可能会有多种共患病问题,如人格障碍、孤独症谱系障碍、焦虑障碍、双相情感障碍等[3],面临各种人格发展不正常的风险[4],对自己和社会都有伤害[5-6]。

目前,ADHD 检测主要依靠临床医生通过临床访谈、行为及功能评估进行综合诊断,该诊断方式需要依靠相应的评定量表。临床上应用最多的评定量表有Conner 评定量表(父母症状问卷(Parent Symptom Questionnaire,PSQ)、教师评定量 表(Teacher Rating Scale,TRS))、Swanson,Nolan and Pelham Rating Scale(SNAP)评定量表(SNAP-Ⅲ-R、SNAP-Ⅳ)和精神障碍诊断与统计手册(Diagnostic and Statistical Manual of Mental Disorders,DSM)评定量表(DSM-Ⅲ-R、DSM-Ⅳ)[7]等,国内ADHD 常用评定量表种类有限,经过心理测量学分析的量表少,评估共患疾病和功能损害的量表稀缺[8],且这种诊断方式几乎全部依赖于医生的评估,受主观影响大,缺乏客观的评判指标,而首次评估需0.5~2 h 不等,诊断的耗时长、效率低。全球均存在儿童精神专业医生从业人数严重不足和分布集中在发达城市的状况,需要智能的辅助诊断方法,提高医生的工作效率。

目前有基于脑部信息、身体动作及眼球运动的ADHD 辅助诊断方法。

基于脑部信息的ADHD 辅助诊断 ADHD 患者大脑额叶区、基底节等部位结构异常,脑电图显示ADHD 患者θ 或σ慢波增强,慢波增强可能与神经代谢缓慢或大脑的延迟发育有关,Khaleghi 等[9]通过比较五种特征在ADHD 诊断中的功效,证实了脑电非线性分析是检测ADHD 患者脑电活动异常的良好定量工具,Tang 等[10]使用大脑功能连接作为ADHD 特征分析的材料,基于能量的比较诊断ADHD 患者。

基于身体动作的ADHD 辅助诊断 ADHD 患者多动是其主要症状,Munoz-Organero 等[11]基于腕关节和踝关节加速度信号用递归神经网络比较ADHD 患儿和正常儿童的运动模式,结果显示ADHD 患儿与正常儿童的运动模式显示出较大差异,Nakatani 等[12]使用视频成像研究患有和不患有ADHD 的儿童睡眠期间的身体运动,发现两者身体运动存在差异,研究表明可以使用视频图像处理诊断患有多动症的儿童。

基于眼球运动的ADHD 辅助诊断 注意力不集中是ADHD 患者的主要临床症状,眼球会随注意力的改变而相应运动,Levantini 等[13]通过眼睛跟踪方法证明ADHD 患者花更多的时间注视不相关的感兴趣区域,眼动跟踪为临床医生识别特定的生物标志提供了潜在的有效支持;Jayawardena等[14]利用实时高级眼动分析管道(Real-time Advanced Eye Movements Analysis Pipeline,RAEMAP)实时提供计算出的眼睛凝视度量、热图来诊断ADHD,证明了其有效性。

基于脑部信息差异、身体动作和眼睛动作的方法,能辅助医生诊断ADHD 患者,但数据采集时需要专业人员使用专业设备,设备操作难度高且耗时多,相对而言语音数据采集时设备简单易操作且所需时间少。

研究表明,精神类疾病的病理学指标与语音参数密切关联,语音参数可以作为客观有效的临床评估指标[15],语音作为有效的生物学指标,为抑郁症、精神分裂症、双相情感障碍等精神类疾病的自动诊断提供了重要依据[16],ADHD 患者语言表达执行功能存在缺陷[17],语音回路损伤,语音可作为ADHD 识别的有效生物学指标。ADHD 患儿在转化任务中右侧下额叶的功能显著受损,以及左侧基底节和扣带回的特异性功能异常[18],任务转换时有停滞现象,朗读文章时字句转换之间出现长时间的停顿;持久性任务中ADHD 患儿注意力缺乏持久性[19],容易受外界或自己干扰而分心,读文章时因分心会打断自己阅读过程,出现异于正常儿童的停顿;语言内化过程中ADHD 患儿语言内化的执行功能缺损[20],还会伴随着发育性语言障碍,将脑中文字转换成语音说出过程受到抑制,故说话时语音频率变化与正常儿童存在差异。

本文基于ADHD 患儿语音停顿异常和频率变化异常特点,提取语音停顿度表征语音停顿异常;提取倍频率平坦度特表征语音频率变化异常,结合支持向量机(Support Vector Machine,SVM)分类器实现ADHD 的自动检测。本文提出的基于语音停顿度和音调平坦度的ADHD 自动检测算法,为临床医生提供客观的辅助诊断方法。

1 本文算法

ADHD 的核心症状包括注意缺陷、活动过多,与行为冲动。ADHD 的3 个核心症状中活动过多和行冲动两种症状会随着患儿成长而减弱甚至消失,但约30%的ADHD 患儿到成年后注意缺陷症状也依然存在[21],注意缺陷症状的长期监测与辅助监测具有重要临床意义。注意缺陷症状在临床上的主要表现为注意力不集中和语言内化功能缺损:注意力不集中表现为难以集中精力在阅读文本上,朗读时出现停顿异常;语言内化功能缺损表现为脑中文字转化语音过程受损,语音上表现出语音频率异常。

本文基于ADHD 患儿语音停顿和音调异常的临床特征表现,提出语音停顿度和音调平坦度特征参数,结合分类器,实现基于语音的ADHD 自动检测,其算法流程如图1 所示。该算法由三部分组成:首先,提出频带差能熵积(Frequency band Difference Energy Entropy Product,FDEEP)参数,实现有话区间的自动定位,并提取停顿度声学特征;然后,提出变换平均幅度平方差(Transform Average Amplitude Squared Difference,TAASD)参数,计算语音信号倍频率,并提取平坦度声学特征;最后,将提取的停顿度特征与平坦度特征参数融合,结合SVM 分类器,实现基于语音的ADHD 自动检测。

图1 基于语音停顿度和倍频率平坦度的注意缺陷与多动障碍自动识别算法流程Fig.1 Flowchart of automatic recognition algorithm for attention deficit/hyperactivity disorder based on speech pause and multi-frequency flatness

1.1 基于频带差能熵积参数的停顿度声学特征提取

注意力不集中是ADHD 注意缺陷症状的主要临床特征之一。ADHD 患儿不仅容易因为外界环境而分心,也会因为自己内心的想法而分心[22],语音上表现出停顿时间长和停顿次数多的特点。本文基于此临床声学特征,提出基于语音频带差能熵积FDEEP 参数的停顿度声学特征提取,其算法流程如图2 所示。

图2 基于语音FDEEP参数的停顿度声学特征提取算法流程Fig.2 Flowchart of acoustic pause feature extraction algorithm based on speech FDEEP parameter

1.1.1 基于频带差能熵积参数FDEEP 的有话区间自动定位算法

频谱域中语音有话区间能量数值大,能量随频带起伏变化大;无话区间能量数值小,能量在频带内均匀分布。最大离散熵定量表明,当熵函数等概分布时,熵达到极大值,无话区间归一化谱概率密度函数分布均匀,故其谱熵值大;有话区间频谱具有共振峰特性,归一化普概率密度函数分布不均匀,其谱熵值小于无话区间。频带幅值标准差参数反映能量随频带变化的起伏程度;子带能熵比表示有话区间和无话区间能量和谱熵比值的差异,结合频带幅值标准差和子带能熵比,本文提出频带差能熵积特征参数,再结合双门限阈值法,实现语音有话区间的自动定位。

1)频带幅值标准差参数提取。

设语音时域信号为x(n),加窗分帧处理后的第i帧语音信号为xi(n),离散傅里叶变换后得其频谱为:

式中:0 ≤k≤N-1,N为分帧后帧长。

频谱幅值的均值Ei为:

得到第i帧语音信号xi(n)频带幅值标准差σi为:

2)子带能熵比参数提取。

频谱域中第i帧语音信号为Xi(k),其能量为:

正频率部分归一化谱概率密度函数为:

式中:N为帧长,k=0,1,…,N/2。

每帧信号正频率部分谱熵为:

子带化思想是将一帧信号分成若干个子带,这样能消除每一条谱线幅值受噪声的影响。设每帧信号分割成q个子带,每个子带有p条谱线,第i帧信号中第m个子带的能量为:

子带能量的归一化谱概密度函数为:

式中:K取正实数,引入K后语音信号和噪声信号区分度能得以提高。

由子带能量的概率密度计算得到子带谱熵:

由式(7)和式(9)计算得到子带能熵比:

3)FDEEP 参数提取。

频带幅值标准差表征有话区间和无话区间能量随频带变化差异;子带能熵比表征有话区间和无话区间能量与谱熵比值的差异。频带差能熵积参数是频带标准差与子带能熵比的乘积,计算如式(11)所示:

频带能熵积参数结合频带幅值变化和能熵比在有话区间和无话区间的特征,进一步增加有话区间能量随频带变化程度和扩大有话区间与无话区间能量与谱熵比值的差异性,准确定位语音有话区间。

4)基于FDEEP 参数与自适应双门限阈值法的语音有话区间自动定位。

先计算滤波平滑处理后FDEEP 参数的均值Mse和前导无话帧均值Ase:

式中NIS为前导无话帧数。

再设置自适应动态阈值,其计算公式如下:

式中:α、β均为正实数且α>β。

自适应阈值T1和T2由每段语音的FDEEP 参数求出,具有自适应能力,能提高有话区间提取鲁棒性。

最后使用双门限法实现有话区间自动定位,当FDEEP参数值大于阈值T1为有话区间,在FDEEP 参数与阈值T1交点处向左、右寻找至FDEEP 参数与阈值T2交点处,确定有话区间起始位置,即可自动定位有话区间。

1.1.2 停顿度声学特征提取算法

本文提取停顿度特征参数集表征ADHD 患儿注意力不集中的临床症状。该特征参数集包括最大停顿时长、平均停顿时长和停顿时间占比。

1)最大停顿时长:ADHD 患儿在认知转换任务中左侧额下回、双侧前脑岛、壳核和苍白球的激活降低[23],ADHD 患儿往往会在一个任务上停留一段时间,无法转移到下一个任务,出现较长时间的停顿,提取最大停顿时长表示该特点。

最大停顿时长是所有停顿时长的最大值,计算公式如下:

式中:Ts1,Ts2,…,Tsn是语音中n个检停顿区间的时长。

2)平均停顿时长:ADHD 患儿注意缺乏持久性容易分心,出现多次停顿,提取平均停顿时长表示该特征。

平均停顿时长为总停顿时间Tstop与语音停顿区间个数n的比值,计算公式如下:

3)停顿时间占比:ADHD 患儿停顿时间长和停顿次数多,语音停顿时间与语音总时间的比值与正常儿童存在差异,提取停顿时间占比表示该差异性。

停顿时间占比为语音总停顿时间与语音总时长的比值,如式(19)所示:

式中Ttotal为语音时长。

4)停顿度声学特征参数集:

1.2 基于TAASD参数的倍频率平坦度声学特征提取算法

语言内化功能缺损是ADHD 注意缺陷症状主要临床特征之一,ADHD 患儿伴随着发育性语言障碍[24],其语音频率变化异常。本文基于此临床特征,提出基于语音TAASD 参数的倍频率平坦度声学特征提取算法,其流程如图3 所示。

图3 基于语音TAASD参数的平坦度声学特征提取算法流程Fig.3 Flowchart of acoustic flatness feature extraction algorithm based on speech TAASD parameters

1.2.1 语音信号倍频率参数提取算法

ADHD 患儿语音加工技能受损[25],语音基音频率变化速率弱于正常儿童,本文提出语音信号倍频率参数,表征ADHD 患儿此临床特征。

时域语音信号x(n)加窗分帧处理后第i帧语音信号是xi(n),帧长为N,其平均幅度平方差函数计算公式为:

式中k=0,1,…,N-1。

对平均幅度平方差参数做线性变换得到变换平均幅度平方差参数TAASD,变换公式如下:

式中:AASDi,max和ni,max是平均幅度平方差参数的最大值和最大值所对应位置样点值。

寻找滤波平滑处理后的TAASD 参数极大值点位置,即可确定语音信号倍频率,如图4 所示是某男性ADHD 患儿和某男性正常对照儿童的语音信号倍频率示意图。

图4 ADHD患儿与正常对照组的语音信号倍频率Fig.4 Speech signal multi-frequency of ADHD patient and normal control

时域语音信号波形在时间轴上下波动呈一定的周期变化,TAASD 参数取语音信号加延迟量平方与语音信号平方差计算语音信号倍频率,信号平方后幅值均为正,信号波形在时间轴上方变化,故信号周期减小,频率与周期成反比,则信号频率增大,ADHD 患儿语音加工过程抑制,其频率变化与正常儿童间存在差异,倍频率参数可实现语音信号频率变化检测,可由图4 可以看出,ADHD 患儿语音倍频率变化波动弱于正常对照组儿童,故倍频率参数可实现ADHD 患儿和正常对照组儿童区分。

1.2.2 提出的平坦度声学特征提取算法

本文提取平坦度特征参数集表征ADHD 患儿语言内化功能缺损的临床症状。ADHD 患儿语音信号倍频率值的平均高度和峰值处平均变化率都低于正常儿童,平坦度参数反映语音信号倍频率起伏变化,该特征参数集包括倍频率标准差、倍频率离散系数和倍频率峰度。

1)语音倍频率标准差。该特征表示语音信号倍频率参数的起伏程度,计算公式为:

式中:n为语音总帧数,Fˉ0为语音倍频率参数均值。

2)语音倍频率离散系数。该特征表示语音信号倍频率参数的离散程度,其计算公式为:

3)语音倍频率峰度。该特征反映语音信号倍频率参数分布曲线的峰尖度,度量倍频率参数分布的陡峭程度,其计算公式为:

4)平坦度声学特征参数集:

1.3 SVM分类器

基于音语音信号分析的ADHD 患儿和正常对照组检测问题,是典型的二分类问题。支持向量机处理二分类问题时,在特征空间中不断改变超平面的位置,直到某个超平面使两个类别间有最大间隔,实现两类样本的分离,具有良好的鲁棒性,故本文使用SVM 分类器来实现ADHD 患儿与正常对照组的识别。

2 实验结果与分析

2.1 实验数据

本实验病理语音数据来自四川大学华西心理卫生中心,华西生理卫生中心具有权威的ADHD 诊断治疗专家,对ADHD 患者的治疗在我国西南地区处于领先地位。本文共采集54 位儿童语音样本,每人3 段不同的语音,采样频率为44 100 Hz。采集语音时受试者均在安静无外部干扰的环境中,且所有采集语音数据的儿童年龄在6~10 岁,无任何躯体疾病,智力正常。

54 位儿童中有17 位正常儿童和37 位确诊为ADHD 的患儿,37 位确诊ADHD 患儿中包含21 位服用多动症药物进行治疗和16 位未开始服用多动症药物的儿童。所有ADHD 患儿的诊断均是根据国际通用的DSM-V 精神疾病诊断标准,结合患者病史、躯体和神经检查、精神检查、辅助检查给予诊断。

为探究本文提取语音停顿度和倍频率平坦度特征在识别不同儿童中的作用,将收集的54 位儿童语音样本分为4 个子数据集,每个子数据集具体数据如表1 所示,其中NM 为正常对照组、NADHD 为未接受药物治疗的ADHD 患儿、RADHD 为接受药物治疗的ADHD 患儿。

表1 ADHD患者与正常对照组的语音样本子数据集Tab.1 Speech sample sub datasets of ADHD patients and normal controls

2.2 基于语音停顿度与倍频率平坦度的ADHD 自动识别结果与分析

ADHD 患儿的核心症状之一是注意缺陷,执行功能研究发现ADHD 患儿任务转换能力、抑制功能等异常[26],其中任务转换功能异常是ADHD 患儿在文字间转换有卡顿情况,进而阅读时语音出现异常的停顿,提取语音停顿度表征语音异常停顿;抑制功能异常指ADHD 患儿脑中文字表达过程受到抑制作用,故其说话时语音频率变化异于正常儿童,提取倍频率平坦度表征语音频率变化异常。两个特征结合表示ADHD 患儿的注意缺陷症状,实现ADHD 患儿与正常对照组儿童区分。

本文将提取的语音停顿度和倍频率平坦度特征,融合输入SVM 分类器,实现ADHD 的自动检测。SVM 分类器基于结构风险最小化的原理,理论基础完善,可以在较高维度的空间中构造最优分割超平面,使两类样本的分类误差最小,且小样本下SVM 分类器具有泛化能力强和识别性能高的优势,被广泛地应用于病理语音的二分类识别中[27-29]。本实验样本数量属于小样本的范畴,故本文使用SVM 分类器实现ADHD 的自动检测。实验中还采用交叉验证法寻找高斯核函数的最佳参数,保证分类模型的稳定和实验结果的准确。在4 个子数据集上实现不同类别儿童的自动识别,实验检测结果均是与临床医生诊断的金标准对比。基于语音信号处理技术检测精神疾病时,检测结果均是在临床医生诊断的金标准下验证[30-38],在医学与工程结合的领域中,常采用与医生注释结果对比对算法进行评价,因此本文与华西心理卫生专业医生的金标准进行对比,使用正确率、特异性和灵敏度参数评估自动检测算法的性能,具体识别结果如表2 所示。

表2 本文算法的ADHD自动检测结果 单位:%Tab.2 ADHD automatic detection results of the proposed algorithm unit:%

由表2 实验结果可以看到,本文提出的自动检测算法在子据集1 上正常儿童和未接受药物治疗的ADHD 患儿的识别正确率为91.38%,在子数据集2 上正常儿童和接受药物治疗的ADHD 患儿的识别正确率为74.70%,在子数据集3上未接受药物治疗的ADHD 患儿和接受药物治疗的ADHD患儿的识别正确率为90.90%,在子数据集4 上正常儿童和所有ADHD 患儿的识别正确率为80.41%。

临床上确诊多动症的儿童在阅读陌生的课外文本时,往往比正常儿童出现更多的语音异常,但是已经服药的多动症儿童阅读水平好转率可达70%,虽不能达到正常儿童的水平,但是明显优于自己未服药的状态。在数据集3 上,接受药物治疗的ADHD 患儿与未接受药物的ADHD 患儿之间识别正确率高达90.90%,表明接受治疗后ADHD 患儿语音停顿度特征和平坦度特征与未接受治疗的ADHD 患儿间差异增大,两类别间距增大,能构建出最优超平面将两者区分。

由表2 结果分析可知,本文提出的自动检测算法对正常儿童与未接受药物治疗的ADHD 患儿识别正确率最高为91.38%,这表明本文的自动检测算法提取的语音停顿度和平坦度特征能表征ADHD 患儿的临床注意力分散和语音功能受到抑制的临床症状;对正常儿童与接受药物治疗的患儿识别正确率最低为74.70%,这是因为ADHD 患儿接受治疗后临床症状得到改善,由临床症状导致的语音异常现象就会得到缓解;语音异常停顿减少,停顿度特征空间中两者间距变小,语音频率变化差异减弱,平坦度特征空间间距也有所减小,故两者区分效果变差。这与临床上正常儿童与接受药物治疗的ADHD 患儿语音异常差异性大,而当ADHD 患儿接受治疗后语音差异性就会减小相一致。

2.2.1 基于停顿度特征的ADHD自动识别算法结果与分析

ADHD 患儿注意集中任务执行网络中的多巴胺能神经元功能低下[39],不能集中注意力在阅读的文本上,ADHD 患儿阅读时语音出现异于正常儿童的停顿特征,本文提取停顿度表征ADHD 患儿语音的异常停顿。

停顿度特征包含最大停顿时长特征、平均停顿时长特征和停顿时间占比特征。图5 是提出的停顿度声学特征箱线图,图中NM、NADHD、RADHD 分别代表正常儿童、未接受药物治疗的ADHD 患儿和经接受药物治疗的ADHD 患儿。

图5 语音停顿度特征箱线图Fig.5 Box plots of speech pause features

ADHD 患儿在认知转换任务中左侧额下回、双侧前脑岛、壳核和苍白球的激活降低,ADHD 患儿往往会在一个任务上卡住,无法转移到下一个任务,出现较长时间的停顿,如图5(a)所示,未接受药物治疗的ADHD 患儿最大停顿时长特征的整体分布都高于正常儿童和已经接受药物治疗的ADHD 患儿;ADHD 患儿注意缺乏持久性容易分心,出现多次停顿,停顿次数增加平均停顿时长就越长,如图5(b)所示,未接受药物治疗的ADHD 患儿的平均停顿时长特征均值大于正常儿童和已经接受药物治疗的ADHD 患儿;停顿时间占比与停顿次数和最大停顿时长呈正相关性,故停顿时间占比特征会随着前两个特征的增大而增加,如图5(c)所示,未接受药物治疗的ADHD 患儿停顿时间占比特征的均值和整体分布都高于另外两类儿童。

基于语音停顿度特征的ADHD 自动识别结果如表2 所示。从表2 可以看到,停顿度特征在数据集1 正常儿童与未接受药物治疗的ADHD 患儿间识别正确率高达92.76%,表明本文提取停顿特征可以表征ADHD 患儿在任务转换过程中出现的停顿,实现ADHD 患儿临床症状的检测,进而将其与正常对照组儿童区分;在数据集2 正常儿童与接受药物治疗的ADHD 患儿间识别正确率仅为56.36%,这是因为药物治疗后ADHD 患儿阅读注意力能够集中在阅读文本上,因注意力分散出现的停顿次数就会减少,平均停顿时长Vt和停顿时间占比Rt的值都会减小;阅读时语句间的连接转换速度加快,因转换停滞出现的最大停顿时长Lt的值就会减小,ADHD 患者与正常对照组儿童间在停顿特征T空间中间距减小,难以实现有效分割,与临床上接受药物治疗后ADHD患儿阅读语音停顿异常减弱相一致。

2.2.2 基于平坦度特征的ADHD自动识别算法结果与分析

ADHD 患儿操作任务执行网络中大脑的前额叶皮质、前扣带皮质、顶颞联合区、海马等神经纤维出现突变或损伤[40],语音执行功能受到抑制,语音频率变化异于正常儿童,本文提取倍频率平坦度表征ADHD 患儿的频率变化异常。

平坦度特征包含倍频率标准差特征、倍频率离散系数特征和倍频率峰度特征,图6 是提出的平坦度声学特征箱线图。

ADHD 患儿语音加工能力受损,其语音倍频率均值小于正常对照组儿童,故其倍频率标准差值和与标准差呈负相关性的倍频率离散系数值则大于正常儿童和已经接受药物治疗的ADHD 患儿,如图6(a)和6(b)中所示;ADHD 患儿伴随有发育性语言障碍,倍频率的峰值处平均变化率小于正常对照组儿童,故其倍频率峰度值整体高度和均值都要低于正常儿童和已经接受药物治疗的ADHD 患儿,如图6(c)中所示。

图6 倍频率平坦度特征箱线图Fig.6 Box plots of multi-frequency flatness features

基于语音倍频率平坦度特征的ADHD 自动识别结果如表2 所示。从表2 可以看出,平坦度特征在数据集1 正常儿童与未接受药物治疗的ADHD 患儿间识别正确率为90.69%,表明本文提取的倍频率平坦度特征能表征ADHD患儿因语音加工能力受到抑制而出现的语音频率变化异常的特点,实现ADHD 患儿语音回路异常的检测,进而区分ADHD 患儿与正常对照组儿童;平坦度特征在数据集2 正常儿童与接受药物治疗的ADHD 患儿间识别正确率优于停顿度特征在数据集2 上的识别效果,识别正确率达到81.82%,这是因为本实验采集数据的ADHD 患儿接受药物时间短,临床上ADHD 患者接受治疗后短时间内注意力不集中症状就能得到改善,注意力分散的停顿情况就会减少,停顿特征识别接受药物治疗后的儿童效果就差,而加工能力受损需要更长的时间才能改善,故ADHD 语音倍频率的均值Fˉ0依然小于正常对照组儿童,语音倍频率标准差μF和倍频率离散系数CF与Fˉ0呈负相关性依旧大于正常儿童,倍频率峰度kF与Fˉ0呈正相关性故弱于正常对照组儿童,在平坦度特征F空间中两者间距有所减少,因接受治疗时间段,语音加工抑制缓解程度小,平坦度特征F空间中间距减少的量就小,故表征频率变化异常的平坦度特征仍然能识别ADHD 患儿,这与临床上语音加工过程受到抑制需要长期治疗相一致。

2.3 语音信号处理技术在精神疾病自动检测中的应用

精神疾病是指在生物、心理和生活环境等因素作用下,患者的大脑功能出现失调,导致其认知、情感和行为等方面出现显著且持久的精神异常,临床表现特点是精神活动的完整性和统一性受到破坏。语音产生机理是说话者大脑形成、组织语言,然后发生指令到语音运动中枢,发音器官接收中枢指令通过一系列肌肉协调作用产生语音。语音产生包括大脑认知、注意、记忆、情感等精神认知活动,而精神疾病患者的精神活动受到破坏,故其语音模式和正常人之间有差异,研究表明声语音可以作为精神疾病的辅助诊断指标[16]。

随着语音信号处理技术的发展,语音信号处理技术越来越多地被应用于各类精神类疾病的检测:1)基于语音信号处理技术的阿尔兹海默症自动检测。阿尔兹海默症患者随着症状加深会逐渐丧失语言能力,会出现语音迟缓和词不达意的情况,近年来,许多研究人员使用语言信号处理技术提取患者的语音停顿特征[32-34]、频谱特征[35-36]和语义特征[37],结合机器学习和神经网络分类器[32-37],实现阿尔兹海默症的自动检测。2)基于语音信号处理技术的抑郁症自动检测。抑郁症患者神经生理和神经认知发生改变,反映在日常交流中语音语速和包含情感与正常人不同,研究人员通过语音处理技术提取患者语音韵律特征[38-40]和语音情感特征[41-43],实现抑郁症的自动检测[37-43]和分析抑郁症患者的严重程度[38-39]。3)基于语音信号处理技术的精神分裂症自动检测。语音异常是精神分裂症谱系障碍的核心症状之一,语音信号处理技术能实现语音异常的检测,故研究人员通过提取精神分裂症患者的语音停顿特征[44-47]、能量特征[44-45]和基频特征[47-49]等声学特征来揭示精神分裂症患者语音与正常人语音的异常之处,实现精神分裂症的自动检测。

语音信号处理技术发展越来越完善,该技术在检测精神类疾病时有无痛、无创、无副作用和经济便捷的巨大优势,很多研究人员将语音信号处理技术应用于各类精神类疾病的检测中,为临床医生的诊断精神类疾病提供辅助依据。

2.4 本文提取语音特征参数的显著性分析

ADHD 是青少年人群中常见的精神类疾病之一,临床诊断标准多用DSM-V 国际通用精神疾病诊断标准。ADHD 患者有注意力不集中和执行功能抑制等临床症状,导致ADHD患者在说话期间语音不流畅,音调抑扬顿挫变化小。Breznitz[50]通过频率检查、语音单元持续时间以及语音单元中发声和停顿之间相关性来检测ADHD 患者语音模式,证明语音指标可以作为ADHD 诊断提供客观辅助指标;Barona-Lleo 等[51]在语音实验室记录和分析ADHD 患儿和正常对照组口内压力、经声门气流和电子声门图,分析表明ADHD 患儿声门压力较高、经声门气流低和声带行为功能亢进,ADHD 语音特征可以为医生诊断提供客观辅助依据。

为验证本文提取的语音特征在正常儿童和ADHD 患儿间是否具有显著性差异,利用t 检验方法,对正常对照组以及ADHD 的语音特征进行显著性分析,分析结果如表3 所示。

表3 显著性分析Tab.3 Significance analysis

由表3 结果知,各个语音特征的显著性水平p 值均小于0.05,即本文提取的语音特征在正常儿童和ADHD 患儿间存在显著性差异。

2.5 本文提出特征与现有病理语音识别特征对比实验

目前国内外精神疾病研究常用的语音声学特征有短时能 量[44-45]、梅尔频率 倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)[41-43]、共振峰[35-36]及基频特征[47-49]等,为验证本文提取的语音特征能表征ADHD 患儿的临床语音特点,将本文提取的停顿度和平坦度声学特征与现有的病理语音识别特征进行对比分析。对比实验在数据集1 上进行,识别正常儿童与未接受药物治疗的ADHD 儿童,具体对比实验识别结果如表4 所示。

表4 本文提取特征与传统病理语音特征自动检测ADHD的识别结果 单位:%Tab.4 Recognition results of ADHD automatic detection of features extracted in this paper and traditional pathological voice features unit:%

由表4 数据可知,现有病理语音检测ADHD 的识别正确率为62.50%~82.76%。短时能量特征表征语音能量变化,对能量变化异常的病理语音信号检测效果好,ADHD 患者语音加工抑制能量有所减少,但能量因人而异不是ADHD 显著特征;MFCC 特征与语音情感变化相关,本实验中患儿语音采集均值家长及专业医生的陪同下,情感变化的差异性不大;共振峰特征可以表现语音声调的变化,但是单独的共振峰特征音调识别率低[40],不能表征ADHD 患者的音调变化;基频特征识别正确率是现有病理语音特征中最高的,在一定程度上可以表征ADHD 患者语音音调变化。本文提出的停顿度和平坦度特征基于ADHD 患者的临床症状,能表征ADHD 独有的语音特点,更好地识别ADHD 患者。

3 结语

ADHD 是儿童和青少年阶段常见的精神类疾病,临床诊断时依赖医生与患者的交流过程中的主观评估.本文提出基于语音停顿度和音调平坦度的ADHD 的自动识别算法,为医生临床诊断提供客观的辅助依据。该算法基于ADHD 语音停顿特点,提出频带差能熵积参数,提取语音停顿度特征;基于语音频率变化,提出变换平均幅度平方差参数,提取倍频率平坦度特征,将融合后的特征输入SVM 分类器实现ADHD 患儿的自动识别,得到91.38%的识别正确率。本文还进一步讨论语音停顿度和倍频率平坦度特征单独识别ADHD 的作用,两个特征在识别未接受药物治疗的ADHD 患儿与正常对照组识别正确率分别为92.76%和90.69%。

本文提出的频带差能熵积参数和倍频率参数,实现了ADHD 患儿语音停顿和音调变化特征的提取,有助于ADHD患儿的辅助诊断识别;但是ADHD 成因不明、临床症状复杂且部分患儿成年后依旧存在一些症状,仅靠语音停顿和音调变化分析相对片面,不足以涵盖AHDH 所有临床症状。在以后的研究中,可找寻其余临床特征和成人患者语音特征的表征参数,更全面地分析ADHD 患者的语音特点,提取更多的语音特征,使语音在ADHD 患者中发挥更大的作用,为临床医生提供更多的客观辅助依据。

猜你喜欢

自动检测正确率频率
基于传感器的船舶设备工作状态自动检测系统
个性化护理干预对提高住院患者留取痰标本正确率的影响
课程设置对大学生近视认知的影响
处理器频率天梯
振动与频率
机器视觉技术发展及其工业应用
生意
一类非线性离散动力系统的频率收敛性
生意
心电异常自动检测的研究