基于鼾声的声学特征估计睡眠呼吸暂停指数

2019-09-20侯丽敏张伟涛刘焕成

上海大学学报（自然科学版） 2019年4期

侯丽敏,张伟涛,施丹,刘焕成

(上海大学通信与信息工程学院, 上海200444)

睡眠呼吸暂停低通气综合征(sleep apnea hypopnea syndrome, SAHS)是一种睡眠呼吸疾病. 在成年人中, 大约有2%的女性患者和4%的男性患者患有SAHS[1-2]. 事实上有高达80%的中度或重度SAHS 患者仍未就诊[3]. 随着大数据和互联网的发展, 居家医疗成为可能, 发展便携式SAHS 诊断仪变得越来越迫切[4].

近十年来, 利用鼾声信号的声学特征分析睡眠呼吸疾病的研究受到医疗界和信号处理学者的联合关注[5]. 鼾声是SAHS 最主要的症状之一, 且易于采集[6], 鼾声信号中丰富的声学特征与病理是有关联的[7-9]. 最常用的声学参数来自语音信号分析中的特征, 如基频和共振峰等[10-11]. Dafna等[12]提取时频特征对整夜鼾声的录音自动检测鼾声和非鼾声.Karunajeewa等[13]计算鼾声的基频、子带能量比和声道响应等特征, 用来划分SAHS 患者和简单打鼾者. Ben-Israel等[14]考虑鼾声及鼾声间的动态特征, 计算了鼾声间的动态方差、鼾声的基频密度等参数, 用多元回归法估计整夜鼾声的睡眠呼吸暂停低通气指数(apnea hypopnea index, AHI). Herath等[15]提取了鼾声的美频率倒谱系数(Mel-frequency cepstral coefficients,MFCC), 用统计模型建模, 分别以AHI 值15 和30 为界线将患者分成3 类. 文献[16]分析了简单鼾声与SAHS 鼾声的时频特性, 对打鼾者整夜鼾声的录音进行了AHI 值的估计.

尽管有些研究者提取了鼾声信号的MFCC 向量, 但只使用了MFCC 中部分分量. 本工作提出用MFCC 完整向量对整夜录音的鼾声分类, 并对SAHS 严重程度进行估计. 提取鼾声的13 维MFCC 特征, 并对不同类型的鼾声建立高斯混合模型; 然后用所得高斯混合模型对整夜鼾声进行分类, 计算打鼾者AHI 值, 以对打鼾者的严重程度进行预测. 与多导睡眠仪(polysomnography, PSG)诊断结果比较, 本方法对打鼾者SAHS 严重程度估计的正确率为80.00%, 估计所得的AHI 值与PSG 所得的AHI 值有较好的相关性和一致性, 区分SAHS 患者与单纯打鼾者的敏感度(特异度)为94.44%(100.00%), 说明MFCC 参数是诊断SAHS 及其严重程度较为有效的声学特征.

1 简单鼾声与SAHS 鼾声的MFCC 特征的建模

1.1 数据来源

本工作中的实验数据采集于上海交通大学附属第六人民医院耳鼻喉科睡眠监测病房. 录音采用非接触式麦克风Sony EM-C10, 悬挂在床头, 距离测试者的口鼻大约30 cm. 录音声卡为Creative Audigy 4 Value, 台式电脑为Dell Inspiration 570, 录音软件为Adobe Audition 3.0, 采样频率为8 kHz, 16 bit 量化, 保存为WAV 音频文件. 录制患者鼾声信号的同时也进行PSG 监测(PSG 型号为伟康Alice 5). 录音持续时间为晚上10 时30 分至第二天早上5 时30 分, 共7 h. 测试实验中去掉开始和结束前的半小时, 采用其中6 h 的录音.

根据临床上PSG 整夜睡眠监测记录和呼吸事件的标定, 由呼吸暂停或低通气导致的鼾声记为SAHS 鼾声, 其余的鼾声为简单鼾声(simple snore, SIMP). 患者睡眠时间内平均每小时发生呼吸暂停低通气事件的次数记为诊断的睡眠呼吸暂停低通气指数(AHI)值(单位为事件/h). 根据AHI 值划分3 种不同严重程度的级别和无病共四类: AHI＞30 事件/h 为重度SAHS(severe-SAHS, S); 15 事件/h＜AHI≤30 事件/h 为中度SAHS(moderate-SAHS, M);5 事件/h≤AHI≤15 事件/h 为轻度SAHS(mild-SAHS, L); AHI＜5 事件/h 为单纯打鼾型(non-SAHS, N)[17].

本实验共选取93 名打鼾者的录音作为训练组数据, 训练组中不同严重程度打鼾者的年龄、AHIPSG(PSG 检测的AHI 值统计数据)、打鼾者人数等如表1 所示. 训练组包含单纯打鼾者10 人, 轻度SAHS 患者23 人, 中度SAHS 患者24 人, 重度SAHS 患者36 人. 表1 最后两行是从对应每类打鼾者的整夜鼾声录音中人工切割出的简单鼾声(SIMP)片段和SAHS 鼾声片段. 这里的SIMP 是指不伴随呼吸暂停或低通气出现的鼾声; 而SAHS 鼾声则前后出现呼吸暂停或低通气事件, 且同时出现血氧饱和度下降. 每位患者整夜鼾声中均包含这两种鼾声.

表1 训练组打鼾者数据Table 1 Data of snores in training group

1.2 鼾声的MFCC 提取

人类听觉对声音频率范围的感知在1 000 Hz 以下近似遵循线性关系, 而在1 000 Hz 以上不再遵循线性关系, 而是遵循在对数频率坐标上的近似线性关系[18]. MFCC 充分考虑了人耳的听觉特性, 将线性频率转化为非线性Mel 尺度, 在倒频域形成了MFCC 向量. 线性频率(Hz)和音调(Mel)的关系如下:

式中, TMel代表音调的Mel 度量, fHz代表线性频率以Hz 度量.

鼾声的产生机理与语音类似[19-20]. 鼾声是由于气流撞击上气道阻塞部位导致阻塞部位振动, 通过上气道共鸣系统后产生的声音, 与声带激励源振动和声道响应后产生语音的过程有相似之处. MFCC 是在语音相关识别中应用最成功的特征描述之一[21-22], 因此本工作提取鼾声信号的MFCC 特征, 对不同类型的鼾声进行分析, 用来筛查SAHS 严重程度. 鼾声信号的MFCC 提取流程如图1 所示, 图中FFT 为快递傅里叶变换(fast Fourier transform),DCT 为离散余弦变换(discrete cosine transform), Mk(f)代表第k 个Mel 滤波器频响.

图1 MFCC 提取流程图Fig.1 Flow chart of computing MFCC

在MFCC 参数提取过程中, 首先对鼾声信号进行预处理, 包括分帧和加窗. 本工作中帧长为32 ms, 帧移为16 ms, 加哈明窗, 得到短时帧信号x(n), 然后对x(n)进行FFT, 得到频域信号X(f), 计算能量谱|X(f)|2. 图2 给出了24 个Mel 滤波器组在线性频率刻度上的频响分布.Mel 刻度滤波器频响加权能量谱的和得到Yk,

式中, K 表示Mel 滤波器组的数量, fkl和fkh分别表示第k 个Mel 滤波器对应的最低频率和最高频率, Mk(f)代表第k 个Mel 滤波器频响. 对Yk作对数运算, 最后作DCT, 得到MFCC参数,

式中, I 表示MFCC 的维数.

图2 Mel 滤波器组分布Fig.2 Distribution of Mel filters

1.3 高斯混合模型建模

本工作采用高斯混合模型(Gaussian mixture model, GMM)[23-24]对不同的鼾声建模.基于上述四类AHI 值, 再对每类中的SIMP 和SAHS 鼾声各自建模, 得到8 种类型的鼾声模型, 即N-SIMP, N-SAHS, L-SIMP, L-SAHS, M-SIMP, M-SAHS, S-SIMP 和S-SAHS,即4 个SIMP 和4 个SAHS 鼾声的GMM.

鼾声检测的流程如图3 所示, 图中的训练阶段由1.1 节训练组中的鼾声提取MFCC 特征后, 得到不同严重程度的8 种鼾声各自的GMM. 测试阶段则用其他患者整夜鼾声的录音信号进行测试. 对整夜录音的鼾声信号作端点检测, 检出鼾声事件; 用鼾声特有的节律作进一步约束, 得到候选的呼吸事件[25]; 提取这些候选呼吸事件中鼾声的MFCC 向量, 计算与8 个GMM 匹配的概率; 根据贝叶斯的最大后验准则, 最大后验概率获得者就是这个鼾声的归属类别.

1.4 二折交叉验证

交叉验证(cross-validation)主要用于对建模的预报[26-27]. K 折交叉验证是指将初始采样分割成K 个子样本, 一个单独的子样本被保留作为验证模型的数据, 其他K-1 个样本用来训练. 交叉验证重复K 次, 每个子样本验证一次, 平均K 次的结果或者使用其他结合方式, 最终得到一个单一估测. 二折交叉验证是常用的方法之一. 对训练组数据对半划分进行二折交叉验证. MFCC 作为特征矢量, 以不同混合个数分别建立GMM, 通过对比二折交叉验证结果, 确定最优的混合个数为12 个. 图4 给出了混合个数为12 时的二折交叉验证结果.

图3 GMM 训练建模与测试流程图Fig.3 Flow chart of training and testing GMM

图4 二折交叉验证检验结果Fig.4 Results of 2-fold cross validation method

图4 表示的是8 类鼾声模型二折交叉验证的混淆矩阵, 对角线加粗的数据表示的是各类鼾声判定为自身类型的正确率. 从图中可以看出, 判定为自身的概率大于判为其他的概率, 其中S-SAHS 类型鼾声的正确率较高, 说明该模型对鼾声的分类是较为有效的, 可用于整夜鼾声的测试.

2 实验结果

2.1 测试数据

与训练的93 人不重叠, 测试组120 人. 测试数据中每种类型的人数均为30 人. 测试组的年龄和PSG 诊断的AHI 值以及性别如表2 所示.

表2 测试数据和实验结果Table 2 Testing data and experimental results

2.2 实验结果

用120 人整晚6 h 的录音, 按图2 给出的测试阶段流程, 自动检测出鼾声片段, 计算其MFCC 特征, 用GMM 按最大似然概率匹配出所属类型; 凡是候选呼吸事件中的鼾声有判为SAHS 鼾声的, 就确定为呼吸事件. 按临床定义, AHI 值为平均每小时呼吸事件的个数, 先计算出AHI 值, 再根据SAHS 鼾声统计出呼吸事件的次数, 估算出每人的AHIMFCC值,

本方法获得的AHIMFCC值结果如表3 所示. 与PSG 诊断结果AHIPSG对比, 单纯打鼾者30 人全部正确; 轻度SAHS 患者中错了12 人, 其中5 人被判成了单纯打鼾者, 还有7 人被判成了中度SAHS 患者; 中度SAHS 患者中错了11 人, 其中10 人被判成了轻度SAHS 患者, 还有1 人被判成了重度SAHS 患者; 重度SAHS 患者错了1 人, 被判成了中度SAHS 患者. 打鼾者严重程度诊断的正确率为80.00%.

表3 不同SAHS 严重程度类型的正确率Table 3 Accuracy of subjects with different SAHS severities

3 结果分析

(1) 本方法计算的AHIMFCC与临床AHIPSG值的相关性.

AHIMFCC与AHIPSG值对比如图5 所示, 图(a)中黑色星号代表PSG 诊断结果, 紫红圆号代表本方法, 红色虚线表示不同严重程度的分界, Pearson 相关系数r = 0.956 3(P ＜0.001).AHIMFCC与AHIPSG的线性相关性对比如图(b)所示, 中心绿色实线代表同一性, 绿色虚线指出95%置信区间. 图(c)是Bland-Altman 分析散点图, SD 代表标准差(standard deviation),AHIPSG与AHIMFCC差的平均值为1.02 事件/h, 即黄色实线, 黄色虚线表示方差的1.96 倍, 方差为7.45.

(2) 本方法计算的AHIMFCC与临床AHIPSG值诊断一致性.

诊断一致性的定义为若AHIPSG和AHIMFCC均大于40 事件/h, 为一致; 若AHIPSG小于40 事件/h, 二者的差即AHIPSG-AHIMFCC的绝对值小于10 事件/h, 为一致;若二者的差大于10 事件/h, 为欠估; 二者的差小于-10 事件/h, 为过估[12]. 本方法与黄金标准PSG 一致性对比的结果为83.33%(106/120)落在一致性界限内, 欠估率为6.7%, 过估率为5.0%.

图5 AHIMFCC 与AHIPSG 对比分析Fig.5 Comparisons and analysis of AHIMFCC and AHIPSG

Cohen’s kappa 系数也是度量两个测量结果一致程度的统计量. AHI 值按照四类划分(见表3), 其Cohen’s kappa 系数为0.733 3, 说明与临床黄金标准具有良好的一致性.

(3) 以不同AHI 值为分界的敏感度和特异度.

图6(图中TP(true positive rate)为正样本被判为正样本的比例,FP(false positive rate)为负样本被判为正样本的比例)表示的是以AHI≥5, AHI≥15 以及AHI≥30 为分界条件下诊断结果AHI 值的接收者操作特征(receiver operating characteristic, ROC)曲线, 曲线下面积(area under curve, AUC)分别为0.992 96, 0.955 00 和0.988 78. 区分SAHS 患者与单纯打鼾者的敏感度(特异度)为94.44%(100.00%).

(4) 与其他方法的对比结果.

本方法与其他方法结果相近. Ben-Israel等[14]计算了Mel 倒谱稳定度作为鼾声的参数特征之一, 并结合其他参数, 利用贝叶斯分类器将打鼾者分成非SAHS 和SAHS 患者,当AHI＞10 时的敏感度(特异度)为87%(80%), 当AHI＞20 时的敏感度(特异度)为89%(78%).并利用多元回归法估计打鼾者AHI 值, 与PSG 诊断得到的AHI 值对比的一致性达到83%.Herath 等[15]提取鼾声片段的MFCC, 并用HMM 建模, 正确率为86%. 本方法与其他方法的录音数据不同, 其他研究对象大多是西方人种, 因此不能完全根据正确率说明方法的优劣. 但本方法和文献[14-15]结果一致说明了MFCC 能够作为SAHS 辅助诊断的有效特征.

图6 AHI 值为不同阈值下ROC 曲线Fig.6 ROC curves of different AHI thresholds

(5) 从表3 各类型的正确率可以看出, MFCC 特征对单纯打鼾者和重度SAHS 患者诊断的正确率较高, 但对轻度SAHS 患者和中度SAHS 患者诊断的正确率较低, 轻度SAHS 患者和中度SAHS 患者互判的情况较多, 这可能是由于这两类患者之间的鼾声在频谱特征上存在较大的相似性, 因此MFCC 特征不能很好地描述这两类患者鼾声之间的差异. 本工作数据量大, 实验分类细, 说明经典MFCC 特征描述鼾声信号仍有不足之处. 由于上气道阻塞部分的阻塞方式不同导致鼾声信号携带的类噪声分量比语音多, 而MFCC 对声道形状的变化较为敏感, 声源信息平均化了, 这样可能减弱了轻度与中度之间的差异性. 因此, 还需探寻更加精细的特征以适合或更加突出鼾声信号特点而不是语音信号的描述. 在分类器层面也可考虑应用深度学习进行聚类和分类.

4 结束语

MFCC 是音频信号分析中常用的参数之一, 本工作主要从MFCC 对SIMP 和SAHS 鼾声的分类角度进行研究, 提出了利用鼾声的MFCC 特征对打鼾者的AHI 值进行估计, 以对打鼾者SAHS 严重程度进行预测的方法. 实验结果表明, 本方法对打鼾者SAHS 严重程度估计的正确率为80.00%, 估计所得的AHI 值与PSG 诊断所得的AHI 值有较好的相关性和一致性, 区分SAHS 患者与单纯打鼾者的敏感度(特异度)为94.44%(100.00%). 本实验所用的整夜录音是经过人工挑选的, 选取录音质量较好的, 以保证鼾声的有声片段能够被有效检测出. 本工作的研究结果对医疗辅助诊断和居家医疗的发展有积极的促进作用.

致谢感谢上海交通大学附属上海第六人民医院耳鼻喉科的支持.