基于音乐诱发脑电的抑郁症识别研究

2021-09-04陈亮郭滨李沐芳李哲

长春理工大学学报（自然科学版） 2021年4期

陈亮，郭滨，李沐芳，李哲

（长春理工大学电子信息工程学院，长春 130022）

抑郁症是一种常见的情感障碍性疾病，抑郁症患者存在严重的心理障碍和不良情绪，通常表现为悲伤、疲劳、绝望等。最严重时，抑郁症可引致自杀［1］。抑郁症治疗的关键在于前期的诊断筛查，但由于抑郁症的病理原理不清，临床医生只能根据患者的相关信息做出主观诊断。因此，有必要引入更加客观便捷的测量方式辅助临床抑郁症的早期筛查，帮助患者得到及时有效的治疗。

脑电信号是神经元从头皮表面自发的、有节律的放电活动。近年来，许多研究者利用脑电图来研究抑郁症。越来越多的研究发现，抑郁症患者和健康对照者的脑电数据在波段、功率和波幅等参数上有不同的变异规律。Debener等人［2］基于前脑活动和情绪不对称的理论研究了15例临床抑郁症患者和22例健康人的静息脑电数据，发现前额叶α波的不对称是抑郁症的特征之一。Hughes等人发现约20%～ 40%的抑郁症患者脑电图与正常人不同［3］。脑电信号是人体自发的生理信号，也可以通过光、声、电等各种刺激诱发，音乐就是一种常见的刺激材料，关于音乐与脑电的结合，目前已经做了许多研究。彭金歌等人［4］对基于EEG的音乐舒缓紧张情绪进行了研究，发现左脑对节奏欢快的音乐更敏感，右脑对忧伤的音乐更敏感。Dharmadhikari AS等人［5］比较了抑郁的患者和对照组在听音乐之前和期间在额叶theta能力的半球差异，研究发现在没有抑郁的对照组中，听音乐期间左半球的平均额叶theta功率和额叶theta不对称性显着增加。在抑郁症患者中，听音乐时额叶theta不对称性被逆转。Marko Punkanen等人［6］研究了抑郁症患者对音乐中的情绪感知，研究表明抑郁症患者在音乐刺激中感知到负面情绪较多，这也为抑郁症的识别提供了一种手段。

本研究旨在通过三种模态（正性、中性、负性）的音乐刺激诱发脑电信号，确定标准化条件下抑郁脑电的有效特征，并创建脑电的抑郁分类模型。

1 实验准备工作

既往研究表明，大脑杏仁核和前额参与了积极和消极情绪的处理。Harmon Jones等人［7］揭示了愤怒和认知失调、具有负性效价的情绪，相对左额叶活动的相关趋势更大。此外，在无毛发覆盖的前额位置采集的脑电信号阻抗低、失真低、可用性高。因此，AF3、AF4、F3、F4是本研究中电极位置的理想选择。脑电采集设备采用的是Emotiv公司开发的便携式脑电图仪Emotiv EP⁃OC neuroheadset，如图 1（a）所示。图 1（b）是该仪器的电极放置位置，设备一共包含14个通道（AF3，F7，F3，FC5，T7，P7，O1，O2，P8，T8，FC6，F4，F8，AF4），符合国际通用的 10-20电极系统。为了保证实验数据的真实性和可靠性，在选择实验样本时，尽量做到样本在数量和类型上的全覆盖。根据贝克抑郁量表（BDI）的得分招募参与者。招募标准包括：18-25岁，没有头部外伤或癫痫病史，当前没有使用精神活性药物。共招募了20名在校学生，所有人均为右利手。其中对照组10人（BDI<7），无自我报告的MDD病史，也没有自我报告的症状。轻度抑郁症症状组保持稳定的高BDI（>=13）。在实验过程中，所有参与者都首先完成了BDI以及Spielberger焦虑量表（TAI）。

图1 EEG采集装置示意图

研究发现，抑郁症患者对外界刺激的情绪反应与正常对照组不同。抑郁症患者对正性情绪刺激相对麻木，对负性情绪刺激相对敏感。因此，本研究设计将三种不同情绪的音乐刺激作为三种不同的方式。对参与者的脑电信号进行记录和分析在5段音乐刺激中完成，包括2个中性刺激、2个负性刺激和1个正性刺激。刺激来源于1 000 SongsDatabase，该数据库是一类用于情感分析的歌曲数据库，歌曲的采样频率为44 100 Hz，每首音乐的时长为45秒，且全部歌曲标注了效价维和激活维的均值和方差，故可以用二维情感模型对其进行分类，广泛应用于情绪的研究。整个实验在安静、隔音、无眩光、通风良好的专用实验室进行。整个实验环境中无强电磁干扰；实验过程中无其他噪声影响。具体实验方案如图2所示。

图2 实验流程图

2 实验方法

提出了一种基于中性、负性和正性音乐刺激下采集的脑电数据融合的多模态抑郁识别方法。抑郁症患者对积极情绪刺激的主观体验较少（积极情绪均被削弱）；对负性情绪刺激更敏感，表现为对负性情绪的注意力增强，情绪反应增强（负性情绪增强）；在个体差异的情况下，个体模态（正性音乐刺激或负性音乐刺激）提取的特征不准确。鉴于这些缺点，融合多种模态特征可以有效地弥补单一模态特征的不足。文中的脑电数据融合是在特征层面进行的。如图3所示是论文采用的方法流程图，它主要由脑电采集、预处理、特征提取、特征融合、特征选择、和分类六个部分组成。

图3 方法流程图

2.1 数据预处理

在脑电信号采集过程中，不可避免地引入了许多噪声。噪声通常包括环境和设备引起的工频噪声和其他噪声，如人体自身生理信号引起的心电图（ECG）、眼电图（EOG）、肌电图（EMG）等。为获得相对纯的脑电数据，对原始脑电信号进行预处理。首先，工频噪声主要由装置本身的电源引起，其频率为50 Hz。在该过程中，使用50 Hz陷波滤波器以50 Hz的频率去除信号。第二，心电由心脏的节律性操作产生，幅度较大。由于心脏位于离头部较远的地方，当它传到头皮时，心电信号大大减弱。因此，在对脑电信号进行预处理时，通常会忽略心电图。第三是肌肉收缩产生肌电，肌电的频率主要集中在>100 Hz的高频段。在本研究中，EEG的频率为0.5～ 50 Hz。因此，采用基于Blackman时间窗的有限脉冲响应滤波器去除肌电引起的高频带噪声。第四，在使用额叶前EEG部位的同时不可避免地记录EOG；而EOG的频率为0.1～ 100 Hz，与EEG重叠。本研究采用卡尔曼滤波方法结合离散小波变换和自适应预测滤波器来估计纯EOG伪迹。随后，从原始脑电信号中去除眼部伪迹，得到相对纯的脑电信号。Fz通道原始脑电信号与去除水平眼电噪声后对比如图4所示。图中可以看出脑电信号经过预处理后水平眼电伪迹已经被去除。

图4 Fz通道去除EOG前后EEG信号的比较

2.2 特征提取

传统的脑电信号分析一般由医生根据自己的临床经验进行，依靠医生的主观判断。因此，在诊断过程中容易忽略大量的信息。一般的脑电分析主要是线性分析，提取频率、功率谱、峰值等一定的线性特征。然而，许多研究已经证明，脑电信号是非平稳和随机的［8］，简单的线性分析无法提取这些信号中包含的所有信息。因此，本研究提取了预处理后脑电数据的线性和非线性特征，对脑电信号进行综合分析。最后在全波段（0.5～ 50 Hz）、θ（4～ 8 Hz）、α（8～ 13 Hz）、β（13～ 30 Hz）、γ（30～ 50 Hz）选取脑电信号的 60个线性特征和36个非线性特征。脑电图线性特征包括相对中心频率、绝对中心频率以及θ、α、β、γ波的相对功率和绝对功率，以及全波段的绝对功率、中心频率、偏度和峰值等。脑电非线性特征包括方差、Hjorth参数、功率谱熵、Shannon熵、相关维数和全波段的C0复杂度等。

2.3 特征融合

以往的研究大多以个体模态EEG数据为研究内容，通常提取静息时的特征。如果仅以单峰方式提取特征，则采集的特征相对简单，必然导致脑电信息不足，从而影响整体分类性能。特征融合为上述问题提供了一种解决方案，因为多种模态的特征与单个模态特征相比，可以充分描述脑电信息，从而实现特征之间的相互补充。早期的信息融合是特征融合方法的来源，将几种不同传感器获得的数据进行融合研究。近年来，数据融合在目标跟踪识别［9-10］、模式分析、分类［11］等领域得到了广泛的应用。

一般而言，根据不同的收敛阶段，在三个不同的处理级别进行数据融合：像素级、特征级和决策级。像素级融合是指对原始数据层进行融合，即在对原始信息进行预处理之前对信息进行综合分析［12-13］。决策阶段融合根据不同的特征集做出单独的决策，然后将其协调或组合到全局决策中。特征级融合是对不同特征进行特征提取后，以线性或非线性方式组合得到新的融合特征。该方法结合了其他两种融合方法的优点，融合后原始信息不易丢失，实时性好，有助于结果的最终分类。

在本研究中，使用了特征阶段融合。首先，根据实验范式，在3种模态（中性、负性和正性音乐刺激）中依次采集参与者的脑电数据。接下来，提取每个单独模态下的EEG特征。特征矩阵如下所示：

其中，xpos表示正性音乐刺激模态下的特征矩阵；xneu表示中性音乐刺激模态下的特征矩阵；xneg表示负性音乐刺激模态下的特征矩阵。

然后，采用特征融合方法对3种模态的特征矩阵进行线性组合。产生的新的矩阵记作U。

式中，U1为正性-负性音乐刺激模态的特征矩阵；U2为正性-中性音乐刺激模态的特征矩阵；U3为负性-中性音乐刺激模态的特征矩阵。

最后，融合特征矩阵计算如下：

其中，β设为 1；γ 设为-1；ui、vi、ωi分别为正-负音乐刺激、正-中音乐刺激、负-中音乐刺激三种融合模态的特征值。

2.4 特征选择

在统计学上，检验变量在两类样本之间是否存在显著差异是一个经典的假设检验问题。常用的方法有t检验、秩和检验等。这些方法给出了反映两种样本之间差异的统计量和反映它们之间统计学差异的P值。从分类角度来看，两类之间用于分类的特征明显不同。因此，这些统计数据可用于测量功能在选择它们时的能力。

本研究采用t检验作为特征选择的方法。比较抑郁症患者与正常对照组融合新特征的差异，选取了U1、U2、U3中p<0.05 的特征ui、vi、ωi。在融合矩阵U1中选择的特征如下：θ波的相对功率（AF4），α波的功率谱熵，β波绝对功率、绝对中心频率、功率谱熵（AF3），γ波的绝对中心频率、相对中心频率（F3，F4），全频带EEG的中心频率、香农熵、相关维数和Kolmogorov熵。

U2中选择的特征为：α波的相对功率（AF3），β波的相对中心频率、绝对中心频率，γ波的功率谱熵、绝对中心频率（F3，F4），全频带EEG的偏度。

融合矩阵U3中选取的特征为：θ波的绝对中心频率（AF4），γ波的相对功率（F3，F4），全频带EEG的偏度（AF4），全频带EEG的C0复杂度（AF3）。

3 实验结果分析

使用了KNN、SVM和DT三种传统分类器对特征进行分类。表1给出了文中所用的三种分类器的核心参数设置。最近邻算法（KNN）中k值设置为3，限定半径最近邻算法采用的是球树实现，距离度量参数为欧式距离。在决策树（DT）中使用基尼系数计算不纯度。支持向量机（SVM）中惩罚系数C设为1，核函数采用高斯核函数。

表1 分类算法的参数设置

表2列出单模态与融合模态在三种分类器下的分类结果，模态融合方法采用的是前文所述的线性组合公式。从表中可以看出，在单模态下平均性能最低的是中性音乐刺激，并且三种模态在不同分类器下的平均性能相差不大，然而研究表明抑郁症患者对负性刺激更加敏感，原因在于在个体差异的情况下，个体模态提取的特征不准确。融合模态中，正性-负性音乐刺激的融合达到了最佳性能，分类性能相比于正性-中性刺激和负性-中性刺激均高出了10%左右。

表2 不同分类器在不同模态下的性能/%

表3描述了不同分类器在单个模态和融合模态的平均分类结果，结果表明，在KNN、SVM和DT这三种分类器中，KNN分类器在单个模态和融合模态中都取得了最好的性能，均达到了70%以上的准确率。

表3 单个和融合模态中每个分类器的平均性能/%

为了对分类器在不同音乐刺激下的性能进行明确的比较，图5显示了不同音乐刺激下单个模态和融合模态的分类性能，如图5（a）所示，对于单个模态，从正性音乐刺激模态的特征中获得了最佳的分类精度；图5（b）是三种融合模态的平均分类结果，对于融合模态，正性和负性音乐刺激的融合表现最好。

图5 不同音乐刺激下单个模态和融合模态分类器的平均值

此外，文中还比较了不同模式组合的效果。图6显示了不同融合模态的性能以及由它们组成的单个模态的性能。如图所示，正负音乐刺激的融合模态比组成它的两个单独模态表现更好。同时，与正性-负性音乐刺激的融合模态相比，另外两种融合模态的分类准确性没有显著提高。因此，根据图5和图6的结果，最佳的融合方法是正负音乐刺激的融合。

图6 融合模态的性能及其组成模态

为了确定最佳的分类方式，如图7所示，对于所有分类器来说，单个模态中的最佳抑郁识别方式是正性音乐刺激模态，平均准确率为71.08%，融合模态中的最佳识别方式是正、负音乐刺激的融合，平均准确率为76.04%。融合模态的平均精度比单个模态高5%。结果也表明，最佳个体模态为正性音乐刺激下的KNN分类器，最佳融合模态为正-负音乐刺激，分类器也为KNN，最佳融合模态的抑郁识别准确率比最佳个体模态约高12%。

图7 最佳个体模态和最佳融合模态的准确率

正如前面所讨论的，抑郁识别分析主要限于多电极脑电图和单模态信息。单个模态特征的使用并不能很好地解决特定数据集的抑郁识别问题。与其他模态相比，对于所有分类器，正负音乐刺激的融合模态的准确性高于单个模态和其他两种融合模态。研究发现，无论是在个体模态还是在融合模态中，KNN的分类正确率在三种分类器中最高。分类器KNN在正负音乐刺激融合模态中获得了最佳的抑郁识别，准确率为86.98%。因此，KNN分类器在正负音乐刺激的融合中更适合区分抑郁组和正常组。

4 结论

从3种模态（中性音乐刺激、负性音乐刺激和正性音乐刺激）的脑电数据出发，本研究将整个分类算法分为3个阶段。在特征提取阶段，对抑郁症患者和健康者的脑电数据进行3种模态的记录并提取脑电特征，包括线性特征，如脑电相对功率和绝对功率；非线性特征，如功率谱熵、C0-复杂度和相关维数。在特征融合阶段，利用特征融合技术对不同模态下提取的脑电特征进行线性组合，采用t检验在线性组合特征矩阵中选择新特征作为分类器的输入。分类阶段使用了十倍交叉验证对KNN、DT和SVM这三种众所周知的分类器进行了评估和比较。在比较不同融合方式中所有分类器间的分类准确率上，发现KNN分类器在正负音乐刺激的融合中表现最好，准确率最高，为86.98%。

与以往的研究相比，本研究发现了利用音乐刺激脑电数据并进行特征融合识别抑郁症的新途径，实现了更高分类准确性。总之，脑电信号可以成为研究抑郁症和区分抑郁症患者与正常对照的有用工具。