基于脑功能网络的内燃机汽车声品质评价模型
2022-07-13谢丽萍卢炽华刘志恩朱亚伟
谢丽萍 ,卢炽华 ,刘志恩 ,朱亚伟 ,徐 韬
(1. 武汉理工大学 现代汽车零部件技术湖北省重点实验室,湖北 武汉 430070; 2. 汽车零部件技术湖北省协同创新中心,湖北 武汉 430070)
汽车强国是国家重大产业发展战略,内燃机汽车声音设计则是实现高品质汽车的核心技术.能否根据汽车功能、风格不同进行有针对性的声音设计,已成为衡量汽车企业产品竞争力的重要标志之一.其中,声品质评价是声音设计的核心,通过评价声品质优劣,可指引声音设计的方向[1-2].
目前,针对传统搭载内燃机的汽车声品质评价主要分为主观评价和客观评价两大类.常用的声品质主观评价方法包括成对比较法[3-4]、等级评价法和语义细分法等[5].但人对汽车声音的评价,除了与声音样本本身固有的物理属性(响度、声压级)有关外,还和评价者自身的情感认知、主观情绪与经验及所处的评价环境有关,不同文化背景、生活习惯与性格的评价者对同一个声音的评价结果可能存在差异,结果不具有普适性.
近年来,为了提高汽车声品质评价准确性,学者们利用多重回归等数学模型,以声音的响度、粗糙度等客观评价指标为输入,建立主客观一致性模型[6-8],从而实现特定汽车声品质的预测.但这种方法仍然无法满足评价结果因人而异的要求,构建的预测模型适用性较差,难以形成统一的评价标准.随着脑认知科学相关技术的发展,实现用脑电信号(EEG)预测人对声音的感受成为可能.2011年,Nakanishi等[9]提出了一种基于脑电信号定量评估音频品质的方法,证实了主成分分析(PCA)对脑电数据预处理的有效性及利用EEG获取声音情感信息的可行性.Bhatti等[10]采集了30名被试者听不同类型音乐时的脑电信号,结果表明:在音乐的刺激下,脑电信息能够反映不同年龄阶段人情绪的变化.Li等[11]研究了声品质评价指标烦恼度与脑电信号的关系及变化规律,结果表明:稳态刺激时,θ波平均功率在时域上出现两次峰值,且随着声音频率的升高,峰值出现时间间隔减小.
在基于脑电信号的汽车声品质评价方面,Lee 等[12]利用脑电信号研究了人对汽车声音的主观感受,根据脑地形图得出α波功率可作为汽车加速声客观评价指标的结论.Lee等[13]选用α波计算与乘用车加速声主观评价之间的相关性,发现根据相关性值的大小可判断大脑区域α波与主观评价指标之间的相关性强弱.邹丽媛等[14]基于脑电特征参数反映了车内噪声造成的乘车人员烦恼度,利用神经网络模型构建了脑电特征参数与烦恼度的关系.
综上可知,人的大脑对声音刺激有明显的生理反应,声音样本的频率、响度等及刺激时长、间隔的差异都会在大脑不同区域使各个波段的脑电信号产生特征反应.因而引入脑电信号作为内燃机汽车声品质的评价方法,以客观的生理信号直观反应人的主观感受是可行的.笔者基于脑电信号在情绪识别领域的数据处理和特征提取方法,以运动感声品质为主观评价指标,采集在内燃机汽车声音刺激下的脑电信号;基于脑功能网络,提取与运动感声品质强相关的脑电特征;训练神经网络模型,映射运动感声品质与脑电特征信号间的非线性关系.引入脑电生理信号评价内燃机汽车运动感声品质,直观反映人对不同特征声音的感受,以期提高声品质评价的准确性.
1 试验方案
1.1 声音样本的采集
笔者设定运动感为汽车声音样本的主观评价指标,通过问卷调查、网络调研及实车试驾等形式,对比了多款内燃机车型的声学性能,最终选取7款市面上运动感声品质较好的目标车型,表1为具体车型信息.其中,5号带有主动发声系统,能够利用车载音响系统播放出3种具有不同运动特征的加速声.
表1 目标车型特征信息Tab.1 Characteristics information of the target model
在副驾处布置HEAD人工头,在平直的柏油路上分别采集7款目标车型全油门加速工况下的车内噪声,时长约为10s,测试主要采集目标车型在3挡全油门加速工况下的车内噪声,共采集到9个汽车声音样本.
1.2 脑电数据的采集
招募24名健康评价者(男性16名,女性8名),平均年龄为(24.40±2.53)岁.为有效避免外界噪声的干扰,在空旷安静、温度适宜的实验室内进行脑电数据采集.利用64通道电级帽采集评价者在9个汽车声音样本刺激下的脑电信号,各通道的布局按照国际临床生理协制定的10~20国际脑电导联分布.
每个试验中评价者通过高保真耳机接受汽车声音刺激源,具体脑电采集过程如下:在声音刺激前,采集评价者静息状态下的脑电信号作为参考,时间设定为5s左右;然后,在9个不同声音样本刺激下,试验人员使用Brain Vision Pycoder软件全程采集评价者的脑电信号.其中,9个声音样本随机播放,每个样本播放间隔为5s,声音样本切换期间评价者可稍作休息.试验中评价者应尽量减少明显的肢体动作和头部晃动,且在试验前一晚要补充至少8h睡眠,保证精神状态最佳;最后,每位评价者听完9个声音样本休息一段时间后摘下电极帽,整个试验流程如图1所示.
图1 脑电信号测试流程示意 Fig.1 Flow chart of EEG test
在进行脑电试验测试后,组织同批24名主观评价人员对9个汽车声音进行主观评价,以运动感为主观评价指标,采用10等级评分方法,如表2所示,评分1~5为不可接受,评分6~10为可以接受.并利用Spearman双侧检验分析了24名评价者间评分数据的相关性[15],其中,每位评价员的平均相关系数如表3所示.
表2 运动感声品质10等级评价Tab.2 10 scale of powerful sound quality
表3 24名评价员的平均相关系数Tab.3 Mean correlation coefficient of 24 evaluators
评价者的Spearman平均相关系数低于0.700时表示相关程度较弱,由表3可知,除被试者4号外,其余23名被试者的平均相关系数均在0.700以上,且被试者4号的结果为0.683,接近0.700,总体的评价结果存在一致性,证明采集的主观评价数据有效.
2 分析方法
2.1 脑电信号特征提取
在进行脑电信号特征提取前,需对采集的脑电信号进行预处理,主要包括滤波和去伪迹等[16].通过带通滤波器对采集的脑电信号进行1~40Hz滤波处理,采样频率设置为1000Hz.按照经验,利用插值环导、独立主成分分析等方法去除脑电信号中的伪迹,并剔除参考电极Fpz和眼迹较多的FP1和FP2通道数据,剩余61个通道.
目前在脑电研究领域中,并没有形成公认有效的特征体系,如何从大量脑电信号中提取与运动感声品质强相关的脑电特征集合,是满足用户对声品质准确评价的关键.近几年基于脑网络的分析方法发展迅速,脑网络特征也能作为声品质评价的生理声学指 标[14].因而笔者基于脑功能网络计算非线性脑电特征,包括相位锁值[17]、相位延迟[18]和包络系数3类脑电特征.
对脑电信号进行希尔波特变化,可得任意两个不同通道信号xa和xb间的相位差为φab(相位锁值)及幅值信息Aab(包络系数).定义相位延迟为相位差分布的不对称测量值,有
式中:sign为符号函数;L为采样点;n为采样点代号;a和b为通道代号.
分别计算61通道脑电数据间的相位锁值、相位延迟和包络系数,得到3个61×61的对称矩阵.此外,考虑信息学要求[19],对对称矩阵中的元素进行相关性计算,得到脑网络邻接矩阵的元素为
式中:ρab为原始对称矩阵中b与a通道数值间的相关系数;N为通道数,有1<a<N,1<b<N,b≠a.
计算邻接矩阵对应的聚类系数和特征长度,前者可反映脑网络的聚集程度,有
式中:K为网络的节点数;Ei为节点i与ki个节点间存在的实际连接边数;ki(ki-1)/2为此ki个节点间最多的连接边数;ci为节点i的聚类系数.
路径特征长度可衡量脑网络的连通性,定义为脑网络中任意两个节点间最短路径长度的均值.权重网络中的路径特征可表示为
基于上述理论分析,以δ(1~4Hz)、θ(4~8Hz)、α(8~13Hz)、β(13~30Hz)和γ(30~44Hz)共5个频带的相位锁值、相位延迟及包络系数的邻接矩阵为基础,计算对应的聚类系数和路径特征长度,作为脑电特征,由此可得到每位评价者在每个汽车声音样本刺激下的5个频段共30个脑电特征.
2.2 神经网络预测模型
笔者构建BP神经网络映射脑电特征与运动感声品质主观得分间的非线性关系.为了同时兼顾网络性能与计算效率,基于试凑法[20],采用含有15个神经元隐含层的神经网络算法,以所确定的脑电特征信号为输入、对应的运动感主观得分值为输出.
式中:Score为BP模型输出,即预测的运动感声品质得分;F为激活函数,输出层选取purelin的传递函数,隐含层采用tansig函数,训练算法选择LMS训练算法;X为输入的脑电特征向量;IWL1和bL1分别为输入层的权向量和偏移量,L1为输入层到隐含层的网络结构;L2为隐含层到输出层的网络结构.图2为建模流程.
图2 BP神经网络建模流程Fig.2 Modelling process of BP neural network
3 结果分析
计算任意两通道间的相位锁值、相位延迟和包络系数,得到24名评价者在声音样本刺激下3个邻接矩阵的均值,维度为61×61.图3为24名评价者在汽车声音样本1刺激下α波对应的邻接矩阵.每个元素代表两个电极通道对应脑电特征的相关系数,其值介于0~1之间.由于对称轴间的元素是通道自身的相关系数,数值均为1,同步性最强.根据矩阵的元素数值计算聚类系数与路径特征长度,每个汽车声音样本将计算得到30个脑电特征信号.
图3 24名评价者在9个声音样本刺激下α波的对称矩阵Fig.3 Symmetry matrix of α wave of 24 evaluators under the stimulation of 9 sound samples
分析30个脑电特征信号与运动感主观得分的相关性,以此确定最佳脑电特征信号,如表4所示.其中,θ波相位锁值的聚类系数、θ波相位锁值的路径特征长度、α波包络的聚类系数、α波包络的路径特征长度和β波相位延迟的聚类系数5个脑电特征与 运动感得分的相关系数较高.图4为5个脑电特征与运动感得分的相关系数.可知,与运动感相关的脑电特征信号确实存在,因而从30个脑电特征中确定了5个与内燃机汽车运动感声品质强相关的最佳脑电特征.由于非线性脑电特征在不同通道空间域上的表现形式不同(图3),选择合理的脑电特征能提高运动感声品质评价效率.
图4 确定的最佳脑电信号与运动感声品质分值的相关性Fig.4 Correlation of the best EEG features with the powerful sound quality scores
表4 30个脑电信号与运动感声品质主观分值的相关系数Tab.4 Correlation coefficients of 30 EEG features with subjective scores of powerful sound quality
以5个最佳脑电特征信号为输入、动力感分值为输出,使用笔者搭建的神经网络模型预测9个声音样本的运动感分值.24名评价者,9个声音样本,共有216个样本.其中随机筛选21名评价者的189个数据作为搭建神经网络模型的训练集,获得最优网络权值.剩余27个数据作为模型的测试集,验证模型的预测效率,输出的测试误差如表5所示.
表5 预测模型的测试误差Tab.5 Test errors of prediction models (%)
预测值的最小误差为0.013%,最大误差为3.620%,不超过5.000%.测试样本的平均误差在 0.046%~1.832%之间,不超过2.000%.图5为训练集与测试集的神经网络输出与运动感分值的相关性.其中,训练集的神经网络输出与运动感分值的相关系数高达0.9991,可认定为线性相关.测试集的神经网络输出与运动感分值的相关系数为0.8422,拟合度相对较高.因而上述结果均可证明搭建的神经网络模型结构稳定,具有较好的泛化能力,能够基于非线性脑电特征客观预测人对内燃机汽车声音的主观分值.以一种客观、统一的生理信号来反映人对声品质的评价.
图5 神经网络输出与运动感分值的相关性Fig.5 Correlation of neural network output with the powerful sound quality scores
4 结 论
(1) 构建脑功能网络,确定了5个最佳脑电特征信号,即θ波相位锁值的聚类系数、θ波相位锁值的路径特征长度、α波包络的聚类系数、α波包络的路径特征长度和β波相位延迟的聚类系数.
(2) 构建人工神经网络模型,脑电客观生理信号能够预测人对内燃机运动感声品质的主观感受.