APP下载

基于相位声码器的多轨个性化耳鸣掩蔽治疗声合成新方法*

2024-01-18陈娅南何培宇谢子奇李永康方安成潘帆

生物医学工程研究 2023年4期
关键词:频段音频个性化

陈娅南,何培宇,谢子奇,李永康,方安成,潘帆

(四川大学 电子信息学院,成都 610065)

0 引言

耳鸣是在无外界声源或电刺激情况下,患者自身感觉耳内(或颅内)产生无意义的声音[1]。其发病率较高[2-3],常使患者感到焦虑、抑郁,伴随失眠等负面反应,影响生活质量。因此,对耳鸣治疗方法的探究具有重要意义。

耳鸣的声治疗是用声音来改变患者对耳鸣的感知和反应,从而缓解病情的方法[4]。自耳鸣掩蔽的概念被引入后,出现许多有效的声治疗方法[5]。目前国内外推出的声治疗方法有:耳鸣掩蔽疗法(tinnitus masking therapy,TMT)、耳鸣习服疗法(tinnitus retraining therapy,TRT)、个体化切迹音乐疗法、海德堡神经音乐疗法、五音疗法、强直声疗法等[6-8]。国内临床最常用的为掩蔽疗法[9],该疗法通常选用与患者耳鸣频率相匹配的窄带噪声或白噪声作为掩蔽声源,虽在一定程度缓解了耳鸣的不适,但其本身引入了新的干扰,甚至会导致听力损伤[10]。研究表明,因掩蔽音成分单一,难以兼具可听性和治疗有效性,部分患者对其难以耐受[11]。程坚等[12]进行临床掩蔽治疗时,发现掩蔽音高于耳鸣声,部分患者难以配合治疗;Cuesta等[13]使用定制的宽带噪声可听性也不佳,导致患者退出治疗率达30%;梁辉等[14]为避免单一噪音的掩蔽治疗产生不良反应,在噪声掩蔽基础上增加音乐治疗。研究发现,音乐噪声虽优于单纯噪音掩蔽,但若长时间治疗,其可听性仍欠佳;宫琴等[15]提出了基于耳鸣治疗音能量均衡的方法,使治疗音兼顾疗效和悦耳程度,但无法满足患者的主观偏好。

临床研究证实,自然音可作为大多数耳鸣患者的掩蔽声源,有助于打破耳鸣与不良情绪之间的恶性循环,在一定程度上减轻耳鸣困扰[16-17]。针对传统掩蔽疗法存在的问题,漆蕾宇、邓茗月等[18-19]对治疗音做出了一定改进,不仅兼顾了TRT与TMT的疗效,还克服了现有治疗音因长时间播放导致重复性记忆等问题。尽管蔡丽等[20]对自然音做了音调变换处理,但其可听性不佳;漆蕾宇等[18]在相关研究基础上加入分形音乐,合成新的治疗音,一定程度上改善了治疗音的可听性,但采用的线性比例重叠相加法不适用于拼接自然音片段首尾响度过大的情况;邓茗月等[19]合成的康复音符合患者的个人主观偏好,但无法高效匹配患者的耳鸣频段。方琦[21]经临床研究认为,丰富的声音环境会降低听觉通路内的增益及中枢对耳鸣的敏感度,使患耳感受到耳鸣减弱。因此,本研究将生物自然声和环境背景自然声作为基础音,结合相位声码器(phase vocoder,PV)和渐变混合算法,提出了一种个性化多轨耳鸣掩蔽治疗音(multi-track personalized tinnitus masking therapy sound,MT-PTMTS)合成方法。该方法用生物自然音匹配患者耳鸣频段,通过PV进行音调变换,保证治疗音的客观个性化;并以环境背景自然声来满足耳鸣患者的主观偏好,同时利用迭代函数系统(iterated function system,IFS)分形算法确保合成的治疗音时长可控、并满足长时间治疗且相似不重复,使治疗音兼具客观个性化、主观偏好性、舒适可听性和治疗有效性。

1 掩蔽治疗音合成原理

本研究利用PV算法控制个性化生物自然音库的生成,并结合已收集的环境背景自然音库,最终通过IFS分形序列和渐变混合算法合成掩蔽治疗声,其原理及总体思路见图1。

图1 MT-PTMTS的合成过程

该掩蔽治疗声由生物自然音(biological natural sound,B-NS)和环境背景自然音(ambient background natural sound,AB-NS)两个元素组成。

图1中①部分描述了B-NS的合成过程。首先,对不同种类的B-NS片段进行试听并筛选,将适合作为个性化基础的B-NS片段进行保留。然后利用基于PV的音调变换方法,将B-NS片段扩展形成多样化的生物自然音库。同时根据音频能量集中的不同频段对库内音频进行划分、归类等,以满足患者个性化耳鸣频段的匹配需求。

图1中②部分描述了AB-NS的合成过程。为满足患者在治疗中存在的主观偏好需求,本研究构建了环境背景自然音库;同时,利用渐变混合算法将AB-NS片段平滑地拼接起来。

最后,本研究通过控制分形序列的长度来保证合成的B-NS时长可控。将处理后的B-NS与AB-NS两轨音频叠加,生成最终的MT-PTMTS,使治疗音满足耳鸣患者个体需求的同时,也确保治疗的有效性及可听性。

2 生物自然音频库的生成

2.1 相位声码器

在对B-NS进行音调变换时,通常需要解决两个问题:一是如何改变音频的音高,即改变音频频率能量集中的区间;二是如何保证音频的语速不变,即音频时长不变。PV作为解决上述问题的算法,其核心原理是利用相位差法,即计算相邻两帧间的相位差实现频率转换。

设语音信号为x(t),其短时傅里叶变换(short-time fourier transform,STFT)表示为:

X(n,k)=|X(n,k)|ejφ(n,k)

(1)

其中,n为第n帧,k为第k个频率分量,|X(n,k)|为幅度,φ(n,k)为相位。假设将语音的频率增加一个倍频f0,则相邻两帧间的相位差为:

Δφ(n,k)=φ(n,k)-φ(n-1,k)

(2)

因相邻两帧间的时间差为Δt,则式(2)可表示为:

(3)

其中,N为每帧信号的长度,ψ(n,k)为高频部分的相位畸变,可忽略不计。

ejθ=cosθ+jsinθ

(4)

据式(4),可将相位差表示为正弦和余弦函数的形式:

(5)

(6)

同时,PV通过在频域上进行插值和抽取的方式,可避免原始音频因音调变换而失真。其基本思想是将音频信号分解成短时傅里叶变换域中的一系列片段,并对每段都进行频谱分析和重组,见图2。在每段中,信号的幅度谱保持不变,相位谱则通过插值计算进行修改,实现音频变调且速度不变。

2.2 生物自然音库的生成

为改善掩蔽治疗音的可听性,采用频率能量集中的B-NS代替传统治疗中的窄带噪声,避免窄带噪声带来的听感不佳、忍耐度低、治疗有效性差等问题。因此,将收集到的各类B-NS整合为自然音库的同时,应确保音库的个性化;在选取基础自然音片段时,应充分考虑耳鸣患者所对应的耳鸣频率和个体情况。为实现上述目标,本研究利用PV对患者所选的B-NS片段进行处理,使其频率能量集中在患者的耳鸣频段附近,并将其分割为能量集中的B-NS小片段,最后根据类别对分割后的B-NS小片段进行编号,形成基于患者个性化需求的生物自然音库。

图2 PV的基本实现过程

3 基于自然音库和渐变混合算法合成的掩蔽治疗音

3.1 渐变混合算法

由于AB-NS片段的多样性,在拼接处存在不确定性。因此,本研究在AB-NS拼接处采用渐变混合算法。与蔡丽等[20]所用的线性叠加算法不同,渐变混合算法可在拼接处对信号进行动态处理,通过对相邻两个音频的采样数据进行加权平均实现,见图3。渐变混合算法通过特定函数控制两个源信号,实现混合点处缓慢且渐进的过渡,而非直接切换,可避免明显的跳变或声音失真。即在过渡区需要计算相邻音频的交叉淡入淡出点,并使用渐变函数控制音频信号的增强或减弱,以实现响度和频谱的平滑过渡,消除拼接突兀感,并提高混合效果的质量和真实感。

以线性渐变函数为例,假设有两个自然音片段A和B,采样值分别为a(n)和b(n),其中n为采样点的序号。渐变混合的目的是在给定的时间范围内,从A逐渐过渡到B。首先,确定渐变的采样点数量,假设为N;对于每个采样点的序号n,计算混合系数c(n)。混合系数根据当前采样点在渐变过程中所处位置的比例确定,见式(7):

(7)

然后,由c(n)计算混合后的音频信号y(n),直到达到指定的渐变时间范围N。在此期间,混合系数从0逐渐增至1,使片段A逐渐过渡到片段B。对每个采样点的序号n,可使用式(8)计算混合后的采样值:

y(n)=(1-c(n))×a(n)+c(n)×b(n)

(8)

其中,a(n)是片段A在第n个采样点的采样值,b(n)是片段B在第n个采样点的采样值。

3.2 掩蔽治疗音的合成

B-NS根据耳鸣患者的耳鸣频率进行匹配,并选择合适的自然音类型,对自然音片段进行音调变换,随后对其进行编号,建立基于患者的个性化生物自然音库。由于耳鸣的声治疗通常需要连续刺激半小时,为此,本研究结合文献[20]的方法,采用分形序列作为映射序列来控制生物自然音的生成时长,以确保治疗的有效性。

为使治疗音能在耳鸣同频率进行声音刺激之余,还能对患者起到一定程度的舒缓作用,本研究引入第二音轨,根据患者主观偏好选中的环境背景自然音片段,利用渐变混合算法进行平滑过渡和拼接,形成AB-NS。最后将B-NS与AB-NS叠加,形成最终的掩蔽治疗音MT-PTMTS。

4 实验结果与分析

本研究分别从主观和客观两方面对合成的MT-PTMTS进行了评价。招募志愿者进行试听实验,验证其可听性,以主观衡量其质量;其次,基于耳鸣模型,从客观上评估了其有效性。此外,本研究对合成的B-NS、MT-PTMTS进行了1/f波动分析,并分析验证了B-NS音调变换的效果及渐变混合算法的拼接效果。

图3 渐变混合算法实现过程

4.1 音频分析

为使MT-PTMTS能匹配患者的耳鸣频段,实现个性化治疗,本研究利用PV对B-NS进行音调变换。为验证频段的有效变化,以B-NS处理前后的频率峰值为对比指标,共分析了3种生物自然音的频率峰值变化,见表1、2、3。同时,为直观显示频段变化,本研究将相同B-NS进行升降调的时频图与原始B-NS时频图进行对比,见图4。其中,3个蝉鸣片段的变调目标频段均为2.5~3.5 kHz,3个蟋蟀鸣叫片段的变调目标频段均为7~8 kHz,3个鸟鸣片段的变调目标频段分别为2~2.5、1.5~2.5、0.5~2.5 kHz,由对比片段处理前后的频率峰值可知,使用PV对B-NS进行音调变换是有效的。

实验结果表明,利用PV对B-NS进行升降调处理,均可改变自然音的能量集中频段。因此,本研究处理B-NS的方法,可根据患者的个体差异生成不同频段的B-NS,既能与患者进行个性化匹配,也能丰富MT-PTMTS的多样性。

为验证渐变混合算法在AB-NS拼接中的连续性,本研究将两段不同的海浪声音频进行拼接。在进行渐变混合算法拼接时,将前段音频尾端2倍采样率的点和后段音频首端2倍采样率的点作为混合区域进行拼接。图5、6为直接拼接和利用渐变混合算法拼接后音频的时域图和时频图对比。

图4 变调生物自然音与原始生物音的时频图对比

据图5、6实验结果可知,当对两段不同音频进行拼接时,直接拼接会导致过渡点处数据拼凑生硬、不连续性。此外,时频图中也会明显表现出音频衔接不自然的情况,导致拼接处声音的突变和不自然。反之,使用渐变混合算法拼接会存在一个混合的过渡区,使两段音频在一定时间内衔接起来,同时拼接处无明显突变、过渡更加自然。实验结果表明,渐变混合算法能确保AB-NS拼接处的连续性、平滑性。

图5 直接拼接与渐变混合拼接的时域图对比

图6 直接拼接与渐变混合拼接的时频图对比

4.2 波动分析

“1/f波动”是一种在局部呈无序状态,而在宏观上具有一定相关性且让人感到舒适与和谐的波动,介于“1/f0波动”和“1/f2波动”之间。人耳对6~8 Hz/s的颤音感觉较为舒服,因此,功率密度符合1/f波动的音频通常被认为更加自然和愉悦[22]。同时,1/f波动也可用来验证音频的相似不重复特性,即音频中不同频率分量间相对强度的分布。其在功率谱中可表示为频率f处的功率谱密度s(f)与频率f成反比的关系,见式(9)。对式(9)左右两边同时取对数可得式(10)。研究表明,当-0.5≤β≤1.5时,可认为信号符合1/f波动特性。

S(f)∝f-β

(9)

lg(S(f))∝-βlg(f)

(10)

图7 IFS序列和生物自然音映射序列的功率谱拟合曲线

图7为IFS序列映射合成的B-NS功率谱密度拟合曲线,斜率分别为-0.938 4(β=0.938 4)、-0.937 4(β=0.937 4),β值均在0.5~1.5之间,说明IFS序列本身符合1/f波动特性,且其变换后所得映射序列也未破坏该特性。图8为MT-PTMTS的功率谱拟合曲线,斜率为-1.339(β=1.339),可认为合成的治疗音MT-PTMTS符合1/f波动特性,能给人怡然悦耳的感觉。

图8 掩蔽治疗音的功率谱拟合曲线

4.3 耳鸣模型分析

为进一步验证本研究合成MT-PTMTS能否在一定程度上对耳鸣起抑制作用,本节基于文献[23]提出的自适应耳鸣模型进行了刺激分析,该模型依据人耳耳蜗中不同部分对频率响应不同的特点,将人耳听觉范围均分为20个频率范围不同的分路。当耳蜗中某一通路受损时,该通路的自发信号会被进行相应放大而形成耳鸣,对比MT-PTMTS输入前后耳鸣模型的输出时频图变化,可验证MT-PTMTS的有效性。

表1 蝉鸣片段变调前后频率峰值变化

表2 蟋蟀鸣叫片段变调前后频率峰值变化

表3 鸟鸣片段变调前后频率峰值变化

假设耳蜗中第3、8、16通路相同情况受损,图9为三条不同分路受损后分别产生中心频率为2 550、7 550、15 550 Hz(三者均为理论频率)的耳鸣;实验时长为80 s,其中,第三条听觉通路所覆盖的频率范围为2 050~3 050 Hz。本次实验输入的MT-PTMTS根据第3通路合成,其时频图见图10,可知该治疗音的频率能量大约集中在2~3 kHz。

图9 无MT-PTMTS输入时耳鸣模型输出

图10 MT-PTMTS时频图

假设患者的个性化耳鸣频段等于模型第3听觉通路所覆盖频率范围,从第20 s开始向模型输入MT-PTMTS,60 s时将其撤离。由图11可知,在MT-PTMTS输入的40 s间,耳鸣明显得到抑制,第3通路的输出功率减小,其余两通路基本无变化;当MT-PTMTS撤离时,模型输出功率随之增大,第3通路耳鸣再次复发。实验结果说明,本研究合成的MT-PTMTS能有效抑制患者对应频段的耳鸣,即达到治疗有效性的同时实现个性化耳鸣频段匹配。

图11 MT-PTMTS输入时耳鸣模型输出

4.4 试听分析

试听实验中,将文献[19]、[20]中使用的自然音与本研究的B-NS进行对比。在原音频相同的情况下,根据不同方法对其进行音调变换,合成时长为30 s的B-NS;将经PV及文献[19]方法处理的B-NS分别标记为frag_1、frag_2,将文献[20]中使用的fc-NS标记为frag_3。30名听力正常的受试志愿者在相对安静的环境中依次试听原音频、frag_1、frag_2、frag_3,完成所有试听后,分别对三个B-NS片段的几项指标在0~10范围内进行评分,将结果取平均后,见表4。

表4 自然音片段评分

试听结果表明,frag_1及frag_3均表现出良好的舒缓度,但frag_1与原音频的偏离度最低、自然音饱满度最高,具有令人舒缓且流畅的优点,与仿真结果相吻合,一定程度上改善了掩蔽治疗音的可听性。而frag_2舒缓度与流畅度均不理想,与原音频的偏离度也较大,不适合作为掩蔽治疗音。此外,试听实验将MT-PTMTS与文献[20]中合成的康复音片段进行对比,分别记为frag_4与frag_5。实验环境同上,试听过程中受试者分别对表2指标在 0~10 分范围对2种治疗音进行评分。统计平均结果见表5。

表5 治疗音评分

结果表明,本研究合成片段frag_4自然音的饱满度较高,即在治疗音时长范围内代替窄带噪声的生物自然音的占比较高,相较文献[20]合成康复音而言,能让患者拥有更丰富的治疗体验,进一步发挥自然音的效用。

5 结语

本研究提出了一种基于PV和渐变混合算法的多音轨个性化耳鸣掩蔽治疗音的合成方法。该方法通过音调变换实现了合成掩蔽治疗音中耳鸣频段的个性化匹配,其中,将传统掩蔽疗法中常使用的窄带噪声替换为生物自然音,改善了治疗音的可听性;同时加入环境背景自然声进行融合,满足患者主观偏好的同时也丰富了听觉体验。试听结果表明,本研究合成的治疗音在主观上呈现舒缓自然的效果,可满足治疗时长的需求;客观上音调变换也能匹配患者的耳鸣频段,并符合1/f波动特性;在输入耳鸣模型后,该治疗音能有效抑制对应的耳鸣频段。综上所述,本研究方法能够提供个性化的耳鸣掩蔽治疗音,改善患者的听觉体验和治疗效果,对耳鸣声治疗有一定参考价值。

猜你喜欢

频段音频个性化
5G高新视频的双频段协同传输
gPhone重力仪的面波频段响应实测研究
坚持个性化的写作
必须了解的音频基础知识 家庭影院入门攻略:音频认证与推荐标准篇
基于Daubechies(dbN)的飞行器音频特征提取
新闻的个性化写作
音频分析仪中低失真音频信号的发生方法
上汽大通:C2B个性化定制未来
推挤的5GHz频段
Pro Tools音频剪辑及修正