APP下载

不同频段时域包络在普通话语句识别中的相对权重△

2021-12-01文锦昌李可意郭洋夏俍肖丽丽柳铖棋郑重

听力学及言语疾病杂志 2021年6期
关键词:识别率频段受试者

文锦昌 李可意 郭洋 夏俍 肖丽丽 柳铖棋 郑重

言语信号中包含丰富的信息,可将其分为时域信息和频域信息两种,时域信息指随时间变化不同波动速率的言语信号中的信息。根据不同的波动速率,可将时域信息分为时域包络(temporal envelope,TE)信息、周期性波动信息和时域精细结构信息,对应的频率范围分别是2~50、50~500及500~10 000 Hz(Rosen等,1992)。既往关于TE信息的研究报道了言语识别主要依赖于低于16到20 Hz的时域信息,揭示了TE信息中的调幅信息对言语识别起到了至关重要的作用(Drullman等,1994;Shannon等,1995)。近年来,许多听力学家通过各种方法研究不同频段TE信息对言语识别的相对重要性,Shannon等[1]通过去除特定频段的TE信息来研究不同频段TE信息对安静时言语识别的影响,结果显示去除中、高频段TE信息比去除低频段TE信息的影响要低,揭示了低频段TE信息在言语识别中的重要性;Apoux等[2]采用去除特定频段和相关性分析的方法来研究不同频段TE信息的相对权重,发现较高频段(>2 500 Hz)的TE信息对噪声环境中的言语识别更为重要;Ardoint等[3]通过高通和低通滤过的方法对TE信息进行研究,结果表明1 000~2 000 Hz频段的TE信息对于单音节词的识别更为重要。既往关于TE信息的研究多基于英语等非声调语言,而关于普通话的研究很少。

目前对于重度及以上程度感音神经性聋的人工耳蜗(CI)言语处理策略是基于英语等非声调语言的特点设计的,没有考虑普通话言语的特点。Guo等[4]研究发现频段1(80~502 Hz)和频段3(1 022~1 913 Hz)的TE信息对于普通话语句识别比其它频段更为重要,但这与Ardoint等[5]的研究差异较大,后者的研究认为对英语识别来说,1 800~7 300 Hz频段的TE信息对英语识别较其他频段更为重要。关于两项研究出现差异的原因,除了语言不同之外,还有提取TE信息方式的不同。为揭示提取TE信息的带宽不同是否会导致言语识别差异,本研究在以往研究的基础上,提取了不同带宽的TE信息,并将提取的TE信息合成5个频段,评估不同带宽TE信息的不同频段在普通话语句识别中的相对权重。

1 资料与方法

1.1研究对象及分组 本研究共招募了20例来自上海交通大学的正常听力受试者(男、女各10例),年龄21~28岁,平均24.40±2.07岁;所有受试者均以普通话为母语,既往无耳科疾病史。所有受试者在入组前均完善了纯音听阈测试,250~8 000 Hz双耳纯音气导听阈均≤15 dB HL;所有受试者在受试之前均没有接触过言语测试的语句材料,每位受试者的测试时长在1.5至2小时左右。将招募的20例受试者随机分成2组,每组10例,分别接受1.5和3个等效矩形带宽(equivalent rectangular bandwidth, ERB)提取的TE信息的言语测试。

本研究获得上海交通大学附属第六人民医院伦理委员会批准。所有受试者同意参与本次研究并签署知情同意书。

1.2言语测试材料及信号处理 采用House耳研所研发的普通话噪声下言语测试词表(Mandarin hearing in noise test,MHINT)作为言语测试材料[6],MHINT包含15个词表,每个词表有20个语句,每句话有10个关键字,每个词表的难易度都经过了等效平衡。首先将原始言语信号经过傅里叶变换,转换后的频域信息按照1.5和3个ERB经过带通滤波器分成不同频带,每个频带经过Hilbert转换提取TE信息,将不同频带的TE信息按照截止频率合并组成5个频段(表1)。带通滤波80~7 562 Hz,通过Hilbert转换提取每个频带的 TE 信息,并将其低通处理,低通滤波器截止频率设置在64 Hz,斜率为62 dB/倍频程。用TE调制窄带噪声重构声音信号,同时为了防止受试者利用相邻频段的TE信息[7],将不含有TE信息的频段填补信噪比为+16 dB的白噪声,白噪声也通过相同的带通滤波器,分成对应频段掩蔽白噪声,以起到掩蔽作用;例如,频段1条件的刺激声包含频段1的TE信息以及剩余频段(频段2~5)的白噪声;类似的,频段1+2条件的刺激声包含频段1和频段2的TE信息以及剩余频段(频段3~5)的白噪声;频段1~5条件的刺激声包含所有频段的TE信息,没有白噪声。本研究中的测试条件包括单频段(5个测试条件)、双频段(10个测试条件)、全频段(1个测试条件),与既往研究[4]相同。在每个条件下对受试者进行言语识别测试,得到每个测试条件下的言语识别率。

因为MHINT包含15个词表,但测试需要16个词表,练习需要4个词表,研究时将词表1~5在一例受试者分别测试单频段和双频段两个不同的条件。预实验中分别测试了2组各10例受试者,一组先使用词表1~5进行单频段测试,接着使用词表1~5进行双频段测试;另一组用词表1~5仅进行相邻双频段测试,使用独立样本t检验进行统计分析,两组受试者的相邻双频段的言语识别率差异无统计学意义(P>0.05),这是因为单频段所提供的TE信息极少,并不对同一受试者之后再次使用造成学习效应。所以使用词表1~5测试单频段的5个受试条件、词表1~10测试双频段的10个受试条件、词表11测试全频段的1个受试条件,词表12~15用作正式测试前的练习材料。

表1 不同带宽提取TE信息5个频段各频带截止频率

1.3测试步骤 所有测试圴在标准隔声室内进行,使用森海塞尔HD 205 II耳罩式耳机播放测试声,给声强度根据受试者最舒服的声强而定,一般在65 dB SPL左右。正式测试前,先进行30 min左右的练习,练习的刺激声从MHINT的4个词表(词表12~15)中选取,首先让受试者听取全频段的声音,然后播放只含有测试条件下的声音;练习时给予受试者正确答案的反馈。为了让受试者更加熟悉测试材料,可以对同一句话反复多次试听,直到觉得自己进入稳定状态后,再进入下一句话的试听。

正式测试时,随机选取不同条件的测试声进行测试,并允许受试者多次听取同一句测试声,受试者需要尽可能准确重复语句里关键字,可以猜测,不给予受试者任何测试结果的反馈。受试者可以随时休息,个体测试时长1.5~2小时。

1.4统计学方法 采用SPSS 22.0对实验数据进行分析,使用单因素方差分析不同带宽切割下的TE信息的组内差异及不同频段平均权重的差异,两两比较采用Tukey检验。使用t检验分析不同带宽切割下TE信息的组间差异及两组TE信息的不同频段在普通话语句识别中相对权重的差异。使用最小二乘法[8]计算不同带宽下不同频段TE信息在普通话语句识别中的相对权重。首先,将每个频段定义为一个二进制值,该二进制值是0或者1取决于该频段的包络信息是否呈现给受试者;然后将每个频段进行的线性组合来预测受试者言语识别率,通过最小化所有预测误差的平方和来计算各频段的权重。每个受试者的五个频段的原始权重进行归一化,即每个频段的相对权重表示为原始权重除以这个所有频段权重之和,因此,五个频段的权重之和等于1。

2 结果

2.1不同带宽下单频段TE信息的言语识别率(图1) 在1.5ERB切割条件下的TE信息以单频段条件给声时,言语识别率为3.90%~4.60%,组间无显著差异〔F(4,45)=0.279,P=0.89〕。在3ERB切割条件下的TE信息以单频段条件给声时,言语识别率为4.00%~4.80%,组间无显著差异〔F(4,45)=0.781,P=0.54〕。t检验1.5ERB和3ERB切割提取的TE信息以单频段呈现时的言语识别率均无显著差异(P>0.05)。

2.2不同带宽下双频段和全频段TE信息的言语识别率(图2) 在1.5ERB切割条件下的TE信息以双频段条件给声时,言语识别率为32.50%~85.40%,组间存在显著性差异[F(9,90)=25.567,P<0.05];进一步采用Tukey检验进行组间比较,发现频段2+3、频段2+5得分均显著小于其它组,频段1+5、频段1+3、频段3+4和频段1+4得分均显著高于其它组。在3ERB切割条件下的TE信息以双频段条件给声时,言语识别率为22.60%~82.50%,组间存在明显差异[F(9,90)=41.095,P<0.05];进一步采用Tukey检验进行组间比较,发现频段2+5、频段4+5和频段2+4得分均显著小于其它组,频段1+3和频段3+4得分均显著高于其它组。t检验示,不同带宽下的TE信息以双频段呈现时的言语识别率除了频段2+3、频段3+4和频段3+5无显著差异外(P>0.05),其它所有的频段组合中以1.5ERB切割TE信息的言语识别率均高于以3ERB切割TE信息的言语识别率(P<0.05)。当测试声以全频段TE信息呈现时,无论是以1.5ERB切割还是以3ERB切割,言语识别率均为100%。

图1 1.5ERB和3ERB切割下单频段TE信息的言语识别率

图2 1.5ERB和3ERB切割下双频段和全频段TE信息的言语识别率

2.3不同带宽下不同频段TE信息在普通话语句识别中的相对权重(图3) 在1.5ERB切割TE信息中,频段1~5的平均权重分别为0.28、0.08、0.21、0.25和0.18,单因素方差分析提示组间有显著差异[F(4,45)=57.476,P<0.05],Tukey检验提示频带1、3、4的权重显著高于频带2和5。在3ERB切割TE信息中,频段1~5的平均权重分别为0.29、0.05、0.32、0.21和0.14,单因素方差分析提示组间有显著差异[F(4,45)=105.037,P<0.05],Tukey检验提示频带1、3、4的权重显著高于频带2和5。使用t检验比较两组TE信息的不同频段在普通话语句识别中的相对权重,除了频段1的权重无显著性差异(P>0.05),其他频段的权重均存在显著性差异(P<0.05)。

图3 不同带宽下不同频段TE信息在普通话语句识别中的相对权重

3 讨论

本研究测试了安静环境下不同带宽TE信息在不同条件下的言语识别率,当TE信息以单频段呈现给受试者时,两组受试者的言语识别分数为3.90%~4.80%;然而,当双频段的TE信息组合在一起呈现给受试者时,其言语识别率为22.60%~85.40%,这比分别单独展现这两个频段的言语识别率相加之和还要高,这种协同作用在言语识别中很早就已经被发现了[4,9],本研究也再次证明在声调语言汉语中也存在协同作用。Healy等[9]发现结合两个单一频段的TE信息,会让原先不能理解的言语变得可以理解,这种作用与人工耳蜗非常类似,当人工耳蜗从单通道变成双通道时,就会提升其听辨效果。本研究发现1.5ERB和3ERB切割提取的TE信息以单频段呈现时的言语识别率约为4%,组间均无显著性差异,然而当TE信息以双频段呈现时,随着切割宽度的增大,言语识别率呈下降趋势,可能是由于TE信息的减少导致。当TE信息以全频段的形式呈现给受试者的时候,所有的受试者在此测试条件下的语句识别都非常好。这项结果与既往研究一致,在安静环境下TE信息能帮助听者获得足够的言语理解度(Shccnnon等,1995;zeng等,2004)。

本研究通过最小二乘法计算了不同频宽TE信息的对于汉语普通话识别的相对权重,结果示频段1(80~585 Hz)的权重显著高于其他频段,说明低频段的TE信息对于汉语普通话识别是非常重要的,与Guo等[4]的研究结果一致。原因是频段1的TE信息和其他频段的TE信息结合时,协同效应最明显。同时,汉语作为声调语言,声调在汉语言识别中贡献巨大,因为单音节间的不同声调可以包含不同的词汇意义[10],而声调识别主要依靠的是基频(F0)信息的变化(Whalen等,1992;Yuan等,2009)。Kuo等[11]发现F0信息存在时,听者可以连续获得大于90%的音调识别正确率。考虑到基频信息的频率(<180 Hz)主要是在低频段,其在声调识别中具有重要作用,并且声调识别对于汉语普通话的言语识别也非常重要,因此,低频段的TE信息在普通话语句的识别中应该占有更高的权重。

本研究结果显示频段3(894~1 913 Hz)的TE信息对于普通话的言语识别较为重要,与之前研究结果也一致,Kasturi等[8]通过去除特定频段方法发现当移除中心频率在1 685 Hz频段的TE信息时,元音和辅音的识别都会下降;一项关于TE信息交叉频率的研究发现男生的交叉频率在1 421 Hz,女声的交叉频率在1 329 Hz,表明1 500 Hz左右频段的TE信息对言语识别更为重要[3]。另外,频段4(1 913~3 856 Hz)的TE信息对于普通话的言语识别也较为重要。既往研究发现,高频段(1 800~7 300 Hz)的TE信息对于辅音的识别贡献最大[12],辅音的特点是快速、瞬时的振幅变化[13]。高频TE对于辅音线索识别可能是特别重要的[14],Ardoint等[5]研究发现高频段(1 845~3 726 Hz)与其他频段TE信息结合时的语句识别率更高,表明高于1 800 Hz频段的TE信息在言语识别中起到重要的作用,这可能解释频段4对普通话语句识别的重要作用。

Guo等[4]研究发现在1ERB切割下的TE信息中频带1~5的权重分别是0.25、0.18、0.22、0.20和0.15。本研究中1.5ERB和3ERB切割下的TE信息中频带1、3和4对于言语识别贡献均较大;随着切割宽度增加,频带2的权重逐渐减少,这可能是由于频带2所包含的频率信息比其他带宽少,切割方式对其影响最显著。

知晓不同带宽提取的低频、高频TE信息对于正常听力人群的言语识别较为重要,有助于修正人工耳蜗的编码策略,可以利用这些权重更高的频段的言语信号,调整人工耳蜗的对应电极,在有限电极内排布对言语识别贡献最多的频段,改善其最佳使用效果。本研究存在一定的局限性:仅聚焦于正常听力人群的言语识别,对于听力损失人群的TE信息不同频段的权重尚未知晓。感音神经性聋患者一般都缺乏分辨声音频率的能力[15],对于不同频段的时域信息的整合能力有限[16],所以人工耳蜗植入患者与听力正常人群的不同频段TE信息的相对权重可能存在一定的差异,需要进一步对听力受损人群进行研究。

猜你喜欢

识别率频段受试者
涉及人的生物医学研究应遵循的伦理原则
涉及人的生物医学研究应遵循的伦理原则
浅谈新型冠状病毒疫情下药物Ⅰ期临床试验受试者的护理
5G高新视频的双频段协同传输
gPhone重力仪的面波频段响应实测研究
疫情下普通患者应如何进行肺功能检查?
雷声公司交付首套中频段下一代干扰机
档案数字化过程中OCR技术的应用分析
基于PCA与MLP感知器的人脸图像辨识技术
科技文档中数学表达式的结构分析与识别