APP下载

数字三联音测试规范及其在老年听力筛查中的应用

2020-10-14傅鑫萍郗昕张敏

中国听力语言康复科学杂志 2020年4期
关键词:三联信噪比言语

傅鑫萍 郗昕 张敏

老年性听力损失已经成为社会老龄化趋势下需要密切关注的问题。胡向阳等[1]对我国4省听力障碍流行现状调查发现,我国听力障碍标准化现患率为15.84%,其中60岁以上老年人占55.31%。老年人听力下降主要表现为双耳对称的渐进性听阈提升和言语分辨能力下降。前者需要用标准纯音测听反映,而后者则需要用言语测听结果体现。特别是噪声下言语测试[2],能直观反映听觉系统对日常环境言语的辨别能力,并预测助听干预的效果[3,4]。言语测听结果与纯音测听结果的关联度并不明确[5],提示这两种测试评估了听觉功能的不同方面,不能相互取代。

我国目前已开发了几种中文版噪声下言语测试材料。黄丽娜等[6]编制的汉语普通话版噪声下听力测试(mandarin hearing in noise test,MHINT)材料,是首个标准化汉语普通话语句识别率测试材料。郗昕等[7,8]编制了嘈杂语噪声下汉语普通话语句识别表和嘈杂语噪声下普通话儿童语句测听表。陈艾婷等[9]和任丹丹等[10]仿效英文版Quick SIN(quick speech-in-noise)材料特点,各自选取了适合儿童和成人的汉语普通话语句材料,编制了两套普通话版的噪声下言语识别速测表。胡红梅等[11]基于国际康复听力学执委会(international collegium of rehabilitative audiology,ICRA)的规则,开发了中文普通话矩阵式语句测听材料。此外,还有少数方言版本的噪声下言语测试材料[6],以满足各地临床和科研的需要。

然而,我国幅员辽阔,方言众多,不同地区所用言语测听材料并无统一规范。由于受试者的应答均为开放式复述形式,因此对言语检查者的专业性和方言理解能力要求较高。老年人文化程度和认知能力会影响词/语句类测试的可靠性,加上受测试环境、设备、材料可及性等限制,噪声下言语测试还仅用于临床科研,尚未普及推广到基层社区。我国公众对老年性听力损失知晓率和干预率极低,为避免增加医疗、养老等社会经济负担,亟需一种高效、简易且经济的噪声下言语测听工具问世。

1 数字三联音测试(DTT)的发展

WHO和ICRA倡议DTT可作为一种国际性筛查型言语测听方法[12]。

上世纪60年代,Miller[13]就采用数字和词语作为测试材料,探讨不同内容的语音测试材料对噪声下言语可懂度的影响。在所有语音材料中,数字内容的语音最容易被辨认,获得50%识别率时所需的信噪比可以低至-14 dB,比其它语音材料的识别阈约低10 dB。通过座机电话进行数字三联音测试最早于2004年由荷兰Smits[14]提出,考虑到电话频宽的限制,Smits等于2006年正式出版了互联网端DTT(使用耳机进行测试)[15]。基于荷兰语版本,目前已经开发了十几种语言版本的DTT。据报道,北京同仁医院于2012年3月发布了北京地区普通话电话测听方案,但尚未有相关实验数据发表。目前家庭座机电话的使用率日渐减少,该方法是否适合大规模筛查有待讨论。亓贝尔等[16]初步探讨基于互联网的噪声下数字识别阈测试作为成年人听力筛查工具的敏感度和特异性。该实验在对34例听力正常人和16例感音神经性聋患者进行测试后分析发现,以-0.95 dB为最佳诊断截点时该测试材料发现感音神经性聋的灵敏度可达93.8%,特异性达94.1%。为顺应这一通讯技术的变化,WHO也推出了英文版DTT的手机应用“HearWHO”供免费下载使用。

DTT采用各国语言中0~9十个数字的标准发音,以人机交互自适应的方式变换测试语音的信噪比,达到快速筛查聆听者噪声下言语识别阈的目的。其优点在于:①DTT作为噪声下言语测试属于阈上测试,对测试环境的要求较低;②言语识别阈(即言语识别率为50%时的信噪比)为相对值,较少受到测试刺激声绝对强度的影响,对于设备校准的要求相对低;③DTT的应答选项局限于0~9十个数字,属于闭合式测试,无须测试者介入,受试者直接输入应答,可实现自动化筛查,解决专业测试人员匮乏和应答判断误差的问题。同时言语识别阈值可以在几分钟内采用自适应程序精确计算,节省测试时间[17];④采用数字作为测试材料,可缩小不同方言带来的言语差异性影响,减少测试误差;⑤测试过程简易,无需经过特殊的指导和训练;⑥该测试能够较敏感地探测听力损失[14]。DTT和作为听力诊断金标准的纯音测听结果之间存在较高的相关性,相关系数为0.77~0.80[14,18,19]。

2 DTT测试材料

尽管不同语言中10个数字的发音存在差异,但有些参数可以加以规范统一,以便尽可能减少语言差异对测试造成的影响。如欧洲国家的DTT均在欧盟委员会资助的HearCom项目下开展[20],旨在为欧洲语系创建一个统一的标准。本文总结了HearCom项目组[21]和ICRA推荐的参数值[12]。

2.1 数字选择

选用0~9共10个数字,保留发音为单音节的数字,剔除多音节数字,使测试更简单。虽然数字10在中文里也是单音节,但考虑到受试者应答界面上数字键排列需符合大众习惯,因此仅选取个位数0~9。单一1个数字在10个数字选项中被随机猜中的机会概率较高(1/10),为提高测试的准确度和效率,同时避免数字串过长超过了受试者的认知(如记忆力)负荷,研究者决定采用由3个数字组成的三联音数字串作为测试项[22]。三联音是将3个不同的数字随机排列组合,同一测试列表中保证每个数字出现在三联音不同位置的比例相同,包括首位、中位和末位,例如三联音中的数字3:213,342,438。

2.2 测试音录制和剪辑

由于DTT最终反映的是个人日常言语辨别能力,所以对于测试材料录制者的要求可稍降低,不一定要求专业的播音员,只要发音自然标准的母语人士即可,一般选用女性朗读者较多。如果某个国家的某种方言可被大多数人群所接受,也可以录制方言版本。

语音录制时朗读者采用日常自然语速和中性语调,HearCom项目组建议朗读语速为120个音节/分钟[21],ICRA推荐约200~350个音节/分钟,具体应根据不同语言进行调整[12](如中文240字/分钟,俄语200字/分钟,西班牙语327字/分钟)。

在进行语音录制时,朗读者一次读3个数字,由于说话习惯,通常最后一个数字的发音会比第一个数字弱。荷兰语DTT为了校正三联音发音强度降低,人为地将每串三联音的幅值线性增加(第一个数字到第三个数字增加3.5 dB)。

对于任何一种语言,随机排列产生的三联音组合类型都较多,难以一一录制,无法保证同一个数字在不同三联音中发音一致,导致言语可懂度的变异度增加,降低测试效率。相反,若录制小批量的三联音,再重新排列生成多组三联音则可以避免这些问题。因此,ICRA多语言言语测试工作组在参考ISO 8253-3:2012“声学-测听方法-第3部分:言语测试”(GB/T 16296.3-2017与之对应)的基础上,对开发不同语言版本的言语测试材料做了更详细的补充。先将录制好的小批量三联音中的每个数字单独剪切出来,再重新编辑合成大批量新的三联音,同时不改变该数字原来在三联音中的位置。这种方法确保了每个数字在被单个剪切后仍能保留原有的韵律,使得最终的测试材料听起来自然一致。重新组合后的三联音,单个数字间隔200 ms,在每串三联音前160 ms的位置增加提示语“数字”两字,提示语的强度比三联音大2 dB,使其容易被听到。

2.3 掩蔽噪声选择

言语测试最有效的掩蔽声是与该言语材料的功率谱完全匹配的言语谱噪声[23]。在众多的DTT版本中,掩蔽噪声通常采用言语谱噪声。最早的荷兰版和英文版DTT采用长时平均语谱(long-term average speech spectrum,LTASS)作为言语谱噪声,德文、法文和瑞典语版本也沿用LTASS作为掩蔽噪声[12,20,24]。数字三联音测试的LTASS噪声生成方法通常是对一个个或一串串数字经30倍随机叠加,每个数字间的停顿间隔不定(5~2000 ms),最后形成具有与测试音相同时长的平均频谱噪声。

对平均频谱噪声进行滤波处理可能会影响数字三联音测试的敏感性和特异性,但既往研究结果不一。Charlotte等[25]发现,宽带掩蔽(DTT broadband,DTT BB)噪声和低通滤波(DTT low pass,DTT LP)噪声在筛查40~60岁中年人高频听力损失方面具有一致的敏感性和特异性,但前者对不同年龄段人群测试结果的可靠性更强。而Leensen等[26~28]则发现采用低通滤波噪声作为数字三联音测试的掩蔽噪声对于高频听力损失的筛查有更高的敏感性。更多重复验证性研究有待开展,为临床实践提供更有力的依据。

在正式测试时噪声比信号声早500 ms出现,晚500 ms结束。测试时噪声强度多采用65 dB SPL,处于55~75 dB SPL范围内都可以。

2.4 材料同质性优化测试

为了达到最优的测试效率(即用最少的测试时间达到最高的测试精度)和等价性(包括同一语种版本的若干张测试表之间以及不同语种间的平均测试结果之间的可比性),参照Kollmeier等[29,30]的概率模型,采用心理测量学方法测定并调整单串三联音的可懂度函数。该优化过程最终能够使整张数字串测试表的言语可懂度函数斜率达到最大[31]。从而实现言语识别阈测试结果在统计学上最高的精度和复测信度。

根据Kollmeier等[29,30]的概率模型(见公式1和图1),整张测试列表(一般为23串三联音)可懂度函数曲线斜率Slist由独立数字串的可懂度函数曲线斜率Sdigit(与每串三联音的可懂度函数曲线的导数相关)及其识别阈的SRT标准差决定。即当独立数字串的可懂度函数越趋同(即识别阈标准差越小),整张数字语音测听表的可懂度函数曲线就越陡峭,其统计学精度便越高。

Slist代表整张数字语音测试表的可懂度函数斜率,Sdigit代表单串三联音的可懂度函数斜率,σSRT代表言语识别阈标准差,σdigit代表单串三联音言语识别阈标准差。

平均的数字三联音的可懂度函数与其言语识别阈值分布之间进行卷积计算(图1中用*表示),可以预测整张数字语音测听表的可懂度函数的斜率。当构成整张测听表的全部三联音数字串的言语识别阈标准差越窄,则整张数字语音测听表的可懂度函数越陡,测试精度越高。

在进行同质性优化测试时,对健听人群进行不同信噪比下的DTT测试,以Logistic型函数公式2[21]拟合测得的数据,即可获得特定数字的可懂度函数曲线。

SI(SNR)代表特定信噪比对应的言语可懂度指数,y是单个数字的机会概率(例如测试应答界面为0~9十个数字,则y=0.1),SRT代表该数字语音的识别阈值,SNR代表特定信噪比。

使用此方法进行优化,可以获得独立数字串所对应的可懂度曲线的斜率和言语识别阈值,有效精确地对数字串中的单个数字进行调整,以此获得整张测试表的较大斜率值。

3 DTT测试步骤

DTT采用噪声强度固定(多采用65 dB SPL,初始信噪比通常为-10 dB SNR)而改变数字三联音刺激声的自适应方式,根据受试者每次听到刺激声后应答的正确与否,以预设的步阶(2 dB SNR)降低或增加下一刺激声的信噪比水平。只有当三联音中的3个数字都回答正确时才被算法判定为答对。根据多组三联音数字串测试强度的起伏轨迹,计算平均信噪比即为DTT结果——噪声下数字识别阈,单位为dB SNR。

4 DTT结果计算

测试材料优化时,结果计算方法并不是以数字三联音的得分为依据,而是每个数字的得分,以便获得关于每个数字对于测试结果影响的详细信息。但最终临床进行DTT测试时,则采用数字三联音得分作为结果呈现。根据第5~24串数字三联音的平均信噪比计算最终识别阈值。实际测试时第24组三联音虽没有要求受试者在测试界面进行应答,但是第24组三联音的刺激声强度已经根据受试者对第23组测试的正确与否将结果算入最终SRT计算公式中,这与黄丽娜等[6]的MHINT测试计分方法类似,如图2所示。

5 临床应用

WHO和ICRA倡议DTT可作为一种国际性筛查型言语测听方法[12]。目前,临床上对多频率点纯音听阈的测量及言语测听,需使用严格校准的听力计和训练有素的操作人员,虽然已通过人工智能算法找到了简化纯音测听步骤以筛查中度以上听力损失的方法[38],但其对硬件的成本要求较高;基于标准言语测听的简化筛查方法尚未建立,因而均不能推广至社区人群的听力筛查。常规纯音测听难以反映听觉系统更高层次的言语感知以及降噪功能。

表1 不同语言版本的数字三联音测试结果的正常参考值

DTT的出现使得高效率、低成本的听力筛查成为可能,并已在欧洲许多国家得到验证和推广应用。测试时间大幅度缩减,仅需几分钟就可完成自动筛查。即使是老年受试者,也无需专业人员指导,便可自行在手机等智能终端根据操作提示完成测试,且对测试环境要求不高。学者为各语言版本制订了统一的参数标准(见表1),增强了跨语言听力研究的可比性。前期的研究结果为创建中文版DTT提供了宝贵参考。

由于噪声下聆听困难是感音神经性听力损失患者最早出现和最典型的临床表现,在老年性听力损失问题日益严峻的形势下,DTT可广泛用于基层老年人听力筛查。在进行初步听力筛查建立听力损失转诊指标的同时,可以通过大范围听力筛查提高老年人听力健康科普意识,实现老年性听力损失早发现、早诊断、早干预的目标。

研究发现DTT在用于检测和监测早期高频听力损失中表现出较高的高灵敏度和特异性。由此可将DTT运用于强噪声工作环境下工人的听力监测[15],以及由娱乐风险引起的青少年噪声性听力损失中,同样也非常适用于社区老年听力损失的早期发现。

目前大多数DTT研究都集中在成人听力筛查,“HearWHO”APP的推荐年龄也为16周岁以上。该测试在儿童中使用是否具有同等敏感性和高效性,尚有待研究[39]。

DTT的推出使得大范围基层听力筛查成为可能,为听力健康科普提供新的工具。参照国际统一的DTT创建流程和标准参数,开发中文版DTT测试工具应成为中国听力学发展的下一步目标。

猜你喜欢

三联信噪比言语
“一站式”三联CTA诊断急诊胸痛的临床意义
两种64排GE CT冠脉成像信噪比与剂量对比分析研究
言语思维在前,言语品质在后
基于经验分布函数快速收敛的信噪比估计器
山西浮山县:“三联模式”打造生猪品牌
中西医结合治疗毛囊闭锁三联征2例
自跟踪接收机互相关法性能分析
基于深度学习的无人机数据链信噪比估计算法
澳门歌剧“三联篇”之旅
《世说新语》中的“言语”趣味故事