用AI让听障人群感受声音
2022-03-14李叙瑾
李叙瑾
在被吸音绵包裹的消音室,天籁实验室的研究员正在训练算法识别各种声音。
因为仍在传播的新冠疫情,如今,人们似乎都已习惯了随时佩戴口罩。很少有人关注的是,这一抗击病毒的好习惯,有可能让听障者举步维艰—即便用上听力辅助工具,在嘈杂的室外环境中,听障者在和人沟通时也总会下意识地紧盯对方嘴唇,试图读懂唇语以辅助理解。而口罩,可能让唇语在公共场合消失。
正常人耳中拥有1.5万个听觉细胞,它们直接与大脑相连,由此人类能从几十种环境声音中自觉捕捉到需要放大的那一项。听障者耳中却仅存几百个听觉细胞,为了让大脑获得听觉刺激,它们会拼命放大包括噪音在内的一切声音。
然而,如今普遍使用的辅听设备—无论是放大声音的助听器,还是将外界声音转换成电信号(着时间而变化的电压或电流)的人工耳蜗,在面对复杂的声学场景时,都不太能从嘈杂的环境中直接还原出自然的声音。即使戴上动辄十几万元的人工耳蜗,听障者也无法感受到千奇百怪的虫鸣鸟叫。
世界卫生组织发布的《世界听力报告》显示,目前全球有15亿人受到听力损失影响;到2050年,预计至少7亿人需要听力康复服务。当听力受损成为一种普遍疾病时,技术必然会推动人们寻求新的解决办法。
比如腾讯天籁实验室就研发出一款人工智能(AI)降噪算法,它会吸收环境里的众多声音,筛选出环境噪声和与会者的话语,然后消除前者,针对性地增强后者。这款降噪算法目前主要搭载在腾讯自己的在线会议平台腾讯会议上,与会者会置身于各种场景—高铁、超市、咖啡厅乃至自家厨房中,但终端另一侧的人基本不会感知到他们所处的嘈杂环境。
天籁实验室有一个专门的被吸音绵包裹的消音室,这里充斥着研究员用录音笔和声卡捕捉到的各种噪声—键盘声、关门声、纸巾的摩擦、杯子碰撞桌面的声音……研究员会将这些聲音交由AI算法,通过学习,AI能像人耳一样分辨它们。
天籁实验室的研究员一直在思考如何将这种AI降噪与场景识别技术运用到其他领域。该实验室的技术曾搭载在腾讯一款针对听障用户居家问诊需求的线上测听调音小程序上,这让研究员产生了将其放到人工耳蜗上的想法,他们找到耳蜗厂商诺尔康合作,一起进一步帮助听障人士。
然而在具体执行时,天籁实验室发现,人工耳蜗给AI算法带来的挑战远大于应用在诸如腾讯会议这样的在线会议软件中。
由于佩戴者在实际生活中面临的环境比开会时复杂得多,人工耳蜗不能只是做到“减少噪音、增强人声”。
“不是人声越大、环境声音越小越好,比如日常出行,在地铁上就要听到报站,以及适当的过往车笛声。”天籁实验室研究员肖玮对《第一财经》杂志说,“我们所做的事情并不是为了抑制噪声,而是为了增强我们想听的声音。”肖玮在音频技术行业拥有15年经验,专注于语音增强、心理听觉建模等研究。
肖玮他们的解决方法是,先找到算法的普适能力,即尽可能还原人耳所能覆盖的各种场景,再让AI通过深度学习学会区分场景,并根据不同环境给出相匹配的反应—日常单人对话、安静场合聆听音乐、纯噪声场景的马路和市场,以及带有噪音的语音场景,例如聚餐和会议,就需要靠4种截然不同的方案提升耳蜗佩戴者的听音效果。
对于助听翻译眼镜来说,很重要的一点是实现“音字同步”的效果。
最终,诺尔康的试验检测数据显示,天籁技术与人工耳蜗结合后,语音平均识别率达到96.28%,其中带噪语音识别率为93.38%,环境噪音中声音识别率达到94.24%。
在提高识别率之外,更重要的是植入带有AI技术的人工耳蜗能让听障者“听”到此前无法感受到的丰富声音。比如佩戴普通人工耳蜗的听障者是无法欣赏音乐的—从声学角度看,相比人声,音乐的振动与噪音更加接近,所以常被人工耳蜗视为需要“去除”的部分。
经过学习的AI算法解决了这个问题:纯音乐的场景中,它能完整保留音乐旋律;在比较敏感的频段,它还会增强音乐旋律和音色。
除了让听障人士能更清楚地“听到”声音,AI技术其实还可以帮助他们通过“看到”声音,与外界更好地沟通。
成立8年的增强现实(AR)眼镜公司亮亮视野,正在尝试在产品上搭载AI字幕翻译系统。
2020年年初,在与相关公益组织的一次交流中,亮亮视野的产品设计总监刘天一了解到,很多先天失聪的孩子因为无法有效接触外界信息,甚至连肢体发展都出现了障碍,这让他很受触动。
而来自外界的被动信息有时会比听障人士自主接收的信息提供更多的内容,比如走在街上路人随口一句“天快下雨了”,对于听障人士来说,这个重要内容就很可能被遗漏。
所以,刘天一决定改造团队后于2020年年底发布的一款面向企业端的AR眼镜。这款眼镜镜片采用亮亮视野自研的双目光波导AR技术,这使得即便在阳光下,呈现在佩戴者眼前的内容也可以清楚显示;镜腿略宽,下接一根可以连接手机的电线,手机提供电池供应,并与一款名为“可译”的翻译App自动连接。
这款专门服务于听障群体的助听眼镜,搭载了字节跳动旗下的火山引擎,而火山翻译是火山引擎的核心AI能力之一,它通过神经网络机器翻译技术开展模型训练,可以让语音识别、自动断句和机器翻译等功能表现得更加优异。
对于助听翻译眼镜来说,很重要的一点是实时性。为此,亮亮视野的这款产品配备了AI处理芯片,以尽可能接近“音字同步”的效果。“字幕显示至多半句话延迟。”刘天一对《第一财经》杂志说。
不过这枚算力强大的芯片,也给刘天一团队带来了一些困扰。安装到AR眼镜上时,它出现了散热、耗电不匹配的问题,这让团队不得不从各方面尽可能降低延时与耗电。“就像做加减法,减掉我们原先面向B端时成熟但不合适的地方,再针对听障人群的需求做一次加法。”刘天一 说。
比如,为了更方便听障人士,团队通过调研,在保障语音翻译足够准确、字体观看效果足够清晰的前提下,对文字选择、字体大小、显示位置都做了调整。
此外,这款AR助听眼镜还有环境音智能识别、人名唤醒等功能。“听”到佩戴者的名字后它能自动给出提示,这让听障人士在医院、民政窗口等公共场所可以更方便地办事。
天籁实验室也在芯片上遇到了问题:其研制出的满足需求的算法程序太大了。一开始,程序无法被塞进位于人工耳蜗中央的那枚微小的芯片中。后来,团队想到了通过手机处理器和蓝牙协议连接程序的办法,并最终确立了人工耳蜗+手机伴侣的架构。但同样,为了缓解由此带来的延时问题,团队必须尽量精简耗电的功能。
目前,天籁实验室的AI音频技术免费开放给公益开发者、设备厂商、NGO及相关行业,这意味着,这一技术不仅可以用在人工耳蜗,未来还有可能植入手机、耳机中,服务对象也可从听障人士扩展至听力逐渐衰退的老年人群体。
而亮亮视野的第一代AI助听眼镜原本是专为研究开发的,因为测试时不少听障人士表示它的确在生活中帮了大忙,亮亮视野决定将其推向市场,听障人士拿着国家认证的听力障碍残疾证明能以3999元的价格买入—产品的成本大约是1.2万元。
当然,无论是腾讯和诺尔康的AI人工耳蜗还是亮亮视野的AI助听眼镜,目前都远非完美产 品。
肖玮和他的团队如今每一至两周就要迭代出一份新版本的程序,但仍有一些当前技术还无法解决的难题。
比如他们的这款人工耳蜗可以让听障人士欣赏纯音乐,但面对一首由人声演唱的歌曲时,眼下它依旧无法展现歌曲的原貌—器乐和人声混杂在一起,超出了当下算法的处理能力。
另外,听障人士的病因和病情各不相同,对人工耳蜗的适应性也由此存在着差异。有的用户佩戴人工耳蜗时可能突然就听不到了,降低人工耳蜗的电刺激强度后声音才“回来”—人的神经系统藏着各种医学专业人士至今都未彻底揭开的奥秘。
對于刘天一团队来说,如今稍显笨重的助听眼镜怎样做到和普通眼镜没有区别,是他下一步要解决的问题。目前,它还只能连接安卓设备,苹果手机因为接口标准不同暂时不支持,“大概今年还会出新一代的助听眼镜,它会是无线的一体机,能支持的机型更多,而且佩戴感受也会提升不少。”刘天一说。
至于在AI算法上,助听眼镜也仍有许多提高的空间。更好地适应复杂环境背景,进一步拓展语料库,引入手语识别、助听技术,并提供除交流以外的更多使用场景等等,刘天一都列入计划表了。
从不完美到逐渐趋于完美也正是AI的特性之一:只有让它学习得足够多,积累了足够的用户使用习惯和环境场景等数据,它才能拥有更强的适应和推导能力。
肖玮和刘天一都相信,随着计算机每秒几亿次的高速运算,总有一天,冰冷的技术会更加善解人意,并让听障人士以不同方式接触到无限接近真实的所有声音。
3026500338294