AI助力,说出人生“第一句”
2023-09-11张静
张静
通过AI 产品,陈薇使用自己原声跟顾客交流
在杭州市西湖区浙江省残疾人联合会旁边,有一个帮助残疾人就业的网红街区——马塍路残疾人融合就业街区。这里的7个沿街店铺开设4类门店:经营面包、蛋糕、咖啡的“筑梦烘焙”,经营快剪的“无声发艺”,盲人推拿,还有以残助产品销售为主的直播带货门店。这里的工作人员基本都是残障人士,近半是听障者。
近日,街区迎来喜事——“无声发艺”店铺里,听障美发师用自己的声音说出了“人生第一句”。
这是浙江省残疾人福利基金联合网易集团、网易公益发起“人生第一句”声音复原公益计划,利用网易互娱AI Lab的iSpeech技术打造首个AI复原听障人士原声的工具:听障人士仅需在音书App上传2分钟发声片段,之后在产品中输入想要表达的文字,音书App就可以帮助他们用自己的音色把话“说”出来。目前该音色复原产品已向全国听障人士免费开放,帮助他们无障碍、有情感地与外界交流。
浙江省残疾人福利基金会理事长赵小飞告诉《瞭望东方周刊》:“残疾人融合就业街区是杭州亚残运会期间对外展示的窗口。有了科技助力,无声小店的工作人员就能够便捷流畅地与各方来客交流,为他们提供更好的服务,向世界展示中国残疾人群体的新风貌。”
听障人士仅需在音书App 上传2分钟发声片段,之后在产品中输入想要表达的文字,音书App 就可以帮助他们用自己的音色把话“说”出来。
渴望发声
近年来,我国信息无障碍建设相关制度体系不断完善。2021年国务院印发的《“十四五”残疾人保障和发展规划》明确提出加快信息无障碍建设,将其作为数字社会、数字政府、智慧城市建设的重要组成部分。2023年6月28日,十四届全国人大常委会第三次会议表决通过《无障碍环境建设法》,为信息无障碍建立起更有优势的发展环境。
赵小飞表示,浙江省共有持证残疾人133.7万人,其中听力残疾20.8万人、言语残疾1.7万人。“在与有听力语言障碍人群的日常接触和沟通中,我们发现超过2/3有听力语言障碍的人士在生活、学习、工作中有进一步的社交沟通需求,他们渴望能够向身边的人传递自己的声音,哪怕只是简单的问候。为了更好帮助该群体解决其面临的问题,基金会面向浙江特殊教育职业学院的学生和音书App的部分用户开展了一个需求调研,了解他们社交现状、无障碍通信使用情况和真实需求。”赵小飞说。
调研结果显示,仅有1/10的受访对象能够通过简单口语与身边的人进行交流,大多数人经历过太多“想说却说不出”的自卑与懊恼,最大的梦想是能说出“人生第一句”。
超过67%的受访对象表示“愿意使用音色复原技术”,超过50%的受访对象表示“愿意将音色复原技术推荐给身边有需要的人”,也有部分受访对象表示除了手机App软件以外,希望音色复原技术广泛应用于公交、出租车、饭店、超市、银行、高铁等公共场所。
综合受访对象的需求,基金会携手网易集团、音书科技共同打造出音色复原技术产品。“我们希望通过这一AI技术帮助他们用自己的音色向他人传递内心想法,进而推动解决该群体和健全人沟通交流中存在的障碍问题,改变他们的生活、学习和工作环境及相应的能力水平,使他们能够更平等地参与社会生活,实现人生价值。”赵小飞说。
研发难点
如何运用AI技术帮助听障人士传递自己的声音?
网易互娱AI Lab技术总监林悦告诉《瞭望东方周刊》:“目前,大多数语音克隆产品需要输入大量讲话以采集数据,提供给后期语音合成,对无法发出清晰语义的听障人士来说并不适用,因为他们的发声往往只有简单音节,导致语音难以识别。此外,市面上服务听障人士的交流工具大多采用文字转语音,不能让他们用自己的声音去说。”
网易研发团队利用iSpeech技术,基于海量数据的预训练模型,加上听障人士极少量的纯语音数据的快速微调算法模型,在快速克隆说话人音色的同时保留基础模型的内容发音能力,声音复原工具,让听障人士输入文字就可以实时用原声流畅表达。
杭州西湖区马塍路残疾人融合就业街区
听障用户使用AI 产品录入语音
“研发难点在于,从极短的无语义的语音中提取到个人声音特征。正常的语音合成技术往往需要半小时到一个小时的语料建模,而我们的研发团队克服了技术难度,仅需要听障者发出两分钟简单音节,就能复原他们原本的声音。”林悦说,“和文字转语音工具相比,我觉得这个技术更有价值之处在于,自己的声音能体现情绪和意愿,代入感更强,能让残障人士与亲友实现情感上的共鸣。”
科技向善
1999年出生的陈薇(化名)先天听障,因为喜欢美食而学习了烘焙技术,也许因为世界对于她是一片寂静,所以她做起甜品、面包来非常专注。她做的牛角包每天一出炉,就会被顾客一抢而空。有些顾客甚至专门学了几句简单的手语,就为了与她打招呼。陈薇很感动,但更希望有机会与顾客“亲口”交流。有一次遇到商品原料问题,她想跟顾客道歉,又是比画又是打字,虽然顾客说不计较,但没法直接说“对不起”的感觉让她更加自责。
试用了音色复原工具后,陈薇觉得效果很理想。她第一时间跟父母说了“我爱你们”。“我感觉自己有了底气,能和顾客主动交流了。”陈薇用音色复原工具对《瞭望东方周刊》说,“我希望更多听障人士能用上这个产品,把心里想说的话,充满情感地直接说出来!”
沈师傅也是听障人士。他在马塍路残疾人融合就业街区做理发师10多年了,尤其擅长快剪男头。因为小时候家里条件不好,他没有做过读听能力康复训练,如今只能用“文字+手势”跟客人沟通。有时遇到年纪大的顾客,双方都觉得在手机上写字交流十分费劲。如今用了音色复原工具,他觉得不但能让自己更好地理解顾客对理想发型的需求,而且“以后上医院、超市、高铁都方便多了”。
普通人难以想象,对听障人士来说,在一些人生特殊时刻,“说话”是多么重要——对爱人说一句“谢谢”、在孩子婚礼上说一句“祝贺”等等。
一岁时的一次发烧打针,让顾琴烨的世界永远失去了声音。她的童年在四處求医中度过,后来妈妈把她送进聋儿康复中心进行语言康复训练,虽然尽了一切努力,但效果有限。“当我说话的时候,有些人还是会用异样眼光看我,我觉得很自卑。”顾琴烨回忆。
在康复老师的鼓励下,她学习画画、书法、舞蹈,最终成为一名残疾人艺术团的舞蹈家。她参加过浙江赛区环球小姐比赛,拍过残奥会献礼影片,还参加过世界巡演。在这些人生高光时刻,她无法流畅地表达自己,这成为她心中永远的遗憾。
“现在我能说话了,这对我们听障人来说是最大的福音!我要亲口感谢老师、感谢父母!我还要对女儿说声对不起,我有太多话要和她说了。”能用自己的声音表达,让顾琴烨十分激动。
科技向善,信息无障碍建设不仅提升残障人士的生活能力和生活质量,更是对他们个人尊严的提升。赵小飞说:“社会融合是一个系统性问题,在实际推进过程中,不同的残疾人在基本生活、社会参与、劳动就业、医疗教育等方面仍会面临各种特殊障碍与挑战。智能科技促进人类信息流动无障碍,助力不同群体进一步畅达沟通。此次音色复原技术的探索性尝试取得了显著成果,我们还会持续搭建更多智慧无障碍落地场景。”