“Siri,说话会取代打字吗?”
2018-04-26张汀
张汀
很多人越来越习惯通过语音助理与自己的电脑、手机和智能扬声器“聊天”,比如亚马逊Alexa、苹果Siri、微软Cortana和谷歌助手。
不识字的农民Yacouba Sawadogo正在测试移动网络上的语音服务
几十年来,盲人和弱视群体一直在使用文本转语音转换器。有些人认为,语音很快就可以代替打字和点击,成为在线互动的主要方式。那么,向“语音网络”转化将面临哪些挑战?
为农民播报天气
如果您无法阅读,那么网络的文字内容有什么用处?这是加纳不识字的农民所面临的境况,他们也因而无法接收互联网向其他多数人提供的重要信息。
“鉴于加纳北部的识字率只有22.6%,农民们常常以低于市场标准的价格出售其农产品,因为他们可能没有意识到时下的价格。”弗兰西斯·迪托表示,他是语音天气信息服务商Mr Meteo的研究员。
“最常见的投诉是关于天气预报,”住在加纳北部塔马利的迪托先生说。
“农民告诉我们,他们的祖先用来预测天气的方法现在似乎不管用了。”他认为这是气候变化导致的。预知何时下雨对于想播种、灌溉作物或放牧的农民来说至关重要。
迪托说,将在线天气报告转换成语音的想法来自农民自己,他们在Guabuligah村召开一次研讨会之后提出了这个想法。
Mr Meteo发布在线天气预报,将其转换为能在普通手机上播放的简短录音。农民拨打电话接收信息。在加纳,有120万人使用当地语言Dagbani,但谷歌翻译却不提供该语种的翻译服务。
迪托说,规划这个服务的初衷就是便宜且易于操作。
人工智能还不够聪明
语音网络还可以帮助欧美五分之一阅读能力差的成年人,在阿姆斯特丹工作的大学研究员安娜·波恩说,她曾在马里和布基纳法索从事“网络到语音”系统的早期原型开发工作。
但是建立语音网络——“网络到语音”和“语音到网络”——并非易事。“理解意大利餐厅供应披萨很容易,”语音识别公司Nuance的研究主管尼尔斯·伦克说,“要覆盖多个领域并且能够在每个主题上都能与用户对话,实现起来仍然遥遥无期。”
因此,尽管Alexa和其他类似服务可以回答简单的天气问题并为我们播放音乐,但大多数专家都认为,要进行各种内容宽泛的对话还需要几十年才能实现——人工智能还不够聪明。
就连将一个人的声音转化为文字,即自动语音识别,仍是“有待解决的最大的难题之一,因为全世界的语言太多了,发音各不相同”,位于巴黎的语音创业公司Snips的创始人兰德·因迪如是说。
医生通过语音在线填写患者信息表格,每分钟可以口述150个单词,比在键盘上打字快三倍
这种说法可能有些夸张,但是地方方言和口音的多样性确实增加了这项任务的难度。
因迪表示,网络-语音界面正在逐步优化。他们已经开始学习如何处理引号以及标题和旁白之间的停顿,而且现在的发音听起来也不那么像机器人了。现在“它们可以强调重音和低语了”,他说。
但安娜·波恩相信,数字语音需要更多的个性才能让它们受到追捧。“机器人还不够机智,Siri很无聊。”她说。
使用语音而不是敲击手指的好处显然取决于应用环境。
伦克表示,例如,医生通过语音在线填写患者信息表格,每分钟可以口述150个单词,比在键盘上打字快三倍。这样一来,他们减少了花在管理上的时间,有了更多时间治疗患者。
2017年,Nuance为英国曼彻斯特一家診所的手术提供了帮助,为进行手术的六名医生建立了一个语音系统。现在,他们可以对患者的健康状况和治疗对策进行口述,而智能助理会自动将信息输入到网页表单的正确位置。而之前的做法是,医生先录制音频,再由秘书抄录——这个过程不仅耗资巨大,而且容易被拖延。
诊所经理朱莉·普雷格纳尔表示,在新系统的作用下,该诊所每天可以多治疗四个患者,不仅如此,给患者的信件也能包含更多细节。
语音操作的便捷度
当一个人在用手做其他事情的时候,使用语音也很方便。
“比如你正在做饭,”因迪说,“你只是想知道菜谱的下一步是什么。你的手很油腻,你不想弄脏iPad,所以用讲话的方式操作就自然很多。”
开车的时候用语音也大有用处。根据保险公司State Farm的数据,在美国,29%的司机承认会在开车的时候浏览网页。而2009年这个比例只有13%。统计显示,美国每年由于驾车时使用手机而导致的车祸事件比酒后驾车的案例更多。
史蒂夫·韦德是一名工程师,他最近开发了一款名为Polly的插件,该插件为WordPress网站提供语音功能。
“在像中文这样复杂的书面语言体系中,语音可能会给你带来优势。”他说。
当然,语音在图书馆、礼拜场所或讲座剧院等场所的用处不大,所以显然,尽管有一些预测表明到2020年将有多达一半的搜索可能会使用语音,但网络必须能允许用户根据环境决定使用的任一方式访问。然而建设语音网络这件事,说起来容易做起来难。