语音玩具以声牵童心

2021-04-22本刊编译黄子婧

中外玩具制造 2021年4期

本刊编译黄子婧

顾名思义，语音玩具就是“会说话”的玩具，特指凭借特殊技术手段而具备说“人话”、甚至懂“人话”的玩具。因为人机交互难度低，且更生动，受到了家长和儿童的欢迎，也出现了不少有代表性的经典产品。

漫长的语音玩具进化史

语音玩具起源于最古老而传统的玩具品类——娃娃。从十八世纪欧洲工业革命后，玩具厂家开始尝试让娃娃“说话”，使之更显逼真生动，让陪伴不再“沉默”。

据考证，最早的一款语音玩具由爱迪生发明。他历经数年，将自己在1877 年发明的留声机，改良成一个可拆卸的微型蜡筒式留声机，装在娃娃身上，转动留声机上的手柄，就能让娃娃唱起童谣。产品于1890年上市，但仅开售了数周。尽管销售时间不长，但是鼓舞了后来大批的模仿者。

据说是玩具历史上首代语音娃娃，由爱迪生发明（网上资料图）

当时间的齿轮转到20 世纪下半叶。美泰在1960 年推出一款名为“爱说话的凯西”（Chatty Cathy）的拉线语音娃娃。一拉线，娃娃就会说简单的短语。玩具公司邀请知名配音演员June Foray 预先录制了11 个短语。这名配音演员也是后来迪士尼1998 年版《花木兰》动画电影中花奶奶的配音。这种采用专业配音人员录音的做法，在当时来说，也是一个创举。凯西卖了6 年时间，有资料称其为60年代人气仅次于芭比的娃娃玩具。

进入21 世纪，互联网的快速发展给语音识别注入了新的生命力，先后出现了哈喽芭比（Hello Barbie）、智能小龙（Dino）、凯拉娃娃（My friend Cayla）等智能语音玩具。这些玩具利用语音识别技术，“听”懂孩子的问话，在数据库中搜索出相应的答案来回答孩子，做到最起码的双向互动，比前辈们只能单向地播放录音要先进得多。

两大要素促成圣诞爆款

翻阅最近半个世纪的圣诞热卖玩具榜单，笔者发现，虽然登顶的语音玩具并不算多，仅有3 款（见表1），但都自带爆款元素。

爆款元素1：技术创新

从右表中可以看到，这3 款圣诞热销的语音玩具在技术上，都有其独特之处。

其中，泰迪熊华斯比可以说是语音玩具在单向播放时代的一个突破性产品。首先，它是第一款采用动物形象的语音玩具。其次，它使用了突破性的技术，把立体录音卡带和同步控制器装进了约半米高的毛绒熊体内，使其眼睛和嘴巴运动与小熊“讲故事”的节奏同步。小熊发明者Ken Forsee 创造性地使用体积较小的双轨立体声卡带，一条轨储存录音，另外一条轨记录动作信号，控制头部的眼睛和嘴巴，使动作与音频几乎可以完美同步匹配。这在当时，尤其是在玩具领域，是相当先进的技术。因为，同样体积的语音玩具，面部表情是固定不变的（比如前文提到的留声机娃娃和美泰的爱说话的凯西）；而当时面部表情能随语音变化的产品，是用于电影拍摄的玩偶道具，比如迪士尼的电动玩偶，还在使用巨型的卷轴磁带，体积要比泰迪熊华斯比大得多。

泰迪熊华斯比从研发到上市，只用了半年时间，耗资6000 万美元。1985 年9 月正式推出，上市首月就卖出了4.1万只。到1985 年年底，这款玩具就卖出了9300 万美元的销售业绩，令人惊叹。因其人气高企，更以这只小熊为主角，推出了一部电视动画片《华斯比历险记》。多重因素叠加之下，这只小熊于1986 年登顶圣诞热销玩具排行榜。

而1993 年最热卖的圣诞玩具则是一只迷你的盒式录放机（Talkboy）。其原型是1992 年的热映影片《小鬼当家2：迷失纽约》中原创的道具。因为电影太受欢迎而在次年推出玩具，厂家经研发加入了变速和变声的功能，语音有了更为生动的感情元素，算是语音玩具从单向播放时代向双向互动时代的过渡性产品。后来一度在中国大火的“会说话的汤姆猫”也使用了类似原理。

1998 年的圣诞玩具销售冠军菲比精灵则更进一步，它具有一定的“智力”和“语言能力”。最初，菲比精灵只能说自带的母语“菲比语”，但随着与主人的接触，菲比精灵会逐渐学会说英语。据发明人Dave Hampton 介绍，菲比说的英语其实都是预先录制的，随着使用时长的增加，逐渐激活英语录音播放功能，看起来，就好像逐渐学会了说英语。虽然菲比并没有语音识别能力，也听不懂孩子对它说的话，但这个延时激活英语录音技术所造成的语言学习假象使其获得了极大的成功。在上市后的3 年间卖出了4000 万只。

表1

经拆解后的古董泰迪熊华斯比机器分解图（国外网友Damien Scogin 绘）

这款简单的盒式录放机在电影亮相后，加入变速、变声技术，成为孩子搞怪游戏的最爱

爆款元素2：活灵活现的载体

除了技术创新之外，活灵活现的载体也是必不可少的因素。语音玩具研发的初衷就是为了通过有感情的语音，给孩子提供有情感温度的陪伴，而作为载体，活灵活现的外形就成了绝对的加分项。

还记得爱迪生发明的首个语音玩具——留声机娃娃吗？产品上市数周就无奈退市了，失败的原因中就有一条——声音不自然。录音来自一位普通的工厂女工，声音经过留声机的处理后，失去了自然人声的灵动。而且，娃娃在唱歌的时候，面部是固定不变的，给人生硬之感。美泰推出的拉线语音娃娃“爱说话的凯西”，虽然请来了专业人士配音，录音技术也比爱迪生时代先进不少，克服了人声不够自然的缺点，但是面部表情生硬依然是一大缺陷。泰迪熊华斯则从录音和表情两方面下手。除了上文提到的声情同步技术之外，发明者Ken Forsee 还利用自身在迪士尼工作的便利，邀请到了专业的演员来帮忙设计眼部、嘴部动作，使其更加生动逼真；请米妮老鼠、高飞狗等家喻户晓的动画角色配音演员为其录制故事；专业的音乐剧导演为其故事录音创作背景音乐。多管齐下，方才造就了这么一款充满情感温度、令人声临其境的语音玩具。

试想一下，如果没有活灵活现的载体，而只有冷冰冰的机械合成语音，哪怕产品聪明如人工智能语音助手Siri，总是缺少那么点情感温度，并不利于儿童的情商培养。所以，这也是为什么语音玩具多采用人形娃娃，或可爱的动物毛绒作为载体的原因。

语音玩具技术仍需完善

经历了1.0 时代的单向播放录音、1.5 时代的音情同步，语音玩具在语音识别技术和互联网技术的赋能之下，终于迈向了可以双向互动的2.0时代。通过录音、语音识别、联通云端数据库搜索、语音回复这一系列复杂操作，语音玩具终于从“能说话”进化到“能听懂”。这一时期的代表性产品有2015 年美泰的哈喽芭比（Hello Barbie）、Cogni Toys 的智能小龙（Dino）和2016 年Genesis Toys的凯拉娃娃（My friend Cayla）。

虽然这些语音玩具表现得相当智能，但是，玩具的应答主要还是由厂家事先根据关键词设定好。比如，哈喽芭比能作出约8000 条语音回答，由美泰请配音员事先录制。智能小龙虽然灵活一些，背靠世界顶级科技公司IBM 当时最新的“沃森”（Watson）人工智能程序，同一个问题会根据家长设定孩子的年龄，用不同的表达方式来回答问题，但核心答案还是固定的。因此，也有家长担心，这种模式会扼杀孩子的想象力和创造力，不利于孩子的成长。有家长反映，当孩子发现语音玩具翻来覆去只会说固定的回答之后，也就失去了兴趣。美国麻省理工大学长年研究人机交互的教授Sherry Turkle 指出，这类智能语音玩具是儿童了解人际交往的一个窗口，并不完善的交互技术对儿童的交际能力培养不利。