爱数智慧深耕对话式AI
2021-08-25黎冲森
文 / 本刊记者 黎冲森
爱数智慧提出二八原则,即帮助车企解决底层80%的标准数据和20%的定制数据,以更好的性价比和更快的速度来帮助车企完成整个智能化模型构建工作。
作为一家对话式AI数据服务商,爱数智慧拥有海量对话式AI训练数据集,比如拥有超过150000小时自有数据集,其中超过90000小时对话式AI训练数据集,能帮助AI开发者快速提高模型性能,从而加速智能产品市场化进程。爱数智慧还自主研发了SaaS智能化数据标注平台,并于今年4月推出了针对AI开发者的开源社区MagicHub.io,赋能生态。
至今只有5年创业历史的爱数智慧,发展非常快,在语音识别、自然语言处理、语音合成、计算机视觉等人工智能领域已崭露头角,服务业务涵盖智慧金融、智慧出行、智能社交、智能家居、智能终端等五大行业,应用场景覆盖车载语音助手、消费级机器人、语音商务及客户服务、智能家居控制、语音审核、智慧医疗等,能提供50多种语言的数据采集和标注服务。
作为演讲嘉宾,爱数智慧创始人兼CEO张晴晴参加了由中国汽车工业协会主办的2021中国汽车论坛,并接受了采访,分享了其“从零到一”的创业进阶经验。
推进人机交互进阶
众所周知,智能语音等在车载场景中非常重要,而爱数智慧为正在智能化转型的车企提供相关的底层数据服务。
“在车载场景里,核心之一是人机交互。对于人机交互,我们强调对话式,要自发式、自然式地与车进行交互,而不是很死板的命令控制方式进行交互。这里面最重要的是形成对话式,但这会比命令控制式的交互难度大很多,会加大机器识别语音的难度。”张晴晴说,“我们一直在对话式AI领域深耕,着手人和机器以及人和人之间进行自然式对话。我们希望将最真实的数据反馈到车厂,应用智能化模型优化理念,帮助他们更好地迭代出更智慧化的语音操控系统。”
据张晴晴介绍,爱数智慧在车载系统的人机交互场景和发展在不断进阶。最早,主要做控制类型语音交互,比如开窗、关窗、打开空调和座椅调节等,再慢慢加入内容交互,比如音乐检索等。在这种情况下,交互语音内容开始迭代更新。接着,进入比较自然式的人机交互,不再只是命令控制。比如调节温度,说“我觉得好热”时,车就给一个建议调低空调温度等。现在,人机交互场景增加到“千人千面”。比如,在听电台时,在车机交互过程中,是不是有个性化定制需求,比如导航播报是不是可以定制成自己所喜欢的声音等。
在张晴晴看来,与同行相比,爱数智慧的核心优势是采用对话式AI。传统非对话式AI主要是命令控制,比较机械式,需先把文本规划设计好,然后朗读录制。朗读式和对话式主要差异是,朗读式文本是设定死的,所有录音人和采集人是按照文本来,变化性很少。按照文本朗读出来,自然性不够强。而爱数智慧的对话式,尽可能保证说话人采用最自然的方式交流,更贴合真实的使用场景。“在对话式AI里,我们已经拓展到很多语种。伴随着车企出海过程,我们可以提供相应的数据解决能力。”
在汽车人机交互领域,爱数智慧的技术已在智能座舱、线上线下智能客服等场景应用。比如,爱数智慧推出了“标准数据集”产品。张晴晴说:“我们发现,车企不管哪个车型,在做命令交互时有很多相似处,比如打开空调、调低温度等,这些东西我们可以把它形成一个行业的标准数据集,定期扩充它,保证它的时效性。这样,客户可以直接采购这样的数据集,而不是从零开始定制服务,以免耽误时间。作为车企人机交互的底层数据集,可以很快地帮助客户把基础能力先搭建起来。为此,我们提出了数据行业的二八原则,即帮助车企解决底层80%的标准数据和20%的定制数据,以更好的性价比和更快的速度来帮助车企完成整个智能化模型构建工作。这是我们提供智能方案的整体逻辑。”
在车载交互领域,人机交互呈现出多模态发展趋势,比如在智能座舱里就有应用。张晴晴说:“去年底,我们开始布局多模态数据处理系统。同时,由于音频本身信息量很大,所以音频在多模态演进过程中,整体音频部分的需求量在不断增加,只是在音频外还伴随着其他模态需要处理。今年我们推出多模态数据处理系统。这个系统在迭代过程中将加速音频在多模态中的需求量。”
爱数智慧创始人兼CEO张晴晴在2021中国汽车论坛期间接受采访
回归创业初心
据了解,爱数智慧创立于2016年。而作为一位女性创业者,张晴晴为何选择在人机交互领域创业?
“我已在人工智能领域学习和从业17年,做对话式AI,研究语音识别。我的博士研究方向就是人机交互,就是语音、语言对话式场景。我觉得语音交互方式是人类和机器交流的一个最自然的方式,这是我开始就选择语音领域发展的重要原因。”张晴晴说,“汽车行业需要人机交互。在人工智能领域,女性占比开始比传统的IT领域多起来。重要原因是人工智能本质上是一个数据行业,因为所有算法要靠数据驱动,而对于数据的认知和拆解,女性的优势开始显现出来。女性对世界的感知度、敏感度可能高一些,女性思考得比较多,同时对数据要有耐心分析和拆解。另外,女性特有的心思细腻、换位思考等能力,不同于男性的理解方式,也对机器理解人提供了很大帮助。在音频方面,可能更明显。”
其实,张晴晴曾是中科院科研人员,主要研究方向是如何构建一个更好的AI模型,从而让机器更好地理解人说的话。据张晴晴介绍,爱数智慧已经从10多人发展到150多人。“我们主要为客户提供相应的数据服务,其中两类企业是我们的重要客户:一是车企。比如车企自己有一些AI研发解决方案,我们可以对接到他的研发部门,提供相应的咨询和数据服务。二是属于垂直在车企行业提供解决方案的算法或者解决方案的公司,我们为他提供相应的数据支持。”
在爱数智慧成长过程中,有一件事给张晴晴留下了深刻印记。公司刚成立一年时,即2017年,当时公司有50多位员工,因为公司那时条件有限,租不起高大上的办公楼,就在北京大兴区租了一个比较小的商住两用房子办公。刚好那时北京大兴区发生了几场大火,爱数智慧自然受到影响。张晴晴清楚地记得,当年11月27日,那是周日下午五点,消防队在整顿消防隐患房屋时,通知其所在的办公楼因消防不合规必须当晚立即搬走。
要在几个小时内把50多人的办公物品撤走并非易事,而且当时根本就不知道要搬到哪里去。张晴晴回忆说:“当时我的心情非常忐忑,因为我不知道怎么跟所有员工讲我们需要立刻搬家这件事情。如果我是员工,听到老板这么讲,我也会觉得这家公司不太靠谱。当时我在微信群里把大家请回来,还不好意思地告诉大家发生了什么。但所有同事回到公司后,我跟他们讲需要立刻搬家时,没有一个人抱怨和迟疑,大家都积极配合和出谋划策,有的员工甚至开自家车来帮公司搬家。大家齐心协力,一个晚上就把物品搬到了新办公楼。所以我说,创业是团队创造奇迹的过程。”
幸运的是,这并没有影响爱数智慧当年的成功融资。当年,爱数智慧获得了明势资本的Pre-A轮投资。张晴晴说:“那时我们正在筹备A轮融资,投资人看到了我们整个过程,毅然决然地决定投资。”2018年,爱数智慧又获得策源创投和梅花创投的A轮投资;2019年,获得策源资本和杭州复琢的A+轮投资;2021年初,获得凡创资本的数千万元B轮融资。
谈到与资本方打交道时,张晴晴的心得是,彼此要相互理解,并且双方认可彼此价值。至于未来要把公司做成什么样的问题,张晴晴说:“我觉得应该回归到创业初心。我在AI领域已经历练17年,希望AI智能化浪潮可以一直前行,这样对整个行业甚至人类都有非常好的价值和作用。”
现在爱数智慧不仅获得了投资人的认可,也获得了不少行业客户的肯定,目前已为近100家顶级客户提供数据服务,并获得了多家全球顶级客户的一流供应商资质。在张晴晴看来,创业者要知道目标在哪里,并坚持下去,这样未来无论成败都是英雄。
数据安全是立命之本
今年6月《数据安全法》通过,9月开始施行。作为数据服务商,张晴晴说:“数据安全性是我们的立命之本,我们完全遵照数据安全法,并将不遗余力地投入和迭代优化。我们是数据服务行业里较早一批拿到ISO/IEC 27701:2019标准认证的企业。这是全球最新的个人隐私认证。”
在给车企客户提供解决方案时,爱数智慧通常建议客户80%采用标准数据集,20%使用定制服务,其中80%的标准数据集由爱数智慧自行进行相应的数据包装处理和入库。张晴晴说:“我们采用两种方式来保证数据的安全性。在数据处理环节,对于个人信息,进行脱敏处理,让企业在使用数据时没有安全风险;在数据处理定制部分,我们使用我们的数据私有化系统,这对车企来说是一种比较安全的方式。”
显然,数据越来越重要,但企业做数据服务需要懂数据的人才,比如懂音频、懂视频和懂文本等,并拥有提供相应解决方案的能力。张晴晴说:“我做了很长时间的AI研发,最后我选择做数据,就是因为我觉得在AI行业需要有专业的数据公司为所有算法以及研发人员提供更好的数据解决能力。只有这样,整个人工智能才有机会更好地向前发展。我希望爱数智慧能帮助人工智能更好地向前发展,并希望所有想向智能化转型的车企能更好地向前发展。这是我的初心。”