AI赋能,迎接千帆竞发的新时代
2018-05-14刘庆峰
如今,随着技术的发展,人工智能在社会的多个领域有着越来越多的应用。在2018世界机器人大会上,科大讯飞股份有限公司董事长刘庆峰表示,人工智能在不断改变世界,也带来了全新的应用和社会发展的机会。在此过程中,科大讯飞在人工智能领域以及机器人领域不断探索,取得了一些智能成果,而在未来还将继续努力,不断前行。
提到机器人,除了它的硬件,外观形象以及运动之外,非常重要的就是后台的理解、预测、决策能力以及前端交互能力。因此,从人工智能的发展来看,1956年提出人工智能概念到现在的第三次浪潮,我们可以把后台核心算法的逻辑分解成这三个阶段:早期的计算智能,让机器能进行存储、计算;感知智能,让机器能听会说、能看会认。如今,一定场合下,正面的人脸识别率已经可以超过99.9%,甚至超过美国FBI最好特工的水平,语音识别已经超过最好的速记员。机器甚至可以看到紫外线、红外线之外的内容,可以听到超声波、次声波之外的内容,所以感知智能方面机器已经越来越多地开始逼近甚至超越人类;下一个重点就是第三次人工智能浪潮的核心,以基于神經网络的深度学习为代表,以及更多新的算法正在不断研究当中,以便让机器具备理解、思考、学习和决策的能力,这就是今天人工智能基本后台的逻辑,以便支撑机器人更好更快地进入社会生活的各个领域。
围绕着这样的大背景,国际社会已经把人工智能作为未来人类发展最重要的战略方向。在我国,2017年7月,国务院正式发布了《新一代人工智能发展规划》。2017年11月正式设立了人工智能四大平台,围绕科大讯飞建立智能语音人工智能开放平台。2017年12月,工业和信息化部印发了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》,列出了八个重点的人工智能未来的应用方向,这些都表明中国在人工智能方面是未来的主战场,也是和全世界完全同步的,在很多领域共同进入无人区,探索未来的发展。
当然,说到机器人,除了后台的理解和学习之外,还需要前端各种运动智能的掌控和不断的学习进步。
众所周知,波士顿动力的机器人去年可以做后空翻,现在可以爬楼梯。但相比人类的运动能力,机器人还有很大的差距。无论是前端的人类交互、后端的理解以及运动方面,我们真正要呈现一个无比精彩的机器人世界,其实人类还有很长的路要走。如今人工智能助力机器人,最主要的可以从这几个方面发力,或者说科大讯飞所看到的研发和产业化的机会包含这两个方面。一、各种感知智能的融合,我们把语音、视觉、手势以及触摸等相关技术完全融合在一起,形成一个全新的人机交互的未来;二、感知和运动智能的交联,根据视觉进行判断,根据听觉进行操作,以及认知智能在各个细分领域超过专业的经过训练的专业技能。
机器人的前端交互:能听会说
任何一个机器人都要和人类进行交互,人机交互是非常重要的状态。当年把字符界面变成图形界面成就了微软的传奇,苹果在不久前市值突破了1万亿美元,是因为乔布斯当年回归苹果把触摸做到了极致。如今,在越来越多的可穿戴式设备普及的情况下,没有屏幕或者屏幕很小,越来越多的设备可以在移动状况下使用,那么机器人不可能在每次进行交互时都要触摸一下,还要按一下身体上的某个按键,它一定要像人与人交流一样,在远距离或者几米之外进行沟通与交流。因此在无屏、移动、原厂状况下,人机交互正在进入以语音为主、以键盘触摸为辅的人机交互时代。
在这个时代中非常重要的就是语音和机器的交互,它要能听懂我们的讲话,自己能说话、能翻译,还能接受各种干扰,比如方言、噪音、多人说话等场景。为此,科大讯飞提出了人工智能时代的用户交互界面,现在已经推出了3.0版本。
首先是语音合成,我们不方便用眼睛看屏幕,只能用机器人念给我们听,以获得各种信息。不久前,在由美国卡耐基梅隆大学牵头的国际最权威的语音合成比赛Blizzard Challenge(暴风雪竞赛)中,科大讯飞第十三次获得全球第一名,成为全世界唯一让计算机念英语超过真人水平的系统,播音员的成绩是5分,美国大学生是4分,科大讯飞是4分,全世界第二名是3.7分。也就是说,实现让计算机念英语超过真人的不是美国人,不是欧洲人,而是中国人。
如今,语音识别发展到了什么阶段?2015年12月,人类首次现场直播机器和人类进行PK,北京五名持证上岗的资深记录人员和科大讯飞的听写设备进行现场对决,公证机关进行公证,最终结果显示,五名记录人员的最高准确率只有70%左右,而机器的平均准确率达到95%以上,现在已经达到了98%。
2010年,科大讯飞首次宣告手机语音听写时代的到来,利用深度神经网络开始推出,全球第一个语音识别开放平台。那时,科大讯飞实验室的翻译识别准确率是80%,但真正推向市场准确率只有60%,因为有各种噪音、口音以及网络丢包等现象的存在,但今天已经达到了98%。背后的原因是什么呢?50%是技术的进步,50%是数据的积累。现在每天有46亿人次使用我们的技术,对于各种口音,机器都可以全部进行自动训练。在整个过程中,都是机器全自动训练,绝对保护用户的隐私。
在2016年底由Google组织的,在面向万物互联时代,多个人讲话、远距离讲话、噪音环境三个场景下的国际英文语音识别中,科大讯飞都取得了最好的成绩。
这便是如今的语音听写情况,值得高兴的是,科大讯飞的语音听写系统不仅在今年的全球消费电子展得到了很好的应用,另外,在南非金砖国家峰会上,以及科大讯飞与国际电信联盟在日内瓦举行的战略合作签署仪式上,我们的系统都得到了应用,进行会议记要,同时帮助做必要的翻译。在今年全国两会上,讯飞听见得到了很好的应用,充分表明了中国政府在使用新技术方面的勇气和决心,也是对科技创新企业的巨大鼓舞。
机器翻译到了什么程度呢?通常情况下,我们需要语音识别、文字到文字的翻译,然后再到语音合成。在今年的博鳌论坛期间,科大讯飞作为唯一官方指定的翻译机,经过选型给所有的志愿者和外国友人提供翻译机服务,如今已经是业界唯一达到大学六级口语水平的翻译机。可以这样说,最迟2019年上半年,我们的机器就可以达到专业八级的翻译水平。
不仅是中英互译,我们的翻译机现在涉猎33种语言,我们的目标是两年内达到100个语种,这就是今天机器翻译给世界带来的变化。
如今,中国国家外文局已经和科大讯飞签订战略协议,共同搭建中国的人工智能翻译平台,和世界进行交流。人类命运共同体的前提是人类的相互交流,以及在合作信任的基础上合作共赢,相信翻译技术会对人类的未来具有非常重要的意义。很高兴的是,中国的机器人和人工智能的相关企业会在这个进程当中发挥应有的作用。
机器人的前端交互“能听会说”的发展程度我们已经了解了,那么,后台的“能理解会思考”达到了什么程度呢?
机器人的后端:能理解会思考
从相关进展上来看,在阅读理解方面,早期评价人工智能谈及的都是图灵测试,理论上就是后台机器的交互之间的语言理解能力。
国际上最为权威的比赛是斯坦福大学牵头的SQUAD(Stanford Question Answering Daraset)比赛,里面包含一个大规模的机器阅读理解数据集(包含10万个问题),人工标注者看了文章以后提出問题并提供正确答案,机器看到文章以后回答问题,然后与人工标注者的答案进行比较。今年1月22日,在微软、Google、Facebook和IBM都参加了比赛的情况下,科大讯飞获得了全球第一名,同时我们和微软是当时仅有的两个已经让机器的阅读理解超过真人水平的系统。根据斯坦福大学给出的结果,人类回答这些问题的平均准确率是82.3%,而机器已经达到了82.48%。现在已经达到了83%,即将超过85%,这是历史上第一次机器在阅读理解上达到了人类的平均水平。
如今,从机器在理解方面所取得的成绩来看,是不是可以说,机器已经真的可以无师自通,自我改变程序、改变世界呢?在常识推理方面,在没有海量知识供它学习的情况下,机器利用自己的先验知识进行常识推理能够达到什么程度呢? 2016年,在纽约举行了著名的Winograd测试,主要是测试机器的二元推理能力。一些对于人类来说是很自然的话题,但对机器来说却是非常困难的。在比赛中,组委会认为只有90分才能进入第二轮,科大讯飞只得了58分,却得到了全球第一名。如今,我们已经做到了接近70分,去年底是66分,这个水平在二元推理上还没有达到6岁小孩的常识推理的能力,也就是说,我们在常识推理方面,在没有先验知识理论的情况下,把专用领域的训练变成通用领域的常识推理还有很长的路要走,需要在现有的深度学习技术的推动下,在算法体系和人类大脑的研究上做不断的突破。这就是人工智能的现状,但就今天已经达到的技术水平而言,我们已经可以深刻地改变这个世界了。去年,科大讯飞的机器人医生“小医”首次参加国际职业医师资格考试,满分为600分,分数线为360分,50多万名人类考生参加考试只有一半能过关,而机器考了456分,超过了96.3%的考生。现在,这样的人工智能机器人已经在合肥正式上岗,开始诊断常见病。这是全球第一次让人工智能机器人具备了全科医生的潜质,今年3月它能够诊断150多种病,现在已经可以诊断300多种病,已经完成了4000多人次的诊断。未来,我们可以在很多地方建立人工智能诊疗平台,这样就可以给偏远农村的医生提供最好的人工智能助手,因为中国800万医生中只有200万医生有医师资格证,而我们不但可以拿到医师资格证,还可以取得非常好的成绩,这就是人工智能在医疗领域的变化。
人工智能在考试领域,相较于下围棋,则更为困难,因为作文是非常开放的领域,机器在英文作文和语文作文方面都已经超过了人类老师。所以现在教育部考试中心和我们合作的智能平台已经完成了2000多万份的人类英语作业和作文。但高考改革希望做到“一年多考”,如果没有主观题的客观公正评价,“一年多考”这项高考改革就很难实施,现在人工智能帮助我们将这一重大改革能够顺利地向前推动。
可以说,在很多专业领域,人工智能正在深刻地改变着每个行业,在学习顶尖专家知识和行业已有的数据方面,已经可以超过90%的普通专业人士,但是在常识推理上连6岁孩子的水平还没达到。下一步,人工智能要做什么呢?其实,人工智能和脑科学的结合是大家公认的大势所趋,今年4月,MIT开发了一个新的头戴式设备,用来进行识别和打字,也就是用意念进行打字,准确率达到92%。虽然不是开放的文字,而是给定的词汇,但这已经是非常厉害的成绩了。其实,类似这样的应用在去年年底的讯飞年度发布会上,也进行了演示,用脑电波控制几十种家电,现场可以达到100%的准确率,后台的准确率可以达到90%以上,这是语音和脑机接口的结合,将为未来的人工智能和机器人的学习提供更多更直接鲜活的数据来源。
今年,我们和中国脑科学计划的牵头单位同济大学,达成了战略合作,双方共建“脑智同飞联合研究中心”,探索相关人工智能技术成果的产业化机会。还联合北京师范大学等单位,发起了“讯飞教育脑计划“,探索个体学习与课堂教学的新方法与新形式。用人工智能进行因材施教,根据学生的学习状况、知识水平,布置每个学生的家庭作业,从而极大地节约学生的无效重复学习时间。此外,根据脑科学的分析和发展,更进一步进行因材施教,根据个人所长规划未来的发展。有的人不适合学习数学,就可以去发展艺术和语文,有的人不擅长语文而在数学上有天分就学习数学,通过脑科学的前提研究帮助其未来形成更好的成长路径。如今,中国的一些科研单位、教育机构以及科技公司都已经开始进行探索。
人工智能的发展必须要依靠产业生态
如今,人工智能在各个领域有着广泛的应用,但就目前的技术而言,还需要专业知识,仅有深度学习的算法是远远不够的,还需要行业专家、行业数据,因此必须要让各个细分领域掌握专业知识、掌握数据,而且让创业英雄和科学家们合作起来。因此,科大讯飞提出人工智能发展必须要依靠产业生态,把我们的技术平台开放出来给所有创业团队以及所有科学家使用。现在我们平台上的创业团队数量已经超过了81万家,一年内增加了将近50万家,每天的使用量已经达到47亿人次。这样做有两个好处:创业者使用我们的平台可以快捷地开发出相关的应用,且后台的运营服务也是讯飞的人工智能云平台给予支撑,全世界顶尖的科学家都可以将技术集成在我们的AIUI平台上面,以供几十万的团队使用,相关数据在脱敏之后,在不侵犯用户隐私的前提下便可以反哺我们的科学研究。我们把它叫做“赋能开发者,成就科学家”,现在已经和很多的科研机构在进行合作,努力把这个生态体系做大。
将这个生态体系做大,不仅需要少数企业在社会生活各个领域让AI来赋能,让机器人进入每个行业,还需要专业的人才培养。去年10月24日,在科大讯飞发起的“1024全球开发者节”上,正式发布了“AI大学”。到现在为止,学员数已经超过了22万。在此基础上,科大讯飞进一步把人工智能开放平台做得简单易用,从软件到硬件到参考设计到行业已有的标准专业数据库的共享等。以前用人工智能開发一个新的应用,比如用人工智能做一个教育产品、做一个理财产品或者做一个智能家居最少要三个月到半年,现在是一到三个月。我们相信,通过不断地给开发者赋能,大幅度地地减少开发者的前期投入,将会使得整个人工智能的生态在中国出现极大的繁荣,也会推动机器人进入越来越多的领域。
现在我们在机器人领域已经有1万多家团队,包括从大到小、各种各样的儿童陪伴以及到各种社会服务的机器人。在当今的发展趋势下,人工智能是需要全球的合作的。不仅是在源头技术创新上进行合作从而使得人工智能真正造福人类,而且还需要在伦理、人文和法律等相关体系当中进行合作。如果人工智能要改变世界,未来的五到十年内大量替代现有的工作岗位的前提下,如何拓展出更多新的岗位?如何使得社会保障体系和法律更加健全?如何在伦理上和人文上进行引领?没有中美之间的合作,没有全球发达国家和人口众多的发展中国家的合作是不可能为人类赢得未来的,所以在机器人的未来、人工智能的未来都需要更大的开放共享、合作共赢。
在此基础上,科大讯飞专门实施了讯飞的“AI+公益”“人工智能+教育”,让人工智能帮助乡村老师成为最好的老师,把最好的教育能力投放到农村;“人工智能+医疗”,我们在10个贫困县在线诊疗,极大地提升一线医生的水平;方言保护公益,从去年开始,我们的语音合成技术已经可以做到无监督训练,对于任何语种,自动地进行训练,便可以达到3.5分以上的个性化语音合成,从而可以真正开始在全球进行抢救方言的行动。现在,全世界7000多种方言大概每两周消失一种,使用AI技术抢救方言是有希望的。同时,用人工智能进行无障碍的公益,如今,中国很多残疾人学校应用我们的系统。
在未来,我们相信“AI+公益”会让机器人和人工智能以更有温度的方式造福整个时代,我们期待和更多的合作伙伴一道共同用人工智能建设美好的世界,共同推动机器人的繁荣和发展。
(本文根据“2018世界机器人大会”现场演讲整理而成,未经演讲人审阅。)