图像识别的三生万物:打拐、无人车到智能社会
2017-06-24李晓曦
□文/李晓曦
图像识别的三生万物:打拐、无人车到智能社会
□文/李晓曦
李晓曦
本刊特约撰稿人
猜中了结尾,却没有猜中开头。一个福建的小伙子找到了失散20多年的亲生父母,起因却是几年前第一次吃重庆烤鱼,感觉“整个人都得到了升华”!从烤鱼到发现自己的真实身份,这不是个段子,也不是韩剧,更不是《舌尖上的打拐》,而是来自基因的信号,最后通过技术匹配——跨代的人脸识别,有了happy ending。
技术改变生活,这是最好的注脚。图像识别,和语音识别、机器翻译类似,是人工智能(AI)的细分领域,也是基础领域。在图像识别领域,帮助福建小伙子寻亲重庆的百度,正体现出技术和应用的领导者地位。在4月中旬的百度技术开放日上,不仅有科学家深入讲解图像识别的最新技术和应用基础,而且还对开发者和技术人员“开放”了这些能力得以“加持”的基础。我们离智能社会的距离,似乎又近了一步。
百度研究院院长林元庆
百亿规模的图片库+深度学习算法
和人工智能类似,图像识别在学术界也不是新概念,大约50年前,有着“人工智能之父”称号的马文·明斯基,提出让计算机外接相机来识别相机看到的东西。这个见地在今天看来稀松平常,但是在那个年代能提出则相当不易。
图像识别最初的发展与OCR(Optical Character Recognition,光学字符识别)有一定交集,就是计算机对文字的阅读。靠谱的图像识别方法是从上个世纪末SIFT图像特征的提出开始。在之后的十几年里,研究者们大多是从特征或模型来攻这个难题。
2012年前后,深度卷积神经网络在图像识别领域开始应用,则是同时去解决模型和特征的问题。从这时开始既可以通过深度学习直接从图像像素开始训练图像识别模型,也可以通过同样的训练得到图像的更有效的特征描述,然后采用传统的机器学习模型来训练识别模型。基本上,深度学习的方法击败了所有传统的方法,使得图像识别的准确率向前迈了很大一步。
百度是最早将深度学习的方法应用于图像识别领域的企业,并将这些技术应用在手机百度图像搜索等诸多产品上,但是业界和用户对此的了解并不多。直到今年年初《最强大脑4》上,小度在模糊状态下的图像识别、跨年龄人脸识别、跨代人脸识别上的精彩表现,让很多观众和网友印象深刻,也第一次感受到了百度在此方面的技术强大,甚至可以用于“打拐”。
“上《最强大脑4》的历程,是节目组找到百度。但是让我震惊的是,他们之前根本不知道百度在做人脸识别,其实我们的技术挺好的。”百度研究院院长林元庆说。此前,百度超级计算机Minwa在一项以 ImageNet 对象分类为基准的人工智能测试中,图像识别的错误率仅为4.58%,超越了人类水平,同时也超越了微软和谷歌。
百度研究院内部评估了一下,很希望人工智能能做到极致,和特别强的人类选手来比可以了解技术到底做到哪个水平,“如果输了的话,回去还得继续做研发,如果赢了的话,也得回去做研发,只是希望我们真正把技术做到极限,能够更好地服务人类。”
以在《最强大脑4》上完成的“跨代人脸识别”为例,小度凭借这个能力在与有着鬼才之眼的“水哥”较量取胜后,今年3月份,百度与全国最大的寻亲平台“宝贝回家”开展合作,首批2万多条寻亲数据接入百度跨年龄人脸识别系统对比评测,并筛选出部分疑似案例。
“人脸识别基本上有两个技术,一个是检测,还有一个是识别,我可以很自信地说,在这一块现在没有人能做得比我们好。”林元庆说,那为什么百度图像识别能做到如此好呢?因为其人工技能技术上的领先,加上其积累的互联网上百亿张图片。
人工智能技术的研发,基本上有四个非常重要的要素,第一是机器学习的算法,特别是深度学习;第二是大数据;第三是大计算;第四是百度一直强调的大应用。而且百度希望做的这些技术能够形成闭环,并能将百度大脑的能力向外输出,真正实现“让人工智能流行起来”。
“天智”在各行业中推进AI
现在,是将人工智能逐步融入生活的时代了。无论是语音识别、图像识别还是机器翻译都有了不少应用场景。对于技术的理想主义者们来说,愿景是让人工智能解决各种问题,这需要全世界所有人都参与进来,因为多样化的团队才是强大的团队,多样化的用户会造就完美的人工智能。百度将致力于塑造开放平台,共享大数据等资源,并作为行业中坚力量推进AI技术,这也是本届百度技术开放日的初衷。
百度基础技术负责人、百度云联席总经理刘炀在百度技术开放日时表示,今天是一个ABC的时代,A是AI,B是Big Data,C是Cloud,百度的业务模式天生就是以ABC为核心技术的一个路径。百度是一个以搜索起家的公司,搜索从第一天起就是非常大的数据链,这就奠定了百度在B和C的基础,百度作为搜索公司有很多自然语言处理的需求,也就是人工智能。所以百度商业模式,百度业务模式,就奠定了百度的技术是以ABC为基础的。
国内现阶段的人工智能是以大数据为主的,具有深度学习算法的人工智能。百度作为一家以ABC为基础的技术公司,拥有天然的大数据基因,所以图像识别等技术能实现突破,而这样的技术正在全面开放。
百度基础技术负责人、百度云联席总经理刘炀
以百度云人工智能平台级解决方案“天智”为例,在数据层面会有这样一些链条,比如数据的收集、存储,在存储之后,需要训练这些数据,并把模型存储起来,之后这个模型就可以用到线上预测,为用户提供服务了。在预测阶段,有可能产生一些其他的数据,系统会将这些数据重新收回来,形成良性的闭环。针对这种最常见、最普通的场景推出来的解决场景,在百度云上,就是百度云深度学习平台。
在技术层面上,如今GPU的市场行情维持在价格昂贵的阶段,为了不造成浪费,能够将GPU百分之百利用起来,百度研发的分布式集群可以让GPU进行分钟计费,用户只有在使用过程中才需要付费。底层支持的最先进GPU加速器,能够有效进行资源管理优化,并支持私有化部署。
百度云使用的GPU BOX是百度自己的GPU服务器,也是底层深度学习平台的引擎,经过严格的压力、温度等测试,可以充分利用资源,不浪费一分钟的时间。对于外部开放,百度云深度学习平台已经将语音识别、计算机识别等承接起来,用户可以在这个平台上做任何想做的事情。
天智是继“天算”、“天像”和“天工”三大智能平台后,百度云发布的第四大平台级解决方案,主要围绕人工智能技术能力的开放和输出。刘炀表示,万物联网离不开人工智能,百度云的愿景就是开源开放,提供各种各样的框架给用户使用,与领先的人工智能技术公司合作升级,是一个对于早日跨入“智能社会”的门槛、对于企业的转型升级来讲是非常重要的部署。
从图像识别+到智能社会
智能革命,它的过程会轰轰烈烈,但它的成果将会是一条宽广平缓的河流。人工智能领域的权威人士都认为,在不久的未来,智能流会像今天的电流一样平静地环绕、支持着我们,在一切环节提供养料,彻底改变人类经济、政治、社会、生活的形态。这是百度创始人李彦宏在他的新书《智能革命》的自序。
未来世界的人们将像穿衣吃饭一样享用着人工智能而无所察觉。但是在从技术到应用的环节,技术工作者的努力是不可忽视的。对于图像识别来说,真实世界是很复杂的,需要识别的覆盖率、准确率都要高,而且速度要快,才能达到理想的识别效果。而具体应用场景除了众所周知的刷脸,比如百度大厦上线的“刷闸机、送炸鸡”的门禁,数万名员工上班刷闸机如果识别错误,就能被送“炸鸡”,而上线一个多月后,炸鸡才送出去一份。
除了用于安保、金融认证等环节,图像识别还能广泛应用于医疗、教育、无人车等各个应用层次。以无人车领域为例,在交通方面,百度拥有国际最佳的交通场景物体识别技术,在国际通用街景数据集KITTI的车辆识别准确率达到89.32%;而图像技术的积累可以辅助无人车更为精细地判断交通路况,例如判断红绿灯就是一个非常重要的事情,其次可以帮助判断那些误闯马路的行人,对他们进行保护,这也是非常重要的一点。
由感知平台、机器学习平台和深度学习平台三部分组成的百度云天智平台,针对这些不同的应用领域,都能提供人工智能服务。感知平台主要包括图像技术(文字识别和人脸识别)、语音技术(语音识别、语音合成和声纹识别)和自然语言处理(NLP Cloud),可以应用于智能客服、身份验证、内容审核等场景,应用开发者可针对特定场景的应用直接调用API。在这些技术方面,百度均处于行业领先地位。
机器学习平台是百度云端托管的机器学习服务,可以打通机器学习全流程,内置20多种高性能算法,并开放Spark Mllib;同时支持百度用户画像数据,并提供多种应用场景模版。
手机扫码阅读
深度学习平台具有灵活、高效、可伸缩、开源等特点。它支持多种神经网络结构和优化算法以及自定义网络配置,对于计算、存储、架构、通信等多方面进行了细致优化。它支持多核、多GPU、多机环境,其Paddle内部技术已经使用成熟,并实现对全球开发者的开放。深度学习平台适用于精通深度学习的数据科学家,针对企业或研究部门的特定项目,需要大量的客户标注数据。
无论是图像识别,还是更广域的人工智能技术都拥有丰富的应用场景,能够帮助人们从感知升级到认知,支撑着百度的核心业务发展,而百度云天智等平台的全面对外开放更是构建生态,通过闭环推动人工智能行业的整体跃进。
百度看来,智能时代的核心本质是“knowledge in every system, intelligence in every interaction”(知识无处不在,任何交互都是智能的)。这正好与道家“一生二,二生三,三生万物”的哲学思想不谋而合,开放、生态与交互,将迎来我们期盼的智能社会和时代。