当计算机睁开眼睛

2016-11-14伊珊

时间线 2016年5期

伊珊

计算机视觉是一门研究计算机如何去“看”的技术，是通过算法对图像进行识别，从而使计算机像人类一样甚至超越人类去观察和理解世界，它是人工智能领域的一个重要的组成部分。这几年随着相关硬件、算法及大数据的不断发展，整个人工智能领域出现了井喷式发展，各大巨头纷纷收购视觉创业公司，各种新产品层出不穷。

生活中，每个人都问过别人“这件衣服是从哪买的？”“这双鞋是什么牌子的？”这一问题很快会被AI技术解决，只需要拿出手机对着物品拍照，就会得到商品的各种信息，并且能一键买买买。这就是美国著名图片社交网站Pinterest（拼趣）即将推出的应用图片识别购买业务。

Pinterest总裁Tim Kendall表示，“Pinterest可以即刻在存储750多亿张图片的巨大网络空间内进行搜索，从而为用户找到与所拍摄照片相似的配对图片，以及查找到哪些地方能够买到他们所需的商品。”

目前，Pinterest的估值已经达到了110亿美元，该公司的专注点正在向营收增长和创收方面转变。相比Facebook、Twiter等社交网站，Pinterest已经率先找到了一条清晰的创收道路。

从兴趣到产品

亚里士多德曾经说过，古往今来人们开始探索，都应起源于对自然万物的惊异。科技的进步也是如此，就像微软研发主管和项目负责人Mitch Goldberg所说：“我们想通过该应用向人们展示识别技术的无限魅力。”

今年2月，微软旗下的Garage实验室发布了一款名为“Fetch！”的应用，它可通过机器学习系统识别照片中宠物狗的品种并用文字对该品种进行简单的介绍。

随着计算机视觉领域开始利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习，识别的精确度实现了巨大飞跃。也就是说通过机器学习技术，Fetch！识别的准确度会越来越高，随着大量图片的涌入，Fetch！可以自我修复错误，从而更加精确地识别每一只狗的样貌、形态、动作。除了测试狗类品种以外，你还可以把朋友的照片上传至平台，看看他们能够对应出哪种宠物。

微软的这款产品基于目前最为热门的一种图像识别技术——“深度神经网络”，同样基于这种技术，微软还有另一款有趣的产品：How-Old.net。去年5月，有超过5.75亿图片被提交到How-Old.net，超过8500万来自世界各地的使用者访问了这个网站，只为寻找一个简单问题的答案——颜龄机器人认为我看起来像几岁？如果是合照，并且颜龄机器人识别出的自己比周围人年龄小，则更能引发用户的兴趣，这种“损人利己”的识别应用着实在社交媒体上火了一把。

另一让计算机视觉研究技术人员特别感兴趣的领域是生物识别，当下最为火爆的莫过于人脸识别技术了。早期的人脸识别技术多为安防领域，如海关识别走私犯、商店识别小偷等。近年来，深度学习的研究与应用使得人脸识别和人工智能的核心技术得到了极大的提升，摄像头等图像硬件的发展为人脸识别提供了很好的图像基础，如今人脸识别技术应用更加广泛，比如公司可以使用刷脸打卡来杜绝代人打卡签到现象。

其实早在2012年，谷歌就开发出了安卓系统的“刷脸解锁”技术，但因安全问题未解决，该技术一直未能得到普及。

而今年3月，电商巨头亚马逊提交了一项针购物付费的专利技术，即消费者在亚马逊网站购物时可以通过自拍或者视频来进行付费，无须再输入账号密码。在消费时系统会提示用户表现出特定的行为、情绪或手势来证明消费者就是本人，而不是拿着照片的冒名顶替者。

亚马逊表示，这项技术能使消费者更加安全地进行网上购物，因为很多用户为了省事会把所有账户都用同一个密码，或者把密码记在手机里，一旦遭遇“撞库”或者手机被盗，后果不堪设想，而刷脸技术则没有这个风险。

除了识别人脸，在识别其他生物方面也有了突破性进展，比如识别寄生虫。疟疾，是一种由疟原虫造成的全球性急性寄生虫传染病，据统计，2015年有大约有2.14亿人受疟疾的影响。

一直以来，医疗工作者是通过肉眼观察采样玻片来确定采样对象是否被疟原虫感染，这不但是对医疗工作者经验的考验，而且工作效率也十分低下，而贫困地区一直都缺乏有经验的医疗工作者。

今年2月，根据MIT Technology Review报道，Intellectual Ventures Laboratory（智能事业实验室）开发出了能够检测和评估疟疾感染的便携式显微镜。这种显微镜采用的是一个名为“Autoscope”的系统，通过计算机视觉和深度神经网络技术，采用深度学习算法来鉴别疟原虫。这款便携式显微镜今年在泰国实地测试，成功鉴别出了 170块玻片中的疟原虫如果这项技术得到普及之后，只要诊所有一台Autoscope显微镜和一些载玻片，就可解决疟疾的诊断问题，这将使疟疾诊断不再依赖于有限的专业医疗人员。

技术转化为产品

新技术的出现，让计算机不但“看见”这个世界，更能“看懂”这个世界，可以代替人眼甚至超越人眼。

人的视野是有限的，并且会受到周边条件的影响，驾驶员在开车时会有视野盲区，还会受到光线的影响，并且大雾、暴雨等极端天气也会严重影响驾驶员的视线。而计算机视觉技术就不一样了，视野会更开阔，受限制更小。根据汽车媒体《Leftlane》报道，福特公司最新的无人驾驶汽车研究计划是由激光感应（LiDAR）和雷达、摄像头形成一张周围环境的高清3D地图，不但让无人驾驶汽车看到摄像头视野范围之外的物体，而且并不受光线限制。在夜间试驾后，福特工程师Wayne Williams说：“坐在汽车里，我能感到它在走，但是我往车外看，只能看到一片漆黑。结果令人惊喜，车辆准确地沿着蜿蜒的道路行驶。”

识别场景这一领域技术的发展，使得计算机不但能当机器的眼睛，还能变成人类的眼睛。

对于双目失明的人来说，能亲自感知这个世界是梦寐以求的事，而微软2016 Build开发者大会上发布Seeing AI项目正是要帮助盲人实现这一愿望。

Seeing AI项目是通过计算机视觉和自然语言去形容一个人的周围环境、朗读文本、回答问题以及识别人的面部表情，可以在手机上使用，也可以在Pivothead的智能眼镜上使用。如果投入使用，将有助于为视障人士营造更公平的环境，是一款能够真正改变人们生活的产品，就像此项目的高级项目经理Anne Taylor所说的，这是“为真正重要的场景寻求解决方案”。也许不久微软能开发出一种仿生眼，直接发送视觉信号到大脑，让盲人真正看到这个世界。

这项融合了图像识别和自然语言程序的研究除了能帮助视障人士获得准确环境表述，也能帮助需要图片信息但无法去看图片的人们，比如正在开车的司机。

计算机视觉研究背后的图像识别、自然语言处理和机器学习等领域的研究已持续数十年了。近年来的一系列研究的突破让计算机视觉研究者们实现了在几年前还不敢想的事情。微软图像描述（Image Captioning）技术资深研究员何晓冬说：“我们今天开发的技术比六年前好太多了，该领域的进步是如此之快，不用说六年，就是现在与六个月前相比都会有很多进步。”不远的将来，最新研究进展都以会闪电般的速度转化为人们可以实际使用的产品。