你是我的“眼”
2016-07-01陶思圣
陶思圣
Saqib Shaikh戴上太阳镜,拿起手杖,走出家门。在伦敦的街道上,他熟练地用手杖探着路前行,突然,他好像感觉到前面有些什么人,不由得停了下来。Shaikh对着前方用左手划了下太阳镜的镜腿,眼镜发出一声细微的“咔嚓”声,紧接着“说”出了一段话:我想这是一个年轻人,正在展示一些滑板技巧。
这是在今年3月底举行的微软2016 Build开发者大会上播放的一段视频。它展示的是微软专为视障人士开发的一套辅助工具Seeing AI。
作为一款应用,Seeing AI可以装载在智能手机,以及创业公司Pivothead开发的一款智能太阳眼镜上(就是Shaikh戴的那款)。软件会自动判断识别的位置是否合适,使用者用手机或眼镜拍下眼前的场景,Seeing AI会对此识别,继而用语音描述出来。它不仅可以识别玩滑板这种动作,还可以识别菜单等文字,以及人脸等元素,并分辨出其性别、大致年龄,甚至能通过面部表情描述出对方此刻的心情。此外,Seeing AI还可以像苹果的语言助手Siri那样回答使用者提出的一些问题。
在开发者大会上演示Seeing AI的Shaikh正是Seeing AI的开发者之一。他是微软英国Bing团队的一名软件工程师,已经在此工作了十年。同时,他也是一名盲人。7岁失明后,Shaikh进入了盲人学校。在那里,一位朋友教会他如何编写程序,这让他能够靠编程实现一些想法,并分享给他人。“我发现,用电脑工作,做出的东西不会与视力正常的人有任何差距。”Shaikh对《第一财经周刊》说。
从小就很喜欢动手做东西的Shaikh,大学期间产生了发明一款能让盲人“看世界”的产品,而图像识别技术近几年的发展,让他终于接近了这个目标。
Seeing AI的概念其实并不是Shaikh向微软建议的。 2015年,Seeing AI的项目负责人Anirudh Koul首先提出要做一个能够帮助视障人士的项目,他的祖父正在逐渐失明,这让他意识到这样一个技术的重要性。Shaikh成为这个项目组的技术负责人,除了他,团队中还有包括项目经理等多位盲人,相同的经历使他们能更加理解视障人士在生活和工作中遇到的困难。
最终,Seeing AI项目在2015年的微软骇客马拉松赛中获胜,这是微软内部每年都会组织的比赛,目的就是鼓励员工创新。获胜的项目会得到公司的支持,并开发出最终产品。
Seeing AI是建立在微软认知服务上的一款应用,涵盖了计算机视觉、图像识别、自然语言处理和机器学习等领域的技术。微软认知服务目前集合了视觉、语音、语言、知识和搜索5大领域里共21项API(应用程序编程接口),这个数字还在不断更新中,这些API涉及了搜索团队Bing、机器学习团队“微软牛津计划”等研发的内容,而且它们完全是开放的,运用这些API,开发者可以自行在软件和系统中开发有关视、听、说、理解和解读等方面的应用。
在Shaikh看来,Seeing AI项目研发过程中遇到的最大难题是图像描述,包括图像识别和自然语言描述,这正是Seeing AI的核心任务。一张日常照片中包含着大量的信息,是否能够尽量把握住所有的信息,并做出精准的描述,决定了一款应用的实用性。
团队中的核心技术人员Margaret Mitchell就是一位图像描述研究者,她专攻自然语言处理,也就是说,让计算机懂得哪些信息对人来说是最重要的。当计算机足以识别各种细节时,筛选是非常重要 的。
Seeing AI的研究员希望最终做到的是,计算机能将“一个男人和一个女人坐在一起”这种场景更精准地表述为“奥巴马和希拉里正在合影”,让计算机的描述更加人性化。这需要拓展数据集,让计算机有更多样本参考。同时,也需要相应提高图像描述的速度,让视障人士可以更快地获取信息。
但期望摄像头现在就完全代替人眼是不可能的。这不仅仅在于1600万和5.76亿像素的差距,更重要的是,图像处理系统与人脑的差距。人可以在一瞬间判断出眼前的情况,主要依靠的是传导神经和记忆皮层把图像转换为有用的信息并加以判断选择。“目前,Seeing AI还处在基础研发阶段。”Shaikh说。研究员对于它到底能处理多少场景、准确度如何,还没有判断。
这就涉及到目前最热的人工智能(AI)技术,在这方面,除了微软,Google、苹果、Facebook等大公司都对此投入了不少精力。尤其是Google,曾经战胜韩国围棋九段李世石的围棋系统AlphaGo就是其AI技术的代表,它其实就是利用了机器学习技术,让系统能尽力模仿人脑的思考方式。
其实在Seeing AI之前的2014年,微软曾测试了一款帮助视障人士出行的头戴式耳机,工作原理类似声呐。在和智能手机连接后,耳机会接收建筑物发出的蓝牙信号,转化为3D提示音导航,也就是通过环境音来判断周围的情况。系统还可以识别佩戴者的朝向,提示建筑物方位和距离。
而就在Seeing AI亮相不久后,Facebook在今年4月宣布,为盲人发布了一款新型屏幕阅读工具,它能自动描述图片上的内容。相比微软,Facebook的优势在于拥有海量的记录了用户社交关系和行为数据。
事实上,如果Seeing AI等技术能进一步完善,它不仅可以为视障人士所用,还可以有更广的市场。比如汽车领域,这一技术可以给驾驶者描述一些处于视觉死角的图像信息。当然,还有无人驾驶,别忘了,它的一个技术核心正是采集更多信息并做出精准识别。