重建巴别塔
2015-05-21吴大力
吴大力
当谷歌的工程师2014年11月在他们的官方博客上宣布他们的图像翻译系统“小有成就”时,也许面部表情里颇有自得。这一可以不断自我学习的系统(machine-learning system),可将图像用文字的方式描述出来。人们会发现,这项技术虽然继承自早已研究多年的图像识别和图像检索技术,但早期的搜索系统不得不使用关键词,归根结底是一些人通过文字的方式来查找另一些人设置好的文字,而最初的那些图像识别系统,也只能蹦出几个冷冰冰的词句。谷歌开发新系统的初衷,是为那些有视觉障碍的人提供帮助,同时也让图像检索变得更加便利,当然,成型之后,它必然会有更广阔的应用空间。背靠着庞大无比的搜索数据库,新的系统已将原先的词句矢量化,并善于利用矢量空间里的词句与词句的关系,重新组装成人类熟悉的语句。这时,这套系统与早期的系统相比就有了质的变化,计算机可以智能地描述图片,还可以通过接入更多的数据集来完成自我学习,语言与语言之间的互译曙光出现了。
在《圣经》里记载的巴别塔的故事中,上帝带给人类的语言隔阂的确制造了很大的麻烦,这其中不仅包括了因地域、种族、文化差异导致的人类自身的语言差别,还包括人与兽、人与物之间的语言隔阂,以及图像、文字、声音等这些人类根本性语言之间的断裂。科学家们在图像翻译方面的尝试,对视觉领域而言,是既有的、不断积累而成的阅读经验推倒,重新将话题拉回到原始的、初级的、哲学性的层面上了。无论是西方或是东方,如今人们都常讲一图胜千言,可要准确地描述一张图片,哪一言又是那一言呢?
这些散乱的图片本身就带着很大的局限,图片的信息量较之它所对应的现实世界场景,实在是少得可怜,它既没有现场的声音,也不会有现场的气味,更没有随着时间不断发展的事件的逻辑关系。巧妇难为无米之炊,仅仅描述一张照片里存在什么,显然不足以让人们满意,除了出生不久的孩子,没有太多成年人会因为认出了照片上的香蕉或者橘子而沾沾自喜。更何况,我们知道,任何一张照片,都可以被不同的理论体系进行阐释。听起来,对图像进行翻译,很像是一个永远无解的命题。但科学家和哲学家首先致力于寻找到一个特定的答案,像寻找密码锁的一把钥匙,如果所谓的图像理论真的能成为体系,就存在被数学建模的可能,成为阅读照片的其中一个严格标准,当这些数学模型足够多时,切换阅读图片的理论体系和语境,就会像给电视换台一样简单。当然,这只是一种理想化的假设,现实情况要复杂得多,重建巴别塔,还需要更多人、更多角度和更多的思维模式。
早在2009年,清华大学可视媒体研究中心的博士生陈韬、程明明在多位导师指导下完成了一个独特的图像生成论文(Sketch2Photo: Internet Image Montage),从图像的另一侧向语言转译发起挑战。这篇论文描述了一个有趣的算法,人们可以根据自己的想象,把关键词和手绘的草图提交给计算机,然后计算机通过搜索、合成互联网上现有的海量图片,自动生成一张符合想象的完美“照片”,例如夕阳西下的海滩,一对恋人热情拥吻,而头顶上飞着海鸥,边上还有帆船这样的蒙太奇效果,更有意思的是,场景里的光线、视角等多个地方高度吻合,就像是真的存在这样的场景,并且是被某台相机一次拍摄完成的那样。与谷歌的那套系统相较,谷歌更着力于对已经存在的图片资料的解读,而陈韬和程明明的这套系统则更趋向于对人类意图的理解,从创作的角度上,与艺术家们的关系可能会更为密切。可以想象,如果这套系统得以普及,则必会有一大批摄影师扔掉手中的相机,仅用脑子和手绘的草图“拍”出一张张的“照片”来。
诞生于1990年代的计算摄影学(computational photography),悄无声息地颠覆和超越了传统摄影行业,以至于许多摄影师似乎还未意识到,在这个数字影像的时代,几乎无摄影不计算了。可以说计算摄影从诞生之初,就带着颠覆和超越的使命,它努力去把以前人们看不见的看见,看不清的看清,看不全的看全。推开了计算摄影这扇门,摄影人会惊奇地发现,以前熟悉的一切都变得那么陌生,相机的概念被颠覆了,光的概念被颠覆了,拍照的概念被颠覆了,甚至摄影本身也一样被颠覆了。
2011年至今,由美国Lytro 公司发布的两代民用版光场相机可算作计算摄影领域里比较典型的产品,这种相机没有传统意义上的对焦镜头,也无需繁琐地拨弄光圈快门,使用者只需对着想要的地方按一下拍照钮即可完成拍摄,数万个蜂巢微型镜头,记录了信息量远超过传统相机的光场信息,至于想要照片里的哪些部分落在焦点上、哪些部分模糊,则完全可以回家在电脑上随意调整,也可以根据自己喜好,随时输出成2D或者3D照片。毫无疑问,它的出现具有某种革命性意义,让人很自然地想到当年柯达的那句有名的口号:你只负责按下快门,剩下的交给我们。它彻底破坏了我们已经习以为常的摄影伦理,传统意义上的相机,当按下快门之后,照片上的场景基本就“死了”,人们对它的摆弄,也只能在平面的维度里局限地进行, 而Lytro相机却让死掉的场景复活了。且先不论它的普及以及大量新的“照片”会对人类的观看产生什么样的影响,仅将目光转向摄影的本源,重新质问什么是摄影,什么是照片时,也会引出许多非常有趣的问题。我们原来的那个相机,不正是为了更真切、更多地记录现实场景的信息吗?难道不是因为相机的能力不足,而不得不将我们原本可以灵活聚焦的眼睛最终局限在了一个固定的平面上了吗?
从计算摄影学的角度,传统的拍照—数据采集这个过程不再是最优先、最重要的环节,对已有信息的计算和翻译反而成了工作的中心,不同的目的和算法,决定着图像—那个数据包会被用哪种语言重新表述出来。
当然,我们也会发现,计算摄影学,这个历史并不长的学科的边界仍在扩大,它以极快的速度渗透到绘画、视频等其他领域里去了。
2014年12月,国内科技媒体36氪转译了彼得亚雷?温德克尔(Piotr Wendykier)的一篇名为《梵高眼里的<星空>究竟有多美》的文章,文中提到了剑桥大学工程系举办的一项年度摄影大赛《工程的艺术:来自科技前沿的图像》,获得二等奖的Yarin Gal博士来自机器自学小组,他利用计算机算法扩展了梵高的名画《星空》。最终呈现时,这些扩展出的、完全使用梵高笔触绘制的星空布满了半面展墙,而梵高的那幅画则嵌在里面,将人们的想象一并带入到梵高的世界之中。看起来,装有Yarin Gal博士算法的这个机器,已经破译或者至少接近了梵高的图像密码,学会用他的语言讲话了。
在科学家们努力打通语言隔膜的同时,艺术家们也并没有闲着。当代艺术领域,不少艺术家都尝试过跨媒介艺术。2012年,在北京今日美术馆举办过个展的捷克艺术家米兰?葛利噶尔可算是其中触及语言密码的佼佼者。它的作品可以使人们看见声音、听见绘画,而更为重要的是,这个声音与绘画是一一对应的关系,在限定的条件内,可以相互转译,而这本身就带着强烈的科学性和实验性,对于未来的科学研究和艺术探索,都会有所启发。
英国艺术家尼尔?哈比松(Neil Harbisson)则干脆将他的作品带入到了自己的生活。这位先天全色盲的艺术家一直渴望能感受到周围世界的颜色,2012年,他终于找到医生,将他与科学家合作设计的一个智能芯片植入大脑,通过这个芯片以及外接的微型天线设备,他可以将外界的颜色及图像转化为音频来感知,同时,通过不断地训练,他也可以将自己听到的声音画出来,甚至这些设备还让他获得了普通人无法具备的能力,比如通过无线将图像发给芯片,他就可以闭着眼睛也知道图像上的内容了。这看上去真像是到了科幻世界。
细想想,无论是谷歌或是Harbisson,他们对根本性语言交融、互译的探索,的确将我们载向了一个虚拟的世界。这些探索看似基于现实世界,实则是基于现实世界的映射—那个纯粹由图像建立起来的另一个世界,正像Harbisson自己所说的那样:“正是我开始感觉色彩并做有色彩的梦的时候,我觉得到它是我身体构造的一部分了。”对他而言,传统的观看已经转变为体验,并且这些新的经验逐渐覆盖了原有的那个灰色的现实经验。也许,我们需要重新思考费尔巴哈在19世纪的那句批评了:“影像胜过实物,副本胜过原本,表象胜过现实,现象胜过本质。”