数据的文艺解读
2013-04-24陈婧
陈婧
眼前是231块LED屏幕,每隔几秒,每块屏幕上都会闪现不同的词语或句子的片段,“女孩”、“有翅膀的天使”,“墨西哥人”这些不着四六的文字,其实是从在线聊天工具、在线开放式论坛上交谈的10多万名用户的信息中截取的数据片段。可要注意的是,这些文字并不是滞后才“发布”的,几秒前你刚刚敲落在键盘上的文字,这个时候已经出现在了这一块块小小的屏幕之上。
你的耳边还会得到提示,因为这些文字正在通过机器合成的声音进行自动播报。不要以为这是个随机现象,其实231块屏幕的背后蕴含着至少6组统计规律。只有在符合特定的筛选机制后,计算机软件才会实时地从不规则的数据中,抓取出需要显示的信息。当机器相继播报出这些符合筛选规律的句子时,就已经几乎成为了一种让人可以安静下来“白噪音”,让你可以坐在那里几个小时,只为了仔细聆听这些句子表达出的内容。有意思的是,这些机器的声音听起来很遥远,很失真,像来自于另一个外星空间的电波,被重新发射回到了地球上。
这件名叫《监听站》的作品,虽然问世时间不久,却已然成为了当代艺术的经典,在包括伦敦科学博物馆、巴黎维莱特科技馆、美国圣何塞艺术博物馆等多地巡回展出,并夺得奥地利林茨电子艺术大奖。创作这件作品的作者,是美国加州大学洛杉矶分校的统计学教授马可·汉森(Mark Hanson)和来自纽约的多媒体艺术家本恩·鲁宾 (Ben Rubin)。汉森用一个数学家的方式,从数据筛选的角度,解读了由人构成的“互联”世界和他们的行为变化,让数据做到了“可读”;鲁宾和汉森一起,让更多的听众可以“收听”数据的分析结果。
《监听站》与传统的对数据进行视觉转化的最大不同之处,在于其并非依靠现有的资料或嵌入式的运行环境,而是展示了一个需要对数据进行即时响应的动态环境,从数以十万计的创作者中,运用统计学和数据模型,去发现、获得有意义的输出。虽然采用的方法是“窃听”和“偷窥”,但这种方式本身也显得“人性化”,就像在偷看好友锁在抽屉里的一本日记,或是偶然忍不住去看朋友手机里储存着的短消息。
每时每刻,我们都在线上遇到朋友、交换新闻、交互信息或是分享想法。这些数量为天文级的、碎片式的信息经过数据的重组、排列和筛选之后,就不再只作为公共空间里的数据而存在,而是呈现了人与人之间相互连接的一种行为模式。而且,数据可视化呈现出的效果,让我们得以摆脱社交活动的表象而进入到更深层次:我们的意见、想法、希望、理性,都可以从这些互联网上实时截取的文字段落中得到表达,重新归类,最终再通过机器复读的形式得到强化。对数据的重新演绎,让互联网上零散的、碎片化的信息获得了真正的意义和价值。
大数据时代,各个跨行业的公司都在千方百计地汇总数据来精确定位数字、趋势和模式。但随着数据环境变得越来越复杂和繁琐,也向管理这些数据并提取数据价值的组织提出了一个挑战:怎么样才能以更加巧妙的方式截取数据,并让这些碎片化的互动式数据获得价值?交互式大数据的可视化与可分析化还停留在较为初步的阶段,怎么样可以打开这道未知的大门,让更多的即时数据的价值被发现?就这些话题,记者采访了汉森,与他一起交流在大数据时代,怎么样从即时数据背后去挖掘人类行为上的差异性与共性,如何在保留个性化的前提下,去优化交互式数据的可视化传播。
Q:你们怎么会想到去截取互联网上的即时信息作为输入端的数据呢?
A:我曾经在贝尔实验室的研发部门工作,在那里我开始关注到统计学与艺术之间的交互,并意识到这会成为一件非常有意思的事情。当时我们的想法很简单,就是想知道假如10万人同时在线互动聊天,在这个过程中到底发生了些什么,于是就有了《监听站》。在互联网上,有成千上万的不设限制的站点,都可以让计算机进行即时搜索,从发帖、留言,再到用户间的对话。当这些文字汇入到数据库中,将数据重新定义、排序、筛选并经过系统的分析之后,数据分析的结果就会给我们讲很多故事。比如《监听站》很像是在写人物传记,每个人都在说着自己的故事。它也可以成为历史故事:当你把《纽约时报》创刊100多年来的读者评价作一次系统的分析,或者当你把图书馆里所有的书籍来个数据汇总,就会有这么一个效果。
Q:这让我们想到美国著名作曲家、音乐家约翰·凯奇创作的那些即兴音乐,他从电台播放的音乐中随机选出音乐片段和歌词,然后进行重新创作。
A:和约翰·凯奇一样,我想这都是另一种“偷窥”世界的方式。在音乐的歌词中,你会听到歌手对这个世界的抱怨或是赞美,愤怒或是喜悦。而在即时的对话中,你会听到大家对这个世界的真实想法,这些想法之间可能是针锋相对的,但都是由他们自己表达出来的,所以你听到的是他们发自内心的声音,比如对美国出兵作战的想法,对佛罗里达南部发生飓风的想法,对俄罗斯发生人质绑架案的想法等等,尽管这件作品本身是不存在特定立场的。你可以听到的还有他们最真实的自我,“我喜欢蓝色”、“我喜欢咖啡”、“我喜欢猫”,都是不用去遮掩或怯于表达的,不管是虚构的或是真实的。
Q:从数据池筛选数据的过程中,你设定它们应当满足哪些规律?
A:我设计了6组场景,背后应用了不同的统计规律,分组并滚动式地出现在231块屏幕上。比如有一组场景,都以“我是”开头,计算机会从庞大的“数据池”中筛选到符合这一类场景的信息,截取关于性别、国籍、政治倾向等自我介绍的语句,然后输出到屏幕上:举个例子来说,“我是澳大利亚人”,“我很性感但不成熟”,“我在为我的儿子做饭”。还有的以“我喜欢”、“我来自”等等作为句首,都应对了不同的统计学运算模型。我还和鲁宾一起研究了将文字转化成声音的软件,最后让3台计算机可以同时截获互联网上的内容并进行朗读。事实上,因为我们截取数据的实时样本来自超过10万人,这要求对词汇筛选的速度比瀑布飞溅还要快。
Q:屏幕上展示的词汇,仅仅是为了表达他们的多元化和个性么?
A:当用户使用聊天工具或者进入论坛时,他就进入了“与他人交往”的状态。在键盘前敲击的时候,他才真正进入到了那个“社区”,他会在对话中感受到差异,也感受到那种交互。他的输入,因此也成为了另一种形式的输出。但“社交”的状态并不代表他的个性非常擅长这些,相反,他可能正处于孤独、隔绝中。所以在这一块块屏幕上,他们内心真正的孤独,变得可以听得到、可以见得到、也可以感受得到。在个性化的表达中,你会从中发现更多共性的存在,就是那种对心贴心交流的那种渴望,对人与人之间充满人情味互动的渴望。
Q:有人说这件作品最成功的地方,在于把作曲家一直想做但没有做到的事情,把普通生活化的语言,变成了一种可视听的艺术。
A:让即时的、动态的数据变得可视化的同时又很艺术,是很多人都在追求的东西。但其实这和传统的绘画艺术很像,你要学会去把握局部和整体之间的关系,局部的东西是在描写细节,但画面作为一个整体就要能够去包容,很抽象、很概括。在我看来还有一点非常重要,你要学会去衔接“阅读”和“观看”之间的通道,这两者虽然都是用眼睛在看,但并不是等同的。举个例子来说,有一副基督的画像,远观的时候就是耶稣的头像,但实际上它由600幅图像拼凑而成,每一幅图像本身也是可以供阅读的,是用希伯来语和阿拉姆语在纸草、皮革上写成的死海手卷。
Q:要实现大数据可视化的最优,您认为哪些因素是非常重要的?
A:我最近在和纽约的艺术家耶·索普一起从事社交媒体的可视化项目,比如Twitter的可视化。大数据的可视化最大的不同之处在于,对实时响应的要求非常高,就像汽车的仪表盘,必须能够反映当下的、动态的数据;同时不仅仅让你看到你的网络里哪些人,而且要能够把握对你的用户来说,哪些分享和他们之间是更加有关联的。大数据的可视化最不能忽视的关键的一点,在我看来,是尊重数据表达的个性化需求。我们不能让所有的数据都用看起来一模一样的方法去呈现,否则就是一种非常懒惰的做法,一组数据和另一组数据之间的表达往往是存在差异的,我们需要去找到最漂亮的那种方式。
Q:在您看来,大数据的可视化可以发挥哪些社会价值?
A:我们每天都在产生数据,每天都在消费数据,数据已经变成我们日常生活的一部分。然而我们并没有从文化上完全认识到这种转变,这种转变意味着什么,这样的转变会带来什么。
从艺术的角度来看,大数据的可视化可以起到让数据更加“人性化”的作用,从而帮助人们认识到这样的转变已经发生,而且可以变得更加美好。或许,这一切的终极目的就是让数据变得更加实用。我会希望数据和人性化之间有更多的对话,理性与感性之间可以达到更完美的平衡。