大数据时代的数据新闻和可视化传播
2016-02-15沈浩中国传媒大学调查统计研究所
沈浩 中国传媒大学/调查统计研究所
大数据时代的数据新闻和可视化传播
沈浩 中国传媒大学/调查统计研究所
本文对大数据时代的数据新闻和可视化传播进行了阐述,对数据新闻的层次进行了分析。结合实际介绍了数据可视化技术在电视新闻的应用。
大数据时代 数据新闻 可视化传播
今天看到很多演讲嘉宾在谈到当今广电的时候,其实都离不开和互联网的关系。我们看到现在的电视,已经有了操作性,可以选择我们是要看电视,还是要上网。这样的互动过程,今天人们把他称作移动化时代,今天也是一个大数据时代。我今天的主题就基于大数据。
大数据实际上来自于我们更关注的消费者,或者我们的受众,他们每天的足迹,每天的支付行为,每天的观影行为,当然也包括他们的社交行为。前一段时间有一本很重要的书叫《大数据实战》,也有一本书叫《爆发:大数据时代预见未来的新思维》。这本书在出版的时候请我写一个推荐语,我是这么说的:这是一个令人兴奋的时代,也是一个大数据的时代,数据科学让我们越来越多地从数据中观察到人类社会的复杂行为模式,以数据为基础的技术决定着人类的未来。《爆发》这本书的核心观点是什么呢?核心观点是说人类行为的93%是可预知的。
您相信这一点吗?您是关心93%太大了还是什么呢?其实我更关心的是什么叫人类。人类说的是你还是我?说的是男人还是女人?说的北京人,还是说的江苏人?其实当今天大数据来的时候,我们实际上已经指名道姓地分析一个人的行为。不过有人说我不用微博,没有问题,尽管你不用微博,但是我们已经有足够大量的数据,在拥有一个群体,就像中国移动也没有所有的手机用户一样。当然也有人说我在微博上说的都是假的。假的也没有问题,为什么呢?你是谁?其实跟你没有关系,而是我看你,你是谁。
过去我们研究我们的消费者,研究我们的受众,我们研究来研究去,得出一个结论,一方水土养活一方人。就像我们见面了,他会问沈老师你是哪儿的人呢?我说我是上海人。他说上海人怎么那么爱吃辣的呢?我就是爱吃辣的,因为你是上海人就对你打了标签,但随着我们对受众和消费者的深入了解,我们希望更深入地研究哪些是我的VIP。但是今天在大数据时代,在移动互联网时代,其实我们更关注的是社会。什么是社会?一个人不是社会,两个人也不是社会,只有三个人我们才进入社会。正如中国那句老话:道生一,一生二,二生三,三生万物。那么如何研究这个关系呢?其实今天人和人之间的关系也是大数据,因为我们通过关系就可以捕捉个人的价值。所以从这里面来讲什么是人类?当然我们真的有时候看到人类是什么样呢?
上面这张图的背景实时的显示了当前在地球上谁在使用推特,用了推特就会有亮点显示,慢慢地这个亮点就会有这样的呈现。当然我们立刻看到原来中国的推特一片黑,说明中国人不爱用推特,当然我说的婉转一点。其实我们立刻就可以从数据可视化中感受到社会,所以大数据它一个很重要的特点,它可以分析一个人。就像有人问什么是大数据?我说大数据其实就是挖拉登,只要拉登敢打电话,美国就可以在大量的数据中寻找这些信息,卫星、导弹就下来了,它可能就是精确打击一个人。当然了,大数据也可以分析全体,去感知这个社会的舆情,网民、受众对某个节目的感知,当我们看到这些的时候,大数据不太爱分析的是什么呢?是我们的平均人。
让我们来看大数据跟传媒跟广电有什么样的关系。十年前我在我们学校的新闻学院创建了一个专业叫媒体市场调查与分析,当时指的是跟小数据的融合,我们希望我们的广电拥有具有国际视野,掌握计算机的人才。十年之后,我们又创建了一个新的专业方向,是大数据跟新闻学的融合,我们诞生了一个数据新闻专业,我们也是全国第一个创建这一专业。我们的传统新闻要不要这些记者去做CT,要不要学会编程呢?这是一个问题。今年我们开始实现自主招生,学校批准了自主招生,竞争非常激烈,同时也看到了很多人对数据新闻产生了兴趣,我们还关注当前比较热的像对无人机的新闻报道,比方说机器人新闻写作,以及可能的VR、AR在新闻领域的应用,我们在不断探索。
其实在很早的时候,脸谱的一个实习生,曾经把脸谱全球社交网络以非常好的方式呈现在我们面前,让我们看到了全球的社交环境,看到了人与人之间的关系。今天我们已经有了非常时髦的大数据,其实我们更多的人谈的是大数据时代,但是对于我来讲,我把大数据主要分成这样四个领域,第一个就是Data Science,有人说21世纪最性感的职业是数据科学家。在这里面我们还涉及到一个网络科学,人与人之间的关系,我们把它叫做社会网络。还有一个就是每天拿着手机,我们会移动,这些基于MDS、经纬度,你的位置,以及你坐落的位置的空间环境,形成了一个空间地理科学的领域。今天我们会关注于一个叫可视化的技术,有人说大数据有三V,大数据有四V,其实大数据还有五V,就是可视化,因为只有看得见才能做得到。其实大数据技术更新非常快,特别是从开源以来。在这个过程中,我们可以看到大数据在可视化技术上提供了各种各样的平台,我们非常容易的去使用这些平台。过去都需要在机房去配置所谓的运营,或者叫做高性能系统、运行系统或者云端。我们今天很容易地感知到的一个关系是什么,我们看到在这个关系里面,实际上可以很清楚的追踪一个信息的扩散或者一个人的关系。
对数据新闻,我们在不断尝试如何把可视化技术运用到新闻中。上面这张图是两会期间,人民网做的实时舆情展示。如何从网上实时抓取李克强总理两会报道的实况,然后把这样的信息呈现在屏幕上,这涉及到如何实现分子技术,如何实现主题模型,如何能够把这些信息展现出来。主题词的展现有个问题,万一屏幕上跳出一个敏感词,我们就要找导播的问题了。所以对于互联网来讲,特别是对传统媒体来讲,媒体的内容如何保证正常播出和安全播出,这变得很重要。同样的道理,如何在可视化和制作数据新闻的过程中,把可视化内容放在电视上呈现。在可视化内容中,曾经有百度迁徙,我们认为这是当时中国的老百姓第一次能够通过媒体,特别是电视媒体感知到这样的大数据应用。后来春晚的时候,东莞扫黄,从那个图上可以看到东莞的人能往哪儿跑,这就让可视化更火了。大数据最重要的一点,你不会做挖掘,但是你能看得懂,只有制作者看得懂了,才能把从数据中获得的信息让老百姓也看得懂,今天的大数据很多挖出来的东西都是可以让我们的受众看到。这时候我们发现我们的领导也看到了,中央台访问调研的时候,就特别指示一定要加强两会大数据报道。
但是我们的电视媒体不懂什么叫大数据,什么叫数据新闻。所以这就使我萌发了一个想法,我们需要既懂新闻,又能够从数据的视角去观察的人才。正好得到学校领导的大力支持,我们就立刻创建了数据新闻这个专业。但是数据新闻实际上它更多的是什么呢?是新闻还是数据?过去这两个职业,或者两个学科,甚至是相互抵触的,就像文科和理科。我们希望培养的是具有可视化能力,我叫数据工匠。只有看得见才能做得到,才能做得好。今天是媒介融合的时代,也需要媒体人也具有这样的融合。除了在计算上的word、ppt的制作,今天媒体人可能要学会编程了,我们能不能用R语言解决问题,能不能进行艺术性的设计,如何去实现数据可视化。当然我说一句话叫形式大于内容,在有内容的前提下,怎么才能让形式大于内容。其实数据可视化包括各种可视化,比如说空间可视化、城市可视化、交通可视化,我们一直在尝试着不同的可视化技术和手段,包括Excel图表的可视化。
在这个过程中,你会发现我们有很多内容需要可视化呈现。像我们媒体的收视率,在2006年我就在研究如何在PPT上实现可视化,如何选择可视化展现这样的动态过程。可视化在今天如何能够跟大数据产生融合呢?其实在数据驱动的商业变革和经营创新中一直有可视化,我们把它叫做商业智能,数据可视化可以涵盖整个大数据或者商业决策。我们需要有更好的可视化方式,呈现在今天广电的媒体上,我们希望能够通过数据可视化的模式,让可视化深入到我们认知数据的模式中。我曾经做过个人的肖像,中央台也曾对每一个主持人制作了个性的标签和画像;也可以对文本进行相应的分析,研究两会政府工作报告,研究习近平的讲话,通过中文或者自然语言的处理,看到它所具有的报道价值在什么地方;我们也可以对一条信息,或者对一种关系追寻其传播,像右边这个是信息传播到五万条的时候,我把信息抓下来形成的信息可视化,从这里面我们可以更好的去洞察和感知到这样的一个信息呈现;包括如果我们拿到北京市人们的POI,无论是移动的或者其他的类型,我们完全可以算出任何区域内的人流量,或许我们可以通过对数据的分析,寻找到智慧的足迹,看到我们的消费者,我们的受众在什么环境里面。
当然我们可以观察这样一些数据的点,由此可以看到人们的行动轨迹,我们利用百度,利用腾讯,利用谷歌的实景地图,实时观察到在这个位置上有多少人。甚至我们可以获得更加精细的地图导航,只要你打入电话,立刻可以回转到这个人在什么位置。如何把一个消费者能够以他的社会关系,他的智慧足迹,他的居住行为,他的娱乐活动整合在一起,呈现在我们面前,呈现在我们的决策者面前,这是非常重要的领域。所以数据可视化本身就是数据分析,数据可视化本身也是一种叙事手段,数据可视化本身也是一种低碳性的思维方式。我们希望能够在广电,在传媒,培养更多懂新闻的,能够去处理数据的数据工匠。我觉得掌握一种技能,成为工匠是非常了不起的。所以我们可以通过检测全球的新闻事件,来由此感知这个社会到底是什么样。比如我们设想,能不能从全球的新闻事件中去感知我们的一带一路,感知这个社会,国与国之间的关系。数据新闻有一种说法——当然这个说法可以大家去查的——互联网之父蒂姆说的“未来的新闻是分析数据”,这点我不知道大家怎么讲,但是从侧面可以看到数据对新闻的驱动。
数据新闻是从2010年兴起的,我们的很多媒体特别是以互联网为代表的新媒体上,都成立了数据新闻工作室。这个趋势在中国的出现是2013年左右,或者更早。大数据兴起后,催生了数据新闻的发展。我们可以看到数据新闻最先在国内普及主要还是在网络和新媒体,包括百度、网易等等。其实数据新闻跟传统的新闻它的本质依然是新闻,因为是新闻,所以我们就要强调新闻的选题,强调新闻的叙事能力,只不过在中间增加了一个数据的采集、数据的处理和可视化的环节,特别是我们强调了一种可视化的能力,使得我们的受众能够通过可视化的表现,快速地去理解我们所想表达的东西。曾经的定义说数据新闻就是把传统的新闻敏感性和有说服力的叙事能力,与海量的数字信息相结合创造了一种新的课题。传统的新闻是新近发生事实的报道,但是我们看到记者今天不用天天的再去追暴风雪了,不用去现场了,有一类记者叫数据新闻记者。他每天就在互联网上寻找全球的信息,寻找他所合作的那些开放大数据源,由此去挖掘出值得报道的故事。数据新闻的发展历史跟早期的计算机普通报道、精确新闻有着一脉相承的逻辑,但因为大数据时代的来临,本质上数据新闻已经完全跟传统的精确新闻不同了。
我们看到过去在信息不足的情况下,需要记者集中精力去获取信息,但是今天不仅记者获得的信息庞杂,对受众来讲也是这样。如何从数据中寻找分析不断变化的数据,找到它的意义和结构,或者说能够展示数据,让受众去了解这个信息的重要性和相关性。数据新闻有科学性的一面,换句话说大数据时代可以让传播学变得越来越科学,甚至让社会科学变得越来越科学。数据新闻的层次包括内容可视化和挖掘新闻。
内容可视化是以内容呈现图表化为代表,将报道的内容可视化,使用诸如图表、信息图等方式配合简单文字描述进行报道,其表达的含义简洁易懂,符合人类大脑接收信息的习惯;
挖掘新闻是以数据挖掘为代表,即从海量的数据信息中挖掘出有新闻价值的部分,然后经过新闻加工整合成为一篇报道,这样的新闻具有调查报道和深度报道的优点,可以更加客观公正的守望社会。
在这里面我们可以看到,其实数据新闻的层次就是要从内容上去挖掘,有一种说法说数据新闻可以归类到我们的深度报道,当然数据新闻也可以归类到我们的数据可视化,或者基于大数据可视化的技术。当前国内外在数据新闻上有非常好的合作点,我们可以看到国外像纽约时报、卫报在这方面有一些做的非常好,在媒体方面也有他的探索,和现在各个电视台差不多,看到他们所碰到的问题跟我们今天所碰到的问题是一样的,在这里面我们会发现,有很多类似的比如说MH370找不着了,比方说前一段时间财新做的周永康事件的追踪脉络,当然他们更重要的还是通过H5和手机移动端传播的。最近我们看到,如何在网页上的实现是不是能够在电视上实现,这里面涉及到电视节目制作的过程,就像我们的背板,电视台用的背板是蓝色或者绿色,但是我们的制作用其他颜色就没法实现,如何让我们的生产流程适用广电,这还有一个探索的过程。在这里面有很多类似于这样的分析技术和可能的实现技术,将会重现在我们面前,包括我们看到的,像我们在学生中做了很多,做了几百个各种各样的报道方式,成立了数据可视化的兴趣小组。一篇报道该如何去实现,这里面可能涉及到地理空间的分析,包括文本的分析等等,这些东西都需要我们学新闻的学生能够去掌握。
但这面临着两大难题,一方面是我们学生的文理是比较分明的,家长在培养孩子的时候没有意识到这一点。另一方面我们自己的学生也会有这样的抵触,比如会担心这个东西我能不能学会。其实今天的工具都开源了,工具越来越成为工具,而且非常容易使用,我们的文科生、新闻系的学生大概需要半天的时间,就能制作出非常漂亮的可视化作品——是不是新闻作品我们还在努力——制作方面他们已经可以做到。把获取新闻,数据的分析和可视化的呈现融合在一起,是我们的一个努力方向。我们也希望能够有更多的人才,不光传媒大学,其实武汉大学、复旦大学、其他的新闻学院,也都开始涉足或者培养这方面的人才。相信用不了多长时间,我们国内在广电上会有一些人才,在数据新闻领域,甚至我们马上进入的机器人新闻报道领域,会有比较好的突破。当然我们也希望他们能掌握无人机,掌握VR,掌握AR,这些都是新媒体的趋势,当然这种趋势也可能是这两年最时髦的一种趋势。