大数据时代:媒体的发展现状及其趋势
2013-04-29赵晶,徐喆
赵晶,徐喆
摘 要:大数据时代带来的变革已在商界初露端倪,媒体行业亦敏锐地察觉到大数据将带来巨大的变革,因此各媒体通过平台合作的方式扩大对资源的利用、增强对数据的分析能力。但无论纸质媒体、电视媒体、网络媒体或社交媒体,对大数据的使用尚处于摸索阶段。笔者认为,媒体在大数据时代的变革首先体现在新闻时效性方面,在下一阶段,媒体应充分借助大数据的预测功能进行预测性新闻报道;变革之二应体现在新闻采编方式上,媒体可利用“记者录入语音数据+大数据后台同步提取、分析、编写新闻”的方式进行新闻编写工作;变革之三应体现在扩大数据库规模上,媒体可借助媒介社区平台扩大现有数据库。此外,大数据时代媒体可通过媒介融合方式挖掘信息的二次价值。
关键词:大数据;发展现状;预测性报道;媒介社区;媒介融合
中图分类号:G206.6 文献标识码:A 文章编号:1672-8122(2013)09-0047-04
一、大数据的产生与发展
早在1980年,著名未来学家阿尔文托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。不过,大约从2009年开始,“大数据”才成为互联网信息技术行业的流行词汇[1]。
随着移动通讯技术、云计算、物联网等技术的发展,数据的积累已经达到前所未有的地步。大数据的发展基于以云计算为代表的大存储量的基础之上,计算机存储单位已从G、T发展到P (1P=1024T)。可以说,没有云计算的迅速发展,不会有大数据时代的到来。业界通常将大数据的特点归纳为四个“V”,即多样性(Variety)、体量(Volume)、速度(Velocity)和价值(Value)。IBM网站关于大数据四个特点的界定中,则用真实性(Veracity)替代了“价值”[2]。
大数据的出现首先对商业产生了重大影响,触感敏锐的商家逐渐舍弃被动的销售模式,转而通过分析客户以往的消费习惯,主动为其推荐“可能需要的产品”,如卓越、当当等网站会推荐“可能感兴趣的书”,在“淘宝”网站上进行购物时会出现“浏览过此宝贝的人还浏览过……”等信息。我们不难发现,商界已经先于其他领域,牢牢抓住大数据的契机,通过对客户消费习惯的分析,总结出客户选择的偏好,从而制定个性化的推荐服务。
二、媒体大数据发展现状
随着商界充分挖掘大数据潜藏的巨大价值,传统媒体、网络媒体、社交媒体等也逐渐意识到大数据可能带来的巨大变革,开始摸索着向大数据时代前进。
纸质媒体依靠纸质平台很难用客观的数据对新闻报道的好坏进行分析(好坏是指单篇报道的受欢迎程度),因此目前其主要借助网络媒体、社交媒体的平台,通过分析这些平台上所转载新闻的点击率、转发率等数据进行分析。据《中国微博元年市场白皮书》的统计数据显示,截止2010年8月,全国共有466家主流新闻机构开通了“新浪微博”,其中包括118家报纸、243家杂志、36家电视台和69家电台[3]。借助“微博”平台,编辑可以根据“微博”评论量和转发率来判断一条新闻的好坏,适当调整新闻采编的方向。解放日报报业集团社长尹明华曾说:“一篇稿子好不好,不能光凭主观判断,而是要有数据分析。这些数据可能有一部分来自内部专业人士,更多的则来自社会。[4]”
此外,纸质媒体也通过与网络媒体联手的方式拥抱数据时代。2012年7月,解放日报报业集团和深圳腾讯公司联手打造了“大申网”,上海网络用户只要登录QQ,就会获得最即时的定向推介。此次合作对解放集团有两大益处,其一,借用腾讯网平台可以实现新闻的实时报道,弥补了纸质媒体在时效性方面的天然缺陷;其二,腾讯网可以通过分析用户浏览新闻的习惯,定向推介特定的新闻,增强了新闻报道的影响力。
其次,有少量传媒集团着手与专业调查机构合作,深入开发大数据的潜在功能。如浙江报业集团去年开始投资数据分析项目,将目光放在了未来社交网络数据的深度挖掘上[1];2012年2月,佛山传媒集团与尼尔森公司合作,佛山传媒集团希望借助尼尔森大数据分析的平台,通过对数据的整合、分析、管理,为他们的转型发展提供战略性的策略依据[5]。
在大数据时代的发展背景下,电视媒体主要通过依靠数字技术收集受众信息以及与网站合作的方式参与其中。目前,数字电视收视率可以通过数字机顶盒实时记录电视家庭户的频道及广告收视、电视互动服务使用的情况,从而形成了实时的海量数据流,通过回传通道传给位于前端的汇总服务器。
走在大数据前列的大型网站,已经意识到大数据时代的核心在于海量数据及其存储分析能力,正在这两方面寻求突破。如优酷土豆股份有限公司的搜索平台拟挖掘和推算出4亿多视频用户的浏览行为数据;搜狐网站正着手搭建基于云计算的大数据平台,将旗下数据资产全面打通整合,获取每月9亿多人次的用户数据资产[1]。
可以说,无论传统媒体还是新媒体,都已经意识到大数据将带来的巨大变革,但是大数据究竟会对其产生什么样的影响、带来哪些变革,尚处于摸索阶段。
三、大数据可推动媒体预测性报道的兴起
大数据究竟会给媒体带来什么变革?笔者认为,第一个方面体现在对传统新闻时效性定义的颠覆上。
目前我国学界较认同的新闻的定义为:新近发生的事实的报道[6]。但在大数据时代的背景下,新闻报道如果仅仅满足于“对新近事实的报道”是远远不够的。大数据的核心就是预测[7]。为了牢牢把握住受众的眼球,媒体有必要借助新的大数据技术、凭借自身庞大的数据库资源,做到一些高准确率的、预测性的报道。
事实上,在美国已经出现利用计算机分析撰写报道的先例。Narrative是一家拥有大约30名员工的美国公司,它运用Narrative Science算法,大约每30秒就能够撰写出一篇新闻报道。2011年该软件通过收集相关信息写出了大约40万则关于少年棒球联盟的新闻报道。2012年这一数字预计将达到150万[2]。
但是由于社会环境的复杂性,以及计算机本身计算能力的限制,这种预测性新闻并不适合所有的领域。计算机相对人脑而言不够灵活,需要人工对其进行重复训练才可以达到自行分析、编写新闻的目的,具体而言就是要提供给计算机很多不同的新闻数据,然后根据一定的准则将这些数据分割,通过固定的计算机算法,计算机会学习到一定的概率信息,以后碰到相似问题,计算机就可以按照之前给出的新闻模板生产新闻。但通过这种方式制作的新闻会显得过于千篇一律。并且,由于计算机需要在一遍遍重复训练后才可以变得准确度更高,因此,对于数据量过小的新闻领域而言,其错误率显得过高,目前只在体育新闻及金融新闻可行性较大。
因此,在新闻报道中,仅仅将大数据的预测功能作为一种辅助功能,即仅作为提示记者下一个关注点的一种工具,具体采写过程应该由记者自己完成。
四、大数据可改变新闻采编方式
从上述论证来看,要挖掘大数据的预测功能尚有很长的路需要探索,并且给我们提出一种警示,在媒体发展过程中想最大限度地发挥大数据的优势,势必采取人机合作的方式,这种合作方式首先应该体现在对传统新闻采编方式的改变上。目前,记者的新闻编写工作主要通过电脑输入来完成,虽然较之以往的手写方式便捷许多,但由于记者工作性质的特殊性,需要四处移动,有时无法在截稿时间节点前完成稿件的输送。
记者可以在专业的数据采集平台录入音频或者图片数据,而后通过后台完成数据的抓取以及新闻编写工作,当然这仅仅指可以套用模版的小稿件。具体操作模式为:记者只要在采访过程中随时录下所需的音频数据,并且在音频数据末尾输入特殊的“符号”,其后通过专业的数据抓取平台提取相关数据并加以分析,由计算机后台按照一定的编写模式撰写稿件,在得到记者确认后提交稿件库。比如,在“新浪微博”的博文中添加“@爱马克”的信息后,“爱马克”软件自动为读者收藏“微博”中的网页,从而提取读者感兴趣的网页、文字等数据。笔者认为,可以开发一个类似“爱马克”的软件,记者只需在数据录入过程中添加一个数据提取的道口就可以利用大数据分析后台进行新闻的编写工作。
根据现状来看,大数据时代对于音频、图片等方面数据的分析并非不可能。在IBM发布的一份名为《分析: 大数据在现实世界中的使用》的报告中显示,组织在大数据工作中主要利用的内部数据源有38%来自音频数据、34%来自静态图片或音频。而在大数据分析能力方面,25%的受访者报告正在利用语音来分析大数据[8]。
如果这种新的采编方式得以实现,那么将大大加快媒体的发稿率。
五、媒体应充分利用媒介社区资源
此外,在大数据时代,数据本身的价值远远大于其技术革新的价值,数据本身是大数据时代的最重要的部分。媒体若要在大数据时代处于行业领先地位,就必须在现有数据库资源基础上拓展数据库规模。
目前,新闻记者获取新闻源主要通过三种方式:第一,条线记者会定期收到来自条线通讯员提供的信源;第二,从报社的爆料平台获取信源;第三,从网络上获取信源。前两种方式虽然在一定程度上保证信源的可靠性,但戈夫曼曾在《日常生活中的一种自我呈现》中指出,当个体处于他人面前时,常常会在他的行动中注入各种各样的符号,这些符号戏剧性地突出并生动勾画出了若干原本含混不清的事实[9],即通讯员可能出于对自己利益保护的原因,刻意隐瞒某些事实,致使报道存在片面性的缺陷,并且信源的渠道有限。第三种获取信源的方式虽然扩大了信源的数量及规模,但逐一浏览网页、辨别信源真伪耗费记者大量精力。
笔者认为,在大数据时代下,可以充分利用媒介社区资源,扩大信源采集量。对于媒介社区的概念在学界尚存在争议,争论的焦点主要集中在对社区概念的认定上。目前对社区概念的理解主要有三种,一种说法认为社区是“社会共同体”,是人组成的“群体”;另一种说法认为社区是“地理区域”,或者是指定的“物理空间”;第三种观点认为,社区概念是上述两派的合集[10]。
本文涉及的媒介社区主要指第三种,即“社会共同体”和“地理区域”的集合体。所谓“社会共同体”简而言之就是具有相同兴趣爱好、宗教信仰、共同话题等群体,而“地理区域”主要涉及生活环境、血缘关系等方面。
自15世纪古登堡发明印刷机以来,媒介社区逐步开始形成,首先出现的是以读书会的形式存在的媒介社区,在以广播为代表的电子媒体出现之后,形成了以广播节目的“粉丝”为主的媒介社区,在网络时代,又形成了以虚拟社区为主的媒介社区,所谓虚拟社区就是拥有共同兴趣爱好的群体在网络上形成的小社会。本文所指的媒介社区主要涉及以网络为主的虚拟社区,但这些虚拟社区既有“社会共同体”特性,又具有“地理区域”特性。
从“社会共同体”这一定义出发分析媒介社区发展现状,目前主要通过形成大量专业型网站、“讨论组”、“讨论群”、“贴吧”等方式来实现,比如以吸引汽车爱好者为主的“汽车之家论坛”、以音乐爱好者为主的“音悦台”网站,其讨论的内容往往围绕一个主题,经常发布诸如新的行业动态、内幕爆料等信息。从“地理区域”这一概念出发分析媒介社区的发展现状,主要由于生活在某一相同地理社区中的居民,或出于维护自身利益的目的、或出于在同一社区里分享饮食、购物、交通、房地产等方面信息的目的,成立了大量的社区生活网站、“讨论群”等,比如上海众多区县拥有诸如“南汇生活网”、“闸北生活网”等生活服务类的论坛网站。
无论是依托“社会共同体”还是“地理区域”存在的媒介社区,由于处在媒介社会中的个体对所在社区文化、环境等内容较为熟悉,其提供的信源具有较高的可靠性,并且数据量巨大。在大数据时代,纸质媒体可以考虑抓取这些媒介社区资源,通过与以往数据进行对比、分析,推选出可靠性较高的信源,供相关条线的记者使用。
六、媒体应挖掘信息的二次价值
纵观各大媒体目前的运营模式,其所拥有的人脉资源以及采编所得的新闻资源只显现出一次利用的价值,这种价值仅仅产生于引起受众的关注以及由此产生的广告价值。当然,获得这种一次价值的前提是我们所采集的信息能够引起受众的兴趣,否则或许连一次价值都无法体现。但由此产生的成本却是高昂的。对于信息这一特殊商品而言,发布一次信息与发布10次信息所产生的成本差异不大,因此,应尽量挖掘信息二次利用的价值。
所谓二次价值主要涉及两方面,其一,指对数据的重复使用所能产生的额外的经济效益;其二,指在对数据的二次利用过程中产生的对整个媒体的战略布局等产生深刻影响的作用。
从第一个方面来看,信息的二次利用最易产生经济利益的方式就是授权其他媒体进行转发,但在国内目前知识产权保护极度不完善的情况下,这种二次利用几乎产生不了多大的价值。
对传统媒体而言,信息二次利用的真正价值在于通过对庞大的数据库进行分析、整合,从而预测出市场走向。大数据技术的革命并非像以往的技术革命一样,在技术层面完全颠覆之前的技术。大数据是基于现有的网络技术,通过对海量数据的收集、分析和预测,得到数据或者事件之间的相关性的方式。在大数据时代,最重要的部分在于现在已经拥有的庞大的数据库资源。大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的知识、创造新的价值的源泉[7]。
七、大数据促进纸质媒体、网络平台融合
哈罗德伊尼斯认为,每种传播技术都有自身的偏好,他在《传播的偏向》一书中指出,根据传播媒介的特征,某种媒介可能更适合在时间上的纵向传播,而不是适合知识在空间上的横向传播,尤其是该媒介笨重而持久,不适合运输的时候;它也可能更加适合知识在时间上的纵向传播,尤其是该媒介轻巧而便于运输的时候[11]。纸质媒体作为一种以文字为载体的传播媒介,有着可以保存、流传的特征,便于对数据进行分析,实现价值的二次挖掘。但由于大数据时代是建立在以云计算等数据大存储量的基础之上发展起来的,纸质媒体假如希望自身的数据能够得到大量地、快捷地分析和利用,首先应该完成由传统编辑平台向“电子平台”的转变,然后利用电子平台的大数据分析能力起到对新闻事件的分析、预测功能。
此外,利用大数据的预测功能,可以分析读者的偏好,正确把握市场走向。大数据是一种基于相关分析法的预测方式,它只关注事物与事物之间的相关性,而不关注他们的因果关系,它仅基于已获得的客观数据,而不依赖主观推断。
众所周知,目前一份报纸为了预测其市场前景,一般都会采取市场调研的方式来实现。但我们必须认识到,一个个体一旦脱离其日常生活的常态,参与到某种调查过程之中,无论他是有意还是无意,或出于保护自己的目的、或出于讨好调查者的目的,在潜意识中会提供一些伪数据,即无论在调查过程中如何严格按照调查步骤采集数据,他们所采集到的数据往往与真实数据是有偏差的。
可能有人会提出反对意见,认为大数据同样可能存在数据虚假的问题。但大数据之于一般市场调查样本分析相比,其样本量巨大,因此可以忽略某些数据误差,从而更接近真实数据。因此,由大数据分析得出的有关受众偏好的数据更为可信,因为它只关注被调查者已经采取的行为,并通过这种行为推断出受众的行为偏好,这种预测范围既可以统括某个整体,也可以具体到某个特定的个体。只有与网络平台合作,纸质媒体才可以等准确地获得这些信息。
对于网络媒体而言,虽然可在网络平台获取海量数据,但信源的不可靠性严重阻碍其在大数据时代的发展。例如笔者分别在百度地图、谷歌地图和丁丁地图上搜“浦东新区惠南镇社会保障服务中心”这一信息,却意外获得三种不同答案。百度地图将其定位在惠南镇城西路附近,并没有给出精确的位置;谷歌地图显示的地址是“上海市浦东新区惠东路4号”;而丁丁地图显示的地址为“靖海路201-205号”,可见网络平台的数据可靠性不高。
而报纸媒体虽然近几年来遭受公信力下降的诟病,但与网络媒体相比,其数据的可靠性仍处在较高水平。因此,报纸媒体与网络平台的合作,可以相互扬长避短。
八、大数据促进电视台、网络平台融合
电视媒体虽然具有强烈的画面冲击感以及新闻的时效性等天然优势,但近几年随着网络视频的发展,逐渐出现收视率、广告量下降的趋势。笔者认为,在大数据时代发展前景下,在媒体行业内,或许电视媒体受到的冲击最大。因此,电视媒体谋求与网络媒体的融合发展势在必行。
根据央视索福瑞媒介研究有限公司的监测数据显示,2013年央视春晚在央视一套的收视率仅为11.36%,低于2012年的收视率17.37%,以及2011年的18.34%。(如图1所示)[12]。而据CNTV提供的数据,2013年春晚网络视频直播累计观看人数达2.09亿人次,较去年上升141%,最高同时在线人数达2255万,较去年上升97%[13]。这意味着,现在越来越多的受众选择视频网站取代电视来观看春晚。并且在未来的发展过程中,网络平台除了电视台的频道资源无法获得之外,其余资源均可通过各种途径获得。因此,电视台的竞争力逐渐丧失。
图1 2007年至2013年央视一套(CCTV-1)央视春晚收视率
有些电视台已经预见大数据时代电视台的转型势在必行,正在摸索“多屏融合”的合作方式,即电视机、计算机、手机等平台相互合作,进行视频资源的共享。
2013年3月,乐视网(视频网站)在北京召开发布会,宣布与富士康科技集团达成战略合作,与富士康合作开发互联网电视机顶盒产品[14]。乐视机顶盒就是直接通过互联网观看视频内容,其视频量远远大于电视媒体的供应量。互联网电视机顶盒若成功开拓市场,那么意味着海量的网络视频资源将消化电视台现有的观众或者说用户资源。其实,互联网电视机顶盒的发展已有6、7年的历史,但由于政府管控等原因一直没有得到发展空间。2011年年底,广电总局下发了《持有互联网电视牌照机构运营管理要求》,规定只要与获得牌照的7家内容集成商(截止今年1月,广电总局共颁发了7张互联网电视集成业务牌照,详见图2)的平台对接,就可以让自己的视频内容获得除电脑、智能手机、平板电脑外的终端支持,此前被叫停的一些视频网站的机顶盒产品,如小米盒子等也获得了新的市场空间[15]。市场调研公司奥维咨询的调研报告指出,2011年智能电视的年出货量将突破340万台,而互联网电视保有量将达到1700万台,到2014年互联网电视渗透率将上升到80%[16]。
据笔者认为,今后几年内,将是互联网电视机顶盒的大发展时期。一方面,由于互联网电视牌照的限制,网络平台欲在这一领域发展,必须取得与上述牌照方的合作;另一方面,由于互联网电视机顶盒的发展是大势所趋,为拓宽媒体资源,电视媒体也将谋求与各大网络媒体的合作。
此外,我们必须认识到,网络平台最大的问题在于其缺乏原创性的内容,随着大数据的概念以及它所能够产生的经济效益逐渐被人们所认同,对于知识产权的保护、对于信息源的保护必将被提上议程,届时,以转载、转播为主的网络媒体就将遇到有价值的内容匮乏或者运营成本高昂的局面。因此,网络媒体为了避免大数据时代可能出现的数据枯竭现象的产生,有必要和传统媒体合作。
参考文献:
[1] 张意轩,于洋.大数据时代的大媒体[N].人民日报,2013-01-17.
[2] 彭兰.“大数据”时代:新闻业面临的新震荡[J].编辑之友,2013(1).
[3] 2010中国传媒创新报告课题组:2010中国传媒创新报告[J].传媒,2011(2).
[4] 尹明华.大数据时代的报业转型[N].人民日报,2013-01-31.
[5] 王亚亮.大数据推动媒体大转型[N].佛山日报,2013-02-25.
[6] 郝雨,王艳玲.新闻学概论[M].上海:上海大学出版社,2006.
[7] (英)维克托迈尔—舍恩伯格,肯尼思库克耶著.盛杨燕,周涛译.Big Data—A Revolution that Will Transform How We Live, Work ,and Think大数据时代[M].杭州:浙江人民出版社,2003.
[8] Michael Schroeck、Rebecca Shockley、Janet Smart、Dolores Romero-Morales、Peter Tufano:分析:大数据在现实世界中的使用,IBM网站http://public.dhe.ibm.com/software/cn/pdf/Choosing _right_environment.pdf.
[9] (美)欧文戈夫曼著.冯钢译.The Presentation of Self in Everyday Life、日常生活中的自我呈现[M].北京:北京大学出版社,2012.
[10] 罗自文.新型“村落”的崛起:媒介社区的内涵与本质[J].国际新闻界,2011(10).
[11] (加)哈罗德伊尼斯.传播的偏向[M].北京:中国人民大学出版社,2003.
[12] 王雨琦,周飞亚.你家电视死了吗[N].人民日报,2013-02-22.
[13] 陈文.2亿观众网上看央视春晚[N].新闻晨报,2013-02-18.
[14] 晓航.乐视网与富士康达成战略合作[N].中国质量报,2013-03-29.
[15] 郎朗.互联网电视机顶盒将现新局面[J].中国广播,2012(2).
[16] 郎朗.广电总局扶正互联网机顶盒 视频网站各投靠山[N].21世纪经济报道,2011-12-24.