大数据时代的媒体应对:急行还是缓行?
2014-04-14杜志刚
杜志刚
媒体在大数据来源上具有优势,随着数据规模的持续增大,如何将数据资源转化为显性价值是媒体经营发展的重要课题。
目前国内为数不多的关于大数据理论研究和分析文章中,对大数据对媒体尤其是中国媒体的冲击形成了一致观点,大多数认为媒体应当面对挑战,进行战略性转型或变革。如上海交通大学新媒体与社会研究中心主任谢耘耕教授认为,大数据时代带来了挑战,媒体不仅需要考虑如何处理海量数据,从中获取有价值的信息,必须同时考虑加强大数据技术研发,以抢占时代发展前沿。也有学者认为,“大数据”对传统媒体的经营管理方式构成巨大冲击。媒体经营管理需要在新闻生产、受众调查、效果研究等方面进行创新,以应对“大数据”的挑战[1]。但也有学者认为新闻媒体在大数据中应当缓行。如新华社新闻研究所新媒体研究中心王武彬就认为,大数据并不一定适合媒体,在“大数据”浪潮中,属于媒体业的想象空间并不多,“大数据”对媒体的价值非常有限,大多数媒体机构在大数据领域并不具备颠覆创新和业务转型的条件[2]。
那么,大数据时代媒体何去何从?首先要明确大数据的内涵和特点,并在此基础上对大数据支持和反对中的疑问进行分析,才可能理解媒体在大数据冲击中该如何应对。
一、大数据的内涵及特点
根据维基百科和MBA智库的界定,所谓大数据(Big data),是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。通常,大数据本质上是指大数据(处理)技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。大数据或者大数据时代的特征通常可以用4个V(即Volume、Variety、Value、Velocity)来概括:
第一个特征是数据体量巨大(Volume)。21世纪前,人类全部印刷材料的数据量经过折算,约是200PB(1PB=1024TB),而当前个人计算机硬盘的标配容量就为TB(1TB=1024GB)量级;同时人类历史上全部语言话语的数据量折算约为5EB(1EB=1024PB),而像谷歌、宝洁等大型公司仅公司内部数据量就基本达到EB量级。数据总量的增长速率远超过去。
第二个特征是数据类型多样(Variety)。大数据技术使得巨量的多种类型的非结构化数据,如网络bbs、音视频、多媒体以及物联网等来源的数据,成为可分析、可利用的数据,这使得可处理数据无论是总量上还是类型上,远远超出普通技术可处理的以文本为主的传统结构化数据。
第三个特征是价值开发性大(Value)。虽然大数据因其体量巨大,单位数据价值密度低,如一部一小时的视频内容里有价值的数据可能只有一二秒,但通过合适的机器算法进行“提纯”后的价值总量仍然颇为可观。
第四个特征是处理速度快(Velocity)。大数据通常是实时数据,大多数还需要快速处理,因此, “快数据”是大数据区分传统数据挖掘的最显著特征。
二、反对媒体应用大数据的疑虑分析
疑虑之一:大数据还只是炒作
目前媒体行业对“大数据”的理解存在误读和迷思,很多时候偷换了概念,谈的是 “数据”或“大数据时代”,而非“大数据”。同时,很多报道和讨论中所引用的大数据案例,其实也并非真正的大数据案例。
事实上,从政府到大型企业,如美国政府的大数据发展与研究的国家战略计划,Google、Facebook、YouTube、HP等公司,早已开始研发和全球布局,并已开始对外提供大数据分析业务,而前两年的云技术和数据挖掘技术等早已为大数据应用提供技术基础。虽然目前大数据仅仅处于早期阶段,有概念炒作的成分,新概念层出不穷,但是我们非常确定不抓新概念肯定不会成功。
疑虑之二:大数据成本高
首先,大数据技术确实需要较高的成本,不仅对人力成本有极高要求,需要高薪聘请懂得如何使用Hadoop等工具的相关人才,而且实施流程上还要投入昂贵的设备购买费用。但正如OBrien指出,“我并不是说新兴企业就一定不该使用Hadoop,但就我所经历的众多项目来看,小规模公司最好先从MySQL开始——毕竟大部分用户的有价值数据也就在GB级别”。
其次,在大数据领域,Hadoop的低成本和高扩展性是其关键因素。如一个处理PB级规模数据的Hadoop集群(125到250节点)的费用大约为100万美元,而每个节点每年的费用为4000美元。这对于企业级数据仓库的花费(1000万~1亿美元)来说只是一小部分。目前全球最大的科技公司都需要和PB级规模的数据打交道。然而,SAP的研究表明,95%的企业通常只需要使用0.5TB~40TB的数据。如果大家只有10TB甚至更少的数据需要加以分析,那么Postgres或其他一些典型处理系统就完全能够搞定[3]。
最后,大部分数据可能并不花钱或者花钱很少,绝大部分数据是企业自身运营过程中产生的数据,还有相当一部分数据将通过政府开放数据库共享得到。而数据的储存则可以很容易地放在云空间里。
疑虑之三:媒体业掌握的数据资源有限
第一,媒体自身就生产大量的信息,同时也是各类信息传播的主要媒介。媒体在长期运营过程中,无论是记者的大量采访文本、访谈录音或是视频影像资料,还是编辑处理来自记者和一般公众的印刷或数字资料,其中大多数都是非结构化数据,在应用大数据处理技术之前,这些只能封存在资料室作为备案而已。而在大数据时代,我们可随时对此进行数据挖掘,从而体现价值。如媒体通过对财经类新闻的文本和视频数据进行处理,挖掘出具有规律性的信息出售给相关企业,从而实现新闻信息价值的增值。
第二,媒体的数据更为客观,可信赖性和价值开发程度高。大数据时代数据体量巨大,同时由于网络、手机等的媒介赋权,人人都可成为公共媒体,人人都可生产和发布内容,媒介主体泛化明显,信息源无限大量化,各类谣言、谎言、虚言、偏见的信息满布社会化网络,依据此类不准确信息所作的大数据分析显然没有什么可信度。在这种环境中,专业媒体,尤其是具有广泛公众基础、长期经营的传统媒体,由于恪守新闻职业道德和媒体从业规范,其所产生的信息和数据在准确性、可信度上自然较高,相应的开发价值也就越大。
第三,大数据的意思并不是要搜集穷尽所有数据,仍然只是要搜集那些重要的、相关的数据。对于独特或独占的数据才有单独掌握和储存的必要,对于大多数一般的、共享性数据,完全可以放在公共云服务器中。毫无疑问,传统大众媒体掌握着大量的一手数据和信息,尤其是其中的深度调查和专题采访等,往往蕴含着重要、独占性信息,这成为媒体的一项重要核心优势。
疑虑之四:媒体业缺乏处理“大数据”的能力,缺乏软件开发和运营维护人才
一方面,面对任何新的技术,人才和能力总是缺乏的。根据麦肯锡报告,仅美国市场上,近两年数据挖掘的人才需求缺口就达到14万~16万,这正需要提前做好准备。另一方面,目前已有大型专业公司提供大数据处理业务,只要媒体提供数据,分析业务就可外包出去。当然长远来看,媒体需要培养熟悉媒介新闻信息传播的专门数据分析人才。通过市场的倒逼,近两年才兴起的云技术和数据挖掘技术的火热将会导致人才市场上培养出适合的人才。
三、支持媒体应用大数据的要素分析
1. 大数据的数据质量问题
在大数据时代,信息的搜集和数字化处理日益集中化,传统的随机抽样方法被“全部数据的集合——大数据”所取代。以往随机抽样中的一些重要属性,如抽样的有效性、合理性和推理判断能力变得不那么重要,而集合全部数据,依据大数据技术进行分析和研究才是关键所在。概而言之,传统抽样方法进行的数据分析要搞清楚“为什么”才能进行决策判断,而在大数据时代,则可以直接根据“是什么”来下结论。这样的结论是根据全体数据分析而得出,因此不受抽样准确性、个体特征等干扰因素的影响,精确性和预见性将更好。如媒体在作形势趋势报道和媒介评论时,显然大数据分析颇有价值。然而,大数据的准确性完全依赖于数据的汇集,因此,一旦数据来源有缺陷,在“只问会怎么样,不问为什么”的模式下,就很可能造成重大问题。
在社会化媒体时代,公民新闻和UGC的数量已远远超过传统媒体所提供的新闻信息量,而前者中又往往充斥着各种虚假的、臆造的或甚至是故意误导的信息。这些庞大芜杂的信息一方面加大了数据处理工作量,另一方面又极大影响数据分析得出的结论,用错误数据得出的决策建议必然导致可怕的后果。此外,大数据的运用可以使得媒体能够通过机器自动生产新闻,如当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地监测到这种趋势。
2. 数据所有权和隐私权
首先,数据所有权竞争将严重影响国际传播新秩序和媒体自身利益。基于国家竞争层面,数据所有权对国家信息安全至关重要。“斯若登棱镜门”事件表明,雅虎、苹果、美国在线、微软等国外互联网公司或网络媒体早已搜集和拥有全球用户的相关数据,而美国政府只不过是其中较为高端和特殊的数据用户而已。从媒体全球竞争角度来看,国外媒体组织在利用这些数据上无疑比中国媒体具有更高优势,而中国最大的一些网络媒体公司,所拥有的数据绝大多数只是中国国内数据,这必然影响中国各类媒体组织的国际传播实力。由于大数据分析技术并非特别核心和关键的技术,因此,未来的竞争可能主要集中在数据源的争夺上。
其次,隐私权和新闻道德也为大数据时代媒体经营提出了更大挑战。2013年6月爆发的彭博社“窥探门”丑闻事件,从新闻业务运营模式说来,具有重要的教训和借鉴意义。作为国际金融信息服务业的明星组织,彭博社媒体公司近年来日益发展壮大,其主要运作模式在于融合商用数据与新闻业务。然而,很多时候,彭博社记者与编辑常常在保持新闻业务职业道德和与自己关联的大客户相关新闻报道时难以秉持客观立场,使得媒体人突破新闻道德的束缚。丑闻中所凸显的个人隐私保护、数据信息安全(尤其是国家金融信息安全)问题,也是日益引发民众担忧、各级媒体需要警醒和应对的重要课题。真实是新闻的生命线,大众知情权和个体隐私权也是新闻报道一个难以平衡的矛盾,但用诚信手段获取新闻同样是新闻的生命线。因此,新闻媒体应当准确掌握新闻道德和新闻创造之间的度量。
四、媒体应对与发展前瞻
以上分析表明,媒体在大数据来源上具有优势,随着数据规模的持续增大,如何将数据资源转化为显性价值是媒体经营发展的重要课题。这主要包含两个重要环节,一是如何将原始数据分析加工形成对媒体生态产业发展有意义的产品,二是如何将数据产品与媒体生态产业链内各个环节与组织相匹配。实现了这两个环节,媒体组织的大数据战略才能体现意义。
部分媒体组织(主要是网络媒体以及部分正在数字化转型的传统媒体)正在利用新兴技术来开发和利用新的数据源,媒体组织需要积极提升自己的数据管理能力,并且灵活地根据自身所涉及的数据活动生命周期制定流程和开发功能软件。在此之前,媒体组织应当明确如何开展数据战略,具体来说,要搞清楚媒体组织对于期望利用这些数据来执行什么任务,以及数据质量和精度处于何种级别。随着组织大数据战略项目的日趋成熟,考虑建立一套按照数据质量或精确度分类的方法,这对进行客户的商业化数据开发很有必要。媒体组织应当开始逐渐采用大数据技术来处理非结构化数据,并在基于合法、道德的规范下进行恰当的描述和管理,以便尽可能最有效地利用这些数据。
大数据对数字化生存的企业造成的冲击是非常巨大的,新闻传媒作为信息传播的前沿行业,其所面临的冲击和挑战也必然存在。对于正面临数字化转型的媒体来说,如何应对这次冲击,需要均衡正反多方面的意见,进行理性决策。面对大数据时代的冲击,中国媒体需要结合自身特色,积极进行转型和创新发展思路,走出一条符合中国国情、符合传播规律、符合社会所需的发展道路,这个过程中存在诸多机会,也面临许多挑战。然而,不同于印刷革命,中国媒体没有几个世纪的时间去适应,能够有的时间或许只有几年。
(作者单位:天津商业大学公共管理学院,本文系天津哲学社会科学规划项目“新媒介事件与转型期政府公信力提升研究”的阶段性成果,项目编号:TJXC12-005)
参考文献
[1]曾凡斌.大数据对媒体经营管理的影响及应对分析[J],出版发行研究,2013(2).
[2]王武彬.关于大数据的误区与迷思[N]. 传媒,2013-06-09.
[3]Forbes,福布斯:大数据带来高成本 Hadoop需继续完善[EB/OL]. http://www.csdn.net/article/2012-04-23/2804943, 2012-04-23.