应变大数据
2013-03-18闫城榛韩志国
文|闫城榛 韩志国
“如果说IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章”。早在1980年,美国社会思想家、未来学家阿尔文·托夫勒便在他的著作《第三次浪潮》中这样说道。而在30年前,由于科技水平的局限,大数据对于人类而言似乎还十分遥远。直到2009年前后,“大数据”一词开始逐步受到信息技术行业的重视,托夫勒这一观点的正确性和预见性也随之得到印证。世界,终于做好了拥抱大数据时代的准备。
当前,H7N9再次撩动国人的心。禽流感已是国际大敌,如何有效防控,各国有各招。除了研制疫苗、检测剂、新药等常规招数外,山姆大叔更希望借助大数据抑制流感疫情的蔓延。事实上,为了更好地防控流感,美国疾病预防控制中心(CDC)已经逐步使用大量的数据来监测疫情。
我想人们都不会忘记,2009年春天,在世界范围内爆发了一种新的流感病毒。这种甲型H1N1流感结合了导致禽流感和猪流感的病毒的特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚至警告说,可能会爆发大规模流感,类似于1918年在西班牙爆发的、影响了5亿人口并夺走了数千万人性命的大规模流感。
美国,和所有其他国家一样,都要求医生在发现新型流感病例时告知疾病控制与预防中心(CDC)。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传递回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。而且,疾控中心每周只进行一次数据汇总。然而对于一种飞速传播的疾病,信息滞后两周的后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。
在甲型H1N1流感爆发的几周前,谷歌的工程师们在《自然》杂志上发表了一篇引人注目的论文,它令公共卫生官员们和计算机科学家们倍感震惊。文章说,谷歌能够预测冬季流感的传播,并解释了其原理:谷歌通过分析人们在网上的搜索记录来完成这个预测。谷歌保留了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助它完成这项工作。
它可以对“咳嗽”、“发烧”等与流感有关的关键词进行监测,并通过地图将这些的关键词被检索的趋势显示在其所对应的地区。相应的关键词密度越高、越频繁,该地区爆发流感的可能性就越大。由于这类关键词与流感之间存在着较强的相关性,因此该服务的可靠性比较高。
结果证明,他们的预测与官方数据的相关性高达97%。和疾控中心一样,他们也能判断出流感是从哪里传播出来的,而且他们的判断非常及时,不像疾控中心一样要在流感爆发一两周后才可以做到。
“谷歌流感趋势”便是谷歌2008年推出,用于预警流感的即时网络服务。该系统根据对流感相关关键词搜索进行数据挖掘和分析,创建对应的流感图表和地图,目前可预测全球超过25个国家的流感趋势。在2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,“谷歌流感趋势”成了一个更有效、更及时的指示标。过去几年,谷歌流感趋势也被证明表现卓越,预测结果与传统监测数据非常接近。
大数据的影响已经渐渐从IT领域扩展到人类社会生活的方方面面,从商业分析到公共服务,从城市路况监测到流感趋势预测,人们在享受大数据带来的各种便利的同时不得不承认,大数据时代到来了。
风起云涌的大数据时代
“如果说IBM的主机拉开了信息化革命的大幕,那么大数据才是第三次浪潮的华彩乐章”。早在1980年,美国社会思想家、未来学家阿尔文·托夫勒便在他的著作《第三次浪潮》中这样说道。而在30年前,由于科技水平的局限,大数据对于人类而言似乎还十分遥远。直到2009年前后,“大数据”一词开始逐步受到信息技术行业的重视,托夫勒这一观点的正确性和预见性也随之得到印证。世界,终于做好了拥抱大数据时代的准备。
受经济全球化和全球信息化、人类社会发展和需求多样性、云计算和物联网技术深化应用等多方面的影响,信息爆炸时代人类社会中各个领域均产生了海量的数据。在过去的几年里,“大数据”已经成为IT领域和互联网上反复提及的热词。国际数据公司( International Data Corporation,以下简称IDC)的研究结果表明,2009年全球产生的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数据量更是高达1.82ZB,相当于全球每人产生200GB以上的数据。
在经历了几年的批判、质疑、讨论、炒作之后,大数据渐渐从IT领域扩展到各个行业和人类社会生活的方方面面,终于迎来了属于它的时代。几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业;无论社交平台逐鹿、电商价格大战还是门户网站竞争,都有它的影子。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略,甚至将大数据定义为“未来的新石油”。更有国外媒体预测,2013年将成为世界的“大数据元年”。
大数据的特点
要讲大数据,首先绕不过“什么是大数据?”这个问题。想要定义大数据,必须从它的特点着手。人们通常用Volume、Variety、Velocity、Value这4个V来概括大数据的特点。
Volume
第一个“V”是Volume,即数据体量巨大。要知道目前的数据量有多大,可以先来看一组公式。1024GB=1TB;1024TB=1PB;1024PB=1EB;1024 EB=1ZB;1024ZB=YB。到目前为止,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。2013年,世界上存储的数据预计能达到约1.2ZB,如果把这些数据全部印刷成书,这些书可以覆盖整个美国52次,如果将之存储于标准的光盘,这些光盘可以堆成五堆,每一堆都可以伸到月球。
Variety
第二个“V”是Variety,即数据类型繁多。相对于以往便于存储的以文本为主的结构化数据,越来越多的非结构化数据的产生给所有厂商都提出了挑战。拜互联网和通信技术近年来迅猛发展所赐,如今的数据类型早已不是单一的文本形式,网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。预计2015年产生的数字内容中有90%将是非结构化数据,如短信和微博生成的信息,以及视频和音频,情况将变得越来越复杂。
Velocity
第三个“V”是Velocity,即处理速度快。这是大数据区别于传统数据挖掘最显著的特征。根据IDC的一份名为“数字宇宙”的报告,预计到2020年全球数据使用量将会达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
Value
第四个“V”是Value,即价值密度低。大数据的原理非常简单,在统计学中,样本选取得越多,得到的统计结果就越接近真实的结果。维克托·迈尔·舍恩伯格在《大数据时代》中说:“通过使用所有的数据,我们可以发现如若不然则将会在大量数据中淹没掉的情况。”然而,价值密度的高低与数据总量的大小成反比。以视频为例,一部一小时的视频,在连续不间断监控过程中,有用的数据可能仅仅只有一两秒。海量的数据充斥着我们所生活的世界,如果能将它们“提纯”并迅速处理为有价值信息,相当于掌握了一把能够开启宝藏大门的钥匙。如何更为迅速地完成数据价值的“提纯”是目前大数据风起云涌背景下亟待解决的难题。
对于第四个“V”,业界也存在不同的看法,IBM认为,大数据的第四个特点是Veracity,即真实性。尽管前3个"V"涵盖了大数据本身的关键属性,但真实性是当前企业亟需考虑的重要维度,将促使他们利用数据融合和先进的数学方法进一步提升数据的质量,从而创造更高价值。
数据即资产
而大数据到底是什么,它能给用户和企业带来什么,为何各大企业争先呼吁数据的重要性。《南方周末》对此做了很好的诠释,“大数据其实最核心的不在于‘数’,而在于‘大’和‘据’,所谓的‘大’,是指数据积累到一定的量级;而‘据’,就是找出论据,为企业决策做参考。”
通常情况下,企业的数据可以分为3种类型:结构化数据、半结构化数据和非结构化数据。传统的商业智能系统中用以分析的数据,大都是企业自身信息系统中产生的运营数据,这些数据大都是标准化、结构化的。事实上,这些数据只占到了企业所能获取的数据中不到15%的部分。其余85%的数据广泛存在于社交网络、物联网、电子商务等之中,这些非结构化数据的产生往往伴随着传感器、移动计算等新渠道和新技术的不断涌现和应用。
在大数据时代,对于任何企业来说,数据都是其皇冠上最为耀眼夺目的那颗宝石。伴随着智能系统应用的拓展,企业决策已经越来越依赖于数据。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。
EMC全球副总裁周西柱在接受本刊记者专访时说道:“目前我们对于海量数据分析还是对技术条件考虑较多,除技术之外,我们应该多考虑一些应用。从应用角度开始思考,通过海量数据能够对企业、对机构带来哪些好处,然后往回思考,考虑如何将应用结合技术实现,融入到数据中,才能够准确发现海量数据的价值。”
换言之,大数据带给我们的启发,是需要注意传统企业商业智能系统之外的,所有其他数据的价值。这些能够被企业随时获取的数据,可以帮助和指导企业全业务流程的任何一个环节进行有效运营和优化,并帮助企业做出最明智的决策。
“大数据时代,一些传统的商业思想正在被颠覆。这其中最为重要的,就是必须将数据转化为企业的资产。”在过去,衡量企业最重要的资产无外乎土地、流动资金和人才等几个要素,如今,数据作为企业一项更加重要的资产将直接关系到企业的发展潜力。惠普公司全球副总裁潘家驰对本刊记者说:“一方面,不能周密部署并迅速采取行动的企业有可能面临被剧增的大数据淹没的风险;另一方面,那些能够实施全面的企业级信息优化战略的企业所获得的回报将是非常巨大的。这一战略有助于缩小潜在的和最终实现的业务成果之间的差距,能够从自身数据资产中获得深入洞察和价值的企业将开始收获其实质性的信息回报。”
大数据时代的精准营销
今天的大数据时代,让商业的生态环境发生了巨大的变化:用户和消费者的界限正在变得模糊,无处不在的智能终端,随时在线的网络传输,互动频繁的社交网络让以往只是网页浏览者的用户面孔从模糊变得清晰,对于企业来说,他们第一次有机会进行大规模的精准化的消费者行为研究;作为保持着持续变革欲望的企业,主动地拥抱这种变化,从战略到战术层面开始自我的蜕变和进化将会让他们更加适应这个新的时代。
而在今天的国内的网络营销生态中,大数据的精准营销价值也越来越多地受到企业主的重视,也同样成为了国内互联网巨头企业的核心竞技场。而真正的精准营销掌握在这些拥有大数据,能够分析大数据、分享大数据的科技型公司手里。这些科技型公司将会不断导演新的精准营销概念。
“世界整合营销之父”唐·舒尔茨提出了以消费者需求为中心的SIVA理论,强调客户购买产品或服务的四个关键要素。Solutions—消费者寻求解决问题的方案、Information—消费者寻找与解决方案相关的信息、Values—消费者衡量各种解决方案的价值、Access—消费者解决问题的入口。 他认为信息技术改变了整个市场,消费者决定何时、何地、从什么地方购买何种商品,营销人员必须及时响应以帮助消费者达成目标。这种消费者与品牌的角色大反转意味着许多市场营销的方法也需要改变——建立一种新的、消费者主导的、交互性的市场营销体系。
百度营销研究院副院长李丛杉对记者说:“大数据时代,人们获取信息、娱乐、沟通等生活方式发生了天翻地覆的改变,消费者变得更加主动地去寻求自己想要的、能够解决自身问题的信息。这使类似于大众点评网、去哪儿网这些为消费者提供便利的应用服务的公司得以产生和发展,反过来,利用信息世界所提供的这些应用和服务又成为消费者生活方式的一部分。这是一个互动的、循环的、不可分割的过程。随着商业环境的变化发展,消费者需求在营销中越来越有占主导地位,营销方式也到了发生变革的时刻。”
百度营销研究院与唐·舒尔茨教授领导的研究团队展开深入合作,并提出“百度Moments”的营销方法论,将营销从消费者需求、消费者的决策场景和消费者行为三个维度进行整合。李丛杉说:“以前的营销师针对消费者的态度,企图改变消费者的看法,今天的营销需要我们更多关注消费者的行为,以及行为背后在这个瞬间的需求是什么样的。”
Twitter开设首个“数据编辑”职位
在筹划撰写本文的期间,一个颇为新奇的消息令记者眼前一亮:Twitter首次开设了“数据编辑”的职位,并邀请著名的数据新闻实践者西蒙·罗杰斯来担任这一职务。
作为一名传统媒体的数据编辑,西蒙·罗杰斯此前已经在《卫报》任职15年之久,“我擅长的是解释数据,简化数据,让数据更直观。”他表示:“在我们的记者工作中,Twitter已成为一个重要元素。Twitter不可被忽视,并越来越多地出现在所有重大事件的中心,无论是政治、体育,还是娱乐。作为数据编辑,我将协助解释这样的现象如何发生。”
根据Twitter的描述,该职位需要具备使用Twitter数据创建“清晰而有洞见的数据驱动的案例研究”的能力,比如如何利用实时微博驱动用户的参与以及增长、如何利用平台与电视进行整合。
他将于5月举家从伦敦迁至大洋彼岸旧金山,正式成为Twitter的一员,担任Twitter创立以来第一个“数据编辑”。虽然外界目前尚不清楚罗杰斯未来的具体职责是什么,Twitter也没有对此做出回应。不过,在未来的大型事件中,罗杰斯或许能帮助外界更好地理解Twitter上每分钟出现的数万条消息中蕴藏的深层含义。他表示,与Twitter里既有的数据科学家相比,他所做的工作可能掺杂更多的人工判断——即基于经验对数据进行判断和理解,并将之表达和传播出来。
罗杰斯所阐述的这个技能对当前的政府、公司、媒体来说都很重要。要完成以数据为驱动的新闻,业者必须了解数据的来源、品质、背景,其间隐含的潜在偏见。Twitter这一举动似乎预示着在大数据时代新兴社交媒体与传统媒体的关系将会愈加紧密。
大数据时代的媒体转身
从理论到实践,大数据的发展为掌握了大量数据源的媒体和门户网站提供了转型的良好契机。
浙报集团旗下的新媒体战略投资机构传媒梦工场于2012年底投资了知微、优微两个项目,目标直指在社交网络的数据深度挖掘。
据记者了解到,知微是一个可视化的微博传播分析平台,通过一条微博的传播途径、过程和效果等信息检测微博的传播效果和其中传播的主要因素。一条微博有多大威力,它的传播产生了怎么样的影响,人们的情绪是积极还是消极等,都是在它的评估范围之内。知微还可以分析微博账号的实际影响力。优微同时是一款微博排序工具,优微开发团队通过数年研究的人工智能技术,对每个用户的微博行为进行个性化处理,形成个人独特的信息需求DNA,根据这个DNA,将用户关注账号的微博内容进行重新排序,优先展示对用户更有价值、用户更加感兴趣的微博内容。
传媒梦工场CEO蒋纯告诉记者:“社会化网络数据挖掘是大数据中非常重要的一块,或者说是最先被大数据利用的一块,因为社会化网络数据有天然的优势,天然就是有海量的数据,而且是海量有价值的数据,天然就是相对结构化有信息意义的数据,天然就是用互联网形式存在,并可被利用的数据。所以先切这一块是非常正确的,但是接下来和传统行业相关的一些大数据将是未来的方向。大数据行业肯定会诞生伟大的公司。”
“大数据已经是必然的趋势,只是如何看待并且如何利用的问题。我们非常重视这块,一方面在积极关注业内的动向和团队,另外一方面也在做研究和探索,和全球这块最领先的保持联系互动,也为行业做一定贡献。”他说。
浙江日报报业集团副社长王纲说, “分众与互动”、“数据库”、“社会化”正成为浙报集团全媒体发展的三个关键词,它们传递出的是新媒体的内核与特性,无论是传媒梦工场投资知微、优微,还是浙报集团未来全媒体发展,始终紧扣这三个关键词。“投资是我们重要的转型手段之一,我们将通过内部发展转型、外部联合扩张和积极孵化未来三者并举,推动集团向全媒体方向实现战略转型。”
EMC全球副总裁周西柱说:“面对如今的互联网发展,用户是海量数据的制造者,更是海量数据的使用者。媒体的转型发展,既是技术问题,也是战略问题,将会对未来的媒体形态和格局产生深远影响。”
“新媒体的本质就是数据分析。我们已经从信息时代走到了数字时代和智能时代,如果数据被赋予背景,它就成了信息;如果数据能够提炼出规律,它就是知识;如果数据能够借助于各种各样的工具在分析的基础之上为我们提供正确的决策,它就是资源。”解放日报报业集团社长尹明华曾在中国传媒大会上这样说过。
信息的根本是各种各样的数据,这就要求媒体必须适应新的信息生产和传播方式,以多元化媒介来承担信息传播的职能。生产、分析、解读数据,探索一条为受众和用户提供分众化服务和体验的媒体发展之路,将成为媒体竞争的必备技能。
对此,周西柱进一步阐述道,媒体通过对数据的整合和分析,针对不同的受众需求,满足个性化和专业化的需求。而更多的是将主动性给用户,由用户去拟造定制化的需求。未来的媒体和门户网站应充分利用大数据和关系链,根据对用户数据的分析,为用户筛选、推荐最适合的内容,提供近乎量身打造的新闻资讯的同时,使他们更好拥有社交媒体的感受。■
应变大数据
当前,H7N9再次撩动国人的心。禽流感已是国际大敌,如何有效防控,各国有各招。除了研制疫苗、检测剂、新药的常规招数外,山姆大叔更希望借助大数据抑制流感疫情的蔓延。事实上,为了更好地防控流感,美国疾病预防控制中心(CDC)已经逐步使用大量的数据来监测疫情。
融合促进创新 技术带动发展——NWC2013研讨会综合报道
2013年4月11日上午,“第21届中国数字广播电视与网络发展年会”暨“第12届全国互联网与音视频广播发展研讨会(NWC2013)”在重庆隆重开幕。与会专家和代表从战略、技术、应用等各个层面对我国“三网融合”和视听新媒体、传统媒体的新媒体化发展进行了介绍,对全媒体架构、业务和监管,交互电视技术、多屏互动技术、有线网络的无线应用、互联网电视、云服务平台等多个技术发展方向作了深入探讨。
P16
OTT TV和云——广电面临的挑战和新机会
近年来互联网视频快速发展,收看网民已达4亿。用户在计算机终端上收看。而OTT TV的出现,用户在电视机上收看,使互联网进入了客厅。原来封闭的电视市场被打开,互联网为电视提供了另外一个传输平台/分发渠道,传统电视业面临巨大挑战和机会……
P40
架起“生命桥梁” 传播人间大爱——雅安地震中的微博、微信等新媒体
2013年4月20日8点02分,四川省雅安巿芦山县发生里氏7级地震(以下简称“雅安地震”)。8点02分53秒,成都高新减灾研究所发出了四川雅安芦山发生地震的第一条微博。在随后的数小时内,以最新灾情、安全提示、求助呼吁等为主要内容的地震微博在网络空间急剧增长,让更多的人短时间内迅速获知了雅安地震的实时灾情。
P56
从“付费墙”到“付费门”:报业数字化的进路与策略——以英国《卫报》为例
无论是“付费墙”,还是“付费门”,都说明报纸对在线内容收费已经成为一种趋势,而这种盈利模式对报业数字化改革的影响如何,则是本文要研究的重点。