大数据行业应用现状与发展趋势分析
2014-04-29袁冰
袁冰
很多网民都知道这样一句话:“在互联网上,没有人知道你是一条狗”。这句话是美国著名杂志《纽约客》(New Yorker)上一幅漫画的标题,作者是彼得·斯坦纳,他于1993年创作了一幅漫画——一条狗坐在电脑前通过敲击键盘与另外一条坐在电脑前的狗交谈,漫画的标题就是上面这句话,这句话的意思是说,因为网络的虚拟性和隐匿性,别人无法知道你是谁。随着互联网的迅速普及,这句话也以惊人的速度传播到了网络世界的每一个角落。然而,时过境迁,基于网络技术的飞速发展,出于商业或管制等各种目的而想方设法了解“你到底是谁”的个人和组织与日俱增。可以毫不危言耸听地讲,眼下,在互联网上,每个人都知道你是一条狗。大数据的广泛应用,使得网络世界真正成为了现实世界在互联网上的一种延续。
一、大数据的概念范畴
什么是大数据,维基百科是这样定义的:大数据,或称巨量数据、海量数据、大数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。
美国NIST对大数据的描述是:数量大、获取速度快或形态多样的数据,难以用传统关系型数据分析方法进行有效分析,或者需要大规模的水平扩展才能高效处理。
GARTNER 公司对大数据的描述是:体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、做出决策和优化流程的能力。
业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征:一是数据体量巨大且增长迅速(Volume),二是数据类型繁多(Variety),三是价值密度低(Value),四是处理速度快(Velocity)。
二、大数据的应用案例
如今大数据的应用正从互联网行业逐步向其他行业扩散。技术的不成熟使全球大数据应用普遍处于起步阶段,中国也不例外;同时,技术格局和信息化发展程度也使大数据应用呈现"阶梯式"发展格局。
(一)大数据在互联网部分应用较成熟,且应用不断丰富。在互联网部分的应用我国与领先国家同步。应用类型如:
1.搜索引擎:如GOOGLE、百度等,是最早的互联网大数据应用;
2.定向广告:互联网最主要的商业模式;
3.个性推荐:是亚马逊等电子商务网站60%以上交易来源;
4.互联网金融;
5.其它应用:如趋势预测、网站预警和防护、语音搜索、图像搜索等。
(二)广义的信息产业开始积极探索,总体而言我国落后于领先国家。主要应用于:
1.政府:舆情分析、民意调査、交通管理;
2.电信:话单分析、智能管道;
3.金融:欺诈防范、征信评估;
4.零售:趋势预测、营销策划;
5.医药:疾病监测、基因分析、药品分析等。
(三)还有其他行业的零星案例,如:制造业、房地产、农业,我国在这些领域的应用目前严重落后。
(四)大数据应用场景简介
场景1:电子商务
搜索、电商、广告、SNS等数据驱动的互联网服务取得巨大成功,激发了大数据应用的想象力!
场景2:互联网广告
实时竞价交易
场景3:电信网网络
根据人口流动和分布趋势,结合基站接入负载,识别价值小区、识别业务热点区域、分析网络覆盖质量,优化基站的规划和建设(如图);根据实时位置信令数据处理,快速定位用户投诉的时间与位置,提高无线网络投诉的预拦截成功率,并能对关键用户进行主动关怀和保障署,提高客户对电信服务整体的感知度。
场景4:政府城市功能规划
根据运营商位置信令数据,分析城市人口的分布与流动,助力智慧城市规划,如:分析人口流动与城市空间的关系及人口分布与公共设施使用状态关系,輔助商业、居住、教育、医疗、公园、餐饮、娱乐等城市基础及公共公益设施的引导和规划,辅助城市交通规划及公共交通引导等。例如:西班牙电信通过手机用户全天活动的位置"热点地图”以辅助政府制定停车场计划、管理公共事努;新加坡通过手机信号探知城市的人流和热点地区,动态安排城市服努人员。
场景5:科研大数据
基于海量数据的科研活动、过程、方法和基础设施,生动揭示了在海量数据和无处不在网络上发展起来的与实验科学、理论推演、计算机仿真这三种科研范式相辅相成的科学研究第四范式“大数据开创科研”,科研本身是以获取数据和分析数据为核心的工作,大数据的应用使得科研结果可重现要求从结果回溯到数据与分析,采用不同的分析方法可能会得到新的科学发现。
场景6:文化娱乐大数据
如:美国最大付费视频网站通过大数据决策自制剧生产,大获成功,内容发行商成功改行做了内容制造方。
三、大数据技术发展趋势
大数据技术进展及趋势可从可视化、分析、计算、存储、预处理等五个环节进行分析。
在可视化环节面临的主要挑战是海量数据和直观理解,未来,可视化中的人机交互将是发展的方向;
在分析环节面临的主要挑战是非结构化数据分析、数据量和分析深度、分析自动化,大规模深度学习、数据挖掘的实时化将会是未来发展的趋势;
在计算环节面临的主要挑战是数据密集计算的效率、不同计算场景的特点,未来将向基于YARN的融合平台、混合计算模式MR+XX、分布式内存计算发展;
在存储环节面临的主要挑战是高效数据査询访问、低成本超大容量问题,未来,高效率索引和査询技术、实时/流式数据存储将能有效解决存储环节存在的问题;
在预处理环节面临的主要挑战是多源、多模态数据融合、数据质量与可用性,数据实体识别技术、数据清洗和自动修复、质量和可用性评价,将必然会在预处理环节发挥重要的作用。
目前,国际互联网行业形成了 “互联网公司原创—开源扩散—IT制造商产品化”的明显格局,即大数据技术创新的三个梯队,我国领先的互联网和设备商处于第二第三梯队,但与国际同行比较还相对滞后。如:百度、阿里、腾讯,依托搜索、广告、电商、推荐、金融等应用,属于第二梯队。
四、大数据产业生态体系和规模
大数据产业生态体系包括:大数据处理服务提供商、大数据解决方案提供商、数据交易市场。
大型互联网企业的大数据业务采用前店后厂模式,其在大数据产业生态体系的形成过程中输出了关键的大数据技术、服务和应用理念。
根据Wikibon 2013 数据分析,大数据服务类收入包括大数据在线应用、专业咨询服务、技术支持服务等。服务类收入在大数据市场中占比约44%;大数据相关的软件、硬件产品仍是大数据市场主要收入构成,其中软件收入占比为19%,硬件收入占比37%。数据交易市场尚处于萌芽期,市场规模仍然很小。
五、各国政府高度重视大数据发展
各国政府高度重视大数据发展,政府频繁出手。
在美国:
2009年5月,联邦政府开放数据平台data.gov上线;2012年3月,联邦6部门联合启动大数据研究计划;加速共用应用;2013年5月,要求新增数据必须机器可读,代码开源。
在英国:
2013年1月,政府向大数据技术研发投资1.89亿英镑;2013年5月,政府和李嘉诚基金会联合设立首个医药大数据研究所;2013年6月,政府信息经济战略发布;提出数据创新计划;2013年10月,计划发布data capability strategy。
在日本
2013年6月,发布了“创建最尖端IT国家宣言”,阐述2013-2020年以开放公共数据和大数据为核心的新IT国家战略,提出开放公共数据、促进活用等6项行动;2013-2016年实施。
在澳大利亚:
2013年8月,澳公共服务大数据政策出台,提出2014年前的6项行动计划,由专门部门负责实施。2013年6月18日,八国集团发布数据开放宪章,将在数据开放方面一致采取以下5大原则:一是开放数据是默认选项,二是确保质量和数量,三是允许所有人使用,四是开放数据以改善政府效率,五是开放数据以促进创新。并提出了优先开放的14类政府和公共数据:公司注册、犯罪和司法、地球观测、教育、能源、环保、金融、地理、医疗、科学研究、统计、交通等。
政府拥有的数据不仅量大,而且准确度高、价值巨大。开放数据是政府对大数据的最大支持,必将推动大数据的深度应用于发展。
参 考 文 献
[1]左金钟,马伊民,习清伶,等.滚降系数不匹配对基带传输系统的性能影响[J].国外电子测量技术,2011,08(11):21-28.
[2]冯钢,吴诗其,李乐民,等.一种准最佳数字传输系统的性能分析與实现[J].电子科技大学学报,2010,05(16):470-476.
[3]张学成,赵尔沅,乐光新,等.基于离散小波变换的OFDM基带传输系统性能分析[J].现代电信科技,2012,06(15):47-50.