走向DT时代的中国大数据产业初探
2016-02-21中国信息通信研究院政策与经济研究所工程师姜中国信息通信研究院政策与经济研究所工程师马中国信息通信研究院政策与经济研究所助理工程师
孙 鑫 中国信息通信研究院政策与经济研究所工程师姜 涵 中国信息通信研究院政策与经济研究所工程师马 凯 中国信息通信研究院政策与经济研究所助理工程师
走向DT时代的中国大数据产业初探
孙鑫中国信息通信研究院政策与经济研究所工程师
姜涵中国信息通信研究院政策与经济研究所工程师
马凯中国信息通信研究院政策与经济研究所助理工程师
1 大数据产业的核心要素
随着数据要素逐渐渗透到社会生产和生活的各个方面,基于数据信息衍生出的应用模式和服务类型正在快速扩张。大数据作为促进经济发展的新引擎已成为广泛共识,数据产业作为释放和提升数据价值的社会生产环境也受到了前所未有的关注。我国高度重视大数据的战略意义和数据资源对社会经济发展的积极作用,国务院于2015年先后出台了《关于运用大数据加强对市场主体服务和监管的若干意见》和《促进大数据发展行动纲要》,并将“实施国家大数据战略,推进数据资源开放共享”纳入“十三五”期间规划和建设的重要目标。
普遍意义上来讲,大数据产业是以数据及数据所蕴含的信息价值为核心资源所构成的生态环境,它包含了与大数据管理和价值实现相关的企业、行业机构等社会主体的经济活动集合。对于大数据产业的核心组成要素,不同的专家学者有不同的见解和划分方法。中国计算机学会大数据专家委员会根据数据生产加工的流转过程,按照数据采集、存储、处理、分析等流程,将大数据产业划分为生产与集聚层、组织与管理层、分析与发现层、应用与服务层4个部分;美国大数据产业知名学者MattTurck则根据企业提供的大数据产品和服务,将产业划分为数据源、基础设施、数据分析服务和面向行业的数据应用等几个主要组成部分。
遵照产业定义的通用原则,产业各环节的参与实体应能够提供可交付的产品和服务,并形成上下游产业链供需关系。在此基础上,依据数据价值的提升路径和IT领域的产品布局,可以将大数据产业的核心要素归纳为数据资源、数据基础能力、数据分析/可视化和数据应用几个重要组成部分。其中,数据资源部分负责原始数据的供给和交换,是数据资产作为生产要素的直接表现。根据数据来源的不同,可以细分为数据资源提供者和数据交易平台两种角色;数据基础能力部分负责与数据生产加工相关的基础设施和技术要素供应,为数据加工和价值提升提供生产工具,主要包括数据存储、数据处理和数据库等多个角色;数据分析/可视化部分负责数据隐含价值的挖掘、数据关联分析和可视化展现等,是智力要素在数据价值中的集中体现,包括传统意义上的BI、可视化和通用数据分析工具,以及面向非结构化数据提供的语音、图像等媒体识别服务;数据应用部分根据数据分析和加工的结果,面向电商、金融、交通等细分行业提供精准营销、信用评估、出行引导等企业或公众服务。
2 我国大数据产业发展现状
自2013年大数据的概念迅速普及,国内大数据领域在电信、互联网、金融、电商等信息化领先行业的引导和带动下,聚集了BAT等龙头企业和数百家中小及初创企业,在大数据产业的主要环节完成了初步布局,产品和服务供应链能够满足基本数据生产加工的全生命周期覆盖。经过两三年的持续发展,我国的大数据产业呈现出以下几个新的发展特点:
(1)参与主体基本完成云时代向数据时代的转型升级
以BAT等传统互联网服务提供商和华为、浪潮等基础设施提供商为主体的云计算时代,已经随着数据要素的规模化影响力逐渐淡出了新兴技术领域的热门话题。原有的云计算活跃企业纷纷根据自身的原始积累和优势资源完成向数据驱动企业的战略转型:百度凭借其长期积累的用户搜索记录推出了百度数据开放平台,依托大数据技术处理提炼出稀缺数据信息,通过百度搜索服务提供“即搜即得”的高效数据展现;阿里云从基础的弹性资源供给逐渐扩展服务类型,研发并提供了支持PB级数据存储的分布式关系型数据库(PetaData)等一系列数据支撑产品;华为的分布式存储管理系统FusionStorage为异构海量数据的存储管理提供了弹性可扩展的技术保障。
(2)中小和初创企业以数据分析和数据应用为战略高地
由于缺失原始数据资产和先期市场份额,中小企业,特别是初创企业集中布局在数据分析和数据应用等低基础产业环节,投融资形势异常火爆。据中关村数据产业联盟统计数据显示,中关村从事大数据相关的157家企业中,提供数据基础能力的仅有10余家,从事数据分析和数据应用的企业合计超过110家;京津冀地区从事大数据的427家企业中,有232家致力于数据应用。通过搜索网络公开资料,初步统计2015年在国内融资的大数据创业公司超过50家,总融资金额超过50亿人民币,其中从事数据分析和行业数据应用的创业公司近40家,占75%以上。例如,华云数据C轮融资金额达1亿美元,百分点D轮融资金额达4亿元,秒针系统D轮融资金额达5000万美元。
(3)硬件和软件相互渗透的两种商业模式并举
数据的存储管理、ETL加工和挖掘分析贯穿了数据价值提升的主要过程,为了更广泛地覆盖数据生产加工流程,延长其产品和服务在数据生命周期中的作用范围,大数据产业的参与企业逐渐打破硬件和软件的产品界限,形成了“硬件带动软件”和“软件带动硬件”两种新型商业模式。浪潮围绕数据存储空间和存储管理服务推出了SmartRack系列整机柜服务器,并针对深度学习应用、社交数据存储、热数据处理等不同的数据处理场景制定多种混搭架构方案,以一体机的方式实现硬件设施和软件管理的集成交付,占领了百度数据中心60%以上的市场份额。2016年初,阿里巴巴发布的数加平台率先探索了一条以“软件带动硬件”的市场营销模式,该平台通过提供数据计算引擎、数据加工组件、机器学习等数据开放服务,将阿里云的计算、存储等技术要素和多种资源有机地组织在一起形成解决方案,有效地提高了阿里云在实际生产环境中的部署推广途径。
3 DT时代我国大数据产业的发展建议
(1)把握源头,强化数据质量管理
随着大数据产业中数据资源参与主体的逐渐增多,我国的数据开放程度得到了普遍提升,但仍然存在着数据开放范围少、覆盖维度低、可重用性差等现实问题。一方面,数据开放的主体仍然集中在部分企业和行业主体中,如四维图新等专业性企业对外开放地理遥感影像数据、卫星导航信息和地图综合数据等。而政府公共数据的开放程度偏低,截止2015年底,全国仅10余个城市建设了区域级数据开放网站,除北京、佛山等城市外,绝大多数城市的数据开放格式仍不一致、可机读性差,且更新频率较低,全国范围内动态数据占比不足15%。另一方面,北京、贵阳、上海等地率先建立了数据交易平台,提供了基本的数据汇集和交换服务能力,但仍缺乏对数据质量的有效管理,来自不同行业的数据存在着数据维度不统一和语义不协同等普遍问题,同时缺乏对数据预处理和数据描述的公开透明,数据银行模式在国内数据交易市场中尚未成型。
(2)细化分工,关注数据过渡领域
与美国等数据产业发达国家相比,我国大数据产业的短板仍较明显,数据加工处理服务、数据库技术和通用数据分析工具等基础性通用数据技术严重落后,市场主体数量少,自主知识产权把控能力低。由于长期缺乏在基础通用性数据技术和人才方面的积累,我国大数据产业在短期内弥补短板劣势、赶超欧美发达国家困难较大。因此,以数据分析和应用需求为驱动,立足数据时代转型过渡技术是完善产业结构的明智之举。传统行业和企业多以结构化数据为主,随着非结构化数据的大量涌现,存储、管理、抽取和关联分析异构数据源之间所蕴含的海量信息,逐渐成为数据时代企业决策的新型参考依据。为了解决原有结构化数据和新增非结构化数据之间的互访问操作和融合管理,企业对IT时代向DT时代过渡期间所面临的技术要求和服务内容有了新的诉求,诸如传统SQL数据库与开源Hadoop架构的对接技术、跨数据库的数据访问API等都成为了大数据产业中涌现出的新式共性技术要素,美国等发达国家的产业版图中完成了过渡领域的初步布局,我国产业参与主体也应进一步细化市场分工,形成专业性强、衔接紧密的产业新布局,并积极加大过渡时期的技术研发力度,实现数据过渡期与发达国家的同步发展。
(3)强化合作,探索新型商业模式
大数据产业是技术密集型产业,同时也是业务驱动为主的实用型产业。就数据分析和运用过程中需解决的共性基础研究问题,欧美等数据产业发达国家通常采用以开源社区先行的开放合作模式,采用“众包”思想不断完善系统架构和产品服务功能,打破不同参与主体间的技术壁垒,提供更为通用和普适的技术解决方案。经过更多企业在生产实践中的优胜劣汰自由选择,不断成熟和完善的开源产品逐渐从免费提供向企业化盈利的商业模式进行演变。仅在短短的一年时间内,MongoDB融资超过2.3亿美元,Cloudera融资近10亿美元;Oracle和IBM等国际巨头分别完成了对BlueKai和Cloudant等的并购,Splunk、Tableau等开源项目成功实现IPO。我国数据产业的参与主体在开源社区中的贡献仍然较低,企业间合作、国际间合作的参与热情有待提高,通过开源开放形成安全、共识的数据产品和服务是我国数据产业得以持续发展的有效途径,借鉴国外企业的成功经验,以开源产品和服务为基础,提供定制化和深度支撑的新型商业模式是抢占数据市场的有效途径之一,也为中小企业和初创企业参与大数据产业,完成企业转型提供了新的发展思路。
2016-05-23)