标准建设助力国家大数据战略实施
2016-10-15梅宏
梅宏
当前,工业大数据提出了整个体系和要求,要达到这些目标,标准无疑是关键的一环。怎么样做好大数据标准体系,建设助力国家大数据的实施?围绕此问题我有以下几点思考。
可以看到随着大数据的到来,我们正迎来信息化的第三波浪潮。第一波浪潮是1995年以前的单机信息化时代,以单机应用为特色的数字化阶段;在过去20年,我们经历了以联网应用为特征的网络化阶段,我们称之为第二波浪潮信息化2.0;现在我们正进入以数据的深度挖掘和融合应用为特征的智慧化阶段,可以说,第三波浪潮正在到来。第三波浪潮也是大数据时代的到来,大数据应用有了各种各样成功的案例,这些成功案例也激发了我们努力去基于数据,从中发现信息、汲取知识,指导我们的实践。
在这种情况下,大数据给我们带来了什么?是新的思维,是潜在的巨大的价值,包括一些模式方法学的变化,从精确求解到近似求解的转变,从因果关系到关联关系的转变等等,还有很多其他行业新的商业模式的创新,这些新的思维给我们带来追求价值的愿望。
大数据产业生态基本雏形已经形成,包含基础设施、分析和应用,还有基础设施分析,数据源的开放以及相关的API等。就我国大数据产业的现状来看,从学术界的理解,有以下几个判断:我们在基础设施和分析技术方面主要依赖于开源软件,从定制方面获取价值;大数据分析的基础和核心算法基本来源于对国外的借鉴;互联网大数据应用达到了国际先进水平;在政府数据和行业数据开放共享方面取得了成功。
当然也存在问题,我们在面向核心技术和算法的研究方面投入不足,很多工作是在做数据分析,从美国大数据的产业发展来看,我国的大数据产业的发展差距仍较大。如果说美国已经进入了传统行业的比较,他的数据生产已经进入工业化萌芽阶段,开始呈现生产率高的状态,那我们还处在自给自足的小农经济时代。
从国家战略层面看,2015年国务院印发了《促进大数据发展行动纲要》,后续的一些列动作,包括中央工作会议,2016年3月的政府工作报告等,都对我们在信息、大数据战略上做了国家战略层面的明确部署。
若对《促进大数据发展行动纲要》做一基本解读,其中涉及到三方面的任务:一是加快政府数据开放共享,推动资源整合,提高治理能力,推动产业创新发展,培育新兴业态,助力经济转型,强化安全保障,提高管理水平。数据或信息已经成为与物质能源同等重要的基础性战略资源,信息化3.0时代,以数据的深度挖掘与融合应用为主的特征,从而必然会有新业态出现。
当前,大数据应用领域标准研制,设立电子商务大数据和工业大数据技术专题组,面向产业、行业真实需求,选择典型领域制定相关标准。在大数据安全标准方面,有大数据内容安全、隐私保护的需要,通过标准规范数据共享、使用和管理。其中最为重头的是按照国家对大数据的重要部署,怎样实现开放共享?特别是政府数据的开放共享。在国务院常务会议上,大数据的开放共享是一项非常重要的任务,《促进大数据发展行动纲要》的十大工程,其中很重要的是政府数据开放工程,大数据资源聚集管理和开放的前提,是要实现开放共享,按照国际上机构排名,我们中国政府数据的公开开放,排在较后的位置,未来几年实现这件事情标准工作非常重要。怎样能够实现有效地支撑大数据的开放共享呢?开放共享毫无疑问应该有两个方面的问题:一是标准,大家按照统一标准来形成;二是提供技术手段,通过技术层面建设平台、技术方案解决大数据面临的孤岛问题。标准从数据表示与描述、数据管理流程、数据安全隐私等多个视角,建立数据共享、开放系列平台。技术从互操作技术入手,解决跨系统间的数据交互、共享问题,全方位以标准技术共同支撑的数据解决方案。
我们现在在大数据开放共享标准方面,主要有三个标准:技术标准、管理标准和安全标准。针对大数据资源开放共享目标,重点研究三项国家标准,目前申请相关的国标立项,包括大数据开放共享的总则,政府数据开放的基本要求,开放评价,大数据交易流程和相关的标准。也设计了2项国家标准,正在进行国标的立项。
除了标准方面,我们还考虑从技术上有一些支撑,开放共享最重要的挑战是大数据时代的遗产系统,怎样把这些遗产系统保留出来,怎样把这些遗产信息系统中所具有的数据、所隐藏的数据挖掘出来,是重中之重的工作。
在我们过去的工作中,大量的数量数据、采集、清洗、组织和管理,10%的大数据技术投资用于真正数据价值的业务分析,52%流向了数据的采集和组织,所以说是市场机遇也是用户的痛点。从显性成本来看,如果说我们要完成一个信息系统的开放,实现数据的开放把接口拿出来。这里面如果有原系统的开放,那么就需要修改原有系统,难度高、工作量大,原系统开发商由于人员流动、业务转型等原因,不再重视开放,并且原系统开发商因技术锁定,掌握议价权。所以最近北大团队提供了大数据开放共享技术解决方案,我们中国体系技术能够自动把系统价值恢复出来,完成数据的接口,实现数据的可操作。甚至有的更高,完成数据整体的开采,自动集成信息系统。未来会形成万亿级的工业化产业:从单元变成多元,从手工进入自动,从批量进入实时,从总结进入数据预测,从应用实现数据变现。
总体来看,整体上标准原则思路是:立足本质、抓主抓重,应用创新、注重实效。整体布局,按需规划,同时也考虑自主可控,长效发展。(根据演讲内容整理,未经本人审核)