徐宗本院士:从科学的角度说大数据的科学问题
2017-07-18邢黎闻
邢黎闻
大数据是最底层的信息技术。
按现在的话来说,中国科学院院士、西安交通大学教授徐宗本算是一个数学科科学家。所以,他在会上演讲的内容大多基于这个基础,从科学的角度理性地劝诫大家:“大数据对于近一、两年的GDP贡献有限,但对于三年、五年之后的GDP贡献巨大。如今的大数据技术并不是已经成熟的技术,是一个正在从应用中逐渐走向成熟的技术,目前的挑战多于成熟。包括分析基础被破坏,计算技术待革新,真伪判定需重建,对新技术的盲目所引起的盲从。”
“凡是对一些问题积攒的数据量超过这个量,就叫大数据,反之则不叫大数据。”
对于大数据的概念,徐院士从数据和资料说起:“數据是资料的数字化。资料是什么?资料是生产过程、管理过程,乃至经济、社会、生活过程的记忆,那些记忆可能表现在一个文件、一段演讲、一段文字等等。资料不放在计算机上,一般不叫数据。所以有个标准的说法:数据是指以编码形式存在的信息载体才是数据。因而,数据一定要放在机器上,要有空间。真正的大数据是指大而复杂的资料集,这些复杂性包括了海量性、时变性、异构性、分布性等等。”
那么,大到何种程度才能被称之为“大数据”?徐院士画图举例道:用圆点表示数据,一开始纸上的圆点看不出什么迹象;随着时间的延长,纸上的圆点越来越多,意味着人们获取的信息越来越多,慢慢地大家能看出来是一只大象的轮廓;再随着时间的延长,大象的牙齿、四肢也清晰地显露了出来。这个例子告诉我们,信息获取到一定数量,人们只要看一些局部、看一些数据就能够指导它背后的故事,这个量就叫做数据的临界量。
“凡是对一些问题积攒的数据量超过这个量,就叫大数据,反之则不叫大数据。”徐院士认为,“讲大数据,要注意两件事,第一件事是:大和小是相对概念;第二件事是相对特定问题而言,不同的决策问题要求的数据不一样。尽管大数据可以做很多事,但是大家也千万不要神化大数据,以为它可以解释任何事情,做所有的事。”
“大家不要期望某一项技术包打天下,真正产生效益和作用的是所有技术的综合运用。”
现如今,大家都在讨论大数据,都认为大数据是经济社会的基本生产资源。为什么会出现这股热潮?徐院士解释说:互联网近几年的发展,逐渐从复杂的消息传递走向消费互联、走向生产互联、走向智慧互联。在这个大体走向中,存在着一个非常大的问题,即信息技术在互联网产生以后,需要和其他任何领域深度融合。这就是今天谈论工业化、谈论大数据的主要原因。
物联网、人工智能、移动互联网、云计算等等这些不断冒出的新技术,在徐院士看来,都是信息技术的一个层面。他告诫大家不要期望某一项技术包打天下,真正产生效益和作用的是所有技术的综合运用。“千万不要以为有了大数据就不讲物联网,讲物联网就不讲互联网,讲互联网就不讲人工智能,其实这些技术是互补的,只是从不同的层面来讲问题而已。”
他进一步阐述道:“互联网和云计算是基础设施,这是肯定的。物联网讲的是交互方式,人工智能讲的是应用模式。而大数据讲的是人和人、人和机器、机器和机器交互的内容特征。所以,从这个意义上讲,大数据是最底层的信息技术。因而,大数据掌握的技术,是基本的标配,任何工业要实现“两化”,任何政府要实现科学决策,大数据是基本标配。”
“数据是基础,平台是支撑,技术是核心,赚钱是王道。记住了这四句话,可以保障大数据的发展不走样。”
在大数据的应用问题上,徐院士概括了五句话:明确目标是前提、拥有数据是基础、计算平台是支撑、分析技术是核心、产生效益是根本。他建议企业记住四句话,数据是基础,平台是支撑,技术是核心,赚钱是王道,“记住这四句话,你们发展大数据不会走样,也不会失望。”
之所以大数据可以带来超凡价值,背后蕴藏着三大原理。徐院士一一作了解释:量变到质变的原理——大数据之所以有用,是因为数据积攒到了一定量可以质变,通过数据可以知道背后的故事;分析出价值原理——如果存储不分析,无疑是只买米不做饭,产生不了GDP,所以要靠分析,要靠挖掘;跨界关联原理——举一个简单的例子,假设一个火锅店的老板想提高营业额,他首先会收集一年当中的采购量资料、现金流资料等等,这些是企业内部数据。但如果能采集到这个火锅店周围的人口分布数据,能够买得到这个地区天气预报的精细数据,对火锅店的营业而言就是极为重要的,这就是赚钱的道理。
随之,很多观念也需要改变,包括数据是资产,用户是资源,服务即感知。
“做工业大数据,互联网互通是基础,定制化服务是中心,懂数据会分析是关键。”
大数据是新一代信息技术的基础性技术,需要应用,工业大数据非常有潜力。“继互联网之后,真正能够对企业产生重大影响的就是大数据。”徐院士一再告诫大家,“现在人工智能潮正在到来,但不要冷落了大数据。人工智能在可见时间内,真正发挥作用的其实是数据智能,就是大数据。”
不管是“借力大数据,推动经济转型升级”,还是“大数据助力传统企业转型升级”,都表明大数据在推动经济转型升级上有重大作用。对于工业来讲,转型转的是过去以产品为中心,以产品组织设计、制造、销售管理的过程,到以服务为中心,以定制化为中心。在这转变过程中,大数据、传感器和零部件成为了新三基。
徐院士指出,数据极其复杂,设计、制造、运行和服务等每一步骤都能产生数据,而这些数据有的是离散型和连续型并存、有的是数值型和非数值类型并存、有的是结构化和非结构化并存,需要仔细分析。大数据必须关注完整属性,必须关注产品全寿命特性,必须关注全方位连接,必须关注制造系统融合等等,这些要求使得我们的基本难点是在认知数据。
他强调,做工业大数据,一定要解决好定位、规划、切入点题、标准、开发共享等问题。要牢记互联互通是基础,定制化服务是中心,懂数据会分析是关键。