由数据分析带来的行业竞争变革
2017-03-22马壮
马壮
“新IT时代”是近一年提出的热词,是相对旧的IT时代提出的。在旧的IT时代,我们利用计算机把客户的终端连接起来。进入新的IT时代,我们连接的目的是信息共享,再对其进行智能分析、运算,产生智能创造。因此,新IT时代的主题就是智能化。
大数据时代给我们提供了巨大的转变:第一个转变,我们不再苛求因果关系,转向追求相关关系。相关关系越来越重要,我们可以把很多原有聯系并不是很紧密的事件放在一起,使得原先看不到的一些东西发挥其作用。我们今天预测所追求的结果不一定正确,但也会产生一定的价值。
第二个转变,在认知方式上产生了新的挑战。我们现在可以量化的维度越来越多。这意味着对人的描述越来越全面、越细化,这样我们可以有更多的角度去判断。另外,交流方式也产生了巨大的变化。
第三个转变,由于新的媒体不断出现,我们交流的方式在发生变化,有群体的交流、小圈子内私密的交流等,并从原有的文字,到语音、视频。各种各样的交流方式都会产生大量新的数据,会催生新的服务和产品。
从数学的角度谈及我对大数据的理解,总结为4个V:第一个V是指数据量大。数据量达到ZB级,大约10亿个TB的容量。有人认为数据量多一定是件好事,我们有更多东西可以作为参考和分析的依据。但我觉得大数据给我们带来了巨大的麻烦,数据量大以后,我们会放弃原有对于规律性的探索,可能被数据所迷惑,产生的结果可能是错误的。
第二个V是指大数据产生的速度很快。我们的很多数据是有时效性的,这对我们数据分析提出了非常高的要求,要在很短时间内产生正确结果。数据分析工作者需要探寻一些比较简单的模型和方法,以适应高速产能的数据。
第三个V是指数据多样性。我们现在所获得的数据并不是同一架构的数据,很难进行汇总和整合。非结构化数据往往是最重要的数据,我们需要促成一些新的工具和方法从中将之结构化,从而提取有价值的东西。
第四个V是指数据的真实性。这是很棘手的事,因为我们所有的预测都是基于数据完成的。一旦数据出了问题,特别是人为制造虚假数据,预测结果就肯定有问题。而虚假数据非常之多,如果我们用它们构建预测模型就会被误导。所以,我们需要一整套判定数据真实性的方法。我认为,虽然今天预测的结果不一定正确,但也会产生一定的价值。