“多算胜,少算不胜”
——从百度发布大数据引擎说起
2014-04-09◆叔平/文
◆ 叔 平/ 文
质量时评
“多算胜,少算不胜”
——从百度发布大数据引擎说起
◆ 叔 平/ 文
4月24日,“百度大数据引擎”发布,引发关注。
“大数据引擎”指的是对大规模的数据进行收集、存储、计算、挖掘和管理的一套系统。包括“开放云、数据工厂、百度大脑”三层核心平台。
其中,“开放云”相当于存储记忆的“脑容量”,解决的是数据存储和计算瓶颈。“数据工厂”相当于人脑中的记忆关联过程,是用百度提供的“大数据挖掘机”把大数据关联起来,并从中挖掘出价值,TB级甚至更大的数据的查询和扫描工作,是其生产任务。“百度大脑”,是做决策的能力,如同人脑,不过目前的智慧还只相当于两到三岁的孩子。尽管如此,但这可能是世界上最复杂的可以模拟人脑思维的系统。再过十年二十年,百度大脑很有可能比人脑还要聪明。
值得关注的是,“百度大数据引擎”采取邀请和免费模式,把一整套核心能力通过平台化、接口化的方式对外开放。政府、NGO、制造、医疗、金融、零售、娱乐、教育等传统领域,将率先与之合作。拥有海量数据的传统企业,可以利用“百度大数据引擎”,在线使用其提供的种种技术便利,一举进入大数据、云计算、平台经济等移动互联网技术触发的新一轮工业革命。
随着信息化发展进入移动互联网和大数据时代,企业管理、产品服务设计、乃至商业模式,不仅改造、优化、甚至颠覆。企业竞争力将极大增强,生产效率将不断提升。正所谓“创新驱动、转型发展”,是也。
事实上,最早提出“大数据时代到来”的是麦肯锡公司。2011年6月,麦肯锡全球研究院发布了题为《大数据:下一个创新、竞争和生产力的前沿》研究报告。该报告指出:大数据时代已经到来,数据正成为与物质资产和人力资本相提并论的重要生产要素,大数据的使用将成为未来提高竞争力的关键要素。
开大数据研究著作先河的《大数据时代》作者维克托·迈尔·舍恩伯格,提出了“大数据时代最大的转变就是,放弃对因果关系的渴求,取而代之关注相关关系”的观点。该书指出,大数据的核心就是预测。这正是大数据应用的最迷人之处。
“大数据”的重要性,可以从联合国“数据脉动”计划、美国“大数据”战略、英国“数据权”运动、日本“面向2020年的ICT综合战略”、韩国“大数据中心战略”的提出和实施中窥见。
2012年3月29日奥巴马政府发布的《大数据研究和发展计划》明确,要从国家战略层面收集庞大而复杂的数字资料,并从中获得知识和洞见,以提升能力。奥巴马团队更是身体力行,将大数据分析运用到竞选,通过对近两年搜集、存储的海量数据进行分析挖掘,寻找和锁定潜在的己方选民,运用数字化策略定位拉拢中间派选民及筹集选举资金。在数据挖掘支持下的决策,为奥巴马的连任立下了汗马功劳。
“大数据是与自然资源、人力资源一样重要的战略资源”,这一点正在全球形成共识。大数据犹如亟待挖掘的金矿,挖掘金子的应用越来越多。本刊上期“质量译丛”《掌握大数据的组织将超越对手》一文中,便提到了20种应用。包括:抵押价值评估,车辆故障预测,自动识别促销活动商品,非医疗检测健康风险识别,诊断辅助,顾客维系,目标营销,预测广告定位,电影与图书推荐,雇员留任,引导针对性教学,妊娠预测,犯罪预测,网络入侵检测,垃圾邮件过滤,开放式问题回答,博客内容焦虑检测等等。
这20种应用,都已经有了经典故事。如“自动识别促销活动商品”,故事是:一位收到广告的父亲很愤怒地对商场说:“我女儿还在高中,你们现在天天给她寄婴儿尿布、奶粉的广告,什么意思?”商场说:“对不起,我们搞错了!”过了一个星期,这个老爸又回来,说:“对不起,我搞错了,我女儿已经向我坦白了,她真的怀孕了。”
尿布和啤酒相关的经典故事,也脍炙人口。沃尔玛通过挖掘顾客消费数据发现,尿布、啤酒,两者关联。原来,当家里有小孩后,买尿布的任务多半由新爸爸去完成。新爸爸在买完尿布时,往往会顺便买一瓶啤酒犒劳自己。看似“风马牛不相及”的两者,不仅相关并存在因果关系。后来沃尔玛就把啤酒和尿布放在一块儿,啤酒的销售量一下子就增加了。
当然,“阿里小微金融”这个颠覆了传统银行做法的大数据应用经典故事,最为震撼。阿里金融发放微贷,其实是利用了客户的两类数据,一是网上客户信用数据,二是客户的行为数据。据此,阿里金融建立起了一个网络数据模型和一套信用体系。这个网络模型和信用体系,会给每一个商铺,每一个店家做信用等级的评分。这个评分,就是阿里金融发放微贷的依据,从500元钱到100万元不等。从而抛弃了银行贷款必须抵押、必须担保的传统做法。阿里“平台+金融+数据银行”的做法,也让传统银行深受启发,开始重视大数据,重视线上渠道。
于是,你用大数据,我也用大数据,一场以大数据为重要生产要素驱动的革命,即将出现。正如百度CEO李彦宏表示的:“技术创新是一个从量变到质变的过程。并行计算能力不断提升和云存储等技术产品成本的不断降低,使大数据真正走到了技术变革的临界点。百度开放自己的大数据核心能力,将更好地帮助传统行业挖掘数据价值,加快传统行业转型升级,进而发挥出对整体社会经济的革命性影响。”
中国的人口和经济规模决定了中国大数据规模为全球最大,同时也意味着中国大数据的分析方法、解决方案将适用于其他国家。这将为“中国制造”向“中国创造”转变提供难得的机遇。为此,上海已经率先向社会开放了政府数据资源,上海市经委正在研究筹备大数据局,为中国企业和社会更好地应用大数据创造条件。
显然,百度大数据引擎的发布,以及上海率先开放政府数据资源,上海市经委研究筹备大数据局等等迹象,是大数据应用走到了技术变革前夜的标志。企业要善加利用,极早将传统企业转型为“大数据说话”的智慧企业,提升大数据时代的企业竞争力。在这方面,企业一方面可以与大数据专业公司合作;另一方面本身也须做好几件事。
首先,要从小数据思维转变为大数据思维。
1931年,美国安全工程师海因里希通过分析55万起工伤事故的发生概率,提出了著名的海因里希“事故金字塔”理论,论证了加强日常安全管理、细节管理对消除不安全行为和不安全状态的重大作用。
在今天看来,55万起工伤事故的数据,就是个小数据。因为全世界互联网流量累计达到1EB所需要的时间,2001年需要一年,2004年需要一个月,而现在只需要一天。大数据时代,没有最大,只有更大。量变会引起质变,于是大数据时代就出现了不可思议的事情:似乎不需要逻辑思考,大数据会直接导出答案,而且更准确。
因此,今天我们可以放宽对概率精度的严苛要求,也不要过分追求相互关联中的因果关系,不如“让大数据说话”。但我们也须明白,大数据可以驱动精确的预测,但不能代替判断,也不能代替理论,毕竟,我们要“知其然”,也要“知其所以然”。
其次,建立以大数据为基础的客户为中心的经营管理模式。
我们一直在强调,要建立以客户为中心的经营管理模式。今天看来,没有线上、线下全方位的客户大数据,就不可能建立真正的以客户为中心的经营管理模式。只有从传统的业务数据拓展到网络数据,把网络数据与客户数据、业务数据结合起来,才有可能真正建立起以客户为中心的管理模式。只有重视客户体验,把线上线下客户行为的各种数据综合联系起来,再把这些联系还原成一个个活生生的客户体验偏好,才能引导我们“精准营销”,这样的经营管理模式,才会对客户提供更好的服务,才会有更高的投资效率,才会有更强的竞争力。
第三,要以高度的社会责任感处理大数据资源。
大数据的挖掘,最大的挑战莫过于破除复杂性,所谓的“数据除尘”,以找出数据间的关联。就是说,要在大海里捞“针”,发现规律,这才是一件最重要的事情。此外,数据是流动的,海量的数据每时每刻在增长,如飞机引擎般每时每刻在流出数据,我们需要所谓的流计算,这又是一门专业的挑战。
不管如何,企业要把基于大数据的质量管理过程建立起来,包括建立PDCA循环互动的质量数据池,配备既懂得数据分析技术,又谙熟企业各项业务,还善于右脑思考的新型复合型人才。
大数据时代,千万不能忘记的是“祸兮福所倚,福兮祸所伏”这句老话。因为海量的数据有四宗罪:它的质量可能很差;它可能不客观;它可能存在分析错误或误导性;更糟糕的是,数据可能根本达不到量化它的目的。
噪音大、波动大的大数据时代,更令人担忧的是它尚未建立起来的行为规范。“退潮时,可以发现谁在裸泳”,这是在过去。现在,“不用退潮,就可以看见谁在裸泳”了。放肆地公开数据信息或刻意地垄断数据信息,都有着不可推卸的责任。
“多算胜,少算不胜”。《孙子兵法》如此说。这种实事求是的大数据精确管理体系,是未来中国发展实现有质量增长所不可或缺的基础条件。我们相信,大数据时代,无论挑战有多么大,中国的机遇一定会更大。