当今环境下对大数据的引导与管理
2015-04-11刘洁
□刘洁
(1.天津财经大学天津3002222.中国建设银行股份有限公司唐山分公司)
当今环境下对大数据的引导与管理
□刘洁
(1.天津财经大学天津3002222.中国建设银行股份有限公司唐山分公司)
大数据如同显微镜一样凸显出经济运行中极其微小的细节,特别是社交网络和互联网公司收集的数据呈现出很强的身份特征,通过将这些数据与客户个人信息相结合,可以生成一系列关于客户可能需求的“推测数据”。
大数据曰引导曰管理
我们正在经历一场由大数据引发的社会革命。人类生活中的一切活动,每次购买,每次对话,每次社交,每次移动,甚至我们的身份和身体的变化都成为信息收集、存储、分析和使用的对象。多样化的数据、巨大的数据量以及它们潜在的商业价值已经开始对社会经济和公民隐私产生深远的影响。
当大数据快速向社会的各个方面渗透时,政府与公民、政府与企业、政府与政府之间的关系正在发生变化。如同任何一种新科学(如核物理)出现一样,政策会对这门科学的应用产生深远的影响。科学既能造福人类也可能危害人类,大数据也不例外。有远见的国家战略和政策一定是在保护公民隐私权的前提下,加速数据信息的自由流动,鼓励创新,催生新产业,创造新就业,进而促进国家的经济繁荣。
1出台推动大数据产业链的导向性政策
今天数据积累的速度远远超过数据能被处理和被利用的速度。2013年全球产生的数据中约22%有可能被用作分析,但结果只有5%实际被分析利用。预计到2017年,全球又会积累超过4倍于今天的数据量。这必然导致存储设备、数据中心和电力消耗的快速膨胀。绝大部分数据在分立分治的系统中快速堆积,这些数据互不相识互不来往,除了消耗资源,尚未产生任何价值。
在我们刚刚步入大数据社会时,不妨做一些前瞻性思考。从使用层面考虑引进培养什么样的人才和训练什么技能,以及在更广义的范畴考虑如何形成大数据思维和文化,大数据将会对未来企业与人、政府与人的关系有何影响,等等。
2大数据社会要求人们学会用一种全新的方式打量这个世界,工具、技术、技能和人才缺一不可。要及早部署和投资在以下方面:
2.1数据分析工具和软件平台:
人工智能(AI)技术,自然语言处理、模式识别、机器学习、预测分析、数据熔炼、信号处理和元数据管理,等等;大数据要求同时在数十数百甚至数千台服务器中进行大规模并行运算,目前使用的大多数关系数据库管理系统、桌面数据库和可视化软件包已很难满足需求,因此仍须关注MPP数据库、分布式文件及分布式数据库的发展。
2.2数据分析人才和算法模型:
培养训练会使用大数据分析语言工具的人才只是整个需求的表层。再深入一层,要让大数据发挥作用,跨行业顾问、分析师和有行业经验的编程人员缺一不可。融合技术和艺术,能将“抽象”概念形象化的语言、工具及人才尚不多见。没有数学模型很难想象数据如何“大”起来,数据只有通过算法模型才能被电脑解读,但数学模型在政治、社会和金融等领域只能逼近现实而无法再现现实。所以如何建立能精准模拟世间万物的数学模型,是集理论研究与应用开发为一体的重要地带。
3把数据质量的管控权交给使用端
当人类让数字讲话、把决策权更多移交给“大数据”时,第一个重要问题就是数据的质量。“垃圾进、垃圾出”这句话早在50年前就被用来描述自动化处理数据时的质量问题,此话今天依然有效。
进入大数据时代,一个“大”字很容易掩盖一切,我们可用的数据越来越多样化,但其中大部分的数据是使用者在只知其来源不知其如何产生、质量被如何管控的情况下被使用的。因此,要想让人们信赖基于大数据的决策,对所有数据源提前测试和试验便必不可少。不管数据是大是小,真实可靠最重要。只有逼真的模型、精准的分析,才能体现大数据的价值。过去没有数据是瞎子摸象,现在数据太多是大海捞针。大数据分析的结果常常能帮助人们回答“是什么”而不是“为什么”。肤浅地使用大数据,有可能引导人们止步于探究事件背后的深层原因,满足于了解现象之间的联系并利用这种联系得出似对非对的解读。
在可预见的未来,我们面临诸多挑战:技术挑战会出现在从信息搜索、数据捕捉、存储、传输、共享、分析直到可视化全过程。法律层面,更开放的网络会带来更多的数据窃用、滥用和非法监控。一旦强大的新型数学数据工具出现,如何控制它不至于作恶?大数据技术日新月异,由大数据、深度学习引发的新一轮人工智能技术会对人类未来造成什么样的冲击,是摆在科学和社会学者面前的另一个重大课题。
1004-7026(2015)05-0109-02中国图书分类号:C36
A
刘洁天津财经大学,2013级,MBA。