“大数据”背景下传统网络厂商的挑战与机遇
2016-02-07◆陈强
◆陈 强
(新疆医科大学网络中心 新疆 830011)
“大数据”背景下传统网络厂商的挑战与机遇
◆陈 强
(新疆医科大学网络中心 新疆 830011)
大数据是现在非常热门的一个话题,尤其是涉足互联网行业的企业,对企业的规划运营提供了指导和分析,进而影响和改变企业的业务模式和发展方向,大数据时代对传统的网络厂商提出了新的挑战与机遇。
大数据;云计算;发展;挑战
0 前言
《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而做出,并非基于经验和直觉。哈佛大学社会学教授加里·金为大数据时代下了一个定义:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
现代社会信息量的爆炸性增长,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。在此海量数据的产生,使我们步入了“大数据”时代。
1 大数据
微软必应搜索通过集成以往的飞机票价画出未来票价走势;谷歌利用用户搜索记录判断出美国流感疫情的现状,并比疾控中心快一两周;对冲基金通过剖析社交网络推特的数据信息来预测股市的表现;亚马逊和网络影视光盘租赁公司根据用户在其网站上的类似查询来进行产品推荐……当然,同样的技术也可以运用到疾病诊断、推荐治疗措施,甚至是识别潜在犯罪分子上。
何谓大数据?大数据之“大”,并不仅仅在于“容量之大”,更大的意义在于:通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大利润”和“大发展”。大数据的“大”是个相对的概念,最近比较流行的“UP智能手环”,笔者也认为也可以发展为一种潜在的大数据模型,将使用者每天的数据进行收集、分析,形成建议报告。若将个体的数据上传在进行分析,就能描绘出更好的使用者群体模型,进而对该模型进行有针对性的开发。当然这涉及到公民隐私,但随着计算机和网络技术的发展,我们的行为、位置及UP智能手环收集的身体生理数据等每一天的变化都成为可被记录和分析的大数据。
那么到底什么是大数据呢,它具有什么特点呢。
1.1 大数据的定义
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
1.2 大数据的特点
大量化(Volume):大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。
多样化(Variety):数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。
价值密度低(Value):数据价值密度相对较低,随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。
快速化(Velocity):处理速度快,时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线,已经无法高效处理如此海量的数据,而对于相关组织来说,如果投入巨大采集的信息无法通过及时处理反馈有效信息,那将是得不偿失的。可以说,大数据时代对人类的数据驾驭能力提出了新的挑战,也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。
图1 大数据的特点
1.3 大数据的应用
大数据在各个行业都有应用,比如电商的精准营销、政府的预防犯罪、金融的信用评分等。以我们身边的实际应用举例,淘宝网将注册用户2012年的全年交易数据进行了分析,得出结论如下:
图2 淘宝网将注册用户2012年的全年交易数据分析
根据2012年度全民对账单,可以详细地统计全国各地用户的消费情况。总体而言,手机支付已经开始成为趋势。手机支付金额相比2011年上涨了546%,有超过430万人手机支付的次数超过电脑,其中上海、北京和成都的用户更加偏爱手机支付。
据此结论可以引导企业在手机支付方面进行更多的资源投入。
2 大数据处理流程
大数据整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析以及挖掘。
2.1 采集
收集来自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在采集部分,主要特点和挑战方面是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如著名用于购买火车票的12306站点和淘宝,它们并发的访问量在峰值时达到上百万。
2.2 导入/预处理
虽然有采集端本身会有很多数据库,但是如果要对这些海量数据进行有效地分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。
2.3 统计/分析
统计与分析主要利用分布式数据库或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC 的GreenPlum、Oracle的Exadata以及基于MySQL的列式存储Infobright等,而一些批处理或者基于半结构化的需求可以使用Hadoop。
统计与分析这部分,主要特点和挑战方面是分析涉及的数据量大,其对系统资源,特别是I/O会有极大地占用。
2.4 挖掘
与前面统计和分析不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,这样实现一些高级别数据分析的需求,比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有Hadoop的Mahout等。
在特点和挑战方面,主要是挖掘的算法复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法库以单线程为主。
3 大数据的发展方向、趋势
未来,数据可能成为最大的交易商品,大数据的价值是通过数据共享、交叉复用后获取最大的数据价值。未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。
大数据的整体态势和发展趋势,主要体现在几个方面:大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和整个产业的影响。大数据整体态势上,数据的规模将变得更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。
大数据的发展会催生许多新兴新职业,会产生数据分析师、数据科学家、数据工程师,有非常丰富的数据经验的人才会成为稀缺人才。随着大数据的发展,数据共享联盟将逐渐壮大成为产业的核心一环。随着大数据的共享越来越大,隐私问题也随之而来,比如说每天手机产生的通话、位置等等。但这给带来了便利的同时也给带来了个人隐私的问题。数据资源化,大数据在国家和企业和社会层面成为重要的战略资源,成为新的战略制高点和抢购的新焦点。
随着社会的不断发展,大数据对IT技术架构的挑战,大数据的生态环境问题,大数据的应用及产业链将日益突出。
4 大数据面临的问题
“棱镜门”是一个真实的大数据分析事件,将大数据时代对个人隐私造成的挑战推到风口浪尖上。根据斯诺登的描述,美国政府一直通过谷歌、苹果、思科、HP等几大网络公司进行数据挖掘和收集活动,监控公民邮件和聊天记录等内容,令民众哗然。
个人隐私问题并非“大数据时代”所特有,手机窃密、信息被盗等都已经普遍存在,只是在今天这个信息获取多元化的是网络时代,隐私问题显得更复杂、更突出。
此前保护隐私的法律、法规尚存在很多漏洞,窃取信息利益高、风险小,使得许多人跃跃欲试。而“大数据时代”的突如其来,也让许多正享受着这一时代便利的人们措手不及,尚不能形成相应的安全防范意识和上网习惯,加拿大隐私委员会调查显示,尽管那么多人担心社交网络平台安全和个人隐私泄露等问题,但认真阅读网站隐私条款的比例,竟仅有7%。
大数据时代既带来了诸多的便利和新的发展机会,但同时网络欺诈、侵犯个人隐私现象也屡见不鲜,因此,对于大数据,应该尽快进行立法,规范发展。
5 传统网络厂商如何应对大数据时代
传统网络厂商诸如思科、华为、H3C、锐捷等,在这方面也都有所应对,思科在2012年发布了“整合释放大数据分析的价值:信息中介如何创建全新大数据生态环境”的白皮书,旨在将大数据的技术发展成一种商业模式,进而进行标准的制定和输出,占领产业链的制高点。
华为公司在2013年初发布2013年行业趋势展望,认为从大数据到大智慧,运营商和企业的IT系统成为实时的业务系统,不再是后处理的支撑系统,这是IT系统的一次大变革。华为公司清楚的意识到此次变革对企业带来的巨大变化,据此对其产品、人员、资源方面做了战略布局。
H3C的控股公司HP公司将大数据作为其核心战略,已经形成了从基础设施、设计咨询、实施规划等全程的一揽子服务。与国内的部分大型企业形成了大数据层面的战略合作,协助企业在简化IT管理的同时,降低基础设施的维护成本,并确保其遵循行业标准和政府法规。
作为传统网络设备生产厂商中的一员的锐捷网络该怎么应对呢。笔者认为至少要做一下几方面的工作:
5.1 人才储备
公司有后台信息化支撑部门,每年面临内部数据的增长,同时我们的业务系统,如CRM、电子商务等也有数据不断注入。若将这些数据做些简单的分类和处理,是不需要专业人员的,但对数据要做更好的挖掘和处理,则需要更多的专业人才进行处理。
锐捷网络的客户群对数据的认识越来越清晰,视作其单位的核心资源,如何协助客户群提升核心资源的优化和使用,使其发挥更大的价值,创造更多的效益,是我们需要考虑和布局的。
5.2 产品规划
锐捷网络的核心竞争力在于能够很好的贴近客户,满足客户的需要。伴随大数据时代的步入,协助客户做好面对的准备,在大数据的处理流程上都要有核心的产品或工具予以提供,笔者很欣喜看到,锐捷网络在细分的客户处已经有所投入,不管是否能够给客户带来变化,但在产品方面一定要做好长远的规划。
5.3 重视大数据
一旦客户认识了数据的价值,务必集中资源投入在大数据方面,多数客户会在服务器和存储设施中进行收集,并且大多数的企业信息管理体系结构将会发生重要大变化,我们迫切需要紧密跟进大数据的步伐,了解和收集客户IT设施的变化,进而将优势的资源投入在更贴近客户方面。
大数据是最近几年才兴起的词语,而并不是所有的人员对大数据都非常了解,例如如今的Hadoop,MapReduce,NoSQL等技术都是近年刚兴起的技术,企业IT人员要多关注这方面的技术和工具,以确保将来能够面对大数据的时候做出正确的决定。
5.4 做好内部培训
网络目前最缺乏的是专业人才,当大数据到临的时候,企业将会缺少这方面的采集收集分析方面的人才。同时需要对公司人员做好相关的知识普及培训,确保,以确保在大数据到来时,员工也能适应相关的工作。
5.5 风险规避
大数据面临的隐私问题同样是企业面临的问题,内部数据的防泄漏及大数据收集、分析(比如,微哨通过云模式收集到的信息是否合规等),这种处理动作是否符合行业规定或国家法律法规,都是我们要提前考虑的。
做到上面的几点,当大数据时代来临的时候,面临大量数据将不是束手无策,而是成竹在胸,而从数据中得到的好处也将促进企业快速发展。
[1]弯曲论坛.
[2]Google搜索综合信息资料,关键词“大数据”.
[3]张红妹,高少华.大数据.“啤酒+尿布”成经典案例.国际先驱导报.
[4]baidu搜索综合信息资料.关键词“思科大数据”、“华为大数据”等.
[5]维克托·迈尔·舍恩伯格.大数据时代.浙江:浙江人民出版社,2012.