APP下载

大数据的挑战

2016-05-30刘卓军

中关村 2016年11期
关键词:字节数据安全网络安全

刘卓军

认识和看待世界的一个重要维度或视角就是信息。信息来自于数据,所以千百年来,人们一直没有间断过直接或间接地对数据的依赖和利用。而大数据概念的形成则仅仅是近几年的事。从各种媒体上,人们可以检索到太多关于大数据的信息,应接不暇。

讲大数据,首先是规模巨大。但到底多大算大?这当然是一个相对的、可变化的衡量标准。很多机构共识性地接受了这样一种分析判断,全球现在每天产生的数据规模在2.5艾字节(Exabytes)左右。这里艾(Exa)是继兆(Mega)、吉(Giga)、太(Tera)、派(Peta)之后的又一个数据规模单位。上述的每一个规模单位是前一个规模单位的1000倍,准确地说是1024倍。因此,一个艾字节相当于100亿亿个字节。差不多需要把4000个美国国会图书馆的藏书全部数字化才能写满一个艾字节。而目前全球每天产生的数字化数据大致相当增添了1万个美国国会图书馆。不妨回顾一下30年前的1986年,那时全球全年的数据存储能力只有2.6个艾字节。可以说,现在的一天就相当于过去的一年,发展变化之巨大是显然的。2011年,美国南加州大学马丁·希尔伯特(Martin Hilbert)等人在科学杂志(Science)上发表论文,全面分析和讨论了全球信息存储、通信及计算能力的演变情况。文章特别指出,很长一段时间,全球信息存储能力呈现的局面都是非数字化的形式多于数字化的形式,直到2002年这个局面才得以改观。根据国际数据公司(IDC)的分析,如今全球的数字化数据规模已接近10个泽字节(Zettabytes),既接近1万个艾字节,预计到2020年这个规模将达到44泽字节。需要意识到的是,到明年 - 2017年,在全球整体的数字化数据的总量中,包括中国、印度、俄罗斯、巴西、墨西哥在内的新兴市场国家将和美国、加拿大、欧洲、日本、澳大利亚等成熟的市场国家各占半壁江山。在数字化数据总量呈指数增长的趋势下,新兴市场国家占据更大数据总量比重的迅猛势头势不可挡,增长速度更快的形态将持续下去。毫无疑问,这个趋势会给中国的企业、行业及市场发展带来更大的机遇。

与此同时,伴随大数据的快速发展也产生了一些问题,其中最突出的恐怕就是数据的安全性。数据的安全问题可能损害国家利益、个人隐私、企业和机构的机密等。恶意攻击、蓄谋犯罪、系统故障、人为错误是造成数据安全问题的几类主要原因。斯诺登事件、黑客袭击、病毒侵扰、DDoS攻击等不断地对网络及数据安全造成威胁。不久前名牌大学教师被骗上千万元以及若干大学生因借贷被骗损失惨重甚至走上绝路的事件,一再向社会提醒数据安全的重要性。在大数据条件下,信息盗用、信息篡改、数据欺诈、数据泄露、数据不真实、数据非法交易等将更为严重地影响到国家安全、个人安全以及企业和机构的安全。特别是网络的普及使用,使得数据安全变得异常严峻和更富挑战。一定程度上,网络安全得到了提升,数据安全就会得到关键性的改善。

最近,IBM联手波尼蒙研究所(Ponemon Institute)开展了一项关于企业和机构数据泄露成本的研究。研究项目选取了380多个机构和企业作为样本和深入调查分析的对象,范围遍布12个国家,包括美国、英国、印度、巴西、德国、法国、日本、澳大利亚、阿拉伯地区、加拿大、意大利和南非。研究结果表明,2014年、2015年、2016年这三年,样本企业由于数据泄露增加的总的平均成本分别是350万、380万和400万美元。其中美国企业的成本最高,达到700万美元,最低的印度也有160万美元。按行业分,被泄露的数据平均每条记录的成本是医疗355美元、教育246美元、金融221美元、服务208美元、生命科学195美元、零售172美元、通信164美元等。这些足以说明,数据安全已经是全世界必须一致面对的挑战问题,任何想要迈入和跻身现代化行列的国家都不可能独善其身。

事实上,2015年以来,以美国为代表的西方各国相继发布各自的网络安全发展战略。美国继2010年发布《网络安全综合计划(CNCI)》计划之后,又推出了《国防部网络战略》、《网络空间安全信息共享法》(CISA)、《网络安全国家行动计划》(CNAP)和《网络威慑战略》等文件。俄罗斯2000年发布的《俄联邦信息安全学说》也在最近得以完善和改版。各国均进一步把网络安全作为国家安全的重要组成部分给予明确细化。

网络条件下,数据和信息的安全性问题大致可以辨识出如下一些特征:真实性、隐私性、完整性、保密性、可认性、可证性、可靠性、可信性。数据安全问题的发生可以主要地分类成传输型、存储型和使用型。系统地解决(大)数据安全问题,必须综合考虑、联合而为、分步实施。需要做好顶层设计,包括法规体系、标准体系和教育规划的设计;需要开展普及教育,包括道德的、责任的、常识的;需要法制护航,做到维护好社会秩序和市场秩序,尤其做到有罪必惩、有恶必罚;需要技术支撑,包括用好人才、提升技术、加强研发。

数据安全是国之大事是社会之大事。即需要不同层面的国际合作也需要促进广泛的社会参与。应通过政策扶持、资金引导等方式鼓励企业和机构积极进行产品创新和服务创新并逐步做到行业开放、市场开放。

人类社会已经发展到更加离不开数据的阶段,数据安全现在是,今后也必将呈现魔高一尺道高一丈反复较量的局面,矛与盾的轮番升级将预示着数据安全永远都是躲不开的挑战。除了安全问题的挑战之外,大数据的发展需要解决和重视的问题还有许多,一些过去“小数据”时代不成为问题的,如今也必须给予更多的重视。我们愿意用6句话作一个概括,既大数据的健康发展应做到:采得真;存得精;取得快;分得准;说得清;用得好。

采得真,就是在数据的采集和录入阶段就应注重数据的质量,特别要减少和杜绝数据的造假行为。存得精,就是在数据的储存时要尽力降低冗余程度,除了必要的灾备,要利用各种技术手段减少重复,切不可以认为存储能力在快速提升就可以随意存放、浪费存储。取得快,就是能快速地检索或生成出需要的数据,影响取得快的因素很多,做到存得少、存得精显然是重要的条件之一。分得准,对检出的数据通常要进行分析,就是要做到分析结果准确,这当然是重要的需求。说得清,就是要清楚地说明和解释分析的结果,有时可视化等是必要的手段。用得好,这是大数据的根本目的,一个技术不好用、一个工具没效果当然不行。这与技术服务和支撑社会发展的目的完全脱节。把上述六个环节做到位,特别需要各种技术的进步和各种产品及服务的涌现。而这正是产学研的机遇,正是企业和行业发展的契机。

大数据已经改变了社会改变了生活,在面对各种挑战及促进大数据更加健康发展的过程中,每个感兴趣和有准备的人及机构都会发现新的机遇——大数据的事业太大了。

猜你喜欢

字节数据安全网络安全
No.8 字节跳动将推出独立出口电商APP
云计算中基于用户隐私的数据安全保护方法
No.10 “字节跳动手机”要来了?
网络安全
网络安全人才培养应“实战化”
建立激励相容机制保护数据安全
上网时如何注意网络安全?
简谈MC7字节码
大数据云计算环境下的数据安全
大数据安全搜索与共享