APP下载

大数据时代数据分析与信息安全

2013-03-19刘林林

网络安全技术与应用 2013年12期
关键词:数据量离线海量

刘林林

(山东质量认证中心 山东 250014)

0 引言

“大数据”在物理学、生物学等自然科学领域以及军事、金融、通讯等行业存在多年,却因为近年来互联网与信息行业的发展而引起人们关注。大数据在以Google、IBM、Amazon等为代表的互联网与信息公司快速应用发展,逐步蔓延到越来越多的金融、电力、通讯等传统行业,这些公司和行业从不同的维度进行数据挖掘和分析,创造出更多的商业模式和经济增长点。

大数据的价值不仅仅局限于它的初始收集目的,而在于收集后可以用于其他用途并可重复使用。目前,包括美国在内的许多国家,都将大数据分析管理上升到国家战略层面,从国家层面通盘考虑其发展战略。

目前,可以依据不同的需求,从以下三个角度将大数据分析进行分类。

1 以数据分析的实时性分类

以数据分析的实时性分类,可分为实时数据分析和离线数据分析。

“即时处理”是实时数据分析的主要特点。实时数据分析一般用于金融、移动和互联网B2C等产品,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验的目的。要满足这样的需求,可以采用精心设计的传统关系型数据库组成并行处理集群,或者采用一些内存计算平台,或者采用 HDD的架构,这些无疑都需要比较高的软硬件成本。目前比较新的海量数据实时分析工具有EMC的Greenplum、SAP的HANA等。

“先收集,后分析”是离线数据分析的主要特点。对于大多数反馈时间要求不是那么苛刻的应用,比如离线统计分析、搜索引擎的反向索引计算、推荐引擎的计算等,应采用离线分析的方式,通过数据采集工具将日志数据导入专用的分析平台。但面对海量数据,传统的ETL工具往往彻底失效,主要原因是数据格式转换的开销太大,在性能上无法满足海量数据的采集需求。互联网企业的海量数据采集工具,有 Facebook开源的Scribe、LinkedIn开源的Kafka、Hadoop的Chukwa等,均可以满足每秒数百MB的日志数据采集和传输需求,并将这些数据上载到Hadoop中央系统上。

2 以数据分析的算法复杂度分类

在实际应用中由于业务需求的不同,数据分析的算法也差异巨大,而数据分析的算法复杂度和架构是紧密关联的。举个例子,Redis是一个性能非常高的内存Key-Value NoSQL,它支持List和Set、SortedSet等简单集合,如果你的数据分析需求简单地通过排序,链表就可以解决,同时总的数据量不大于内存(准确地说是内存加上虚拟内存再除以 2),那么无疑使用Redis会达到非常惊人的分析性能。

对于大多数统计分析,机器学习问题可以用 MapReduce算法改写。MapReduce目前最擅长的计算领域有流量统计、推荐引擎、趋势分析、用户行为分析、数据挖掘分类器、分布式索引等。

3 以数据量大小分类

以数据量大小分类,分为内存级别、BI级别、海量级别三种。这里的内存级别指的是数据量不超过集群的内存最大值。目前内存的容量,如Facebook缓存在内存的Memcached中的数据高达320TB,即使PC服务器,内存也可以超过百GB。因此可以采用一些内存数据库,将热点数据常驻内存之中,从而取得非常快速的分析能力,非常适合实时分析业务。

BI级别指的是那些对于内存来说太大的数据量,但一般可以将其放入传统的BI产品和专门设计的BI数据库之中进行分析。目前主流的BI产品都有支持TB级以上的数据分析方案。海量级别指的是对于数据库和BI产品已经完全失效或者成本过高的数据量。海量数据级别的优秀企业级产品也有很多,但基于软硬件的成本原因,目前大多数互联网企业采用Hadoop的HDFS分布式文件系统来存储数据,并使用MapReduce进行分析。

今年年初,在美国召开的RSA2013大会结束以来,大数据安全已经成了今年业界关注的热点。众多安全厂商都发布了大数据安全战略,将大数据安全作为未来研发的重点。目前,从信息安全的角度看,大数据安全主要体现在以下五个方面:

3.1 数据保密

大量的数据产生、存储和分析,数据保密问题将在未来几年内成为一个更大的问题。对一个企业在数据存储和部署的时候,有些时候容易交叉存储,把敏感信息一不小心部署到公开的或者不应该部署到服务器上,更容易加大隐私的泄漏。企业必须尽快开始规划新的数据保护,同时监测进一步的立法和监管的发展。

3.2 网络安全

随着越来越多的交易、对话、互动和数据在网上进行,这种刺激使得网络犯罪分子比以往任何时候都要猖獗。今天的网络犯罪分子都组织得更好、更专业,并具备有力的工具和能力,以针对确定的目标进行攻击。这种攻击产生的后果,对企业可能意味着声誉受损,法律责任,甚至财政破产。从近两年所发生的一些互联网公司的用户帐号的信息失窃情况来看,大家可以发现,一般失窃的量都是非常庞大的。大数据当中数据量比较大,它的信息量也比较大,攻击成本低,所以黑客更加乐意去攻击。

3.3 设备安全管理

携手大数据的增长的是新的移动设备使用范围的扩大,用于收集、存储、访问和数据传输。企业现在面临的企业员工在工作场所使用个人设备的安全管理挑战,必须平衡安全与生产力的需要。对员工习惯、使用痕迹的收集是企业信息安全重大威胁,尤其是当这些混合了家庭和工作数据。企业应当确保其雇员接受相关的个人设备使用政策,并继续在符合其既定的安全政策下管理移动设备。

4 云服务的数据安全

企业必须迅速采用和实施新技术的压力,比如云服务。经常面临大数据的具有挑战性的存储和处理的需求。而这其中包含了不可预见的风险和意想不到的后果。在云中的大数据对于网络犯罪分子来说,是一个极具吸引力的攻击目标。这对企业来说提出了更多的需求,他们必须采购战略正确的安全的云。

随着安全风险的越来越复杂,企业在应对这些安全风险时越发感到吃力。大数据安全既包括对大数据本身的安全保护,也包括通过对大数据的搜集、整合和分析,提供更多更好的安全情报。用户将数据上传到云,或从云中下载数据时,都需要扫描和屏蔽恶意数据;在云中,也需要通过定时扫描,检查和屏蔽恶意数据。企业或个人应树立良好的大数据信息安全观念,降低风险,减少损失。

[1]覃雄派;王会举;杜小勇;王珊.大数据分析——RDBMS与MapReduce的竞争与共生. 软件学报.2012年01期.

猜你喜欢

数据量离线海量
一种傅里叶域海量数据高速谱聚类方法
异步电机离线参数辨识方法
基于大数据量的初至层析成像算法优化
高刷新率不容易显示器需求与接口标准带宽
浅谈ATC离线基础数据的准备
宽带信号采集与大数据量传输系统设计与研究
海量快递垃圾正在“围城”——“绿色快递”势在必行
FTGS轨道电路离线测试平台开发
离线富集-HPLC法同时测定氨咖黄敏胶囊中5种合成色素
一个图形所蕴含的“海量”巧题