大数据及可信技术初探
2014-12-13刘畅
刘畅
摘 要:随着信息技术的不断发展,数据产生途径越来越广泛,数据量日益增加,人们对于“大数据”的研究越来越深入,但数据的有效性、安全性和可信性方面的保证技术却不是特别完善。本文阐述了“大数据”的相关概念、特征和数据产生的渠道,详细介绍了“大数据”的处理技术以及数据的可信技术。
关键词:大数据;可信技术;分布式;云计算
中图分类号:TP391;TP311 文献标识码:A
1 引言(Introduction)
从2010年开始,信息领域的词汇越来越丰富,“物联网”“云计算”等被人们所熟知,随着这些技术的不断深入“数据”也被“大数据”一词取而代之。“大数据”(Big Data)也有人称其为“海量数据”,它是一种数据巨大的非结构化或半结构化数据。首先,在数量上对于当前的数据库系统处理能力来说,是无法在合理的时间内对此类数据进行撷取、管理和处理的;其次,由于“大数据”不再是结构化数据,所以对于数据分析工作来说花费的时间会更加无法想象。
2 “大数据”是信息时代的必然产物("Big Data"is
the inevitable product of the information age)
随着物联网、云计算等技术的推进与发展,数据的产生途径越来越多样化,数量也在以人们无法想象的速度不断增长和堆积。当数据级从TB跃升至PB时,说明大数据时代已经来临。在咨询公司麦肯锡的报告《大数据时代到来》中首次提出了“大数据”的到来,报告中称“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来[1]。”
如此庞大与繁杂的数据究竟来自于哪里?可以说,从人类进入文明社会起没有任何一个时期能够像今天这样,每天都会产生无法计数的数据,这些数据不分形式,无所不在,无时不在!目前为止,数据库是数据管理的最为有效的方式,在这种方式下,数据的产生经历了以下几种模式:
(1)被动模式
这种模式下数据的产生都是被迫的,一般都是伴随着运营系统的运营而产生的,数据记录保存于运营数据库系统中。数据以文本为主,属于结构化数据。比如产品的销售记录、航空公司数据记录等。
(2)主动模式
这种模式下的数据大多都是用户自发的,是由在用户的意愿下主动产生的,像生活中比较流行的博客、微博、微信等,此类数据已不再是单纯的文字,更多的包含了图片、视频、音频等,数据类型多样化。
(3)自动模式
这种模式下产生的数据不再受人为因素影响,数据会通过感知式系统自动产生。随着物联网和云计算技术的不断发展,网络节点不再是单纯的计算机,传感器和智能终端的出现使得数据无时无刻不在产生,此时的数据就不再是简单的某一种类型或结构了,更多的是混合而复杂的,并且产生数据的速度也让我们无法想象的。至此真正的“大数据”产生了。
3 “大数据”的四V特征(Four V characteristics of
the "Big Data")
所谓的四V特征,是“大数据”与传统数据相比较体现出的四个特点,即:Volume—数量多、Velocity—速度快、Variety—类型杂、Value—价值大。
第一,数据量究竟达到什么样的程度才可以称其为“大”?网上公布的一组名为“互联网上一天”的数据足以说明这个问题。互联网上24小时内产生数据需要1.68亿张DVD来保存;互联网上论坛中一天的发帖量可以达到200万条,相当于《时代》杂志770年的文字总和。据国际数据公司(IDC)的研究结果表明,2009年全球产生的数据量为0.8ZB,2010年增长为1.2ZB,2011年达到1.82ZB,预计2020年,全球数据使用量将是现在的44倍,达到35.2ZB[2]。大数据的起始计数量被定级为PB。
第二,相对于传统的数据挖掘来说,当今的数据存在的最明显的特征就是数据处理速度快。在信息世界中,第一时间能够分析出数据的有效性,从而得到正确的处理结果,给社会和企业带来的利益是不可估量的;相反如能没能及时获取最新的数据,或对数据分析不准确,导致决策上的失败也是十分可怕的。
第三,正如此前所述,当今网络中节点类型的不断丰富,导致了数据类型的多种多样,再用结构化思想去定义当今的数据明显已经不适合了。
第四,一切事物的发展都是有规律可循的,我们可以从其发展的过程中得到相关数据,将这些数据收集在一起便可以绘制其发展轨迹、预计其发展趋势、总结其发展规律,帮助我们做出正确的决策,优化运作流程。但是,如何在海量的大数据中提取有用的数据,并对其加以利用是我们今后的努力方向。
4 “大数据”的关键技术(The technology of the
"Big Data")
对于“大数据”面言,它的处理流程和传统数据类似,主要包括采集、导入与预处理、统计与分析、数据挖掘等四个方面,其中以第三部分统计与分析最为重要。但由于“大数据”的特点决定其处理技术与传统的数据处理技术存在着很大的差异。
(1)分布式文件系统
谈到数据,首先要考虑的问题就是数据的存储,分布式文件系统为大数据的处理提供了最底层的支撑。Google公司最先研发了一种分布式文件系统GFS(Google File System),是一种基于分布式集群的大型分布式处理系统,它处理的文件大小一般都在100MB以上。但随着数据量的不断增大,数据类型的增多,加上海量“小数据”也存在其中,GFS已无法满足需求,继GFS之后产生了Colosuss、HDFS、Cloudstoret、Facebook研发的Haystack等分布式文件系统。endprint
(2)分布式数据库
随着数据种类越来越繁杂、数据数量越来越大,人们对数据库的设计理念也越来越符合实际,传统的数据库要求越简单越好,讲求的是“ONE SIZE FOR ALL”,而面对海量的非结构化数据,以Google为首的很多公司相继按照“ONE SIZE FOR ONE”的设计理念,研发出了自己的分布式数据库系统。这类数据库模式比较自由,支持简单的备份,拥有简单的应用程序接口,能够处理海量的数据。
(3)批处理技术
2004年Google公司提出了MapReduce批处理技术。这种批处理技术将数据源分成多个部分,每个部分都对应着一个初始值,按该值分配给不同的服务器进行计算,得到的结果再通过中间流程统一进行处理后传递给用户。这种批处理系统简化了数据处理流程,被广泛应用于数据分析、数据挖掘和机器学习等方面。
(4)云计算平台
云计算是大数据应用的最基础、最主要的平台,也是大数据分析和处理技术的核心部分。2006年Google公司最先提出了“云计算”的概念,但对于“云计算”的定义却一直没有定论。笼统地说“云计算”是一种大规模的分布式模型,通过网络将抽象的、可伸缩的、便于管理的数据能源、服务、存储方式等传递给终端用户[3]。
(5)开源计算平台
面对复杂的数据类型,不是所有的用户在开发程序之前都必须了解分布式系统究竟如何对数据进行撷取、存储和处理。Apache基金会为用户提供了一个能够让用户轻松架构和使用的分布式计算平台Hadoop。它是一个集分布式文件系统、分布式数据库以及批处理系统等模块于一身的高性能、可扩展、成本低的开源平台。其中HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。
5 “大数据”的可信技术(Trusted technology for
large data)
随着数据产生的非主动因素越来越强,数据的来源渠道越来越多样,给用户带来便利的同时,也带来了许多困扰。随着技术的发展,安全的问题和可信的问题,是和重大系统应用是相伴而生的,但是它确实是一个重要的问题。不仅是大量“杂质”数据出现,而且隐私数据的问题也非常重要。因此,在大数据时代当中,随着数据的分布性,异构性和动态快速变化性,加上个人拥有的质性,可计算的问题,可管理的问题,可信任的问题,共同组成了在大数据时代的新的三类问题。
首先要搭建一个可信的计算平台,解决云端的一体化的安全监控,系统的恢复,以及今后发展的高可靠性的能力。可信计算平台以可信平台模块TPM为核心。TPM是一个具有密码保护功能的芯片,由中央处理器、存储器、密码运算处理器、随机数产生器和I/O等部件组成。主要用于完成可信度量的存储及报告、产生密钥、签名加密、数据安全存储等一系列安全信任工作。这部分是由物理设备实现的可信技术[4]。
可信平台中还包括可信存储和可信网络。可信计算工作组在可信存储规范中提供了可靠的实现全磁盘加密的方法,采用自加密驱动器来简化数据的加密过程,通过自加密驱动实现加密和认证功能[5];可信网络连接TNC主要提供网络安全和网络安全访问,网络管理员能够根据用户级别和当前设备进行状况控制网络访问,监视网络运行状况,一旦出现异常情况可以马上做出反应。
当然,在这样一种可信平台的基础之上还有需要有其他的可信技术来解决大数据的安全问题。
(1)用户的身份认证
网络中的用户要在得到身份认证和访问允许的条件下才可以对数据进行访问。TNC可以实现这方面的功能,它可以利用存储在TPM中的硬件证书来保护系统中的信息。
(2)限制访问权限
按照用户访问系统中的数据及服务,将用户分为不同的类别,对不同类别的用户分配不同的访问权限,这样用户即可以访问资源又不会对其他数据进行干扰,从而降低了访问模型的复杂性。
(3)追踪用户行为
可信计算系统中的所有用户都有其独特而详细的个人信息,用户只有通过TPM的密钥验证后才可以对系统进行访问和操作,与此同时可信计算系统会对用户的访问和操作进行追踪和记录,确保资源的安全环境。
(4)系统的合规性保证
对于用户来说网络中的资源并不是完全透明的,用户会非常担心自己上传到网络中的数据是否安全。可信计算系统在服务端安装了监控装置,监控装置在对数据访问用户的身份、访问和操作进行合规性审计,然后向数据属主提供相关证明,数据属主也可以收到监控装置提供的数据使用合规性描述。
6 结论(Conclusion)
目前对于大数据的研究还处于初步阶段,有一些技术还不是特别成熟,有许多问题有待我们去解决,但无论怎么样,大数据时代已经来临,如何利用好大数据,如何保证数据的安全可靠,如何从数据中获取我们所需要的信息,从而揭示事物的发展规律,都需要我们更加深入的研究。
参考文献(References)
[1] ARMBRUSH Michael,ARMANDO Fox.Above the clouds:a
Berkley view of cloud computing[R].eecs Department University
of California Berkeley Tech Rep UCBEECS200928,2009:25.
[2] MELL Peter,GRANCE Timothy.NIST special publication
800-145,the NIST definition of cloud computing[S].
Gaithersburg,MD:NIST,2011.2012-12-12http://tech.xinmin.
cn/2012/12/24/17789537.html.
[3] SINGH Amardeep,VERMA Monika.Attacks and security in
cloud computing[J].Internetional Journal of Advanced
Engineering &Application,2011(1):300-302.
[4] 大数据技术大会.http://special.csdn.net/bdc2011/index.html.
[5] 严霄风,张德馨.大数据研究[J].计算机技术与发展,2013,
23(4):168-172.
作者简介:
刘 畅(1978-),女,本科,副教授.研究领域:程序设计教
学,物联网技术应用.endprint