大数据环境下计算机信息处理技术的应用及实践要点分析
2016-01-19李海燕
李海燕
摘 要:首先简要阐述了大数据与计算机信息处理技术,然后在此基础上论述了大数据环境下计算机信息处理技术面临的挑战及其应用实践,希望能对数据信息加工处理效率的提升有所帮助。
关键词:大数据;计算机;数据存储;数据挖掘
中图分类号:TP311.13 文献标识码:A DOI:10.15913/j.cnki.kjycx.2016.01.156
1 大数据与计算机信息处理技术概述
1.1 大数据
大数据在业内又被称为“巨量数据集合”,具体是指在可承受的时间范围内无法借助常规软件工具进行捕捉、管理和处理的数据集合。大数据具有如下特征:①容量大,均为PB级以上;②种类多,数据类型多种多样;③速度快,获取数据的速度非常快;④真实,数据本身的质量较高;⑤复杂性,数据来源的渠道较多。
1.2 计算机信息处理技术
计算机信息处理技术是一项综合性技术,具体包括通信、微电子、网络等技术。计算机的信息处理过程非常复杂,所以该技术成为了数据获取、传输、分析和处理的综合体。大体上,可将该技术分为检索技术、信息系统技术、通信网络技术和数据库技术这几种。它可以整合数据资料,然后存储有效信息。
2 计算机信息处理技术面临的挑战
在大数据环境下,计算机信息处理技术的发展面临着严峻挑战,具体表现在以下几个方面:①巨量的数据信息要求具备足够的储存空间以及高效率的压缩技术和数据传输技术。②数据挖掘要满足全面性和可信度高的要求,然后要对数据进行分类,以便于信息检索,并要求数据处理结果可视化。③数据流的增多导致网络黑客越来越多,对用户信息的安全构成了威胁,所以必须重视对信息安全防护技术的研发。同时,为了保证大数据的安全,要求计算机信息处理技术能够在处理信息的同时,实现对网络环境的跟踪监控,有效防范网络黑客的恶意攻击。④在大数据环境下,必须提高计算机对海量数据的处理能力,并要求网络运营商提升硬件设备的性能和网络宽带的传输速度。⑤有价值的数据信息往往隐藏在海量信息中,为了快速提取这部分信息,就必须提高计算机的信息处理能力。⑥大数据的容量大、结构复杂,所以必须优化、创新计算机网络结构,加快计算机与网络融合的速度,以保证数据的高效存储和传输。⑦大数据时代的发展需要一大批高素质的计算机专业人才。
3 计算机信息处理技术的应用实践
在大数据环境下,计算机信息处理技术的应用具体体现在如下几个方面。
3.1 深网数据感知与数据获取
这里所指的“深网”(DEEP WEB)又被称为“网络深层空间”,最为突出的特点是数据信息的规模较大,且所有的信息均呈动态。它的访问方式较为特殊,数据信息十分分散。通过对网络深层空间数据的利用,可以实现高质量的数据集成,从而高效地完成数据信息的抽取和整合。
3.2 分布式数据存储
由Google公司研发的GFS(可扩展的分布式系统)技术是分布式数据处理的核心,其主要应用的是列存储的概念。这种存储方式以列为单位,与传统的行存储相比,它在数据压缩上更方便,并且循环速度较快。目前,较为流行的存储技术为行列混合式储存,它可以在较短的时间内以较快的速度加载海量数据信息,大幅缩短了信息查询时间,使磁盘空间得到了高效利用。在具体应用该技术时,应注意对数据分布的优化,以提高数据的存储效率和处理效率。
3.3 数据索引
Big Table(非关系型数据库)是当前比较主流的一种数据索引技术,同样是由Google公司研发的。聚簇和互补式索引是现阶段研究的热点课题,前者是指根据索引的先后顺序对全部的数据进行存储;后者则是以多副本为数据索引列创出互为补充的索引表。在这两种索引方式的基础上,结合查询结果估算方法,便可实现对最优数据查询的计划。
3.4 基于信息内容的数据挖掘
基于信息内容的数据挖掘主要应用了两项关键技术,分别是网络搜索技术和实体关联分析技术。目前,网络信息搜索的热点是排序学习算法。排序学习算法主要是针对大数据中半结构化数据的社会媒体信息量提出的,包括逐点算法、逐对算法和逐列算法。在这一应用领域中,关注的数据具有短文本的特点。在国内的很多行业中,均存在数据量大、信息缺乏的现象,而应用基于信息内容的数据挖掘可以使这一问题得到有效解决,有利于推动行业的发展。
3.5 分类数据与聚类数据分析
分类数据的理论基础是最大似然估计和其他可供选择的估算方法,具体是指将数据点进行归类处理,在此基础上确定出新的数据点,然后在明确假设和客观结构后准确预测客户的行为。分类数据又被称为“名义数据”,是社会科学研究的重要内容,其数据信息具有单一性的特点,即只能代表数据类别。依据每个类别的数量,分类数据能够分析出不同类别数据之间的关系。
所谓“聚类数据分析”,是指将物理或抽象对象的集合分组为由类似的对象组成多个类的分析过程,主要目标是在相似的基础上对收集到的数据进行分类。很多领域都需要应用到聚类技术,例如数学、统计学、经济学和计算机科学等。聚类数据分析能够对数据进行描述,衡量不同数据源之间的相似性,并将数据源分类到不同的簇中。
4 结束语
总而言之,在大数据环境下,计算机网络朝着云计算网络的方向发展已经成为一个必然趋势。由于现有的网络架构主要是以计算机硬件为基础,局限性相对较大,因此,要充分利用数据信息处理技术,并通过重新定义网络架构,使网络中的数据信息与硬件分离,这样计算机信息处理技术才能不再依靠硬件设备,而只要通过网络就能实现连接,满足大数据环境的要求。
参考文献
[1]王东滨,智慧,余翔湛.网络数据实时处理中的多线程内存管理技术[J].网络与信息安全技术,2012(7):163-165.
[2]赵卓峰,马强,房俊.针对高速数据流的大规模数据实时处理方法[J].计算机学报,2012(5):78-79.
[3]常明迪.网络环境下的计算机信息处理与安全技术分析[J].计算机光盘软件与应用,2013(9):56-57.
〔编辑:王霞〕