大数据时代背景下的计算机信息处理技术探讨
2016-05-14孙红云
摘 要计算机技术与信息技术的发展给信息社会的发展提供了动力,同时也促进了大数据时代的到来,通过对大数据的概念和特点进行分析,介绍了大数据时代计算机信息处理技术面临的挑战与机遇,并对大数据时代计算机信息处理的关键技术进行分析,以实现不断完善计算机信息处理技术的目标。
【关键词】大数据 计算机技术 信息处理
随着信息技术、数据化的发展,对于数据与信息的生成和处理成了人们生产与管理过程中的重要组成部分。计算机技术的发展,促进了数据的搜索、存储和交换技术的发展,大数据时代的到来,给人们提供了丰富的信息资源和信息处理技术。
1 大数据的概念与特点
1.1 大数据的概念
所谓的“大数据”,就是信息的数据量巨大,由于需要处理的数据十分庞大,目前的计算机主流软件在短时间内无法实现对其进行获取、处理、存储、传输、管理等方面的功能,它不仅包括数据量大,同时还包括数据比较难以处理、复杂多样,同时在处理的过程中,还会出现数据处理的重复性。对于大数据的数据量大到什么程度,目前还没有一个统一的标准,一般认为数据量在10TB-1PB(1TB=1024GB,1PB=1024TB)以上的数据为大数据。
1.2 大数据的特点
1.2.1 数量大
大数据的产生是基于大量数据信息处理而产生的,需要运用计算机技术处理数据的量越来越大,从TB及已经发展到PB技术的数据处理。
1.2.2 种类多
随着信息技术在生活应用中普及,人们对信息的需求也越来越多样化,信息数据的来源也变得多样化,结构化和半结构化的原始数据也出现了多样化,使得大数据呈现出多样化的发展趋势。
1.2.3 速度快
海量的数据,就需要高速度的对数据进行处理,这样才能满足使用者对信息数据的需求,如果大数据的处理出现滞后,将不利于信息的传播与扩散。
2 大数据背景下计算机信息处理关键技术分析
2.1 DEEP WEB数据感知与获取技术
它是利用网络深层空间技术对网络中的信息进行抽取、分析和集成。主要数利用信息数据的动态变化、信息的规模、数据的分布式处理与访问技术,对网络数据进行处理和分析,实现对数据的高质量集成、抽取和整合。
2.2 分布式处理技术
分布式数据处理主要是由谷歌公司提出的GFS技术来实现数据的分布式存储和处理。它利用存储列的概念,以列为单位对数据进行存储,具有数据压缩快,循环利用效率高,采用行列混合是存储结构,能够快速加载海量数据和缩短数据查询的时间,同时也能够高效的利用磁盘空间。目前,分布式处理技术在百度、IBM得到了广泛的应用。
2.3 数据高效索引
该技术是谷歌公司提出的BIGTABLE技术,目前主要集中在聚簇索引和互补式聚簇索引技术的研究。聚簇索引技术是按照索引顺序技术对相应的技术进行处理,互补式聚簇索引主要采用多副本索引技术创建相互补充的数据建立数据索引表,进而实现对数据的优化查询。
2.4 基于内容信息的数据挖掘技术
基于内容的数据挖掘技术主要是依据网络搜索技术和信息实体的关联技术对数据进行分析挖掘。例如网络信息搜索的热点排序学习算法主要针对媒体的信息量和信息数据的关注特点、短文本特征实现对数据的搜索等,目前常见的学习算法有逐点,逐对和逐列等几种算法。
2.5 遗传算法和神经网络技术
遗传算法主要是依据生物界的进化发展规律和数据演化随机化的数据搜索办法实现对数据的搜索,遗传寻优办法采用概率化,实现对数据搜索方向的自动调整。目前,遗传算法技术在机器学习、信号处理与物流选址等方面得到了广泛的应用。神经网络主要采用生物神经网络结构的运行方式,模拟生物运动神经的网络行为,对数据进行分布式处理的算法。
2.6 分类和聚类分析技术
分类分析技术首先是对信息的数据点进行归类分析,然后通过综合之后形成新的数据点之后,对数据点进行明确的假设和客观结构预测,然后预测未来信息的发展。聚类分析技术主要是在没有明确数据点的前提下,将数据集合分为若干个对象组,通过对对象组的数据进行分析,实现对数据的综合查询。分类分析和聚类分析技术在数据挖掘方面应用的比较广泛。
2.7 关联规则学习和机器学习技术
关联规则学习技术就是在复杂的数据处理过程中,通过排序、对比等方法寻找到数据之间的关联规则,是指在数据处理的过程中,找到数据之间的关联规则,进而能够实现对重复数据的筛选。而机器学习主要研究计算机模拟人类学习的智能技术,对现有的信息知识体系进行重新组织,它是人工智能的核心技术,在数据处理时,关联规则和机器技术主要运用在数据挖掘技术中。
2.8 数据分析技术
数据分析技术在数据处理中应用比较广泛,它主要包括情感分析技术、网络分析技术、空间分析技术、数据时域序列分析技术以及数据回归分析技术,该技术在大数据处理中具有十分重要作用,其中,情感分析技术采用对自然语言进行编码分析的技术,网络分析技术就是基于网络的特征对数据的特征进行分析。空间分析技术就是将网络拓扑、几何和地理数据编码技术有机的融合在一起,对数据进行综合分析的统计技术。
2.9 可视化技术
可视化技术主要功能是在对大数据进行分析和处理之后,能够通过图片、动画、图表等方式表示出来,便于人们进行沟通、交流与理解。例如Clustergram是可视化技术,它采用聚类分析技术,对数据进行处理,然后显小数据集的个别成员是如何经过数据处理后分配到大的信息集群中。
3 小结
大数据时代对计算机信息处理技术提出更高的挑战和要求,需要采用比较复杂的信息技术对海量的技术进行分析,需要运用计算机技术建立真正适应大数据时代的网络系统和信息处理系统。通过对大数据处理中运用的关键技术进行分析,能够为相关研究领域的人们提供参考。
参考文献
[1]李春辉.“大数据”背景下的计算机信息处理技术分析[J].电子技术与软件工程,2014(9):33-34.
[2]吕敬全.“大数据”时代背景下计算机信息处理技术分析[J].信息与电脑:理论版,2013(6):19-21.
[3]刘银龙.“大数据”背景下的计算机信息处理技术分析[J].电子技术与软件工程,2015(1):206.2
作者简介
孙红云(1979-),女,山东省临沂市人。大学本科学历。现为临沂职业学院讲师。研究方向为计算机技术应用。
作者单位
临沂职业学院 山东省临沂市 276017