APP下载

大数据时代网络信息处理技术研究

2020-12-06孙也

河南科技 2020年28期
关键词:网络信息处理技术大数据

孙也

摘 要:本文从大数据的定义和技术特征出发,分析了大数据环境下网络信息处理技术的难点,进而概括了大数据时代网络信息处理技术的发展。大数据的应用为网络信息的处理带来了机遇,同时也造成了技术困境。我们应当从基础设施、存储管理、分析算法等多个方面进行探索,为大数据环境中的网络信息处理提供新的手段和方法。

关键词:大数据;网络信息;处理技术

中图分类号:TP311.13 文献标识码:A 文章编号:1003-5168(2020)28-0048-03

Analysis of Network Information Processing Technology in Big Data Era

SUN Ye

(Tianjin Vocational and Technical College of Urban Construction Management,Tianjin 300134)

Abstract: Starting from the definition and technical characteristics of big data, this paper analyzed the difficulties of network information processing technology in big data environment, and then generalized the development of network information processing technology in big data era. The application of big data brings the opportunity for the network information processing, but also causes the technical predicament. We should explore from infrastructure, storage management, analysis algorithm and other aspects to provide new means and methods for network information processing in big data environment.

Keywords: big data;network information;processing technology

當前,大数据作为新生事物在各行各业得到了广泛应用,引起了学术界、业界及政府部门的高度重视。人们通过对大数据进行有效管理,提取分析其价值,能够为不同行业提供具有极高价值的服务,从而产生经济效益和社会效益。但是,海量的信息使得传统的网络信息处理技术难以适用,因而,在大数据环境下,有必要探索更有效的技术手段来处理网络信息,以创造更大的价值。

1 大数据的基本定义及其技术特点

1.1 大数据的定义

关于大数据的概念,学术界并未给出一个量化的界定,当前的有关概念都是从数据规模和支持软件处理能力的角度所给出的定性说明。比如,有学者指出,大数据是指使用传统技术和工具在一定时间之内难以获取、保存和处理的数据集;有的学者认为,大数据意味着数据集在规模上已经超出了过去的数据库工具的存储、管理和分析能力。这些概念主要是从规模的角度对大数据进行界定的,但我们应当认识到,大数据还意味着人们从远超以往想象的数据中快速获取有价值信息的能力,这才是大数据对人类社会所具有的深层次价值。实际上,当前人们在各个行业使用“大数据”一词已经不仅限于其庞大的数据规模,更代表着信息科技的进一步发展,意味着对网络数据进行处理的新技术和手段。

1.2 大数据的技术特征

一是数据规模庞大。大数据一般指在10 TB(1 TB=1 024 GB)规模以上的数据量[1]。当前,跨国互联网企业所储存的数据量已达到了ZB量级。二是数据具有多样性的特点,其包括结构化、半结构化/非结构化等多种格式,能满足不同应用场景的需求。三是数据处理的及时性,即大数据利用具有时效性,其数据处理应当满足一定的响应性能要求。四是数据处理结果的准确性,也就是说,不能为了确保数据处理的及时性而损失处理结果的精确性。五是深度价值,指的是大数据具有较大价值,需要根据具体需求对数据加以分析和挖掘。

2 大数据时代网络信息处理的难点

2.1 技术综合性、交叉性强

在大数据环境中,网络信息处理一般可以看作是完整的技术栈,包括集成大规模硬件资源和基础设施管理、分布式存储管理、并行计算、分析和挖掘以及应用服务。因而,大数据环境中网络信息处理具有较强的技术整合和学科交叉的特点。

2.2 传统计算方法和系统失效

随着大数据的普遍应用,传统的计算技术受到了挑战。海量的数据计算意味着要消耗大量的时间,因此,利用传统的计算手段很难在短时间内完成对大数据的计算分析工作,而且对设备的性能提出了较高的要求。

2.3 应用需求驱动特性

当前,多数行业都应用了大数据,因此,在网络信息处理过程中,应按照各个行业应用的现实场景,结合企业或个人的应用需求,解决网络信息处理遇到的技术难题,以提升不同行业的信息处理能力,挖掘特定行业大数据所具有的深层次价值。

3 大数据时代网络信息处理技术的探索

3.1 大数据时代网络信息处理技术框架

第一,大数据处理基础设施和资源管理。随着新兴信息技术的快速发展,数据呈现出爆炸性增长态势,这使得各行各业对大规模计算和存储资源的需求上升。因而,对大数据的网络信息处理就需要配备大规模的基于集群的设施和设备。当前,多数企业为了在高效处理网络信息的同时降低成本,一般采用通用化的硬件架构,基本上可以满足自身大数据处理对计算和存储资源的要求。普通企业利用价格低廉的商用服务器建立起集群系统,避免耗费大量资源用于建设大型并行计算系统。这已经成为大数据时代多数企业网络信息处理基础设施的共同选择。有的企业为了满足自身处理密集型任务的实际需要,还在系统中增加了GPU。

第二,大数据分布式存储管理技术和系统平台层。在大数据处理基础设施和资源平台建立之后,处理网络信息首先要解决的是海量信息数据的存储管理问题。在大规模集群的条件下,为了提升网络信息的存储和并发访问能力,很多企业使用了可扩展的分布式存储技术,这种技术能用于存储和管理海量的信息数据。

第三,大数据并行计算方法和系统平台层。在分布式存储大数据管理问题解决之后,企业往往需要即时有效地计算分析已经存储的网络信息。而当前庞大的数据量使得过去所采用的串行计算方法难以在短时间内及时完成对网络信息的处理。如果不采用新的方法,网络信息处理效率就难以保证,因而,很多企业开始建设大规模的数据并行计算技术和系统平台。为了提升网络信息处理的效率,近年来,一些企业已经开发出各种类型的大数据并行计算模型和框架,如Apache Spark,其受到工商企业的大量应用,而且已经成为新一代主流的大数据并行计算系统。

第四,大数据分析方法和算法层。在解决分布式存储和大数据并行计算问题之后,为了解决网络信息的分析与应用问题,就需要确定信息分析的基本算法和包括机器学习基本算法在内的各种综合分析模型和分析算法,开发出基于大数据框架的并行计算与数据挖掘并行算法,以及各种综合复杂分析并行算法。由于行业的差异性,除了上述基础数据分析算法之外,实践中还需要使用更为贴近上层具体应用和领域问题的综合分析模型和算法,以用于商业智能分析、社交网络分析、自然语言处理等,满足各个行业的需求。

第五,大数据分析应用层。在实际工作中,在基于大数据的存储、计算、分析等主要技术方面,各种网络信息分析应用的种类繁多,包括银行所应用的金融信用分析、政府所应用的互联网舆情分析和智能交通管理等。基于大数据的网络信息分析应用系统能够被用在不同的行业中。对于网络信息处理来说,由于行业不同,就需要按照行业的差异提供不同的操作环境和工具平台。而且,由于基于大数据的网络信息处理具有较强的行业特性,还需要不同领域的专业人士归纳本行业应用大数据的具体需求,这样才能建立网络信息处理的不同商业模式。这些模型的构建离不开深厚的专业素养和职业能力,没有特定行业领域专业人士的参与,一般是难以在短时间内完成的。只有工作人员充分掌握所在领域应用大数据存在的问题以及业务模型,技术人员才能按照具体的行业需求有效地设计和开发出有关的网络信息处理系统。

3.2 大数据时代网络信息存储管理技术

在大数据环境中处理网络信息先要解决信息的安全存储管理问题。目前,在实践中所使用的数据格式主要包括非结构化、结构化和半结构化等。按照数据存储格式的差异,我们可以把存储管理系统分为两种类型,即分布式文件系统和分布式数据库系统。前者针对的是非结构化数据,而后者则通常对半结构化/结构化数据进行存储。相较而言,前者在工商业领域得到了较多的应用,促进了信息数据存储和共享的安全性。在开发分布式文件系统时,设计者需要顾及多种因素,包括系统的易用性、计算框架的优化等。一般而言,分布式文件系统的设计需要重视下列几方面技术的应用:可扩展性、可靠性、性能优化、易用性及高效的元数据管理。

第一,可扩展性,指的是分布式文件系统能较好地适应大规模的数据分布环境。为了在大数据环境下管理和维护大量的文件数据,这种文件系统一般要应用大量存储节点来分散文件数据,因而出现故障的可能性较低。按照现有的技术条件,一个具有良好可扩展性的分布式文件系统可以在一个拥有数百甚至数千个节点的集群环境中运行。此外,分布式文件系统的可扩展性还包括支持动态添加或删除一个或多个存储节点,以实现动态扩展/减少和平衡负载的目的。

第二,可靠性,指分布式文件系统能提供具有较高可靠性的文件存储和管理服务,用户不需要担心企业或个人的数据信息会出现丢失的现象。但需要注意的是,分布式文件系统的规模愈大,产生问题的可能性就愈高。因而,不同的分布式文件系统都有自己的容错机制,可以在短时间内恢复丢失的信息数据。

第三,性能优化技术。分布式文件系统的数据读写访问除了耗费正常的本地磁盘访问时间之外,通过网络传输信息数据也需要耗费一定时间。在开发这种系统时,读写访问性能优化也是需要重点关注的技术问题之一,这对提升网络信息处理的效率具有关键性作用。

第四,使用方便,指分布式文件系统便于各种类型用户的使用,向用户提供一个统一的文件系统名称空间,隐藏底层的实现细节。与过去的单机文件系统比较,分布式文件系统应用的场景更加广泛,因而系统一般会为用户和应用提供多样化的访问方法及接口,从而实现在各种场景中的兼容性。

第五,高效的元数据管理。在分布式文件系统应用中,元数据的访问性能是决定系统整体性能的关键。我们可以将元数据管理划分为不同的架构,即分布式和集中式。前者是把元数据分布存储放在不同的节点上,从而化解单元数据服务器可能存在的性能不足的问题。其中,有一种分布式元数据管理架构可以直接使用线算法或规则组织数据存储,无须使用专门的元数据服务器。但这种架构也存在一定的缺点,其实现较为复杂,维护数据困难,操作效率相对较低,而且缺少对文件系统的全局监控和管理功能。而后者则采用单一的元数据服务器,系统构建较为简单,维护比较方便,但相对于前者来说,更容易在运行过程中出现单点故障。

3.3 大数据时代网络信息分析方法

对于大数据而言,其重要特征之一是深度价值,而分析算法和系统正是挖掘出数据深度价值的重要手段。在现有的分析算法和系统中,机器学习和数据挖掘算法是广泛应用的基本算法,已经在企业和政府管理中得到了重视。在大数据环境中,过去的串行化机器学习算法难以在较短的时间内实现对网络信息的处理,因而不易在较为复杂、多样的应用场景中运行。在这种情况下,全部串行化机器学习算法都应改用并行设计。机器学习算法常用的并行化方式可以分为数据并行化和模型并行化。前者是网络信息分析并行化应用较多的类型,对大规模训练数据进行划分,每个计算节点承担一个子数据集的训练。在训练过程中,使用一定的同步模型对不同计算节点上的模型进行同步更新。而大数据机器学习系统则是机器学习算法设计和大规模系统的跨学科研究课题。为了建立这一系统,需要投入资源研究机器学习算法,如改进机器学习模型,以提高分析和预测结果的准确性。与此同时,因为数据具有规模巨大的特点,机器学习系统还应当应用分布式并行大数据处理技术,这样才能高效率地完成整个计算过程。因而,大数据机器学习系统具有综合性的特点,兼具机器学习和大规模并行处理能力。

4 结语

大数据的应用给网络信息处理带来了巨大的发展机遇和挑战。一方面,海量的数据资源蕴含着巨大的商业价值和社会价值。有效地管理和利用这些网络信息,挖掘网络信息隐含的深層价值,将对社会治理、企业管理和个人生活产生深刻的影响。近年来,随着工业界和学术界的积极推动和研究,基于大数据网络的信息处理技术在各个层面都得到了广泛应用。然而,面对日益快速发展的大数据应用需求,网络信息处理技术仍然存在一些技术瓶颈需要解决。在互联网世界中,大数据具有格式多样、形式复杂、规模庞大的特点,仅仅依靠过去的网络信息处理技术难以实现对数据的高校处理。因而,应当从信息处理技术的多个方面进行探索,为大数据环境中的网络信息处理提供新的路径。

参考文献:

[1]耿冬旭.“大数据”时代背景下计算机信息处理技术分析[J].网络安全技术与应用,2014(1):21-23.

猜你喜欢

网络信息处理技术大数据
网络信息下高中生投资理财观念培养
透视网络信息对中国共产党和政府的隐性攻击分析方法研究
浅析城市生活污水处理技术现状及发展趋势
Java千万级别数据处理与优化
基于大数据背景下的智慧城市建设研究