基于大数据的计算机信息数据处理技术研究
2022-10-12陈浩魏宇鋆刘旭阳
陈浩 魏宇鋆 刘旭阳
北京计算机技术及应用研究所 北京 100854
1 大数据技术的主要内容概述
当前常用的大数据技术,包括Hadoop文件系统架构、SOA服务体系、HDFS分布式存储等。其中Hadoop分布式数据处理架构,属于大数据云计算系统的平台即服务层,包括Collect(汇总)、Map(映射)、Reduce(归约)等组成部分,主要秉持着先进先出的动态化任务调度理念。针对已搜集的海量化数据信息,利用Map映射函数建立两组数据的映射规则,并向多个主节点、从节点的任务处理需求,动态分配虚拟主机,实现某一数据类型的映射、归约操作。之后SOA服务体系为面向服务的组件模型,通常包含服务工作流、服务接口、服务注册、服务访问和服务查找等组件。该服务架构通过TCP/IP网络通信协议、定义的I/O接口,将某一应用程序的多个功能服务单元进行连接,并将多个分布式的服务组件进行封装,为用户提供需要的Web数据发送与接收、业务处理等的服务[1]。最后,HDFS分布式存储是以分布式形式,对互联网中海量化的数据信息进行存储,主要包括数据资源管理、存储等节点。HDFS的存储单元为每个数据块(block),而数据节点(Data Node)、元数据节点(Namenode)负责数据信息的写入和读出,其中数据块的单个最小存储单位是64Mbits。在HDFS文件系统HDFS框架的中心服务器,收到外部客户端的数据访问请求后,可以通过数据节点、元数据节点对数据访问、目录创建和数据存储等进行出控制,实现对不同数据资源的处理与存储。
2 计算机信息处理技术所面临的挑战
虽然大数据时代的到来,为计算机信息处理技术的发展提供了条件,但是在此过程中还出现了一些新问题,这对计算机信息处理技术的有效应用产生了严重影响。再加上人们对数据处理的要求比较高,这就需要加快对信息处理技术的研发和创新,为计算机在大数据时代下的发展提供条件[2]。同时,在对大数据的特点进行分析时,发现其在数据容量和内部结构上等也会出现变化,如果应用以前的技术对信息数据进行处理,会影响数据整合的准确性。其次,计算机软件在稳定的运行过程中,会遭受到病毒的攻击病毒入侵主要针对计算机中所储存的保密信息。如果在对该信息进行存储和使用的时候,受到病毒的入侵,就非常容易泄露其中的数据。虽然应用计算机信息处理技术可以对网络中的数据进行整合和处理,但是黑客在此背景下也非常容易侵入用户计算机中,这影响了计算机运行的有效性。因此,在对大数据进行处理时,不仅要保证大数据的安全性,还需要结合用户的不同需求,实现对计算机信息处理技术的开发和应用。优化互联网环境,对其进行综合性和全方位的监控,对其中的信息进行科学判断,避免网络恶意攻击对大数据的影响,从而为计算机信息处理技术的有效应用提供条件。
3 计算机数据信息处理涉及的大数据关键技术
3.1 数据挖掘技术
大数据挖掘技术是对网络海量数据资源,进行快速收集、筛选、处理与存取的技术,通常利用关联分析、聚类分析等的数据挖掘算法,对存在关联性的、有价值的数据内容作出挖掘。当前网络数据信息处理中用到的大数据挖掘技术,包含数据获取、数据预处理、数据清洗、数据变换和数据评估等内容,各功能模块分别负责多个数据挖掘步骤的执行。
3.2 数据存储技术
最近几年,比较流行的GFS技术,其原理主要是借助分布式形式,对计算机中的信息进行存储。在技术中,比较关键的是BIM技术,这种技术的存储形式为行列混合式,能够在确保增加各类数据信息的基础上,不断提高数据信息的存取效效率[3]。在对此技术的特点进行分析时,发现其可以减少数据信息处理和查询的时间进而实现对相关数据信息进行有效存储和处理。
3.3 分布式计算技术
分布式计算为多种Agent技术、Web service技术等融合的计算技术,其可以通过中间件为不同数据传输与处理、软件应用执行提供支持。在利用分布式计算技术对海量数据信息进行处理过程中,会将复杂的数据处理步骤,分解为若干个小的软件处理任务,再依托于虚拟化计算机硬件资源,多种数据处理任务分配相应的元数据节点,不同节点负责特定的资源调度、分布式任务执行,因而使用虚拟机进行数据批量处理的效率更高、成本更低。
3.4 数据检索技术
由于在大数据的时代下,会出现大量的数据信息,所以用户想要在此背景下保证相关技术的灵活性,需要注意对数据检索技术的有效应用。此技术一般是依靠Big Table技术所应用的计算机信息处理方式。在此基础上,用户们只要依照此类技术所指定的程序开展操作,就可以获取自己想要的结构,实现对整体数据结构的优化,保证检索结果的准确性。
4 大数据技术在计算机数据处理中的应用流程研究
4.1 数据采集
大数据技术支持下的数据信息处理系统,包括数据采集、数据读取、数据预处理、虚拟化资源调动、数据分析等的执行流程。当前局域网络中的计算机数据信息采集,通常涉及经营资本、财务流转、业务执行和人力资源管理等的数据,特别在大量临时文件、数字文档或日志信息采集的过程中,需要先验证信息来源的安全性准确性[4]。基于Hadoop分布式文件系统的数据信息采集模块,主要利用Sqoop、Flume等数据采集工具,进行网络海量化数据资源的采集,再使用SQL语句将现有数据信息,传输至后台服务器、数据库的硬件端口。
4.2 储存数据信息技术
在当前的社会发展中,数据信息爆炸,海量的数据一般需要应用计算机技术对其进行储存。这就需要对计算机自身的储存性能提出更高的要求,不断强化数据信息储存能力。在对目前的信息处理技术发展情况进行分析时,发现要想实现对复杂互联网数据信息的有效处理,需要加强对各种信息技术的有效应用,实现对相关数据信息的有效储存,不断扩大计算机的存储容量。然而,我国计算机在对数据信息进行储存时,传统信息储存技术等方面还存在一定的局限性。如,一些智能手机中的内存,并不能满足多样化数据存储的要求,这会导致手机在应用一段时间后出现卡顿等现象。因此,相关的学者要不断提高数据信息存储的性能,加强对信息技术的有效应用,优化数据信息储存流程,从而在此基础上进一步提高计算机的信息处理能力。
4.3 计算机信息安全保护技术的发展和分析
网络数据信息安全的保护始终是社会各界高度关注的话题之一。随着大数据时代的到来,数据信息泄露问题逐渐凸显出来,即使是非常简单的一条个人信息或者手机短信都可能隐藏着大的安全隐患。而一旦出现用户信息被泄露等情况,人们的财产安全就会受到威胁,甚至会影响社会稳定。因此,在大数据时代背景下,使数据信息处于安全状态,加强数据信息安全保护工作是相关技术人员工作的重中之重。相关研究人员不仅需要构建完善的计算机信息安全保护机制,而且需要严格把关计算机硬件设备,做好数据的检测和维护工作。除此之外,相关企业需要加强代理服务器的建设,在带有风险的数据信息进入网络之前,就对其进行有效拦截,进而更好地防止各种信息安全问题的发生。大数据时代下,人们使用云支付的次数越来越多,这就需要相关企业严格把控支付硬件设备的质量,在网络上建立计算机信息安全保护机制,充分确保支付安全,确保个人信息的安全。
4.4 数据处理
数据预处理模块通常采取均值法、平滑法等处理方式,对广域网或局域网的网络空间中,存在的错误、冗余度高数据信息作出处理,主动过滤掉带有噪声的、重复性的、空值的数据,对网络数据预处理的计算公式为R=Qq+Ww+Ee。在完成企事业单位的数据信息采集后,可以依托大数据云服务平台的虚拟化资源池,设置时间系数Q、负荷系数W、缓存系数E,并设定时间系数Q的A1、A2和A3预设值,以及负荷系数W的B1、B2和B3预设值,缓存系数E的C1、C2和C3预设值。然后根据虚拟化资源池中不同数据处理任务的不同权重,分配预设值q、w和e(q<w<e)。将多种数据信息的处理任务代入以上公式,得出海量大数据的与处理结果,并将数据处理的R值与原始预设值r作比较,若R≤r则生成并输出正常的数据处理信号。
4.5 云技术的应用
在对计算机信息处理的形式进行分析时,发现云数据集中性强、数据信息大,对计算机系统的性能要求更高。这就需要相关学者要对计算机中的各种硬件进行改进,结合计算机的实际运行情况,科学应用各种处理技术。云技术作为大数据时代下的新产物,其不仅能够满足计算机技术应用的需求,还能够实现对相关数据的整合。在此过程中,还可以通过对云技术的应用,实现对信息的采集,对信息进行集中处理,及时解决计算机运行中的问题,进而在根源上不断强化计算机的处理能力。
4.6 虚拟化资源任务调度
整个大数据信息处理过程中的虚拟化资源调度,主要针对不同数据信息的业务处理需求,选择合适的分布式算法、网格算法等模型,在逻辑或物理操作层,向不同任务分配特定的虚拟化节点,进行用户访问管理、数据映射及处理的功能执行。虚拟资源管理、任务分配,主要对虚拟机负载、故障情况进行监测与统计,来保障虚拟资源运行的负载均衡与安全。该任务调度的执行流程为:将m个任务(Task),调度到n个元数据节点进行执行,假定设置单个任务执行时间为TET (Task Execution Time),则第i个任务在第j个资源中的执行时间为:CET(i,j)=start time(j)+TET(i,j)在资源虚拟化硬件中,所有数据信息处理任务执行完成的总时间为:T=min{T1,T2,T3,…,Ti}
4.7 虚拟化技术
为了方便操作与理解,虚拟化技术将各种资源抽象成一种交互性强的形式,随着信息时代的到来,数据的爆炸式增长也造成了资源浪费与冗余。技术人员要实现虚拟化技术不仅要优化计算机系统的运行流程,还需要加强相关软件的创新。同时,还要加强对模拟技术的有效应用,主要是利用物质等条件,进行预判和分析,及时发现数据库中的问题,加强对各种资料的整合。特别是在计算机技术不断完善的背景下,要想降低信息处理和试验上的误差,需要实现对虚拟技术的有效应用,创新计算机软件技术,然后结合计算机试验的具体数据等,实现对信息资源的充分利用,避免资源浪费情况的发生。
5 计算机信息处理技术的未来发展方向
由于网络环境具有非常强的开放性,其中的数据信息也非常多,所以每个人在此平台上还可以随时随地获得自己想要的信息。虽然这种方式为人们提供了便利,但是也给一些不法人员提供了犯罪机会,部分黑客会对一些数据进行加工,进而找出用户在运用技术的漏洞。如果不及时处理此类问题,就会导致商业机密被泄密和盗用。由于以前的计算机处理技术已经不能满足“大数据”时代发展的要求了,这就需要结合用户的实际需求,实现对新技术的开发,对数据进行有效接收和处理,保证信息存储的安全性,明确计算机信息处理技术在未来的发展方向,从而进一步提高我国的计算机信息处理水平。
6 结束语
综上所述,新时期,计算机技术已经不能满足时代发展的要求了,需要对现有的计算机信息处理技术进行创新,优化信息处理的流程。同时,还要加强对信息安全和存储技术的有效应用,保证信息传输的安全性和有效性,实现对相关信息的有效处理,从而减少网络安全事故的发生。