APP下载

大数据时代计算机信息处理技术研究

2020-04-21陈云

无线互联科技 2020年5期
关键词:存储采集安全

陈云

摘   要:大数据时代的快速发展给计算机信息处理技术带来极大的机遇和挑战,要充分认识到大数据时代计算机信息处理技术的重要性和特点。文章探讨和分析大数据时代下的计算机信息采集技术、存储技术和安全技术,构建适宜的网络平台和数据库结构,实现对数据信息的高效采集和数据库链接。并研究和分析数据存储算法,构建低冗余度、高可靠性的海量数据存储系统,同时运用计算机信息安全技术构建复杂的安全信息系统,确保计算机信息处理技术在生产生活、各行各业的便捷安全应用。

关键词:大数据;计算机信息处理技术;采集;存储;安全

1    大数据和计算机信息处理技术概述

大数据以多元化的形式而存在,通过对海量数据的挖掘可以采集获取庞大的数据组,体现出大量、高速、多样、价值的特征,并以云计算的分布式处理、分布式数据库、云存储、虚拟化技术为支撑和依托,其核心在于为客户挖掘数据中蕴藏的价值,而非软、硬件的简单堆砌,对网络架构和数据处理能力也带来极大的挑战,对于降低成本、提高效率、开发新产品、业务决策有极其重要的作用[1]。

2    大数据时代计算机信息处理技术应用分析

2.1  计算机信息采集技术

计算机信息采集技术通过搜索引擎获取所需的信息數据,利用搜索引擎提供的分类目录完成常规搜索、高级搜索,在庞大资源库的支撑下完成图像、音视频的自动操作,极大地提高了用户信息查询的准确性。然而随着网络信息资源的不断增长,传统的搜索引擎暴露出滞后性,为此要开发和利用适应不同人群需求的主题搜索引擎技术,在互联网上收集各种信息,通过网页中的超文本链接进行网页访问、网页分析,提取新的URL,将链接添加至访问控制列表,并将网页存储于数据库之中。相关的算法主要包括深度优先算法、广度优先算法、启发式搜索算法、正则表达式等,通过对采集信息的过滤和预处理,能够较好地提高信息采集的效率和准确度,避免信息采集的URL的死循环和采集不完全的问题[2]。

在搭建信息采集架构的过程中,大数据时代下的计算机信息采集技术采用模块化的架构设计方式,主要包括有以下模块:(1)页面采集模块,是计算机信息采集技术的核心和关键,主要采集互联网中基于用户和结构处理的相关信息,基于相关协议进行页面资源的访问和下载等自动操作,从网络中选取指定目的数据源网址,进行检测、分析和预处理,高效地采集更多有用信息。(2)页面分析模块,主要对指定的URL进行解析,分析页面节点的基本配置、采集内容页的字段设置、采集列表页的信息等,并进行信息采集的有效排序,解析页面中的超链接URL。(3)信息提取模块,重点检查、分析模块传递的URL,实时获取页面内容,包括分页区域的列表、副标题、内容、图片等信息,并对重复链接和访问链接中的URL进行信息过滤。(4)内容提取模块,依循URL地址进行信息排序和整合,通过数据库索引的方式快速、便捷地提取数据信息,过滤无须采集的格式文件,并进行数据库缓存的实时更新。(5)链接解析模块,主要进行采集页面和内容的分析和处理,包括关键字和摘要的分析处理等工作,即将HTML中的内容转换为文本信息并自动解析到所下载的内容中,为数据信息的存储奠定基础。(6)内容过滤,在信息采集的过程中,存在用户不想浏览的内容,为此还可以进行页面内容的净化和过滤,提高数据采集的效率和有效性。(7)数据库,主要采用MySQL数据库,通过标准化的SQL数据库语言进行数据信息的高效灵活性访问。

2.2  计算机信息存储技术

随着人们对计算机应用的逐渐增多,数据量不断增大,计算机信息存储技术开始进入人们的视野,然而传统的DAS,NAS,SAN等专用存储系统存在应用上的局限性,尽管能够为客户提供良好的服务性能,然而也存在扩展性差、价格高、不易维护等缺陷。为此要应用一种适用于大规模数据存储的高性能编码策略,构建低冗余度、高可靠性的高效、绿色存储系统,吸纳数据消冗技术和纠删码可靠性增强技术,采用海量数据存储架构,提高计算机信息处理技术的应用效果。

2.2.1  典型存储系统的应用

(1)磁盘阵列存储系统—RAID5。该存储系统无须进行数据备份操作,只需将各个数据分块及其产生的奇偶校验信息数据存储于各分条的磁盘之中,并将各分块的奇偶校验信息存储于不同的分条上,并容许更多列随机删除错的编码方法引入到磁盘阵列的设计和应用之中。(2)海量数据存储系统—HDFS。其是大型的分布式文件系统,位于所有核心技术的底层,由一个元数据管理节点和多个数据存储节点构成,元数据管理节点负责管理系统的元数据,数据存储节点负责处理客户端的读写请求,执行数据块的创建、复制、删除等操作,元数据管理节点与若干个数据存储节点进行通信链接、指令发送和信息反馈,为不同应用服务提供海量数据存储功能,主要是通过文件的流式读应用方式处理TB级、PB级的大文件存储,实现对文件的一次性写、多次读的自动访问操作,适用于大文件的操作和移动计算,可以有效提高网络系统的吞吐量,减少网络的拥堵现象。(3)海量数据存储文件系统—WAS。该系统主要包括有Stream层、Partition层、Front-End层,其中:Stream层负责文件分块的管理与复制;Partition层作为链接Stream层和Front-End层的中间层,解析上层数据,并进行存储系统的缓存处理;Front-Ends包括若干个无状态的服务器,由一份分块存储信息的划分表组成,能够指向对应定位服务器,获悉读取文件的存储位置信息。(4)其他编码冗余策略文件系统。RAID技术是一种新型的存储技术,通过组织若干个磁盘进行协调工作,有效提高磁盘子系统的性能及可靠性。同时,Pahoehoe文件系统是完全利用纠删编码的云存储文件系统,有效降低了成本,实现数据的高可靠性。

2.2.2  基于復制策略的可靠性增强技术

数据复制策略能够有效提高计算机信息的可靠性,通常采用多副本策略进行数据传输和存储,有效提高系统的并行访问数量,提高大规模客户端的访问效率,具体包括:顺序放置策略和随机放置策略,顺序放置策略是将文件对象副本按照一次的次序进行分别放置,随机放置策略是将副本随机放置在系统的存储节点之中。同时,该技术主要采用静态复制策略和动态复制策略,静态复制策略设置相对简单,然而无法根据系统的负载情况进行副本变化,极易导致存储资源的浪费。动态复制策略则考虑了用户需求、系统存储空间、内部网络负载情况等因素,实现动态化的管理。

2.3  计算机信息安全技术

计算机网络表现出开放性、互联性和多样性的特点,极易受到黑客、恶意软件的攻击,为此要关注和加强计算机网络信息的安全和保密,具体策略包括:(1)物理安全策略。主要进行计算机系统、网络服务器、打印机等硬件和通信链路的保护,对用户身份及使用权限进行验证,确保合法用户在权限内进行正确的操作。同时,要建立和完善信息安全管理制度,确保计算机信息网络的安全。(2)访问控制策略。采用入网访问控制策略进行网络安全保护,通过用户名识别及验证、用户口令的识别及验证、用户账号的缺省限制检查等方式,进行用户的入网访问控制,并实施对网络用户权限的控制,进行网络用户的分类。另外,还可以采用防火墙控制策略,并在网络边界建立相应的网络通信监控系统,有效隔离内部和外部网络,确保计算机网络的安全。信息加密策略也是不可或缺的重要方法,通过加密算法实现计算机信息的加密。入侵检测技术也是一种高效、主动性的安全保护技术,有效提高网络信息安全的完整性。数字签名技术则可以有效解决网络通信中的伪造、抵赖、篡改、冒充等问题。

3    结语

综上所述,大数据时代的计算机信息处理技术体现出不可比拟的优势,要充分、合理地运用计算机信息采集、存储、安全技术和策略,为社会各行各业提供技术和安全支撑,突显计算机信息处理技术的应用价值,不断推进计算机信息处理技术的持续发展和提升。

[参考文献]

[1]翁春荣.大数据背景下计算机信息处理技术的缺陷及对策分析[J].计算机产品与流通,2019(9):24,58.

[2]张文娟,任晓霞.基于大数据时代计算机网络技术中人工智能的应用解析[J].电子测试,2019(18):67-68.

Research on computer information processing technology in big data era

Chen Yun

(Shaoyang University, Shaoyang 422000, China)

Abstract:The rapid development of the era of big data brings great opportunities and challenges to computer information processing technology, must fully understand the importance and characteristics of computer information processing technology in the era of big data. This paper explores and analyzes the computer information collection technology, storage technology and security technology, construct a suitable network platform and database structure to achieve efficient collection of data information and database link  under the era of big data. And data storage algorithms are researched and analyzed, builds low-redundancy, high-reliability mass data storage systems, and uses computer information security technology to build complex security information systems to ensure that computer information processing technology is convenient and safe in all walks of life application.

Key words:big data; computer information processing technology; acquisition; storage; security

猜你喜欢

存储采集安全
市政工程档案采集与管理中存在的问题
血液标本采集对生化检验结果的影响分析
浅析微量物证的采集和包装方法及其注意事项
档案管理中电子文件的存储探究