APP下载

大数据挖掘与数据处理方法探讨

2021-01-15刘敏杨阳武警山西省总队

环球市场 2021年25期
关键词:海量网页文档

刘敏 杨阳 武警山西省总队

社会经济的不断发展与时代的变革,人们加大了对数据挖掘的重视,为了进一步了解和掌握大数据信息,人们加大了对大数据的研究分析。本文接下来先对大数据挖掘相关问题进行了有效的阐述,便于我们对于大数据信息的进一步了解。

一、对于大数据挖掘的基本阐述

大数据挖掘从大面上的意思就是指技术人员通过从海量的数据信息中提取到那部分自己所需的信息。也就是指从大量的、不完善的、信息不清晰的信息数据中,抽丝剥茧的找到对人类有效发展的信息和知识的“寻找”过程。其具体的操作流程是工作人员早在海量的信息数据中利用分析处理工具对数据与模型之间的关系进行详细的研究分析,并在寻找的过程中帮助使用者寻找数据与数据之间的联系,明确数据信息,因此,对大数据的有效挖掘是目前人们解决信息不足问题的重要手段。从数据本身角度来看,一般对大数据的挖掘需要有数据清理、数据挖掘实施过程、数据变换、知识评估和模式评估等步骤。

大数据则是通过对海量数据信息内容的高速采集,对数据进行发现和解析的过程,是目前一种新型的从海量数据中摘取重要数据的技术结构平台,具有提取信息速度快、种类繁杂、字母体量大、价值高等特点。

在对大数据的挖掘过程中可以发现,大数据挖掘中不仅涉及到了数据仓库、模式识别以及建模技术,还涉及到了机器学等多个领域内的专业理论知识和专业技能。其中存在的数据统计、人工智能技术和数据仓库是现阶段大数据挖掘中的至关重要的三道技术支柱。

二、大数据挖掘与数据处理方法探析

(一)大数据与数据挖掘之间的联系

大数据时代下,目前我国的数据形式属于刚发展阶段,主要还是以对数据的挖掘为主体内容,也就是加深对大数据挖掘概念的进一步理解,对大数据的挖掘是人们进一步了解和掌握大数据的基础。大数据和数据挖掘都是以提取对人类发展更有效的信息而进行的数据信息挖掘,从表面层次看,两者之间没有显著的区别,但随着对数据挖掘的不断深入就会发现,数据挖掘的针对目标不只限于少量的数据,对海量数据同样适用,只是在挖掘方法和挖掘技术上进行了有效的改变与更新,并更换了一种新的叫法成为“大数据”,其次,大数据的关键点不在于“大”,而是挖掘者需要转变自身传统的思想观念,采用新型的思想和新型的技术手段对海量的数据进行解析,并有效提取其中的有用信息数据,这样就可以对社会未来的发展形势进行有效的预估工作,同时还可以根据其中所包含的结构形式,创新新型的产品和服务工程。因此大数据与数据的挖掘在一定的时期内仍处于相互共存的形式,究其两者之间的差别就在于如何实现数据价值的最大化。

大数据是数据发掘产业化的重要表现,数据的价值在于数据关键信息的提取,利益则是技术价值的重要体现,数据挖掘作为专业技术领域当中的一种专业性名词,在高端的商业领域当中也是需要修饰和升级的。现阶段的大数据的有效发展已逐渐成为了增强我国市场经济竞争力的至关重要的因素的一种,被誉为创新发展和生产力进一步提升的下一个战略目标,得到了各国的高度重视,相关国家的各个政府部门在对大数据的发展上给予了最大程度的帮助与支持,甚至将其有效发展升级到了国家的战略发展层次上。

(二)非结构化数据处理流程

非结构化处理流程的内容主要包含了对数据信息方面的采集工作、网页分类和网页预处理等三个重要阶段的内容。

第一、信息采集。信息采集是指将没有规则、顺序的信息从海量的网页数据当中分门别类的提取出来,并对其进行有效的数据库存整理录入的过程。由于这些技术型的工作大部分是由具有专业技术能力的采集人员完成的,因此所采集到的信息具有一定的局限性,而且基于对成本和性能的考虑,达不到对整个网络进行全面覆盖阅览的目的,因此在对信息的采集方面技术人员要先考虑其是否有被访问的价值,然后在研究以哪种形式对web进行访问,最大程度的提升对有用信息的采集率。

第二、网页分类。网页分类是指专业的数据信息处理人员利用对数据挖掘算法得出的分类模型,从而对数据进行有效的分类处理,并得出对人类有价值的数据信息。目前对于数据挖掘中人们所面临的重大问题就是对于网页的分类,由于对物品进行有效的分类,可以帮助人们正确的认识世界,所以分类问题对于人类发展来说至关重要。

第三、网页预处理。网页预处理就是通过对数据进行一对一的筛选过程,确保信息的准确性和使用价值,主要是对网页进行的去重处理,基于对URL的去重对比上,通常适用于对哈希算法。在信息内容的对比去重上则采用的是信息指纹的文本相似度算法,不管哪种方法,都是对网页进行的去重处理。首先,先要对文档的内容进行分解处理,采用部分结合文档的体征进行的集中表达,这样主要是为了简化特征比较计算相似度。其次是针对与特征相对应的压缩码进行专业的处理,节省存储空间,提高比较速度。最后对文档的相似度进行逐一计算,根据文档特征的重合比例来确定是否对文档进行处理。

三、结语

综上所述,大数据时代下,对大数据的挖掘已成为未来时代发展的必然发展条件,是整个数据应用过程的核心环节。通过对大数据挖掘与数据处理方法的内容分析可以得出,大数据的解析是通过把海量数据进行逐一筛选、分门别类,并按顺序整合录入数据库后,找出对人类未来发展有用的信息。通过对信息价值的进一步分析,充分了解当前大数据的结构,并对其进行严格的把控,对数据采集应用的有效发展具有重要意义。

猜你喜欢

海量网页文档
一种傅里叶域海量数据高速谱聚类方法
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于HTML5与CSS3的网页设计技术研究
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
Word文档 高效分合有高招
一个图形所蕴含的“海量”巧题