APP下载

互联网大数据采集与处理技术要点

2016-08-09王亮

大科技 2016年33期
关键词:分词网页数据挖掘

王亮

互联网大数据采集与处理技术要点

王亮

(贵州江南航天信息网络通信有限公司 贵州遵义 563000)

在互联网时代进一步发展普及的过程中,大数据时代随之到来,主要体现为大数据计算。常见的大数据计算主要有两种形态,即有批量计算与流式计算,这些新技术的发展为现代化的互联网数据采集与处理奠定了基础。本文即探讨了互联网大数据的采集与处理技术要点,以供参考。

互联网;大数据;采集;处理

1 引言

当前,网络大数据正迅速走入人们的日常生产生活,以及社会的各行各业中,影响着大众的学习、工作与生活,深刻影响并改变了常规的、传统的生活方式。为了嗯嗯巩固将网络大数据的作用发挥到极致,必须掌握网络大数据的采集和处理技术,从而使其服务于现代化发展的社会生产与生活。

2 互联网大数据概述

2.1 互联网大数据

在互联网新兴技术的逐渐普及过程中,产生了越来越多的用户数据,以及大体量、多样化、高速度和低价值的大数据概念(big data),并逐渐渗透入每一个行业、业务的职能领域中,进而能够为商业、金融服务创新浪潮,奠定相应的数据基础。互联网网页大数据已经成为互联网公司、金融机构等,用以获取用户消费、交易、产品评价信息和其他社交信息等的重要途径,因此,互联网网页的大数据采集与处理技术的探讨,具有重要的意义。

2.2 大数据采集和处理的基本流程

互联网大数据的采集,就是在互联网中获取并抽取用户所需要的属性内容,针对其内容、格式等进行转换和加工处理,使之能够适应用户需求,并存储起来以供后用。互联网网页大数据采集、处理整体过程如图1所示,其中包含了四个主要模块:①爬虫(Spider):从Internet上选择网页内容,并从中抽取相应的属性内容;②数据处理(Dp-data Process):对爬虫所采集的内容信息进行加工处理;③URL队列(Url Queue):为爬虫提供所要求采集数据网站的url;④数据(Data):a.Site Url,需要抓取数据网站的Url信息;b.Spider Data,爬虫从网页中抽取出来的数据;c.Dp Data,经过dp处理之后的数据。

图1 web数据采集和处理

3 网络大数据的采集技术分析

3.1 采集技术要点

随着网络技术的提高,数据类型呈现多样化。从原始的数据、图片形式,到如今的文本、媒体、影像技术都成为了信息传播的新形式。为了能够快速且有效的采集网络大数据,应当重视以下要点:

(1)网络大数据的采集应该具有一致性。不同工作人员所采集的数据必须具有一致性,用以防止数据的混杂。那么对于采集大数据的程序而言,对它的性能要求更是不可马虎。

(2)网络大数据的采集应该具有正确性。数据的正确性是一切工作的核心,也是工作能否继续的前提更是保障工作正确运行的关键。数据来源必须明确,数据采集过程必须准确无误。

(3)网络大数据的采集应该具有完整性。对于采集数据者来说理应拥有实事求是的态度,不应该抱有个人观点,更不应该随意篡改数据或不完整的采集大数据,但是对于机器采集数据达到此要求而言,则要求采集工作高精度运行。面对网络大数据的多元性,人工错误很难免除。工作程序的高精度运行更是不可忽视的问题。

3.2 互联网大数据采集关键技术

3.2.1 实时数据挖掘技术

互联网的大数据环境本身较为复杂,且针对不同的使用目的,会存在不同的实时数据挖掘技术。关注运营商对网络的维护和业务推广两个重要功能,对无线网络数据挖掘技术和应用数据挖掘技术进行了分析。

3.2.2 无线网络数据挖掘技术

网络结构日益复杂,主要体现在网元多、多种无线技术共存、网络故障诊断、干扰用户体验因素等方面。无线网络数据挖掘模块能够针对网络中产生的各类日志文件、信令采集系统、计费信息、用户签约信息等,进行综合大数据分析,并通过统计和数据挖掘,生成报表。

具体可以提供的信息包括:①网络分析:分析内容有全网的使用流量、会话与告警、漫游、网络使用变化以及网络性能的KPI分析等。②网元分析:包括网元对比分析、网元组对比分析、网元时间变化趋势分析、全网Cell累计分布分析和RNC性能负载分析。③终端分析:终端设备使用趋势分析、终端设备每天小时时段变化趋势的分析、终端设备的性能指标分析等。④用户分析:用户比较分析、无线共享路由用户对比分析、无线共享路由用户的资源使用、无线共享路由用户的设备型号/操作系统构成分析、用户组的比较分析、全网用户累积分布分析、单用户时间变化趋势分析等。⑤应用分析:应用的业务主要包括整体、小时段中变化趋势的分析、指定终端设备类型上TopN应用业务分析、应用业务性能分析、应用业务系统分组的性能KPI分析、应用业务组使用趋势分析、应用业务组每天小时时段趋势变化分析。

4 处理网络大数据的处理技术分析

4.1 处理技术要点

随着网络时代的到来,电脑、智能手机等电子设备在实际生活中得到应用,并成为日常生活的重要组成部分,人们所接受到的信息越来越丰富,图像、文本、视频活跃在生活与交流之中。

4.1.1 数据处理整体框架

数据处理主要包括以下模块:①分词:对在互联网中获取的网页内容,采取切词处理;②排重:对众多网页内容实施排重措施;③整合:针对不同来源数据的格式进行整合;④数据:有两方面数据,即Spider Data(爬虫从网页中抽取出来的数据)和Dp Data(在整个数据处理过程中产生的的数据)。

4.1.2 数据处理的基本流程

数据的处理过程如下:①将抓取来的网页内容进行分词处理;②将分词处理成果写入数据库中;③将所抓取来的网页内容排重;④将排重处理的成果写入数据库中;⑤依据前面的处理结果,对数据进行二次整合;⑥将整合成果写入数据库中。

4.2 数据处理的关键技术

4.2.1 排重

所谓排重处理,就是将与主题相重复的项排除掉的过程,而网页排重即是指通过两个网页间相似度因素为依据,进行重复项的排除。Simhash算法属于一种高效海量文本排重算法,相较于余弦角、欧式距离、Jaccard相似系数等算法,Simhash能够有效避免进行文本两两的相似度比较复杂过程,从而得以大大提高计算效率。因此,运用Simhash算法实施网页内容的排重工作,可容纳更大数据量,提供更快数据处理速度,最终实现大数据的迅速处理。

4.2.2 整合

所谓整合,即是指将抓取的网页内容,与各公司之间构建彼此对应的关系。对于公司而言,可使用一组关键词对自身进行描述,同样,经过dp处理后的网页内容也可使用一组关键词进行描述。通过整合,即可形成两组关键词的匹配。

网页内容分词结果有以下问题:①分词结果数量较大;②大多数分词对于描述该网页的内容而言没有贡献。所以,必要的情况下可对网页分词结果实施简化,采用词频最高的若干词汇进行描述即可。经简化后,两组关键词不仅可以大大提高彼此的匹配效率,还可以保证其采集的准确度,而在经过整合后,所抓取的网页内容和公司之间,也会建立其一个对应关系,便于知道某个具体的公司包含怎样的数据信息。

5 结语

在互联网技术迅猛发展的背景下,客户处理业务也日益复杂起来,与其相关的大数据更是呈现逐渐增长的趋势,对于大数据的分析处理技术,成为重点关注内容之一。如果能够合理发挥大数据作用,使其服务于光蛋用户,能够为企业的发展,提供更为完整清晰的指引。

[1]齐 志.4G网络时代大数据的机遇与挑战[J].商,2015(48):206.

[2]吴纯青,任沛阁,王小峰.基于语义的网络大数据组织与搜索[J].计算机学报,2015,38(1):1~17.

[3]康书生,曹荣.互联网大数据技术在融资领域的应用研究[J].金融理论与实践,2014(1):108~110.

TP274.2

A

1004-7344(2016)33-0254-02

2016-11-8

猜你喜欢

分词网页数据挖掘
分词在英语教学中的妙用
探讨人工智能与数据挖掘发展趋势
结巴分词在词云中的应用
结巴分词在词云中的应用
基于CSS的网页导航栏的设计
基于HTML5静态网页设计
基于URL和网页类型的网页信息采集研究
基于并行计算的大数据挖掘在电网中的应用
网页制作在英语教学中的应用
一种基于Hadoop的大数据挖掘云服务及应用