APP下载

Web数据抽取技术的实现

2017-10-21韩石

科技信息·中旬刊 2017年12期
关键词:大数据

韩石

摘要:随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。本文对于Web数据抽取技术的现状、问题及实现进行分析,并提出对策建议。

关键词:大数据;数据抽取;技术实现

一、Web数据抽取技术概述

随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。Web信息抽取技术是随着互联网技术的发展、网页信息的扩充而产生,从手工到半自动再到全自动的技术完善使Web数据抽取技术成为大数据分析的主要技术。在此基础上形成的Web数据集成系统,Web数据集成系统中的数据,不仅可以为各类大数据分析提供信息支持,而且还可以为Web数据集成系统自身集成提供帮助。Web数据抽取技术的作用和意义主要体现在,一是Web数据抽取是实现Web数据集成的基础和保证,Web数据抽取可以完成对Web页面中农广泛存在的半结构化数据的抽取公祖,为Web数据集成奠定数据基础。二是Web数据抽取可以实现对Web数据的理解,Web网页中的数据大部分是半结构化数据,通过Web数据抽取技术的实现可以对抽取到的Web数据元素进行语言标注,实现对Web数据的理解。三是Web数据抽取为Web数据集成中的其他环节提供数据服务,Web数据抽取可以利用已抽取的Web数据对象间的联系,发现Web实体间的潜在联系,在Web数据集成系统中,利用Web实体间的联系,可以形成一个基于这些联系的实施知识库,为进一步实施Web数据集成的重复记录谈成册、数据分析等服务提供数据支持。

二、Web数据抽取技术存在的问题

随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。在Web数据抽取技术的使用过程中也存在一些问题,一是在Web数据集成过程中,需要获取Web实体的模型信息,为进一步识别、抽取和集成来自不同数据源的Web数据对象提供指导,Web上大多数为半结构化数据模型具有异构和动态变化的特点,有效地构建Web实体模型信息是当前Web数据抽取技术中一个需要解决和完善的问题。二是在Web数据抽取过程中,需要准确地从目标网页中抽取目标数据,并对抽取的数据元素进行语义上的理解,为进一步整合数据奠定基础。准确地抽取目标数据,进行语义的标注也是当前Web数据抽取技术中需要精准化的一个问题。三是在Web数据抽取过程中,需要建立新发现的Web实体与Web实体模型中已有Web实体间的联系,丰富Web实体模型,为进一步整合Web数据奠定基础,有效地建立新发现的Web实体与Web实体模型中存在的Web实体间的联系,也是一个加以解决的Web数据抽取技术问题。

三、Web数据抽取技术的实现

随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。目前,Web数据抽取技术中主要的实现路径主要有,一是基于自然语言处理方式的数据抽取,基于自然语言处理方式的数据抽取是以自然语言处理技术为基础,通常适用含有大量文本或者语句完成、适合语法分析的Web页面,在抽取的过程中,将网页作为自由文本进行处理,经过语法分析、語义标注、专有对象的识别和抽取规则生成的过程。二是基于HTML结构的信息抽取,Web信息抽取的主要对象是Web页面,这些页面通常是由HTML标记语言进行编写,具有非常清晰的结构层次。基于HTML结构的信息抽取就是利用了页面的结构来进行信息的定位,Web页面通过转换器解析成反映HTML结构的DOM树,在通过特定的方法将用户想抽取的数据定位到DOM树的层次位置上,然后利用正则表达等匹配技术来得到具体位置上的数据信息。三是基于XML的信息抽取,基于XML的信息抽取是运用XML的相关技术以XML模式的数据为数据源尽心抽取处理。由于抽取的目标是Web网页,而Web页上的数据一般是以HTML格式存在,所以通常先将页面转换为XML的格式再进行抽取。

四、结束语

随着信息技术的不断发展,Web上的信息内容和数据呈现出爆炸式的增长,从而是Web成为一个巨大、丰富、分布广泛的数据源,有效的在Web上实现数据的抽取技术为进一步的分析和挖掘提供了数据支持,具有十分重要的应用价值和现实意义。通过Web数据集成可以实现对Web数据的有效整合,为大数据分析提供信息源支持。在Web数据抽取技术的应用过程中,一是要结合大数据开发与分析的实际,不断更新Web数据抽取技术的实现方法,使Web数据抽取技术能够真正为大数据分析提供数据源和分析所需要的信息。二是在大数据开发与分析的过程中,灵活运用Web数据抽取技术,将Web数据抽取的各项技术进行综合运用,实现数据抽取的最优化及最效率,使提供的数据内容丰富、结构清晰、质量保证、效率提高。

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索