基于网络爬虫的地理空间信息采集方法
2019-08-08缪治任敏敏
缪治 任敏敏
摘要:在网络爬虫的地理空间信息的采集方法上,也就是说在网络的环境下对地理空间信息进行获取和相关资料的搜集工作,对于地理空间信息的研究具有十分重要的作用,是地理空间研究领域获取信息最为重要的途径之一。在网络空间下对数据的主题信息的采集工作是进行地理空间信息采集的重要工作内容,是地理空间信息进行研究最基本的根据之一。数据网络中,对于地理空间信息的采集具有以下几个特点:一是数据采集主题的门类比较多,采集的方法各种各样,数据的格式也是千差万别,对于如何快速、准确、高效地获取地理空间信息来说是一个复杂的问题。
关键词:信息采集;网络爬虫;地理空间;采集方法
中图分类号:TP311 文献标识码:A
文章编号:1009-3044(2019)18-0009-02
Abstract: In terms of the collection method of Geospatial information of web spiders, that is to say, the acquisition of Geospatial Information and the collection of relevant data in the network environment play a very important role in the research of Geospatial information, and is one of the most important ways to obtain information in the field of Geospatial Information. The collection of the subject information of the data in the network space is an important work of Geospatial information collection and is one of the most basic bases of Geospatial information research. In the data network, the collection of Geospatial information has the following characteristics: first, the subject of data collection is more categories, collection methods are various, the format of data is also varied, for how to quickly, accurately and efficiently obtain Geospatial information is a complex problem.
Key words: information collection; web spider; geographic space; collection method
隨着互联网技术的迅猛发展,信息化的社会发展已经进入了大数据的发展时代,人们可以通过信息的采集发现用户的喜好,进而进行精准化的营销活动。而在网络空间上,地理信息的相关主题变得越来越多,除了谷歌以及百度地图、高德地图等符合标准之外,还有一些网络服务,例如:开放大学的图书馆也包含了地理空间的信息。在开放大学的地理空间信息的获取上需要从半结构化或者结构化的网页中抽取数据,然后对数据进行信息上的采集和转化才可以对数据进行使用和挖掘,进而实现对数据的利用。相对于开放大学的这种数据收集方式特性,网络爬虫可以很好地解决这一类问题,对数据实现精准的信息采集,然后根据数据有关需要和要求,将数据存入到相应的数据库中去,为日后的采集工作提供便利,同时也为构建地理信息的主题信息检索提供了另一种路径,提供数据更为深层次的数据检索。
1 网络爬虫的基本概念
网络爬虫就是一个可以自动对网页内容进行提取的程序,它主要是根据搜索引擎的指示从网站上下载网页数据,从这个角度来看,网络爬虫也是搜索引擎的关键组成部分,网络爬虫的基本工作原理是从一个目标站点出发,举例来说就是在一个固定的门户网站上对数据进行精准的搜集。然后通过网络的协议获取网页的资源,分析页面的内容和及时的提取出相关数据的链接,以循环迭代的方式对整个数据网络进行目标的访问。网络爬虫对于数据的采集以及访问是具有一定目标的,可以精准地找到内容,同时将有关的内容及时存入数据库中,为地理信息空间的采集提供了一定便利,同时可以按照数据规定的格式对采取到的数据进行分类储存。
网络爬虫工作最为基本的步骤,如图1所示。网络爬虫最开始是通过最基本的搜索引擎找到预定目标的网络,然后通过网络加入目标的网页中去,之后网络爬虫就开始按照既定的流程去进行工作了。首先对网站的网址进行读取,然后根据对网站网页数据的访问读取网页的内容,对于系统化、结构化的数据进行采集以及搜集,抽取目标化的数据内容。之后是解析网页内容里面包含的其他的网址,通过一定的算法对有关的数据进行判断,是否已经对数据进行有关解读工作。如果网络中的网址没有对数据进行抓取,就将其放入这个未抓入队列中去,如果已经对数据进行搜集和抓取就要计入已经抓取的范围中去,然后对数据的搜集以及抓取工作进行循环的工作,直到网络的队列为空。网络爬虫的优点就是可以精准的搜集网络的相关的网页,排除很多没有必要或者不相关的网页,实现满足人们对于信息搜素的精确性的要求与精准化搜索的目的。
2 利用网络爬虫进行地理空间信息采集的工作流程
利用网络爬虫对地理空间信息进行采集已经成为网络工作中的重要的途径之一,对于采集空间信息具有重要的作用,具体的工作的流程参考图2。
对获取的地理空间信息进行引擎搜索与有关的网页的匹配度。
第一,通过人工的查看以及有关技术干预的方式,对网络爬虫搜集出来的相关的网页进行提前的预判断,进一步提供网络爬虫查找数据与网页相关度检索,提高与关键词的相关度,最后确立需要进行地理空间信息的采集的目标的网站。
第二,利用网络爬虫对整个目标地理空间信息有关的文本信息,形成一个信息搜索的信息库,进一步对数据进行挖掘和处理,为数据提供最为基本的支撑。要赋予搜集的目标网站较高的价值,就需要进行持续的跟踪,可以利用网络爬虫定期地对搜集到的网站进行信息的爬取,检测网站上需要关注的地理信息,实现地理空间信息的价值需要对信息进行自动化搜索。
第三,利用网络爬虫对整个目标地理空间信息有关的文本信息,形成一个信息搜索的信息库,进一步对数据进行挖掘处理,为数据提供最为基本的支撑。
第四,要赋予搜集的目标网站较高的价值,就需要进行持续的跟踪,可以利用网络爬虫定期对搜集到的网站进行信息的爬取,检测网站上需要关注的地理信息,实现地理空间信息的价值需要对信息进行自動化搜索。
3 利用scrapy网络爬虫进行地理空间信息的采集
把大学开放网站收录的地图网页作为目标网站进行地理信息空间的采集,通过利用网络爬虫可以构建网络爬虫的框架,从相关的数据网站对数据进行精准的抓取工作。在爬虫进行数据采集工作的时候,首先,需要建立一个信息采集项目,在scrapy网络爬虫下进行运行工作,这项工作会包括网络爬虫的目录,对地图的信息进行扫描。scrapy网络爬虫定义了如何对网站进行数据的爬取以及如何对数据进行搜集,包括对数据的提取以及对网络的结构化提取的步骤。利用scrapy网络爬虫进行数据的提取工作可以对目标网页进行信息的精准采集,后续如果需要对工作进行持续的跟踪,可以将该网站加入目标的网址,定期对scrapy网络爬虫的数据进行搜集与持续的跟进。举例来说:如表1。通过对数据的关键字的提取,然后网络爬虫进行数据搜索,查询所需要的地址以及对信息进行分类编码。
4 结束语
网络空间下对数据的主题信息的采集工作是进行地理空间信息采集工作的重要的工作的内容,是地理空间信息进行研究的最为基本的根据之一,为此,本文对目前网络爬虫进行数据采集的作业的流程以及对网络爬虫的数据网站的信息的采集的工作流程进行了详细的探讨,提出了网络爬虫进行信息采集以及搜集的方法,对网页的数据进行精准化的提取,使用这种方法可以对数据进行精准化的提取,提高数据的自动化的采集程度,为我国的后续的地理空间信息的采集工作中的 主题数据库的信息提供了一定的基础,为数据的继续对挖掘提供了支撑。据采集的主题的门类比较多,对于如何快速、准确、高效的获取地理空间信息来说是一个问题,基于网络爬虫的地理空间信息的采集办法对这类问题进行解决,这种方法在网络信息的采集方面具有省时间、高效以及便捷的优点,大大地提高了地理空间信息采集的效率,促进网络数据信息采集的精准化。
参考文献:
[1] 巩保胜, 魏春苗. 基于网络爬虫的地理空间信息采集方法[J]. 甘肃科技, 2016, 32(7):17-18.
[2] 曾李阳. 基于分布式网络爬虫的Web空间数据获取与管理方法研究[D]. 西南交通大学, 2016.
[3] 易晓峰.基于WebGIS系统的分布式空间数据库的集成技术研究与应用[D].武汉理工大学, 2005.
[4] 钟凯.基于网格的地理空间数据库访问和操作中间件研究[D].国防科学技术大学,2009.
[5] 马联帅.基于Scrapy的分布式网络新闻抓取系统设计与实现[D]. 西安电子科技大学, 2015.
[6] 陶兴海.基于Scrapy框架的分布式网络爬虫实现[J]. 电子技术与软件工程, 2017(11):23-23.
[7] 孙歆,戴桦,孔晓昀,等.基于Scrapy的工业漏洞爬虫设计[J]. 网络空间安全, 2017,8(1):66-71.
【通联编辑:代影】