APP下载

网络爬虫在采集岗位招聘数据方面的应用实践

2018-01-04汤义好

电脑知识与技术 2018年28期
关键词:大数据

汤义好

摘要: 现代教学设计理论认为优化教学过程,可以更好有效地达成教学目标,提高教学效率。文章阐述了在岗位分析系统中如何利用网络爬虫框架WebMagic不断地从网络采集岗位招聘数据,并保存到HBase数据库的一个过程。

关键词:大数据;岗位招聘;WebMagic

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)28-0008-02

大学生最关心的莫过于就业,高校的数字化建设日渐成熟,大数据在就业方面的应用正处在积极探索阶段。可以说数据采集是大数据应用开发的一个重要环节,如果没有数据,处理分析也就无从谈起。下面我们就来讨论下如何进行数据采集。

1 数据采集的来源与工具

就业信息主要来自网络和学校招聘,主要的岗位数据源于网络,需要有一套采集软件也就是爬虫。爬虫有很多,综合考虑WebMagic是一个无序配置、便于二次开发的爬虫框架,其提供简单灵活的API,只需要少量代码既可以实现。数据抓取时序图如图1所示。

Downloader负责从互联网上下载页面,以便后续处理。WebMagic默认使用Apache HttpClient作为下载工具。PageProcessor负责解析页面,抽取有用的信息,以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具,并基于其开发了解析XPath的工具Xsoup。PageProcessor对于每个站点每个页面的解析都不一样,是需要使用者定制的部分。Scheduler负责调度,一般无须自己定制。Pipeline负责抽取结果的处理,包括计算、持久化到文件、数据库等。默认提供了输出到控制台和保存到文件两种结果处理方案。

2 如何实施爬取任务

(1) 解析岗位列表源代码

定制基于Java的WebMagic爬虫框架抓取招聘网站上根据岗位的关键词如“大数据”搜索出的岗位结果。列出的关于关键词搜索出来的列表就是爬虫抓取的起始页。可以通过添加后续链接的URL至爬取队列,使得爬虫按照要求一步步循环下去。这里需要添加的链接便是岗位的信息页,以及后续列表分页。分析页面中的相同项,可以发现所需要的URL是一个唯一的超链接,记下标签的样式名称交给Xpath识别,并添加至抓取列,实现代码如下。

select = page.getHtml().xpath(“//p[@class = t1 ]”);

urls = select.links().all();

page.addTargetRequests(urls);

需要注意的是,要防止添加空白搜索结果页的链接,否则将会把整个招聘网站的岗位全部抓取下来。所以需要添加提出队列的保护机制,代码如下:

Iteratror it= urls.iterator();

while(it.hasNext()){

String x = it.next();

If(x.equals(“http://...”)){

it.remove();

}

}

page.addTargetRequest(urls);

(2) 解析崗位信息页面

需要爬取的岗位信息包括职位名称、发布时间、是否洗数据、编号、工作地点、工作经验、薪资、招聘人数、学历、岗位描述、职能类别、公司名称、公司性质、公司行业、公司规模等。由于格式基本差不多可以json配置项的方式将某个点的正则保存在一起,方便调用。WebMagic框架可以根据获取的正则定位相关的内容。具体代码如下:

page.putField("jobname", page.getHtml().xpath("//div[@class='cn']/h1/text()").toString());

page.putField("name", page.getHtml().xpath("//p[@class='cname']/a/text()").toString());

(3) 根据条件保存抓取到的信息

根据条件筛选岗位信息,比如已经列出的一些培训机构的“公司黑名单”,保存在数组中,那么就可以使用简单的if语句来判断。对于发布日期,仅需要保留当天或本周发布的招聘信息。筛选完成便可以将抓取内容选择性的保存到本地的某个文件中。也可以将结果保存到HDFS和HBase数据库中,这样更有助于后面的大数据处理。

(4) 运行主程序

WebMagic的核心组件为PageProcessor与Pipeline。用户可以自己定制这两个组件,而调用这两个核心组件是通过Spider类,其简单的代码如下:

Spider.create(new CrawlJob())

.addUrl(URL_START)

.addPipleline(new PipelineJob()).thread(5).run();

可以借助系统的定时服务来实现程序的定时爬取功能使用代码如下:

public ServiceState start() {

initializer = new InitializeService(this);

initializer.start();

services.add(initializer);

Service jobAnalyzer = new JobAnalysisService(this, initializer);

jobAnalyzer.start();

猜你喜欢

大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路