基于Python的就业岗位数据获取与预处理

2019-06-01林长谋黄玮

电脑知识与技术 2019年12期

关键词：网络爬虫数据分析

林长谋黄玮

摘要：互联网数据获取及分析是当前数据科学的一個重要部分。该文针对互联网中就业岗位数据获取与分析的过程基于Python构建了网络爬虫。并在通爬虫获取网络数据的基础上，对所获得的就业岗位数据进行预处理，最终可到供挖掘的数据。

关键词：Python；网络爬虫；数据分析

中图分类号：TP393 文献标识码：A

文章编号：1009-3044（2019）12-0006-02

开放科学（资源服务）标识码（OSID）：

1 背景

随着信息技术的发展，大数据越来越成为热门的话题[1]。使用大数据技术对就业岗位市场进行数据的分析对于学生职业生涯的规划有较强的现实意义。而就业岗位的相关数据动态连续的创建于不同的人才市场，受数量多、分布广、格式不统一等因素的影响，不易采用人工进行数据的获取。因此也就更不利于相关信息的分析。为解决这一问题，本研究先针对性的进行网络爬虫[2]的设计，再基于分词技术[3]和TD-FID算法进行关键词的提取的统计。

2 网络爬虫的关键技术

爬虫是互联网时代用于获取主题内容的主流工具之一。其可从不同的站点获取预先设置好的主题内容。在本研究中使用Python，并调用BeautifulSoup、Requests等库及数据库技术，进行爬虫的构建。构建爬虫涉及的技术如下：

2.1 HTTP请求与响应与 URL

爬虫的工作原理基于http协议中的请求与响应机制[4]。在浏览器浏览某个网页时，需要使用HTTP协议将URL提交给服务器。服务器收到URL后根据URL中携带的信息处理将对方所请求的资源回传给浏览器端。

爬虫在运行时模拟浏览器与服务器的运行特征，模拟浏览器向服务器发送URL请求，接收对方的回复，并最终将接收到的数据转换成要保留的数据。由于互联网网页错综复杂，一次的请求与回复无法获取批量数据，因此需要对爬虫的流程进行规划设计，使之适应多页面跨页面的情况。

2.2 超文本语言

超文本语言[5]也称为HTML（Hypertext Markup Language），在该语言中规定了相关事项的标签，并采用配对标记的形式进行使用。例如为了表示一个表格，可以使用

……

进行表达。浏览器接收到服务器的回复内容即为采用HTML表达后的结果。其网页源码是一系列HTML代码，里面包含了一系列标签。在进行网络数据获取前，需要对目标网站的数据特征进行分析，此时就需要查看网页的HTML格式。

图2展示了从51Job上相关招聘信息链接对应的HTML片段。可以看出标签的 href属性值是一个URL的链接，点击该链接后即可获得该职位的详细信息。

2.3 Web信息抽取

在获得目标网页的URL地址，通过请求可得到该网页内容。由于网页是HTML格式，中间嵌入了许多对于信息抽取不必要的标记。因此需要对数据进行一定的抽取。在具体Web页的抽取中，要根据页面的结构特点定位要抽取的信息。具体实践中，通过正则表达式可以高效的抽取具有固定特征的页面信息，准确性很高，而且由于现今的主流编程语言基本上都提供了操作正则表达式的封装API，所以可以很方便快捷地构建基于这种模式的web信息抽取系统。