高职院校教育信息爬取与数据分析研究
2021-10-29刘雷胡文利
◆刘雷 胡文利
高职院校教育信息爬取与数据分析研究
◆刘雷 胡文利
(江西工业职业技术学院 江西 330039)
基于高职院校的信息爬取采用了一种综合数据爬取方法,该方法使用了深度优先及反链优先策略相结合技术,开发了一个根据关键词检索高职教育教学信息的检索系统,为高职院校的信息爬取及检索工作提出了一种方法,以供相关研究参考。
高职院校;网络爬虫;爬虫分类;高职教育
1 引言
在当代大数据背景下,各行业对数据获取的准确性提出了越来越高的要求,在这种趋势下,需要优化检索方法以精准地获取目标的准确信息。从现阶段来看,各大搜索引擎技术可以满足部分需求,但是搜索引擎所获取的数据大多被广告和其他不需要信息所占满,如何精准获取到自己想要的数据,特别是行业数据,现阶段可以利用爬虫技术进行分析,通过网络爬虫技术,提高数据检索质量。
在此背景下,如何利用深度挖掘数据技术,以便使优质教育教学资源实现共享。通过使优质的教育教学资源的共享能够逐渐缩小到不同地域、不同学校,从而减少资源的差异性。为了提升高职教育教学的质量,利用深度挖掘数据技术,以便使优质教育教学资源实现共享。
2 爬虫分类
现阶段,网络类型的爬虫有很多种类,实现的方式方法大同小异,现将网络上典型的两种爬虫进行分类分析,包括通用型爬虫和聚焦型爬虫。
2.1 通用类型爬虫
通用型爬虫的爬取步骤一般分为四个:
第一步:通用型爬虫先进行网络地址初始化。初始化的网络地址可以是一个也可以是多个,网络地址由用户自行选择。
第二步:网络爬虫依据用户输入的网址,开始爬取网址对应的页面,并对页面中的获取信息数据存储到原始数据库中,在存储数据的同时,将页面中发现的新的网络地址,存放到预先设置的URL列表中,当数据保存完成后,再用于判定是否开启新的进程用于逐条爬取URL列表中的网址。
第三步:将URL列表中的网址根据第二步的算法进行爬取新的页面数据和新的URL网址,分别存放到数据库和URL列表中,重复二、三步过程。
第四步:在URL列表中或者根据用户预先设置的停止条件,停止数据爬取。并将数据库中的信息进行赛选分析,获得可用信息,其流程图如图1所示:
图1 通用网络爬虫采集数据流程图
2.2 聚焦类型爬虫
聚焦型爬虫与通用型爬虫相类似,但是其更具有目的性,因此相比于通用型爬虫而言,添加了目标的定义和URL过滤机制,即在通用型爬虫基础上额外添加三个关卡,包括目标的定义、链接的过滤及URL筛选功能。其步骤如下所示:
第一步对需要爬取的内容进行范围划定,选取爬取目标。找到需要爬取内容相关的网站URL,以便爬取的范围具有相关性,并且将爬取范围缩小。
第二步:针对性的选取URL进行初始化。初始化的URL 可以是一个也可以是多个,URL地址由用户自行选择,一般情况下根据需要爬取的行业网址进行选择。
第二步:网络爬虫依据用户输入的网址,开始爬取网址对应的页面,并对页面中的获取信息数据存储到原始数据库中,在存储数据的同时,在所检索的页面中发现新的网络地址时,便开始从新的网络地址中获取目标信息,并将过滤掉的URL存放到预先设置的URL列表中,当数据保存完成后,再从网络地址队列中,根据网络地址的检索算法,设置其访问优先级别,通过优先级别,来设置下一个目标地址。用于判定是否开启新的进程用于逐条爬取URL列表中的网址。因为不同的爬取检索顺序,可能导致爬取效率和结果不同。
第三步:将URL列表中的网址根据第二步的算法进行爬取新的页面数据和新的URL网址,分别存放到数据库和URL列表中,重复二、三步过程。
第四步:在URL列表中或者根据用户预先设置停止条件,便停止检索页面中的数据操作。并将数据库中的信息进行赛选分析,获取到有用的信息。其流程图如图2所示:
图2 聚焦类型爬虫采集数据流程图
3 爬行策略分析
上面针对爬虫的分类进行了简要描述,但是网络数据爬取的过程中,针对URL列表中多个URL网址数据,如何选取合适的爬取顺序,是一个关键。通常情况下,针对通用型爬虫来说,爬取的顺序选择对数据爬取的结果和效率影响不大,但是针对通用型爬虫爬取数据量大且内容相识度可能不高,冗余量非常大。相对于聚焦类型的爬虫来说,所需要检索的数据具有很强的目的性,因此选择爬取URL网址的顺序至关重要,因为选择不同的爬行策略会大大影响爬行的结果和效率。下面针对一些常用的爬行策略,进行分别介绍。
常见的爬行策略包括深度算法优先、广度算法优先、大型网站优先、反链式优先策略等。
3.1 深度算法优先策略
如图3所示,假如网络上有一个待爬取的网站,A1,A2,A3,An,A11,A12,A1n,A31,A32,A33,A121,A122,A12n,这些页面分别是该网站下的不同页面,其箭头是网页所在网络层次结构。
图3 待爬取网站页面网络层次结构表现图
假设该网站的网页A1,A2,A3,An,A11,A12,A1n,A31,A32,A33等在等待队列中排序,根据现有的爬行策略,所获取的数据结果是不同的。
如果按照深度算法优先去爬取数据的话,此时会先爬取第一个目标网页,然后根据这个网页的下一层网络超级链接依次深入爬取完整个目录结构再返回到上一层目录结果进行数据爬取。
按照深度算法优先的爬行策略规则,图3-3网站中的页面检索顺序是:
A1→A11→A12→A121→A122→A12n→A1n→A2→A3→A31→A32→A33→An。
如果按照广度算法优先规则去爬取数据,在这种情况下,爬取第一个网络目标网页,然后在该页面同层次的其他网页将会在后续的爬取队列中等待,待将该层次的所有页面遍历完成后,在爬取该页面的其他层次页面继续遍历,直至该网站的所有页面被遍历完全。因此,按照广度算法优先的策略,图3网站中的页面检索顺序是:
A1→A2→A3→An→A11→A12→A1n→A31→A32→A33→A121→A122→A12n。
除以上两种爬行算法策略外,大型网站优先爬行算法策略也经常使用。在该种策略算法中,会将网站中的所有对应网页进行分类,如若页面数量很多的情况下,该网站统称为大站,如果按照大站优先策略,网页数目越多的网站优先爬取。
反链优先策略是根据该网页被其他网页指向或者引用的次数,因为这个次数在一定程度上表示该网页被其他同类网页引用、推荐的次数。因此,如果按反链优先策略去爬取数据的话,这种反链数量越多,该网页将会被优先爬取。
4 数据的爬取与实现
基于高职院校的信息爬取采用了综合爬取方法,该方法使用了深度优先及反链优先策略的结合技术,开发了一个根据关键词检索高职教育教学信息的检索系统,该系统将网络中零散的数据信息,通过在线数据分析,将符合条件的URL保存到线下数据库中。具体方法简要描述如下:
(1)为了爬取目标数据,检索网页中的网络关键词,并将获取的数据进行分类统计分析,在所有网页中获取到最有结果即为符合条件的最优质网页。
(2)将有可能在爬取过程中丢失的数据,使用pandas 包进行二次处理,并将获取的网络地址信息存放到数据库中或者本地表格中。
(3)将数据进行数据在处理,该操作包括数据预处理,数据在分析,保存操作等。
(4)综合测试,将所爬取的数据进行综合分析并测试,得到最后的爬取结果。
5 总结
文章首先对网络爬虫进行了简要的描述和分类,爬虫包括通用类型爬虫,聚焦类型爬虫。但是针对通用类型爬虫爬取数据量大且内容相识度可能不高。相对于聚焦类型爬虫而言,所需要的爬取数据具有很强的目的性,因此根据该特性,描述了常用的爬行策略,包括深度算法优先、广度算法优先、大型网站优先、OPIC策略等。选择不同的爬取策略会大大影响爬取的结果和效率。基于高职院校的信息爬取采用了综合爬取方法,该方法使用了深度优先及反链优先策略的结合技术,开发了一个根据关键词检索高职教育教学信息的检索系统,系统仍处于试用阶段,仍有爬取耗时多、爬取数据精准度不够等问题,仍需继续进一步完善。
[1]李连天.基于大数据技术的岗位信息爬取与分析[J].信息与电脑(理论版),2021,33(02):177-180.
[2]简悦,汪心瀛,杨明昕.基于Python的豆瓣网站数据爬取与分析[J].电脑知识与技术,2020,16(32):51-53.
[3]刘晓知.基于Python的招聘网站信息爬取与数据分析[J].电子测试,2020(12):75-76+110.
[4]傅骏,郑丁元,张峻宁,莫成,高一心.Python爬虫技术在文献计量学中应用实践[J].计算机产品与流通,2019(07):133.
[5]仇明.一种教育舆情的爬虫程序设计[J].河北软件职业技术学院学报,2021,23(01):12-14+18.
大数据时代下基于Python的高职教育信息爬取与数据分析(项目类型:一般项目,项目编号:GJJ191677)