Python数据爬取在高职高专院校中的教学思考研究
2021-03-07胡文利刘雷
◆胡文利 刘雷
Python数据爬取在高职高专院校中的教学思考研究
◆胡文利 刘雷
(江西工业职业技术学院 江西 330039)
Python爬虫工具是一种全新的计算机程序,近年来被广泛应用到各个领域,在高职高专院校教学的过程中,可以利用Python数据爬取,在学习平台中挖掘数据,充分利用学习法平台中大量的数据。此外,高职院校人才培养以就业为主要目标,将Python爬虫工具应用到高职职位筛选中,能够帮助学生第一时间筛选出自己心仪的岗位,有助于提升高职就业率。高职学生就业前夕,院校要组织学生做好市场调研,尤其是在网络信息时代背景下,招聘网站成为学生获取招聘市场信息最为便捷的途径,为了在海量的招聘信息中筛选出有价值的信息内容,学生可以应用Python爬虫工具,在这种全新的数据分析语言下,学生可以轻松简单的掌握,并灵活获取有价值的信息,提升高职院校学生就业质量与效率。
Python爬虫工具;高职高专;就业支持
在信息时代背景下,云计算技术、互联网技术、物联网技术对我们的生活与工作带来了极大的变化,社会各个领域都受到大数据技术的影响。教育领域也不例外,每天都会产生大量的教育数据,来源也各不相同。网络爬虫工具就是其中之一,灵活熟练的应用Python爬虫工具对高职院校教育教学发展有积极推动作用。
1 Python爬虫工具
Python爬虫工具具有面向对象解释性的特点,是一种新型的计算机程序语言,虽然其诞生时间并不长,但能够与经典的C、C++语言联结应用,具有语法简洁、标准库丰富、第三方库强大的特点,且容易扩展。Python已经出现逐渐取代其他计算机编程语言的趋势,是当前常被应用的网络爬虫与机器学习工具。大数据技术渗透到教育领域后,促进了教育信息化发展,教育数据搜集方式也发生了全新的变化,在Python爬虫工具的支持下,获取网络教育数据的速度变得越来越快,途径也变得愈发便捷。同时也考验了对计算机语言使用的熟练程度。面对海量的教育数据,如何从中获取对自身最有价值、最为所需的信息是每个高职高专教育工作者都要考虑的问题。网络爬虫会根据预先制定好的规则,自主抓取万维网信息的一种脚本或程序,常被人成为网络蜘蛛与网络机器人。Python爬虫工具主要类型有:通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫,在实践应用的过程中,会将几种爬虫技术综合应用。在当前背景下,单纯应用搜索引擎已经无法及时、精准获取我们需要的信息内容,在网络信息爆炸的年代,还会在搜索的同时附带出大量的广告信息,Python爬虫工具的诞生,可以有效解决这一问题。
2 以Python技术为基础对数据学习平台进行挖掘
近年来我国高职高中专院校陆续应用线上学习平台进行教学,降低了教学难度便于教师教学及学生学习。在大数据技术支持下,在线学习平台中积累了大量的数据信息,但高职高专院校在线学习平台中积累的数据信息并没有充分发挥出有效的作用与价值。追其根本原因主要体现在以下几个方面:第一,绝大多数高职高专院校的线上教学平台,都是经软件公司开发的,教师对教学平台的数据库结构并不了解,数据挖掘效果并不理想。第二,从学习平台现状分析来看,在设计方面存在一定的不足之处,后续数据挖掘难以有效进行,没有将一些关键的字段存入其中,使积累的数据无法进行数据挖掘,效果也十分不理想。第三,很多高职高专院校的数据挖掘软硬件有待更新,数据挖掘需要从海量的数据信息中获取未知的、可理解可操作的信息。Python是一种对对象进行解释的程序设计语言,其具备操作简洁、容易应用的特点,能够跨平台运行,近年来得以广泛应用并积累了丰富的开源程序库。机器学习使计算机程序有针对性地完成特定任务不断积累经验,从而提升质量与效率。众多高职高专院校都陆续应用机器学习,而深度学习属于机器学习的一部分,近年来也逐渐受到人们的重视与关注,尤其是在信息技术与互联网技术高速发展的时代背景下。在视觉识别、语音识别及自然语言处理方面,深度学习都发挥了广泛的作用与应用价值。
(1)学习平台的数据
高职高专院校学习平台中的数据主要分为两类,一类是存储在数据库中的结构化数据,还有一类是存储在文件系统中的非结构化数据。其中结构化数据以平台中的结构化数据,主要包括学生信息表、教师信息表、考试信息表、课程信息表、知识点信息表等。非结构化数据主要包括教学视频、PPT 、word文档等。这些教学材料有图片有视频生动形象,备受学生喜爱,是当前学习平台中主要的教学载体。需要注意的是每个视频播放时间不宜过长,确保学生能够集中注意力。在每段视频中设置一个知识点,直接用知识点的名称命名视频方便师生查询与应用。在课程更新的过程中,短视频发挥了有效的作用能够将课程内容的知识点直接呈现给学生,学习平台的文件系统中不仅有短视频,学习资料还包括教师上传的各种附件如PPT 、word等文档。
(2)数据挖掘的目的与技术途径
在学习平台班级中的学生学习的内容是相同的,并没有根据学生的具体情况,设置有针对性的学习服务。将数据挖掘应用到学习平台中,其目的是根据学生的个体情况为学生匹配相应的学习资源,从而有针对性地提供学习服务达到因材施教的目的。此前要对学生及其学习信息进行分析与挖掘,掌握学生的喜好及具体的学习情况,进而开展学习资源挖掘分析活动,自动为学生进行学习资源匹配,满足学生的学习需求与个性特点,为教师筛选出适合其教学课程的学生。结构化数据的特点是以表格形式组织,列表示了不同的特点,行表示了不同的样本,在对结构化数据进行分类与分析时,通常会应用机器学习中的决策数的计算方式,其中最具代表性的是梯度提升决算方式,此种决策算法优势在于能够处理非归一化的数据。卷积神经网络也是深度学习中常备应用的一种技术手段,其优势在于对图像等数据的处理,循环神经网络的优势在于处理时间等序列数据。深度学习不仅在性能方面具有明显的优势,而且能够实现自动化的方式提取特征。与以往传统机器学习相比,无需进行人工提取操作环节问题变得更加清晰可见,应用深度学习可以从感知数据中提取出人们所需的所有信息。
(3)结构化数据挖掘
应用 Stick learn学习平台的结构化数据实施机器学习,要依次按照步骤进行操作。如数据采集与标记、数据清洗、特征选择、模型训练与测试、模型选择模型使用等。而模型训练与测试通常需要大量的计算,在进行训练的过程中要耗费较长的时间,完成模型测试内容后输入全新的样本,对模型进行调试便可得到最终的结果,再对结果进行解释与应用。在机器学习模式下能够对学生进行聚类分析,有助于教师根据学生的具体情况与类别设计出不同的教学对策。实施知识点评论数据与课程评论数据分类有助于对教学进行持续优化与改进,根据学生对知识内容的掌握情况预测出学生最终的考试结果,指引学生调整学习方法。
(4)非结构化数据挖掘
在对学习平台中的非结构化数据进行深度学习时应用Keras作为技术支持,并用 TensorFlow作为后端引擎。在进行深度学习前,先要确定明确的方向开展数据收集工作,确定评估目标成功的具体方法。为了在神经网络处理过程中确保原数据的适用性,需要预先对数据进行向量化标准化及缺失值等处理。在构建模型时,经常会应用卷积神经网络分析文本数据与音频数据,在对图像数据进行分析时,通常会应用二维卷积神经网络。在对视频数据进行分析时,通常会应用三维卷积神经网络,并且不断对参数进行调节,对模型进行不断优化与改进。在神经网络中输入全新的样本便可以得到最终的结果,然后解释结果并应用结果。在深度学习模式下,会以课程视频中的视频或音频信息为基础,自动生成视频相关的文字介绍。以相关内容为基础,对学习资源进行类别划分,可以自动理解并回答问题,还可以自动生成学习资料,将学习平台中结构化数据的挖掘结果与非结构化数据的挖掘结果有机结合,能够帮助教师找到适合其所授课程的学生,并且能够为学生匹配出适合其学情与特点的学习资源,从而提升教学的针对性。
2 Python爬虫工具搜取招聘信息
以高职高专院校学生最常使用的招聘网站为例,对地点在“杭州”的招聘岗位“计算机、互联网、通信”为例。在招聘网站中使用Python数据爬取的方式,获取相关的岗位招聘信息。具体操作程序:
这组代码是通过循环语句,连续构成类似的URL,让计算机系统能够对网页进行自动访问,在代码的支持下,使其自动运行,从而能够在招聘网站中获取批量信息,在Python中re模块的作用下,通过正则表达式从中过滤出为自己所用的数据信息。但是很多网站已经采取了相应的对策,使爬虫软件不再奏效,利用Python软件在招聘网上挖掘信息,并对岗位信息中的分词进行处理,统计分词出现频率,了解岗位的热门度。以搜集计算机、互联网、通信相关岗位为例,能够了解到其中被提到最多的三个词分别是:运营182、媒体60、网络22,可见在杭州地区计算机类岗位需求量最大的是运营相关岗位,能够占所有岗位的五分之一以上,媒体类的岗位紧随其后,可见在信息技术高速发展的时代背景下,信息类人才十分紧缺,已经从原有单纯的技术类岗位转变为技术与服务相结合的岗位,如媒体传播、数据维护、运营管理等,在对岗位提出具体要求的基础上,利用Python数据爬取工具进行同频统计得知,排在前三的词语为:沟通、管理、经验,当前计算机专业人才不仅要具备专业技术,还要具备良好的沟通能力与项目管理能力。
3 结束语
综上所述,利用Python工具能够高职高专院校学习平台的数据进行有效挖掘,匹配最佳的学习课程与学习资料。Python工具对招聘网站的信息进行分析与获取,能够帮助高职高专院校学生掌握最新的招聘动态,便于学校第一时间掌握市场对计算机人才的需求,进而有针对性地对学生进行培养,设置有利于学生日后求职的课程。在为学生指明就业方向的同时,能够为院校教育教学提供有效的参考。
[1]王世纯,许新华,张洪春,等. 个体差异对Python爬虫获取教育大数据的影响研究[J]. 中国教育信息化,2018,000(005):79-81.
[2]艾沛钰,闫丽. 基于Python的互联网数据爬取与解析的研究与实践[J]. 信息与电脑(理论版),2019(17).
大数据时代下基于Python的高职教育信息爬取与数据分析(类型:一般项目,编号:GJJ191677)