基于大数据技术的高职院校软件技术专业目标岗位调研模型的研究与探讨
2021-12-24于洋
于 洋
(辽宁省交通高等专科学校, 辽宁 沈阳 110122)
1 背景
自从工业和信息化部正式印发了 《软件和信息技术服务业发展规划(2016—2020 年)》 以后,该规划就作为指导“十三五” 时期软件和信息技术服务业发展的纲领性文件, 对推动软件和信息技术服务业由大变强、 实现发展新跨越具有重要意义。 高职院校软件技术专业一直承担着为软件和信息技术服务业提供高素质技术技能型的一线技术人员的社会责任。 如何培养学生, 使毕业生更好地满足软件信息技术服务于各企事业单位的需要是高职院校软件技术专业的最终培养目标。
软件技术专业的专业调研和目标岗位的确立在整个人才培养方案中具有突出的地位, 起着关键性的作用, 是人才培养方案中的直接导向和指挥棒。 只有进行大量的充分的专业岗位调研, 从中提取挖掘有效数据, 才能正确确立目标岗位。通过对目标岗位的调研, 确立软件技术专业的人才培养目标需求, 在将其转换为知识点和技能点, 而后落实到课程, 形成完整的课程体系。 因此, 软件技术专业的专业调研和目标岗位的确立是人才培养方案中的入手点和起始点, 对整个专业人才培养起着至关重要的作用。
目前, 高职院校软件技术专业岗位需求调研普遍采用传统的调研方式, 如济宁职业技术学院的刘迎春在 《高职软件技术专业调研与数据分析》 中提出的查阅资料法、 问卷调查法、 实地调研法、 座谈法、 电话访谈法等方法; 贵州电子信息职业技术学院的朱希伟在 《高职院校计算机网络技术专业(网站开发方向) 人才需求调研——以贵州电子信息职业技术学院为例》 中提出的对从事该行业的往届毕业生进行电话采访; 对从事该行业的IT 企业和相关技术人员进行实地走访交流。 因此, 在高职同类院校中软件技术专业的人才需求调研和岗位调研大多采用传统的调研方式, 如问卷、 访谈等。 传统调研方式具有一定的普适性和可行性, 但也存在以下弊端:
(1) 采样数据小, 无法规模化。
(2) 人为因素多, 存在主观片面性。
(3) 缺乏合理规划, 调研内容不完整。
2 相关技术
在数字为王的时代背景下, 大数据技术正在被广泛的应用到各行各业, 被大数据技术所捕捉、 处理、 分析和挖掘后是评估、 决策、 战略部署等的重要依据。
利用大数据技术对数据的处理流程为: 大数据采集、 大数据预处理、 大数据存储及管理、 大数据分析和挖掘、 大数据可视化和展示。
2.1 大数据采集
根据数据源的不同, 数据采集技术可以分为三大类: 日志采集、 网络数据采集和数据库信息采集。
我们日常工作、 生活和学习的环境中, 各种平台、 系统和程序会产生大量的日志用于记录我们的行为、 系统的反馈和程序运行的各种状态等, 因此, 有效的对日志数据进行采集、分析和挖掘具有重要的意义。 目前常见的日志采集技术有Flume、 Scribe 等。 Apache Flume 是一个分布式的、 高可靠的、 高扩展的基于流式数据的日志采集架构, 具有强大的容错能力。Scribe 是Facebook 开源的一款基于分布式共享队列的日志采集技术, 它不但提供容错能力,还具有将日志数据持久化存储到本地磁盘的功能。
对于来自于网络中的结构化和非结构化数据而言, 可以采用网络爬虫技术从网页中对数据进行提取、 清洗和转换 (ETL), 将其转换成结构化数据, 然后用于后期的处理、 分析和挖掘。 常见的网络爬虫工具有分布式网络爬虫Apache Nutch、 Java 网 络 爬 虫Crawler4j、 WebMagic、WebCollector 和非Java 网络爬虫Scrapy 等。 Apache Nutch 是一款高度可扩展、 高度可伸缩的分布式多任务框架, 支持Hadoop, 通过提交MapReduce 任务抓取网页数据, 并将他们存储在HDFS 分布式文件系统中。 Crawler4j 和Scrapy 是通过提供的爬虫API 接口来实现的数据爬取, 不需关心内部的实现原理, 大大减少开发周期, 提高了开发效率。
也有一部分数据来源于数据库, 这里的数据库可以是像MySQL 和Oracle 等的关系数据库,也 可 以 是 像 Redis、 MongoDB 和 HBase 等NoSQL 非关系数据库。 这部分数据通过在采集端部署的数据库进行负载的均衡和分片来完成大数据的采集工作。
2.2 大数据预处理
大数据预处理是指在对数据进行分析和挖掘前, 先对采集上来的原始数据进行的一系列如清洗、 填补、 平滑、 合并、 规格化、 一致性检验等操作, 使数据质量得以提高, 以达到减轻后期数据分析的难度, 提高数据分析的质量的作用。 大数据预处理主要包括数据清理、 数据集成、 数据转换、 数据规约四部分内容。
2.3 大数据存储及管理
大数据存储是指以数据库的形式将采集和预处理好的数据存储到存储器的过程, 主要包括三种情况: 基于MPP 架构的新型数据库集群、 基于Hadoop 的技术扩展和封装和大数据一体机。
与传统数据库不同, 采用Shared Nothing 技术结合MPP 架构的新型数据库通过列存储、 粗粒度索引等技术, 具有低成本、 高性能、 高扩展性等特点, 成为新一代数据仓库的最佳选择之一。
针对传统关系型数据库难以处理和解决的如非结构化数据的场景, 现在普遍采用基于Hadoop 技术的NoSQL 来实现数据的存储。 在整个Hadoop 架构中, HDFS 是出于底层的用于具体存储的分布式文件存储系统, 在其上有分布式实时列式存储数据库Hbase 和数据仓库系统HIVE。 Hbase 可以理解为HDFS 的封装, 是一种基于key/value 对性质的面向列的非关系NoSQL数据库, 侧重于最大化利用内存。 Hive 是基于Hadoop 的数据仓库, 将结构化数据文件映射为数据库表, 提供类似SQL 语言的针对静态数据的动态查询。 HDFS 主要用于解决大尺寸文件在磁盘上的存储, Hbase 和Hive 数据一般都存储在HDFS 上, 用来提供高可靠的底层的存储, 达到磁盘的利用率最大化。
2.4 大数据分析和挖掘
大数据分析可以分为广义上的数据分析和狭义上的数据分析。 广义上的数据分析包括狭义上数据分析和数据挖据。 这里所指的数据分析是指狭义上的。 大数据分析是指根据分析目的, 通过适当的分析方法对收集到的数据进行处理和分析, 并得到相应结论的过程。 大数据分析分为现状分析、 原因分析、 预测分析 (定量), 常采用对比分析、 分组分析、 交叉分析、 回归分析等分析方法, 最终得到如总和、 平均值等指标统计结果。
大数据挖掘是指从大量的数据中, 通过统计学、 人工智能、 机器学习等方法, 挖掘出未知的、 且有价值的信息和知识的过程。 大数据挖掘主要采用决策树、 神经网络、 关联规则、 聚类分析等统计学、 人工智能、 机器学习等方法, 解决分类、 聚类、 关联和预测 (定量、 定性) 等问题, 着重于对未知模式和规律的发现, 从而挖掘出有价值的信息。
2.5 大数据可视化和展示
经过分析和挖掘后的信息通过直观的图、 报表等形式展示出来的过程称之为大数据的可视化, 也称为大数据展示。 目前常用的可视化方式有两种: 基于Web 前端+Web 应用程序的可视化方法和现成的可视化工具来实现数据展示。 前者具有定制性强, 可以以任何形式对数据加以展示的优点, 但开发难度相对较大、 开发周期较长。后者具有开发简单、 展示形式丰富效果绚丽等优点, 但定制能力较差, 难于扩展。
3 基于大数据技术的高职院校目标岗位调研模型的建立
针对传统调研方式存在的弊端和问题, 本文提出了一种基于大数据技术的高职院校软件技术专业目标岗位调研模型。 该模型通过大数据网络爬虫手段大规模爬取人才市场数据, 通过对爬取数据的清洗和加工, 形成有效的海量的招聘岗位信息库; 收集近五年毕业生的岗位信息和岗位职责, 形成毕业生岗位信息库; 通过对招聘岗位信息库和毕业生岗位信息库中的岗位职责和岗位技能进行对比、 分析和挖掘, 最终确定形成软件技术专业人才培养规格的目标岗位和岗位知识能力技术要求。
3.1 目标岗位调研模型的建立
基于大数据技术的高职院校软件技术专业目标岗位调研模型中包括4 个实体对象: 招聘单位、 就业单位、 毕业生、 同类院校相关专业。 其中, 招聘单位的参数信息包括: 单位名称、 招聘单位地区及地址、 招聘岗位名称、 岗位所需人数、 招聘岗位需求、 薪资待遇等; 就业单位的参数信息包括: 单位名称、 就业单位地区及地址、就业岗位名称、 就业岗位接纳毕业生人数、 就业岗位需求、 薪资待遇等; 毕业生的参数信息包括: 毕业生学号、 就业单位名称、 就业岗位名称、 就业岗位技能要求、 在岗时间、 薪资待遇等; 同类院校相关专业的参数信息包括: 学校名称、 专业名称、 学校地点、 目标岗位名称、 核心课程等。
目标岗位调研模型中除了包括上述的4 个实体对象, 还包括实体对象间的关联关系。 招聘单位与就业单位是包含和被包含关系, 通过他们间的比对一方面可以反应出就业方向是否符合招聘市场的趋势, 根据招聘市场适时调整人才培养方案和课程体系使就业方向顺应招聘市场, 另一方面着重分析就业单位岗位所需人数、 岗位要求和岗位职责, 为目标岗位的确立提供依据。 通过毕业生、 就业单位与同类院校间的比对发现同一岗位本校软件技术专业毕业生与其它同类院校相关专业毕业生在就业岗位上的差异, 从而提取自身的优势和特色。
3.2 数据的采集
根据目标岗位调研模型中各实体的相关参数, 利用大数据的爬虫技术如Python 或Java,对以上信息进行爬取和采集。 采集时有些数据来源于已有的数据库, 如毕业生数据库、 就业单位数据库等; 有些数据来源于互联网, 这里主要是来源于一些招聘类网站, 如智联招聘、 51Job、Boss 直聘等, 这类数据的获取主要采用爬虫技术实现。
3.3 数据的清洗和整理
对爬取和采集到的数据进行清洗和整理, 形成相应的招聘岗位信息库、 就业岗位信息库、 相关院校目标岗位信息库等数据仓库。 数据清洗和整理是大数据分析、 挖掘前必不可少的工作之一, 只有完整准确的数据才能为分析和挖掘打下有意义的数据基础。 数据清洗和整理主要解决采集数据的不完全性、 噪声大、 不一致的问题。
3.4 数据的比对、 分析和挖掘
利用大数据分析和挖掘算法对数据仓库中的各类数据进行比对、 分析和挖掘, 得到软件技术专业的目标岗位和相应的岗位技能需求, 为软件技术专业人才培养规格中的目标岗位提供科学的数据依据, 为课程体系的建立提供数据参考。
4 结论
大数据作为新的生产要素在各行各业得到广泛的应用。 本文将大数据应用于高职院校软件专业人才培养规格的目标岗位调研中去具有以下意义:
(1) 以海量数据为基础, 更加凸显数据的客观性。
(2) 利用大数据网络爬虫技术, 形成招聘岗位信息库, 体现全面性。
(3) 根据近几年毕业生岗位信息, 形成就业岗位信息库, 体现基准比对性。
(4) 对比招聘岗位信息库和就业岗位信息库, 修正人才培养规格的目标岗位, 体现可修正性。