大学计算机类专业就业分析系统的设计与实现
2022-05-12强振平
郭 佳,李 宁,张 叶,强振平
(西南林业大学大数据与智能工程学院,昆明 650224)
0 引言
高校毕业生就业是全社会就业的重要组成部分,高等教育的快速发展疫情给大学生就业带来了新挑战。据教育部统计,2021年我国大学毕业生人数预计将突破909 万,首次突破900万大关。2022年在新冠肺炎疫情等多重不利因素影响下,应届毕业生就业形势愈加复杂严峻,疫情的突发给高校就业工作带来招聘形式变化、信息平台建设欠缺、学生焦虑情绪增加等困难和挑战。近年来,我国互联网科技发展迅速,加上传统行业和计算机融合日益加深,导致IT 行业人才缺口巨大。面对网上日益复杂的就业信息,如果能够直观地看出各个行业的岗位特征和变化趋势,将有利于学生们做出选择。
针对以上背景,本文基于Python 设计了大学计算机类专业就业分析系统,从多个角度进行可视化,清晰的将目前市场的计算机行业岗位需求分布、学历、经验要求、各个城市平均薪资、发布招聘数量等进行展示,以期为大学生获取并分析就业信息提供帮助。
1 数据和方法
本设计采用Python和Flask 框架进行开发,利用Python 爬虫技术爬取BOSS 直聘网的招聘信息数据,包括各地区计算机岗位的平均薪资待遇、计算机类岗位数量、岗位需求学历信息、经验需求信息、 城市发布的招聘数量等。同时结合PostgreSQL 关系型数据库对数据进行存储,然后进行数据分析并反馈处理后的信息推送,最终将结果通过可视化展示出来。系统设计如图1所示。
图1 系统设计
1.1 数据来源
近年来互联网上涌现了大批网络招聘平台,较以往通过报纸刊登招聘信息和线下开展招聘会的方式显得十分便利,但网上的招聘信息日益繁杂,选择认可度较高的数据源进行就业信息分析显得尤为重要。本文通过问卷调查公众认可度的方式,从众多招聘网站中确定以Boss直聘网(https://www.zhipin.com)作为数据源。
1.2 数据采集
本文通过selenium 库驱动Google Chrome 浏览器进行自动化操作模拟人工操作浏览器网页的动作爬取数据。在Python 程序访问网站的过程中,由于网站自带禁止非注册用户访问详细信息的安全机制。故使用Session 维持同一请求,随后获取该对话的cookie 信息,将获取到的cookie 加载到爬虫程序进行访问,可有效的解决未注册用户限制访问的问题,随后对相关岗位信息的json 格式的数据进行获取。成功后会自动将爬取的信息通过循环调用函数将数据逐条插入到PostgreSQL 数据库。文所使用的Python 爬虫程序会在服务器上定时启动以采集一段时间内由各企业所发布的最新招聘数据。获取的数据如图2所示。
图2 获取的数据实例
1.3 数据集存储
本文所使用的都是结构整齐的数据,所以采用PostgreSQL数据库对数据进行存储。共计使用8张表,分别用于:存储招聘网站中的岗位数据、存储爬取数据时所用到的cookie、存储全国各地区的名称和编号、存储爬取的岗位名称、存储判定为计算机岗位的关键词、存储分析所得结论数据、存储用户登录状态信息、存储用户提交的简历数据。如表1 数据库及其描述表所示。
表1 数据库及其描述
数据库设计结构图如图3所示。
图3 数据库设计结构
1.4 数据分析、统计
系统在请求获取job_data 表中存储的所有岗位数据后对其进行计算,随后对全国范围内的计算机岗位需求比例、岗位学历要求、项目经历要求、各城市发布岗位数、各城市计算机岗位平均薪酬等数据进行分析。在分析结束后,系统将结果保存到web_data 表中。系统将分析和统计的过程中使用的后端数据处理分为状态数据和近实时数据。状态数据一天计算两次,在web_data 表中使用statue=1 标记。近实时数据每分钟计算一次,用statue=2进行标记。系统将按照statue 来区分并获取数据。最终,分析结果将以可视化的形式在前端进行展示以供用户查看。
2 系统设计和功能
截止2021年6月,毕业生数量持续增长,但就业率不容乐观。中国2000—2021年毕业生数量及就业率可视化如图4所示。
图4 2000—2021年毕业生数量及就业率可视化
2021年近五成毕业生就业岗位与专业总体对口率显著提高、就业满意度保持高位略有下滑、考虑离职率略有上升。其中,自我因素对计算机类毕业生影响最大,因此,了解计算机岗位的人才需求和认清自己的定位是求职的必要前提。本文针对岗位需求、城市招聘信息等大学生亟待了解的问题展开设计。系统架构如图5所示。
图5 系统架构
2.1 岗位需求分析
根据岗位需求比例图,可以发现企业对后端开发、项目管理等岗位的需求较大,其中后端开发岗位占整个计算机岗位需求的21%,销售通信等岗位的需求量则较少。如图6所示。建议希望未来从事专业IT 行业的同学努力提升自己编程能力,扩展知识面,在选择岗位时可优先考虑后端开发类、项目管理等岗位信息,以获取更多的机会。
图6 岗位需求比例
根据岗位学历需求分布图,可以发现人工智能岗位对学历要求最高,要求研究生的岗位占比为23%,本科占比62%。如图7所示。
图7 岗位学历分布
通过岗位经验需求分布图我们可分别查看各岗位对人才经验的需求。如图8所示。
图8 岗位经验需求分布
结合岗位学历需求可以分析得出通信、运维、销售技术支持等岗位低学历要求比例较高,人才经验要求比较低,因此该类岗位对操作能力和理论基础的要求不高,适合学习能力较差且基础不好的同学。而数据、后端开发等岗位与人工智能岗位相比较,本科学历需求占比大,且大部分要求3年以上经验。对学历比较高的岗位同时也需要更多的工作经验,因此我们可以发现该类岗位既注重操作性,也需要足够的理论基础。
根据企业对IT 需求图,可以发现近年来随着传统工科和计算机的结合,计算机科技逐渐融入到医疗健康机械重工等传统行业中,企业对IT 行业的需求比例逐渐增大。如图9 所示。大学生在校期间应多了解并尝试实现跨学科融合项目,以提升在同级应聘者中的综合竞争力,在毕业选岗时可获取更多的行业选择。
图9 企业对IT需求分布
2.2 城市招聘信息分析
在平均薪资情况图中,可以发现计算机行业薪资较高的城市集中在我国的东部沿海,其提供的岗位数量也远远高于内陆,其中北京、上海、杭州的计算机岗位的平均薪资位列全国前三,其次是国内经济发展比较好的新一线城市。如图10 所示。大学毕业生在选择工作时可优先考虑沿海城市或新一线城市,以获取更高的薪资待遇。
图10 城市平均薪资分布
根据热门城市企业招聘信息发布量图,可以发现全国计算机行业在每年的12月份发布的岗位数量最多,其次是9月份。如图11所示。
图11 热门城市招聘发布量
结合近2个月城市招聘数量分布图,可以发现广州在近2个月招聘数量占据全国最高,但在11月份到次年1月份这段求职黄金时期中广州发布的岗位数量远远低于北京。如图12 所示。有意向在北京就业的大学生可在12月份时多关注各招聘网站发布的招聘信息。为获得更多的求职机会可多关注广州、成都、北京、深圳等城市在一年内的其他时间发布的招聘信息。
图12 近2个月城市招聘数量分布
3 结语
本文依托大学计算机类专业就业分析系统的设计展开,对系统的实现过程和功能进行概述。对当前企业计算机岗位人才的需求进行整理及分析,有效的降低了求职者手动翻页浏览招聘信息的时间成本。同时,本文结合分析结果向在校大学生职业规划提出意见与建议,以期其在校期间对自己的职业规划更加明确。本文的不足之处在于采用的数据源单一且缺少用户个性化设计,我们后期会继续做更深的挖掘和研究,工作重心将放在多个招聘网站招聘信息的获取并实现面向单用户的个性化开发,增强用户体验,争取为帮助大学生就业发挥更大的作用。