APP下载

大数据校园招聘平台设计及初步实现

2021-06-16赖力潜余星洁曾晓勿陈舒琪

电子技术与软件工程 2021年5期
关键词:求职者画像可视化

赖力潜 余星洁 曾晓勿 陈舒琪

(嘉应学院 广东省梅州市 514015)

网络招聘因其信息全网互通、地域限制小、响应速度快等特点为求职者带来更多的就业机会、提供更全面的职位信息、降低了求职成本,为企事业单位扩大招聘覆盖范围、降低招聘成本、增加了招聘效率。

网络招聘平台的蓬勃发展带来了海量的线上求职招聘数据。这些数据有着的数据规模庞大、数据格式形式多样、数据价值密度低、数据增长速度快、数据真实性存在风险等问题。这些问题导致求职者尤其是应届生在网上求职时初选耗时较长、应聘成功率低、安全存在隐患等问题。而另一方面,真正有意向招聘应届生的企事业单位的招聘信息又被其他信息给淹没,导致这些企事业单位难以招到合适的应届毕业生,招聘企业与求职者之间的匹配效率问题始终有待解决。

大数据(Big Data),一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,它具有数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity)“5V”特征,已成为当前IT 行业最火热的技术之一。2015年9月,国务院印发《促进大数据发展行动纲要》系统部署大数据发展工作。而大数据技术的战略意义不仅仅在于掌握庞大的数据信息,更在于对这些含有意义的数据进行专业化处理,其中包括可视化分析、数据挖掘、预测性分析、数据和质量管理、数据仓库等。大数据技术在不同领域已经有了较多较成熟的应用。

因此,本文在现有技术的基础上,设计了大数据校园招聘平台(后续简称平台)。该平台通过多种方式采集求职招聘信息,对采集后的数据进行预处理、存储、处理与分析、数据可视化等,建立企业评分机制、求职者用户画像、求职招聘精准匹配机制,以解决在网络求职招聘过程中的虚假信息泛滥、求职效率低、安全存在隐患等问题,使得网络求职招聘更加高效且安全。

1 大数据校园招聘平台设计

依靠大数据技术,可实现对应届毕业生的求职招聘数据的采集、预处理、存储、处理分析、数据可视化。系统总计架构设计如图 1。系统功能模块以数据的加工顺序划分,在功能上保持统一,在软件设计开发上尽可能做到模块独立、向上透明,降低软件的耦合度,保证模块的可复用、可修改及可维护性。

1.1 就业数据采集

应届毕业生的求职招聘数据来源主要包括以下三种:

(1)雇主或者求职者注册登录后发布的招聘或者求职信息;

图1:大数据校园招聘平台总体框架

(2)平台用户分享的求职或者招聘数据,用户有效分享后将获得相应的虚拟货币奖励;

(3)从各大招聘平台、高校就业网站等获取的求职招聘信息。

数据采集必须保证安全性以及合法性:

(1)采集时遵守Robots协议采集网站公开信息,注意采集频率、时间点保证不影响数据源的正常运行;

(2)尽量不采集公司或者个人的敏感信息,对个人及公司信息进行加密处理;

(3)尊重各大平台及其他网站等数据源,工作岗位匹配后,如个人需要获取简历投递方式,需跳转到原平台访问。

1.2 数据预处理

由于数据源头差异性大、可靠性不足,采集的就业信息有很多脏数据,包括不完整、含噪声、格式不一样的数据。然而我们在数据处理分析的过程中,对数据有着一致性、准确性、完整性、时效性、可信性、可解释性的要求。只有基于准确的、高质量的数据进行分析,才有可能获得可信的分析结果,才能进一步得到正确的决策。就业信息数据预处理包含以下内容:

1.2.1 数据清洗

由于数据采集源头不一、数据格式不完整、数据真实性存在一定风险原因,采集的数据存在着数据部分元组缺失、噪声干扰、数据值异常等问题。平台对采集的就业数据进行偏差监测,并按照相关规则进行数据变换。

1.2.2 数据集成

图2:数据处理分析

数据源不一致导致采集的数据内容、属性、格式有着很大的不同。数据集成分为物理式数据集成、虚拟式数据集成两类。因为平台暂未有现成的数据库源头,因此该平台将采用物理式的数据集成。不同的招聘平台中,存在着大量的重复的冗余数据,需要进行冗余分析并删除重复的求职招聘记录;不同的平台,对公司名称、工作岗位的名称描述也可能不尽相同,比如有的使用全称、有的使用简称、有的使用中文名称、有的使用英文名称、需要对相关实体进行识别以达到等价实体匹配。

1.2.3 数据变换

将数据变换成为适合挖掘的形式,其中包括光滑、属性构造、聚集、规范化、离散化等等。

1.3 数据处理与分析

如图 2 将获取到的海量数据,结合机器学习和数据挖掘算法,进行处理、分类。对招聘岗位和简历进行分析,将受欢迎程度高的岗位或者简历匹配性高的的进行优先推送。

1.4 招聘信息可视化

对招聘信息及简历信息以可信赖、更准确可视化呈现给大众,帮助求职者或者企业更好的理解、分析这些数据,从而进行投递简历或者收取简历。主要包括工作区域热点图、应届生分布图、热门城市分布图、工作经验需求分布图等,如图 3。

图3:招聘数据可视化

2 核心功能设计

大数据校园招聘平台核心功能包括垃圾招聘信息清除、大数据企业评分机制、大数据用户画像、招聘信息匹配推送。其具体设计如下:

2.1 垃圾招聘信息清除

将虚假、失真、满员的招聘信息及时清理。如图 4,主要分为以下4 个步骤:S1:对清洗流程进行配置定义;S2:对清洗流程进行解析,将清洗流程转换为原子操作;S3:将清洗任务提交至集群;S4:对招聘数据进行清洗。

图4:垃圾招聘信息清洗

图5:大数据建立企业评分机制

图6:大数据构建用户画像

图7:招聘信息与用户画像匹配并推送

2.2 大数据企业评分机制

如图5,通过分析数据特征建立欺诈模型、预支付模型等模型来多角度、集成学习最终得到企业的信用评分。企业特征包括多维多角度的特征,比如企业总体状况、盈利能力、运营能力、债偿能力、获取现金能力、成长发展能力等等。

图8:大数据校园招聘平台移动端界面

2.3 大数据用户画像构建

如图 6 通过大数据构建用户画像,为企业招聘人才提供便利。用户画像包括用户的基础信息、项目经历、获奖证书、工作实习经理、工作期望、福利关注点的等内容。通过用户画像的构建,一方面可以让招聘者更加直观的获取到求职人员的信息,另外一方面,也为企业与求职人员之间的精装匹配与信息推送成为可能。

2.4 招聘信息匹配推送

如图7 所示,将招聘信息、企业评分机制与用户画像的进行优先级匹配,结果输送到Web 服务器,并最终推送到求职者或者企业HR,一方面减轻了用户的信息浏览量,另一方面又提高了求职招聘效率。

基于当前移动端用户迅速发展的现状,平台第一步实现了对手机端用户的支持与推送,具体界面如图 8。

3 小结

大数据校园招聘平台是一个针对在校大学生开发的校园招聘平台。该平台采用大数据技术,对海量数据进行采集、预处理、存储、处理与分析、数据可视化。招聘信息经大数据分析审核,虚假信息大量减少。可根据学生的需求精准推送就业信息,使学生能够在短时间内筛选出适合自己的招聘信息。平台目标利用大数据技术解决垃圾招聘信息泛滥、建立企业评分机制、建立求职者用户画像以致于解决招聘信息与用户精准匹配并推送等问题,使得招聘平台更加安全且高效,具有一定的创新性、先进性与应用价值。

猜你喜欢

求职者画像可视化
起初为娱乐,现在做招聘:直播帮中国求职者找工作
基于CiteSpace的足三里穴研究可视化分析
威猛的画像
基于Power BI的油田注水运行动态分析与可视化展示
“00后”画像
画像
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
加纳移民局招聘:有妊娠纹不行
民生表情