APP下载

构建基于大数据的高校就业信息服务系统

2017-07-01林嘉燕福建信息职业技术学院福建福州350003

长春师范大学学报 2017年6期
关键词:结构化数据处理数据库

林嘉燕(福建信息职业技术学院,福建福州 350003)

构建基于大数据的高校就业信息服务系统

林嘉燕
(福建信息职业技术学院,福建福州 350003)

当前,高校就业形势严峻,如何利用大数据技术改善高校就业信息服务是一个值得研究的问题。通过分析大数据的定义、关键技术和高校就业信息服务现状,本文提出构建一个基于大数据的高校就业信息服务系统,详细阐述基于大数据的高校就业信息服务系统的业务流程,并给出系统的基本架构。

大数据;就业;非结构化;分布式;推荐

随着毕业生总体人数逐年提高,就业形势日益严峻。原有的高校就业信息服务系统所能提供的支持微乎其微,急需找到一个更好的方案来改善当前的局面。与此同时,随着互联网信息技术的发展,特别是移动互联、物联网和云计算等新兴技术的不断成熟,各行各业、各个职能领域中所蕴含的大数据能量正在逐渐迸发出来。维克托·迈尔·舍恩伯格在《大数据时代》一书中指出:“大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型”[1]。因此,在当前阶段,研究如何利用大数据思维方式来构建一个全新的高校就业信息服务系统,以便于更好地服务于高校应届毕业生的就业工作、推进高校教改工作和教育管理工作的长足发展,显然具有积极的现实意义。

1 大数据简介

1.1 大数据的定义

从运营式系统阶段的被动生成到用户原创内容阶段的主动生成,最后到感知式系统阶段的自动生成;数据产生方式不断变革直接导致数据生成速率迅速增长,继而引发数据存储单位从Megabyte、Gigabyte、Terabyte、Petabyte到Exabyte的发展,最终催生了大数据时代。虽然近几年大数据日渐流行,但是目前对于大数据的定义尚未形成公认的定论。

维基百科对大数据的定义:大数据是指使用常用软件工具获取、管理和处理数据所耗时间超过可容忍时间的数据集[2]。全球知名的咨询公司麦肯锡研究院(MGI)于2011年6月发布名为“Big Data:The Next Frontier for Innovation,Competition,and Productivity”的研究报告中对大数据的定义是:大数据指大小超过常规数据库工具获取、存储、管理和分析能力的数据集,同时,并不是一定要超过特定TB规模的数据集才能算是大数据[3]。IBM提出大数据的3V模型,即大数据具备海量性(Volume)、多样性(Variety)和高速性(Velocity)三个特征:海量性指数据量巨大,数据规模达到TB级及PB级;多样性指数据类型繁多,包括结构化数据和非结构化数据;高速性指数据创建、处理和分析的速度持续在加快[4]。目前,接受度比较高的是IBM重定义的4V定义,也就是在3V的基础上添加了真实性(Veracity)。

1.2 大数据的存储

大数据时代数据处理的理念不再着眼于数据的抽样、精确性和因果关系,转而关注数据的全体性、高效率和相关性[1]。数据从传统单一的结构化形式发展到结构化、半结构化和非结构化三种形式并存、数据访问的高并发度、数据处理形式多样化都需要有一种新的存储方式。

1.2.1 文件系统

文件系统是一个系统的基础,大数据系统因其独有的特性需要一个全新的文件系统来支撑。产业界和学术界都非常关注大数据文件系统的研发。常见的大数据文件系统有GFS、HDFS、QFS、PVFS、Ceph、Lustre等。其中GFS是Google推出的一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问。它运行于廉价的普通硬件上,可提供容错功能和高性能服务[5]。虽然,Google公布了实现GFS系统的论文依据却没有开放源代码。2005年秋天,受到资助的Hadoop项目在GFS基础上研发出了Hadoop文件系统HDFS。目前,HDFS已经成为应用最为广泛的开源文件系统。

1.2.2 数据库技术

数据库(Database)是按照数据结构来组织、存储和管理数据的仓库。大数据环境下的数据结构有结构化数据、半结构化数据和非结构化数据;传统的数据库难以满足多样化的海量大数据的需求。因此,在大数据环境下,针对不同数据结构的数据往往使用不同的数据库技术。针对传统结构化数据可以采用传统的RDMBS,而对于半结构化数据和非结构化数据可以采用NoSQL数据库。常见的NoSQL数据库有Bigtable、Hbase、Cassandra、HyperTable、Redis、MongoDB、CouchDB、LevelDB等。

1.3 大数据的处理

根据应用场景不同,可以把大数据处理技术分为三大类[6]。

1.3.1 批量数据处理

批量数据一般是静态存储的可重复利用数据,这类数据精确度较高,但同时因为数据量庞大,往往价值密度低。Google的GFS+MapReduce组合就是一个批量数据处理系统;而在此基础上开源实现了HDFS和MapReduce的Hadoop更是被广泛使用的经典批量数据处理系统。目前,鉴于MapReduce存在的单点故障和性能瓶颈,已经推出Hadoop MapReduceV2(Yarn)分布式计算框架。

1.3.2 在线数据实时处理

与批量数据不同,在线数据往往对实时性要求很高,可分为流式数据和交互式数据。典型的在线数据实时处理系统有Google的Dremel、Berkeley的Spark、Twitter的Storm。

1.3.3 图数据处理

图形数据库是一种特殊的NoSQL数据库,它利用图形理论来存储实体之间的关系信息,大量应用于社交网络和推荐系统中。图数据作为一种独特的数据,它的处理复杂度远高于前面两种。目前,比较典型的图数据处理系统有Google的Pregel系统、Neo4j系统、Twitter的FlockDB、Apache的Giraph和微软的Trinity系统。

2 高校就业信息服务现状

根据教育部公布的数据,2016年全国高校毕业生人数达到765万的历史新高,就业形势日渐严峻。但是,目前整个高校的就业信息服务现状不容乐观。纵观各省各高校的就业信息服务,基本以线上就业信息网和线下人才招聘会相结合的方式。线上就业信息网主要分为省毕业生就业公共网(或信息网)和各个高校就业信息网两块,无论是省毕业生就业信息网还是各高校就业信息网基本只涵盖就业相关政策和用人单位招聘信息两块内容。

2.1 功能简单,资源整合度低

高校作为毕业生进入社会前校园生活的最后一站,各个职能部门都拥有大量的毕业生资料。可惜的是,这些信息资源往往是孤立的,没有很好地整合以便提供更好的服务。作为就业信息服务工作重中之重的高校就业信息网基本只发挥了就业信息发布窗口的作用。

2.2 信息发布不及时,针对性低

智能手机的普及极大地加速了移动互联网络的发展,当前的互联网已经不再是单一有线网络形式的天下,而是一个随时随地满足个性化需求、多种网络并存的网络时代。而当前的就业信息服务系统的服务状态仍然处于如下情况:从学生的角度看,往往是通过学校通知获知相关就业政策和招聘信息再去上网查看;从高校就业信息发布部门的角度看,往往都是简单地在网站上挂出,信息是否传播到位是个未知数。可见,在就业信息发布这个环节中,信息的实时性、针对性和使用率是很低的。

3 基于大数据的高校就业信息服务系统

3.1 基于大数据的高校就业信息服务系统业务流程(图1)

图1 基于大数据的高校就业信息服务系统业务流程

为了完善健全高校就业信息服务,顺应移动互联网时代随时随地随身的个性化需求,本文提出构建基于大数据的高校就业信息服务系统。下面从学生、用人单位、教师、教育管理部门和学校四个角度分析该系统的业务流程。

3.1.1 学生业务流程

新生报到时用身份证号码或者手机号码给每个新生注册一个永久唯一的系统账号。(1)入学:新生入学培训时,各专业老师依据系统导出的本专业典型岗位分析报告进行职业引导。(2)在校学习:经过职业引导的学生在校进行导向性的知识学习、技能学习和能力培养,并阶段性地录入过程材料。(3)毕业:系统根据积累的学生个人档案信息、用人单位信息进行大数据处理与分析;在毕业生求职过程中,推送就业指导信息和对口专业的招聘信息,并根据系统数据分析结果给出个性化的精准职位推荐,有效缩短毕业生求职时间,提高就业效率。在这个信息推送上,可以有网页、邮件、短信、微信等方式全方位覆盖,确保信息及时送达。同时,系统提供一个专门版块供应聘者记录笔试、面试、体检等方面的应聘经验,为后来者引路。(4)职业生涯:毕业生在职业生涯过程中及时向系统反馈职位变动情况以及职位体验等职业生涯信息,以便于完善系统的数据样本,做出更可靠的数据分析结果,形成一个良性循环。

3.1.2 用人单位业务流程

每个用人单位都可以向系统申请一个唯一的账号,在系统中录入单位性质、主营业务、联系方式等信息并实时发布岗位需求信息;系统经过大数据分析给出精准的人才推荐,有效缩短用人单位招聘周期。

3.1.3 教师

任课教师可以根据系统产生的本专业技能需求报告进行培训进修,提高自身的专业素养;同时,及时调整本专业课程授课知识和专业培养方案,以便于适应社会人才培养需求。

3.1.4 教育管理部门和学校

教育管理部门和学校可以在系统上实时发布就业相关政策并通过多渠道进行信息推送;一步到位,不需要再逐级传送下去,大大提高信息传播效率。同时,相关部门阶段性地获取人才需求报告和就业分析报告,适时调整专业设置和招生比例。

3.2 基于大数据的高校就业信息服务系统构建

基于大数据的高校就业信息服务系统是一个整合各个部门数据,进行大数据全样本分析的新型系统,旨在从海量数据的相关性基础上高效地给出个性化服务。在这里,我们根据系统运行过程中的功能,把系统的大数据管理过程分为四个阶段:大数据采集、大数据存储、大数据处理和大数据分析。

鉴于高校就业信息服务系统中的数据处理基本是批量数据处理的特点,本系统采用当前最为流行的Hadoop 2.0架构——HDFS+HBase+ MapReduceV2(Yarn),如图2所示。

图2 基于大数据的高校就业信息服务系统架构

3.2.1 大数据采集

从学生、用人单位、教育管理部门三个入口采集信息。这些信息包括学生基本信息、学籍信息、奖惩情况、社会经历、技能、兴趣爱好、职业生涯流动信息、用人单位基本信息和招聘信息、就业相关政策等。

3.2.2 大数据存储

存储分为文件系统和数据库技术两个部分,本系统使用的文件系统是Hadoop文件系统HDFS。从数据采集结果可以看出,采集到的数据有结构化数据、半结构化数据和非结构化数据。在数据库技术上使用行存数据库和列存数据库相结合的方式,结构化数据采用传统关系数据库RDBMS,半结构化数据和非结构化数据采用在Bigtable基础上行开源实现的列存数据库HBase。

3.2.3 大数据处理

大数据处理阶段主要依靠改进后的Hadoop 2.0框架中的MapReduceV2(Yarn)分布式计算框架。以Yarn为独立的资源管理和调度系统,MapReduce为分布式计算框架;同时,兼容Spark作为系统的一个补充,增强系统的实时性。

3.2.4 大数据分析

大数据应用阶段主要根据前期处理结果进行深度学习、数据挖掘得出数据背后隐藏的有价值的信息,推送给学生、教师、教育管理部门/学校和用人单位。此阶段用到的工具包括Hive、Pig、Mahout和Chukwa等。其中,Hive和Pig主要做离线分析,Mahout具有扩展的机器学习和数据挖掘算法库,主要用于做推荐挖掘,Chukwa用于监控整个集群系统。

4 结语

大数据在席卷互联网的同时,也在改变着我们的思维方式和生活方式。人们通过大数据技术看到了普通数据背后隐藏的无限价值。本文提出的基于大数据的高校就业信息服务系统,就是以整合高校资源为前提,分析数据、提取蕴藏在数据背后的价值;让数据发声,以期推动高校就业信息服务的长足发展。此外,不容忽视的是大数据技术尚未成熟,它是一把双刃剑,利用大数据技术挖掘出潜在价值固然重要;同时也要注意把控数据使用过程中的安全问题。

[1]维克托·迈尔·舍恩伯格,肯尼思·库克耶.大数据时代[M].杭州:浙江人民出版社,2013:1,27,45,67.

[2]Big Data[EB/OL].(2015-03-16)[2016-09-20].http://en.wikipedia.org/wiki/Big_data.

[3]A.H.B.James Manyika,M chui,B Brown,et al.Big Data:the next frontier for innovation,competition,and productivity[J].McKinsey Global Institue,June 2011.

[4]R.Bryant,R.Katz,E.Lazowska.Big-Data Computing: Creating Revolutionary Breakthroughs in Commerce,Science and Society[J].Computing Community Consortium,2008:1-15.

[5]GFS(Google文件系统)百度百科[EB/OL].(2015-11-29)[2016-09-20].http://baike.baidu.com/item/GFS/1813072.

[6]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.

Construction of Graduates Employment Information Service System With Big Data

LIN Jia-yan

(Department of Software Engineering, Fujian Polytechnic of Information Technology,Fuzhou Fujian 350003,China)

The current situation of graduates employment is pretty disappointed, and how to improve the employment information service via Big-Data is worthy of study. Through the analysis of the key technology of Big-Data and the situation of the graduates employment information service, this paper proposes to construct a graduates employment information service system with Big-Data. It elaborates the business flow and the basic framework of the system.

Big-Data; employment; unstructured; distributed; recommend

2016-11-28

林嘉燕(1984- ),女,讲师,硕士研究生,从事计算机网络技术研究。

TP311

A

2095-7602(2017)06-0038-05

猜你喜欢

结构化数据处理数据库
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
促进知识结构化的主题式复习初探
改进的非结构化对等网络动态搜索算法
结构化面试方法在研究生复试中的应用
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
数据库
数据库
数据库
数据库