大数据技术在信息管理中的应用研究
——以高校就业工作为例
2016-08-16尚光龙张泽锋
尚光龙,张泽锋
(信阳职业技术学院数学与计算机科学学院,河南 信阳 464000)
大数据技术在信息管理中的应用研究
——以高校就业工作为例
尚光龙,张泽锋
(信阳职业技术学院数学与计算机科学学院,河南 信阳 464000)
目的探究大数据技术在信息管理工作中的作用和价值。方法从大数据的概念入手,介绍大数据的相关定义,综合学术界的主流观点,介绍大数据的4个主要特征,指出大数据技术在信息时代的必然发展背景;以高校就业工作为例,结合微信平台等新媒体技术在就业管理工作中的应用,阐述了就业管理工作中大数据的特点和面临的管理难题。结果强调在信息时代,特别是随着智能终端的普及,网络数据流量大规模增大,信息管理工作难度加大,亟待采用大数据技术来进行有效管理。重点论述了在高校就业信息管理工作中所采用的大数据技术,包括数据挖掘技术、遗传算法、神经网络以及其他工具等。指出了大数据面临的挑战,包括计算机存储架构的优化、传统算法和工具面临的技术挑战以及在信息安全方面面临的新问题,特别是大数据人才队伍建设面临的挑战。结论分析表明,对大数据在信息管理工作中的探究有利于信息管理工作的优化,有利于推动大数据技术的理论探讨和实践应用,具有一定的学术价值和科研价值。
大数据;就业;信息管理
0 引 言
随着信息技术的发展,信息化已经渗入各行各业,成为当今时代的重要特征和促进社会发展与生产力进步的重要因素。云计算、大数据等问题逐步成为学术界的研究热点,特别是20世纪80年代提出的大数据技术,自2008年以来,越来越受政府、IT行业和学术界的关注[1-3]。上网聊天、网络社区、网上购物、网络信息的采集和发布等,都会产生庞大的数据量。根据国际数据咨询(IDC)的统计,全球数据量在进入新世纪以来,呈逐年到成倍增长的趋势。在信息管理工作中,大数据技术成为IT人员必备的技术之一,高校就业工作也不例外。以此为背景,本文根据大数据技术的定义、特征和关键技术,结合高校就业工作中的信息管理工作,探讨大数据技术在信息管理中的应用。
1 大数据
1.1大数据的概念
“大数据”(big data)其实并不是一个全新的概念,在20世纪80年代,“大数据”的概念肇始于美国,但当时并没有流行开来,也没有受到学术界和政府的重视。随着信息化的逐步发展,“大数据”逐渐为世人所知,并成为网络热词,深受学术界、IT行业和政府的重视。到目前为止,人们还没有给“大数据”一个完整准确的定义,流行的说法主要是IDC、麦肯锡和维基百科给出的概念[2,3]:
IDC的定义:大数据一般会涉及2种或2种以上数据形式,收集超过100 TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。
维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。
麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。
不管哪种定义,都能感受到大数据是一种具有海量、高增长率和多样特征的信息资产,这笔资产相当庞大,以至于传统数据处理工具都无法处理,对数据的采集、存储和管理亟待采用新的技术和手段。
图1 全球数据量统计及预测
1.2大数据的主要特征
一般而言,大数据具有“4V”特征[4-6]:
(1)规模大(volume)
顾名思义,大数据一般指的是存储量在10 TB规模以上的数据,如此庞大的数据存储,已经不能简单地以海量存储来衡量。并且根据IDC的统计结果,近年来,全球数据的增长几乎是每年倍数级增长,如图1所示:
如此庞大规模的数据,亟待采用新技术和新手段来进行数据存储和管理。
(2)种类多(variety)
随着信息技术的发展,大数据包括的种类也越来越繁多。网页数据、视频数据、音频数据、图片数据、表格数据、邮件数据等各种数据充斥网络,各种结构化的、非结构化的数据种类繁多,难以处理。
(3)流动速度快(velocity)
衡量数据处理难度的指标之一就是数据量,随着网络技术的迅猛发展,待处理的数据量也呈现出迅猛增加的态势,数据量从TB这一量级迅猛发展到PB,甚至是EB、ZB、YB……,数据的流动速度已不仅仅可以简单用一个“快”字来形容。
(4)价值密度低(value)
与数据流量迅猛增加的态势不相协调的是,数据的价值密度却越来越低,隐藏在大数据背后的有用信息的挖掘难度越来越大。
图2 大数据服务架构UE-BDaaSA
大数据以上4个特征,是信息技术特别是现代网络技术迅猛发展的必然结果。数据量的迅猛增加,有用数据的价值密度越来越低,亟待人们采用新的技术和手段来进行数据管理。
1.3大数据服务的体系架构
大数据的服务架构属于典型的概念模型,这里介绍UE-BDaaSA架构(面向用户体验的大数据服务架构),该架构由数据存储层、数据服务引擎层和数据服务应用层3层构成,数据存储层主要采用数据库技术实现数据存取;数据服务引擎层主要包括用户注册、数据建模、用户访问请求和服务响应等;数据服务应用层主要实现数据查询、分析和数据可视化,其主体架构如图2所示:
在该架构中,数据查询是最为频繁的操作。通过数据分析,生成可视化的数据,提供给用户。该架构由于具备数据查询速度快、数据可视化程度高等诸多优点,目前在大数据中得到广泛应用。
2 大数据技术在高校就业信息管理中的应用
随着网络技术的迅猛发展和不可估量的影响力,高校就业管理工作在建立专门网站的基础上,新媒体技术凭借其独特优势,也纷纷占据行业高地。微信平台、微博等新媒体技术在信息管理工作中日益发挥着不可估量的作用。这些技术在给信息管理工作带来便利的同时,也带来了数据管理上的困难。以下是信阳职业技术学院数学与计算机科学学院在就业管理工作中利用新媒体技术进行信息管理的小结。
2.1信息管理工作中的大数据
为适应新形势下就业工作的新特点,顺应信息传播方式的新变化,本院在就业管理工作中采用了微信平台和腾讯空间,以实现信息的快速、有效传播,微信(WeChat)是腾讯公司于2011年1月21日推出的一个支持即时通讯的应用软件,该软件运行终端为智能手机,它提供公众平台、朋友圈、消息推送等功能,用户可以通过“摇一摇”、“搜索号码”、“附近的人”、“扫二维码”方式添加好友和关注公众平台,同时微信将内容分享给好友以及将用户看到的精彩内容分享到微信朋友圈。本院就业工作微信平台主界面和管理界面分别如图3和图4所示。
图3就业办微信平台主界面图4就业办微信平台管理界面
此外,根据腾讯公司2012年3月发布的《互联网开放平台白皮书》,腾讯开放平台有上亿活跃用户。用户年龄特征方面,年轻用户仍是主流,但25~40岁的成熟用户已占开放平台用户的1/4,消费潜力较大。
图5腾讯开放平台用户年龄特征分析图图6就业办腾讯空间界面截图
图5展示了腾讯开放平台用户的年龄分布特征。从图中可以直观看出,腾讯用户中所占比例最大的是17~22岁之间的青少年,这一阶段的群体也正是在校大学生所在的群体。因此,采用腾讯平台对在校大学生进行就业指导具有较强的现实意义。鉴于此,做出了一定的探索。图6为采用腾讯空间进行就业信息发布与管理的界面截图。
在就业管理工作中引入微信平台和腾讯空间平台之后,上述平台的定向传播信息功能、语音传播信息功能以及对群体的信息传播功能得到充分发挥,对毕业生发布的各种信息得到及时有效的传播。但其带来的数据流量也不容小觑。
图7 网络数据流量监控示意图
据《2013-2014年中国手机/智能手机市场研究年度总报告》预测,2015年全球智能手机用户比例首次超过全球人口的1/10,到2018年,全球1/3的消费者将是智能手机用户,总数超过25.6亿人。智能手机用户的激增,使得众多依赖手机的社交软件如微博、微信等的用户越来越多,特别是校园用户。高校大学生基本上人人都注册有微信号,这就造成在信息管理中有效数据的管理难度加大。通过流量检测,本院网络数据流量如图7所示。
从图7可以看出,随着青年大学生上网人数数量的剧增和智能手机的普及,网络数据流量已经大规模增加,信息管理难度进一步加大,有效数据的采集、存储、管理难度空前,亟待采用新的技术和手段。
2.2信息管理中的大数据相关技术
为实现数据的有效采集、存储和管理,大数据技术一般由一些经典的算法和工具构成,总体而言有以下几种:
(1)数据挖掘
数据挖掘技术指的是从存在大量不规则信息、无用信息或噪声的数据中筛选出有用信息或知识的技术。较为流行的数据挖掘处理模型是多处理阶段模型[7-10]。如图8所示:
图8 数据挖掘的多处理阶段模型
经过数据选择,原始数据转换为任务数据,并经过净化后转换为事务数据,数据挖掘就是将事务数据提取为相关模式,通过对模式的分析评估,最终得到需要的知识或有用信息。作为大数据技术的重要构成部分,数据挖掘在现有信息管理中占据着重要地位。
(2)遗传算法
遗传算法是借鉴了达尔文生物进化论的一种获得最优解的算法。它的特点是首先根据一组候选解,依据特定的适应性条件,计算其适应度,然后根据得到的适应度淘汰掉一些候选解,然后递归进行上述操作,逐步淘汰候选解,得到最优解。在大数据中,采用遗传算法,从大量候选数据中得到有用价值信息,遗传算法也是一种重要手段。
(3)神经网络
这是一种来源于生物神经结构及其运作方式的信息处理模型[11-13]。在诸多神经网络工具中,NeuroSolutions是较为流行的主流工具。它集成了友好的网络设计界面、先进的学习程序和遗传优化算法,可以较为快捷、有效地实现有效信息和知识的获取,在大数据研究领域也发挥着举足轻重的作用。
除了上述3种算法,还有机器学习、关联规则学习、自然语言理解等诸多大数据处理算法。此外,还可以借助一些工具实现有效信息的获取,这些流行的工具有谷歌公司推出的MapReduce、Apache公司推出的Hadoop等,MapReduce在处理大数据时,对非结构化和半结构化的数据非常奏效,而Hadoop凭借代码开源等独特优势,现在已经成为处理大数据的首选工具。在国内,网络服务供应商华为公司推出的基于x86服务器的SmartVision、OceanStor MVX已经成为国内处理大数据技术的代表性产品,可以实现大数据的有效采集、高效存储和有效备份。
3 大数据在信息管理中面临的挑战
随着信息技术的迅猛发展,信息世界产生的大数据数量迅猛增长,虽然硬件的发展日新月异,但在存储大数据时,依然显得力不从心,如何设计出最合理的层次结构的存储架构来有效存储大数据,已经成为信息管理工作面临的挑战之一;此外,随着智能平台的推广普及,网络世界形成的大数据越来越多样化,传统的有效数据挖掘算法面临挑战,传统算法需要提高效率,有效实现数据获取;再次,由于大数据具有广泛的传播性,特别是看似无用的数据随意被丢弃,造成信息的不安全,使得国家安全、知识产权等方面面临挑战,大数据的有效存储和备份给人们提出了新的要求;最后,由于中国相对欧美国家而言,对大数据的研究起步较晚,在大数据人才队伍建设中较为落后,如何培养大量有力的大数据管理、分析、技术人才,成为国内政府和行业内部面临的一大挑战[14-16]。
4 结 论
本文从大数据的概念和特征入手,结合现实工作,探讨了新形势下在就业指导工作中的大数据,深入研究了大数据的特征和相关技术,分析了大数据技术面临的挑战,倡导政府和社会加大对大数据技术的重视,培养优秀的大数据管理团队,使大数据更好地为中国社会发展服务。
[1]Iiko Poulos P C,Eaton C,de Roos D,et al.Understanding Big Data[M].USA:The McGraw-Hill Companies,2012:1-200.
[2]甘晓,李国杰.大数据成为信息科技新关注点[N].中国科学报,2012-06-27.
[3]李国杰.大数据研究的科学价值[J].中国计算机学会通信,2012,8(09):8-15.
[4]俞宏峰.大规模科学可视化[J].中国计算机学会通讯,2012,8(09):29-37.
[5]刘宇芳.大数据探讨[J].现代计算机,2013,30(06):25-27.
[6]严宵风,张德馨.大数据研究[J].计算机技术与发展,2013,23(04):168-172.
[7]张敏.云计算环境下的并行数据挖掘策略研究[D].南京:南京邮电大学,2011.
[8]陶雪娇,胡晓峰,刘洋.数据挖掘发展综述[J].系统仿真学报,2013,(25):142-146.
[9]王光宏,蒋平.数据挖掘综述[J].同济大学学报:2004,(32):246-252.
[10]张令杰,徐维祥.基于时态约束的关联规则挖掘算法[J].计算机工程,2012,38(05):50-52.
[11]高隽.人工神经网络原理及仿真实例[M].北京:机械工业出版社,2003:7-90.
[12]魏海坤.神经网络结构设计的理论与方法[M].北京:国防工业出版社,2005:20-87.
[13]Simon Haykin.神经网络原理[M].北京:机械工业出版社,2004:15-69.
[14]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,(34):1741-1752.
[15]王劲.大数据时代的管理变革[J].学术论坛,2013,(01):189-190.
[16]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.
[责任编辑:王荣荣英文编辑:刘彦哲]
10.3969/j.issn.1673-1492.2016.05.007
河南省教育厅基金支持项目(JYB2015254);信阳市哲学社会科学规划课题(2015JY161)
尚光龙(1972-),男,河南南阳人,信阳职业技术学院数学与计算机科学学院讲师,硕士研究生,主要研究方向为信息安全、密码学。
TP 309
A
来稿日期:2015-11-17