数据仓库技术在高校就业决策中的应用研究
2022-07-01练佳熠
练佳熠
摘要:随着科技的发展,许多技术应运而生,对人们的生活和工作产生了巨大影响。目前,随着高校对于社会需要的重视,越来越多的高校开始关注学校的就业政策,并且积极运用数据仓库技术。在高效的就业决策中,因为数据仓库技术的运用,高校的就业变得更加高效。因此,该文就数据仓库技术在高校中的应用情况进行研究,并提出一些想法。
关键词:数据仓库技术 高等院校 就业决策 应用研究
中图分类号: TP311.1 文献标识码:A 文章编号:1672-3791(2022)07(b)-0000-00
随着社会的进步发展,高校的就业也成为各大学生重要关注的话题。为了促进高校学生就业,了解学生就业的想法,对于工作的选择因素等,高校渐渐采用了数据仓库技术,以便促进高校就业的有效性。通过建立以就业为主题的多维数据库,许多高校渐渐分析出学生就业的一些情况,为学校的就业宣传,专业设置等提供数据支持。
1 数据仓库简介
20世纪80年代,科学家第一次提出数据仓库的概念,认为数据仓库是“面向主题的,继承的数据集合”。数据仓库还具有随时变化的特点,可以用于存储大量的历史数据[1]。对于决策人员来说,数据仓库虽然看起来没有意义,但其实在具体的实际运用中,却能够实现用户快捷迅速地查找和分析。相比SQL技术,仓库数据可以提供有效的数据,并且将其展示在决策人员面前。这将很大程度上促进数据的有效性和实用性,为决策人员的决策有着积极的影响作用。一般而言,數据仓库数据具有以下特点。
首先,数据仓库直接面向主题。基于对数据分析的驱动,与传统的数据驱动不同,数据仓库可以以优化事务的方式来构造数据。这对于某个处于不同事物数据库的主题数据而言,是非常不利于决策者进行决策的。但这也并不意味着数据处理需要基于某个主题的数据去访问许多不同数据库中的数据集合,而是数据仓库会直接将这些数据集中在一个地方,使决策者可以直接合理地检索到数据仓库中某一主题的所有数据。这不仅有利于数据的分析,同时也能为决策者节省大量的时间,实现数据的高效处理。
其次,数据仓库具有数据的集成性,可以有效而全面地分析数据。一般而言,相关数据收集得越完整,决策处理出的结果就更加具有可靠性。然而,在许多企业等内的业务数据库中,许多数据处理都是分散型而非集成的。这使得数据处理更加繁琐,不利于数据处理的高效性[2]。这许多都是因为数据不一致,或者有非结构化数据等原因所导致的。要实现集成,就必须要对数据进行准确到位的清洗,甚至去转化一些数据。这并不是说静态的集成,而是一个动态的集成过程。虽然静态的集成数据也可以集成,但是一旦数据发生了变化,原先的集成就失去了意义,因此,必须是基于动态的集成去处理数据。而数据仓库就是实现了动态的集成,通过将一定周期的数据进行刷新,从而为决策者更新最新的数据,使决策者做出准确及时的决策。
除此之外,仓库数据的数据还具有稳定性,并且也能随着时间的变化而变化。在数据仓库中,许多数据一旦被写入了便没有办法再进行改变,这非常不利于决策者的决策调整。所以,可以将数据仓库看作一个虚拟的只能读取的系统,且数据仓库的数据存储也是以分批的形式进行。这使得数据仓库可以定期提取并且增加数据的记录。只是一旦有数据进入,其痕迹就不能被删除,也就是数据会一直存在。所有的用户都只能以读的形式去访问整个数据仓库,而不需要在开发读写上耗费精力[3]。同时,因为数据只能增加也无法删除,这使得数据拥有了时间维度。其实,数据仓库就是基于记录系统去进行联结,将记录系统中各个的瞬态联结成动画,使其能够展现出系统的整个运动过程。
2 总体架构设计
一般而言,仓库数据的系统总体构架主要为源系统和数据集等。在高校就业中使用数据仓库,就是将就业系统的数据经过清洗,转换的过程,然后加入到数据仓库中。经过数据仓库的数据再经由前端数据进行浏览和分析,并最终形成用户对数据的分析处理[4]。这样可以让用户很快地了解数据,并且基于数据进行决策,从而提升决策的质量和效率。一般而言,数据仓库的系统主要包括4个层次的结构。
2.1数据源
这是整个数据仓库系统的基础,可以为整个系统提供数据。无论是企业内部还是外部系统的数据,都可以在数据源中进行存放。
2.2数据的存储和管理
数据存放和管理可以保证数据的稳定性,为数据处理提供多时间维度的数据。一般而言,数据仓库的数据组织管理和传统的数据库非常不同。这也决定了数据仓库的核心是基于外部数据的形式去决定的。通过外部数据形式的情况,去合理搭建产品和技术去构建数据仓库的核心,这不仅需要对于数据仓库的了解分析,同时也能实现对于数据的合理清洗,集成等。尤其是可以按照主题进行组织,为数据仓库的数据范围提供合理的组织形式,这非常有利于企业对于数据的管理。
2.3 OLAP服务器
通过有效集成需要分析的数据,OLAP数据可以组织出多维模型,以实现数据仓库的多角度多层次分析。同时,还可以基于分析去合理判断数据的趋势,以便决策者做出决策。一般而言,数据趋势的实现,可以具体分为3种情况。其中,ROLAP基本数据和聚合数据都存储在数据源ROBMS里面,而MOLAP则在多维数据库里存放,HOLAP的基本数据放进ROBMS里面,而聚合数据则放于多维数据库。
2.4 前端工具
前端工具主要在各种报表工具,数据挖掘工具等里面。其中,数据分析工具主要与OLAP相联系,而数据挖掘工具等主要和数据仓库相联系。
3 面向就业主题的数据仓库
高效的就业分析主要以学生的成绩等,实习情况等来进行分析,从而预测出高校毕业生的就业情况。基于数据仓库分析处理出的数据,学校可以采取一系列措施来促进学校高效的就业,比如调整招生计划、合理调整毕业分配、关于高校就业的宣传等。
3.1就业主题的数据仓库模型设计
数据仓库的模型分为星架型和雪花型架构。星架构有事实表和维度表两部分,它是一种用来表示关系的数据库架构。通过事实表和维度表,可以很好地表示一对多的关系。而雪花架构是一种表示关系的数据架构,也有事实表和维度表两部分。通过事实表和维度表,可以很好地构成数据仓库模型的基本设计,实现用户对于数据的模型构建。两者模型的不同点在于,雪花模式可以实现数据更好地规范化,能够减少数据的冗杂,为数据仓库节省空间。然而,这也可能导致雪花结构浏览性能的降低,无法像星架型结构的数据一样为决策者提供大量的数据支持。而高校就业的数据量庞大,不仅需要数据仓库去分析处理相关数据,同时也需要实现对于数据的浏览功能。而星形模式的数据仓库就可以弥补雪花模式浏览性能不足的缺陷,为更多的数据浏览提供稳定且快速的数据支持[5]。因此,在高校就业的数据仓库设计中,应该采用星形模式的数据仓库,这样才能有利于对于庞大数据的浏览。
3.2确定事实表
许多高校都具有许多事实数据,根据维表的特点和分析的就业决策主题,高校就业数据仓库的事实维表可以设置为15个维表,主要包括毕业年份、院系、计算机水平、性别、班级、地区、学位、学历、实践能力、专业、单位性质等方面。其中,不同的维表代表学生不同的情况,而对于一些学校的具体特殊情况,学校也可以具体去调整自己的事实表维度,以便对该校学生就业情况的特殊原因以及情况分析。
3.3高校就业数据仓库的ETL创建
KTL即是高校对数据的抽取、清洗和轉化、装载。通过将数据抽取出来,数据仓库可以排除掉一些数据的缺陷,并且去进行数据的转换或者汇总,经过清洗数据源中的数据,可以按照之前预定好的数据仓库模型,将数据加载到数据仓库中。虽然整个过程很复杂,但却是数据仓库的重要内容。
目前,许多高校都使用数据仓库,并运用到就业系统中处理与就业有关的一些数据[6]。通过将考生的标准化成绩、平时的表现、就业情况、学历代码等录入到系统中,数据仓库可以很好地去分析数据的差异,比如:不同年度同一专业的就业情况变化等。基于各种数据的差异,数据仓库可以很好地标准化学生就业的情况。只要标准化了就业情况,高校就很容易实现用户对于数据的分析需求,从而更快地分析出适合该校就业的各种情况。通过标准化分数,高校可以很好地解决因为各种差异等所导致的就业情况影响。这样不仅有利于各个考生的成绩能够更好地进行比较,同时也有利于高校更加迅速分析出职业与该校的适合程度,从而实现高效就业。
在标准化就业情况之后,系统还会对就业数据进行其他细节的处理,以便数据仓库更加清晰的认识数据,并且采取合适的行动[6]。首先,系统可以将标准化的数据增加年度属性。一般而言,就业报到系统中的数据都是当年的就业情况,并没有自带年份。这不利于数据仓库去分析不同年度的就业情况差异,无法很好地实现对于就业的年份差异。因此,在系统中加入对于学生就业的年代,可以增加其他年代学生的就业情况,从而促进高校更精准清晰地认识到学生的就业情况。具体而言,就是利用MS DTS工具,可以将不同年代学生的就业情况进行汇总,并且得到最终的汇总表,以便数据分析处理。其次,在处理数据时,系统还可以为考生的生源地、毕业类型、就业地、职业等方面进行详细的描述,以便高校深刻认识到学生的情况。
而在获得了许多数据后,因为数据太多,一些数据可能存在不必要或者冗杂多余的情况。这时,就可以利用系统,去合理清洗掉各种不需要的数据,以便满足数据仓库对于数据的需求。比如:在“理工”“普通理科”等不同类别中,数据仓库可以统一为其提供数据清洗,以便有效数据加载到数据仓库中。只有将有效的数据加载到数据仓库里,才能真正实现对于数据利用的高效性,从而实现对于数据仓库的真正作用[7]。
5 基于数据仓库的分析
在对数据仓库进行分析时,可以采取多种手段从多方面进行处理。大部分时候,决策者都是希望通过图形化的形式去查看和分析数据,在这种形式下,可以通过Python的Numpy、Pandas、Keras等分析库先对数据仓库中的数据进行分析,再使用Matplotlib、Bokeh、echarts等技术对分析结果进行可视化展示,以此实现花费少量的时间精力就能得到数据分析的结果[8]。除此之外,数据仓库还可以提供多维度的数据集,让用户能够通过快速的转换数据的行列来实现对于数据源的分析,帮助决策者进行决策[9]。
具体而言,在对考生成绩进行分析时,决策者可以基于分析情况去合理处理学校的就业工作。比如:基于某一地区就业总人数的情况,决策者可以去调整当地的广告宣传、工作人员数量调配等。如果就业人数多,便可以多做宣传,加大工作人员的数量。如果就业人数少,则可以总结其原因,来改变就业的策略,以便下一年更好地就业。对于学生而言,就业的情况和学校有着很大关联性,学校宣传更加到位,与学生就业安排的相关工作人员越多,学生便更容易就就业,学校的就业情况就会更好。因此,学校必须严格去分析数据仓库,基于数据仓库合理做出决策调整,以便高校更好地就业。
而在分析学生实习情况时,决策者便可以基于学生的实习时间,地点等去分析出考生的实习情况,通过比较不同地区不同专业学生的实习情况,合理分析出考生的就业意愿。这对于高校的就业工作、专业设置、课堂安排等都有着重要的作用,可以很好地促进学校教学资源和就业资源的合理安排等。
6 结语
总而言之,高校的就业工作离不开数据仓库技术。对于学校而言,基于数据合理分析学生的就业情况,可以高效地提升学校的就业工作效率,同时也为学校的就业工作提供数据指导。通过将数据进行处理,比如:把学生就业情况进行标准化,并且进行合理的数据清洗等,就可以实现有效的数据加载到数据仓库。之后,数据仓库可以很好地实现对于就业情况的分析。最后决策者便可以基于数据仓库的图形化界面和多维度分析表格,去合理做出与就业相关的决策。无论是对于学生的成绩,实习情况,还是未就业情况等,只要利用数据仓库,高校都可以很好地分析并处理相关的数据,而学校也可以基于此去合理调整工作安排。这不仅有利于高校掌握该校就业的情况,同时也能实现自身专业设置,学校课程设置甚至来年招生情况的安排,从而促进高校更好地进行发展。
参考文献
[1] 杨仁怀,郎川萍,张丽霞.数据仓库技术在高校招生工作中的应用研究[J].现代计算机:专业版,2014(6):72-76.
[2] 曾萍,韦杰.数据仓库技术在高校信息化建设中的应用研究[J].软件,2014,35(5):108-110.
[3] 刘卫星.数据仓库技术在高校信息系统中的应用研究[J].电子技术与软件工程,2014(18):209-210.
[4] 张申. 数据仓库技术在高校招生就业决策中的应用研究[D].北京:北京工业大学,2019.
[5] 张维国.数据仓库技术在高校教务系统中的应用[J].福建电脑,2019,35(9):33-38.
[6] 王吉.浅析数据库技术在高校毕业生就业管理工作中的应用[J].数字技术与应用,2020,38(2):52,54.
[7] 曾远柔.大数据技术在高校信息管理系统中的应用策略研究[J].数字通信世界,2020(3):177.
[8] 张军,王芬芬.数据仓库技术在高校数据统计与分析系统中的应用研究[J].智能计算机与应用,2019,9(3):122-125.
[9] 虞水,季兴东.数据仓库技术在医院信息管理及决策中的应用研究[J].智慧健康,2019,5(36):18-19.