大数据背景下学生信息集成管理研究
2015-04-29朱艳洁
【摘要】学生信息管理是高校管理工作的重要组成部分,本文抓住了学生信息管理的基础是集成与查询,对大数据背景下学生信息集成管理做了探讨,以期对高校学生管理工作有所帮助。
【关键词】大数据 学生管理 lucene
【中图分类号】G64 【文献标识码】A 【文章编号】2095-3089(2015)01-0009-02
信息化的不断发展,为管理提供了便利。现已存在的教务系统、就业信息系统、学生信息采集系统等记录了学生在校期间的所有信息,数据的管理利用和查询就显得尤为重要,而目前高校在这方面还存在着不足,具体表现在以下几个方面:
一、对信息化手段掌握不足
绝大部分高校和部门仍局限在手工填写报表和简单的excel报表等。规范性较差,基础工作较薄弱。已有的原始数据资料和新增的数据资料都不完善不规范,需要数据时无法及时的提供,工作效率大大降低。
二、大数据
全球知名咨询公司麦肯锡,在“大数据”研究报告中指出,数据已经渗透到每一个行业和业务职能领域,对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来。
不同行业对大数据的定义有所区别,每种定义都有他们的共性所在: 大数据中所指的数据是全部数据。大数据最终的用途和关键点是“预测”。
“大数据”是目前呈现出的一种现象而不是一项新产生的技术。“大”有两个深层次的含义:首先是数据量大。通常定义10TB的数据量为是大型数据集,但是在现实高校与企业中,多个数据集集合在一起,就已经远远超于10TB的数量;其次是数据种类多,数据来源多。这些数据生产于不同的系统,不同的应用,不同的部门背景,并且数据的种类和格式也各种各样,呈现出多元化的特点。因此大数据并不等同于海量数据,并且处理大数据,要面临更大的挑战。
高校大数据是高校信息化中重要的进一步发展,将对高校各部门的决策支持、个性化服务、人性化管理、预警服务及预测等领域产生巨大的推动作用。
三、大数据背景下的学生信息分类
从大数据的视角入手并结合高校学生信息数据的特点,可以将高校收集的数據划分为两大类。一类存在于关系型数据库中,包括每位学生的学号,姓名,课程成绩等信息,这些信息用统一的数字类型和符号类型来表示,称为结构化业务数据;另一类存在于高校各部门办公室,或者是高校管理人员的电脑中,存在的格式也多种多样,有文本信息,图片,音频,视频等等,这些信息无法用统一的数字类型和符号类型来表示,称为非结构化业务数据,是高校大数据研究的重点。此外,高校中还有一些数据是介于这两者之间,称为半结构化业务数据,本文不做重点讨论,高校数据分类如图所示:
图1 高校信息数据分类
四、处理非结构化学生信息的方式
在高校存在的非结构化数据中,几乎是以文本信息的形式存在,管理员迫切需要一个高效的检索工具。全文检索(Full-text Retrieval)技术是一种面向全文、提供全文的新型检索技术。它克服了传统顺序索引在多文献集和和复杂查询查询条件下检索效率低的不足。文海捞针是对全文检索的形象描述,全面、准确和快速是衡量全文检索系统的关键指标。
(1)采用B/S模式
B/S模式即浏览器/服务器模式,管理员只需要一个浏览器就可以获得想到的资料,。B/S模式优于C/S(客户端/服务器)模式最大的一个特点是,无需采用专门定制的客户端,减少数据的中间访问层次,进而提高了数据的访问速度与效率。
(2)构建学生信息索引
图2高校索引机制架构图
从图中可以看到,构建索引的整个过程分为三步:将高校学生信息原始WORD格式、PDF格式、EXCEL格式的业务数据转换成文本、分析文本、将分析好的文本保存至高校学生信息索引库中这三个主要操作步骤:
将原始文档转换成文本
使用Lucene索引高校学生信息前,对索引的数据进行预处理操作,即从不同格式的业务数据中提取纯文本格式信息,以便识别该文本并建立对应的文档。即从非文本文档中提取文本信息,然后用这些提取出来的数据建立文档和域[8]。
分析文本
分析文本前,将高校学生信息进行分割成语汇单元串,对语汇单元串执行一些可选操作:如,统一将语汇单元中的英文转换为小写,方便搜索系统不对大小写敏感;去掉语汇中一些频率很高但是却没有实际意义的词,比如,的,地等等。
将分析好的文本保存至索引
对文本分析完成后,要将得到的段写入高校业务数据的索引文件库中,写入的时候要采用倒排索引的数据结构进行存放。
(3)搜索学生信息索引
图3搜索系统模型图
如上图所示,搜索子系统的作用是搜索学生信息索引,即对高校管理员输入的各种搜索命令进行搜索和响应。根据前期对西安科技大学的调研报告显示,本系统主要提供的搜索方式有如下几种:词条搜索,范围搜索,布尔搜索,模糊搜索和短语搜索。词条搜索是最基本的搜索方式;范围搜索为高校管理员提供了可供选择的关注点,缩小了搜索范围。通过选择时间段2010年到2012年,查看该时期内的学工部的文件;布尔搜索也是一种基本的搜索方式,各种复杂搜索,经过转化可以成为一个布尔搜索;模糊搜索是对西安科技大学高校管理人员需求调研后特意添加的一种搜索方式,当管理员并不是很清楚要搜索的范围时,模糊搜索是很好的选择方式,而且管理员可以在此基础上再次搜索;短语搜索是在用户输入多个词条时一种比较有效的搜索方式。
五、结语
高校信息管理手段已无法短时间内在海量信息中找到所需。本文在分析了信息集成管理存在的不足后,给出了大数据背景下学生信息的分类,介绍了大数据背景下学生信息集成管理的方法。
参考文献:
[1]吴代文,詹海生.西安市数字方志全文检索系统的设计与实现[J].计算机技术与发展.2011,10(21).121-123.
[2]张维刚,徐永东,雷小强等.web全文检索中间件的设计与应用[J].计算机应用.2011,8(31).2261-2263.
作者简介:
朱艳洁(1987-),女,汉,内蒙古乌兰察布人,硕士,助教,研究方向:思想政治教育。