学生事务中心大数据平台建设
2018-07-26王扉
王扉
摘 要:采用互联网+、云计算、大数据相结合的技术,建立学生事务大数据平台,对接现有的业务数据库和文件数据,通过优秀的ETL工具对中心业务有帮助的各种不同的存储格式的数据源进行集中整合,建立集中数据仓库,深入挖掘,实现智慧分析提供决策依据。
关键词:云计算 大数据 数据中心
中图分类号:G645 文献标识码:A 文章编号:1674-098X(2018)02(a)-0158-02
学生事务中心通过10余年的信息化建设,已建成以业务条线为主体的“2+8+2”的12个平台的建设,包括学生学籍信息、学生就业信息、学生资助信息,非上海生源落户信息等各类信息累计已超过千万条,在各个系统数据库中横向还不能通过数据库层直接调用。希望在建设大数据平台,打通各个系统间的数据壁垒,建设一个学生事务中心的统一数据中心。
1 建设学生事务中心大数据平台的意义
大数据重在实时处理与应用,以获得所需要的信息和知识,从而实现商业价值以及为学生事务管理服务。数据挖掘和人工智能等应用工具在大数据处理中发挥着重要作用,现代信息技术是大数据赖以存在和发展的重要支撐力量。解决信息孤岛,通过大数据分析,挖掘历年沉淀的学生信息数据,意义重大。
2 基于云计算架构的大数据运算分析平台
2.1 大数据基础硬件平台建设
平台运行硬件环境:服务器群、大数据集中存储、万兆网络等。
平台运行软件环境:Linux、服务器虚拟化软件、数据库、地图、可视化BI软件等。
平台运行技术:采用分布式云计算技术,弹性扩张平台运算能力。
2.2 分布式大数据管理层软件
(1)对接现有的业务数据库和文件数据。
(2)融合各类业务系统数据资源。将分散在各个业务子系统中的数据归集起来(包括自有数据、上级数据、外部数据等),通过建立大数据平台,进而充分挖掘数据价值,提供全员使用的检索功能,提供多维度数据支持。通过优秀的ETL工具对中心业务有帮助的各种不同的存储格式的数据源进行集中整合,建立集中数据仓库:文本格式、oracle数据库、sql数据库、sysbasee数据库、access数据库、txt文件、excle文件、data文件等;建设可配置的自动抽取方案。
(3)建立分布式文件系统。建立分布式大数据数据仓库,包括分布式关系型数据库、对象存储、图数据库。对不同来源的每条数据给予40位唯一哈希值,避免数据的重复性。建立数据索引,便于快速查询以及快速调用。元数据管理。数据的安全管理和审计。
2.3 数据感知与数据处理建设
数据标签的建立,多达数百种标签的定义。表关联定义。关系发掘。搜索引擎,包括全文检索、渐进式搜索、单表查询等。算法库建设,数据的分析挖掘、比对碰撞。可视化建设,包括地理位置展现,仪表盘,图表建设。
2.4 数据分析及应用模型建设
指标模型:结合学籍管理经验,自定义各类指标,系统自动计算汇总异常指标,并发送给应用系统及相关警员。比对模型。通过比对模型比对出来的预警信息,系统可以根据设定自动发送到指定的单位。学生管理。知识管理。
2.5 API建设
平台向应用系统提供丰富的API接口,应用层可以通过大数据平台获取综合信息及数据分析的结果。
3 基于云计算的大数据平台设计
大数据支撑体系架构如下。建设基于云计算的大数据平台管理软件,对大数据底层软件进行统一管理,既要管理服务总线,又要统一管理大数据底层各类软件。各个业务系统需要通过服务总线获取数据查询信息或者数据分析结果。
3.1 大数据软件平台建设
如图1所示,采用业界先进的理论体系,支撑各类数据结构及大批量数据的存放、查询、分析,并且大数据平台能主动学习,发现数据价值。所以,大数据平台融合MPP数据库、Hadoop、搜索引擎、图数据库、消息总线、内存数据库、NOSQL等先进的技术,形成统一管理的数据平台。
大数据平台对业务系统的支撑方式主要包括两大类:数据查询服务、数据分析服务。为了实现对应用的支撑,大数据平台需要具备的功能架构分为三层:基础数据层、数据感知层、学习层。
3.2 数据管理层
(1)数据采集:由于数据类型丰富,需要专门的ETL模块,将来自Oralce\SQL Server\DB2\MySQL,以及Excel\PDF\Word文件,甚至还有录音录像文件采集到大数据平台,而且ETL工具采集过来后,要和大数据文件系统及数据仓库对接起来入库。
(2)元数据管理:元数据是主数据的基础,元数据对数据进行分类存放,追溯数据的血缘关系,建立数据之间的关联,以及对每条数据的属性做管理,实现数据的生命周期管理。
(3)数据标准化:由于数据来源不同,格式不同,存放方式不同,所以从采集入库的裸仓,到可以使用的数仓,需要做数据标准化处理。否则系统呈现的格式以及方式都不同,比如有些表定义“男”“女”,有些表定义成“1”“0”。有些定义成数值,有些定义成字符。这个是较大的数据治理过程。
(4)数据标识:每条数据给予40位哈希值唯一标识符,不能重复。每条数据建立唯一索引。
(5)分布式文件系统:分布式存放,使得系统具备动态可扩充的弹性架构。
(6)分布式数据仓库:大数据的数据仓库是数据分析挖掘的基础,支持超大规模的数据量。数据仓库是由内存数据库,大规模并行处理数据库及Hbase等构成。
(7)图数据库:存放大量的实体、对象之间的关系。
(8)安全审计:大数据平台的安全,审计,权限管理。
3.3 数据感知层
(1)标签定义:通常是数据库中没有存在的表示方式, 经过某些指标对应,给实体对象一个属性标志。或者通过某些事件,给实体一个事件标识。
(2)关联定义:同样包括属性关联和事件关联。建立数据关联,要经过需求调研,对数据结构进行分析,制定关联规则等系列过程。在众多表之间,众多对象之间,要定义是可以被关联的,关联定义是关联分析的基础。关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
(3)知识管理:有關实体的非结构化文档管理方法。
(4)搜索引擎:在数据分类之后,提供全文检索功能。
(5)条件筛查:用户自定条件,发现符合多重条件的结果。
(6)时空特征:实体对象的属性改变或事件发生的时空排序,用于梳理实体的演变。比如某学生什么时候取得了某项奖励,什么时候参加实习等等。
(7)报表可视化:为分析预警的可视化呈现提供了编程接口工具。
(8)地址数据库:按国家标准要求,重新将地址入库。在很多系统里由于填写不规范,地址信息比较乱,导致分析不方便。
3.4 学习模型层
(1)指标建模:包含指标定义工具,即弹性指标机器学习。指标是预警分析的启始条件之一。不同应用预警,需要不同指标模型。比如对于围标嫌疑分析,除了做关系模型外,还需要指标模型。
(2)比对模型:在多维表之间做比对分析,寻找多个对象出现的相近相同的值,要求性能快,数据挖掘的功能。
(3)关系模型:首先根据业务需求,定义关系,关系有很多种大数据系统自定义运行任务,不断发现关系。关系模型是预警模块的重要基础。
(4)实体档案:通过各类数据,发现实体背景档案。
(5)语义分析:不同文本之间的关键词词频分析,相似度分析。可以用于投标方案的雷同性比较。
(6)趋势预测:通过训练模型,分类分析或傅里叶算法等,市场预测。
4 结语
学生事务中心的数据可以通过建立分布式数据融合平台,实现数据采集、数据治理、数据资产管理、建立数据仓库、数据搜索、分布式计算等。自动实现数据实体的维度建立、大数据自动关联。自动适应日益变化的数据源,为大数据分析及辅助决策提供支撑。学生事务大数据平台的数据将会为不同层面提供数据支撑,将来还要建设市—校间的数据交换将大数据平台的数据结果推送到各个学校,让学校了解各学生数据的走势。
参考文献
[1] 李学龙,龚海刚.大数据系统综述[J].中国科学:信息科学,2015(1):1-44.
[2] 俞立平.大数据与大数据经济学[J].中国软科学,2013(7):177-183.
[3] 秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(6):23-28.