建设智能云数据服务平台让高校大数据“说话”:提升学校核心竞争力
2015-12-02王慧锋房一泉陈晓宁
王慧锋, 房一泉, 陈晓宁
(华东理工大学信息化办公室,上海 200237)
当今世界是一个信息化高度发展的时代,信息化的快速发展对我们的工作生活产生了深远的影响,淡化了空间、地域、工作、生活的界限,让各种活动更加便捷.
近年来,全国高校在信息化建设方面的投入不断加大,已经形成了规模,信息化给教学、科研、学习、生活带来高速便捷服务.同时,也产生出大量记录高校活动的数据,这些数据经过时间的积累逐渐形成出一个庞大的大数据资源空间.这个大数据资源具有很高的价值,如何让数据资源发挥服务价值,让它能够通过简单方式“说话”来告诉我们需要的信息,从而更好地服务校园,提升学校核心竞争力,这是一个全新的创新性课题.
1 大数据“说话”意义重大
随着高校信息化进程的发展,数字校园建设进入一个新的阶段,建设的重心从以管理为核心的信息管理转变到以服务为核心的信息服务阶段.建设一个基于服务智能化、操作简单化、移动人性化、全天候开放具备灵活架构、支持移动互联网、硬件与软件配置科学的开放型云数据公共资源服务平台,在今天的信息化校园发展中显得十分重要.如何让大数据“说话”,从而将大数据中有价值重要的信息用最便捷的方法来为师生的教学、科研、管理、生活消费等提供服务,将信息化数据真正转变成智能化服务,这是对信息化校园建设提出的全新的、更高的要求.
1.1 高校大数据分析
信息技术在与校园生活融合后形成了新的工作、科研、学习、沟通、交流方式.云计算技术的产生和发展正在改变人们对信息服务的消费模式;大数据的产生与数据空间迅速膨胀驱动更精准的洞察、决策与过程自动化;情景化设计、系统化兼容、服务化感知创造出更丰富、更友好的用户体验效果;这些新的模式与新的信息技术不断融合发展对校园信息化过去、现在、未来提出了新的变化要求.
华东理工大学是最早进行数字化校园建设的高校之一,在前期的建设中已经建立了共享数据库,主要集中在师生个人相关信息、机关业务数据、公共信息数据等,从结构上看属于“独立纵向”结构化数据单元,每个数据单元独立执行信息存储、查寻、交互、备份,随着时间的推移,数据单元内的数据大量增加产生“数据沉积”不能发挥数据服务消费特性.经过多年积累这些纵向数据单元中产生出大量的非结构化、流程化、模式化的数据(如:文档、图片、视频、报表、日志等),随着时间的向后推移将来会产生越来越多的大数据类型数据.
从华东理工大学现阶段已有存储的大数据结构上看,数据结构单元在横向方面是一个非常薄弱环节,大量有价值的数据无法通过先进的信息交互手段进行横向交互,随着时间和移动互联的发展独立单元内的纵向数据在随着时间的推移变的越来越庞大.
1.2 探索发展中的思考
移动互联的高速发展让信息数据实现了随时随地、全天候、全方位、高效传输,特别是加载在云数据平台上的移动互联网技术,支持各种网络和移动终端,支持随时随地、全天候、全方位办理各种工作业务;支持随时随地、全天候、全方位上传下载科研、学习资料;支持随时随地、全天候、全方位在大数据空间里办理各种自己想要解决的事务.
面对移动互联网的高速发展和便捷的服务实现,不得不思考:
(1)校园信息化建设产生的大数据如何与移动互联网融合服务的问题;如何服务各级管理层决策问题;如何服务校园内全体师生教学、科研、学习、管理、沟通、交流等问题.
(2)学校的教学、科研、管理、资产、档案等工作每时每刻都在向独立的纵向方发展,不断壮大“独立纵向”结构化数据单元如何“横向”挖掘流动?教师、学生相关信息工作、科研、学习、生活的动态信息变化与学校各级组织管理机构管理数据“横向”联通问题.
(3)决策数据(科研效率对比、资金投入产出比、发展变化对比等)、新增数据(档案、新闻、论文、报表等)、原有数据、特有数据、专用数据等数据的挖掘与分析问题.
(4)未来校园信息化平台建设拓展规划问题.
总而言之,大数据如何进一步在提升高校的人才培养、科学研究和社会服务三大功能方面发挥作用是云数据中心建设必须思考和解决的问题.
2 大数据“说话”的解决方案探索
让大数据“说话”需要建立一个大型的智能云数据平台,内容涵盖学校数学、科研、管理、资产、档案等各方面数据,通过系统的整合、数据的规范,使之成为全校最权威的核心数据库,旨在通过优化、整合信息,完善评价机制,实现资源共享,从而实现提升学校核心竞争力的目标.
2.1 智能云数据服务平台的建设目标
云数据平台建设总体目标有以下几方面:
(1)一个大型云数据库中心:建立一个基于云计算技术的公共服务平台,将校园的基础数据变成服务数据通过提供给广大教学、科研、管理等单位和师生.
(2)两个主平台运行系统:一个主服务系统和一个数据挖掘系统,主服务系统提供满足平台运行的基础环境;数据挖掘系统提供在数据中心寻找用户需要的信息.
(3)三个层次强化数据管理:从数据整合这个层次强化平台在数据整合方面的优势;从数据规范化这个层次强化平台对数据存储、挖掘、传输、下载、上传等方面规范;从交互、互动层次强化系统整体的服务模式.
(4)四种以人为本的服务模式:面对各级决策层的数据挖掘图表分析服务;面对师生查寻教学、科研、管理、资产、档案、新闻、论文、报表、图书、文档、图片资料等相关信息的服务;面对教务、科研、资产、档案、学生、人事、后勤、图书资料等管理信息服务;面对师生个人工作、学习、生活等个人生活信息服务.
(5)五个创新点:整合全校的结构与非结构化数据;将云盘与云数据报务平台进行整合,方便师生随时随地获取共享数据;在科研项目中进行科研文件与成果的共享;可自定义查询统计条件来进行趋势、排名、统计等分析操作,支持移动终端;整合报表定制功能,能自由设计填报表格,灵活定制流程,方便进一步采集数据.
2.2 智能云数据服务平台的建设原则
以现有的结构化数据为基础,拓展非结构化数据的形式和规模,通过数据的分析和挖掘,提升学校的整体管理水平;利用决策数据的支持,优化学科结构,最终达到提升学校核心竞争力的目标.
(1)坚持以人为本,为全校广大师生提供个性化的数据定制服务.
(2)坚持信息展示方式与信息推送方式多渠道,让师生及时全面地获取到个人密切相关的重要信息.
(3)坚持云数据平台建设的完整性,内容涵盖学校教学、科研、管理、资产、档案等各个方面数据.
(4)坚持统一平台统一管理原则,将数据收集、整理、汇总、分析、挖掘统一起来,提升学校的整体管理水平.
2.3 智能云数据服务平台的建设内容
以学校战略规划发展的关键指标为蓝本,根据学校的实际情况对云数据中心进行总体设计与规划,使其涵盖并能全方位展示教学、科研、人事、资产、师生等信息,建设项目内容密切贴近学校的特点,满足师生的个性化需求和学校统筹决策的需求.
图1 云数据智能服务平台项目提供数据服务情况
新建设的智能云数据服务平台总体功能要满足图1中的内容,具体说来分为以下几大类:
(1)决策层决策信息
学校决策层需要整个学校的宏观数据,经过系统收集、归纳、提取、运算、模型分析、图表化处理后展现在决策者面前,项目实施最终的决策信息通过三个层面数据汇集到决策层:
·第一层数据主采集来源层包括:学院系所、机关部处、教师、学生等服务对象产生的主体数据;
·第二层数据平台数据存储层包括:原始数据、外部数据、个人云盘数据等;
·第三层数据挖掘分析层包括:采集系统、挖掘系统、归类系统、分析系统、可视运算系统、图表展示系统等.
这些数据从云数据库中的各个层面经过数据挖掘系统的提取、总结、归纳、模型系统分析、数据图表系统转化,最终形成图表化的决策信息.
(2)二级单位(机关、院、系、所等)管理与决策信息
学校二级管理机构的领导需要掌握本单位在管理过程中相关数据信息,以便更好地分配、利用有限资源,发挥资源最大价值,这些数据信息又与其它单位相关数据相互关联,因此在进行管理和决策时需要及时掌握本单位的工作与决策数据,相关数据主要有:单位原始数据与现在产生的数据,其它关联单位相关数据信息,本单位师生与其它单位相关师生数据信息,外部数据信息,科研经费使用、管理开支、后勤支出、项目经费等数据信息.经过挖掘、采集、归纳、筛选云数据智能服务平台内存储的大数据,寻找决策管理相关数据,进行数据模型分析、模型运算、数字图表转换、展示模型显示等.
(3)教师教学科研信息
教师在科研团队、科研活动、工作、学习、生活、新闻、校园活动等工作过程所需要的数据信息,其中包括:科研团队交流、通知传达、文件的传输、邮箱的发送、会议文件、各种每年需要进行的各种申报、考核数据与报表填写信息、查询个人外部相关论文发表情况信息、查询授课信息、个人薪酬福利信息等.数据信息主要有:教师个人相关数据信息、教师科研相关数据信息、教师科研团队相关数据信息、教师教学相关数据信息、教师其它相关数据信息以及这些信息的采集、归类、整理、模型挖掘、数据模型分析、数字图表转换、展示模型显示等.
(4)学生培养及学习生活信息
学生在校期间参加科研团队、科研活动、学习、成绩、个人空间、交友、分享、就业、生活、新闻、校园活动等工作过程所需要的数据信息,其中包括:科研团队交流、通知传达、文件的传输、邮箱的发送、查询个人外部相关论文发表情况信息、查询授课信息等.数据信息主要有:学生个人相关数据信息、学生学习相关数据信息、学生校园生活相关数据信息、学生参与科研相关数据信息、学生社会活动相关数据信息、学生就业、考研相关数据信息以及这些信息的采集、归类、整理、模型挖掘、数据模型分析、数字图表转换、展示模型显示等.
3 智能云数据平台建设体系
3.1 智能云数据服务平台的架构
平台应适应于大数据处理要求,应能支持PB级少量数据管理.系统架构应高可用性、易扩展性、高安全性的框架,支持各类主流开发语言,并提供相应接口.在全面虚拟化的基础上搭建一个能同时管理结构化与非结构化数据的平台,杜绝单点故障,具有强大的检索功能.能同时进行结构化与非结构化数据的存储与应用.基于Hadoop标准的架构能很好地满足以上的标准,整体的架构应如图2所示:
3.2 智能云数据服务平台的关键技术
平台的构建需要两个关键技术:一个兼容多数据来源的大型数据仓库与一个高性能的数据挖掘搜索引擎.这两个技术同时又是一个整体.
平台的数据仓库借鉴了开源系统的先进理念,兼容Hadoop等开源系统,充分利用HDFS的可靠性,MapReduce的引入大大加强了平台在数据分析方面的弹性,使平台在可扩展性、可靠性、易用性和性能方面都有良好的表现.和一般的由NoSQL和检索引擎松散结合构建的数据仓库不同,平台提供了一体化的数据仓库构建手段:实现大数据存储、管理和检索的集成平台,可以实现结构化数据、半结构化数据、非结构化数据的统一管理和检索,满足了“非结构化数据的结构化处理、结构化数据的非结构化处理”的技术趋势.它融合了搜索引擎(全文检索)、多引擎机制、分布式并行计算、索引分片、多副本机制、对等节点机制(去中心化)、新型列数据库存储机制、自然语言处理等先进技术,构建了新型的大数据管理系统,为各类结构化及非结构化大数据高效管理和智能检索的平台提供支撑.它支持PB级海量数据管理,支持系统线性扩展,不存在单点故障或瓶颈,使得系统能够线性增长,每新增一个节点能够同时增加系统的性能和存储容量.
图2 云数据智能服务平台体系架构
而基于此的智能数据挖掘搜索引擎则拥有优异的检索性能.在一个测试案例中,有基础信息25亿条、活动信息81亿条,20个虚拟机节点,在50、100、200并发下均能实现秒级响应.由于平台所具有的弹性架构,随着业务数据量和并发用户的增加,只要通过增加服务节点就可获得基本线性的增长.测试结果如图3所示.
图3 云数据智能服务平台安全防护体系架构
3.3 智能云数据服务平台的安全防护
平台的安全防护分为对内与对外两方面.对内来说,主要体现在数据安全上,由于平台数据的多源性,很可能会出现正确的数据被脏数据替换的情况.因此要进行全面的项目管理,对数据进行清洗、去重等操作后再归集到云数据库中,并对需要回写到业务系统中的操作进行严格控制.数据不但可以通过虚拟化与存储技术在各存储实体中飘移,还可以在物理距离较远的两个数据中心中进行异地备份,很好地保障了数据的安全;对外来说,主要是阻止外来的非法入侵与攻击,针对病毒类的攻击可通过网络防火墙及软件防火墙进行拦截,对于过量的负载,则通过链路负载均衡和服务器负载均衡对访问流量合理分配,另外对于一些特定的攻击,则通过Web应用防火墙、防篡改软件等进行有针对性的防护,同时也会定期主动通过漏扫软件来检测各相关系统的安全漏洞.平台整体的安全控制体系如图4所示.
图4 云数据智能服务平台安全防护体系架构
3.4 建设中的问题及解决方案
平台建设过程中会遇到各种问题,技术层面上问题一般可以通过各种途径解决,而平台本身的数据的有效性问题却是关系到平台能否顺利推广使用的核心问题.所谓的数据有效性指的是平台提供是数据是否足够准确、是否有足够的价值.数据采集的过程中不可避免地要对数据准确性进行审核,一般有两种模式:一是由用户自行提交信息至数据库.由用户对自己输入信息的正确性负责.优点是能信息更新速度快,用户积极性高,缺点是数据的准确性不能保证,影响系统的权威性;二是数据由相关部门审核后写入数据库.它的优点是数据准确性高,有利于平台的推广使用,缺点是审核工作量大,更新不够及时,并且也无法保证信息的完全正确.
因此我们采取的解决方案是将数据进行分类,对于与全校核心竞争力相关的数据(如高水平论文、重点科研成果等),采用相关职能部门认证的模式.另外一些与学校发展密切相关的数据,有许多本来就是由相关职能部门提供的,准确性能有保障.这两部分数据约能占到信息总量的20%左右.对于与用户自己关联较大的信息(如个人经历、联络信息、一般的学术论文等),由用户自行提供即可.
4 智能云数据平台建设的预期效果
建成后,学校相关机关部处的管理模式也将发生改变,由以往单纯的向师生“要数据”,通过云数据平台转变成了数据服务的提供者和使用者,职能也由管理向服务转变.平台运行起来之后,学校大部分重要的数据通过平台统一归集到云数据库中,消除了各部门间数据不一致的现象,通过数据的统一存储,有效的避免信息孤岛现象.平台建成运行采集数据,将能够为学校的各个层面提供数据服务:从学校决策层、管理层、教师、学生都能享受到个性化的信息服务,旨在全面提升学校的核心竞争力.
[1] 陈甜远.大数据时代的高校信息管理中心对策[J].无线互联科技,2013,5:8-9.
[2] 舒忠梅,屈琼斐.大数据时代高校信息管理与决策机制研究[J].华南理工大学学报(社会科学版),2013,15(6):96-101.
[3] 刘中宇,刘海良.大数据时代高校云资源应用[J].现代教育技术,2013,23(7):59-62.
[4] 罗军锋,徐菲.大数据时代的高校信息化框架[J].中国教育信息化,2014,3:11-13.
[5] ELATIA S,IPPERCIEL D,HAMMAD A.Implications and challenges to using data mining in educational research in the Canadian context[J].Canadian Journal of Education,2012,2:101-119.
[6] DAI W.BASSIOUNI M.An improved task assignment scheme for Hadoop running in the clouds[J].Journal of Cloud Computing,2013,2:23.
[7] Nature.Big Data[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html.