APP下载

迎接大数据时代

2018-01-06刘晋东

考试周刊 2018年1期
关键词:大数据

摘 要:继云计算、云平台之后,大数据又悄悄成为时下热词,“今天你云了吗?”的问候语,也变成了“今天你大数据了吗?”什么是大数据?大数据就是数据多、数据大?大数据与以往的数据(我们不妨先称之为“小数据”)有什么区别?以上问题值得我们深思与探究。

关键词:大数据;数据应用;结合教育

“大数据”一词早在20世纪40年代就已出现,百度、互联网周刊、IBM,许多机构都为大数据给出了定义,在《大数据时代》一书中,作者将数据、技术与思维并列为三大角色,我认为大数据正是这三者的统一,即数据本身,数据处理技术,数据应用思维。下面我们就从数据、技术、思维三个方面看看大数据与小数据有什么不同,来帮助大家更好地理解大数据。

一、 大数据时代来了

数据本身我们并不陌生,日常生活中充满了数据,人类对数据的使用早在上古时代就已开始,人们通过对日、月位置及四季的变化来制订历法,就是一个完整的数据采集、分析与应用的过程。小数据时代我们对数据分析更多是定性也定量的,大数据时代对数据的定义与之相比还有差异,一是数据量的加大。大数据是利用所有数据,而不依赖于随机样本,这种全数据的模式,成功地避开了样本数量与样本选择对结果的不良影响;二是数据的生命周期更长了。当我们处理一条信息时,一定会关注信息的时效性,比如当飞机成功降落后,在一个较短的时间内,对于我们来说相关的信息被认为已经失去意义。然而在大数据时代,数据的生命周期更长了,我们可以通过对一名乘客以往的飞行记录来分析预测他下次飞行的时间及目的,从而制定相应的推销计划;三是非结构化数据占据了更多的位置。小数据时代数据分析的对象更多是线性的,结构化的数据。大数据时代非结构化数据日益增加,数据格式更是纷繁芜杂,文字的、图片的、各类报表、音频的、视频的,数据的数量、种类、结构都发生了巨大的变化。

这里的技术是指数据分析技术,小数据时代我们分析更多的是结构化数据,追求数据的准确性。在大数据时代,结构化的数据只能占到5%甚至更少,我们需要面对分析的更多是非结构化的数据,数据量的增大,非结构化数据的增加,数据格式的不统一,让我们不得不接受数据的混杂和不精确。比如我们在搜索引擎中输入“三通”,我们得到的结果可能是海峡两岸三通,可能是教育“三通两平台”,还有可能是水暖产品。当然实际情况要复杂的多,越是非结构化的数据,其分析处理难度就越大,对技术的要求就越高,我们尽可能地为文章加注关键词也是降低处理难度的一种方式。这种数据的不准确性并不影响我们对大数据的使用,大数据的核心是预测,这种预测是用概率来说话的,有时我们不得不接受一个问题不是只有唯一答案的结果。

大数据时代对数据的分析更多是相关关系,而不是因果关系。在小数据时代我们对数据的分析,是希望通过对数据的分析找出不同变量间的因果关系,从而达到对生产、生活的指导。而大数据时代并不纠结于数据的因果,而更多的关注“是什么”,至于“为什么”的问题放在了次要的位置,比如通过对数据的分析,我们看到每天上网时长在半小时到1小时之间的学生,平均成绩要更高,那我们要做的首先就是创造相应的条件,其次才会去深入研究其中的因果关系。

大数据时代,数据量及数据的来源不断增加,数据分析技术日益更新,然而拥抱大数据时代还要从思想认识上更准确的理解大数据,IT(Information Technology)既要有信息,也要有技术,没有信息,技术就是无源之水;没有技术,信息只是毫无意义的“0、1”堆积。在大数据时代,同样重要的还有思维,首先要认识数据的价值,然后采用合理的分析方法得出结论,最终将其转化为价值。数据不应只是摆在政府官员桌上的报告,也不应只是年终总结的种种图表,数据应成为可利用,可创造价值的资源,数据采集、数据分析、数据应用三者应形成一个良好的闭环,形成政府支持、服务社会、产业反哺的数据产业良性發展。

大数据时代已经来临,大数据带给我们的是全新的数据分析与使用方式,是全新的思维与观念,是巨大的机遇与挑战,面对大数据带来的变革,有清晰的认识与明确的规划是我们的当务之急。

二、 中国的数据建设现状

在中国,早在2002年,国家“四大基础数据库”的概念就被提出,即人口基础信息库、法人单位基础信息库、自然资源和空间地理基础信息库、宏观经济数据库(见《国家信息化领导小组关于我国电子政务建设指导意见》)。虽然《意见》中将“四大基础数据库”作为国家电子政务建设的重要组成部分提出,但其具体的技术规范和实现方法未能明确,“四大基础数据库”的建设现状并不令人乐观。

中国数据产业大都还停留在数据采集与交易的初级形态,与国外相比还存在数据量小,尤其是公共数据量小;数据分析、使用手段简单,数据增值不足;立法与规范不足,数据滥用等问题。

十二届全国人大三次会议上,李克强总理在政府工作报告中首次提出“互联网+”行动计划。十八届五中全会公报提出要实施“国家大数据战略”,第一次将大数据写入党的全会决议,标志着大数据战略正式上升为国家战略。

三、 教育大数据

在教育方面,2012年刘延东副总理(时任国务委员)提出:“要以建设好‘三通两平台为抓手,也就是‘宽带网络校校通、优质资源班班通、网络学习空间人人通,建设教育资源公共服务平台和教育管理公共服务平台。”掀起了教育信息化建设又一次高潮,其中“两平台”建设正是我们迎接大数据时代的良好契机。

“两平台”建设是指教育管理公共服务平台和教育资源公共服务平台(以下简称管理平台和资源平台),目前全国各省均在如火如荼的进行这项建设工作。其中教育管理公共服务平台。采用“两级建设,五级应用”的建设模式,即围绕国家教育改革发展的中心任务,按照国家和省两级数据中心建设,中央、省、市(地)、县和学校五级应用的基本思路、建设覆盖全国,各级各类教育的学校、教师、学生的信息管理系统。同时教育管理公共服务平台在资金解决和数据中心建设方面均有指导性意见。国家级教育资源公共服务平台已经建成,各省如何建设没有明确的意见。endprint

我认为两平台并非两个孤立的平台,在建设、应用等层面两平台都有密不可分的联系,两平台应做到数据互通,相互融合,这样有利于大数据的分析。

“大数据的挖掘主要是网络化环境下的非结构化数据挖掘”,“在非结构化数据挖掘中,会自然进行数据清洗和和逐步强形式化,自然形成半结构化数据和结构化数据,以提高数据使用效率”。对大数据的分析与利用很大程度上要转化为结构化的数据,以便我们找出其中的规律。同样,结构化的数据也是我们做大数据分析的重要依据,通过结构化的数据我们可以更精确地分析教师与学生的不同,不同学生之间的个体差异。

如果说管理平台是实现管理现代化的重要基础,资源平台就是教学应用最主要的系统,在教师和学生的应用过程将产生海量的数据,这些数据绝大多数是非结构化数据,如果仅仅是将这些数据作为资源存储起来,这是对数据资源的一种浪费,千百万教师、学生应用的过程、轨迹,这些有价值的数据被忽略了。对这些数据的分析,可以告诉我们教师、学生喜欢用什么样的资源,哪些系统对提高学生成绩有帮助,他们的使用习惯是什么,这些是可用于再创造价值的信息,我们要做的绝不仅是将资源简单的堆积。

管理平台可以为资源平台实现实名认证提供支持,通过实名认证将两平台有机联系起来,为日后实现大数据分析与应用打基础。大数据发展的障碍,在于数据的“流动性”和“可获取性”,美国、英国、印度均有数据公开的措施、举动。数据资源不同于任何一种自然资源,它不会越用越少,甚至枯竭,而是随着数据的应用、汇聚,它会愈发壮大、再生。我们建设的管理公共服务平台从字面上看,它应该提供公共服务,而不应成为上报统计系统或者简单的查询系统,它应提供丰富的数据接口,充分发挥数据的价值。

前面提过管理平台的建设模式是“两级建设,五级应用”,市以下的教育部门不再部署。学校在信息化建设过程中,有很多系统都需要教师、学生信息,需要信息管理系统的支持,这种需求如何解决?自行再部署一套学籍管理系统和人事管理系统,加大了工作量不说,如何保证两套系统数据的一致性?如何利用学生在资源服务平台的学习轨迹把握学生学习的特点,从而制订更有针对性的学习方法?对学生各类数据的应用如何保证其合法性,有效的维护个人隐私?以上的种种问题都需要我们进行认真的考虑。

“两平台”建设应开放接口,统一标准,为基础应用提供数据支持。教育部2012年发布了《教育管理信息 教育管理基础代码》等七个教育信息化行业标准,而实际情况是,各地,尤其是县、校两级信息化建设中很少或根本不考虑这些行业标准,究其原因一个是基层信息化建设缺乏指导,对标准、规范认识不足,这似乎不是聘请几个专家参与方案制订或招标能够解决的;另一个更重要的原因是不考虑这些行业标准似乎没有什么影响,工程一样进行,成绩一样斐然。如果统一建设的管理平台提供数据共享接口,其他后续平台能且只能由此获得基础数据,那么这些行业标准就不是可有可无了。

“两平台”建设更应考虑数据运营的模式与规范,保证数据应用的合法与健康。大数据要流通、要分享,数据开放需要信任,要获取信任就要有隐私保护措施做基础。我们不仅要共享数据,更应在一个可执行性强的数据应用规则下共享,让人们感到数据是安全的,隐私是有保障的。这是一个体系的建设,而不是简单的一纸文件,既要保证数据的应用符合国家法律规定,也要保证其符合全社会的一般道德规范,避免对个人行为的量化与评估。

“两平台”是教育领域的基础应用平台,其重要性不言而喻,为加快“两平台”建设,提升“两平台”应用效果,达到建、用的和诣统一,我认为应建立基于我省“两平台”数据使用的教育数据应用规范。

最后,大数据不是什么神秘的法宝,它是一种资源、一种工具,我们既不能畏惧它,也不能被它的神圣光环所迷惑。我国基础数据库建设存在缺乏顶层设计、各自为政、重复建设等弊端,为应对大数据时代的来临,更好地实施国家大数据战略,在顶层设计,运行机制、立法规范、人才培养方面还有大量工作要做,让我们善用大数据。

参考文献:

[1]国家信息化领导小组关于我国电子政务建设指导意见(中办发〔2002〕17号)[S].

[2]刘延东.国务委员在全国教育信息化工作电视电话会议上的讲话[R].

[3]教育部等九部门关于加快推进教育信息化当前几项重点工作的通知[R].

[4]李德毅.大数据挖掘带动的变迁[N].中国信息化周报,2014年6月9日.

[5]田溯宁.拥抱“大数据时代”——《大数据时代》推荐序一[J].

[6][英]维克·托迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[J].

作者简介:

刘晋东,山西省太原市,山西省電化教育馆。endprint

猜你喜欢

大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索