APP下载

大数据可用性在高等教育领域的重要性研究

2018-07-20韩小祥徐华珍卫丽华

电脑知识与技术 2018年13期
关键词:大数据

韩小祥 徐华珍 卫丽华

摘要:随着信息技术的飞速发展,各种数据增长十分迅速,数据量大到无法通过常规的方法进行分析处理,大数据应运而生,大数据在各领域应用广泛,在高等教育领域亦是如此。高校的信息系统是数据生产大户,但高校的数据价值密度却很低,文章主要介绍了大数据给高校带来的影响,指出了高校中存在的大数据可用性问题,并提出了从关系数据一致性和实体同一性两个方面提高高校数据可用性,帮助高校从海量数据信息中提取有效数据,相对提高数据的价值密度。

关键词:大数据;数据价值密度;数据可用性;数据一致性;实体同一性

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)13-0020-02

Research on the Importance of Large Data Availability in the Field of Higher Education

HAN Xiao-xiang 1, XU Hua-zhen 2, WEI Li-hua 2

(1. Nantong Institute of Technology, Informatization Construction Management Office, Nantong 226002,China;2. Nantong Institute of Technology, School of Computer And Information Engineering, Nantong 226002,China)

Abstract: With the rapid development of information technology, all kinds of data grow very fast, and the amount of data is too large to be processed by conventional methods. Big data emerges and it is widely applied in various fields, and also in higher education. The information system of university is a big data producer, but the density of data value of university is very low. This paper mainly introduces the influence brought by big data to universities, points out the availability of big data in Colleges and universities, and puts forward methods of improving data availability from two aspects: consistency of relational data and entity identity, in order to help colleges and universities to extract effective data from massive data information, and to improve value density.

Key words: big data; data value density; data availability; data consistency; entity identity

大数据是指无法在可承受的时间范围内用常规的软件工具进行捕捉、管理和处理的数据集合,是需要采用新处理模式才能获取很多智能的、深入的、有价值的信息,以期得到更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资源[1]。目前,大家比较公认的是大数据具有4V的特点:数据规模大,即数据量大,数量级别从TB跃升到PB,不久将会产生EB级别甚至ZB更高级别的数据;数据种类多,数据类型不仅包括传统的关系结构化类型,还包括半结构化和非结构化类型;处理速度快,数据产生和更新的频率快,要求处理数据的速度更快;价值密度低,数据海量增长,但获取到的有用信息难度也不断加大[2]。

1 高校中的大数据

大数据现已提升到国家战略层面,“十三五”规划明确提出要大力发展大数据产业,加快建设数据强国,实现我国从数据大国向数据强国转变。大数据正推动着各行业的发展。高校作为教育机构,它不仅能够利用信息化技术发展教育,还对信息时代的发展起到促进作用[3]。高校也是数据生产大户,高校的工作从宏观上可划分为教学、科研、管理三大类,从教学上看,会产生学生作业数据,学生学习成绩数据,教师备课教案数据,教师备课数据等;从科研上,会产生教师科研方面的数据;从管理上,会产生学生基本信息数据,教师基本信息数据,其他崗位工作人员基本信息数据,学校基本信息数据,学生各项评比数据等等。高校中产生的这些数据具有数量大、种类多、产生快、真实可信和具备分析价值等特点,完全符合大数据的特征。研究这些数据,对于高校建设与发展有着重要的意义。比如大数据可以预测学生是否能顺利完成课业,纽约州波基普西市玛丽斯特学院(Marist College)与运营数据分析公司Pentaho合作发起开源学术分析计划(The Open Academic Analytics Initiative),旨在一门新课程开始的两周内预测哪些学生可能会无法顺利完成课程。通过收集分析学生的学习习惯—例如点击线上阅读材料、是否在网上论坛中发言、完成作业的时长——来预测学生的学业情况、及时干预帮助问题学生,从而提升毕业率。再比如大数据可以发现被关注的学生对象,电子科大曾做过一个课题—寻找校园中最孤独的人。他们从3万名在校生中,采集到了2亿多条行为数据,数据来自学生选课记录、进出图书馆、寝室,以及食堂用餐、超市购物等数据。通过对不同的校园一卡通“一前一后刷卡”的记录进行分析,可以发现一个学生在学校有多少亲密朋友,比如恋人、闺蜜。最后,他们找到了800多个校园中最孤独的同学,这些同学平均在校两年半时间,一个知心朋友都没有。这些人中的17%可能产生心理疾病,剩下的则可能用意志力暂时战胜了症状,这些同学就需要学校和家长重点予以关爱。高校中大数据应用广泛,但也存在一定的问题,后面将做着重分析。

2 数据可用性

随着大数据时代的到来,大数据在爆炸式增长,但数据集合中的劣质数据也在随着增长,导致数据整体质量下降,真正有用信息的利用率并不是很高,这也即前面提到的大数据的其中一大特点-价值密度低。为了挖掘出大数据更多的有用价值,提高数据的质量,开展数据可用性的研究对于有效发挥大数据的作用具有战略性的意义[4]。研究者们普遍认为数据的可用性包含数据的一致性、准确性、完整性、时效性及实体同一性五个方面性质,其具体定义如下:

1) 一致性:关联数据之间不产生矛盾,逻辑关系要完整正确。

2) 准确性:数据集合中每个数据表示现实物体的精准程度。

3) 完整性:数据集合包含的数据完全满足对数据进行各项操作的要求。

4) 时效性:指在不同需求场景下数据的及时性和有效性。

5) 同一性:指同一实体在各种数据源中的描述必须相同。

一个数据集合,满足以上五个性质的程度称为该数据集合的可用性。

在高校中也同样存在数据可用性问题。数据一致性问题:高校中管理职能往往有所重叠,导致信息重复采集,例如学生的基本信息,学院与教务处都有记录,同一个字段存在出入。

数据完整问题:比如不同部门对同一数据的使用习惯和方式不一样,数据格式不统一,造成数据不完整。数据不及时、不完整问题:由于收集到的信息不及时,造成所用的数据可能并不是最新的。数据同一性问题:比如说有的职工既担任了行政职务,又担任了教课的职务,但在系统中却有两条实体记录,这是不正确的,应属同一实体。

3 高校数据价值密度提高策略

以下就数据的一致性和实体同一性两个方面来谈谈如何提高高校的数据可用性。

1)高校普遍存在不同系统中信息重叠,数据不一致的现象,笔者认为很大一部分原因是各个部门或系统之间数据不能共享。为方便学校数据统一管理,可在校园内搭建一个数据管理应用平台,实现各部门数据的应用共享,各部门制定统一的存储标准,设计数据库时,要充分考虑其数据的安全性,避免数据的冗余,能快速实现数据的可视化分析,定期对数据进行一致性维护,如对数据进行优化,建立多个副本,定时更新。

2) 目前实体同一性研究是研究数据可用性最多的一个方面,其主要涉及两类方法:第一类是从语义规则的角度进行同一性研究,这类方法主要通过经验知识来描述实体的同一性问题;第二类是从相似性的角度进行同一性研究,该类方法主要采用相似度函数来对实体同一性进行判定。这里,笔者认为使用第一类方法来对高校的数据进行实体同一性描述,首先要会识别实体,进行正确解析,即弄清楚哪些数据实体描述的是同一个物理实体, 给定的某个数据实体描述的又是哪个物理实体。对于关系型数据,比如各个信息系统的数据,应要有实体统一性错误检测机制以保证实体的统一。而目前针对半结构化和非结构化类型关于识别的方法研究还很少,还只能靠人工识别的方式进行。

要想真正实现高校信息化管理,在实施大数据过程中还会面临诸多挑战,如部分数据涉及个人隐私,那么在收集时就存在一定的困难。再比如说教育数据是在动态变化的,掌握动态变化规律,实现数据实时更新又是一大挑战等等。这些问题还有待进一步深入研究。

4 结语

大数据的兴起给教育行业带来了前所未有的机遇和挑战,如何利用大数据的思想将教学、科研、管理数据转化为高校的决策依据,为高校管理和建设更好地服务是高校需要努力的目标。大数据对高校智能化管理意义重大,高校会产生大量数据,但数据的价值密度低,本文从数据一致性和实体同一性两个层面,对提高数据价值密度进行了研究。当然,要能更好地提高高校数据质量,还需进行更深地探索。

参考文献:

[1] 维基百科.大数据. https://en.wikipedia.org/wiki/Big_data.

[2] 深圳国泰安教育技术股份有限公司大数据事业部群, 中科院深圳先进技术研究院——国泰安金融大数据研究中心, 编著.大数据导论:关键技术与行业应用最佳实践[M].北京:清华大学出版社,2015.

[3] 胥果.大数据在高校教育信息化中的应用[J].教育现代化,2017,4(5):114-115.

[4] 李建中,刘顯敏.大数据的一个重要方面:数据可用性[J].计算机研究与发展,2013,50(6):1147-1162.

猜你喜欢

大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路