论教育非结构化数据的挖掘与应用
2017-12-27程心
程心
【摘要】随着教育模式的不断变革、经济的不断发展,教育主体对于日常教学评估与考核提出了更多新的要求。这些要求促使我们应该与时俱进,建立动态化、连续化、精准化、个性化的新型教育数据评估体系。充分利用非结构化数据,真正实现教育信息的可追溯性,从而在源头上解决问题。
【关键词】应试教育;非结构化数据;现代教育;创新发展
一、当前教学课堂中所反映出的硬性痛点问题
当前中国的教学论是由建国初期所引进学习的苏联凯洛夫教学过程理论。随着经济的不断发展,其“三个中心”——教师中心、教材中心与课堂中心,及只注重知识传播这种形式已经越来越难以适应教师、学生、家长的要求。其教学模式所注重的僵硬的结构性数据(平均分等)难以适应21世纪对创新型人才、独立有主见类型人才的考核需求。同时,结构性数据所占据的比例越大,就越难以全面地、灵活地判断一个人的价值。以片面强调成绩,而忽略了非智力素质的培养,忽视了个性与共性的相容及匹配性这种应试目的为结果的教育往往忽视了人的本质价值,最终导致一个结果——各教育主体(教师、学生、家长)之间共识的缺失,严重者直接导致了主体之间关系的破裂。教育从来就不是单个教育主体所能决定的一个过程,真正打造一个人才需要良好的家庭环境、精确的教师引导和学生内心的自我追求。要想达到上述共识(包括求同存异、共同的价值基础等),都需要相互认可,相互理解,并需要一个量化的个人综合价值及效绩评估的解决方案——教育非结构化数据的挖掘与应用应运而生,这才是解决中国教育核心矛盾的灵丹妙药。
二、当前应试教育衍生出的结构数据带来的弊端
第一,通过简单的单次模拟测试所得到的量化分数难以动态地、全面地反映受测试者的受教育情况。实际上,这种教学考核方式难以深挖学生学习过程产生的问题,甚至难以让学生客观认识自身的情况。部分家长本身受角色的限制,对于分数的过度解读在不同程度上加劇了学生的负担。因此,传统的考核数据在全面性、可读性及不同教育主体的解读方式及解读出的内容性上都影响了教学的后续进展情况,能否真正用考核出的最终结果积极地作用于整个教学过程,存在极大的不确定性。
第二,当前应试模式存在着许多硬性漏洞,体现在投机性、片面性及教学过程中的连续性、教学过程反馈不够明显性上。高考中所谓的“黑马”超水平发挥,实质上是传统考核投机性的缩影,这些所谓的“黑马”中绝大多数人既不是因为一瞬间开窍,也不是能力的飞跃性提升,根据考后学生的反馈,更多的是因为蒙对了几道选择题而取得高分。退一步分析,这些“黑马”在客观上并不利于人才的选拔。仅仅通过不稳定的一次超水平发挥着实让人难以信服并信任他们可以在以后的工作中稳定在超水平发挥的能力区间。考纲上“有就讲”,试卷中“考就学”是大部分高校的缩影,其知识传播时的片面性与功利性可想而知。从某种程度上来说,这种方式的确加强了硬性基础知识的落实情况,但是在21世纪以“创新性”人才为目标和“大众创业,万众创新”的时代潮流之下,以传统的教育结构性数据为基础的引导模式难以立足。
第三,传统应试考核的数据反馈连续性不够强。其原因是应式大型考试(期中、期末等模考)虽考的内容全面,但组织周期长,耗费时间成本高,加上大型考试中的客观因素,会使长达数月的教学准备情况无法准确、权威地反馈。形象地说,每天都写日记的人和半年写一次日记的人相比较,显然前者对自身的情况最为了解。间隔时间长、教学信息反馈不全面是传统应试教育一直沿袭下来的弊端,这种不注重日常教学数据的考核方式不利于动态、准确地引导学生的学习。
三、非结构化数据在实际应用中的优点
非结构化数据,即量子力学延伸的、具有发散性思维方式的数据。与传统的教育考核所产生的结构性数据不同的是,非结构化数据更加注重日常行为的反馈,同时也是21世纪互联网思维在教育数据中的应用。大量的日常教学数据所构成的非结构化数据,可以全面、细致、连贯地拟合教师和学生的日常工作情况,真正做到教学过程可视化、细节可量化。而可追溯的非结构化数据不仅可以让教师与学生全面地认识自身的情况,而且可以有理有据地找出教学过程中问题的根源所在,更能及时地、有针对性地解决问题,既高效地解决了问题,又有效地增强了教育数据的直观性、易读性,充分挖掘了数据中的价值。
非结构化数据在教育中的应用是打造个性化课堂、因材施教的基础。非结构化数据的收集方式是点对点的,虽说非结构化数据是发散的,但是它有着针对性、目的性、可靠性和极强的指向性。它之所以使“量产式”的个性化教育成为可能,是因为其具有数据覆盖广、信息含量大、细节可量化的特点。非结构化数据包如同一个矿山,里面有着大量的学生个性情况,当掌握并提取所需信息后,可以更准确地描绘学生、教师的用户“画像”,有利于更精准地提供相应的增值服务,其灵活性与全面性是传统的结构性数据所望尘莫及的,这样就形成了“数据收集—个性信息提取—针对性的个性服务”三位一体的教学服务流程。可见,非结构化数据将会是未来个性化教学的“原材料”,也是“个性教学”强有力的理论依据及基础,是21世纪版的高效互联网“因材施教”。
非结构化数据的全面可追溯性是通过教学日志来体现的,目的是为教学过程全天候“保驾护航”。正是因为非结构化数据具有日常性的特点,适应了教育时间段长的特性。一个人接受长达十年以上的教育,但上了高中忘初中,上了大学忘高中,且大量的教育数据因未被及时保存而被浪费,(“需求即数据,数据即资源”是互联网思维在教育中应用的体现)大量的需求及问题因未被教育数据所反馈而导致一个人终身的遗憾。学生个人的非结构化数据包若不加以整理与利用,一个人的个性化、特殊化的需求和问题在教育过程中得不到表达,造成了个人发展的目的与方向不明确,最终导致一个人在受教育过程中的缺失。而“追溯”顾名思义,就是回归过去找经验,回归过往做总结,是量变中寻找到质变解决方案的过程(追溯程度:在不受客观因素干扰的情况下,可以追溯到几年甚至十几年前某个月、某一天、某一堂课的知识吸收情况和上课状态)。这种信息化时代的追溯不仅仅让你知道并回忆自己的过去,更重要的是从根本上全面地认清自身的优缺点,并努力完善自身,最终目标是让学生把握当下,反省过往得失,从而创造未来,真正达到“教育”的本意。从另一个角度来讲,非结构化数据从源头上寻找问题的所在,达到根治的目的,为“改变”创造机会和条件,真正让学生唤醒记忆并从感悟过去的过程中总结经验,从而使教育主体在教育整体过程中取得最大的收获。
非结构化数据对未来具有极大的预判与参考意义。通过收集并把握非结构化数据的相关关系——线性关系或非线性关系,可以更权威、更可靠地把握未来数据发展的趋势,而趋势对于一个人的发展与校绩评估具有极大的参考价值。总的来说,非结构化数据是基于现在已有的发散性数据来反馈未来趋势的。而把握未来,可以突破传统的考核参考数据在教育中达不到的功能。
非结构化数据是教师与学生沟通的基础与保障。非结构化数据的直观性、准确性较以往的结构性数据更加具有说服力,能够动态地、量化地对学生的学习趋势进行拟合,从而全面反映学生的优缺点,可以使学生与教师之间“有题可析”。而有目共睹式地分析学生的问题,可以进一步减少师生之间矛盾发生的频次,促进师生关系的缓和,提高学生成绩进步上的可视化程度,目的是让被教育方学会在学习困难时期如何“过冬”,为进步的到来打下坚定的基础。做好充分的思想准备,全面提高学生的心理素质,深入认识自我,有利于学生在自我定位方面取得进展。另一方面,应时代之需,非结构化数据也可以系统地反映一个教师的备课及授课情况。在教学过程中,有效监督教师的工作,可以及时防范教师不负责、不认真备课等情况,同时也为教师着力完善自身素质提供了强有力的数据依靠。非结构化数据在教育上的应用,可促使教师教学质量随着工龄上升而不断提高(在合理区间内),并提高学生与家长对学校、教师工作的满意度,进一步增强教育主体之间的信任感与相互认同感。
非结构化数据也是师生关系、家校关系的“晴雨表”。近年来,在高考的压力之下,教育主体之间变得十分敏感,彼此之间发现不了问题的根源所在,进一步导致了教育主体之间矛盾的激化。非结构化数据不但可以更好地、有说服力地反馈问题,还具有提前预知与防范问题的发生,划分家校责权等作用,促进教育公开化、透明化,有效解決教育本体之间的矛盾,保障教育的顺利进行;针对教师、学生、家长与学校平台提供的有价值的数据反馈,推动其解决方案的落实,是完善教学问题应对机制、打造和谐校园的根本途径。
四、非结构化数据的定义与特点
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要组成部分。随着大数据技术的不断发展,非结构化数据几乎已经占据大数据一半以上的比例,从非结构化数据在大数据中如此大的占比我们可以推断出,非结构化数据与大数据在概念与特点的定义上具有一致性。由于目前国际上尚未对非结构化数据给出统一的定义,所以下文对非结构化数据概念与特点的定义多是基于大数据的概念和特点,在大数据与非结构化数据具有一致性这一前提下,可以进一步对非结构化数据进行解释。
(一)IDC网对非结构化数据的定义和特点
据国际数据公司IDC的调查报告[1],企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。从非结构化数据在大数据中的占比来看,非结构化数据已经成为大数据中非常重要的组成部分。
IDC对大数据的定义为[2]:大数据一般会涉及两种或两种以上的数据形式,它要收集超过100TB的数据,并且是高速、实时数据流;或者是从小数据开始,但数据每年会增长60%以上。IDC主要是从定量分析的角度对大数据的概念进行定义,在此基础上,我们也可以把非结构化数据定义为数据量大、数据种类丰富、增长速度快并且具有时效性的这样一种数据。
从上述IDC对大数据的定义可以分析出,大数据主要有数据量大、数据种类多、增长速度快以及实时接收与存储的特点。
(二)维基百科对非结构化数据的定义和特点
维基百科将大数据定义为[3]:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。用通俗的语言来讲,大数据是一种数据体量大、数据种类多并且无法用普通的数据收集与处理工具(如数据库)进行收集与处理的数据集合。
从维基百科对于大数据概念的定义可以推断出,维基百科所认为的大数据的特点主要是数据体量大(目前,数据量已从TB级别升级到PB级别),数据种类多并且需要专门的收集与处理工具。以上对于大数据概念与特点的定义同样适用于非结构化数据,因为它们是部分与整体的统一关系。
(三)非结构化数据具有洞察发现力、流程优化能力,是多样化的信息资产
国际著名研究机构Gartner对大数据给出的定义为[4]:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
从上述定义可以看出,Gartner所认为的大数据的特点主要有洞察发现力、流程优化能力以及多样化。除此之外,大数据还是一种需要专门的处理模式与技术的信息化资产。同样的,非结构化数据也具有这些特点,用通俗的语言来讲,非结构化数据和大数据都可以实施并且高效地记录和收集数据,通过对海量数据使用专门的软件与处理手段进行处理后,可以从这些数据中发现一些规律与特点,从而让数据不仅仅是数据,而是变成一种有价值意义、可供利用的资产。
(四)非结构化数据的4V特点
目前,对于非结构化数据的特点比较统一的定义是非结构化数据的4V特点,即Volume(数据规模大)、Variety(数据种类繁多)、Value(价值密度低)、Velocity(处理速度快)。
1.Volume(数据规模大),即数据量从TB级别上升到PB级别。
2.Variety(数据种类繁多),即如今的数据已经不再局限于文本形式,更多的是视频、音频、图片、地理位置信息等非结构化数据。
3.Value(价值密度低),价值密度高低与数据总量成反比。以网络视频为例,一小时的视频中有价值的内容可能就几分钟而已。
4.Velocity(处理速度快),数据处理遵循“1秒定律”,可以在极短的时间内快速提取出有价值的信息,这是非结构化数据区别于传统数据最大的特点。非结构化数据可以创造价值,而传统常规数据不具备这样的可能[5]。
五、非结构化数据在教学过程中的应用流程
教育非结构化数据的流程应为:数据收集—个性信息提取—生成报告(易读、直观)—提供针对性解决方案。
(一)数据收集
教育数据的收集与传统的网络爬虫收集方式有些相似,但又有所区别(网络爬虫技术是当前信息提取的主流方式)。教育信息提取应该更加注重即时性、全面性、连续性、针对性四点。每一位教师与学生的需求都有所不同,所面对的问题和需求的解决方案也不同。因此,数据收得对于个性信息提取与数据分层分类方式上具有较高的要求。同时,在收集信息数据的时候需要设置一个标准化的信息解码器来保护教育数据,增强安全性。其中,收集场景多集中在课堂时间、学生自习时间和教师的工作时间上,具体细化到日常收集学生的课堂练习正确率、课堂专注度和课后阅读持续时效性等发散性数据,以及综合各个测试成绩的准确性,从而全面地、准确地刻画用户“画像”。利用数据模拟教学行为,将突破较为片面的传统的数据收集方式,建立用户个人动态的非结构化数据包。
(二)个性信息提取
个性信息的提取主要是在教师与学生的非结构化数据包中提取与教育主体需求、发展有关的数据,是整个教育数据分析流程的初加工阶段,有利于将教育数据与教育主体的个性需求相匹配。同时,我们也应保存暂时用不到的教育数据,使教育数据的资源不被浪费,同时在解决“一个点”的问题时,联动地、全面地追溯过往相关的数据,提高数据价值的挖掘能力,为现代教育“因材施教”“对症下药”提供有理有据的基础。
(三)针对性的生成报告
在经过个性信息的提取环节后,将已有的个性化信息(课堂音频、日常阅读、学习习性相关的数据)转换成格式化的文本。经过教学问题的识别、跟踪,趋势倾向的分析等,以简单易读的回归曲线、数学模型或图表,自动生成深度挖掘后的数据报告,最终由点到面地呈现出个性化数据的价值(即将数据包的大量数据所揭示出隐含的、具有潜在价值的信息,以通俗易懂的方式直接向教师与学生表达,不仅可以让教师与学生的教育数据得到充分的提炼,逐步增强信息输出环节的投入,而且促进教育数据对点教学实践的落实)。
(四)提供针对性的解决方案
数据是无声的,虽然它可以反映出大量的问题,但是其无法主动解决问题也是制约教育数据应用的关键。因此,促进教育数据的落实不仅要让教育主体看得懂数据,而且应该让其学会利用数据,去寻找有针对性、高效性的解决方案。未来,我国应大力提倡学校与相关正规科研机构合作的方式,根据教育数据的分析与实践工作相结合的方法,开发一系列完善的教学数据在课堂实践中应用的相关数学模型等。在利用数据的同时,把握数据的潜在价值,使其回归到教学实践的方式上。另一方面,建立各个班级、学校的热点问题的分析,推动各个学校、地区之间教育成果与教学问题的探讨,推动教育教学方式的创新。针对热点问题,对教学共性与个性问题进行深入的研究与分析,丰富教学成果的展示途径,最终在量变中寻找质变的解决方案,将是数据价值提升的突破口。
六、非结构化数据在教学中应用的创新发展点
目前,非结构化数据在日常教学中的应用在我国尚处于发展初期,国内诸多科技企业像科大讯飞等纷纷驻足于教育数据。但是我国各地区的教学质量与教学水平参差不齐,部分地区教育基础设施相对不完善,因此我国的教学数据的应用绝大多数依然处于封闭状态,实质上是一种信息资产的浪费。现今,我国绝大多数校园内的教学数据分析仍旧停留在传统的结构性数据上。在技术方面,我国尽管也使用了相对成熟的数据分析软件,但是依旧停留在人工检索和传统的二维搜索方式上,甚至连教学数据输入也是由教师人工输入,如学生成绩等。实践证明,这种方式在21世纪的数据时代如同马路上踩自行车——耗费大量的人力、物力,但收效甚微。纵观历史,人工数据分析只能提取直观的、有规律的、结构性数据的浅层文本信息,谈不上深层次的多级教育信息点的挖掘。然而为了顺应时代的潮流,人工式的分析对于松散但是价值信息含量巨大的非结构化数据早已无从下手,不仅无法深度挖掘数据背后的潜在信息,就连浅层的基本信息也无法高效处理。有时,这些数据也极有可能因教师的主观个人判断、经验主义错误而导致信息误读,甚至可能导致价值数据的丢失。这严重掩盖了非结构化数据价值含量大、客观性、公正性的优势,造成信息资源的浪费。
因此,随着中国市场经济的不断发展、教育产业的不断规范、互联网在各个行业中的广泛应用,推动教育数据高效化、安全化、透明化是21世纪数据时代背景下的首要任务。既要保护我国教育数据资源的安全,又要充分利用教育数据资源造福教师与学生。将教育数据资产化、财富化,重视其在教学实践的应用与发展,同时加大教育信息收集力度,建立体系化的教育数据分析系统,实现教育以数据为保障、以人为中心,做到全面促进教育分析方式的创新。
(一)促进教育数据“去隐私化”
“去隐私化”绝不是开放用户隐私信息,而是在增强教育主体数据安全性的同时,通过“过滤”手段去除用户隐私信息,达到共享教育数据的目的。这有利于多向度、全方位、立体化、动态化、关联式分析社会教育的问题、需求和相应的解决方案,有利于挖掘当前教育过程当中的深层次关系,把握宏观规律,加强顶层设计,量化教育过程,追溯过往问题,联动教育主体之间的关系,促进社会教学质量全方位提升。
(二)统一数据收集终端,集约化、规模化收集教育数据
教育数据不同于商业数据,其对数据的保密性、整体性、联动性、关联性有着更高的要求,任何一方面数据的破坏或丢失,都极有可能导致教学数据分析的不严谨和片面化。因此,我国在未来不应该仅仅注重教育数据的价值性、保密性等特点,还应该规范、统一数据收集渠道,促进教育数据收集平臺化,统一管理数据和高效分析数据。联通“数据+分析+服务”三位一体模式,打造链式教育数据的应用。宽领域、高层次地宏观看待教育,把握教育动态,预测未来趋势,针对性地协调高校与数据分析的关系;让教育数据回归教育、让教育数据端回归教育终端、让合适的人来做合适的事、是未来中国教育数据应用的一大趋势。
(三)建立有层次的教育非结构化数据库,完善数据回收及保护机制,做好教育数据的再利用,全面追溯过往数据
确保高效利用教育数据,就必须从教育数据的价值性、保密性、高效性出发,挖掘教育数据的潜在价值,回收并整理已利用过的数据,打造并完善中国教育数据可追溯的回收机制。这可以使中国教育数据有更强的可利用性、更广的时间维度、更大的数据含金量,切实提高我国教育数据的分析能力,实现综合、立体的分析。同时,使教育数据价值最大化,在回顾历史、展望未来的视野下,活在当下,大大增强决策的科学性,可以有效避免决策失误与决策经验主义错误等情况的发生,提高我国的教育生产力和我国教育在国际上的竞争力,为中华民族的伟大复兴保驾护航。
(四)教育数据的应用应该有层次感、方向性、易读、易应用性的特点
教育数据的挖掘与应用终究应回归到教育过程中,应着力提高数据分析后的数据呈现能力,清晰形象地利用图表、数学模型等,增强教育数据的层次性和易读性,避免过长的数据分析时间占用教师学生过多的时间。打造智能化、平台化的数据分析模型,让学生与教师可以看得懂,读得懂,自己的问题自己看,自己的问题自己分析。突出教育主体在教育过程中的主人翁地位,加强教育教学分析的实践代入感,更加有利于体现教育主体对自我意识的良好感觉,从深层次上利用、表达数据,而不再是一味的专家分析、专家解读,自己的故事别人讲,真正让教育回归教育主体而不是回归专家,发挥教育主体的主观能动性,从而打造出教育自主解决问题、自主提高的长效机制。
(五)创新教育数据的研究方式和研究方法
高效利用教育数据,必应增强对教育信息的抓取与记录。分层次、分主次处理教学反馈信息、教务资料及学生学习情况等教育信息,快速识别相关数据,及时存取相关资源,智能化分类,提高平台自主识别能力的同时,确保数据安全,应防范网络攻击,防范安全漏洞,加强数据储存与恢复能力。这是我国教学数据实现财富化、安全化的重要维护手段。当前我国非结构化教育数据开发在一线教学中尚处于初级阶段,不少高校尚未掌握非结构化数据的抓取和分析技术,在该阶段切实加强数据安全性,有效确保教育数据黄金时代的到来,是带动我国教育非结构化数据应用与成长的必经之路。
【参考文献】
[1]服务器在线.非结构化数据“飞”入云中 企业如何应对[EB/OL].http://www.csdn.net/article/2011-08-05/302706,2011-08-05.
[2]马建光,姜巍.大数据的概念、特征及其应用[J].国防科技刊,2013,34(02):10-17.
[3]方巍,郑玉,徐江.大数据:概念、技术及应用研究综述[J].南京信息工程大学学报,2014(05):405-419.
[4]彭宇,庞景月,刘大同,等.大数据:内涵、技术体系与展望[J].电子测量与仪器学报,2015(04):469-482.
[5]董曉婷.大数据的定义特征及其应用分析[J].技术研发刊,2013(11):120,60.