APP下载

澳大利亚教育数据科学研究新进展

2019-06-19孔令敏

中国信息技术教育 2019年10期
关键词:复杂性领域科学

孔令敏

今天,人们称数据科学是研究的第四范式,是未来具有潜力的科学领域,但什么是数据科学?数据科学在教育领域应用的特点是什么?公众仍然缺乏详细的了解。澳大利亚悉尼科技大学工程与信息技术学院高级分析研究所所长操龙兵教授对此提出了独特而富有启发的观点。他带领的研究所主要研究大数据科学基础理论以及大数据分析应用,在大数据分析技术、异常检测技术方面有最新的研究成果以及相应的应用前景。操龙兵教授很早就在国际上致力于数据科学与分析学的产学研工作,注重从涉及重大民生与经济、社会问题中提炼具有前瞻性的研究课题。他提出了一系列数据科学中新的研究问题与创新思想,包括行为信息学(Behavior Informatics)、非独立同分布学习(Non-IID Learning)、决策知识发现(Actionable Knowledge Discovery)。本文对他的观点加以介绍,从而启迪我们思考:我们为什么需要数据科学,什么使数据科学成为一门科学,以及数据科学在教育领域应用的挑战和方向。

数据科学是一个跨学科领域

数据科学的大多数(可能超过95%)文献与统计学、数据挖掘、机器学习和广泛数据分析等有关,这表明数据科学是从现有的统计学、计算科学和信息学中产生的。今天的数据科学已经超越了数据挖掘和机器学习等特殊领域,形成一个新的跨学科领域,它综合了一些相关的学科知识体系,包括统计、信息学、计算、通信、管理和社会学(如图1),我们可以用一个公式来表达数据科学的领域和范畴:数据科学=统计+信息学+计算+通信+社会学+管理|数据+领域+思考(“|”的意思是“有条件的”)。

数据科学的复杂性及其七个维度

数据科学的重点是系统了解复杂的数据和相关的业务问题,将数据转化为洞察和智能以进行决策。因此,数据科学具有两大特点:复杂性和智能性。

数据科学的复杂性可以从七个维度来理解。

(1)數据复杂性:数据复杂性反映在复杂的数据环境和特征上,包括大规模、跨媒体应用、混合源、强动态性、高频率、不确定度等特征。除此之外还包括噪声混合导致的层次不清、分布不均匀、稀疏性强的数据以及关键数据的可用性不清楚。数据科学家面临的一个重要问题是隐藏数据的复杂关系。复杂关联可以由综合耦合组成,但通过现有的关联、依赖、因果关系等理论和系统是无法描述的。这类耦合包括显式和隐式、结构和非结构、语义和句法、等级和垂直、局部和全局、传统和非传统关系以及进化和效果。数据的复杂性激发了新的观点,而这些视角以前是没有做好或者是可以做到更好。

例如,传统的大规模传感器数据调查,包括统计人员的问题和调查参与者,已被证明不那么有效,如相关的问题可见(如目标参与者不满意、总体答复率低和问题更难回答)。但是,数据驱动的发现可以帮助确定谁将接受调查、哪些问题需要回答、调查操作模型以及调查的成本效益。

(2)行为复杂性:由于数据采集和管理系统中由物理活动到数据的转换而产生的数据常常被忽略或简化,行为复杂性体现在个人和群体的耦合行为、网络行为、集体行为、分歧行为、隐藏行为、网络演变行为、推理群体行为等在物理世界中实际发生或将要发生的事情的还原。

(3)领域复杂性:领域复杂性是数据科学中发现内在数据特征、价值和洞察力的一个关键方面。领域复杂性反映在一个问题领域的复杂上,如领域因素、领域过程、规范、政策、领域知识、专家知识、假设、元知识、领域专家的参与和与领域专家互动的专业人员。

(4)社会复杂性:社会复杂性嵌入到业务活动及其相关数据中,是数据和业务理解的关键部分。它可能体现在商业问题的一些方面,如社会网络、社区出现、社会动态、社会习俗、社会背景、社会认知、社会智慧、社会媒体、群体形成和演变,群体互动和协作、经济和文化因素、社会规范、情感和舆论影响过程以及社会问题,社会问题包括社会背景下的安全、隐私、信任、风险和问责制。当社会科学与数据科学相遇时,就会出现跨学科现象。

(5)环境复杂性:环境复杂性是理解复杂数据和业务问题的另一个重要因素,这反映在环境(上下文)因素、问题和数据的背景、语境的动态、环境的自适应性、复杂的业务环境和数据系统之间的交互关系、业务环境的重大变化及其变化对数据系统的影响。这些方面的系统环境具有连续性、开放性、复杂性,但还没有数据科学。如果忽略,就会出现适用于一个领域的模型可能会在另一个域中产生误导性结果的现象。

(6)学习复杂性:为了实现数据分析,必须解决学习过程和系统的复杂性问题。分析数据的挑战包括开发方法、通用任务框架和学习模式。数据科学家必须能支持实时在无限动态中学习;支持在计算资源贫乏的环境(如嵌入式传感器) 中自适应地学习,以及多源学习,同时考虑传感器之间的关系和相互作用;支持跨多个学习目标、来源、功能集、分析方法、框架和结果的组合学习;支持学习具有的异质性的非数据混合耦合关系,并确保学习模型和结果的透明度和确定性。

(7)可交付成果:一般来说,业务用户的数据交付成果必须易于理解和解释,揭示直接为决策提供信息和实现决策的见解,并对业务流程和问题产生变革性解决。当可操作的数据产品成为数据应用程序的焦点时,数据产品的复杂性,或者说“更高的复杂性”就成为了一个障碍。这种复杂性要求从客观和主观两个角度确定和评价满足技术意义和具有较高商业价值的成果。数据科学家面临的相关挑战还包括设计合适的辅助、演示、可视化、重新评估以及学习结果的处方,满足不同的业务需求。

数据科学的智能性及其八个维度

数据科学具有智能性,是一种旨在将数据转化为知识、智能和智慧的“智能科学”。在从数据到智慧的转变中,“X-智能”被用来解决一个复杂的数据科学问题,可以帮助更深入、更有组织地理解和解决潜在的复杂性和挑战的问题。如在教育领域,我们可以使用“教育智能”这样的提法。

数据科学的智能性可以从八个维度来理解。

(1)数据智能:突出了最有价值的信息。隐藏在数据中的智能是由数据科学通过其理解数据特征和复杂性而发现的。除了通常关注数据结构、分布、数量、速度和质量的复杂性外,数据科学的重点还在于图2中隐藏在未知的“空间D”中的智能。数据智能的水平取决于数据科学家能够在多大程度上深入了解数据特征和复杂性。

(2)行为智能:数据科学家通过查看个人和团体参与者的活动来发现行为智能,这样的发现要求他们通过行为信息学将问题中发生的事情和将要发生的事情联系起来并发现行为洞察力来缩小数据世界和物理世界之间的差距。构造序列行为向量空间,并在给定时间内与其他账户建立交互模型,然后再与其他异常行为进行建模,可能有助于理解异常行为。

(3)领域智能:产生于相关的领域因素、知识、元知识以及与问题及其目标数据相关的其他特定领域资源。定性与定量的领域智能可以帮助数据科学家更深入地理解领域的复杂性及其在发现未知知识和可操作洞察力方面的作用。例如,学习用于股票数据的高频交易策略,一种战略必须把“订单”和相关的“限制市场”联系起来。

(4)人的智能:在复杂的数据科学系统中,人的智能通过明确的涉及到人类的直觉、想象、先验的知识、信念、意图、期望,再加上专门知识发挥着核心作用。它还涉及到人类智力以想象、情绪化、灵感、头脑风暴、推理、具体化认知的形式的隐性或间接的参与,类似通过与人类的互动来思考。就像“数据科学思维”对于解决复杂的数据问题至关重要,数据科学家必须能够运用主观因素、定性推理和批判性思维来解决问题。

(5)网络智能:基于Web智能和广泛的网络连接的活动和资源,特别是通过物联网、社交媒体和移动网络获取的资源。从涉及目标问题的网络中获取的信息,可以为复杂的数据科学问题的解决提供有用的建议,一个相关的例子就是基于开放源码的开发与算法设计。

(6)组织智能:数据科学系统要对目标、行为者、组织结构和动态管理、预防、过程和工作流程产生正确理解并建模。例如,企业的成本效益和数据科学团队的运作都要依靠组织智能。

(7)社会智能:是从前面讨论的社会复杂性中产生的。人类的社会智能包括社会互动、群体目标与意向、社会认知、情感智力、共识建构、群体决策等。社会智能也与社会网络智能和社会系统以及商业规则、法律、信任和管理社会智慧的声誉之间的集体互动有关。典型的人工社会制度在社交网络和社交媒体中,数据驱动的社会复杂性可以通过社会影响建模、潜在关系建模以及在线社区的形成和演变来理解。

(8)环境智能:隐藏在数据科学问题中,具体表现为底层领域和相关的组织、社会、人类和网络智能。数据科学系统是开放的,转换后的数据世界与物理世界之间的相互作用作为整体数据环境发挥作用。例子包括上下文感知的、涉及因素的、不断发展的交互和数据与上下文之间的变化,如社交网络中的无限动态关系建模。

走向教育数据科学的探索路径

数据科学家进行的复杂数据科学之旅代表了从已知到未知复杂性的认知过程,以便将数据转化为知识、智能以及通过应用数据智能进行决策。上页图2概述了旨在减少能力(y轴)的数据科学进展,以更好地理解数据(x轴)从100%已知状态到100%未知状态的复杂性知识和智能。基于数据/物理世界的可见性和能力/容量成熟度,数据科学可分为四个数据挑战:

(1)“空间A”代表已知的空间,也就是说,“我(我的成熟能力/能力)知道我所知道的(关于可见世界)”。这就像视力正常的人能认出大象的能力一样,而无视力的人可能只能通过触摸来识别动物的一部分。具备成熟能力的人都知道有关可见数据的知识,也就是说,他们的能力成熟度足以理解数据/物理世界的不可见性。

(2)“空间B”代表隐藏的空间,也就是说,“我知道我不知道什么(关于看不见的世界)”。对某些人或学科来说,即使他们的能力的某些方面已经成熟,但隐藏的复杂性数据在当前的数据科学中无法被解决,因此需要更先进的能力。

(3)“空间C”代表的是盲区,也就是说,“我(我的不成熟能力)不知道我知道什么(关于这个世界)”。虽然对某些人或学科是可见的,他们的能力也是成熟的,但是与能力并不匹配;不成熟使他们对世界视而不见。一个例子可能是,即使是成熟的社会科学家也试图解决数据科学问题。

(4)“空间D”代表未知,也就是说,“我不知道什么,所以隐藏世界中复杂数据由于不成熟的能力而不为人所知”。这是今天数据科学关注的领域。随着生产能力的增加,缺乏能力成熟度也随之增加。在快速发展的大数据的世界里,不合格的数据越来越多,导致了一个越来越大的未知空间。

基于上述探索的路径,我们可以知道,数据科学的发展,要提升数据能力和素养,数据能力意味着增强数据的能力和容量成熟度,数据素养意味着增强数据的可视性。这启示我们,走向教育数据科学有两条关键路径:第一,建设完备强大的教育數据云平台,增强数据能力;第二,加强教师和学生的教育数据素养发展,增强数据素养。由此,教育数据科学方能越来越成熟,继续成长发展。

猜你喜欢

复杂性领域科学
复杂性背后
通往深刻的简单
2020 IT领域大事记
点击科学
领域·对峙
科学大爆炸
管理会计中的复杂性成本研究
2018年热门领域趋势展望
科学拔牙
复杂性的未来