多模态学习融合分析（MLFA）研究：学理阐述、模型样态与应用路径*

2021-05-28吴永和郭胜男朱丽娟马晓玲

远程教育杂志 2021年3期

吴永和郭胜男朱丽娟马晓玲

（1.华东师范大学教育学部教育信息技术学系；2.华东师范大学经济与管理学部工商管理学院；3.上海熙育信息科技有限公司，上海200062）

一、引言

2021年3月，国家发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》，提出迎接数字时代，激活数据要素潜能，并强调以数字化转型整体驱动生产方式、生活方式和治理方式的变革[1]。同样在今天的教育领域，数据亦是教育数字化转型的核心要素。历年来所发布的《地平线报告》屡次将基于数据的学习分析作为其核心技术[2]。可以说，学习分析是发挥教育数据潜在价值，实现教育数字化转型的关键技术。

学习分析技术作为教育大数据时代洞察学习者学习过程的重要手段，对理解、探索和改进当今学习发挥着至关重要的作用[3]。近年来，数据分析和机器学习等技术与教育教学的深度融合，驱动着学习分析进入深度发展阶段，其研究重心逐渐由对学习行为规律的整体探讨，演变为关注每个学习者的情感、认知、元认知和复杂问题的解决能力等。数据来源也从单一模态发展为多模态，即通过融合多模态数据来考量学生行为、生理变化规律、情感状态和认知心理，这已成为教育技术研究的主要课题。多模态学习分析（Multimodal Learning Analytics，MMLA）就是学习分析在当前技术环境下的新发展[4][5]，它使用来自物理空间和数字空间的各种数据形式，采用不同的分析方法来处理动态产生多模态数据，并利用学习情境中的行为、情感、认知等相关理论，来实现学习分析的目标与价值。

虽然，许多国内外学者肯定了MMLA 在分析、洞察和改进复杂教学情境中学习的能力，但在复杂多变的数据密集型的教育实践中，仍然面临诸多挑战。例如，多模态学习数据间存在的异质性差距，多模态数据采集与编码受限和真实教学场景复杂匹配等。这些挑战限制了多模态数据的全面获取、有效处理和精准分析，尤其在多模态学习数据的深度融合层面，尚未实现技术突破，这也严重阻碍了MMLA研究的深度发展。MMLA 与学习分析一样，同样具有“源息性”问题[6]，即该收集哪些模态的数据以及如何进行分析，才能保证多模态数据能准确、全面地体现出学习者的全部特性？基于此，本文提出了多模态学习融合分析（Multimodal Learning Fusion Analytics，MLFA）的理念与框架，以解决科学、精准、有效地分析多媒体数据问题，并聚焦以下三个内容：第一，多模态学习融合分析概念是什么？第二，多模态学习融合分析的内在工作机制是什么？第三，如何有效组合真实场景中的数据模态？进而分别从概念、内容、策略等视角，探索多模态数据之间的有机融合，突破技术和理论上的限制，尽可能挖掘多模态数据的潜在价值，探讨解决“源息性”问题，从而进一步推进MMLA 领域理论与实践的探索。

二、教育分析技术发展历程和新趋向

（一）教育分析技术的发展历程

1.教育分析技术发展概述

从分析技术的研究历史（Analytics Timeline）[3]来看，自1930年首次提出分析技术（Analytics）以来，在教育研究领域，教育分析从借助于商业领域的商业数据分析工具，如，IBM SPSS、Google Analytics，逐渐发展到教育领域深度的专业分析，大致历经了学术分析、预测分析、行为分析、学习分析这样一个发展脉络[7]。多模态学习分析（MMLA）是学习分析在富技术环境下的新发展，2012年由沃斯利（M.Worsley）等人正式提出，如今，多模态学习分析技术已广泛地应用于各种教育研究和实践之中，具体如图1所示。

2.学习分析的深化与拓展

学习分析属于教育技术领域中的一种融合与创新技术，近年来得到长足发展与关注：一方面，从2011年至今，学习分析与知识国际会议（LAK）记录了学习分析的成长，揭示了其从“学习分析技术”到“学习分析学”的发展历程。LAK 2020 更是从新用途、新领域和新方法三个视角，呈现了学习分析发展之“新”，意味着学习分析的未来发展，不再局限于单一的对象、领域与方法，而是朝着多模态、全方位、跨领域、多视角的方向，扩展其深度和广度[3]。另方面，在历年的《地平线报告》中，学习分析总是以一种新技术形式支持学习，《2020年地平线报告（教与学版）》更是将学生成功分析，列为影响高等教育未来发展的新型技术之一[8]。随着物联网与感知技术、人工智能与5G技术等与多模态教学的深度融合，学习分析的内涵也在不断迭代更新。比如，西门子（G.Siemens）等认为，学习分析是通过测量、收集、分析和报告学习者及其学习情境产生的数据，以了解并优化学习和学习发生的情境[9]。这一界定，得到研究者的普遍认同。

传统学习分析中的数据，多来自于学习者与教学系统的交互，例如，学习管理系统日志数据、基于web 的学习系统的学习轨迹、实时学习系统的反馈数据等[10]。其关注的大多是在线学习的学习者行为研究，比如，在线学习辍学率[11]、MOOC 教学中低完成率预测[12]等。尽管受到学习媒体、数据收集工具和数据分析方法等限制，但其在教育研究需求的驱动下，近年来通过学习行为数据探索学生情感状态的研究层出不穷，视频、文本、音频、姿势等数据形式均被纳入数据表征，数据逐渐多源化。同时，声音、姿势、表情、心电图、脑电图、位置等数据可获取性，进一步扩充了学习分析的数据集，从而不断推进着多模态学习分析技术[13]、学习者学习过程的内隐心理变化和学习发生机制的探索。

3.多模态学习分析的“源息性”

沃斯利等提出的“多模态学习分析”（MMLA）概念，强调其是一种新的数据收集和分析技术，是涉及不同类型学习数据整合的复杂技术问题[14]。多模态学习分析的发生机理与学习分析一脉相承，其中多感官信息的参与，丰富了学习分析的内涵。从多模态交互的视角来看，人类交互本身就是多种模态共同作用的过程，各种模态间相互补充、共同协作以表达情感、意图和见解。已有研究证明，多模态感官协作能够帮助学习者更有效的参与学习活动和进行知识建构。

进入教育大数据时代，密集型数据和真实教学场景的复杂性，为MMLA 带来了诸多挑战。在多模态语义方面，多模态数据是指能够表征学生行为、生理、心理等模态的那些数据，通常以视频、音频、文本、EEG、皮肤电反应等格式获取，可以是主观也可以是客观。这些多模态数据之间通常是异构的，即存在着异质性差距，而从多源异构的底层数据中学习全面的语义解释是一项富有挑战性的工作[15]。在多模态数据获取层面，由于隐私和伦理等的限制，在学习环境中收集的数据集往往不能与他人共享。当自己收集一个数据集时，需要在较紧密的时间段内同步收集多个高保真数据流的数据，还需要花费大量时间进行转录和编码。在多模态数据分析层面，之前的研究中的多模态数据流整合方法，大多基于经验/统计或者横向依赖机器学习（侧重于横向单通道分别处理），数据模态之间的关联分析处于弱关联阶段。换言之，多模态数据融合深度低，并普遍存在着模态组合随机、同步数据时间跨度大等问题。此外，高精度学习数据分析工具，也受到利益相关者的控制，难以普及。这些挑战限制了MMLA 对多模态学习数据中潜在数据的挖掘，从而导致多模态数据不能体现学习者学习的全部特性，即“源息性”问题[7]。

（二）多模态学习融合分析的提出与学理阐述

在现阶段，多模态数据分析技术包括标准的经验和统计方法、机器学习方法和新混合方法。统计技术——基于领域专业知识的专家标记，通常在实证研究中使用相关性或者用标准统计的显著性来识别。机器学习算法通过自身迭代训练，能从多模态数据中挖掘潜在信息。当前，有学者提出了新的混合方法，即将经验假设与机器学习结合使用的整合方法。例如，沙玛（K.Sharma）等人提出一种“灰盒”方法，将假设/文献驱动“白盒”方法，并与机器学习/数据驱动的“黑盒”方法连接起来[16]。

但这一新的混合方法的应用和有效性，仍然需要深入探索。另外，由于学习表现的复杂性（例如，真正的学习表现容易被掩盖[17][18]）和数据处理过程中的降维取舍，使得各模态数据语义信息的完整性难以保证，当单一模态表达的语义结果不一致时，多模态数据的整合也难以表达准确的决策。因此，如何进行选择有效的模态组合并进行有效融合，尽可能挖掘多模态数据的潜在价值，成为当下研究的重点。为了解决这一问题，多模态学习融合分析（MLFA）应运而生。

MLFA 具有跨学科性的特点，学习科学的相关理论、经验假设和机器学习，分别为其提供理论指导和技术支撑。多模态融合表征技术是大数据分析技术的创新应用，涉及多模态数据采集与存储、特征与表征、机器学习建模分析等步骤，关注的是融合表达技术层面的选择。而MMLA 的核心是通过分析多模态学习数据，解释学习者的行为、情感和认知心理等，注重学习结构知识层面的意义建构，包括模态组合的选择。基于以上两者内在的工作机制，我们将多模态数据融合技术与MMLA 进一步融合，提出多模态学习融合分析（MLFA）学理分析框架，如图2所示。

多模态学习融合分析（MLFA）是一项通过多模态学习数据采集、同步多模态融合表征，结合机器学习模型进行数据建模和可视化解释的技术，以同步多模态融合表征为核心，旨在发现并挖掘出更加隐含的多模态间的相关性，尽可能体现数据价值，以推进教育大数据的高质量应用。多模态学习数据是MLFA 的基础，它是指学习者在学习过程中，通过多个感官与学习环境交互时产生的数据，能够通过多种方式或渠道被采集。例如，视频数据、语音数据、皮肤电感应数据等，多种模态相互协作，共同描述学习者的学习过程。多模态融合表征是指基于经验假设/学习理论，从各模态数据中提取出特定向量，经过科学、合适的融合方法，表征带有全面信息的特征向量。机器学习建模是分析学习数据的重要工具，通过输入特征向量进行聚类、分类等决策，以便于预测和解释，真正将底层数据与高层学习理论连接起来。

三、多模态学习融合分析（MLFA）的模型与框架

作为MMLA 技术的进一步发展，MLFA 对教育大数据进行精准分析、全景分析和深度分析，以探索学习活动、分析技术和学习理论资源之间的紧密关系。因此，我们可通过构建空间结构模型和分析框架，从技术和学习视角来剖析MLFA，以理解其本质和内在工作机制。

（一）MLFA 的空间结构模型

基于物理世界和数字世界的有效结合，有助于通过智能代理和数字技术来分析和阐释学习者的学习过程。比如，荷兰学者将多模态学习的发生“投放”在输入空间和假设空间这两个空间内，输入空间包括学习行为和学习情境，假设空间则包括一系列的解释[19]。我们将学习分析系统信息空间模型，抽象化为媒体工具空间、分析空间、内容资源空间、角色空间、工作空间和协调空间等六个子空间[20]。着重从媒体工具空间、分析空间和内容资源空间这三个空间，剖析MLFA 的内在机制，并对三个空间的涵盖内容和内在联系进行系统地分析，从而构建起多模态数据、分析模型和经验假设/学习理论之间的深层次语义桥梁。

多模态学习融合分析（MLFA）的空间结构模型，如图3所示。

媒体工具空间包括学习和教学行为发生的场景、教学活动、教学用具、传感设备和学习平台等，为学习过程数据的产生和收集提供条件。分析空间包括学习活动中产生的多模态数据资源、数据处理技术、融合策略、机器学习建模（聚类、分类等）和可视化技术等。内容资源空间包括学习科学、认知科学和神经科学等与学习相关的理论以及基于文献的研究假设等资源，大多是通过实证研究可得出的、可测量的基本事实与观点，可作为学习规律发现、行为解释和学习任务测量的基本依据。

MLFA 空间结构模型的基本逻辑在于：学习者在媒体工具空间中产生的数据传输到分析空间中，这些数据并非产生自同一信息源，而是来自不同媒体或传感器的异构数据。从数据结构上看，包括结构化数据、半结构化数据和非结构化数据。在分析空间中基于学习分析技术进行数据清洗、基于研究假设进行数据模态选择、模态融合策略和机器学习标签标注等，进行预测和决策结果的可视化。同时，分析空间中出现的不确定因素（例如，数据采样率差异过大）反过来会优化媒体工具空间中的学习和教学设置。内容资源空间中与学习相关的理论/经验假设，指导分析空间中模态组合和标签标注并对机器学习的预测结果进行教育语义解释。同时，分析空间中产生的新的预测结果，将助力新的教育与学习规律发现、改进教学任务设计，并不断丰富学习理论知识/经验假设。从整体角度看，媒体工具空间为内容资源空间的研究假设/理论和任务测量，提供了实践场所；而媒体工具空间中教学用具、数据收集设备、教学任务设计等的优化和更新，均需要学习相关理论的指导。

（二）MLFA 的分析框架

MMLA 侧重于多模态数据的收集、整合、分析以解释内在的学习过程，改善学习体验。但在此过程中，多模态数据的整合表达始终是个“黑匣子”，缺少清晰的分析过程，这对于洞察学习的内在机制和变化，存在一定的局限性。而MLFA 的分析框架充分体现了从教学活动出发，历经融合分析最终回归指导教学活动这样一个内部循环工作机制，其中机器学习融合表达是融合分析的核心内容。

我们认为，学习分析本质可体现为一个周期，即借助模型挖掘教育数据的潜藏价值，再回到教育中这样一个过程。基于此，MLFA 分析框架可概括为以下五个步骤：多模态数据的收集、多模态数据存储、机器学习融合表达、可视化及教育意义解释、教学干预和反馈等，具体如图4所示。

多模态数据的收集和存储是分析的基础，这一阶段的数据是原始、未加工、无目的的，需要进行模态筛选、过滤，并按一定标准进行存储。机器学习融合表达是分析过程的核心，包括各模态特征提取、多模态特征同步融合表达、机器学习建模和预测等。特征向量的质量，影响预测结果进而影响决策结果的有效性和可解释性。因此，多模态数据融合表征方法和标签选择至关重要，需要相关理论或假设的指导。可视化及教育意义解释是将机器学习决策结果的可视化，并结合学习结构（理论、概念、事实、规则、量表等）进行解释。反馈和干预阶段根据预测的结果，为学习者提供个性化干预与自适应反馈，进而指导学习任务设计和教学活动实施等，从而改进教学过程。

1.从技术视角解读多模态融合

表示学习是机器学习中至关重要的数据处理步骤，也是后续任务（例如，分类、回归或识别）的基础，其目的在于自动学习原始数据的良好表示，提取有用的信息或特征以构建学习模型[21]。多模态融合是多模态表示学习的常用策略，从技术视角解读模态融合，就是回答如何从技术上实现数据的有效融合。MLFA 的融合表达，可分为特征构建和机器学习建模两个阶段。随着深度学习的应用，深度学习可以为每个模态自动学习进行层次表示，得出预测结果，并将两个阶段合成一个阶段。

特征构建阶段是输入机器学习模型之前的特征向量准备阶段，包括多模态数据的清洗和预处理，特征提取和融合表征，生成特征向量等，其目的是从多模态数据中提取特质信息，融合表达成特征向量。作为机器学习模型的输入，特征向量的质量，影响着机器学习分类器的性能，其中的关键在于如何融合数据生成高质量的特征向量。多模态融合策略从简单集成发展为深度学习应用，按融合层级，可以将多模态数据融合方法，分为数据级融合、特征级融合和决策级融合。在深度学习出现之前，早期融合称为数据级融合，晚期融合称为决策级融合。在深度学习模型应用之后，特征级融合被逐渐扩充到中间融合的概念之中。为了获取单一模态间特定信息和模态间的互补信息，并发挥多模态数据的最大优势，研究者们尝试将中期融合策略与后期融合策略相结合，即混合融合策略。基于此，我们将数据融合策略归纳为早期融合、中期融合和晚期融合，其中中期融合策略包括特征级融合策略、基于深度学习的融合策略和混合融合策略，多模态数据融合策略框架，如表1所示。

表1 多模态数据融合策略框架

机器学习建模阶段，包括分类器选择、分类标签、分类器训练、参数优化、测试与验证等。机器学习模型的选择和标签设定，均能影响分类器的性能，不同机器学习算法擅长处理的数据模态问题存在差异。例如，支持向量机模型（SVM）在处理数据不均衡问题时，性能优于其他分类器，监督学习算法中标签与特征向量的贴合程度，也影响分类器性能。此外，模态的选择、融合方法在这个过程中，也扮演着重要角色。例如，在早期语音识别研究中，视觉模态提供了嘴唇运动和张合的发音信息，这有助于提高识别性能。

从技术视角来看，机器学习分类/预测性能最优化是多模态数据融合的最终目标，旨在保持模态特定语义不变的情况下，缩小联合语义空间的分布差距。目前，多模态融合研究的技术难点主要包括：如何判断每个模态的置信水平，如何判断模态间的相关性，如何对多模态的特征信息进行降维，以及如何对非同步采集的多模态数据进行配准等。

2.从学习视角解读多模态融合

多模态数据如何更好的服务于教育教学，是当前教育工作者重点关注的问题。多模态数据来源于教学实践，最终作用于教学实践，教育智能决策是其中的重要步骤，尤其是基于证据的决策。教育智能决策需要将多模态学习数据与学习的相关理论/经验假设结合，进行机器学习处理[16]，只有正确理解学习数据的深层次语义，才能为学生学习提供有价值的反馈和决策。布鲁姆将教育目标分为认知、情感和动作领域[22]，在层次结构上是复杂性递加的不同层面。教育目标在教育实证研究的具体场景中，可细化为学习任务测量。例如，课堂参与度测量、学习情感状态测量、学习认知负荷测量等。

在学习领域，注意力被认为是实现高效率学习的关键因素[23]，情绪在解释学习过程中也扮演着重要角色[24][25]，认知对学习过程、学习表现产生着重要影响[26]。多模态数据能够有效表征学习者的行为、情感、生理和认知，数据与学习测量指标的对应是模态融合的关键。而模态是促进人类感官与外界交互的符号系统[27]，从学习者的感知角度，行为数据、心理数据和生理数据属于三种不同模态；从机器感知的角度，可划分为视频、图像、语音、文本、传感数据等模态，其中传感数据包括眼动数据、心电、脑电、皮肤电反应等[28]。视频、图像、文本、平台日志、生物传感数据是真实教育场景中常见的模态，各模态数据表征学习测量任务的指标，如表2所示。

从表2可看出，不同模态的数据可用于同一任务的测量，例如，视频、语音、文本、EEG、ECG 等均可测量学习者的情感状态。当各模态数据相互补充，共同收敛于同一语义解释，这些模态在融合时将更具优势。然而，单一模态数据特征的独特性，在于从不同感知层面进行分析和考量，例如，在同一情感维度指标下衡量学习者情感状态，脑电波捕获的是神经元信息，它不经过学习者的脑认知加工；而从文本中获取的情感信息是经过学习者的认知加工，并携带“个性化色彩”。因此，如何从每种模态信息中提取出独特特征，挖掘模态间的互补信息，成为MLFA 中重点解决的研究内容。只有在多模态异构空间中有效填补不同模态之间的差距，才能实现数据价值的最大化。

表2 多模态数据表征学习任务的指标

四、基于场景驱动的多模态组合策略路径

当前，MLFA 研究在单一要素的实验场景中已取得巨大进展，然而，在开放式的真实教学场景中的MLFA 还受到隐私伦理、场景复杂性和技术实践等的限制。“互联网+”时代的教育形态具有多元异构、动态多变、开放共享的特征，这种新型的教育形态促使教学场景发生了巨大变化。正从传统课堂逐渐扩展到人工智能编程、人机协同教学、游戏化教学等多元化教学场景中。不同的多模态教学场景中学习测量任务和可获得的数据是不同的，因此，我们需要围绕“场景”进行多模态融合策略的探索，以提高多模态决策结果的准确性。

（一）基于场景的多模态数据与任务测量映射关系模型

随着传感器、智能设备以及社交协作技术的快速发展，学习场景也更加丰富多彩。从时空维度看，教学环境可分为线上教学、线下教学和混合教学等，每种教学环境中根据学习任务和目标可设计不同的教学场景。从现有的真实教学场景出发，基于现有的多模态融合研究，可将学习测量任务和多模态数据联系起来，提炼出两者之间的关系模型，为多模态学习融合实证分析提供思路与理论指导。多模态场景下学习测量任务与多模态数据对应情况，如表3所示。

表3 多模态场景下学习测量任务与多模态数据

由表3可知，通过对教育领域多模态研究的调研，并从当前技术环境下的现实需求出发，我们发现在各种任务导向的学习场景中，学习任务的测量可归纳为认知测量、生理测量、情感分析和行为规律探索四大类，对应的多模态数据包括视频、语音、文本、眼动数据、脑电图、心电图、点击流、问卷调查和自我报告数据等。多模态数据与学习测量任务之间的映射关系，存在1:1、1:n、n:1、n:n 等几种模式。（1）“1:1模式”是指使用单一模态数据仅用于测量一类学习任务，例如，Liu 等人使用文本数据测量MOOC 学习者的成就情感[32]。（2）“1:n 模式”是指单一模态数据可用于测量多类学习测量任务，例如，脑电图可用于测量认知负荷、评估学习表现和识别学生参与度等。（3）“n:1 模式”是指多各模态数据组合起来共同测量同一学习任务，例如，点击流数据（响应时间）、眼部追踪、脑电图、皮肤电活动和问卷调查等数据共同评估学习表现[33]。（4）“n:n 模式”是指多个模态数据共同测量多个学习任务测量，例如，爱默生（A.Emerson）等人组合游戏行为轨迹、情绪面部表情和眼睛凝视数据，分别测试表现组和兴趣组的分类效果[34]。

在不同的学习场景中，每种模态数据在不同测量任务中所占比重是不同的，其原因在于：在技术条件和学习相关理论的支持下，数据的测量范围和测量精度会有所侧重。例如，在探测学习者认知层面规律时，眼动数据和其他生理层数据对结果影响的权重较大，因为生理数据监测的是心脑活动，可追踪潜在的思维活动。此外，并非参与测量的模态越多越能体现数据的“源息性”，需要针对特定场景选择权重较大的几种模态进行融合，这就需要综合多个方面的因素，选择合适的模态组合，才能尽可能挖掘数据中的潜在价值。例如，昌戈（W.Chango）等人[35]证明选择离散化数据组合（注意力水平、测验得分和论坛活动水平），能比融合所有模态数据产生更佳的预测结果。

（二）基于场景的模态组合影响因素分析

如何针对不同的教学场景，找到影响数据模态间的组合因素也是当前研究的重点与难点。无处不在、低成本、高精度和不同的实验设置等特性，成为多模态融合中基本准则[16]。因此，从教育和技术应用的视角出发，我们可将影响因素分为教育约束和分析结果有效性两个方面。其中，教育约束包括教育资源、伦理和隐私和上下文情境信息。

1.教育约束

教育资源是指教学设计需要的资源条件，通常包括技术资源和理论资源。当研究者进行实验设置时，首要考虑的因素便是设备资源，例如，收集微观行为数据的高频和精细测量的传感器（如，脑电仪、眼动仪等）。仪器的精密程度影响着数据的质量精度，这是进行MLFA 的基础，受到当前社会科学技术发展的约束；同时，现有教育理论也是影响模态融合的另一重要因素。与情感测量和行为探索相比，生理层面的测量相对缺乏，主要原因是生理测量缺乏客观的基础事实[36]，导致针对情感和参与这样的结构时解释力很弱，米特里（D.Di Mitri）等研究也证明了这一点[37]。因此，在选择模态进行实验时，需要慎重考虑如何获得各种“学习者标签”的基本事实和理论基础。此外，伦理和隐私安全问题，亦是影响多模态数据获取的关键因素。在获取和分析多模态数据的过程中，需要注意保护教师和学生的隐私安全[38]。

上下文情境主要指研究设计的实验设置，这决定着能够收集哪几种模态的数据。以多媒体协同参与的学习情境为例，基于情境教学中影响教学效果和模态数据收集的因素，可从四个维度描述该场景的上下文情境，如图5所示。教学活动类型主要包括协作分组讨论、讲授、学习汇报（小组汇报、个人汇报）和课后学习讨论等。教师借助信息技术进行教学，教学工具/平台成为重要媒介，决定着数据来源的通道类型，主要包括摄影机录像、麦克风录音、教学平台录屏、屏幕共享、文件共享、表情互动、聊天互动等。数据收集维度是指当前教学场景中可收集数据的通道类型，包括视频、音频、交互文本、调查问卷、专家访谈和表情包等。分析目标是指教学实验的测量任务，旨在指明学习测量任务，例如，学习情感预测、行为规律探究等。

2.分析结果有效性

正如前述，MLFA 旨在为深层次教育与学习规律发现提供数据支撑。多模态数据融合映射在教育层面的教育解释，显得尤为重要，它决定了学习规律的深浅。MLFA 的本质是综合各通道数据，创建携带各通道数据语义的特征向量，利用机器学习方法进行深层次挖掘。在此过程中，标签架起了多模态数据与教育语义解释之间的桥梁，标签的语义需要无缝贴合教育语义，同时也影响了预测模型的精度。

机器学习预测结果的有效性，包括模型泛化能力强、预测精度高、结果可解释性高等，其中特征融合表达是提高预测精度的关键，它决定了是否能在预测变量和预测结果之间找到最好的连接。在现有大量的研究中，使用研究经验和假设作为多模态数据设计特征分类和标注，但他们忽略了客观可测量的正确标注（Ground Truth）的重要性。因此，综合可用的数据模态和学习相关理论/经验，使用特征选择算法选择对学习结果有影响的变量，从而指导和确定特征提取和标签标注，显得非常必要。

（三）场景驱动的模态组合选择实现路径

在“互联网+教育”时代，学习者的学习场景是多元变换的，对学习者的学习过程进行精准测量，需要在合适的场景中进行。多模态数据为教育技术研究人员提供了一个前所未有的机会，以更深入的洞察不同学习场景中的学习过程。然而，多模态数据的获取受到隐私伦理和技术条件的限制；而且，行为、心理、生理等模态数据难以同步获取。因此，场景驱动的最佳模态组合选择路径，旨在基于当前现实场景的教学需求，在多模态数据收集受限的情况下，选择最佳组合模态的过程。

具体而言，该路径的实现，就是在前面任务测量和多模态数据关系模型和组合选择影响因素分析的基础上，通过分析真实场景中的教学需求，确定该场景下的测量任务，在数据收集设备和隐私伦理满足的条件下，收集场景中的多模态数据（M1 指模态1）；结合权重确定规则，确定各模态权重和最佳组合模式，通过MLFA 实现基于场景的精准决策，进而满足场景教学的需求。我们可从测量经验、模态间收敛性和组合测试有效性三个层面，确定权重衡量规则：（1）测量经验是指在文献研究的基础上，构建测量指标语义库，例如，瞳孔扩张被发现与参与度、心率（HR）变化被发现与认知负荷高度有关，面部表情通常被应用于更深层次学习相关的情感识别。（2）模态间收敛性是指各模态数据收敛于同一语义解释，互补描述同一学习过程，不产生冲突，例如，通过语音模态和视觉模态测量的情感分别是正面情感和负面情感，那么这两种模态的收敛性低，便不能被融合。（3）组合测试有效性是指通过预设几种模态组合，结合机器学习算法，测试模态组合的预测精度。

总之，在今后开展的多模态实践与研究中，我们可以此最佳模态选择实现路径为基础，结合多模态学习融合分析技术（MLFA），在数据模态受限的情况下，实现精准的场景化精准决策。场景驱动的模态组合选择实现路径，如图6所示。

五、结语

科学有效地融合多模态数据，尽可能挖掘教育大数据的潜能，是当下多模态学习分析领域的重要突破点，亦是实现教育智能治理和教育数字化转型的核心步骤。本文在学理上，梳理与阐述了教育分析技术历程和趋向，基于经验与机器学习结合的混合研究方法，提出了多模态学习融合分析（MLFA）。在方法上，构建包括媒体工具空间、分析空间和内容资源空间的空间结构模型，并基于三个空间的内在联系，构建了以机器学习融合表达为核心MLFA 分析框架，并分别从技术和学习视角解读多模态融合。在策略上，从实际教学场景出发，从关系模型构建、影响因素和模态组合选择路径三个方面，探索场景驱动的多模态组合策略的应用路径。可以说，MLFA 为洞察真实场景下的学习，提供了新方法和新途径，能够在数据模态资源收集受限的情况下，尽可能挖掘教育大数据的潜在价值；同时，也为促进信息技术与教育教学的深度融合，奠定了数据要素的基石。

今后，在智能教育精准决策和高质量学习服务需求的驱动下，还需要基于MLFA 的方法和策略，进行多模态融合实践层面的深入探究。尤其是融合时序分析的研究，教育大数据的数据全要素融合分析（认知心理、行为、生理）研究，从而实时洞察学习者伴随着时间变化的学习状态，进而实现精准、科学的教育教学评价和构建高质量的智能学习服务体系。