知识图谱新近研究进展及其在教育领域的应用挑战
2022-11-22董晓晓顾恒年周东岱
董晓晓 顾恒年 周东岱
(东北师范大学 信息科学与技术学院,吉林 长春 130117)
引 言
近年来,随着大数据、人工智能等技术的迅猛发展,尤其是深度学习、知识图谱等新一代人工智能关键技术的回归和突破性发展,成为助力教育信息化 向“人工智能+”转型的核心驱动力。知识图谱作为一种有效支撑知识组织与分析的技术手段,最初在医学、金融等诸多领域取得了显著成效,伴随着“人工智能+教育”的发展需求,教育领域也开始重视知识图谱对教育的赋能。2017年国务院印发《新一代人工智能发展规划》,明确提出要研究知识图谱构建与学习、知识演化与推理等关键技术,构建覆盖数亿级知识实体的多元化、多学科、多数据源的知识图谱[1]。2018年国家自然科学基金委新增设F0701教育信息科学与技术研究方向,并将“教育知识图谱构建与导航学习”列为一项重要研究内容[2]。任友群等研究者提出在人工智能时代背景下面向不同层次教育的知识图谱是实现个性化教育的基础,是教育人工智能需要优先开展的基础性工作[3]。当前我国知识图谱研究势头方兴未艾,然而已有研究多从技术方法视角切入研究知识图谱的构建技术,对知识图谱完整的生命周期缺乏系统性的梳理总结[4][5]。基于此,本研究采用定量和定性相结合的方法,首先对国内外知识图谱研究的关注点、发展脉络等内容进行梳理与总结,在此基础上厘清知识图谱构建的完整生命周期,立足教育领域确定研究框架,并对教育领域知识图谱的未来研究做出展望,以期促进我国教育知识图谱研究的发展。
一、文献来源与关键词分析
为有效获取国内外知识图谱的高质量研究文献,研究以“知识图谱”(knowledge graph)为关键词在中英文权威数据库检索文献。中文文献以关键词、篇名或摘要中含有“知识图谱”为检索规则在CSSCI期刊和核心期刊库中进行文献检索;英文文献以关键词、标题、主题、摘要中含有“knowledge graph”为检索规则在SCI、SSCI、A & HCI、CPCI收录的期刊论文和会议论文中进行文献检索。检索时间跨度为2012年至2022年。由于研究者对知识图谱的理解和界定不尽相同,本研究通过通读摘要的方法对检索的文献进行再次筛选,以保证研究样本与研究主题的相关度。
关键词体现了研究的核心内容,高频关键词则能代表该领域的研究核心关注点。表1显示的是国内外知识图谱研究的高频关键词表。由表1可知,相关研究以知识图谱为核心,与人工智能领域语义网络、知识表示、表示学习等密切相关,实体关系识别、命名实体识别、本体构建等是知识图谱研究关注的重点,自然语言处理、本体技术、深度学习算法等技术手段为知识图谱构建提供有力支持,问答系统、链路预测(学习路径生成)等功能实现是知识图谱应用的主要方向。
表1 国内外知识图谱研究高频关键词表(前10)
二、知识图谱研究现状与问题
(一)知识图谱概述
自2012年知识图谱这一概念出现后,迅速引发了社会各界对其广泛关注。梳理知识图谱的发展历程,发现其起源于20世纪60年代的语义网络(Semantic Network),发展于本体(Ontology)和语义网(Semantic Web)。2012年企业公司发布的知识图谱再次将这个领域带入聚光灯下,这时的知识图谱实现了更加智能的信息获取和处理,然而,构建庞大而高质量的知识图谱并不容易。
对于知识图谱的概念界定,众多研究者从语义知识库角度切入,认为知识图谱本质上是一种使用语义网络结构组织知识的知识库,是对知识结构的抽象表示。如有研究者认为知识图谱由“实体1、关系、实体2”或“实体、属性、属性值”这样的三元组构成的结构化语义网状知识库,还有研究者则认为知识图谱是以图的形式表现客观世界中的实体(概念)及其之间关系的知识库[6]。立足教育领域,可将教育领域知识图谱理解为知识图谱在教育领域的拓展应用,其本质是以图的形式表示教育领域实体和实体关系的语义知识库。
厘清知识图谱的类型、逻辑结构和技术架构能够帮助我们进一步认识知识图谱。依据应用范畴,知识图谱通常被划分为面向全领域信息的通用知识图谱和面向特定领域信息的领域知识图谱两类,通用知识图谱强调知识信息的广度,领域知识图谱关注知识信息的深度。教育领域有清晰的知识结构和鲜明的领域特征,面向教育领域构建的知识图谱属于领域知识图谱。此外,在领域知识图谱研究中,研究者依据图谱表征的对象(静态知识或动态活动)分为静态图谱和动态图谱。从逻辑结构看,主要由模式层和数据层构成,模式是抽象概括的领域知识表示,确定知识图谱的模式是领域知识图谱构建的核心。从构建过程看,模式构建、知识抽取、知识融合和知识更新是图谱构建的主要流程,但通用知识图谱通常采用自底向上构建,从底层数据中逐步归纳图谱模式,而领域知识图谱通常采用自顶向下构建,即先构建顶层模式后逐步向下形成图谱。具体如图1(见下页)所示。
图1 知识图谱类型和构建流程
(二)构建流程
1.模式定义
模式是知识图谱的框架和抽象模型,是知识图谱构建的核心工作。不同类型的图谱对模式的需求不同,通用知识图谱关注知识覆盖面的广度,描述全面的通识性知识,通常从数据中全自动或半自动地抽取图谱模式,该方法能够节省一定的人力和时间,但存在准确度不高的问题;领域知识图谱面向特定领域,对领域内容专业性和精确度要求较高,往往需要专家手工定义图谱模式,但存在费时费力等问题。表2总结了当前知识图谱模式定义的典型方法。
表2 知识图谱模式定义的研究成果
2.知识抽取
节点和边是知识图谱的主要构成要素,节点表示真实世界中存在的概念或实体,边表示实体及实体之间的关系,并通过属性(值)用来描述实体的内在属性。因此,知识抽取内容包括实体抽取、实体关系抽取和事件抽取。如表3(见下页)所示。
表3 知识抽取的内容和方法
实体抽取有基于词典和规则[10]、基于统计机器学习[11]和基于神经网络[12]三种典型方法。其中基于词典和规则的抽取方法主要由专家和语言学者手工来制定有效规则,准确率高,但工作效率低;基于统计机器学习的抽取方法需要依据大量的特征标注来保证抽取的准确性,同样需要耗费大量的人力物力;基于神经网络的抽取方法主要采用长短期神经网络、卷积神经网络等与机器学习模型相结合进行实体抽取,不需要人工标注,在大量公开数据集训练后能获得较好的预测性能,在一定程度上解放了人力,但覆盖的实体类型和实体关系相对简单。
关系抽取有基于模板[13]、基于统计学习[14]、基于神经网络[15]和基于远程监督[16]四种典型方法。其中基于模板的抽取方法主要是基于模式(规则)、触发词或字符串挖掘关系,关系抽取准确率高,但覆盖范围小,不适合所有关系或复杂关系的抽取;基于统计学习的抽取方法主要基于特征向量等方法从上下文信息、词性和语法中抽取特征;基于神经网络的抽取方法主要基于递归神经网络、卷积神经网络、循环神经网络等方法对复杂关系结构进行特征组合,能够在一定程度上避免特征不足的问题;基于远程监督的抽取方法通过融合上下位等方式解决抽取语料不足的问题,但是也造成了错误标注和语义漂移等问题。
此外,针对事理知识图谱的事件抽取是指将实体和实体关系同时抽取出来,除了传统的基于模板的方法[17]和基于机器学习[18]的方法,目前主流的还有基于数据管道(pipeline)和基于联合模型(joint model)的深度学习方法,其中基于联合模型的方法具体又分为联合推理(joint Inference)和联合建模(joint modeling)两种[19]。联合推理借鉴集成学习的思想,基于整体优化目标整合各模型,通过整数规划等方法进行优化;联合建模通过将事件结构看作依存树,并将抽取任务转化为依存树结构预测问题。该方法能够减少对外部工具的依赖,减免人工设计特征的工作量和误差的累积传播。
3.知识融合
经由知识抽取获取命名实体及实体关系后,往往可能会包含大量的冗余和错误信息,因此需要对其进行清理、整合等一系列相关处理,获取高质量信息,提高知识图谱的置信度。实体链接和实体合并是知识融合的主要手段。
实体链接是一种从文本中抽取得到的实体正确链接到知识库中对应的条目或实体的操作流程,其关键技术是实体消歧和共指消解[20]。实体消歧专门用于解决同名实体产生歧义的问题,当前主要采用空间向量模型[21]、语义模型[22]、社会网络模型[23]等将指向同一个实体对象的所有指称项都聚合在一起,通过相似度计算等方式消除歧义,但依然存在欠缺考虑语义关系、推广性比较差等问题。共指消解则是针对同一个实体对象的不同描述(指称项)合并到一起的过程,降低图谱的冗余度。
实体合并主要有合并外部知识库和合并关系数据库两类,既可以将构建的知识体系以图结构存储在图形数据库中,通过实体消歧进行合并,也可以将知识体系以关系型存储在关系数据库中,并通过数据库技术进行合并。
4.知识更新
遵循事物发展规律对知识图谱节点和关系的动态发展进行实时调整称之为知识更新。知识图谱构建完成后并不是一成不变的,而是需要对知识图谱中的节点和关系进行实时更新以实现知识图谱的不断完善。
当前研究主要从知识图谱的模式层更新和数据层更新两个方向展开。在模式层更新方面有通过下载整体的结构化数据并进行图谱模式重塑的基于整体数据源的更新,也有基于众包理念仅对新增知识进行的整理式更新。
三、教育领域知识图谱框架构建
知识图谱的快速发展引发了各大领域的研究热潮,诸多单位和研究者也开始立足于教育领域关注并开展教育知识图谱相关研究。自适应学习平台Knewton构建了一个学术概念交叉的知识图谱[24],百度公司搭建了基础教育知识图谱来支持实现个性化学习路径的生成,余胜泉等人提出通过学科教师融合领域知识来编制学科知识图谱[25],华中师范大学开展了基于潜在语义分析的学科知识图谱构建研究[26],刘清堂等人建立了一种面向在线学习(E-learning)领域的知识元表征模型和基于语义场的Web资源语义聚合模型[27],李艳燕等人从智慧教育角度切入构建学科知识图谱[28],李振等人针对教育领域从知识和认知两个方面构建了教育知识图谱[29],钟卓等人进一步拓展了教育领域知识图谱的语义信息,构建“知识—问题—能力”图谱[30]。尽管教育领域知识图谱相关研究已经取得丰硕的研究成果,但在图谱模式构建层面,已有教育领域知识图谱概念的界定、知识表征的粒度尚未达成共识,且已有教育领域知识图谱多聚焦于对知识点和知识点之间关系的表征,欠缺对思维能力的表征刻画,此外,既有研究在构建过程中或多或少地存在忽略教育领域特征融入等问题,导致构建的图谱领域性不强,应用效果欠佳。
伴随着教育活动的发展进步,人才培养更加关注学习者知识、能力和素质的全方面发展,核心素养与学科能力培养成为国内外基础教育共同关注的研究热点。促进核心素养发展和学科能力培养的学科知识体系不仅要包括学科基础知识,还要包括学科思维,也就是要在学科基础知识之上致力于学习者思维能力的培养。由此可知,面向教育领域的知识图谱迫切需要建立一个系统、规范且以思维为主导的图谱框架。
本研究设计了如图2所示的教育领域知识图谱研究框架,主要包括确定价值取向、定义图谱模式、知识抽取、知识融合、知识更新和图谱应用六部分内容。①厘清从知识习得走向思维发展的价值取向,并综合考虑教师和学生的实际需求是保证研究顺利开展的基础。②在定义图谱结构过程中,首先依据学科课程标准和课程核心内容确定学科核心概念形成知识库,将其作为图谱模式的最底层,然后围绕学科核心概念抽取学习掌握核心概念的问题、任务和资源,组织形成问题资源库,并与底层的核心概念进行映射,形成图谱模式的中间层,最后通过解析核心概念和与之对应的问题资源确定掌握核心概念、解决问题所经历的学习活动,通过问题解决活动过程发展思维能力,形成图谱模式的思维能力顶层。③在定义好图谱模式的基础上,运用长短时记忆网络+条件随机场、并行化数据挖掘等方法从课程标准、教学设计等教育领域资源库中进行知识抽取,明确实体和实体关系。④通过对实体、实体关系的向量化表示和相似度计算校验知识抽取结果,人机协同完成知识融合工作。⑤邀请领域专家和一线教师运用投票机制等手段完成模式层的更新;基于众包理念邀请图谱应用者对实体和实体关系进行语义标注,进而实现数据层的更新,两者综合实现知识更新。⑥图谱应用是将构建的图谱呈现给教师和学生进行应用,具体实现的功能包括知识导航、资源聚类、认知诊断和学习推荐四方面。
图2 教育领域知识图谱研究框架
四、教育领域知识图谱研究挑战与展望
(一)融合教育领域特征的图谱模式表征
面向特定领域垂直构建的领域知识图谱关注知识信息的深度,领域特征信息的融入能够有效助力领域知识图谱应用的精准度。当下金融、医学、电商等领域已构建出各具特色的知识图谱,应用效果良好。相关典型研究有金融领域围绕金融风控及精准营销等金融业务的核心问题构建金融知识图谱,以实现反欺诈与信用评估等功能;医学领域围绕疾病、药物以及疾病与药物的对应关系等构建医药知识图谱,提高疾病—药物的检索效率和使用指导,为病患提供更好的医药服务。
与其他领域相比,教育领域包含丰富的知识概念、知识关系,有独特的教学目标定位、教学内容活动序列及教育价值追求,学科知识也通常隐藏着“价值旨趣+问题+方法(论)+研究结论”的生成逻辑,在教育领域知识融合指导的基础上遵循学科特有的教学逻辑规律才能保证教学活动的有效开展[31][32]。既有的学科知识图谱模式多关注学科显性知识的组织与表征,欠缺对教学法等隐性知识的关注,也忽略了教与学逻辑规律对学科知识图谱模式构建的约束。因此,立足教育领域知识图谱构建的首要任务就是深度剖析教育领域特征,厘清构建的目标定位、范围边界和应用需求,从教育领域特征入手明确教育知识图谱模式构建的切入点和关键点。
(二)教育领域知识图谱的跨域融合与自动更新
跨学科知识整合能力是21世纪创新型人才的必备能力,目前领域知识图谱构建缺乏对不同领域知识关联与融合问题的考虑。当下教育领域知识图谱研究成果丰富,研究者从不同视角切入构建图谱,如针对知识点和知识关联关系的学科知识图谱、针对考试测试题构建的试题图谱、面向学习活动构建的事理图谱等,图谱种类的多样性在支持学习的同时,也会造成知识的冗余问题。因此面向教育领域不同学科知识图谱的模式对齐与融合是教育领域知识图谱的下一步研究重点。
与此同时,大数据时代的到来加速了知识信息的更新速度,知识图谱的更新也是研究关注的重点。当前知识图谱更新多聚焦于人工手动实现,耗时耗力,少量基于机器实现的自动更新存在精确度低等问题。教育领域存在诸如教学设计、教学任务单、教学音视频、教学测试题等多样化数据,其复杂性在一定程度上也影响教育领域知识图谱知识更新的准确性。因此如何选择深度学习、强化学习算法等更合适的技术手段以实现知识图谱的自动更新,保证效率和精确度同步实现是研究的另一关注点。
(三)教育领域知识图谱的应用评价
知识图谱的效果需要经由实际应用进行检验。现阶段,各领域知识图谱构建方法多样,尚未形成标准化的发展趋势,由此知识图谱的应用评估工作就显得尤为重要。但目前知识图谱应用评估方面存在应用平台不足或搭建不完善、评价环节尚未达成统一、评价方法欠科学、评价标准空白等诸多问题。国内外许多研究机构开始探究知识图谱的评估工作,典型代表有中国电子技术标准化研究院牵头制订的《信息技术 人工智能 知识图谱技术框架(征求意见稿)》,从构建技术角度给出标准,对知识图谱进行了规范;美国伦斯勒理工学院研制了知识图谱测评系统,主要是对多源异构知识图谱中存在的问题和错误进行检测与评估。
评价是教学的风向标。有研究者从测评角度考虑构建教育测评知识图谱,但本质也依旧是知识点和知识点之间的关系,构建的测评知识图谱尚不能达到评价诊断的作用。既有的教育领域知识图谱相关研究,不论是在模式构建层面还是技术层面,都处于小规模的理论讨论阶段,尚没有考虑到基于知识图谱的系统平台开发与应用评价。因此,考虑教育领域知识图谱的应用与评价是未来研究的关键点。立足教育领域,应从开发搭建知识图谱实际应用平台和建立健全知识图谱标准化评估框架等方面开展知识图谱的应用与评价,以提高知识图谱的质量,促进其向标准化应用方向发展。
(四)教育领域知识图谱由知识向认知的进阶转型
近年来,“认知图谱”一词开始逐渐进入大众视野,并迅速得到了研究者的广泛关注。认知智能追求让计算机学会读懂语义,能够进行学习判断和逻辑推理,理解与解释是认知智能的两个核心。知识图谱的出现能够加速认知智能的发展,谷歌、微软等公司都在知识图谱基础上探索认知智能的发展实现。2018年,中国计算机大会围绕“认知图谱与推理”举办主题论坛,就如何与知识图谱相结合,构建大规模、高质量的认知图谱展开深入探讨。相关典型研究目前主要出现在电商领域,提出大规模电商认知图谱,以解决当下电商业务中存在的问答不准确、重复推荐等问题,更好地满足用户需求。
认知主义学习理论提出学习者追求的学习结果体现在个体认知结构的改变。建构主义学习理论认为学习是学习者根据自身经验,通过同化与顺应对外部信息主要加工处理的过程,结果也体现在个体认知结构的改变。当下,教育领域研究者主要聚焦研究在知识图谱基础上运用深度学习算法对学习者的认知状态进行诊断,以达到评估学习者认知能力水平的目标,相关典型研究如在知识图谱基础上构建的学习认知地图。该种方法构建的学习者认知地图实际上默认学习者知识结构是固定不变的,但学习是一个不断发展的过程,学习者的认知也是不断发展的,因此,如何基于学习者个性特征构建动态发展的学习认知图谱是教育领域认知图谱构建亟须攻克的难题。