基于知识图谱的学习资源核心概念提取策略分析
2020-12-05赵嫦花米春桥匡进鹃李晓梅
赵嫦花 , 米春桥 , 匡进鹃 , 李晓梅
(1.怀化学院计算机科学与工程学院;2.怀化学院武陵山片区健康大数据智能处理和应用实验室;3.怀化学院武陵山片区生态农业智能控制技术湖南省重点实验室,湖南怀化 418008;4.怀化军分区,湖南怀化 418000)
1 引言
自动识别学习资源所涉及的核心概念是实现个性化学习资源推荐的基础,它有利于教育内容的重新组织[1]和个性化推荐系统的实现[2].通常衡量核心概念的标准是看学习资源中概念的重要程度.在学习资源中有对概念的解释和标注,对于那些注释为“核心”的概念通常被认为能提供最多的相关信息.与一组术语不同,概念是明确的实体,通常用来描述知识区域和概念之间的语义层关系.当前基于本体的开发应用已经相对成熟,关于核心概念的自动识别和注释都是集中在领域本体的构建[3].但是,这些领域知识的描述难以扩展,因为词汇表在大多数情况下是针对某一个应用领域的[4].因此,本文的设计策略是在开放和可访问的公共词汇表的语义层上运行.这不仅可以使所识别的主要概念得到重用,而且还可以挖掘知识之间的联系.
近年来,研究者开始在语义网标准下构建特定领域的知识库,目的是促进知识的相互关联、重用和发现.维基百科就应用了知识图谱的RDF数据集,它集中了多个领域的知识,指明了概念之间的大量相互关系[5].这些知识库除了具有开放性和跨领域性外,通常还会不断地更新.这使得它们成为各领域理想的知识来源.但是,这些资源的关联性较差,例如在学习领域,学生不能通过已知的相关学习材料,达到资源整合的目的.这就需要获得关于某个概念的额外信息来呈现学习内容.
本文使用知识图谱作为概念空间来构建语义知识,应用自动识别学习资源中的核心概念的不同策略.具体过程如下:首先,从学习资源文本中提取概念,为了以可靠、自动和明确的方式识别概念,采用最先进的概念识别和实体链接工具.然后,通过不同的扩展策略来提取语义表征.接下来,利用基于图形的结构语义表征评估不同的概念加权函数,选择具有最高权重的概念作为资源的核心概念.最后,从语义表征和学习资源结构中提取一组特征使用机器学习方法,最终获得核心概念集.为了测试所提出的核心概念识别策略的有效性,从MOOCs上提取了部分专家标注的概念.文中所使用的评估策略与专家核心概念基本一致.
2 相关研究
国内外有很多的研究涉及到学习资源的主要概念自动精确定位的问题.Roy等开发了一种使用元数据(如概念、概念类型、主题)注释文档和学习资源类型的自动工具[6].为了评估概念的重要性,他们分析了相关概念的频率.有些文献定义了关键动词、句型和规则来识别概念的类型.Krieger丰富了学习资源元数据与来自领域本体的语义概念,并根据内容资源以及表示程度的相关权重提取所涵盖的概念[7].Changuel等提出了一种核心概念识别的半监督方法,他们训练机器学习分类器,分配基于一组人工注释特征的标签[8].这些功能包括所考虑的短语在文本中的依赖性、结构和功能.Changuel通过从Web文档语料库中获取概念以解决确定有效学习路径的问题.他们采用机器学习方法来预测基于上下文和本地文本特征的概念类别[9].现有研究的重点是识别文本中的概念及其后来与领域本体链接的策略.本文专注于评估概念的核心度,选择具有最高权重的概念作为资源的核心概念.
3 基于知识图谱的核心概念识别
语义是数据在某个领域上的解释和逻辑表示,可通过语义表征和监督学习方法等来体现.从广义上讲,我们的语义资源用加权有向图表示,其中节点表示概念,而直线表示在知识图谱中的语义关系.
图1 核心概念识别过程
图1 显示了核心概念识别的完整过程.首先,从学习资源文本中提取概念,通过输入文本再返回一组结构化的URI.其次是基于类别和属性的扩展,主要用于丰富和完善概念表示,使得概念在知识图谱中能找到语义的关联.最后,通过不同的加权函数评估每个概念的重要性,将具有最高权重的功能概念作为核心概念.此外,我们还使用了机器学习方法来发现主要概念,与传统的机器学习提取概念不同的是,本文中概念特征主要从语义表征中提取.这样就提高了知识挖掘的广度与深度.
4 基于知识图谱的语义表征方法
通过从学习资源文档中获取重要的概念,为知识图谱构建奠定了基础.知识图谱由一组概念或实体C和文字L组成,它们通过一组属性和谓词P相互关联.在RDF模型中,知识图谱数据被描述为S⊂C×P×(C∪L).每个s∈S都是由主语、谓语和对象组成的三元组.考虑到上述情况,我们的语义表征遵循定义1的规范.
定义1:学习资源ri的语义表征Gi表示为Gi=(Ni,Ei,w(ri,c),w(ri,e)),其中由函数 w(ri,c)定义结点权重:N→R+ 和边缘函数 w(ri,e):E→R+ 定义关联程度.节点集 Ni={c1,c2,…,ck}是表示实体 /概念,属于知识图谱(cj∈C).节点权重 w(ri,c))表示节点 c 与学习资源相关程度.两个节点之间的连接边缘(ca,cb)表示在知识图谱中存在至少一个语句s连接这两个概念.边缘w(ri,e)的权重表示两个概念的关联程度.
如前所述,概念注释模块(见图1)是搜寻文本中提及的概念(即注释),并将它们与知识图谱中的概念联系起来.
此外,我们不会对所选的注释进行其他验证,因为无法保证自动获得的注释的正确性,这里需要进行手动校正.然而,在现实应用中,手动校正过程是不现实的.一般来说,主要存在以下问题:(1)不完整的注释:并非所有内容中存在的概念都被发现.例如,无法找到合适的概念时,可能会导致不完整实体/概念得到认证;(2)不正确的注释:概念被错误地联系起来.例如,“云”这个词通常用来表示一种基于互联网的计算,可能与气象学上的“云”概念错误地联系在一起.为了解决上面的问题,我们加入了扩展模块和加权模块以降低对概念抽取的影响.
4.1 扩展模块
扩展模块用于丰富未在文本中明确提及或者未被注释服务识别的概念.我们将注释集(即文本中的概念)扩展为新的概念集,主要使用以下两种不同的方法:
1.基于类别的扩展(Category-based Expansion,CBE):此类扩展针对语义表征内的每个注释类别(或知识图谱中关于概念的其他分层信息).
2.基于属性的扩展(Property-based Expansion,PBE):此类扩展针对语义表征内的每个注释属性,通过遍历某些属性找到的概念来丰富知识图谱.
例如,在计算机程序设计领域关于类的定义为:在面向对象的编程中,类是一个可扩展的程序代码模块,用于创建对象,提供状态(成员变量)的初始值和行为的实现(成员函数或方法).在许多语言中,类名用作类的名称(模块本身)、类的默认构造函数的名称等.这些截然不同的概念很容易混淆.在概念注释步骤之后,检索以下几个概念:“构造函数(面向对象编程)”“成员变量”“方法(计算机编程)”“对象(计算机科学)”,即使文本是知识图谱概念“类(计算机编程)”的定义,它也不会被使用的挖掘注释等工具识别.这些概念是通过基于属性的扩展添加到语义表征中的,因为它连接到注释:“成员变量”“子程序”“对象(计算机科学)”和“方法(计算机编程)”.以相同的方式,诸如“对象生存期”,“变量(计算机科学)”的概念和类别被添加到语义表征中.
如图2所示,使用在扩展过程之后得到的概念集合作为节点来构建最终图形表征Gi.对于边缘构造,返回知识图谱中每对节点之间的属性路径,并通过SPARQL(用于查询RDF数据)查询进行分析.如果找到两个概念之间的属性路径,则可以根据知识图谱中的连接方向创建Gi中的有向边,探索不同的属性路径长度.本文中我们将搜索限制为长度小于或等于2的属性路径.
在图2中,一级节点是注释,如Layer,Precipitation,Medium等,二级节点是通过扩展模块合并的概念.通过w(ri,e)边缘的厚度表示两者之间的连接强度,如string.节点的大小与节点权重w(ri,c)成正例,并且在语义表征中起着重要的作用.
4.2 加权模块
该模块是学习资源核心概念识别的关键.具有最高w(ri,c)权重的概念被认为是核心概念.相比之下,具有最低权重的概念可以被视为表征中的噪声.与学习资源主题无关的概念往往在文档中不常见或在表征中显示为弱连接(即与其它概念很少或没有联系).这种无关的概念具有低w(ri,c),因此不会被视为核心概念,主要采用以下策略来解决:
1.概念的频率.最基本的加权策略是分析表征中概念的频率:
图2 语义表征实例
其中fc,Ri表示c出现在学习资源内容中的次数加上概念在扩展过程中出现的次数.使用这种策略的好处在于它强化了经常出现的一般概念.以程序设计课程为例,通常会在第一课中解释最基本的概念,如“变量”和“数据类型”,如果学习资源中多次提到“变量”的概念,也不一定表明它就是主要概念.为了解决以上问题,我们提出了一种加权策略,这种策略主要参照了基于单词的向量空间模型[10]中众所周知的TF-IDF(词频-逆向文件频率)加权方案.因此,所提出的策略Wcf-idf是选取出现在多个表征中的概念.
其中M是学习资源的总数,mc是在其表征中具有概念c的学习资源的数量.
2.扩展概念的折算.为了防止知识图谱的层级结构中的频繁属性或一般类别转移到表征中,有必要对通过扩展模块合并的新概念应用折算,对于基于类别的扩展概念应用以下折算方法:
其中SP是属于该类别的概念集,SC是分类层次结构中的子类别集.这种折算策略是对过于宽泛和通用的类别进行折算.同样,对于扩展概念,将应用以下折算方法:
其中P是从知识图谱中得到的概念c∈C的属性出现的次数.
3.中心度量.这是一种利用图的结构的加权策略.通过不同的中心度量对每个节点的重要性进行排序,可采用以下中心措施:
(1)度中心性(Degree centrality,DE):节点 c的度中心性是连接到它的节点数与总数之间的关系节点数量.
(2)中介中心性(Betweenness centrality,BET):中介中心性是分数通过的所有最短路径的节点.
(3)网页排名(PageRank,PR):网页排名是一种众所周知的算法,是一种由搜索引擎根据网页之间相互的超链接计算的技术.本质上,网页排名是一种在有向图上对重要节点进行排名的度量.
5 基于知识图谱的监督方法
给定一对概念学习资源(c,ri),我们预测c是否是ri的核心概念,这是一个二元分类问题.对于每个概念学习资源对(c,ri),我们计算两种类型的特征:基于文本和基于图的特征.
5.1 基于文本的特征
第一类特征被设计为对从学习资源中提取的文本内容以及知识图谱中的概念进行描述.
(1)标题.是否c出现在学习资源标题中(如果有).
(2)前3个句子.c是否为学习资源中的前3个句子.
(3)Wcf(ri,c)和Wcf-idf(ri,c).从权重模块中获得权重.
(4)TextRank.TextRank算法是一种用于文本的排序算法.
5.2 基于图形的特征
这些特征直接从语义表征中提取.
(1)PR(c).语义表示中概念的网页排名值.
(2)BET(c).概念在语义表达中的中介中心性.
(3)In(c)中.c的传入链接数.
(4)Out(c).c的外出链接数.
(5)Hub属性和Authority属性.将HITS算法应用于语义表征之后获得的值.HITS算法的全称是Hyperlink-Induced Topic Search.在HITS算法中,每个页面被赋予两个属性:Hub属性和Authority属性.同时,网页被分为两种:Hub页面和Authority页面.Hub页面指那些包含了很多指向Authority页面链接的网页,比如国内的一些门户网站;Authority页面则指那些包含有实质性内容的网页.HITS算法的目的是:当用户查询时,返回给用户高质量的Authority页面.
6 结论
本文提出了基于知识图谱的学习资源核心概念提取策略.语义表征实质上是有向加权图,其节点表示知识图谱概念,直线表示它们之间存在语义关系.图形构建过程由扩展和加权模块负责结合领域概念和分配节点的重要性评分.我们探索了两种提取核心概念的方法:第一种方法是通过不同的加权策略从表征中提取更大权重的概念;第二种方法是选择基于集合的监督方法主要从表征中提取特征.通过加权策略并考虑前3个句子,在提取过程中达到85%的理想精度.尽管监督方法具有优越性,但加权策略没有经过训练,还存在一定的偏差,这也是下一步要研究的内容.我们希望通过这种核心概念识别策略,为其他领域研究抛砖引玉,由此创建一个更全面的学习资源数据集.