APP下载

基于知识图谱的个性化推荐研究

2020-02-22单佩佩

电脑知识与技术 2020年36期
关键词:信息检索

单佩佩

摘要:知识图谱主要将知识点作为核心内容,同时根据知识点汇集各种模式的学习资源。 将学科知识用知识图谱构建出来,以网络结构的形式展现出来,在此基础上建立资源之间的关系,将知识图谱中知识间的关联性应用于学习者学习过程中的资源推送服务。本文从知识图谱的定义出发,综述了知识图谱的知识提取、表达、存储和检索以及教育资源个性化推荐方向的应用研究进展。

关键词:信息检索; 知识表示; 资源推荐

中图分类号:TP3      文献标识码:A

文章编号:1009-3044(2020)36-0177-02

知识图谱的定义:“知识图谱基本上是语义网络的知识库”,它是由谷歌公司提出的。[1]我们可以简单地将知识图谱解释为多关系图或是一个数据结构,其中包括边和节点它们之间的关系,多个图通常包括多个节点类型和各种类型的知识图谱,一般来说都是把实体用节点表示,关系用边来表示,实体是来自真实世界的事物,例如人名、地名、药品、公司、概念,等等,尽管关系用于表示不同实体之间的某种类型的连接,现实世界中的许多假设情况都非常适合于知识图谱来表达。

本文结合文献引用和自己的观点,引用大量的著名理论,搜索相关论文和文献发表在专业期刊、论坛、杂志和权威网站近年来,总结和排序,比较他们彼此,阐述了教学资源的建议结合自己的专业和知识地图。

1 知识图谱的表示

知识图谱应用的前提是知识地图的构建,知识图谱也可以作为知识库。这就是为什么它可以用来回答一些与搜索相关的问题。在现实世界中,实体和关系也有自己的属性,如“名”和“龄”。当知识地图有属性时,我们可以用它来表示它们。那么我们去描述一个事实以知识图谱的形式。张四和张武是父子关系,张四有182开头的电话号码。此电话号码于2018年开通,2018年可作为该关系的属性。同样,张四本人也有一些属性值,比如年龄,职业等,这样的描述就是他们的属性图。知识图谱一般用属性图表示,但也可以用RDF表示,RDF由许多三元组组成。RDF在设计中的主要特点是易于发布和共享数据,但不支持实体或属性关系。如果必须添加属性,则需要进行一些设计修改。[2]

2 知识图谱的抽取

知识图谱的构建是应用的第一步,构建的前提是从不同数据源中提取数据。对于垂直领域的知识映射,其数据源主要来自两个渠道:一是业务本身的数据,这种数据通常以结构化方式存储在公司数据库的表中;另一个是在网络上打开并捕获的数据,通常是网页形式,因此是非结构化数据。前者可以通过简单的预处理用作后面AI系统的输入,而后者通常须要借助NLP和其他技术来提取结构化信息。[3]数据源,例如Wikipedia。信息提取的困难在于处理非结构化数据。第一个是实体命名识别,即从文本中提取实体,并对每个实体进行分类/标记。此过程称为实体命名识别。这是一项相对成熟的技术,并且有一些工具可以实现此户口卡。其次,我们可以通过关系提取技术从文本中提取实体之间的关系。

在对实体识别和关系抽取的研究过程中,存在比较突出的两个的问题:其一主要是实体的统一性,即使一些实体的书写方式不一样,但在实际上生活中指向的是同一个实体。比如,“CHN”和“China”表面上看是两个不一样的字符串,实际上他们所指的就是中国这个国家。实体统一不仅可以减少实体类型,还可以减少图集的稀疏性。另一个问题是参考的指代性,即文本中所指的是“它”,还是“他”或“她”这个实体。相比较前两个问题来说,实体统一和回指解析更具有高难度。

3 知识图谱的存储

存储知识图谱的方式一般有以下两种形式:1)利用RDF形式存储。2)利用图数据库。它们之间还是有一些区别的。RDF的最大特点是可以轻松发布和共享数据。图形数据库主要以可视化的界面进行图形查询和搜索。其次,RDF存储数据以三元组的形式,但是不能够包括属性这类信息。[4]然而,图数据库的基本表示一般用属性图来,這些实体和关系都可以包含属性,这意味着可以方便地查看当前业务场景;根据最新统计数据,图数据库是当前增长最快的存储系统 但是,关系数据库的增长几乎保持稳定,同时,我们还列出了流行的图数据库系统及其最新使用排名,其中neo4j系统仍然是使用最广泛的图数据库,它拥有活跃的社区和 查询效率高,但是唯一的缺点是它不支持准分布。

4 知识图谱的构建

知识图谱的构建的方法主要是采用自底向上的方法,这是一个反复的过程。图谱的每次的构建都需要进行更新。每一轮更新包括三个步骤:信息提取,知识融合和知识处理。[5]如图1所示。信息提取主要是从各种数据中提取到实体、属性、关系的过程,这是最基本的步骤。其次进行知识融合,融合的过程主要是消除歧义,例如:apple手机与苹果。同时还需要进行实体合并,关系的清理或融合。以此来消除冗余。最后就是知识处理。经过上述的过程后,就可以构建出一个知识图谱的。

5 知识图谱在资源推荐方面的应用

网络科学技术的进步,给我们提供了各种各样的学习资源,这些资源都是没有分类、鱼龙混杂,没有序列关系,没法给网络学习者提供适合他们的学习服务,让他们更有效率的进行学习,更不可能提供个性化服务。 [6]尤其是对于当前的教育领域来说,经常会谈到个性化教育的概念,倡导“因材施教”的理念等。而这些教育理念的核心的前提需要了解学生现有的知识体系,认知风格、学习特点等。[7]要了解学生的知识体系,要依靠于我们从系统上获得的数据,类如学生学习课程的数据、和同学老师进行互动的数据、对课程评价的数据等等。为了能更好地给学生提供资源推荐服务,我们首先要分析学科的知识结构及可能出现的学习路径,我们需要这方面的概念知识图,它只是一个概念拓扑。我们给出了一个非常简单的概念图:例如,要学习三角形这个知识点,我们需要先学习什么是角等。为了学习“学习资源”这个章节,我们要知道什么是学习资源等等。对于这些内容的学习,我们对学生的所有评估和互动分析都与概念图的基础数据密不可分。

5.1 建立学科知识图谱

专业学科知识图谱的建立,首先要从教材、网络上获取数据;由于专业学科知识领域的专业性,因此需要专家人员的涉入,进行一定的辅助。教学资源比普通文本结果更复杂,内容更分散。本文所有数据来源专业课程教材及爬去百度百科和豆瓣上数据。但从网络上获取的数据属于非结构化的,因此需要进行实体抽取、关系抽取等这些。通过上面数据加工后,我们对学科资源进行打标签、关键词提取。为准确获取知识点的完整性,采用python语言Jieba分词对数据进得预处理。在用Word2vec对分词后的词语进行向量化表示。再进行关系抽取,主要包括前驱关系、后继关系、兄弟关系等。前期工作完成后,需用到Neo4j图数据库进行存储数据,以展现知识之间的关系,如图2。

5.2 生成个性化学习路径

协同过滤算法主要利用用户行业数据进行推荐。要实现协同过滤首先要收集用户的偏好。协同过滤推荐的实现过程包括四个关键步骤:获取和表示用户信息、匹配学习资源、形成邻居和生成推荐。获取的数据信息以矩阵形式表示,通过计算矩阵稀疏度来找到数据资源,最后寻找相似的学习者,这里的相似度主要采用的是余弦相似度计算,最后才形成了最终的推荐过程。

5.3 基于知识图谱的个性化资源推荐框架

基于知识图谱的资源推荐主要实现个性化学习推荐和资源管理这两方面。如图3所示框架结构。[8]学习者信息主要包括学生个人信息及在网络上学习课程的时间、课程内容选择的教学资源等。专业知识图谱存储的则是专业课程的信息。老师可以从后台管理学生学习的各种资源,包括上传、下载、删除、更新数据等。协同过滤算法获取学生的信息、学习的信息。根据学生当前认知水平,结合知识图谱的结构,生成个性化资源推荐,以供学生学习。

因此,我们可以使用知识图谱来连接有关的学习内容知识点,并将当前所学的知识内容与随后的相关学习内容相连接,以推荐其相关知识点、习题、视频等资源。所以,在此基础上,我们可以根据学习者的需求出发,结合他们选择学习的课程,来给他们推荐一条适合的学习路径,从而为他们提供适合的学习资源,这样更有助于学生的吸收与消化。

综上所述,在本文知识图谱构建的基础上,知识图谱可以有效地集成数据资源,但在個性化推荐方面还有待改进。同时,知识图谱以一种新的方式在教育研究方面提供了新的想法和思路。知识图谱不仅建立相关学习知识之间的联系,并可将学习者当前的知识内容与后续的相关学习内容联系起来。基于此,给出学习者适合的学习路径及推荐相关学习资源。通过 此方法构建出来知识图谱,更加体现出对学生进行个性化的学习,提供适合学习者的资源。以达到精准推荐的目的。

6 总结

知识图谱的提出,让我们可以用一种新的方法来表现知识的表示、存储和管理。它的主要作用还是在于分析关系,尤其是深度的关系。知识的推理目前处于知识图谱领域一个非常重要的研究热点。有了这样知识的推理,这样就更有利于对学习者进行个性化的推荐。用知识图谱展示数字化教学资源,将零散的资源整合在知识图谱中,使资源不在独立,而是彼此联系。这样学习者就可以一目了然了解知识的难重点。同时知识图谱也是动态的,新资源也会同时加入。最后,知识图谱是一个既充满挑战又非常有前景的领域。我相信,将来,知识图谱将渗透到各行各业,并成为一项至关重要的技术。

参考文献:

[1] 黄恒琪,于娟,廖晓,席运江.知识图谱研究综述[J].计算机系统用,2019,28(6):1-12.

[2] 邱立新,张赫.科学知识图谱在文献分析中的实用性探究[J].青岛科技大学学报(社会科学版),2014,30(4):87-91.

[3] 钟翠娇.网络信息语义组织及检索研究[J].图书馆学研究,2010,75(17): 68-71.

[4] 曹倩,赵一鸣.知识图谱的技术实现流程及相关应用[J].情报理论与实践(ITA),2015,12(38):127-132

[5] 刘峤,李杨, 杨段宏等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(3):582-600.

[6] 李振,周东岱.教育知识图谱的概念模型与构建方法研究[J].电化教育研究,2019(8):78-86,113.

[7] 李振,周东岱,王勇.“人工智能+”视域下的教育知识图谱:内涵、技术框架与应用研究[J].远程教育杂志,2019,37(4):42-53.

【通联编辑:张薇】

猜你喜欢

信息检索
基于信息检索课的大学生信息检索行为调查研究
基于MOOC理念的“翻转课堂”教学改革探索——以海南大学《文献信息检索与利用》课程为例
网络环境下数字图书馆信息检索发展
医学期刊编辑中文献信息检索的应用
在网络环境下高职院校开设信息检索课的必要性研究
基于神经网络的个性化信息检索模型研究
地理信息检索中空间相似性度量的一种模糊方法
高校图书馆信息检索课程教学改革
教学型大学《信息检索》公选课的设计与实施
论本体论在智能信息检索中的作用