国内外知识图谱发展趋势和研究热点演变分析
2021-07-14张玉柳云南师范大学信息学院
张玉柳,赵 波(云南师范大学 信息学院)
2019年,国际人工智能与教育大会指出:“面对人工智能对教育带来的机遇,我国要深入开展智能教育应用战略研究,探索智能教育的发展战略、标准规范以及推进路径”[1]。祝智庭等认为,智能教育是智慧教育的实践路径[2]。特别是在智慧教育的实现过程中,知识的语义搜索、个性化学习推荐系统、学习者画像构建等都依赖大规模知识图谱的发展。而知识图谱作为人工智能领域重要的发展方向,又是未来“人工智能+教育”发展的重要依托。在如今知识大爆炸的时代,知识的重要性日益显著,人们越来越重视知识之间的关联,知识图谱具有非常高效的语义处理功能,能够直观、清晰地展示出知识之间的复杂联系,实现对知识结构关系的清晰图示[3]。伴随着人工智能、大数据及深度学习的发展,知识图谱取得了新的研究进展,从最开始的Google智能搜索引擎,到现在的大数据分析、聊天机器人、个性化教育、推荐系统,都与知识图谱有着千丝万缕的关系。
知识图谱作为人工智能时代国内外快速发展的跨学科研究领域,正确分析与梳理其研究热点和前沿趋势对未来推进多领域研究与创新具有重大意义。
1 数据来源和研究方法
(1)数据来源。以“知识图谱”为主题在CNKI进行检索,共获得文献2,332篇,时间跨度为2005—2019年。剔除与知识图谱主题无关的文献后,获得317篇关于国内知识图谱研究的文献。在Web of Science数据库中,选择TS=(“Knowledge Graph”or“Knowledge Visualization”),时间跨度为1996—2019年,对文献进行筛选后,获得1,210篇关于国外知识图谱研究的文献。
(2)研究方法。本研究利用科学引文数据可视化分析软件CiteSpace和书目共现分析系统BICOMB,通过引文分析与关键词共现可视化分析探究国内外知识图谱的研究热点与未来的研究趋势。
2 知识图谱的发展脉络
研究主体的研究规模以及分布状况常被用来反映一个研究领域是否受学术群体的关注和认同。文献数量的时序变化是某领域发展趋势的重要衡量指标,在BICOMB软件的提取界面以“年代”为关键字段分别统计国内外知识图谱研究文献的数量(见图1)。国内外文献量曲线拟合指数函数分别为y=0.027e0.2481x、y=2.043e0.1321x,且曲线拟合程度都比较高,均超过了0.8,在一定程度上说明未来国内外知识图谱的相关研究文献将会与日俱增。
图1 国内外知识图谱研究文献的数量分布
由图1可知,国内知识图谱研究晚于国外,但就研究的趋缓阶段、高潮阶段来说国内外基本一致。笔者通过对已有研究文献的梳理发现,国内关于利用知识图谱对多领域进行文献可视化分析的文献数量所占比例较大,导致部分研究者在知识图谱自身发展态势的研究中的数据源选择存在些许偏差,分析出的主题热点大多聚集在科学知识图谱应用方面。科学知识图谱是一种展示科学知识发展进程与结构关系的图形可视化技术,它涵盖知识可视化和文献计量分析等方法。如,张妮[4]、夏立新[5]等都是从理论研究、文献计量方法、文献可视化工具与应用领域方面揭示知识图谱研究的发展轨迹与热点演变,关键构建技术领域却无一涉及。而国外主要侧重于知识图谱构建技术的研究,目前,国外对知识图谱研究比国内的相关研究更为深入。
2.1 国内知识图谱研究
(1)萌芽阶段(2005—2010年)。2005年,陈悦等发表了国内第一篇与知识图谱相关的文献——《悄然兴起的科学知识图谱》。截至2019年10月29日,该文献被引用量达到696次,是我国知识图谱领域的开篇之作。据研究可知,此阶段侧重于知识图谱的理论研究。
(2)稳定深化阶段(2010—2015年)。该阶段的论文数量持续增长,知识图谱开始被多学科领域的专家学者关注。2012年,国内上线了首个关于搜索引擎的中文知识图谱“知立方”[6]。2013年,第一届中文知识图谱研讨会在杭州召开,探讨了中文知识图谱的构建技术与策略等核心问题[7]。这一时期,知识图谱研究偏向于应用层面,呈现出稳定深化态势。
(3)繁荣发展阶段(2015—至今)。该阶段知识图谱的应用领域越发广泛,发文量大幅激增,将知识图谱研究推向高潮,同时伴随着人工智能、大数据的发展,知识图谱取得了更高层次的研究进展。2019年10月20日,北京理工大学和复旦大学联合发起2019年“知识图谱前沿技术论坛”,旨在加强知识图谱技术在智能领域的普及和应用[8]。目前,我国知识图谱正处于一个飞跃式发展阶段。
2.2 国外知识图谱研究
(1)萌芽阶段(1955-1977年)。1955年,加菲尔德开创了利用引文索引进行检索文献的思路[9];1965年,普赖斯创新性地提出了“论文之间错综复杂的引证关系会形成各种大大小小的网络……各种引证关系形成的网络可以聚类……”,为科学计量学界打开了一扇新的大门[10];1968年,Quillian提出了语义网络,它能够将知识通过概念联系起来进行知识表示[11]。目前,语义网络在人工智能领域被普遍的应用。
(2)稳定深化阶段(1977-2012年)。1977年,费根鲍姆提出了知识工程的概念,认为知识工程是应用人工智能的原理和方法,为那些需要专家知识才能解决的应用难题提供求解的手段[12]。1970-1990年是知识工程的白热化发展阶段,研究者认为专家系统是一种利用知识表示和推理技术去处理那些只有领域专家才能解决问题的计算机程序[13]。同期,本体的概念被引入,成为当时表示客观世界知识的应用方式。1998年,蒂姆·伯纳斯·李建设性地提出Semantic Web的概念,万维网联盟(W3C)在此基础上进一步提出万维网上的知识描述规范,使得知识从密闭迈向开放[14]。2001年,维基百科正式发起多语言百科全书协作计划[15],经用户自由访问进行编辑,是群体智能知识的典型代表。
(3)繁荣阶段(2012年—至今)。2012年,Google提出“知识图谱”[16],体现了大规模知识图谱在智能搜索引擎中的强化应用。大规模网络知识获取的典型代表DBpedia[17]、Freebase[18]就是在维基百科结构化知识库的基础上构建起来的。随着人工智能的深入发展,人工智能逐渐进入到认知智能的阶段,促进了知识图谱领域相关构建技术的发展。
3 知识图谱研究主题分布
3.1 关键词分析
研究采用CiteSpace生成国内关键词共现图谱,选择Pathfinder网络算法用于简化网络,突出重要的结构特征。网络的结构主要由参数r决定,三角不等式关系为:
在公式(1)中,i和j节点之间的链路权重以wij表示,nk和nk+1节点之间的链路权重以wnknk+1表示,r表示闵可夫斯基(Minkowski)距离。除“知识图谱”外,位于前10的高频关键词包括:链接预测(81)、表示学习(56)、深度学习(40)、本体(39)、人工智能(38)、实体识别(33)、三元组分类(32)、知识图谱补全(32)、实体分类(31)、transE(30)。
国外研究文献的关键词共现图谱除“Knowledge Graph”外,位于前10的高频关键词包括:Ontology(52)、Knowledge Visualization(52)、Visualization(40)、Semantic Web(33)、Knowledge Graph Embedding(28)、Knowledge Representation(21)、Neural Network(16)、Link Prediction(16)、Dbpedia(15)、Recommender System(14)。
从词频波动可以看出,国内外知识图谱关键词频次过渡均平缓下滑,说明研究者的关注热点比较集聚,侧重于研究知识抽取、知识表示、知识推理和知识图谱补全等知识图谱构建的关键技术。
3.2 聚类分析
关键词聚类能清晰揭示出某研究领域的主题热点,本研究聚类提取采用似然比算法。
图2 国内研究文献的关键词聚类图
国外研究文献的关键词聚类图谱如图3所示,Q值=0.55,S值=0.7309,说明聚类结果合理且令人信服。聚类分别为知识可视化(聚类#0 Knowledge Visualization)、知识表示(聚类#1 Knowledge Representation)、深度学习(聚类#2 Deep Learning)、神经网络(聚类#3 Neural Networks)。其中知识可视化聚类出现的频次最高,说明国外知识图谱的研究重心侧重于此。
图3 国外研究文献的关键词聚类图
对国内外研究文献的高频关键词进行聚类分析,可将研究热点子群分布进行归纳,聚类结果见表1、表2。由表1可知,国内主要从知识表示、可视化分析、知识抽取、本体建模、应用、知识推理等方面对知识图谱进行研究;国外主要从知识可视化、知识表示、深度学习等方面对知识图谱进行研究。
表1 国内研究文献的高频关键词聚类子群(部分)
表2 国外研究文献的高频关键词聚类子群(部分)
3.3 研究热点分析
根据国内外知识图谱研究文献的高频关键词的聚类分析可知,该研究领域热点主要集中在知识图谱的关键构建与实际应用方面,具体可以归纳为以下几个方面。
(1)本体建模。本体建模是一种描述特定领域知识图谱中知识的概念模板与骨架[19]。本体包含实体层和概念层,知识图谱在此基础上增加实体的信息,以充盈图谱。当前主流的本体构建模式大多是在领域现有本体库的基础上采用自动化构建方法拓展生成。目前,大量的领域本体为第二代互联网发展提供了强有力的支持,中国科学院计算所若干实验室以及美国斯坦福大学知识系统实验室都在对本体建模等进行相关研究。此外,本体也常被用来为知识图谱定义“Schema”(一个领域的概念类型以及这些类型的属性)。
(2)知识表示。知识表示是研究客观世界各类知识如何表示成计算机或者方便机器识别和理解的形式,大多以RDF三元组来描述实体之间的关系,对知识数据进行设计和定义,并用以支持知识的存储与更新,确保上层构建的使用和计算。近年来,随着深度学习的发展,面向知识库中的实体、概念和关系进行表示的知识表示学习成为了主流。Tang等提出了一种具有实体描述、层次类型和文本关系信息的多源知识表示学习(MKRL)模型,实验结果表明多源信息对知识补全任务的有效性[20]。此外,融合跨媒体元素的知识表示、融合时空维度的知识表示也是未来研究的方向。
(3)知识抽取。知识抽取是以实体抽取、事件抽取、关系抽取等形成的研究热点,它是从非结构化、半结构化与结构化的数据中以自动或者半自动的方式抽取实体、关系以及属性等信息的技术。①实体抽取方法大致分为基于规则与词典的方法、基于迁移学习的方法以及基于统计机器学习的方法三类。基于规则的方法依赖专家编写规则,浪费许多人力且规则的扩展性差。彭敏龙等提出仅利用未标记的数据和命名实体字典执行命名实体识别的方法,大大降低了对词典质量的要求。基于迁移学习的实体抽取主要是面向开放域的抽取,包括跨域、跨应用、跨语言三种模式。基于统计机器学习的方法是采用数据进行训练、测试后再进行实体识别[21]。②事件抽取是从数据中抽取事件信息,进行事件触发词的检测与分类、事件元素的识别,包含时间、地点、参与对象等元素,并以结构化和语义化的形式展现。常用方法有基于规则的方法、基于知识库的方法、基于机器学习的方法、基于深度学习的方法以及基于强化学习的方法。基于规则的方法需要资深专家定义好语义框架用来表示事件的抽取方式;基于知识库的方法如刘树林等提出利用FrameNet自动检测事件的方法,提高事件抽取的性能[22];基于机器学习的方法主要利用自然语言处理工具,根据分类任务进行事件抽取;基于深度学习的方法有Joint Model[23]方式等;基于强化学习的方法是将强化学习的思想用于事件抽取,有学者研究了生成对抗式模仿学习的事件提取,提出了一种基于模仿学习框架进行的逆强化学习[24]。③关系抽取是从多领域原始数据中提取实体与实体之间的语义关系,将实体关联起来,逐步形成知识网状结构。关系抽取过程中经常会运用大量监督学习方法。郑孙聪等提出了一种可以将联合提取任务转换为标注问题,研究了不同的端到端模型以直接提取实体及其关系,而无需分别识别实体和关系[25]。随着研究的深入,国内外对于关系抽取还有许多极具建设性的挑战,如资源缺乏、面向开放域、跨语言等方面的知识抽取等。
(4)知识推理。知识推理是指在现有知识的完善程度上,进一步通过各种方法挖掘隐含的知识,能够从现有知识库中发现或新增知识,建立实体之间新的关联,以此拓展知识图谱的知识覆盖面。知识推理可以对实体间的关系、属性以及本体的概念层次框架等进行更深层次的推理。但是研究者们很难列举出全部的推理规则,知识的推理规则大致可以分为以下三类。①基于逻辑的推理包括一阶谓词逻辑、描述逻辑以及规则等。Lu等提出了ORBO算法,降低了算法的时间复杂度,提高了推理效率[26]。②基于统计的推理大多集中在机器学习和统计学习方面,如马尔可夫逻辑网、贝叶斯推断等。王坤等从理论上推导了隐马尔科夫异分布模型的贝叶斯估计方法,以实证分析比较了模型的贝叶斯估计值和真实值的差异,验证了其可靠性[27]。③在基于图的推理中,路径排序算法、不完备知识库的关联规则挖掘较为典型。随着图神经网络的发展,张仲伟等分析了基于神经网络的知识推理方法[28],这种方法的推理能力和泛化能力更强,对知识库中实体关联和文本信息的利用率更高,推理效果更好。
(5)科学知识图谱。2005年,陈悦等首次将“科学知识图谱”概念引入国内[29],随后便得到了研究者的广泛关注。我国多个领域均有涉及利用科学知识图谱对文献进行分析,以探究领域的发展趋势,相关文献也呈激增之势。科学知识图谱是在科学计量学的基础上发展衍生的,它涵盖了计算机科学、信息计量学和图形学等多种学科理论。目前,我国对于科学知识图谱的研究大多在理论、分析方法、分析工具及其应用等方面。
(6)知识图谱的应用。知识图谱的应用领域随着不同时期研究主题的变化而变化,整体趋势呈现多元化、社会化的特点。如在教育领域,崔京菁等构建了基于知识图谱的翻转课堂教学模式,推动了教学研究的发展[30];余胜泉等研发了基于育人知识图谱的“AI好老师”个性化育人助理系统[31]。目前,知识图谱在智能问答、可视化决策、推荐系统、语义搜索等应用中发挥着越来越重要的价值。
4 知识图谱未来研究趋势探析
4.1 知识图谱到认知图谱的进阶
近几年,中国计算机大会举行了以“认知图谱与推理”为主题的论坛,深入探讨了如何构建高质量的大规模认知图谱(Cognitive Graph),并列举智能推理、认知智能等与知识图谱结合应用的实例。如,阿里为改变电商业务中推荐不精确、重复推荐、缺乏新意等问题,提出构建大规模电商认知图谱,将用户需求映射为图谱中的节点,将这些点和电商领域内外的相关知识关联起来,使得商品更好地满足用户的需求[32]。“认知”技术是整个人工智能研发中绕不开的关键技术,认知智能的应用抓手是智能解释,认知图谱可以促进这种“解释”。如,基于用户认知的智能推荐系统充分抓住用户心理,能够为用户进行最满意的推荐。把知识图谱与认知智能相结合,形成认知图谱,这样的图谱先有“认知”,再有“推理”,能够提升用户对智能推荐的满意程度。
在教育领域,建构主义学习理论认为,学习是学习者根据自己的经验,对外部信息进行主动选择、加工和处理的过程[33]。自2011年提出学习分析技术之后,研究者开始依托具有强大语义处理能力的知识图谱开展学习分析的教育研究。目前,素质教育最大的局限性就是学生认知超载,学生常常因教学活动、探究过程的复杂性而感到不堪重负。认知负荷理论认为,只有将认知负荷控制在工作记忆所能承载的范围之内,有效学习才能得以顺利实现[34]。如何降低认知负荷、设置学生学习的复杂梯度和学习路径是一个关键问题。基于知识图谱的个性化学习推荐能够准确把握学习者对知识的认知基础,构建学习者的认知图谱,自动监测学习迁移,通过序列感知的智能推荐为学生提供最适合自己的学习路径,形成个性化学习环境,有效降低学习负荷。如,唐烨伟等构建了一种基于学习者画像的精准个性化学习路径规划框架,以满足学生个性化学习需求[35]。知识图谱以高效的方式向认知图谱进阶,能够促进认知智能时代教育领域更进一步的发展。
4.2 知识图谱构建平台
知识图谱当前正在从通用知识图谱向行业知识图谱的应用拓展。业界亟需一种能够支持知识图谱构建的平台,以构建领域知识图谱。实践发现,构建特定领域知识图谱时,需要与领域专家磨合定制领域知识图谱的Schema。Chen等提出了一种自动化构建方法,能够全面考虑知识复杂梯度以及前驱后继关系[36]。但不论是人工构建方法还是自动化构建方法,在构建过程中都存在依赖专家经验、费时费力等问题。此外,在知识图谱的构建过程中主要针对可编码、可量化的显性知识,在很多情况下没有考虑隐性知识,进而因数据模式的变化带来较高的维护成本,研究者无法构建出“十全十美”的知识图谱来满足变化的需求,这就要求知识图谱能够较易更新与扩展。
2019年3月20日,中国电子技术标准化研究院向IEEE标准协会提报的标准提案《知识图谱架构》正式获批立项[37]。随着信息服务向知识服务的转变,相关机构和专家应根据知识图谱构建的相关方法学构建一个完善、高效的知识图谱平台,提升构建的效率,且能够以低人工投入构建出高质量的知识图谱应用。
4.3 知识图谱的测试评估
现阶段,知识图谱有待向标准化趋势发展,乃至提升整个行业的知识管理和应用水平,但是知识图谱的测试认证相关研究还面临着测试与评估的环节众多、方法缺失、标准空白等问题。通用知识图谱和领域知识图谱的实际应用效果或者构建图谱的模式是否有效,必须经得起科学的评判标准检验。
国内外多数机构均在尝试研究对知识图谱的测试评估。如,2019年全国知识图谱与语义计算大会发布关于知识图谱的主题测评任务[38],对知识图谱领域的学术成果与产业需求进行探讨,促进其技术发展。美国伦斯勒理工学院Tetherless World Constellation研究所则专注研制知识图谱测评系统[39],对多源异构知识图谱中存在的显性错误或者隐性缺陷进行检测和评估。未来,应建立健全知识图谱标准符合性测试评估体系和知识质量评估技术指标,以提高知识图谱的标准化应用,让知识图谱成为教育领域提高教学质量的工具,这已经成为认知智能时代教育信息化发展的重要措施。
4.4 知识图谱关键技术的发展突破
知识图谱是人工智能领域颇受关注的发展方向,但其核心技术方面还存在许多瓶颈。如,如何精确获取知识之间的关联进行关系抽取,如何解决多源异构的歧义、噪声,如何开展面向开放域、跨语言等方向的知识抽取等,这些都是知识图谱拓展领域应用范围面临的难题。此外,基于深度学习的序列标注算法进行高质量的实体识别、基于开放式数据库的远程监督学习以及小样本的抽取和构建问题等,也都尚未与知识图谱构建及应用领域实现深度融合,技术上都有待突破。
知识图谱作为一种图数据结构,亟需通过与自然语言处理、认知科学、超级计算、深度学习、认知计算等技术深度融合,突破知识图谱领域核心构建的技术瓶颈,健全知识图谱领域核心技术体系。另外,研究者应重点关注认知科学领域复杂知识类型的探索,以及研究融合跨媒体元素、时空维度的知识表示[39]等都是未来知识图谱研究需要努力研究的着力点。