知识构建社区知识图谱自动构建的关键问题研究
2019-09-10张义兵徐朝军
张义兵 徐朝军
摘 要:知识建构理论(KB)及其技术环境知识论坛(KF)是当今国际学习科学界具有代表性的知识创新学习理论与技术,代表着21世纪“教与学”的变革方向。从理论研究与实践需求看,知识建构研究的一个瓶颈问题是在持续的知识建构过程中,社区成员在KF平台里形成了海量的“非结构化”“半结构化”数据碎片,KF平台目前只能做浅层次的可视化表达,而难以对其进行结构化的深度分析。本研究围绕知识建构学习社区知识图谱自动构建的关键问题,力图通过建构“人—活动—知识”之间的理论模型,提出借助自然语言处理、语义分析、实体关系发现等知识图谱技术,研发知识图谱构建引擎的方案,进而结合教学实践过程,展示实际应用的路径。
关键词:知识建构学习社区;社区知识图谱;知识论坛;语义分析;实体关系发现
一、问题提出的背景
知识建构理论(Knowledge Building,KB)及其技术环境知识论坛(Knowledge Forum,KF)是国际学习科学(Learning Science)界极具代表性的知识创新学习理论与技术,代表着21世纪“教与学”的变革方向。该理论在欧美、东亚等区域的前瞻性研究中具有很大影响力,一直是学术研究最活跃的课题。在全面深化教育改革的大背景下,该理论也吸引了一些中国的学者开展初步的教学实验,但是总体上,中国的研究尚难以跟上国际发展前沿。[1][2]
知识建构理论的独特之处是强调学生像科学家一样探究真实问题,形成以“观点”(Idea)为中心的多样化知识表征,并且可视化表达在KF平台上,但也由此形成了类型多样、交错复杂的“半结构化”“非结构化”的数据碎片。[3]目前,KF平台能够进行一般社会网络分析,但无法分析复杂互动行为(如反驳、批判、抗辩等);KF也能够做一般的词汇及其增量分析,但是不能分辨含糊的语义、概念的发展跟踪等;KF还能够统计社区成员的参与量、贡献量等基础数据,但不能诊断教学問题,预测教学走向,难以比较社区理论构建与学科课程目标之间的差异等,这些问题也一直极大地困扰着国际知识建构学术共同体。
针对KF 中的“半结构化”“非结构化”数据碎片,近年日渐成熟的知识图谱(Knowledge Graph)技术是解决该问题的最好选择之一。若应用好该技术,就能够理清知识建构学习社区中复杂的人、活动与知识之间的结构关系,能够跟踪与分析人、活动与知识的发展过程,把握个体、群组等的发展变化及差异等。[4]因此,基于KF平台构建知识建构学习社区知识图谱的意义在于:
(1)能够自动挖掘人、活动与知识间的联系,以可视化方式向知识建构学习社区成员反馈结构化的知识,辅助教师与学生进行知识管理。
(2)能够通过构建多层次用户、多样化活动、多类型知识的知识图谱,支持知识建构学习社区的学习分析。
(3)能够通过基于时间线的、与知识建构过程同步的动态数据分析,预测知识建构社区知识的发展走向,辅助社区成员“教与学”的设计。
二、已有研究述评
(一)知识图谱自动构建的相关研究
20世纪60年代末,奎廉(M. R. Quillian)和 西蒙斯(R. F. Simmons)等提出语义网络,提出概念提取和概念之间关系的建模等。随着互联网的发展,网络中愈发丰富的超文本链接和应用链接将互联网上丰富的信息形成巨大的信息网络,给用户信息搜索带来了很大的障碍。[5]2012年,谷歌为增强搜索结果,建立了语义网知识库,并称之为知识图谱。随之,这一概念得到业内的迅速认可和应用。[6]
知识图谱构建的关键技术,包括实体及关系抽取技术、知识融合技术、实体链接技术和知识推理技术;知识图谱构建包含从数据来源到应用等各个环节的相关技术:最初实体关系识别任务在1998年信息理解会议(Message Understanding Conference,MUC)中以MUC-7任务被引入,目的是通过填充关系模板槽的方式抽去文本中特定的关系;1998年后,在自动内容抽取(Automatic Content Extraction,ACE)中被定义为关系检测和识别的任务;2009年ACE并入文本分析会议(Text Analysis Conference,TAC),关系抽取被并入到KBP(Knowledge Base Population)领域的槽填充任务。[7]
基于机器学习的命名实体发现方法,划分为四类:监督、半监督、无监督和混合方法。从实体关系发现任务看,可以分为限定领域(Close Domain)和开放领域(Open IE);从实体关系发现方法上看,经历了从流水线识别方法逐渐过渡到端到端的识别方法。[8]而在知识表示方面,典型的模型有距离模型、单层神经网络模型、双线性模型、神经张量模型、矩阵分解模型、翻译模型以及TranesH、TransR、TransD、TransG、KG2E等各种复杂关系模型和多原组合模型。在知识融合、知识推理等方面,同样也有非常丰富的研究和积淀值得参考和学习。[9][10][11]
(二)知识建构教学平台对知识的结构化处理及不足
知识建构教学平台是以发展社区知识为核心的知识论坛。[12]从哲学层面说,知识论坛是用于支持“世界3”的显性化表达;[13]KF也是以Applet的形式嵌入一些基于统计的评价工具,如Contribution Tool(贡献量分析工具)、Semantic Overlap Tool(语义重叠工具)、Social Network Tool(社会网络分析工具)、Vocabulary Growth Tool(词汇量增长评价工具)等。这些工具从社区成员活动关系、互动用语关键词等角度进行了量化统计,极大地支持了学生知识可视化表征与发展。[14][15]
知识建构学术共同体一直受到困扰的是KF平台上日益增多的人与人、人与知识、知识与知识、知识与活动等多对象间的复杂数据关系,研究者也在不断寻求更多、更好的技术方法对这些数据进行梳理、表征,以更好地支持社区知识的各个环节,促进学生对知识理解加深,缩短知识建构、达成共识的周期。[16]美国明尼苏达大学的陈伯栋通过基于设计的研究探索了有前景的观点工具(Promising Idea Tool),该工具的主要功能是学生自发选择,按照次数排名统计,判断有前景的观点,但是其无法对社区大规模的“观点”进行判断。[17]美国纽约大学张建伟团队开发了观点线程贴图(Idea Thread Mapper,ITM)工具,该工具通过帮助学生回顾那些以互动交流为主题的富有成果的探究性话题,并找出随着时间推移而产生的重要思想,以解决每一个焦点问题,[18]但也只是一般网络行为跟踪,并未涉及深度的语义的分析。日本欧希玛(Oshima)教授团队开发了KBDeX筛选关键词,但是该工具不能进行自动化的处理,需要研究者先手工抽取关键词,再进行数据转换后,利用第三方KBDex才能处理。
从现有研究和实践看,知识建构社区教学工具还有很大的进一步研究和开发的空间。首先,从知识建构主体看,有成员、小组、班级、学校等不同的规模;其次,从知识建构活动过程看,不同的活动形式有不同的环节;再从课程的角度看,不同的教学主题也有不同的知识结构。在这些诸多主体、活动、知识等复杂关系下,都有必要提供合适的工具以支持社区知识建构活动。
(三)知识图谱的自动构建对学习社区的教学支持及其发展动态
知识图谱技术以可视化的方式提供了结构化的知识表征形式,在教育中有广泛的应用。塞加拉(Zegarra E)设计了一种以知识图谱为主要展示形式的学习系统,学生可对图谱中的知识节点进行浏览和学习,并对感兴趣的话题进行深入讨论。研究表明这种形式的学习有助于加强学生对知识的理解和认识,掌握知识点之间的联系以及形成新的知识链接。另外,该系统还对学生话题讨论的结果、进程和热度进行知识图谱形式的可视化展示,以提高学生的同伴学习效率。马丁(Martin S)等针对K12的数学教育设计了名为Better Marks的平台,该平台使用了结合知识图谱的集成分类器来预测在线网络学习中学习者的学习行为。平台摒弃了严格的课程结构,而将所有的学习目标使用知识图谱的形式进行展示,以更好地呈现学习目标的先验知识点,通过记录学生自由的学习行为来分析和提取相应的特征以构建分类器。研究证明,基于知识图谱的集成分类器可以更好地预测学生行为和把握学生的个体差异行为。杨亦鸣使用知识图谱来链接MOOC课程,以课程为节点,体现课程之间相应的关系和先验知识,帮助学生在不同学校开设的课程之间进行更好的选择。[19]冈田(Okada A)的研究表明基于知识图谱建立的开放教育资源更有利于促进意义学习。[20]郝佳等提出运用知识图谱的方式可以帮助学习者更快地锁定学习目标与路径,更高效地进行领域知识的学习。[21]国外有学者提出使用基于语义网络的知识表示模型来组织学习者的知识,认为这种模型可以帮助在线学习者提高显性知识和隐性知识之间的联系,帮助学习者进行有效的知识管理。[22]还有人认为社区中对于某一知识的重用率和讨论率可以体现该社区内对该知识点的认知深度,他们归纳和提取社区成员所有感兴趣的领域,并生成一个以关键词为节点的语义网,每当社区成员提出一个新的观点或问题,就在语义网中查找相关的节点,以此来判断社区中知识的认知深度。[23]
三、需要解决的关键问题
知识图谱技术是一种基于语义网的知识结构化表征技术,其研究在教育方面的应用已经涉入了社区讨论、学生行为预测、知识结构关系分析等多个方面。基于其四个关键技术及基本流程,本研究力图基于KF社区活动数据,首先要建立“人—活动—知识”等数据关系模型,明确知识建构活动形式、流程、社区成员组成等需求,进行划分、重组成员社区活动数据;采用迭代的工程思想,研发知识图谱实时构建引擎;通过教学实践,验证知识图谱工具在知识建构活动中的教学效果,进而优化知识图谱构建引擎的精度和性能,为多形式的知识建构活动提供工具支持。研究技术路线如图1所示。
(一)关键问题之一:知识建构学习社区“人—活动—知识”建模方案
针对知识建构学习社区成员在KF平台里的活动及其产出,活动建模主要包括:
(1)KF社区平台所支持的成员关系,包括教师与学生、学生与学生、个体与小组、小组与小组、个体与班级、小组与班级、班级与班级。
(2)知识建构活动类型与过程,包括基础性活动,如阅读、评论、发展、增建、提升等;讨论活动,如阐述、批判、反驳、抗辩等;生成性活动,如调查、访谈、实验、展示等。
(3)知识类型及其发展过程,包括持续提出的问题,特别是劣构问题、概念、观点、方案、理论等认知制品(Epistemic Artifacts)。
通过对上述的成员活动数据等进行梳理,构建人与人、人与知识、人与活动、知识与知识、知识与活动、活动与活动等方面的理论模型,为下一步知识图谱构建提供相匹配的数据集。
本研究将根据社区成员观点的语义分析以及活动的类型重新编码,形成构建模型的基础数据、统计频次、类型,建立独立的成员关系建模、活动建模、知识建模及复合的“人—活动—知识”模型。
例如,角色关系的建模,先对人及其活动的表现及其相应的用语特征进行分析与编码,如表1所示;在此基础上,进一步归纳出角色归类,如表2所示。
(二)关键问题之二:知识建构活动特征语料库建构
KF中的知识建构活动有基础活动、讨论活动、生成性活动等多种形式,每种活动形式则有多种环节,但是社区成员在知识构建活动中每个环节的语言表达有一定的规律可循。研究者通过查找文献、调查及组织专家讨论,形成初步的特征分析表,如表3所示,通过用户试用等进行信度与效度检测,进而形成初步的语料库原型,后期的系统使用中,还需要运用机器学习相关算法对语料库持续优化。
(三)关键问题之三:知识图谱自动构建引擎研发方案
为了满足社区互动交流文本长度短、需求实时性高、差异性比较等需求,研发涉及如下关键技术。
1.小数据知识图谱构建
在构建知识图谱时,面临着文本短、数据规模较小等问题。在技术上,应能够从短文本、小数据集中抽取实体及实体间的关系,提高短文本概念抽取的准确性。本研究拟采用如下方案提升知识图谱建构过程中的准确性:
(1)采用知识建构活动特征语料库,协助进行知识建构活动数据预分类。
(2)采用短文本分析技术,减少短文本分析過程中语义信息的损失。
知识图谱构建中,实体及实体发现的流程设计如图2(a、b)所示:
2.相似知识图谱相似度计算
在教学应用中,比较两个同学、教学的不同阶段、教学班级社区活动的知识图谱,有助于评价学生学习情况、教学过程等,这就需要对同质的知识图谱进行比较。两个同类知识图谱(G1、G2)之间可能存在如下三种情况,如图3(a、b、c)所示。
從图的节点、边、权重构成看,本选题拟采用知识节点图谱映射、权重加权的方法,计算同质图谱间的相似度,相似度的量化涉及的因素是研究的重点之一。其求解流程思考如表4所示:
3.实时高性能计算
社区成员的知识建构活动是随时发生的,社区活动中的数据是一个不断集聚的过程。知识图谱应该能够支持实时的更新,以动态反映个体、小组及班级的学习变化情况。为提升知识图谱构建引擎的计算性能,本研究拟采取如下技术措施:
(1)累积式知识图谱构建,从知识建构活动进展、过程数据的增进,以累积式、可扩展的策略,动态调整知识图谱中的节点、边及关系权重等。
(2)在软件架构选型上,采用高性能的计算框架,采用业内较为流行的基于内存的流计算,主要平台有Hadoop体系中的Spark Streaming等。
四、知识建构社区知识图谱的教学应用路径
知识建构学习社区的知识图谱应用路径,可以贯穿整个知识建构教育与研究的全过程。其基本应用可以从知识建构教学的基本流程展开。在知识建构初期,知识图谱可以主要用于促进学生问题提出;在知识建构中期,主要在于促进学生观点发表与改进;在知识建构后期,主要用于促进知识建构学习社区理论的协同建构。
知识图谱的可视化表征,首先是建立在对学生的观点表达的基础上可视化处理,比如运用相关算法自动筛选KF社区中的高频词、对KF学习平台中的学习支架使用频次的自动统计……进而热词分析、支架使用雷达图等可视化工具。其次是勾画关键词相关性联结,比如,以初中物理为例,挖掘并搭建初中物理语料库,根据语义相关与文本相似性形成学科全面的概念知识图谱,作为本研究知识图谱自动构建的初步概念原型。再次,针对KF学习平台中学生间的关系强弱、互动频次、交互内容及价值倾向等提出自动量化评价模型,构建多类型知识、多层次用户、多样化活动的知识图谱,提供分析与评价的依据。
参考文献:
[1]满其峰,张义兵,刘瑶,等.小学知识建构社区中的批判性思维研究 [J].电化教育研究,2014,(2):113-120.
[2]赵建华.知识建构的原理与方法[J].电化教育研究,2007(5):9-15.
[3]CHEN B,HONG H Y.Schools as Knowledge-Building Orga-nizations:Thirty Years of Design Research[J].Educational Psych-ologist(S0046-1520),2016,51(2):266-288.
[4]BENGIO Y.Learning Deep Architectures for AI[J].Foundations & Trends in Machine Learning(S1935-8245),2009,2(1):1-127.
[5]DONG X L,GABRILOVICH E,HEITZ G,et al.From Data Fusion to Knowledge Fusion[J].Proceedings of the Vldb Endowment(S2150-8097),2015,7(10):881-892.
[6]史树明.自动和半自动知识提取[J].中国计算机学会通讯,2013, 9(8):65-73.
[7]漆桂林,高桓,吴天星.知识图谱研究进展[J].情报工程,2017, 3(1):4-25.
[8]孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术, 2010,26(6):42-47.
[9]LIU X,ZHANG S,WEI F,et al.Recognizing Named Entities in Tweets[C]//Meeting of the Association for Computational Linguistics:Human Language Technologies.Association for Computational Linguistics,2011:359-367.
[10]刘知远,孙茂松,林衍凯,等.知识表示学习研究进展[J].计算机研究与发展,2016,53(2):1-16.
[11]庄严,李国良,冯建华.知识库实体对齐技术综述[J].计算机研究与发展,2016,(01):165-192.
[12]BEREITER C.Education and Mind in the Knowledge Age[J]. Computer-Mediated Communication Magazine(S1076-027X), 2002,(5):11-27.
[13]卡尔.波普尔.客观知识:一个进化论的研究[M].舒炜光,卓如飞,周柏乔,等译.上海:上海译文出版社,2015.
[14]Marlene Scardamalia,张建伟,孙燕青.知识建构共同体及其支撑环境[J].现代教育技术,2005,15(3):5-13.
[15]LEE E Y C,CHAN C K K,AALST J V.Students Assess-ing Their Own Collaborative Knowledge Building[J].International Journal of Computer-Supported Collaborative Learning(S1556-1615),2006, 1(2):277-307.
[16]JENATTION R,ROUX N L,BORDES A,et al.A Latent Factor Model for Highly Multi-relational Data[C]//Proc of NIPS.Cambridge, MA:MIT Press,2012:3167-3175.
[17]CHEN B ZHANG J.Analytics for Knowledge Creation: Towards Epistemic Agency and Design-Mode Thinking[J]. Journal of Learning Analytics(S1929-7750),2016,3(2):139-163.
[18]Jianwei Zhang,Marlene Scardamalia,Richard Reeve,et al.Designs for Collective Cognitive Responsibility in Knowledge-Building Communities[J].Journal of the Learning Sciences(S1050-8406),2009,18(1):7-44.
[19]YANG Y,LIU H,CARBONELL J,et al.Concept Graph Learn-ing from Educational Data[C]//Eighth ACM International Conference on Web Search and Data Mining.ACM,2015:159-168.
[20]OKADA A,CONNOLLY T.Designing Open Educational Resou-rces through Knowledge Maps to Enhance Meaningful Learning [J]. International Journal of Learning(S1447-9494),2008,15(7):526-532.
[21]HAO J,YAN Y,GONG L,et al.Knowledge Map-based Method for Domain Knowledge Browsing[J].Decision Support Systems(S0167-9236),2014,61(1):106-114.
[22]ZABLITH F,FARAJ S,AZAD B.Organizational Knowledge Generation:Lessons from Online Communities[J].Business Process Management Journal(S1463-7154),2015,22(1):89-101.
[23]CHERGUI O,BEGDOURI A,GROUX-LECLET D.Keyword-Based Similarity Using Automatically Generated Semantic Graph in an Online Community of Practice[M]//Emerging Technologies for Education.2017.