基于属性关系深度挖掘的试题知识点标注模型
2019-05-30何彬李心宇陈蓓蕾夏盟曾致中
何彬 李心宇 陈蓓蕾 夏盟 曾致中
摘要 在各类在线学习系统中,为了给学生提供优质的学习资源,一个基础性的任务是对大量未标注的试题进行知识点标注.已有标注方法通常基于人工专家标注或者采用传统机器学习方法.在实际应用中,这些方法普遍存在成本过高、标注精准度不足等局限.为此,本文提出了一種基于属性关系深度挖掘的试题知识点标注模型.首先,利用句法语义模型和结构语义模型分别从试题文本和试题图形中抽取试题的显性属性关系.然后,利用蒙特卡罗树搜索构建问题求解框架,挖掘试题的隐含属性关系.最后,结合学科知识图谱,将属性关系映射到知识图谱空间,生成试题知识点.实验结果表明,所提出的方法能够有效地进行试题知识点标注,将对学生认知诊断、个性化试题推荐等具有一定的实际应用价值.
关键词 知识点标注;属性关系挖掘;句法语义模型;结构语义模型;蒙特卡罗树搜索
中图分类号TP391
文献标志码A
0 引言
随着智能教育和在线教育的发展,学生能够非常便捷地从各类开放学习平台获取个性化学习所需的学习资源.试题作为一种重要的学习资源,在学生认知诊断和个性化学习推荐中被广泛使用.然而,随着在线试题资源的爆发式增长,如何自动准确和高效地进行在线试题知识标注,已成为智能教育背景下精细化适应性学习服务的研究热点.
试题的知识点是描述试题理解以及试题求解用到的知识的集合[1].准确地描述一道试题的知识点,对于根据学生的答题记录诊断其各个知识点的掌握程度,准确定位薄弱环节,进而开展个性化资源推荐和学习服务有极大帮助.本文将研究如何对包含文字和图形的试题进行精准的自动化知识点标注.目前主要存在两种试题知识点标注方法:一是完全由专家对试题进行分析并对试题知识属性进行标定[2].由于知识属性标定的复杂性,当知识属性较多或题量较大时,完全由专家来标定存在工作量大、主观性强、知识粒度太粗等问题.二是在部分试题知识属性标定结果的基础上,采用机器学习的方法对其他试题的知识属性进行估计[3-4].这类方法普遍存在未结合教研经验,知识标注的丰富度不足,尤其对标注语料少的知识点的预测效果极差,要想达到高质量的知识标注效果,语料库建设成本极高.
本文基于人工智能技术自动挖掘试题中的知识属性和知识关联关系,建立适用于基础教育工程学科试题的知识点自动标注框架.该框架使用题目理解技术实现试题知识的自动标注,构建句法语义模型来获取试题文本中显性和隐含的知识信息,利用图形关系抽取技术,提取图形中的知识信息,最后通过与标签库的映射完成知识点标签的自动生成.将本文方法实验结果与人工标注的结果分别与专家标准数据进行对比,验证了该方法的准确性、丰富性和学习性.
本文的主要贡献如下:
1) 提出了一种基于关系挖掘的试题知识点标注方法.该方法通过深度挖据题面直接陈述的以及求解题目过程中隐含的知识关系,全面精准标注试题知识点.
2) 设计了一种文字和图形通用的属性关系挖掘方法,并在初中物理电学试题集上开展了有效性验证.
3) 设计了一种试题隐含属性关系挖掘算法,利用蒙特卡罗树搜索框架,实现初中物理电学问题逻辑关系推理,进而获取问题求解所需的试题隐含属性关系.
1 相关研究
试题知识点标注一般指的是为学习资源添加可以概括其知识内容的信息,包括对学习资源的含义进行理解、抽取学习资源中的核心文本或词汇、对学习资源做知识点的概括等.传统的标注方法以手工标注为主,人为对资源内容进行分析,确定其知识点标签.例如用户使用DOMEO工具[2]通过记笔记和标记等方式添加标签,各科习题集上题目的知识分类也是由人工编辑完成等.随着信息技术的发展,知识点标注技术逐渐转向自动标注,各种自动标注方法被提出,目前常见的方法可以分为以下几类:
1)基于词汇匹配的标注方法,例如词频统计、关键词匹配等.周菊明等[5]提出了学习资源智能标注系统,通过TF-IDF算法获取在当前学习资源中的出现的频率较高,同时在其他文本中相对较少的关键词,将该词作为分类的标签.Vanderwende等[6]通过从文档集中选择句子来生成摘要,统计摘要中词汇出现的概率来完成主题聚焦,最后根据主题进行句子简化,完成简化摘要的自动生成.这类方法可以有效提取出文本资源中的关键词,但是对于文本表达中的隐含信息,比如需要用到的公式定理,却很难在缺少对应关键词的情况下成功挖掘.
2)基于词、本体、知识库、语义网的标注方法,通过文本资源中的特定词汇,构建元数据或知识库,并在此基础上实现标注.如戚欣等[7]提出了一种基于本体知识库的自动语义标注方法,首先根据语义词典的逻辑结构识别到文本中的命名实体,通过语义消歧,完成了校园新闻文本的语义标注.闫喜亮[8]利用表述逻辑的情感词汇本体,实现了网络教育资源情感属性的自动标注.蒋婷[9]通过抽取学科领域的本体术语,然后进行去重整合,结合模板实现本体概念的形成,并构建概念等级与非等级抽取模型,利用元数据和本体概念间的关联实现学术论文的语义标注.何中山[10]针对初中数学领域的学习资源,基于知识本体识别出其中的学科知识内容,然后通过本体距离计算出文档内容聚合度,获取到最相关的文档,根据词频统计提取元数据,实现语义标注.这些方法在各自的部分领域都取得了不错的效果,但在结构化领域知识的自动标注方面其性能还有待提升.
3)基于机器学习的标注方法.知识点标注过程可作为多标签文本分类问题,首先建立文本特征的描述模型,如基于词袋模型(bag-of-words)的向量空间模型(Vector-Space-Model,VSM),将文本表示成词表维度的向量,用来训练SVM、朴素贝叶斯、决策树等分类模型[11-13].针对VSM特征稀疏问题,研究者们进一步提出了LSA、LDA[14-15]等一系列隐语义分类方法,取得了不错效果.然而,试题具有文本短、领域属性强、样本分布不均、标签层次化等特点,无论是向量空间模型还是隐语义分析都仅利用了文本中的浅层语义信息,缺乏对试题短文本词序结构、实体关联等知识语义的有效表达和感知.同时,这些方法也缺乏教育专家知识和层次化标签结构的考虑,导致标注结果的可用性和可解释性不足.
对工程学科而言,图形是试题知识点的另一个主要载体.与传统图形理解不同,图形知识点挖掘需要识别图形符号并解析其表达的知识语义.传统图形理解多集中在图形符号的识别上,如几何图形中的基本几何元素(如点、线和圆)的检测和识别[16]、物理电路图符号识别[17-18]等.這类方法将传统图像处理算法与基于领域知识的结构分析相结合,易于实现.但是由于需要为不同学科设计单独分析算法和结构分析模型,不易扩展和维护.近年来,基于深度学习的end-to-end图形理解方法正逐步发展.通过神经网络模型实现图像元素的分割识别[19],特别是引入注意力机制后,图像元素之间的空间位置信息也能被正确检测,由此形成端到端的图形知识理解方法.该方法在公式理解、图像语义摘要等应用中取得了很好的效果,但是对于语义线索单一、语义模型复杂的领域知识挖掘,仍然面临挑战.
2 试题知识标注框架
试题的属性关系是题面显性和隐含表达的构建问题求解框架所需的知识语义.前期研究发现[20-22],利用文本句法语义模型和图形结构语义模型等题目理解技术挖掘试题属性关系,是获取问题求解所需知识信息的重要和有效技术手段.本文基于上述研究成果,将试题的知识点特征挖掘视为试题的属性关系挖掘问题,进而构建试题知识点标注模型.如图1所示,本文提出的试题知识点标注框架可分为题面关系抽取、隐含关系抽取和知识点标签生成3个主要阶段.
文本属性关系挖掘是指从题目文本中发现知识点语义特征.本文采用优化的句法语义混合模型(Textural Syntax-Semantics,T-S2),通过对学科知识表达中的名词、动词、数词、量词等统计学习,建立知识表达词类、句法模型,发现问题中的知识语义特征.句法分析主要是通过对句子或短语结构的分析,来确定句子中各个词和短语之间的关系以及在句子中的作用,并实现这些关系的层次化表达和句法结构的规范化.语义分析是指将分析得到的句法成分与应用领域中的目标表示相关联.如果依次独立分析,会使语法和语义分离,无法准确获取句法的结构.一个典型的T-S2模型具有如下结构:
在图形属性关系挖掘上,基于学科知识指导图形要素的空间信息和局部连接关系(如电路图中的元件和元件之间的串并联关系等),可以“翻译”成一组确定的数学表达式序列[23],通过迭代的方式检索图形中的局部连接关系,实现题目图形中的知识关系抽取.本文采用优化的结构语义混合模型(Diagram Structure-Semantics,D-S2),建立图形基元与知识语义之间的关联,通过检测图形中的图形基元,实现图形属性关系挖掘.一个典型的D-S2模型具有如下结构:
试题的隐含关系通常是指需要基于试题题面信息,借助知识库、推理引擎等辅助手段才能获取的知识信息,该类知识信息往往体现了试题的真正考察意图.因此挖掘试题的隐含关系对于试题知识点标注的精准度和全面度具有重要意义.本文在试题题面属性关系挖掘的基础上,通过建立学科定理-关系知识库,利用蒙特卡罗树搜索算法(MCTS)构建已知属性关系到待求解属性关系的试题解答关系序列,并将该试题解答关系序列翻译为试题知识点.
据此,建立基于D-S2模型池的图形属性关系挖掘框架,即在传统图形理解的基础上,根据图形对象类别、空间坐标、连接关系等结构特征,建立图形拓扑结构基元的语义描述D-S2模型,实现图形拓扑-结构基元-知识序列的描述模式.构建基于结构收缩的复杂结构图形的结构基元检测方法,实现复杂图形结构预测及图形属性关系抽取.
2.3 隐含关系挖掘
通过关系挖掘所得属性关系集是试题题面知识语义的形式化描述.为了全面描述试题的知识语义,需要进一步挖掘试题求解逻辑中的隐含知识语义.在MCTS框架下,关系序列的挖掘过程被视为关系树搜索过程,搜索从根节点(已知关系)出发,到目标节点(待求解关系)结束,最后将搜索路径转化为关系序列.在选择阶段,需要从当前解题状态S出发向下选择一个最需被拓展的节点N,并选择值最大的子节点反复迭代;对于有未被拓展过的可行动作的节点,该点即是目标节点N;对于已结束的节点,直接进行反向传播.每个被检查节点的被访问次数在该阶段都会增加.在反复迭代后,在底端将找到一个节点,来继续之后步骤.在解题状态S下,对于所有可行动作都已经被拓展过的节点,我们使用SP-MCTS下改进的UCB公式[25]:
在Ni的模拟结束之后,从初始解题状态出发,到N的路径上的所有节点都会根据本次模拟的结果来增加自己的累计评分.在触发求解终止条件或达到迭代次数后结束,选择初始解题状态下的最优子节点作为属性关系连接序列.
2.4 知识点标签生成
由于试题属性关系的抽象性,需要进一步将属性关系映射到知识点空间,生成知识点标签.本文知识点标签生成过程如图2所示,其中的关键步骤是通过知识信息中的关键词和词性模式建立与权威知识库的映射,以此获取知识点标签.
标签模型由关键词、词性模式、数量关系和知识点标签组成,可将其看作一个四元组L=(K,P,R,W),K是关键词,P为词性结构模式,R是数量关系中要求匹配的特定字符串,W是当出现预设的关键词、词性模式和数量关系时对应的知识标签词集,模型池定义为如下结构:
标签生成的具体过程步骤为,依次将各个分句中提取出来的知识信息放入标签模型池中进行匹配,若词性模式P、关键词K,与数量关系R中定义的特定字符串均匹配成功,则与提取出该模型中对应的知识点标签;若三者中出现不同,则使用下一模型继续匹配,直至所有模型均匹配完为止.循环输入每个分句,直至每个分句均得到处理.通过与知识标签库的映射,提取出知识标签.
3 实验结果与分析
3.1 实验数据集描述
为了保证测试数据的代表性和多样性、提高实验结果的可靠性,我们建立了一个名为Circuit1K的初中电学试题库来评估各算法的标注性能.Circuit1K中的试题来自广泛使用的教科书、辅导书和入学考试试卷,通过这些渠道获得的试题并没有经过特意地筛选.这些试题的来源之一是目前七到九年级学生使用的3种主要物理教材,分别由人民教育出版社(人教版)、北京师范大学出版社(北师大版)和上海教育出版社(上教版)出版.另一个来源是人民教育出版社出版的2本广泛使用的辅导书(人教辅导书).最后一个来源是北京、湖北、上海等地2014—2018年的中考试卷.
Circuit1K中共包含1 012道试题,分为2组.一组为纯文本试题(“T”试题),这组试题只有文字描述.另一组为文本和电路图混合试题(“T+S”试题),这组试题既有电路图又有文字描述.Circuit1K中的试题组成详细信息如表1所示.
根据初中物理电路题目中知识点特征以及物理学科特点,我们构建了初中电学知识层次体系,表2为部分初中物理电学知识点层次体系示例.为了保证各算法结果的一致性,本文暂不进行多层知识点标注的结果分析,而是统一转换到二级知识点上进行结果对比分析.
3.2 对比试验方法
为了验证基于属性关系深度挖掘的知识点标注效果,本文将与如下实验方法进行对比:
1)传统机器学习方法.此处选择了朴素贝叶斯(Native Bayes,NB)和支持向量机(Supported Vector Machine,SVM).对试题的题面抽取特征后,对每个知识点进行二分类,通过多个二分类进行多标签预测.
2)卷积神经网络(CNN).首先使用Word2Vector将试题的题面文本转换成词向量,然后通过CNN进行试题深层语义理解,进行多标签预测.考虑到本次测试数据集样本数量少,在词向量生成上,我们同时使用了BERT预训练模型增加模型的稳定性.
指的是在标准数据集上正确但没有被标注上的标签数量.不同算法在Circuit1K上的标注结果比较如图3所示.
本论文提出的标注方法在初中物理电路知识点标注中,知识点的准确率达到了92.26%,F1值也达到了90.62%,均高于基于纯语义挖掘的CNN模型.虽然人工标注标签的准确率为100%,但是与人工标注的数据相比,我们方法的知识点召回率达到了84.08%,而人工方法只有40.79%.这些数据证明了我们提出的学习资源自动标注方法在知识自动标注的准确性和丰富性上具有一定优势.
形成这些差距的原因是,人工方法标注的知识点主要集中在题目待求解的物理元素,以及主要涉及的定理知识中,忽略了题目直陈述信息中的知识点和隐含在定理转换间的知识信息.所以标注结果的准确率会达到100%,但是由于缺少对部分信息的知识点标注,资源标注的全面性不够,造成召回率以及F1值偏低.反之,本文提出的标注方法从题目中的直陈述与隐含信息两个层次进行知识点标注,图中的数据进一步证明了本文提出的方法在初中物理电路题目的资源标注中能获得相对人工标注方法而言更全面丰富的标签.另一方面,无论是传统机器学习方法和深度神经网络方法,由于其仅利用了题面语义、句法等浅层特征,对于试题所蕴含的知识逻辑以及领域知识的理解和挖掘能力有限.
为了进一步检验本文模型在不同级别试题上的知识点标注性能,分别对736个“T+S”型试题和276个“T”型试题进行了独立实验.表3为部分实验结果.
如表3中所示,本文模型在人民教育出版社出版的教科书试题的知识点标注正确率高达97.2%,从北京师范大学出版社(96.7%)和上海教育出版社有限公司(96.1%)出版的教科书中收集的试题集也得到了类似的结果.此外,本文模型在辅导教材(92.4%)和中考试卷(84.3%)上都取得了令人满意的结果,证明了该算法对复杂问题的理解能力.
4 结束语
在线学习资源的试题知识点自动标注是智能教育领域中的重要问题.本文针对人工标注、传统机器学习在知识点标注任务上的不足,提出了基于属性关系深度挖掘的试题知识点标注方法,该方法分为3个步骤:第1步为题面关系抽取;第2步为隐含关系抽取.此2步分别从题面信息抽取和问题求解框架构建的角度挖掘试题浅层语义和深层逻辑属性关系.第3步结合学科知识图谱,将属性关系映射到知识图谱空间,生成试题知识点.通过与多种传统方法对比实验,证明了本文所提出的基于属性关系挖掘的试题知识点标注方法的合理性和有效性.
本文所提出的试题显性属性关系挖掘方法,使用了专家经验设计的文本句法语义模型和图形结构语义模型,后续可考虑从试题信息和试题已标注知识点信息中自动抽取显性属性关系.本文对试题的知识点标注尚未引入知识点层次化信息,后续可考虑基于学科知识图谱对试题的知识点层次进行结构化描述和图谱可视化.
参考文献
References
[1]魏偉,郭崇慧,邢小宇.基于语义关联规则的试题知识点标注及试题推荐[J/OL].数据分析与知识发现:1-14[2019-10-14].http:∥kns.cnki.net/kcms/detail/10.1478.G2.20190909.1423.012.html
WEI Wei,GUO Chonghui,XING Xiaoyu.Knowledge point annotation based on semantic association rules and question recommendation[J/OL].Data Analysis and Knowledge Discovery:1-14[2019-10-14].http:∥kns.cnki.n ̄e ̄t/k ̄c ̄m ̄s/d ̄e ̄t ̄a ̄i ̄l/10.1478.G2.2 ̄0 ̄190909.1423.012.html
[2]Ciccarese P,Ocana M,Clark T.Open semantic annotation of scientific publications using DOMEO[J].Journal of Biomedical Semantics,2012,3(supl 1):S1
[3]刘淇,陈恩红,朱天宇,等.面向在线智慧学习的教育数据挖掘技术研究[J].模式识别与人工智能,2018,31(1):77-90
LIU Qi,CHEN Enhong,ZHU Tianyu,et al.Research on educational data mining for online intelligent learning[J].Pattern Recognition and Artificial Intelligence,2018,31(1):77-90
[4]赵乐,张兴旺.面向LDA主题模型的文本分类研究进展与趋势[J].计算机系统应用,2018,27(8):10-18
ZHAO Le,ZHANG Xingwang.Research progress and trend of text classification for LDA topic model[J].Computer Systems & Applications,2018,27(8):10-18
[5]周菊明,张良龙.学习资源智能标注系统的设计与实现[J].中国教育信息化,2018(7):41-44
ZHOU Juming,ZHANG Lianglong.Learning resources intelligent labeling system design and implementation[J].China Education Info,2018(7):41-44
[6]Vanderwende L,Suzuki H,Brockett C,et al.Beyond SumBasic:task-focused summarization with sentence simplification and lexical expansion[J].Information Processing & Management,2007,43(6):1606-1618
[7]戚欣,肖敏,孙建鹏.基于本体知识库的自动语义标注[J].计算机应用研究,2011,28(5):1742-1744,1747
QI Xin,XIAO Min,SUN Jianpeng.Automatic semantic annotation based on ontology and knowledge base[J].Application Research of Computers,2011,28(5):1742-1744,1747
[8]闫喜亮.基于情感本体的网络教育资源标注模型的设计与实现[D].南京:南京理工大学,2011
YAN Xiliang.Design and implementation of network education resource annotation model based on emotional ontology[D].Nanjing:Nanjing University of Science and Technology,2011
[9]蒋婷.学科领域本体学习及学术资源语义标注研究[D].南京:南京大学,2017
JIANG Ting.Discipline ontology learning and semantic annotation for scientific resources[D].Nanjing:Nanjing University,2017
[10]何中山.基于语义网的初中数学的自动语义标注方法研究与实现[D].成都:电子科技大学,2014
HE Zhongshan.Semantic web-based automatic semantic annotation of junior high school mathematics research and implementation[D].Chengdu:University of Electronic Science and Technology of China,2014
[11]朱远平,戴汝为.基于SVM决策树的文本分类器[J].模式识别与人工智能,2005,18(4):412-416
ZHU Yuanping,DAI Ruwei.Text classifier based on SVM decision tree[J].Pattern Recognition and Artificial Intelligence,2005,18(4):412-416
[12]毛伟,徐蔚然,郭军.基于n-gram语言模型和链状朴素贝叶斯分类器的中文文本分类系统[J].中文信息学报,2006,20(3):29-35
MAO Wei,XU Weiran,GUO Jun.A Chinese text classifier based on n-gram language model and chain augmented naive Bayesian classifier[J].Journal of Chinese Information Processing,2006,20(3):29-35
[13]胡于进,周小玲,凌玲,等.基于向量空间模型的贝叶斯文本分类方法[J].计算机与数字工程,2004,32(6):28-30,77
HU Yujin,ZHOU Xiaoling,LING Ling,et al.A Bayes text classification method based on vector space model[J].Computer & Digital Engineering,2004,32(6):28-30,77
[14]張玉峰,何超.基于潜在语义分析和HS-SVM的文本分类模型研究[J].情报理论与实践,2010,33(7):104-107
ZHANG Yufeng,HE Chao.Research on text categorization model based on latent semantic analysis and HS-SVM[J].Information Studies (Theory & Application),2010,33(7):104-107
[15]楊萌萌,黄浩,程露红,等.基于LDA主题模型的短文本分类[J].计算机工程与设计,2016,37(12):3371-3377
YANG Mengmeng,HUANG Hao,CHENG Luhong,et al.Short text classification based on LDA topic model[J].Computer Engineering and Design,2016,37(12):3371-3377
[16]Chen X Y,Song D,Wang D M.Automated generation of geometric theorems from images of diagrams[J].Annals of Mathematics and Artificial Intelligence,2015,74(3/4):333-358
[17]De P,Mandal S,Bhowmick P.Hierarchical vectorization of electrical drawings in document images by connectivity analysis of symbols and super-components[J].Pattern Recognition and Image Analysis,2017,27(2):309-325
[18]De Sekhar Mandal P,Bhowmick P,Chanda B.Topological simplification of electrical circuits by super-component analysis[C]∥2015 13th International Conference on Document Analysis and Recognition (ICDAR),2015:211-215
[19]Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149
[20]Yu X G,Wang M S,Gan W B,et al.A framework for solving explicit arithmetic word problems and proving plane geometry theorems[J].International Journal of Pattern Recognition and Artificial Intelligence,2019,33(7):1940005
[21]Jian P P,Sun C,Yu X G,et al.An end-to-end algorithm for solving circuit problems[J].International Journal of Pattern Recognition and Artificial Intelligence,2019,33(7):1940004
[22]He B,Jian P P,Xia M,et al.Extracting algebraic relations from circuit images using topology breaking down and shrinking[C]∥Pacific-Rim Symposium on Image and Video Technology,2018:116-130
[23]Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[J].arXiv Preprint,2018,arXiv:1810.04805
[24]Xu K,Wu L F,Wang Z G,et al.Graph2Seq:graph to sequence learning with attention-based neural networks[J].arXiv Preprint,2018,arXiv:1804.00823
[25]Schadd M P D,Winands M H M,Herik H J V D,et al.Single-player Monte-Carlo tree search[J].International Conference on Computers and Games,2008,34(5):3-11
Abstract Online learning systems need to perform the fundamental task of annotating a large number of raw questions to be able to provide students with learning materials of high quality.The existing methods used for this task rely either on labeling by human experts or traditional ways of machine learning.In practical applications,the existing methods are limited by being either labor intensive or inaccurate.In this paper,we propose a method based on the mining of attribute relations to annotate the knowledge points of questions.We first define and extract the explicit attribute relations from the text and diagram of a given question.We then extract the implicit attribute relations of the question using Monte Carlo Tree Search (MCTS) algorithm.Next,we map the attribute relations to the knowledge graph space using a transform model,to generate the knowledge points of the question.The experimental results confirm the effectiveness of the proposed method,which demonstrates practicality for the cognitive diagnosis of students and personalized questions recommendation.
Key words knowledge points annotation;attribute relation mining;syntax-semantics model;structure-semantics model;Monte Carlo Tree Search (MCTS)