APP下载

藏文试题知识点抽取方法

2019-02-13德格加安见才让

计算机时代 2019年1期
关键词:知识点

德格加 安见才让

摘  要: 在教育教学信息化的进程中,试题管理系统和组卷系统一直是人们致力研究的一个领域,对教育教学的自动化、高效化和精准化具有重要的现实意义。由于试题知识点的不确定性、多样性和隐蔽性等特点,利用计算机技术自动抽取试题知识一直是该领域的难题之一。文章以藏文版试题为研究对象,通过深入研究试题的结构特点,探索研究了抽取藏文试题知识点的方法,力求提高试题管理和存储的自动化,提升组卷系统的性能和效率。

关键词: 组卷系统; 藏文试题; 知识点; 自动抽取

中图分类号:TP391.1          文献标志码:A     文章编号:1006-8228(2019)01-79-04

Abstract: In the process of education and teaching informationization, the test management system and the test paper generating system have always been one of the areas that people are committed to research, and have important practical significance for the automation, efficiency and precision of education and teaching. Due to the uncertainty, diversity and concealment of the knowledge point of test questions, the use of computer technology to automatically extract knowledge point of test questions has always been one of the problems in this field. This paper takes the Tibetan version of test questions as the research object, through in-depth study of the structural characteristics of test questions, explores how to extract the knowledge points of Tibetan test questions, and strives to improve the automation management and storage of test questions and improve the performance and efficiency of the test paper generating system.

Key words: test paper generating system; Tibetan test questions; knowledge points; automatic extraction

0 引言

计算机技术迅速发展,计算机辅助教学软件相继开发,作为教学辅助系统中的重要组成部分,试题管理系统和组卷系统是人们研究的重要领域之一,在日常教学活动中发挥着积极的作用[1]。国内外对试题管理系统中的组卷算法研究比较多,也提出了一些行之有效的组卷算法,但在试题的知识点抽取方面的研究与实现仍处于空白状态。知识点自动抽取是组卷系统和试题管理系统的智能化和自动化的重要体现,所以,研究抽取试题知识点的方法对提升整个系统的效率具有重要的现实意义。

理工科类试题的出题形式是各式各样的,有纯文字叙述的,有图形的,有表格的,也有多种形式混合的。文字叙述形式的试题以数学式子和符号类居多,而且数学式子和符号是用专门的软件编辑的[2],这对利用计算机处理该类试题增加了很大难度。本文主要针对含有文字叙述性的试题进行研究,探讨试题知识点的抽取方法。

知识点是通过对题目多方面深入理解的基础上才能提取确定的。对于藏文试题,试题的知识点往往表现在题目的中的某个关键字上或者算式中,因此,要确定题目的知识点,首先对藏文试题进行相关的预处理,提取题目中与知识点相关的关键词,最后通过对关键词的分析和判断才能确定其知识点。

1 藏文试题知识点抽取方法

1.1 建立知識点网络

利用计算机技术自动抽取试题知识点,首先要建立一个健全的知识点网络,根据某课程的知识点分布结构,设计合理的知识点网络库,知识点网络成树状结构。比如建立一个人教版初中数学知识点库,首先根据初中数学知识点的分布和编排结构,知识点编排方式有横向上的同级知识点和纵向上的层级知识点,因此,初中数学知识点可以用含有n阶层级的树状形式来表示,如图1所示。

根据人教版初中数学教材大纲中的知识点的编排顺序和原则,综合考虑计算机中易于编程实现,将知识点树状网络结构简化成纵向深度限定为3级;如图2所示。

根据知识点网络的结构,合理设计知识点网络库,将各层级的知识点按结构和层级关系有序存入库中。

1.2 藏文知识点抽取方法

要从一道藏文题目中抽取其知识点,首先对藏文题目进行预处理,包括提取题目中的文字性描述和对文字性描述进行分词,然后提取文字性描述中的数学关键字,最后对关键字结合知识点库计算其权值确定题目中的主要知识点。

⑴ 预处理:藏文题目中除了文字性描述之外,还包含数学中的各种符号、字母和图片等信息,在预处理阶段应把这些非文字性元素剔除,提取其藏文描述部分以便进一步对其进行处理;

⑵ 分词:分词是文字处理中最基础也是最关键的一步,本文所采用的分词方法是基于字典的机械分词方法[3],与一般藏文分词方法的不同之处在于,所使用的字典需要扩充或使用专用的分词字典。因为一般的藏文词典中还未加入数学等现代理工科中的专业数学和词条,如“”等词条。本文中进行扩充原有藏文字典,在原字典中增加中学数学中的专用术语和名词等词条,这样能够保证在分词过程中能够准确的切分出题目中的数学关键字,例如初中藏文试题:

⑶ 剔除噪音:所谓噪音是指对处理和研究主体无实际意义,甚至对研究起负面影响的元素,在提取试题知识点的问题中除了要剔除题目中的无实际意义的连词和停用词等虚词外,还有数学试题中通用的一些动词和指示词也可剔除[4],所以要根据藏文试题的特点,建立一个比较齐全的专用停用词词表,部分停用词如表1所示。

根据表1剔除题目中的停用词后,只保留试题题干中的关键词,如例题⑴中,最后所保留的关键词为<E:\方正创艺5.1\Fit201812\图\dgj藏文5.tif>。

⑷ 确定知识点:经过预处理和分词后,需要剔除其中的停用词和虚词等无实际意义的词,经过这样的处理后用切分出的词中只有数学术语和关键词名词等主要信息,最后用这些关键词去查询知识点网络库中,确定其中的知识点及级别,并赋予相应的知识点权值[5]。如上面的例题中,提取出的关键词为。

一般将提取出的关键词用集合S={v1,v2,…,vn}来表示,用S中的元素vi(1?i?n)查询知识点网络库,根据查询匹配情况确定题目属于哪一类知识点。

2 藏文试题知识点提取算法策略

2.1 知识点数据库设计

根据以上对知识点库的结构分析,三个层级的知识点用三个相互关联的数据表存储,并各表之间创建合适的主外键关系,知识点库E-R图设计为如图3所示。

2.2 知识点提取策略

根据知识点数据库的结构,在算法设计中将知识点库可以表示为三个集合;

集合S={K1,K2,K3}表示整个知识点网络库,则有:

其中知识点ki为kij的上一级知识点,kij为kijz的上一级知识点,这样能保证各级知识点之间的从属关系。

具体算法步骤如下:

Step 1:输入藏文试题;进行预处理,净化等;

Step 2:对净化后题目内容进行分词,剔除停用词和虚词等无实际意义的词,得到题目中的关键数学术语和名词,用S={v1,v2,…,vn}表示;

Step 3:用S中的每个元素vi依次查询表Ki(1?i?3),若vw在Ki中的知识点k匹配成功,则知识点k对于关键字vw的权值设为r=i,否则在下一级知识點表Ki+1中查询匹配,并赋予相应的权值r=i+1(r?3);

Step 4:对匹配成功的所有知识按其权值进行排序,选择其中权值最大的作为该题的知识点。

根据以上步骤确定试题的知识点,算法中的权值代表的是知识点的层级,本文中知识点的层级最大有三级,层级越大,对应的知识点越具体细致,所以选择权值最大的知识点作为试题的知识点。

3 总结

本文主要探究了藏文试题的知识点确定方法,对藏文试题的呈现方式进行了全面分析。由于试题的呈现方式各种各样,以文、图、数学符号和图文混合等形式,本文讨论的试题只限有文字描述或图文并茂的试题,其主要知识点依赖于对文字描述部分的深入分析确定的,但组卷系统等试题管理系统中对试题知识点等属性的设置方面要求较高[6],需要比较准确的设置试题各属性才可以保证整个系统的性能,所以在提取的准确性和适用性方面都存在一定的优化和提升空间。

参考文献(References):

[1] 盖洋侨.智能组卷系统设计与实现[D].大连理工大学,2016.

[2] 才项俄日,张有宜.藏语文试卷的智能生成研究与实现[J].电脑与信息,2015.6.

[3] 刘颖.计算语言学[M].清华大学出版社,2014.

[4] 刘怀兰.基于改进遗传算法的智能组卷模型优化[J].华中科技大学学报,2013.5.

[5] 王淑佩.基于改进自适应遗传算法的组卷研究[J].科学技术与工程,2012.2.

[6] 王慧敏.利用文本相似度改进遗传算法的组卷实现与研究[J].现代电子技术,2016.5.

猜你喜欢

知识点
第十二页 知识点 静候“18”
第十一页 知识点 轰-6K轰炸机
关于口罩 这10大知识点你必须知道
第九页 知识点 QSZ92式半自动手枪
一张图知识点
一张图知识点
第四页 知识点 歼轰-7A
一张图知识点
一张图知识点
一张图知识点