基于文本相似性检索技术解决命题中重题检测问题的实践<br/>——以北京市自学考试命题为例

基于文本相似性检索技术解决命题中重题检测问题的实践
——以北京市自学考试命题为例

2018-05-30沈钢

中国考试 2018年3期

沈钢

（北京教育考试院，北京 100083）

1 问题提出

如何控制复本试卷间试题的重复率是专业考试机构的一个难题。以单个试题为基础的题卡库，重复的试题不仅造成资源浪费和额外的开销，还会严重地影响组卷的质量。以试卷为基础的卷库，试卷重复率超标①试卷重复率超标指的是一张试卷中的试题同复本试卷重题分值之和是否超标，其标准需要参照命题部门的内部标准。，不仅影响考试的公平、公正与测验的效度，还会让社会对考试机构的专业性产生质疑。传统的人工检测既费时，又费力。举例来说，假设题库中已有1 000道试题，需要新添加10道试题，则需要进行10 000次检测，才能完成人工核查试题重复率（以下简称“查重”）。如果要查重新命制试题与全部已考试题，人力根本无法胜任。从多年实际工作的效果来看，通过查重方式不仅效率低下，而且无法全面、准确地统计试题重复率，查重存在很大的风险。鉴于此，我们引用计算机文本相似性检索系统，结合已有的自学考试命题信息管理系统，设计了自学考试试题查重系统。

1.1 文本相似性检索

文本相似性技术是数据挖掘、信息分类、信息检索等电子信息处理研究领域的基础，根据文本的内容属性来度量两个电子文档的相似程度，在论文剽窃检索、稿件查重、版权保护等方面有着广泛的应用。相似试题检测是指把试题库中相似度很高的试题抽取出来，由学科专家来判定它们是否有同时存在的必要性，或由计算机自动筛掉相似度很高的试题[1]。本文提出的试题查重系统是在拓尔思（Text Retrieval System，TRS）相似文本检索软件的基础上，结合自学考试的命题特点二次开发的计算机软件。系统首先对文本进行分词和词性标注，然后使用特征提取技术抽取有用的文本特征，将提取的文本特征表示成文本“指纹”，最后到文档“指纹”库中检索与当前文档相似的文档，并给出文档的相似度量。

1.2 重题与相似试题的界定

在计算试题相似度之前，我们首先要定义重题和相似试题。重题，顾名思义就是完全或者几乎完全雷同的试题。而相似试题是指两道题在形式和内容上有很大的相似之处，但又不完全相同，所产生的效果也是不相同的。例如两道题，“在我国国家秘密的3个等级中，其密级应由县以上单位颁布的是”和“在我国国家秘密的3个等级中，其密级应由市以上单位颁布的是”，题干文字内容非常相近，但一个关键字的区别使两道试题考查了同一个知识点的不同内容，答案也完全不同。

重题不但会造成资源的浪费，还会产生试卷质量的隐患。重题不应该出现在题库中。在卷库的使用中也有严格的限制，需要计算一张试卷中重题的分值是否超标。而相似试题在很多时候对于命题尤其是自学考试命题是有意义的。一本教材的知识点是有限的，题库中不可能完全回避相同知识点的试题。从课程的学习和考试的规律上看，课程的重点内容和重要知识点不仅不能回避，还应该反复考核。一方面，只有考查课程的重点知识才能准确地测量被试的能力；另一方面，如果限制命题教师命制相似试题，则会产生大量的偏题、怪题，从而降低试卷的信度和效度；同时，由于相似试题的考点和试题形式相近，使用相似试题还有助于提高试卷之间的平行性。然而，在实际命题工作中，相似试题的使用也有相应的要求。首先，相似试题不能出现在同一张试卷里，这有可能会造成考核点重复或者试题相互提示的问题；其次，对于相近期次的考试，相似试题的分值也要严格控制，以免考生抓住规律，投机取巧。

1.3 文本检索工具

如何选择文本检索工具是设计试题查重系统时遇到的一个核心问题。经过研究讨论，有以下几种方案可供选择：1）利用数据库产品的全文检索功能。此方案的优点是几乎没有额外研发和采购的成本，但是，查重的指标不清晰，检索的体系封闭，很难做进一步的优化。2）基于文本分词进行比对，可以利用开源社区如Apache的Lucence项目成果。此方案优点是整体技术可控，但未考虑忽略词、同义词的干扰因素，效果不好。3）利用现有文本特征提取和相似度计算的研究成果，选择合适的算法并将算法程序化。此方案的优点是采用的理论可以得到比较权威的证实，但对实验室产品的实际效果缺乏案例支持，而且参数调校耗费大量精力。4）在商业化的文本检索和语义理解产品基础上开发查重系统。此方案的优点是具有类似成功案例的支持，如网页去重、专利查新、论文剽窃检测等领域的应用，并可以开放接口以便于二次开发；此方案的缺点是将付出较为昂贵的成本代价。在考虑自主开发程序的难度以及使用效果后，我们认为，第4种方案更适合本系统的开发，最终选用了业内比较成熟的文本相似性检索软件——拓尔思作为系统的文本检索工具。

2 系统的设计和实现

2.1 试题录入模板

试题电子化是试题查重的基础。因此，试题数据来源的规范以及信息读取的完整与准确是查重系统的先决条件。试题录入模板为命题教师提供了一个方便录入试题和参数的载体，系统通过读取模板文件可以将试题拆分成题干、选项、答案和参数等信息，并批量入库。除上述信息外，试题模板还提供了课程代码、试卷编号、每道试题的题号以及所属题型等内容。试题录入模板采用word文件作为载体，word的录入方式比软件填写方式更容易被命题教师所接受。试题录入模板在word的基础上加入保护区和书签定位，命题教师只允许在保护区内填写内容，保证了命题教师无法随意改动模板的结构。同时，系统通过书签可以精准定位试题或参数的起始位置，并把相关内容抽取出来[2]。

2.2 阈值的设定

本文的阈值是指两道试题的匹配符合程度，数值为0～1之间的实数，共100个等级，数值越大，表明2道试题相似度越高。当取值为1时，表明两道试题完全相同，即重复试题；数值越小，则表明两道试题相似度越低，当取值为0时，表明两道试题完全不同[3]。试题查重系统需要使用者预先设定阈值，系统在查重后会返回大于阈值的试题列表。我们根据自学考试的实际情况，设置不同阈值反复测试，最终将阈值的默认值设置为0.80。根据此阈值检测出的试题，基本覆盖所有相似试题和重题，并把需要人工复核的试题数量控制在一个合理的范围，保证了实际使用的工作效率。另外，针对不同课程的具体情况，使用者也可以手动调整阈值，以达到最佳的查重效果。

2.3 查重系统工作流程

从命题工作程序来看，自学考试命题工作分为分散命题、试题接收、试题入库、试卷生成、试卷校对、试卷验收等环节。目前采用的人工试题查重设置在试卷验收环节，这种工作模式的弊端在于：查重范围有限；需要人工计算试卷重复试题的分数以及与某套试卷中重复试题的分数之和；若发现重复率超标的情况，就要由命题教师补救，工作比较被动。启用试题查重系统后，可以在试题接收环节，即试题入库前进行试题查重，将查重结果立即反馈给学科秘书和命题教师，学科秘书或命题教师可以在第一时间对疑似重复试题进行处理。如果使用者不希望人工干预，只需要把默认阈值设置的高一些，系统也可以完成自动相似试题检测，但自动相似试题检测的缺陷是可能产生误判的现象[1]。

试题查重系统工作流程如图1所示。具体工作流程如下：

图1 试题查重系统流程图

1）命题教师将填好的试题模板交给工作人员，通过命题管理信息系统对试题模板进行加载、拆分，生成试卷包导入系统。

2）工作人员对查重参数进行设置，包括阈值和是否同题型查重（一般为默认）。查重系统对导入的试题文本进行分析，内容包括题干、选项和答案，提取文本特征并与题库中同科目的试题进行对比。

3）系统列出查重结果，包括所有超过阈值的试题、系统对应的已存在题库中的试题题号、试题内容、试题所属试卷的试卷编号等。除此之外，系统还将计算出本次导入试题中超过阈值的试题的分数之和、与某套试卷中疑似重复试题的分数之和，并提供打印查重结果供学科秘书参考。

4）学科秘书对系统给出的查重结果进行人工审核，若确认本套试卷重复试题分数超过命题要求的标准，则反馈给命题教师进行修改。

5）命题教师对重复试题进行修改，将重新编辑后的试题模板导入系统，再次查重后如果确认合格，试题入库。

3 实验结果和讨论

为了测试实际使用效果，我们利用自学考试题库的数据对系统进行测试。选取5门自学考试课程作为测试对象，并对题库中的部分试题进行改造，使其成为相似题和重题，以满足测试的需要。

3.1 准确率和查全率

本文引入衡量信息检索系统性能最重要的2个参数——准确率和查全率。准确率和查全率是广泛用于信息检索和统计学分类领域的2个度量值，用来评价结果的质量。其中，准确率是检索出相关文档数与文档总数的比率，查全率是指检索出的相关文档数和文档库中所有的相关文档数的比率。两者取值在0～1，数值越接近1，准确率或查全率就越高。准确率和查全率的数学公式为：准确率=提取出的正确文本数/提取出的文本数×100%，查全率=提取出的正确文本数/样本中的文本数×100%[4]。

3.2 实验结果

5门课程在题库中共有1 858道试题，我们准备了150道相似试题，50道重题。测试试题分布情况如表1所示。

表1 测试试题分布情况

本次测试统一采用0.80作为查重阈值。首先对查重结果进行逐题分析，判断检索出的试题是否与原题相关，是否属于相似试题或重题。经过对查重结果进行人工统计后，得出测试结果如表2所示。

表2 测试结果

通过测试结果可以看出，相似题和重题的准确率和查全率令人满意。在阈值设置为0.80的情况下，相似题的查全率也可以达到100%。通过综合分析，我们可以归纳出影响查重检测结果的因素主要有：1）题库中试题的总量。目前测试的课程在题库中大约有8～10套的存量题，如果对容量更大的题库进行测试，预计准确率将有所降低。但自学考试题库受自学考试特点所限，实际题库容量不会太大，因此，系统能够满足自学考试题库的需求。2）阈值的大小。阈值的大小直接决定检测出试题的数量和人工处理的工作量。在阈值设置为0.80的情况下，查全率可以达到100%，准确率也达到比较高的标准，人工复核的压力较小。因此，0.80作为默认查重阈值是合理的。3）样本的内容。本次测试的样本是对题库中现有试题进行改造后形成的，对原题内容改动的多少直接影响检测结果。4）人工判断。检索出的试题是否与样本相关，即是否认定为相似题或重题，取决于工作人员的人工判断。本次测试过程的人工判断是由具有丰富命题管理经验的学科秘书负责实施，认定的结果可以被认为是准确的。

4 结语

试题查重系统成功地将文本相似性检索引入到试题查重检测，并很好地融入了现有的命题流程，实现了半自动化的试题查重检索。对5门自学考试课程进行实验测试表明，试题查重的准确率和查全率均达到较高的水平。该系统的应用使控制自学考试试题重复率成为可能，解决了命题管理中复本试卷间重复率超标的难题，节省了人力资源，提高了工作效率和命题质量。该试题查重系统虽是以自学考试题库作为模型设计开发的，但通用性较强，未来可以推广到其他的考试项目。

[1]李峰超.基于领域知识的试题分类及相似试题检测的研究[D].大连:大连海事大学,2009.

[2]沈钢,赵晓茫.自学考试计算机题库管理系统的设计与实践[J].中国考试,2014（4）:55-59.

[3]周舫.汉语句子相似度计算方法及其应用的研究[D].开封:河南大学,2005.

[4]李璐,江葆红,孙红红.如何提高文献信息检索中的查全率与查准率[J].科技文献信息管理,2010（1）:23-25.