电子作业反抄袭检查技术研究
2013-03-05宋丹茹
宋丹茹
摘要:作业电子化是高校教学改革的一种必然趋势,建立一种快速、准确、高效的电子作业反抄袭检查模型能够在一定程度上遏制学生间电子作业相互拷贝,具有十分现实的意义。该文着重分析了文档指纹技术,并采用信息隐藏技术的检查方法,对Hash文档指纹鉴别算法进行改进设计。该方法提高了作业在反抄袭检查中的文本内容和格式的双重检查效率,有效的解决了高校作业电子化存在的实际问题。
关键词:电子作业;抄袭检查;文档指纹;信息隐藏
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2012)36-8679-02
随着计算机应用的普及,高校正在逐步实现作业的电子化和网络化。这种作业形式的改革有效减少了教育资源的浪费,减轻了教师的工作任务,提高了学生获得作业批阅结果的效率,教与学得到了互动。应该说作业的电子化是高校教学改革的一种必然趋势,但随之而来的是电子作业抄袭现象严重。学生抄袭作业时,少则部分复制他人文档,调整文档顺序,内容稍做修改;多则大部分甚至全盘拷贝他人文档。学生对于电子作业的抄袭轻松快捷又不易被识别,这就成为作业改革受到严重困扰的主要因素。
在电子作业的反抄袭检查工作上,教师的手工操作既耗时又费力,尤以高校学生人数众多,涉及的教师面而变得局限性很大。那么,建立一种快速、准确、高校的电子作业反抄袭检查模型若能够有效遏制了学生间电子作业相互拷贝,具有十分现实的意义。目的在于能够极大地提高教学的质量和效率,并有力的促进高校的教育改革。在应用领域抄袭检测算法已成为当前研究的热点话题,尤其是在学术论文的剽窃比对上。而我们能够在平时的教学工作中有效地抵制电子作业的抄袭现象,既能真实反映教学效果又能提高学生自主学习的意识和能力。这不仅是对于教学工作的促进更是培养人教育人的有效途径。
1 抄袭检查技术
计算机技术的发展和网络普遍应用,在无意间方便了很多人进行文章抄袭。其实电子作业抄袭现象是国内外的大学广泛存在的现象,为了有力遏制学生的这种不诚信的行为,国外早在20世纪90年代就开始了相应研究。由于西方语系的特点英语是以空格作为单词间隔,因此英语的抄袭检查方法是通过比较关键词来判断相似性的,效率很高。而中文与外文间存在着巨大的差异性, 强调词法与句法,因此关键词比对较不适用于中文。
目前中文的抄袭检查方法主要有基于字符串的匹配、基于统计的中文分词、文档指纹、句子相似度等。
2 电子作业反抄袭检查的实现
该文主要采用两种方法以实现电子作业的反抄袭检查:数字指纹技术和信息隐藏技术。首先吸取了文数字指纹技术的优势并对于指纹技术的算法(Hash函数)做出改进提出一种基于局部词频的指纹算法。其次很多高校特有应用的实验实习电子作业,此时内容都较为相似,所以该文又增加了基于信息隐藏技术的作业反抄袭检查方法,以对于这类电子作业进行有效的比对。
2.1基于局部词频的指纹技术
文档数字指纹技术是依据生成的待比较的文档指纹,通过在样本库中做对比进行抄袭检测。当相匹配指纹数目超过一定值时,可认定存在抄袭行为。为使其具有推广力,一般会引入松弛因子以提高检测的准确性。指纹生成算法是文档数字指纹技术的关键,一般利用 Hash 函数对文档中的特征标记进行计算,获得整数值。一般需要计算函数。
在高校的电子作业中很多都仅是对作业的句子的长度或词语的先后次序作了调整,内容的变化是较小的,用这种方法就会过度精确,用于检查电子作业效率很低。所以该文对这种算法做出一定改进,提出一种基于词频统计的指纹技术。局部词频统计技术借助于向量空间模型来实现。这种向量空间模型是由句子为单位构成的,并对句子进行关键词提取,并对关键词重新排序构建,根据编码与词频共同获取句子的指纹。依据句子的指纹获取文本相似度,具体的算法描述
2.2信息隐藏技术
在高校学生作业有一些是比较特殊的,例如在机房中完成的实验实习类报告,这类作业的特点是内容大致是相同的。可以在作业的源头采用一些基于信息隐藏的嵌入水印算法。在对作业进行片段拷贝时就在源头嵌入水印,能有效的防止拷贝抄袭的现象发生。这样即使电子作业的内容完全相同也能有效的检查到。不能轻易被破坏。这类作业防抄袭检查的水印嵌入既要求字符格式改变不易被擦觉也要兼顾有较大的信息嵌入量,不需太多的字符就能嵌入进机房的机器号及上机完成作业的时间。
由于人眼的视细胞对颜色敏感度的理论指出人眼对绿色最敏感,其次是红色,而对于蓝色是最不敏感的。而计算机的颜色设置理论是数字化的,所以可以对于RGB()的值中低位的值做秘密信息嵌入。可以对R值和G值改变都改变最低的1位bit,而对B值最低的2位bit。这样就对每个电子文档的字符嵌入了4位bit的信息隐藏,并把这4位二进制作为嵌入信息隐藏1Byte的高4位。同时也可以利用字符下划线的B值最低2位bit,G值的最低1位bit,和R值的最低1位bit来隐藏4位信息。这4位bit作为嵌入信息隐藏1Byte的低4位。
在实际操作中程序所嵌入的信息包括程序读取的机器号及上机时间与机房管理系统数据库配合能准确定位学生的学号、姓名、班级等。当学生完成自己的电子作业过程中点击保存、Word程序自动保存、关闭Word文档时都会触发这一嵌入秘密信息的相关程序的运行,可以在全文实现循环嵌入秘密信息的作用。该反抄袭程序是在打开作业文档时自动运行,能自主识别学生作业中具有抄袭嫌疑的片段,协助教师对学生的作业给出客观评价,有效的对这类作业的抄袭起到屏蔽的作用。
3 结束语
在以往的反抄袭检查中主要是通过文档间内容重叠程度或者相似程度来断定的,相关的检查技术也很多也较成熟。但往往面对的是海量数据或是长文档,并需要对文档字符做精确检查。而在教学过程中的电子作业无论在内容、篇幅和数量方面都有很大差别。
该文的创新点是结合了基于局部词频的指纹技术和嵌入水印的信息隐藏技术,提出了一处主要针对高校的作业特点的反抄袭检查的模型。较为全面的考虑到了这类作业不同于学术剽窃的相关问题,所建立的这种快速、准确、高效的电子作业反抄袭检查模型能够在一定程度上遏制学生间电子作业相互拷贝,具有十分现实的意义。
参考文献:
[1] 蒋波.一种基于三重DES和RSA的综合加密方案[J].微计算机信息,2007(18).
[2] 陈国良.并行算法实践[M].北京:高等教育出版社,2004.
[3] 秦玉平,冷强奎,王秀坤,等. 基于局部词频指纹的论文抄袭检测算法[J].计算机工程,2011(6).
[4] 付兵.基于信息隐藏技术的电子作业防抄袭研究[J].微计算机信息,2009(18).
[5] Glatt.Plagiarism screening program[EB/OL].[2008-04-18].http://www. plagiarism.com/screen.id.htm.
[6] Parsopoulos K E, Vrahatis M. N. On the Computation of All Global Minimizers Through Particle Swarm Optimization[J].IEEE Trans. on Evolutionary Computation,2004.